代谢组学数据分析工具：从鉴定到通路富集，一站式生物信息学解决方案

tooluniverse-metabolomics-analysis by mims-harvard/tooluniverse

146 周安装量

1,200 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/mims-harvard/tooluniverse --skill tooluniverse-metabolomics-analysis

数据分析科研工具生物信息学

🇨🇳中文介绍

代谢组学分析

从代谢物鉴定到定量、统计分析、通路解析以及与其他组学层面的整合，提供全面的代谢组学数据分析。

何时使用此技能

触发条件：

用户拥有代谢组学数据（LC-MS、GC-MS、NMR）
关于代谢物丰度或浓度的问题
差异代谢物分析请求
代谢通路分析
包含代谢组学的多组学整合分析
代谢生物标志物发现
通量平衡分析或代谢模型构建
代谢物-酶相关性分析

示例问题：

"分析这份 LC-MS 代谢组学数据以寻找差异代谢物"
"不同条件间哪些代谢通路失调了？"
"识别用于疾病分类的代谢物生物标志物"
"将代谢物水平与酶表达相关联"
"对差异代谢物进行通路富集分析"
"将代谢组学与转录组学数据整合"

核心能力

能力	描述
数据导入	LC-MS、GC-MS、NMR、靶向/非靶向平台
代谢物鉴定	匹配 HMDB、KEGG、PubChem、谱库
质量控制	峰质量、空白扣除、内标归一化
归一化	概率商、总离子流、内标

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

阶段 1：数据导入与鉴定

加载峰表（CSV/TSV）或处理原始谱图（mzML）。根据精确质量（+/- 5 ppm）将特征匹配到 HMDB。分配置信度级别：L1（标准品匹配）、L2（MS/MS 匹配）、L3（仅质量匹配）、L4（未知）。

阶段 2：质量控制

评估 QC 样本中的 CV（拒绝 >30%），计算空白比值（保留 >3 倍空白），过滤缺失值 >50% 的特征。检查内标回收率（95-105% 可接受）。

阶段 3：归一化

提供三种方法：TIC（简单，假设总丰度相似）、PQN（对大幅变化稳健，推荐使用）、内标法（使用加标标准品时最准确）。随后进行 log2 转换或 Pareto 缩放。

阶段 4：探索性分析

PCA 揭示样本分组和批次效应。PLS-DA 提供有监督的分离（报告 R2 和 Q2 以评估模型质量）。标记并调查离群值。

阶段 5：差异分析

Welch's t 检验（两组）或 ANOVA（多组），并进行 Benjamini-Hochberg FDR 校正。显著性阈值：adj. p < 0.05 且 |log2FC| > 1.0。

阶段 6：通路分析

将差异代谢物映射到 KEGG 化合物 ID。执行 MSEA 进行通路富集。考虑拓扑结构：位于通路枢纽（高度/中介中心性高）的代谢物影响更大。

阶段 7：多组学整合

将代谢物水平与酶表达进行相关性分析（Spearman）。预期：底物-酶负相关（消耗），产物-酶正相关（生成）。使用代谢物+基因的联合证据对通路失调进行评分。

完整示例输出请参见 report_template.md。

与 ToolUniverse 的集成

技能	用途	阶段
`tooluniverse-gene-enrichment`	通路富集	阶段 6
`tooluniverse-rnaseq-deseq2`	用于整合的酶表达数据	阶段 7
`tooluniverse-proteomics-analysis`	用于整合的蛋白质水平数据	阶段 7
`tooluniverse-multi-omics-integration`	全面整合	阶段 7

组件	要求
代谢物	至少 50 个已鉴定的代谢物
重复	每个条件至少 3 个重复
质量控制	QC 样本中 CV < 30%，进行空白扣除
统计检验	t 检验或 Wilcoxon 检验并进行 FDR 校正
通路分析	使用 KEGG 或 Reactome 进行 MSEA
报告	包含质量控制、差异代谢物、通路、可视化

鉴定：许多特征仍无法鉴定（级别 4）
覆盖度：无法检测所有代谢物（取决于方法）
定量：相对丰度（无标准品时非绝对定量）
异构体：难以区分结构异构体
离子抑制：基质效应可能影响定量
动态范围：与靶向方法相比有限

code_examples.md - 所有阶段的 Python 代码（数据加载、质量控制、归一化、统计、通路分析）
report_template.md - 完整示例报告（LC-MS 疾病 vs 对照）

🇺🇸English

Metabolomics Analysis

Comprehensive analysis of metabolomics data from metabolite identification through quantification, statistical analysis, pathway interpretation, and integration with other omics layers.

When to Use This Skill

Triggers :

User has metabolomics data (LC-MS, GC-MS, NMR)
Questions about metabolite abundance or concentrations
Differential metabolite analysis requests
Metabolic pathway analysis
Multi-omics integration with metabolomics
Metabolic biomarker discovery
Flux balance analysis or metabolic modeling
Metabolite-enzyme correlation

Example Questions :

"Analyze this LC-MS metabolomics data for differential metabolites"
"Which metabolic pathways are dysregulated between conditions?"
"Identify metabolite biomarkers for disease classification"
"Correlate metabolite levels with enzyme expression"
"Perform pathway enrichment for differential metabolites"
"Integrate metabolomics with transcriptomics data"

Core Capabilities

Capability	Description
Data Import	LC-MS, GC-MS, NMR, targeted/untargeted platforms
Metabolite Identification	Match to HMDB, KEGG, PubChem, spectral libraries
Quality Control	Peak quality, blank subtraction, internal standard normalization
Normalization	Probabilistic quotient, total ion current, internal standards
Statistical Analysis	Univariate and multivariate (PCA, PLS-DA, OPLS-DA)
Differential Analysis	Identify significant metabolite changes
Pathway Enrichment	KEGG, Reactome, BioCyc metabolic pathway analysis
Metabolite-Enzyme Integration	Correlate with expression data
Flux Analysis	Metabolic flux balance analysis (FBA)
Biomarker Discovery	Multi-metabolite signatures

Workflow Overview

Input: Metabolomics Data (Peak Table or Spectra)
    |
    v
Phase 1: Data Import & Metabolite Identification
    |-- Load peak table or process raw spectra
    |-- Match features to HMDB, KEGG (accurate mass +/- 5 ppm)
    |-- Confidence scoring (Level 1-4)
    |
    v
Phase 2: Quality Control & Filtering
    |-- CV in QC samples (<30%)
    |-- Blank subtraction (sample/blank > 3)
    |-- Remove features with >50% missing
    |
    v
Phase 3: Normalization
    |-- Sample-wise: TIC, PQN, or internal standards
    |-- Transformation: log2, Pareto, or auto-scaling
    |-- Batch effect correction (if multi-batch)
    |
    v
Phase 4: Exploratory Analysis
    |-- PCA for sample clustering
    |-- PLS-DA for supervised separation
    |-- Outlier detection
    |
    v
Phase 5: Differential Analysis
    |-- t-test / ANOVA / Wilcoxon
    |-- Fold change + FDR correction
    |-- Volcano plots, heatmaps
    |
    v
Phase 6: Pathway Analysis
    |-- Metabolite set enrichment (MSEA)
    |-- KEGG/Reactome pathway mapping
    |-- Pathway topology (hub/bottleneck metabolites)
    |
    v
Phase 7: Multi-Omics Integration
    |-- Metabolite-enzyme Spearman correlation
    |-- Pathway-level concordance scoring
    |-- Metabolic flux inference
    |
    v
Phase 8: Generate Report
    |-- Summary statistics, differential metabolites
    |-- Pathway diagrams, biomarker panel

Phase Summaries

Phase 1: Data Import & Identification

Load peak tables (CSV/TSV) or process raw spectra (mzML). Match features to HMDB by accurate mass (+/- 5 ppm). Assign confidence levels: L1 (standard match), L2 (MS/MS), L3 (mass only), L4 (unknown).

Phase 2: Quality Control

Assess CV in QC samples (reject >30%), compute blank ratios (keep >3x blank), filter features with >50% missing values. Check internal standard recovery (95-105% acceptable).

Phase 3: Normalization

Three methods available: TIC (simple, assumes similar total abundance), PQN (robust to large changes, recommended), Internal Standard (most accurate with spiked standards). Follow with log2 transform or Pareto scaling.

Phase 4: Exploratory Analysis

PCA reveals sample grouping and batch effects. PLS-DA provides supervised separation (report R2 and Q2 for model quality). Flag and investigate outliers.

Phase 5: Differential Analysis

Welch's t-test (two groups) or ANOVA (multiple groups) with Benjamini-Hochberg FDR correction. Significance thresholds: adj. p < 0.05 and |log2FC| > 1.0.

Phase 6: Pathway Analysis

Map differential metabolites to KEGG compound IDs. Perform MSEA for pathway enrichment. Consider topology: metabolites at pathway hubs (high degree/betweenness centrality) have greater impact.

Phase 7: Multi-Omics Integration

Correlate metabolite levels with enzyme expression (Spearman). Expected: substrate-enzyme negative correlation (consumption), product-enzyme positive correlation (production). Score pathway dysregulation using combined metabolite + gene evidence.

Phase 8: Report

See report_template.md for full example output.

Integration with ToolUniverse

Skill	Used For	Phase
`tooluniverse-gene-enrichment`	Pathway enrichment	Phase 6
`tooluniverse-rnaseq-deseq2`	Enzyme expression for integration	Phase 7
`tooluniverse-proteomics-analysis`	Protein levels for integration	Phase 7
`tooluniverse-multi-omics-integration`	Comprehensive integration	Phase 7

Quantified Minimums

Component	Requirement
Metabolites	At least 50 identified metabolites
Replicates	At least 3 per condition
QC	CV < 30% in QC samples, blank subtraction
Statistical test	t-test or Wilcoxon with FDR correction
Pathway analysis	MSEA with KEGG or Reactome
Report	QC, differential metabolites, pathways, visualizations

Limitations

Identification : Many features remain unidentified (Level 4)
Coverage : Cannot detect all metabolites (depends on method)
Quantification : Relative abundance (not absolute without standards)
Isomers : Difficult to distinguish structural isomers
Ion suppression : Matrix effects can affect quantification
Dynamic range : Limited compared to targeted methods

References

Methods :

MetaboAnalyst: https://doi.org/10.1093/nar/gkab382
XCMS: https://doi.org/10.1021/ac051437y
MSEA: https://doi.org/10.1186/1471-2105-11-395

Databases :

HMDB: https://hmdb.ca
KEGG Compound: https://www.genome.jp/kegg/compound/
Reactome: https://reactome.org

Reference Files

code_examples.md - Python code for all phases (data loading, QC, normalization, statistics, pathway analysis)
report_template.md - Full example report (LC-MS disease vs control)

Weekly Installs

127

Repository

mims-harvard/to…universe

GitHub Stars

1.2K

First Seen

Feb 19, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

codex124

gemini-cli123

opencode123

github-copilot122

cursor120

kimi-cli119

Excel财务建模规范与xlsx文件处理指南：专业格式、零错误公式与数据分析

46,700 周安装