VCF变异分析与注释工具 - 生物信息学SNV/indel/SV处理、ClinVar/gnomAD注释、临床解读

tooluniverse-variant-analysis by mims-harvard/tooluniverse

136 周安装量

1,200 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/mims-harvard/tooluniverse --skill tooluniverse-variant-analysis

科研工具生物信息学数据处理

🇨🇳中文介绍

变异分析与注释

结合本地生物信息学计算与 ToolUniverse 数据库集成的生产就绪 VCF 处理与变异注释技能。旨在回答关于 VCF 数据、突变分类、变异筛选和临床注释的生物信息学分析问题。

何时使用此技能

触发条件：

用户提供 VCF 文件（SNV/indel 或 SV）并询问其内容相关问题
关于变异等位基因频率（VAF）筛选的问题
突变类型分类查询（错义、无义、同义等）
结构变异解释请求（缺失、重复、CNV）
变异注释请求（ClinVar、gnomAD、CADD、dbSNP）
使用 ClinGen 剂量敏感性进行 CNV 致病性评估
队列比较问题
群体频率筛选（SNV 或 SV）
内含子/基因间区变异筛选
基因剂量敏感性查询

示例问题：

"VAF < 0.3 的变异中，有多少比例被注释为错义突变？"
"过滤掉内含子/基因间区变异后，还剩下多少个非参考变异？"
"这个影响 BRCA1 的缺失的临床意义是什么？"
"哪些剂量敏感基因与 chr17 上这个 500kb 的重复区域重叠？"
"有多少变异具有临床意义注释？"
"比较样本间的变异计数"

核心能力

能力	描述
VCF 解析	纯 Python + cyvcf2 解析器。支持 VCF 4.x、gzip 压缩、多样本、SNV/indel/SV
突变分类	将 SO 术语、SnpEff ANN、VEP CSQ、GATK Funcotator 映射到标准类型
VAF 提取

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

阶段 1：VCF 解析

使用 pandas 的场景：

将 VCF 作为结构化数据读取
快速探索性分析
需要操作列和行时

使用 python_implementation 工具的场景：

带有注释提取的生产级解析
多样本 VCF 处理
从 FORMAT 字段提取 VAF
大文件流式处理

vcf_data = parse_vcf("input.vcf")           # Pure Python (always works)
vcf_data = parse_vcf_cyvcf2("input.vcf")    # Fast C-based (if installed)
df = variants_to_dataframe(vcf_data.variants, sample="TUMOR")  # For pandas

阶段 2：变异分类

从注释自动分类：

SnpEff ANN 字段
VEP CSQ 字段
GATK Funcotator FUNCOTATION 字段
标准 INFO 键：EFFECT、EFF、TYPE

支持的突变类型：missense、nonsense、synonymous、frameshift、splice_site、splice_region、inframe_insertion、inframe_deletion、intronic、intergenic、UTR_5、UTR_3、upstream、downstream、stop_lost、start_lost

详见 references/mutation_classification_guide.md 获取完整信息

常见筛选模式：

# Somatic-like variants
criteria = FilterCriteria(
    min_vaf=0.05, max_vaf=0.95,
    min_depth=20, pass_only=True,
    exclude_consequences=["intronic", "intergenic", "upstream", "downstream"]
)

# High-confidence germline
criteria = FilterCriteria(
    min_vaf=0.25, min_depth=30, pass_only=True,
    chromosomes=["1", "2", ..., "22", "X", "Y"]
)

# Rare pathogenic candidates
criteria = FilterCriteria(
    min_depth=20, pass_only=True,
    mutation_types=["missense", "nonsense", "frameshift"]
)

详见 references/vcf_filtering.md 获取所有筛选选项

使用 pandas 的场景：

复杂聚合（groupby、数据透视表）
自定义统计检验
数据探索

使用 python_implementation 的场景：

标准变异统计（Ti/Tv、类型分布）
每样本 VAF/深度摘要
快速突变类型计数

阶段 5：ToolUniverse 注释

何时使用 ToolUniverse 注释工具：

ClinVar 临床意义：使用 MyVariant.info 或 dbSNP 工具
群体频率：使用 MyVariant.info（聚合 gnomAD、ExAC、1000G）
致病性评分：使用 MyVariant.info（聚合 CADD、SIFT、PolyPhen）
后果预测：使用 Ensembl VEP 工具

首先用 rsID 注释变异（最可靠）
使用 MyVariant.info 进行批量注释（聚合多个来源）
限制为顶级变异（max_annotate=50-100）以遵守速率限制
针对特定用例直接查询 dbSNP/gnomAD

MyVariant_query_variants：批量注释（ClinVar、dbSNP、gnomAD、CADD）
dbsnp_get_variant_by_rsid：群体频率
gnomad_get_variant：基本变异元数据
EnsemblVEP_annotate_rsid：后果预测

详见 references/annotation_guide.md 获取详细示例

阶段 6：报告生成

摘要统计（总变异数、类型计数、Ti/Tv）
突变类型分布（包含计数和百分比的表格）
影响分布
染色体分布
VAF 分布（每样本）
临床意义
高频突变基因
变异注释（ClinVar 注释的变异）

阶段 7：结构变异与 CNV 分析

当 VCF 包含 SV 调用时（SVTYPE=DEL/DUP/INV/BND）：

识别受影响的基因（从 VCF 注释或坐标重叠）
查询 ClinGen 剂量敏感性：

clingen = ClinGen_dosage_by_gene(gene_symbol="BRCA1") # Returns: haploinsufficiency_score, triplosensitivity_score
检查群体频率：

gnomad_sv = gnomad_get_sv_by_gene(gene_symbol="BRCA1") # Returns: SVs with AF, AC, AN
分类致病性：
- 致病性：缺失 + HI 评分 = 3，AF < 0.0001
- 可能致病性：缺失 + HI 评分 = 2，AF < 0.001
- 意义未明：HI/TS 评分 = 0-1，AF 0.001-0.01
- 良性：AF > 0.01

ClinGen 剂量评分解读：

3：有充分证据表明剂量致病性（高影响）
2：有一些证据（中等影响）
1：证据很少（低影响）
0：无证据（最小影响）
40：剂量敏感性可能性不大

详见 references/sv_cnv_analysis.md 获取完整的 SV 工作流程

回答 BixBench 问题

模式 1：VAF + 突变类型比例

问题："VAF < X 的变异中，有多少比例被注释为 Y 突变？"

result = answer_vaf_mutation_fraction(
    vcf_path="input.vcf",
    max_vaf=0.3,
    mutation_type="missense",
    sample="TUMOR"
)
# Returns: fraction, total_below_vaf, matching_mutation_type

模式 2：队列比较

问题："队列之间的突变频率差异是什么？"

result = answer_cohort_comparison(
    vcf_paths=["cohort1.vcf", "cohort2.vcf"],
    mutation_type="missense",
    cohort_names=["Treatment", "Control"]
)
# Returns: cohorts, frequency_difference

模式 3：筛选与计数

问题："筛选 X 后，还剩下多少个 Y？"

result = answer_non_reference_after_filter(
    vcf_path="input.vcf",
    exclude_intronic_intergenic=True
)
# Returns: total_input, non_reference, remaining

ToolUniverse 工具参考

工具	何时使用	参数	响应
`MyVariant_query_variants`	批量注释	`query` (rsID/HGVS)	ClinVar、dbSNP、gnomAD、CADD
`dbsnp_get_variant_by_rsid`	群体频率	`rsid`	频率、临床意义
`gnomad_get_variant`	gnomAD 元数据	`variant_id` (CHR-POS-REF-ALT)	基本变异信息
`EnsemblVEP_annotate_rsid`	后果预测	`variant_id` (rsID)	转录本影响

工具	何时使用	参数	响应
`gnomad_get_sv_by_gene`	SV 群体频率	`gene_symbol`	带有 AF、AC、AN 的 SV
`gnomad_get_sv_by_region`	区域 SV 搜索	`chrom`、`start`、`end`	区域内的 SV
`ClinGen_dosage_by_gene`	剂量敏感性	`gene_symbol`	HI/TS 评分、疾病
`ClinGen_dosage_region_search`	区域内剂量敏感基因	`chromosome`、`start`、`end`	所有带有 HI/TS 评分的基因
`ensembl_get_structural_variants`	DGVa/dbVar 中的已知 SV	`chrom`、`start`、`end`、`species`	临床意义

详见 references/annotation_guide.md 获取详细的工具使用示例

模式 1：快速 VCF 摘要

解析 VCF，计算统计信息，生成报告。

report = variant_analysis_pipeline("input.vcf", output_file="report.md")

模式 2：筛选分析

解析 VCF，应用多标准筛选，计算筛选集的统计信息。

report = variant_analysis_pipeline(
    vcf_path="input.vcf",
    filters=FilterCriteria(min_vaf=0.1, min_depth=20, pass_only=True),
    output_file="filtered_report.md"
)

模式 3：注释报告

解析 VCF，用 ClinVar/gnomAD/CADD 注释顶级变异，生成临床报告。

report = variant_analysis_pipeline(
    vcf_path="input.vcf",
    annotate=True,
    max_annotate=50,
    output_file="annotated_report.md"
)

模式 4：BixBench 问题回答

解析 VCF，应用特定筛选器，计算针对性统计信息以回答精确问题。

result = answer_vaf_mutation_fraction(
    vcf_path="input.vcf",
    max_vaf=0.3,
    mutation_type="missense"
)

模式 5：队列比较

解析多个 VCF，比较队列间的突变频率。

result = answer_cohort_comparison(
    vcf_paths=["cohort1.vcf", "cohort2.vcf"],
    mutation_type="missense"
)

何时使用 pandas 与 python_implementation

使用 pandas 的场景：

需要将 VCF 读取为扁平表格
需要进行自定义聚合（groupby、数据透视）
需要与其他数据连接
正在进行探索性数据分析
想要导出到 CSV/Excel

使用 python_implementation 的场景：

需要生产级的 VCF 解析
需要提取 INFO 注释（ANN、CSQ）
需要每样本 VAF/深度提取
需要对突变类型进行分类
需要标准变异统计（Ti/Tv）
需要与 ToolUniverse 注释集成

最佳方法：使用 python_implementation 进行解析/分类，然后转换为 DataFrame 进行自定义分析：

# Parse and classify
vcf_data = parse_vcf("input.vcf")
passing, failing = filter_variants(vcf_data.variants, criteria)

# Convert to DataFrame for custom analysis
df = variants_to_dataframe(passing, sample="TUMOR")

# Now use pandas
missense_high_vaf = df[(df['mutation_type'] == 'missense') & (df['vaf'] >= 0.3)]

突变分类需要 VCF 注释：如果 VCF 的 INFO 中没有 ANN/CSQ/FUNCOTATION，突变类型将显示为"未知"，直到应用 ToolUniverse 注释
多等位基因变异：解析器取第一个 ALT 等位基因进行类型分类
ToolUniverse 注释速率：基于 API，默认限制为每批约 100 个变异以遵守速率限制
gnomAD 工具：仅返回基本元数据（非完整等位基因频率）；使用 MyVariant.info 获取 gnomAD AF
大型 VCF：纯 Python 解析器逐行流式处理；对于包含 >100K 变异的文件，推荐使用 cyvcf2

references/vcf_filtering.md：完整的筛选选项和示例
references/mutation_classification_guide.md：详细的突变类型分类规则
references/annotation_guide.md：ToolUniverse 注释工作流程及示例
references/sv_cnv_analysis.md：完整的 SV/CNV 解读工作流程

scripts/parse_vcf.py：独立的 VCF 解析脚本
scripts/filter_variants.py：命令行变异筛选
scripts/annotate_variants.py：批量变异注释

参见 QUICK_START.md 了解：

Python SDK 示例（管道、问题函数、独立工具）
MCP 对话示例
常见配方（体细胞分析、临床筛查、群体频率）
预期输出格式
故障排除指南

🇺🇸English

Variant Analysis and Annotation

Production-ready VCF processing and variant annotation skill combining local bioinformatics computation with ToolUniverse database integration. Designed to answer bioinformatics analysis questions about VCF data, mutation classification, variant filtering, and clinical annotation.

When to Use This Skill

Triggers :

User provides a VCF file (SNV/indel or SV) and asks questions about its contents
Questions about variant allele frequency (VAF) filtering
Mutation type classification queries (missense, nonsense, synonymous, etc.)
Structural variant interpretation requests (deletions, duplications, CNVs)
Variant annotation requests (ClinVar, gnomAD, CADD, dbSNP)
CNV pathogenicity assessment using ClinGen dosage sensitivity
Cohort comparison questions
Population frequency filtering (SNVs or SVs)
Intronic/intergenic variant filtering
Gene dosage sensitivity queries

Example Questions :

"What fraction of variants with VAF < 0.3 are annotated as missense mutations?"
"After filtering intronic/intergenic variants, how many non-reference variants remain?"
"What is the clinical significance of this deletion affecting BRCA1?"
"Which dosage-sensitive genes overlap this 500kb duplication on chr17?"
"How many variants have clinical significance annotations?"
"Compare variant counts between samples"

Core Capabilities

Capability	Description
VCF Parsing	Pure Python + cyvcf2 parsers. VCF 4.x, gzipped, multi-sample, SNV/indel/SV
Mutation Classification	Maps SO terms, SnpEff ANN, VEP CSQ, GATK Funcotator to standard types
VAF Extraction	Handles AF, AD, AO/RO, NR/NV, INFO AF formats
Filtering	VAF, depth, quality, PASS, variant type, mutation type, consequence, chromosome, SV size
Statistics	Ti/Tv ratio, per-sample VAF/depth stats, mutation type distribution, SV size distribution
Annotation	MyVariant.info (aggregates ClinVar, dbSNP, gnomAD, CADD, SIFT, PolyPhen)
SV/CNV Analysis	gnomAD SV population frequencies, DGVa/dbVar known SVs, ClinGen dosage sensitivity
Clinical Interpretation	ACMG/ClinGen CNV pathogenicity classification using haploinsufficiency/triplosensitivity scores
DataFrame	Convert to pandas for advanced analytics
Reporting	Markdown reports with tables and statistics, SV clinical reports

Workflow Overview

Input VCF File (SNVs/indels or SVs)
    |
    v
Phase 1: Parse VCF
    |-- Pure Python parser (any VCF 4.x)
    |-- cyvcf2 parser (faster, C-based)
    |-- Extract: CHROM, POS, REF, ALT, QUAL, FILTER, INFO, FORMAT, samples
    |-- Extract per-sample: GT, VAF, depth
    |-- Extract annotations from INFO (ANN, CSQ, FUNCOTATION)
    |-- Detect variant class: SNV/indel vs SV/CNV
    |
    v
Phase 2: Classify Variants
    |-- Variant type: SNV, INS, DEL, MNV, COMPLEX, SV
    |-- Mutation type: missense, nonsense, synonymous, frameshift, splice, etc.
    |-- Impact: HIGH, MODERATE, LOW, MODIFIER
    |-- SV type: DEL, DUP, INV, BND, CNV (if structural variant)
    |
    v
Phase 3: Apply Filters
    |-- VAF range (min/max)
    |-- Read depth minimum
    |-- Quality threshold
    |-- PASS only
    |-- Variant/mutation type inclusion/exclusion
    |-- Consequence exclusion (intronic, intergenic)
    |-- Population frequency range
    |-- Chromosome selection
    |-- SV size range (for structural variants)
    |
    v
Phase 4: Compute Statistics
    |-- Variant type distribution
    |-- Mutation type distribution
    |-- Impact distribution
    |-- Chromosome distribution
    |-- Ti/Tv ratio (for SNVs)
    |-- Per-sample VAF/depth stats
    |-- Gene mutation counts
    |-- SV size distribution (for structural variants)
    |
    v
Phase 5: Annotate with ToolUniverse (optional)
    |-- MyVariant.info: ClinVar, dbSNP, gnomAD, CADD, SIFT, PolyPhen
    |-- dbSNP: Population frequencies, gene associations
    |-- gnomAD: Population allele frequencies
    |-- Ensembl VEP: Consequence prediction
    |
    v
Phase 6: Generate Report / Answer Question
    |-- Markdown report with tables
    |-- Direct answer to specific question
    |-- DataFrame for downstream analysis
    |
    v
Phase 7: Structural Variant & CNV Analysis (if SV/CNV detected)
    |-- Annotate with gnomAD SV population frequencies
    |-- Query DGVa/dbVar for known SVs (Ensembl)
    |-- Identify affected genes
    |-- Query ClinGen dosage sensitivity (HI/TS scores)
    |-- Classify pathogenicity (Pathogenic/Likely Pathogenic/VUS/Benign)
    |-- Generate SV clinical report with ACMG/ClinGen guidelines

Phase Summaries

Phase 1: VCF Parsing

Use pandas for :

Reading VCF as structured data
Quick exploratory analysis
When you need to manipulate columns and rows

Use python_implementation tools for :

Production parsing with annotation extraction
Multi-sample VCF handling
VAF extraction from FORMAT fields
Large file streaming

Key functions :

vcf_data = parse_vcf("input.vcf")           # Pure Python (always works)
vcf_data = parse_vcf_cyvcf2("input.vcf")    # Fast C-based (if installed)
df = variants_to_dataframe(vcf_data.variants, sample="TUMOR")  # For pandas

Phase 2: Variant Classification

Automatic classification from annotations :

SnpEff ANN field
VEP CSQ field
GATK Funcotator FUNCOTATION field
Standard INFO keys: EFFECT, EFF, TYPE

Mutation types supported : missense, nonsense, synonymous, frameshift, splice_site, splice_region, inframe_insertion, inframe_deletion, intronic, intergenic, UTR_5, UTR_3, upstream, downstream, stop_lost, start_lost

See references/mutation_classification_guide.md for full details

Phase 3: Filtering

Common filtering patterns :

# Somatic-like variants
criteria = FilterCriteria(
    min_vaf=0.05, max_vaf=0.95,
    min_depth=20, pass_only=True,
    exclude_consequences=["intronic", "intergenic", "upstream", "downstream"]
)

# High-confidence germline
criteria = FilterCriteria(
    min_vaf=0.25, min_depth=30, pass_only=True,
    chromosomes=["1", "2", ..., "22", "X", "Y"]
)

# Rare pathogenic candidates
criteria = FilterCriteria(
    min_depth=20, pass_only=True,
    mutation_types=["missense", "nonsense", "frameshift"]
)

See references/vcf_filtering.md for all filter options

Phase 4: Statistics

Use pandas for :

Complex aggregations (groupby, pivot tables)
Custom statistical tests
Data exploration

Use python_implementation for :

Standard variant statistics (Ti/Tv, type distribution)
Per-sample VAF/depth summary
Quick mutation type counts

Phase 5: ToolUniverse Annotation

When to use ToolUniverse annotation tools :

ClinVar clinical significance : Use MyVariant.info or dbSNP tools
Population frequencies : Use MyVariant.info (aggregates gnomAD, ExAC, 1000G)
Pathogenicity scores : Use MyVariant.info (aggregates CADD, SIFT, PolyPhen)
Consequence prediction : Use Ensembl VEP tools

Best practices :

Annotate variants with rsIDs first (most reliable)
Use MyVariant.info for batch annotation (aggregates multiple sources)
Limit to top variants (max_annotate=50-100) to respect rate limits
Query dbSNP/gnomAD directly for specific use cases

Key tools :

MyVariant_query_variants: Batch annotation (ClinVar, dbSNP, gnomAD, CADD)
dbsnp_get_variant_by_rsid: Population frequencies
gnomad_get_variant: Basic variant metadata
EnsemblVEP_annotate_rsid: Consequence prediction

See references/annotation_guide.md for detailed examples

Phase 6: Report Generation

Report includes :

Summary Statistics (total variants, type counts, Ti/Tv)
Mutation Type Distribution (table with counts and percentages)
Impact Distribution
Chromosome Distribution
VAF Distribution (per-sample)
Clinical Significance
Top Mutated Genes
Variant Annotations (ClinVar-annotated variants)

Phase 7: Structural Variant & CNV Analysis

When VCF contains SV calls (SVTYPE=DEL/DUP/INV/BND):

Identify affected genes (from VCF annotation or coordinate overlap)
Query ClinGen dosage sensitivity :

clingen = ClinGen_dosage_by_gene(gene_symbol="BRCA1") # Returns: haploinsufficiency_score, triplosensitivity_score
Check population frequency :

gnomad_sv = gnomad_get_sv_by_gene(gene_symbol="BRCA1") # Returns: SVs with AF, AC, AN
Classify pathogenicity :
- Pathogenic: Deletion + HI score = 3, AF < 0.0001
- Likely Pathogenic: Deletion + HI score = 2, AF < 0.001
- VUS: HI/TS score = 0-1, AF 0.001-0.01
- Benign: AF > 0.01

ClinGen dosage score interpretation :

3 : Sufficient evidence for dosage pathogenicity (HIGH impact)
2 : Some evidence (MODERATE impact)
1 : Little evidence (LOW impact)
0 : No evidence (MINIMAL impact)
40 : Dosage sensitivity unlikely

See references/sv_cnv_analysis.md for full SV workflow

Answering BixBench Questions

Pattern 1: VAF + Mutation Type Fraction

Question : "What fraction of variants with VAF < X are annotated as Y mutations?"

result = answer_vaf_mutation_fraction(
    vcf_path="input.vcf",
    max_vaf=0.3,
    mutation_type="missense",
    sample="TUMOR"
)
# Returns: fraction, total_below_vaf, matching_mutation_type

Pattern 2: Cohort Comparison

Question : "What is the difference in mutation frequency between cohorts?"

result = answer_cohort_comparison(
    vcf_paths=["cohort1.vcf", "cohort2.vcf"],
    mutation_type="missense",
    cohort_names=["Treatment", "Control"]
)
# Returns: cohorts, frequency_difference

Pattern 3: Filter and Count

Question : "After filtering X, how many Y remain?"

result = answer_non_reference_after_filter(
    vcf_path="input.vcf",
    exclude_intronic_intergenic=True
)
# Returns: total_input, non_reference, remaining

ToolUniverse Tools Reference

SNV/Indel Annotation

Tool	When to Use	Parameters	Response
`MyVariant_query_variants`	Batch annotation	`query` (rsID/HGVS)	ClinVar, dbSNP, gnomAD, CADD
`dbsnp_get_variant_by_rsid`	Population frequencies	`rsid`	Frequencies, clinical significance
`gnomad_get_variant`	gnomAD metadata	`variant_id` (CHR-POS-REF-ALT)

Structural Variant Annotation

Tool	When to Use	Parameters	Response
`gnomad_get_sv_by_gene`	SV population frequency	`gene_symbol`	SVs with AF, AC, AN
`gnomad_get_sv_by_region`	Regional SV search	`chrom`, `start`, `end`	SVs in region
`ClinGen_dosage_by_gene`

See references/annotation_guide.md for detailed tool usage examples

Common Use Patterns

Pattern 1: Quick VCF Summary

Parse VCF, compute statistics, generate report.

report = variant_analysis_pipeline("input.vcf", output_file="report.md")

Pattern 2: Filtered Analysis

Parse VCF, apply multi-criteria filter, compute statistics on filtered set.

report = variant_analysis_pipeline(
    vcf_path="input.vcf",
    filters=FilterCriteria(min_vaf=0.1, min_depth=20, pass_only=True),
    output_file="filtered_report.md"
)

Pattern 3: Annotated Report

Parse VCF, annotate top variants with ClinVar/gnomAD/CADD, generate clinical report.

report = variant_analysis_pipeline(
    vcf_path="input.vcf",
    annotate=True,
    max_annotate=50,
    output_file="annotated_report.md"
)

Pattern 4: BixBench Question Answering

Parse VCF, apply specific filters, compute targeted statistics to answer precise questions.

result = answer_vaf_mutation_fraction(
    vcf_path="input.vcf",
    max_vaf=0.3,
    mutation_type="missense"
)

Pattern 5: Cohort Comparison

Parse multiple VCFs, compare mutation frequencies across cohorts.

result = answer_cohort_comparison(
    vcf_paths=["cohort1.vcf", "cohort2.vcf"],
    mutation_type="missense"
)

When to Use pandas vs python_implementation

Use pandas when :

You need to read VCF as a flat table
You want to do custom aggregations (groupby, pivot)
You need to join with other data
You're doing exploratory data analysis
You want to export to CSV/Excel

Use python_implementation when :

You need production-grade VCF parsing
You need to extract INFO annotations (ANN, CSQ)
You need per-sample VAF/depth extraction
You need to classify mutation types
You need standard variant statistics (Ti/Tv)
You need to integrate with ToolUniverse annotation

Best approach : Use python_implementation for parsing/classification, then convert to DataFrame for custom analysis:

# Parse and classify
vcf_data = parse_vcf("input.vcf")
passing, failing = filter_variants(vcf_data.variants, criteria)

# Convert to DataFrame for custom analysis
df = variants_to_dataframe(passing, sample="TUMOR")

# Now use pandas
missense_high_vaf = df[(df['mutation_type'] == 'missense') & (df['vaf'] >= 0.3)]

Limitations

VCF annotation required for mutation classification : If VCF has no ANN/CSQ/FUNCOTATION in INFO, mutation types will be "unknown" until ToolUniverse annotation is applied
Multi-allelic variants : Parser takes first ALT allele for type classification
ToolUniverse annotation rate : API-based, limited to ~100 variants per batch by default to respect rate limits
gnomAD tool : Returns basic metadata only (not full allele frequencies); use MyVariant.info for gnomAD AF
Large VCFs : Pure Python parser streams line-by-line; cyvcf2 is recommended for files with >100K variants

Reference Documentation

references/vcf_filtering.md : Complete filter options and examples
references/mutation_classification_guide.md : Detailed mutation type classification rules
references/annotation_guide.md : ToolUniverse annotation workflows with examples
references/sv_cnv_analysis.md : Complete SV/CNV interpretation workflow

Utility Scripts

scripts/parse_vcf.py : Standalone VCF parsing script
scripts/filter_variants.py : Command-line variant filtering
scripts/annotate_variants.py : Batch variant annotation

Quick Start

See QUICK_START.md for:

Python SDK examples (pipeline, question functions, individual tools)
MCP conversational examples
Common recipes (somatic analysis, clinical screening, population frequency)
Expected output formats
Troubleshooting guide

Weekly Installs

119

Repository

mims-harvard/to…universe

GitHub Stars

1.2K

First Seen

Feb 19, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

gemini-cli116

codex116

github-copilot115

opencode115

cursor113

kimi-cli112

免费AI数据抓取智能体：自动化收集、丰富与存储网站/API数据

1,100 周安装

VCF变异分析与注释工具 - 生物信息学SNV/indel/SV处理、ClinVar/gnomAD注释、临床解读

🇨🇳中文介绍

变异分析与注释

何时使用此技能

核心能力

相关 Skills

工作流程概述

阶段摘要

阶段 1：VCF 解析

阶段 2：变异分类

阶段 3：筛选

阶段 4：统计

阶段 5：ToolUniverse 注释

阶段 6：报告生成

阶段 7：结构变异与 CNV 分析

回答 BixBench 问题

模式 1：VAF + 突变类型比例

模式 2：队列比较

模式 3：筛选与计数

ToolUniverse 工具参考

SNV/Indel 注释

结构变异注释

常见使用模式

模式 1：快速 VCF 摘要

模式 2：筛选分析

模式 3：注释报告

模式 4：BixBench 问题回答

模式 5：队列比较

何时使用 pandas 与 python_implementation

局限性

参考文档

实用脚本

快速开始

🇺🇸English

Variant Analysis and Annotation

When to Use This Skill

Core Capabilities

Workflow Overview

Phase Summaries

Phase 1: VCF Parsing

Phase 2: Variant Classification

Phase 3: Filtering

Phase 4: Statistics

Phase 5: ToolUniverse Annotation

Phase 6: Report Generation

Phase 7: Structural Variant & CNV Analysis

Answering BixBench Questions

Pattern 1: VAF + Mutation Type Fraction

Pattern 2: Cohort Comparison

Pattern 3: Filter and Count

ToolUniverse Tools Reference

SNV/Indel Annotation

Structural Variant Annotation

Common Use Patterns

Pattern 1: Quick VCF Summary

Pattern 2: Filtered Analysis

Pattern 3: Annotated Report

Pattern 4: BixBench Question Answering

Pattern 5: Cohort Comparison

When to Use pandas vs python_implementation

Limitations

Reference Documentation

Utility Scripts

Quick Start

最新 Skills