Geniml：基因组区间机器学习Python包，支持BED文件嵌入、单细胞ATAC-seq分析

geniml by davila7/claude-code-templates

175 周安装量

24,200 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/davila7/claude-code-templates --skill geniml

AI/机器学习生物信息学数据处理

🇨🇳中文介绍

Geniml：基因组区间机器学习

概述

Geniml 是一个用于基于 BED 文件中的基因组区间数据构建机器学习模型的 Python 包。它提供了学习基因组区域、单细胞和元数据标签嵌入的无监督方法，支持相似性搜索、聚类和下游机器学习任务。

安装

使用 uv 安装 geniml：

uv uv pip install geniml

安装机器学习依赖项（PyTorch 等）：

uv uv pip install 'geniml[ml]'

从 GitHub 安装开发版本：

uv uv pip install git+https://github.com/databio/geniml.git

核心功能

Geniml 提供五个主要功能，每个功能在专门的参考文件中都有详细说明：

1. Region2Vec：基因组区域嵌入

使用 word2vec 风格的学习方法训练基因组区域的无监督嵌入。

适用于： BED 文件的降维、区域相似性分析、下游机器学习的特征向量。

工作流程：

使用参考基因组集（universe）对 BED 文件进行标记化
在标记上训练 Region2Vec 模型
生成区域的嵌入表示

参考： 详细的工作流程、参数和示例请参见 references/region2vec.md。

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

2. BEDspace：区域与元数据的联合嵌入

使用 StarSpace 训练区域集和元数据标签的共享嵌入。

适用于： 元数据感知的搜索、跨模态查询（区域→标签或标签→区域）、基因组内容与实验条件的联合分析。

预处理区域和元数据
训练 BEDspace 模型
计算距离
跨区域和标签进行查询

参考： 详细的工作流程、搜索类型和示例请参见 references/bedspace.md。

3. scEmbed：单细胞染色质可及性嵌入

在单细胞 ATAC-seq 数据上训练 Region2Vec 模型，生成细胞水平的嵌入。

适用于： scATAC-seq 聚类、细胞类型注释、单细胞降维、与 scanpy 工作流程集成。

准备包含峰坐标的 AnnData
预标记化细胞
训练 scEmbed 模型
生成细胞嵌入
使用 scanpy 进行聚类和可视化

参考： 详细的工作流程、参数和示例请参见 references/scembed.md。

4. Consensus Peaks：参考基因组集构建

使用多种统计方法从 BED 文件集合中构建参考峰集（参考基因组集）。

适用于： 创建标记化参考、跨数据集标准化区域、通过统计严谨性定义共识特征。

合并 BED 文件
生成覆盖度轨迹
使用 CC、CCF、ML 或 HMM 方法构建参考基因组集

CC (覆盖度阈值) : 基于简单阈值
CCF (灵活覆盖度阈值) : 边界置信区间
ML (最大似然) : 位置的概率建模
HMM (隐马尔可夫模型) : 复杂状态建模

参考： 方法比较、参数和示例请参见 references/consensus_peaks.md。

5. Utilities：支持工具

用于缓存、随机化、评估和搜索的附加工具。

BBClient : 用于重复访问的 BED 文件缓存
BEDshift : 保留基因组上下文的随机化
Evaluation : 嵌入质量评估指标（轮廓系数、Davies-Bouldin 指数等）
Tokenization : 区域标记化工具（硬标记、软标记、基于参考基因组集）
Text2BedNN : 基因组查询的神经搜索后端

参考： 每个工具的详细用法请参见 references/utilities.md。

基础区域嵌入流程

from geniml.tokenization import hard_tokenization
from geniml.region2vec import region2vec
from geniml.evaluation import evaluate_embeddings

# 步骤 1: 标记化 BED 文件
hard_tokenization(
    src_folder='bed_files/',
    dst_folder='tokens/',
    universe_file='universe.bed',
    p_value_threshold=1e-9
)

# 步骤 2: 训练 Region2Vec
region2vec(
    token_folder='tokens/',
    save_dir='model/',
    num_shufflings=1000,
    embedding_dim=100
)

# 步骤 3: 评估
metrics = evaluate_embeddings(
    embeddings_file='model/embeddings.npy',
    labels_file='metadata.csv'
)

scATAC-seq 分析流程

import scanpy as sc
from geniml.scembed import ScEmbed
from geniml.io import tokenize_cells

# 步骤 1: 加载数据
adata = sc.read_h5ad('scatac_data.h5ad')

# 步骤 2: 标记化细胞
tokenize_cells(
    adata='scatac_data.h5ad',
    universe_file='universe.bed',
    output='tokens.parquet'
)

# 步骤 3: 训练 scEmbed
model = ScEmbed(embedding_dim=100)
model.train(dataset='tokens.parquet', epochs=100)

# 步骤 4: 生成嵌入
embeddings = model.encode(adata)
adata.obsm['scembed_X'] = embeddings

# 步骤 5: 使用 scanpy 聚类
sc.pp.neighbors(adata, use_rep='scembed_X')
sc.tl.leiden(adata)
sc.tl.umap(adata)

参考基因组集构建与评估

# 生成覆盖度
cat bed_files/*.bed > combined.bed
uniwig -m 25 combined.bed chrom.sizes coverage/

# 使用覆盖度阈值构建参考基因组集
geniml universe build cc \
  --coverage-folder coverage/ \
  --output-file universe.bed \
  --cutoff 5 \
  --merge 100 \
  --filter-size 50

# 评估参考基因组集质量
geniml universe evaluate \
  --universe universe.bed \
  --coverage-folder coverage/ \
  --bed-folder bed_files/

Geniml 为主要操作提供命令行界面：

# Region2Vec 训练
geniml region2vec --token-folder tokens/ --save-dir model/ --num-shuffle 1000

# BEDspace 预处理
geniml bedspace preprocess --input regions/ --metadata labels.csv --universe universe.bed

# BEDspace 训练
geniml bedspace train --input preprocessed.txt --output model/ --dim 100

# BEDspace 搜索
geniml bedspace search -t r2l -d distances.pkl -q query.bed -n 10

# 参考基因组集构建
geniml universe build cc --coverage-folder coverage/ --output universe.bed --cutoff 5

# BEDshift 随机化
geniml bedshift --input peaks.bed --genome hg38 --preserve-chrom --iterations 100

何时使用何种工具

在以下情况使用 Region2Vec：

处理批量基因组数据（ChIP-seq、ATAC-seq 等）
需要无元数据的无监督嵌入
跨实验比较区域集
为下游监督学习构建特征

在以下情况使用 BEDspace：

有可用的元数据标签（细胞类型、组织、条件）
需要通过元数据查询区域，或反之
希望为区域和标签构建联合嵌入空间
构建可搜索的基因组数据库

在以下情况使用 scEmbed：

分析单细胞 ATAC-seq 数据
根据染色质可及性对细胞进行聚类
从 scATAC-seq 注释细胞类型
希望与 scanpy 集成

在以下情况使用参考基因组集构建：

需要用于标记化的参考峰集
将多个实验合并为共识集
希望获得统计上严谨的区域定义
为项目构建标准参考

在以下情况使用工具集：

需要缓存远程 BED 文件（BBClient）
为统计生成零模型（BEDshift）
评估嵌入质量（Evaluation）
构建搜索界面（Text2BedNN）

参考基因组集质量至关重要 : 投入时间构建全面、结构良好的参考基因组集
标记化验证 : 在训练前检查覆盖度（理想情况 >80%）
参数调优 : 尝试不同的嵌入维度、学习率和训练轮数
评估 : 始终使用多个指标和可视化来验证嵌入
文档记录 : 记录参数和随机种子以确保可重复性

预标记化 : 对于 scEmbed，始终预标记化细胞以加快训练速度
内存管理 : 大型数据集可能需要批处理或下采样
计算资源 : ML/HMM 参考基因组集方法计算密集
模型缓存 : 使用 BBClient 避免重复下载

与 scanpy : scEmbed 嵌入可作为 adata.obsm 条目无缝集成
与 BEDbase : 使用 BBClient 访问远程 BED 存储库
与 Hugging Face : 导出训练好的模型用于共享和可重复性
与 R : 使用 reticulate 进行 R 集成（参见工具集参考）

Geniml 是 BEDbase 生态系统的一部分：

BEDbase : 基因组区域的统一平台
BEDboss : BED 文件的处理流程
Gtars : 基因组工具和实用程序
BBClient : BEDbase 存储库的客户端

文档 : https://docs.bedbase.org/geniml/
GitHub : https://github.com/databio/geniml
预训练模型 : 可在 Hugging Face（databio 组织）获取
出版物 : 文档中引用了方法论细节

"标记化覆盖度过低"：

检查参考基因组集的质量和完整性
调整 p 值阈值（尝试 1e-6 而不是 1e-9）
确保参考基因组集与基因组组装版本匹配

"训练未收敛"：

调整学习率（尝试 0.01-0.05 范围）
增加训练轮数
检查数据质量和预处理

"内存不足错误"：

为 scEmbed 减小批处理大小
分块处理数据
对单细胞数据使用预标记化

"未找到 StarSpace" (BEDspace)：

单独安装 StarSpace：https://github.com/facebookresearch/StarSpace
正确设置 --path-to-starspace 参数

详细的故障排除和特定于方法的问题，请查阅相应的参考文件。

🇺🇸English

Geniml: Genomic Interval Machine Learning

Overview

Geniml is a Python package for building machine learning models on genomic interval data from BED files. It provides unsupervised methods for learning embeddings of genomic regions, single cells, and metadata labels, enabling similarity searches, clustering, and downstream ML tasks.

Installation

Install geniml using uv:

uv uv pip install geniml

For ML dependencies (PyTorch, etc.):

uv uv pip install 'geniml[ml]'

Development version from GitHub:

uv uv pip install git+https://github.com/databio/geniml.git

Core Capabilities

Geniml provides five primary capabilities, each detailed in dedicated reference files:

1. Region2Vec: Genomic Region Embeddings

Train unsupervised embeddings of genomic regions using word2vec-style learning.

Use for: Dimensionality reduction of BED files, region similarity analysis, feature vectors for downstream ML.

Workflow:

Tokenize BED files using a universe reference
Train Region2Vec model on tokens
Generate embeddings for regions

Reference: See references/region2vec.md for detailed workflow, parameters, and examples.

2. BEDspace: Joint Region and Metadata Embeddings

Train shared embeddings for region sets and metadata labels using StarSpace.

Use for: Metadata-aware searches, cross-modal queries (region→label or label→region), joint analysis of genomic content and experimental conditions.

Workflow:

Preprocess regions and metadata
Train BEDspace model
Compute distances
Query across regions and labels

Reference: See references/bedspace.md for detailed workflow, search types, and examples.

3. scEmbed: Single-Cell Chromatin Accessibility Embeddings

Train Region2Vec models on single-cell ATAC-seq data for cell-level embeddings.

Use for: scATAC-seq clustering, cell-type annotation, dimensionality reduction of single cells, integration with scanpy workflows.

Workflow:

Prepare AnnData with peak coordinates
Pre-tokenize cells
Train scEmbed model
Generate cell embeddings
Cluster and visualize with scanpy

Reference: See references/scembed.md for detailed workflow, parameters, and examples.

4. Consensus Peaks: Universe Building

Build reference peak sets (universes) from BED file collections using multiple statistical methods.

Use for: Creating tokenization references, standardizing regions across datasets, defining consensus features with statistical rigor.

Workflow:

Combine BED files
Generate coverage tracks
Build universe using CC, CCF, ML, or HMM method

Methods:

CC (Coverage Cutoff) : Simple threshold-based
CCF (Coverage Cutoff Flexible) : Confidence intervals for boundaries
ML (Maximum Likelihood) : Probabilistic modeling of positions
HMM (Hidden Markov Model) : Complex state modeling

Reference: See references/consensus_peaks.md for method comparison, parameters, and examples.

5. Utilities: Supporting Tools

Additional tools for caching, randomization, evaluation, and search.

Available utilities:

BBClient : BED file caching for repeated access
BEDshift : Randomization preserving genomic context
Evaluation : Metrics for embedding quality (silhouette, Davies-Bouldin, etc.)
Tokenization : Region tokenization utilities (hard, soft, universe-based)
Text2BedNN : Neural search backends for genomic queries

Reference: See references/utilities.md for detailed usage of each utility.

Common Workflows

Basic Region Embedding Pipeline

from geniml.tokenization import hard_tokenization
from geniml.region2vec import region2vec
from geniml.evaluation import evaluate_embeddings

# Step 1: Tokenize BED files
hard_tokenization(
    src_folder='bed_files/',
    dst_folder='tokens/',
    universe_file='universe.bed',
    p_value_threshold=1e-9
)

# Step 2: Train Region2Vec
region2vec(
    token_folder='tokens/',
    save_dir='model/',
    num_shufflings=1000,
    embedding_dim=100
)

# Step 3: Evaluate
metrics = evaluate_embeddings(
    embeddings_file='model/embeddings.npy',
    labels_file='metadata.csv'
)

scATAC-seq Analysis Pipeline

import scanpy as sc
from geniml.scembed import ScEmbed
from geniml.io import tokenize_cells

# Step 1: Load data
adata = sc.read_h5ad('scatac_data.h5ad')

# Step 2: Tokenize cells
tokenize_cells(
    adata='scatac_data.h5ad',
    universe_file='universe.bed',
    output='tokens.parquet'
)

# Step 3: Train scEmbed
model = ScEmbed(embedding_dim=100)
model.train(dataset='tokens.parquet', epochs=100)

# Step 4: Generate embeddings
embeddings = model.encode(adata)
adata.obsm['scembed_X'] = embeddings

# Step 5: Cluster with scanpy
sc.pp.neighbors(adata, use_rep='scembed_X')
sc.tl.leiden(adata)
sc.tl.umap(adata)

Universe Building and Evaluation

# Generate coverage
cat bed_files/*.bed > combined.bed
uniwig -m 25 combined.bed chrom.sizes coverage/

# Build universe with coverage cutoff
geniml universe build cc \
  --coverage-folder coverage/ \
  --output-file universe.bed \
  --cutoff 5 \
  --merge 100 \
  --filter-size 50

# Evaluate universe quality
geniml universe evaluate \
  --universe universe.bed \
  --coverage-folder coverage/ \
  --bed-folder bed_files/

CLI Reference

Geniml provides command-line interfaces for major operations:

# Region2Vec training
geniml region2vec --token-folder tokens/ --save-dir model/ --num-shuffle 1000

# BEDspace preprocessing
geniml bedspace preprocess --input regions/ --metadata labels.csv --universe universe.bed

# BEDspace training
geniml bedspace train --input preprocessed.txt --output model/ --dim 100

# BEDspace search
geniml bedspace search -t r2l -d distances.pkl -q query.bed -n 10

# Universe building
geniml universe build cc --coverage-folder coverage/ --output universe.bed --cutoff 5

# BEDshift randomization
geniml bedshift --input peaks.bed --genome hg38 --preserve-chrom --iterations 100

When to Use Which Tool

Use Region2Vec when:

Working with bulk genomic data (ChIP-seq, ATAC-seq, etc.)
Need unsupervised embeddings without metadata
Comparing region sets across experiments
Building features for downstream supervised learning

Use BEDspace when:

Metadata labels available (cell types, tissues, conditions)
Need to query regions by metadata or vice versa
Want joint embedding space for regions and labels
Building searchable genomic databases

Use scEmbed when:

Analyzing single-cell ATAC-seq data
Clustering cells by chromatin accessibility
Annotating cell types from scATAC-seq
Integration with scanpy is desired

Use Universe Building when:

Need reference peak sets for tokenization
Combining multiple experiments into consensus
Want statistically rigorous region definitions
Building standard references for a project

Use Utilities when:

Need to cache remote BED files (BBClient)
Generating null models for statistics (BEDshift)
Evaluating embedding quality (Evaluation)
Building search interfaces (Text2BedNN)

Best Practices

General Guidelines

Universe quality is critical : Invest time in building comprehensive, well-constructed universes
Tokenization validation : Check coverage (>80% ideal) before training
Parameter tuning : Experiment with embedding dimensions, learning rates, and training epochs
Evaluation : Always validate embeddings with multiple metrics and visualizations
Documentation : Record parameters and random seeds for reproducibility

Performance Considerations

Pre-tokenization : For scEmbed, always pre-tokenize cells for faster training
Memory management : Large datasets may require batch processing or downsampling
Computational resources : ML/HMM universe methods are computationally intensive
Model caching : Use BBClient to avoid repeated downloads

Integration Patterns

With scanpy : scEmbed embeddings integrate seamlessly as adata.obsm entries
With BEDbase : Use BBClient for accessing remote BED repositories
With Hugging Face : Export trained models for sharing and reproducibility
With R : Use reticulate for R integration (see utilities reference)

Related Projects

Geniml is part of the BEDbase ecosystem:

BEDbase : Unified platform for genomic regions
BEDboss : Processing pipeline for BED files
Gtars : Genomic tools and utilities
BBClient : Client for BEDbase repositories

Additional Resources

Documentation : https://docs.bedbase.org/geniml/
GitHub : https://github.com/databio/geniml
Pre-trained models : Available on Hugging Face (databio organization)
Publications : Cited in documentation for methodological details

Troubleshooting

"Tokenization coverage too low":

Check universe quality and completeness
Adjust p-value threshold (try 1e-6 instead of 1e-9)
Ensure universe matches genome assembly

"Training not converging":

Adjust learning rate (try 0.01-0.05 range)
Increase training epochs
Check data quality and preprocessing

"Out of memory errors":

Reduce batch size for scEmbed
Process data in chunks
Use pre-tokenization for single-cell data

"StarSpace not found" (BEDspace):

Install StarSpace separately: https://github.com/facebookresearch/StarSpace
Set --path-to-starspace parameter correctly

For detailed troubleshooting and method-specific issues, consult the appropriate reference file.

Weekly Installs

116

Repository

davila7/claude-…emplates

GitHub Stars

22.6K

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

claude-code98

opencode91

gemini-cli87

cursor87

antigravity82

codex76

AI 代码实施计划编写技能 | 自动化开发任务分解与 TDD 流程规划工具

50,900 周安装

Geniml：基因组区间机器学习Python包，支持BED文件嵌入、单细胞ATAC-seq分析

🇨🇳中文介绍

Geniml：基因组区间机器学习

概述

安装

核心功能

1. Region2Vec：基因组区域嵌入

相关 Skills

2. BEDspace：区域与元数据的联合嵌入

3. scEmbed：单细胞染色质可及性嵌入

4. Consensus Peaks：参考基因组集构建

5. Utilities：支持工具

常见工作流程

基础区域嵌入流程

scATAC-seq 分析流程

参考基因组集构建与评估

命令行参考

何时使用何种工具

最佳实践

通用指南

性能考量

集成模式

相关项目

附加资源

故障排除

🇺🇸English

Geniml: Genomic Interval Machine Learning

Overview

Installation

Core Capabilities

1. Region2Vec: Genomic Region Embeddings

2. BEDspace: Joint Region and Metadata Embeddings

3. scEmbed: Single-Cell Chromatin Accessibility Embeddings

4. Consensus Peaks: Universe Building

5. Utilities: Supporting Tools

Common Workflows

Basic Region Embedding Pipeline

scATAC-seq Analysis Pipeline

Universe Building and Evaluation

CLI Reference

When to Use Which Tool

Best Practices

General Guidelines

Performance Considerations

Integration Patterns

Related Projects

Additional Resources

Troubleshooting

最新 Skills