AnnData Python 包教程：单细胞基因组学数据处理与分析框架

anndata by davila7/claude-code-templates

194 周安装量

24,300 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/davila7/claude-code-templates --skill anndata

Python Web框架生物信息学数据处理

🇨🇳中文介绍

AnnData

概述

AnnData 是一个用于处理带注释数据矩阵的 Python 包，它将实验测量数据 (X) 与观测元数据 (obs)、变量元数据 (var) 以及多维注释 (obsm, varm, obsp, varp, uns) 一同存储。最初通过 Scanpy 为单细胞基因组学设计，现已成为处理任何需要高效存储、操作和分析的带注释数据的通用框架。

何时使用此技能

在以下情况时使用此技能：

创建、读取或写入 AnnData 对象
处理 h5ad、zarr 或其他基因组学数据格式
进行单细胞 RNA-seq 分析
管理包含稀疏矩阵或支持后端模式的大型数据集
拼接多个数据集或实验批次
对带注释数据进行子集划分、过滤或转换
与 scanpy、scvi-tools 或其他 scverse 生态系统工具集成

安装

uv pip install anndata

# 安装可选依赖项
uv pip install anndata[dev,test,doc]

快速开始

创建 AnnData 对象

import anndata as ad
import numpy as np
import pandas as pd

# 最小化创建
X = np.random.rand(100, 2000)  # 100 个细胞 × 2000 个基因
adata = ad.AnnData(X)

# 包含元数据
obs = pd.DataFrame({
    'cell_type': ['T cell', 'B cell'] * 50,
    'sample': ['A', 'B'] * 50
}, index=[f'cell_{i}' for i in range(100)])

var = pd.DataFrame({
    'gene_name': [f'Gene_{i}' for i in range(2000)]
}, index=[f'ENSG{i:05d}' for i in range(2000)])

adata = ad.AnnData(X=X, obs=obs, var=var)

读取数据

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

2. 输入/输出操作

以多种格式读写数据，支持压缩、后端模式和云存储。

参见：references/io_operations.md 获取关于以下内容的详细信息：

原生格式 (h5ad, zarr)
替代格式 (CSV, MTX, Loom, 10X, Excel)
大型数据集的后端模式
远程数据访问
格式转换
性能优化

# 读/写 h5ad
adata = ad.read_h5ad('data.h5ad', backed='r')
adata.write_h5ad('output.h5ad', compression='gzip')

# 读取 10X 数据
adata = ad.read_10x_h5('filtered_feature_bc_matrix.h5')

# 读取 MTX 格式
adata = ad.read_mtx('matrix.mtx').T

沿观测或变量方向灵活组合多个 AnnData 对象，支持多种连接策略。

参见：references/concatenation.md 获取关于以下内容的全面介绍：

基本拼接 (axis=0 用于观测，axis=1 用于变量)
连接类型 (inner, outer)
合并策略 (same, unique, first, only)
使用标签跟踪数据来源
惰性拼接 (AnnCollection)
大型数据集的磁盘拼接

# 拼接观测（合并样本）
adata = ad.concat(
    [adata1, adata2, adata3],
    axis=0,
    join='inner',
    label='batch',
    keys=['batch1', 'batch2', 'batch3']
)

# 拼接变量（合并模态）
adata = ad.concat([adata_rna, adata_protein], axis=1)

# 惰性拼接
from anndata.experimental import AnnCollection
collection = AnnCollection(
    ['data1.h5ad', 'data2.h5ad'],
    join_obs='outer',
    label='dataset'
)

高效地转换、划分子集、过滤和重组数据。

参见：references/manipulation.md 获取关于以下内容的详细指导：

划分子集 (通过索引、名称、布尔掩码、元数据条件)
转置
复制 (完整副本与视图)
重命名 (观测、变量、类别)
类型转换 (字符串到分类变量、稀疏/稠密)
添加/移除数据组件
重新排序
质量控制过滤

# 按元数据划分子集
filtered = adata[adata.obs['quality_score'] > 0.8]
hv_genes = adata[:, adata.var['highly_variable']]

# 转置
adata_T = adata.T

# 复制与视图
view = adata[0:100, :]  # 视图（轻量级引用）
copy = adata[0:100, :].copy()  # 独立副本

# 将字符串转换为分类变量
adata.strings_to_categoricals()

遵循内存效率、性能和可重复性方面的推荐模式。

参见：references/best_practices.md 获取关于以下内容的指导原则：

内存管理 (稀疏矩阵、分类变量、后端模式)
视图与副本
数据存储优化
性能优化
处理原始数据
元数据管理
可重复性
错误处理
与其他工具集成
常见陷阱与解决方案

# 对稀疏数据使用稀疏矩阵
from scipy.sparse import csr_matrix
adata.X = csr_matrix(adata.X)

# 将字符串转换为分类变量
adata.strings_to_categoricals()

# 对大文件使用后端模式
adata = ad.read_h5ad('large.h5ad', backed='r')

# 在过滤前存储原始数据
adata.raw = adata.copy()
adata = adata[:, adata.var['highly_variable']]

与 Scverse 生态系统集成

AnnData 作为 scverse 生态系统的基础数据结构：

Scanpy (单细胞分析)

import scanpy as sc

# 预处理
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)

# 降维
sc.pp.pca(adata, n_comps=50)
sc.pp.neighbors(adata, n_neighbors=15)
sc.tl.umap(adata)
sc.tl.leiden(adata)

# 可视化
sc.pl.umap(adata, color=['cell_type', 'leiden'])

Muon (多模态数据)

import muon as mu

# 合并 RNA 和蛋白质数据
mdata = mu.MuData({'rna': adata_rna, 'protein': adata_protein})

from anndata.experimental import AnnLoader

# 为深度学习创建 DataLoader
dataloader = AnnLoader(adata, batch_size=128, shuffle=True)

for batch in dataloader:
    X = batch.X
    # 训练模型

单细胞 RNA-seq 分析

import anndata as ad
import scanpy as sc

# 1. 加载数据
adata = ad.read_10x_h5('filtered_feature_bc_matrix.h5')

# 2. 质量控制
adata.obs['n_genes'] = (adata.X > 0).sum(axis=1)
adata.obs['n_counts'] = adata.X.sum(axis=1)
adata = adata[adata.obs['n_genes'] > 200]
adata = adata[adata.obs['n_counts'] < 50000]

# 3. 存储原始数据
adata.raw = adata.copy()

# 4. 归一化和过滤
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
adata = adata[:, adata.var['highly_variable']]

# 5. 保存处理后的数据
adata.write_h5ad('processed.h5ad')

# 加载多个批次
adata1 = ad.read_h5ad('batch1.h5ad')
adata2 = ad.read_h5ad('batch2.h5ad')
adata3 = ad.read_h5ad('batch3.h5ad')

# 使用批次标签拼接
adata = ad.concat(
    [adata1, adata2, adata3],
    label='batch',
    keys=['batch1', 'batch2', 'batch3'],
    join='inner'
)

# 应用批次校正
import scanpy as sc
sc.pp.combat(adata, key='batch')

# 继续分析
sc.pp.pca(adata)
sc.pp.neighbors(adata)
sc.tl.umap(adata)

处理大型数据集

# 以后端模式打开
adata = ad.read_h5ad('100GB_dataset.h5ad', backed='r')

# 基于元数据过滤（不加载数据）
high_quality = adata[adata.obs['quality_score'] > 0.8]

# 加载过滤后的子集
adata_subset = high_quality.to_memory()

# 处理子集
process(adata_subset)

# 或分块处理
chunk_size = 1000
for i in range(0, adata.n_obs, chunk_size):
    chunk = adata[i:i+chunk_size, :].to_memory()
    process(chunk)

使用后端模式或转换为稀疏矩阵：

# 后端模式
adata = ad.read_h5ad('file.h5ad', backed='r')

# 稀疏矩阵
from scipy.sparse import csr_matrix
adata.X = csr_matrix(adata.X)

使用压缩和适当的格式：

# 优化存储
adata.strings_to_categoricals()
adata.write_h5ad('file.h5ad', compression='gzip')

# 对云存储使用 Zarr
adata.write_zarr('file.zarr', chunks=(1000, 1000))

始终在索引上对齐外部数据：

# 错误做法
adata.obs['new_col'] = external_data['values']

# 正确做法
adata.obs['new_col'] = external_data.set_index('cell_id').loc[adata.obs_names, 'values']

官方文档：https://anndata.readthedocs.io/
Scanpy 教程：https://scanpy.readthedocs.io/
Scverse 生态系统：https://scverse.org/
GitHub 仓库：https://github.com/scverse/anndata

🇺🇸English

AnnData

Overview

AnnData is a Python package for handling annotated data matrices, storing experimental measurements (X) alongside observation metadata (obs), variable metadata (var), and multi-dimensional annotations (obsm, varm, obsp, varp, uns). Originally designed for single-cell genomics through Scanpy, it now serves as a general-purpose framework for any annotated data requiring efficient storage, manipulation, and analysis.

When to Use This Skill

Use this skill when:

Creating, reading, or writing AnnData objects
Working with h5ad, zarr, or other genomics data formats
Performing single-cell RNA-seq analysis
Managing large datasets with sparse matrices or backed mode
Concatenating multiple datasets or experimental batches
Subsetting, filtering, or transforming annotated data
Integrating with scanpy, scvi-tools, or other scverse ecosystem tools

Installation

uv pip install anndata

# With optional dependencies
uv pip install anndata[dev,test,doc]

Quick Start

Creating an AnnData object

import anndata as ad
import numpy as np
import pandas as pd

# Minimal creation
X = np.random.rand(100, 2000)  # 100 cells × 2000 genes
adata = ad.AnnData(X)

# With metadata
obs = pd.DataFrame({
    'cell_type': ['T cell', 'B cell'] * 50,
    'sample': ['A', 'B'] * 50
}, index=[f'cell_{i}' for i in range(100)])

var = pd.DataFrame({
    'gene_name': [f'Gene_{i}' for i in range(2000)]
}, index=[f'ENSG{i:05d}' for i in range(2000)])

adata = ad.AnnData(X=X, obs=obs, var=var)

Reading data

# Read h5ad file
adata = ad.read_h5ad('data.h5ad')

# Read with backed mode (for large files)
adata = ad.read_h5ad('large_data.h5ad', backed='r')

# Read other formats
adata = ad.read_csv('data.csv')
adata = ad.read_loom('data.loom')
adata = ad.read_10x_h5('filtered_feature_bc_matrix.h5')

Writing data

# Write h5ad file
adata.write_h5ad('output.h5ad')

# Write with compression
adata.write_h5ad('output.h5ad', compression='gzip')

# Write other formats
adata.write_zarr('output.zarr')
adata.write_csvs('output_dir/')

Basic operations

# Subset by conditions
t_cells = adata[adata.obs['cell_type'] == 'T cell']

# Subset by indices
subset = adata[0:50, 0:100]

# Add metadata
adata.obs['quality_score'] = np.random.rand(adata.n_obs)
adata.var['highly_variable'] = np.random.rand(adata.n_vars) > 0.8

# Access dimensions
print(f"{adata.n_obs} observations × {adata.n_vars} variables")

Core Capabilities

1. Data Structure

Understand the AnnData object structure including X, obs, var, layers, obsm, varm, obsp, varp, uns, and raw components.

See : references/data_structure.md for comprehensive information on:

Core components (X, obs, var, layers, obsm, varm, obsp, varp, uns, raw)
Creating AnnData objects from various sources
Accessing and manipulating data components
Memory-efficient practices

2. Input/Output Operations

Read and write data in various formats with support for compression, backed mode, and cloud storage.

See : references/io_operations.md for details on:

Native formats (h5ad, zarr)
Alternative formats (CSV, MTX, Loom, 10X, Excel)
Backed mode for large datasets
Remote data access
Format conversion
Performance optimization

Common commands:

# Read/write h5ad
adata = ad.read_h5ad('data.h5ad', backed='r')
adata.write_h5ad('output.h5ad', compression='gzip')

# Read 10X data
adata = ad.read_10x_h5('filtered_feature_bc_matrix.h5')

# Read MTX format
adata = ad.read_mtx('matrix.mtx').T

3. Concatenation

Combine multiple AnnData objects along observations or variables with flexible join strategies.

See : references/concatenation.md for comprehensive coverage of:

Basic concatenation (axis=0 for observations, axis=1 for variables)
Join types (inner, outer)
Merge strategies (same, unique, first, only)
Tracking data sources with labels
Lazy concatenation (AnnCollection)
On-disk concatenation for large datasets

Common commands:

# Concatenate observations (combine samples)
adata = ad.concat(
    [adata1, adata2, adata3],
    axis=0,
    join='inner',
    label='batch',
    keys=['batch1', 'batch2', 'batch3']
)

# Concatenate variables (combine modalities)
adata = ad.concat([adata_rna, adata_protein], axis=1)

# Lazy concatenation
from anndata.experimental import AnnCollection
collection = AnnCollection(
    ['data1.h5ad', 'data2.h5ad'],
    join_obs='outer',
    label='dataset'
)

4. Data Manipulation

Transform, subset, filter, and reorganize data efficiently.

See : references/manipulation.md for detailed guidance on:

Subsetting (by indices, names, boolean masks, metadata conditions)
Transposition
Copying (full copies vs views)
Renaming (observations, variables, categories)
Type conversions (strings to categoricals, sparse/dense)
Adding/removing data components
Reordering
Quality control filtering

Common commands:

# Subset by metadata
filtered = adata[adata.obs['quality_score'] > 0.8]
hv_genes = adata[:, adata.var['highly_variable']]

# Transpose
adata_T = adata.T

# Copy vs view
view = adata[0:100, :]  # View (lightweight reference)
copy = adata[0:100, :].copy()  # Independent copy

# Convert strings to categoricals
adata.strings_to_categoricals()

5. Best Practices

Follow recommended patterns for memory efficiency, performance, and reproducibility.

See : references/best_practices.md for guidelines on:

Memory management (sparse matrices, categoricals, backed mode)
Views vs copies
Data storage optimization
Performance optimization
Working with raw data
Metadata management
Reproducibility
Error handling
Integration with other tools
Common pitfalls and solutions

Key recommendations:

# Use sparse matrices for sparse data
from scipy.sparse import csr_matrix
adata.X = csr_matrix(adata.X)

# Convert strings to categoricals
adata.strings_to_categoricals()

# Use backed mode for large files
adata = ad.read_h5ad('large.h5ad', backed='r')

# Store raw before filtering
adata.raw = adata.copy()
adata = adata[:, adata.var['highly_variable']]

Integration with Scverse Ecosystem

AnnData serves as the foundational data structure for the scverse ecosystem:

Scanpy (Single-cell analysis)

import scanpy as sc

# Preprocessing
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)

# Dimensionality reduction
sc.pp.pca(adata, n_comps=50)
sc.pp.neighbors(adata, n_neighbors=15)
sc.tl.umap(adata)
sc.tl.leiden(adata)

# Visualization
sc.pl.umap(adata, color=['cell_type', 'leiden'])

Muon (Multimodal data)

import muon as mu

# Combine RNA and protein data
mdata = mu.MuData({'rna': adata_rna, 'protein': adata_protein})

PyTorch integration

from anndata.experimental import AnnLoader

# Create DataLoader for deep learning
dataloader = AnnLoader(adata, batch_size=128, shuffle=True)

for batch in dataloader:
    X = batch.X
    # Train model

Common Workflows

Single-cell RNA-seq analysis

import anndata as ad
import scanpy as sc

# 1. Load data
adata = ad.read_10x_h5('filtered_feature_bc_matrix.h5')

# 2. Quality control
adata.obs['n_genes'] = (adata.X > 0).sum(axis=1)
adata.obs['n_counts'] = adata.X.sum(axis=1)
adata = adata[adata.obs['n_genes'] > 200]
adata = adata[adata.obs['n_counts'] < 50000]

# 3. Store raw
adata.raw = adata.copy()

# 4. Normalize and filter
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
adata = adata[:, adata.var['highly_variable']]

# 5. Save processed data
adata.write_h5ad('processed.h5ad')

Batch integration

# Load multiple batches
adata1 = ad.read_h5ad('batch1.h5ad')
adata2 = ad.read_h5ad('batch2.h5ad')
adata3 = ad.read_h5ad('batch3.h5ad')

# Concatenate with batch labels
adata = ad.concat(
    [adata1, adata2, adata3],
    label='batch',
    keys=['batch1', 'batch2', 'batch3'],
    join='inner'
)

# Apply batch correction
import scanpy as sc
sc.pp.combat(adata, key='batch')

# Continue analysis
sc.pp.pca(adata)
sc.pp.neighbors(adata)
sc.tl.umap(adata)

Working with large datasets

# Open in backed mode
adata = ad.read_h5ad('100GB_dataset.h5ad', backed='r')

# Filter based on metadata (no data loading)
high_quality = adata[adata.obs['quality_score'] > 0.8]

# Load filtered subset
adata_subset = high_quality.to_memory()

# Process subset
process(adata_subset)

# Or process in chunks
chunk_size = 1000
for i in range(0, adata.n_obs, chunk_size):
    chunk = adata[i:i+chunk_size, :].to_memory()
    process(chunk)

Troubleshooting

Out of memory errors

Use backed mode or convert to sparse matrices:

# Backed mode
adata = ad.read_h5ad('file.h5ad', backed='r')

# Sparse matrices
from scipy.sparse import csr_matrix
adata.X = csr_matrix(adata.X)

Slow file reading

Use compression and appropriate formats:

# Optimize for storage
adata.strings_to_categoricals()
adata.write_h5ad('file.h5ad', compression='gzip')

# Use Zarr for cloud storage
adata.write_zarr('file.zarr', chunks=(1000, 1000))

Index alignment issues

Always align external data on index:

# Wrong
adata.obs['new_col'] = external_data['values']

# Correct
adata.obs['new_col'] = external_data.set_index('cell_id').loc[adata.obs_names, 'values']

Additional Resources

Official documentation : https://anndata.readthedocs.io/
Scanpy tutorials : https://scanpy.readthedocs.io/
Scverse ecosystem : https://scverse.org/
GitHub repository : https://github.com/scverse/anndata

Weekly Installs

129

Repository

davila7/claude-…emplates

GitHub Stars

22.6K

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

claude-code106

opencode103

gemini-cli99

cursor98

antigravity88

codex87

FastAPI官方技能：Python Web开发最佳实践与CLI工具使用指南

1,200 周安装

AnnData Python 包教程：单细胞基因组学数据处理与分析框架

🇨🇳中文介绍

AnnData

概述

何时使用此技能

安装

快速开始

创建 AnnData 对象

读取数据

相关 Skills

写入数据

基本操作

核心功能

1. 数据结构

2. 输入/输出操作

3. 拼接

4. 数据操作

5. 最佳实践

与 Scverse 生态系统集成

Scanpy (单细胞分析)

Muon (多模态数据)

PyTorch 集成

常见工作流程

单细胞 RNA-seq 分析

批次整合

处理大型数据集

故障排除

内存不足错误

文件读取缓慢

索引对齐问题

额外资源

🇺🇸English

AnnData

Overview

When to Use This Skill

Installation

Quick Start

Creating an AnnData object

Reading data

Writing data

Basic operations

Core Capabilities

1. Data Structure

2. Input/Output Operations

3. Concatenation

4. Data Manipulation

5. Best Practices

Integration with Scverse Ecosystem

Scanpy (Single-cell analysis)

Muon (Multimodal data)

PyTorch integration

Common Workflows

Single-cell RNA-seq analysis

Batch integration

Working with large datasets

Troubleshooting

Out of memory errors

Slow file reading

Index alignment issues

Additional Resources

最新 Skills