scikit-bio：Python生物信息学分析库，处理序列、比对、系统发育与多样性分析

scikit-bio by davila7/claude-code-templates

163 周安装量

23,500 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/davila7/claude-code-templates --skill scikit-bio

Python Web框架数据分析生物信息学

🇨🇳中文介绍

scikit-bio

概述

scikit-bio 是一个用于处理生物数据的综合性 Python 库。应用此技能可进行生物信息学分析，涵盖序列操作、比对、系统发育学、微生物生态学和多元统计。

何时使用此技能

当用户满足以下情况时，应使用此技能：

处理生物序列（DNA、RNA、蛋白质）
需要读写生物文件格式（FASTA、FASTQ、GenBank、Newick、BIOM 等）
进行序列比对或搜索基序
构建或分析系统发育树
计算多样性指标（α/β 多样性、UniFrac 距离）
进行排序分析（PCoA、CCA、RDA）
对生物/生态数据运行统计检验（PERMANOVA、ANOSIM、Mantel）
分析微生物组或群落生态学数据
处理来自语言模型的蛋白质嵌入
需要操作生物数据表

核心功能

1. 序列操作

使用专门用于 DNA、RNA 和蛋白质数据的类来处理生物序列。

关键操作：

从 FASTA、FASTQ、GenBank、EMBL 格式读写序列
序列切片、连接和搜索
反向互补、转录（DNA→RNA）和翻译（RNA→蛋白质）
使用正则表达式查找基序和模式
计算距离（汉明距离、基于 k-mer 的距离）
处理序列质量分数和元数据

常见模式：

import skbio

# 从文件读取序列
seq = skbio.DNA.read('input.fasta')

# 序列操作
rc = seq.reverse_complement()
rna = seq.transcribe()
protein = rna.translate()

# 查找基序
motif_positions = seq.find_with_regex('ATG[ACGT]{3}')

# 检查属性
has_degens = seq.has_degenerates()
seq_no_gaps = seq.degap()

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

FlyClaw：零登录航班聚合查询工具，Python实现多源航班信息与价格搜索

4,000,000 周安装

Azure Data Explorer (Kusto) 查询技能：KQL数据分析、日志遥测与时间序列处理

125,100 周安装

专业SEO审计工具：全面网站诊断、技术SEO优化与页面分析指南

64,900 周安装

Python PDF处理教程：合并拆分、提取文本表格、创建PDF文件

61,100 周安装

使用 DNA、RNA、Protein 类来处理经过语法验证的序列
使用 Sequence 类来处理没有字母表限制的通用序列
质量分数会自动从 FASTQ 文件加载到位置元数据中
元数据类型：序列级别（ID、描述）、位置级别（每个碱基）、区间级别（区域/特征）

使用动态规划算法执行成对和多重序列比对。

全局比对（Needleman-Wunsch，含半全局变体）
局部比对（Smith-Waterman）
可配置的评分方案（匹配/错配、空位罚分、替换矩阵）
CIGAR 字符串转换
使用 TabularMSA 存储和操作多重序列比对

from skbio.alignment import local_pairwise_align_ssw, TabularMSA

# 成对比对
alignment = local_pairwise_align_ssw(seq1, seq2)

# 访问比对后的序列
msa = alignment.aligned_sequences

# 从文件读取多重比对
msa = TabularMSA.read('alignment.fasta', constructor=skbio.DNA)

# 计算共有序列
consensus = msa.consensus()

使用 local_pairwise_align_ssw 进行局部比对（更快，基于 SSW）
使用 StripedSmithWaterman 进行蛋白质比对
建议对生物序列使用仿射空位罚分
可以在 scikit-bio、BioPython 和 Biotite 比对格式之间转换

构建、操作和分析代表进化关系的系统发育树。

从距离矩阵构建树（UPGMA、WPGMA、邻接法、GME、BME）
树操作（修剪、重定根、遍历）
距离计算（支系距离、共表型距离、Robinson-Foulds 距离）
ASCII 可视化
Newick 格式输入/输出

from skbio import TreeNode
from skbio.tree import nj

# 从文件读取树
tree = TreeNode.read('tree.nwk')

# 从距离矩阵构建树
tree = nj(distance_matrix)

# 树操作
subtree = tree.shear(['taxon1', 'taxon2', 'taxon3'])
tips = [node for node in tree.tips()]
lca = tree.lowest_common_ancestor(['taxon1', 'taxon2'])

# 计算距离
patristic_dist = tree.find('taxon1').distance(tree.find('taxon2'))
cophenetic_matrix = tree.cophenetic_matrix()

# 比较树
rf_distance = tree.robinson_foulds(other_tree)

使用 nj() 进行邻接法（经典系统发育方法）
使用 upgma() 进行 UPGMA（假设分子钟）
GME 和 BME 对于大型树具有高度可扩展性
树可以是有根或无根的；某些指标需要特定的定根方式

计算微生物生态学和群落分析的 α 和 β 多样性指标。

α 多样性：丰富度、香农熵、辛普森指数、Faith's PD、Pielou's 均匀度
β 多样性：Bray-Curtis、Jaccard、加权/非加权 UniFrac、欧几里得距离
系统发育多样性指标（需要树输入）
稀释和子采样
与排序分析和统计检验集成

from skbio.diversity import alpha_diversity, beta_diversity
import skbio

# α 多样性
alpha = alpha_diversity('shannon', counts_matrix, ids=sample_ids)
faith_pd = alpha_diversity('faith_pd', counts_matrix, ids=sample_ids,
                          tree=tree, otu_ids=feature_ids)

# β 多样性
bc_dm = beta_diversity('braycurtis', counts_matrix, ids=sample_ids)
unifrac_dm = beta_diversity('unweighted_unifrac', counts_matrix,
                           ids=sample_ids, tree=tree, otu_ids=feature_ids)

# 获取可用指标
from skbio.diversity import get_alpha_diversity_metrics
print(get_alpha_diversity_metrics())

计数必须是表示丰度的整数，而不是相对频率
系统发育指标（Faith's PD、UniFrac）需要树和 OTU ID 映射
使用 partial_beta_diversity() 仅计算特定的样本对
α 多样性返回 Series，β 多样性返回 DistanceMatrix

将高维生物数据降维到可可视化的低维空间。

从距离矩阵进行 PCoA（主坐标分析）
对列联表进行 CA（对应分析）
带有环境约束的 CCA（典范对应分析）
用于线性关系的 RDA（冗余分析）
用于特征解释的双标图投影

from skbio.stats.ordination import pcoa, cca

# 从距离矩阵进行 PCoA
pcoa_results = pcoa(distance_matrix)
pc1 = pcoa_results.samples['PC1']
pc2 = pcoa_results.samples['PC2']

# 带有环境变量的 CCA
cca_results = cca(species_matrix, environmental_matrix)

# 保存/加载排序结果
pcoa_results.write('ordination.txt')
results = skbio.OrdinationResults.read('ordination.txt')

PCoA 适用于任何距离/相异性矩阵
CCA 揭示群落组成的环境驱动因素
排序结果包括特征值、解释比例和样本/特征坐标
结果可与绘图库（matplotlib、seaborn、plotly）集成

执行特定于生态和生物数据的假设检验。

PERMANOVA：使用距离矩阵检验组间差异
ANOSIM：组间差异的替代检验
PERMDISP：检验组离散度的同质性
Mantel 检验：距离矩阵之间的相关性
Bioenv：查找与距离相关的环境变量

from skbio.stats.distance import permanova, anosim, mantel

# 检验组间是否存在显著差异
permanova_results = permanova(distance_matrix, grouping, permutations=999)
print(f"p-value: {permanova_results['p-value']}")

# ANOSIM 检验
anosim_results = anosim(distance_matrix, grouping, permutations=999)

# 两个距离矩阵之间的 Mantel 检验
mantel_results = mantel(dm1, dm2, method='pearson', permutations=999)
print(f"Correlation: {mantel_results[0]}, p-value: {mantel_results[1]}")

置换检验提供非参数显著性检验
使用 999+ 次置换以获得稳健的 p 值
PERMANOVA 对离散度差异敏感；与 PERMDISP 配对使用
Mantel 检验评估矩阵相关性（例如，地理距离与遗传距离）

7. 文件输入/输出和格式转换

通过自动格式检测读写 19+ 种生物文件格式。

支持的格式：

序列：FASTA、FASTQ、GenBank、EMBL、QSeq
比对：Clustal、PHYLIP、Stockholm
树：Newick
表：BIOM（HDF5 和 JSON）
距离：带分隔符的方阵
分析：BLAST+6/7、GFF3、排序结果
元数据：带有验证的 TSV/CSV

import skbio

# 通过自动格式检测读取
seq = skbio.DNA.read('file.fasta', format='fasta')
tree = skbio.TreeNode.read('tree.nwk')

# 写入文件
seq.write('output.fasta', format='fasta')

# 用于大文件的生成器（内存高效）
for seq in skbio.io.read('large.fasta', format='fasta', constructor=skbio.DNA):
    process(seq)

# 转换格式
seqs = list(skbio.io.read('input.fastq', format='fastq', constructor=skbio.DNA))
skbio.io.write(seqs, format='fasta', into='output.fasta')

对大文件使用生成器以避免内存问题
当指定 into 参数时，格式可以自动检测
某些对象可以写入多种格式
支持使用 verify=False 进行 stdin/stdout 管道传输

使用统计方法创建和操作距离/相异性矩阵。

存储对称（DistanceMatrix）或非对称（DissimilarityMatrix）数据
基于 ID 的索引和切片
与多样性、排序和统计检验集成
读写带分隔符的文本格式

from skbio import DistanceMatrix
import numpy as np

# 从数组创建
data = np.array([[0, 1, 2], [1, 0, 3], [2, 3, 0]])
dm = DistanceMatrix(data, ids=['A', 'B', 'C'])

# 访问距离
dist_ab = dm['A', 'B']
row_a = dm['A']

# 从文件读取
dm = DistanceMatrix.read('distances.txt')

# 在下游分析中使用
pcoa_results = pcoa(dm)
permanova_results = permanova(dm, grouping)

DistanceMatrix 强制对称性和零对角线
DissimilarityMatrix 允许非对称值
ID 支持与元数据和生物学知识的集成
与 pandas、numpy 和 scikit-learn 兼容

处理微生物组研究中常见的特征表（OTU/ASV 表）。

BIOM 格式输入/输出（HDF5 和 JSON）
与 pandas、polars、AnnData、numpy 集成
数据增强技术（phylomix、mixup、组成方法）
样本/特征过滤和归一化
元数据集成

from skbio import Table

# 读取 BIOM 表
table = Table.read('table.biom')

# 访问数据
sample_ids = table.ids(axis='sample')
feature_ids = table.ids(axis='observation')
counts = table.matrix_data

# 过滤
filtered = table.filter(sample_ids_to_keep, axis='sample')

# 与 pandas 相互转换
df = table.to_dataframe()
table = Table.from_dataframe(df)

BIOM 表是 QIIME 2 工作流程中的标准
行通常代表样本，列代表特征（OTUs/ASVs）
支持稀疏和密集表示
输出格式可配置（pandas/polars/numpy）

处理蛋白质语言模型嵌入以进行下游分析。

存储来自蛋白质语言模型（ESM、ProtTrans 等）的嵌入
将嵌入转换为距离矩阵
生成用于可视化的排序对象
导出到 numpy/pandas 用于机器学习工作流程

from skbio.embedding import ProteinEmbedding, ProteinVector

# 从数组创建嵌入
embedding = ProteinEmbedding(embedding_array, sequence_ids)

# 转换为距离矩阵进行分析
dm = embedding.to_distances(metric='euclidean')

# 嵌入空间的 PCoA 可视化
pcoa_results = embedding.to_ordination(metric='euclidean', method='pcoa')

# 导出用于机器学习
array = embedding.to_array()
df = embedding.to_dataframe()

嵌入将蛋白质语言模型与传统生物信息学连接起来
与 scikit-bio 的距离/排序/统计生态系统兼容
SequenceEmbedding 和 ProteinEmbedding 提供专门功能
对序列聚类、分类和可视化很有用

uv pip install scikit-bio

对大序列文件使用生成器以最小化内存使用
对于巨大的系统发育树，优先使用 GME 或 BME 而不是 NJ
β 多样性计算可以使用 partial_beta_diversity() 并行化
对于大型表，BIOM 格式（HDF5）比 JSON 更高效

与生态系统集成

序列通过标准格式与 Biopython 互操作
表与 pandas、polars 和 AnnData 集成
距离矩阵与 scikit-learn 兼容
排序结果可通过 matplotlib/seaborn/plotly 可视化
与 QIIME 2 工件（BIOM、树、距离矩阵）无缝协作

微生物组多样性分析：读取 BIOM 表 → 计算 α/β 多样性 → 排序分析（PCoA）→ 统计检验（PERMANOVA）
系统发育分析：读取序列 → 比对 → 构建距离矩阵 → 构建树 → 计算系统发育距离
序列处理：读取 FASTQ → 质量过滤 → 修剪/清理 → 查找基序 → 翻译 → 写入 FASTA
比较基因组学：读取序列 → 成对比对 → 计算距离 → 构建树 → 分析进化枝

有关详细的 API 信息、参数规范和高级用法示例，请参阅 references/api_reference.md，其中包含以下内容的全面文档：

所有功能的完整方法签名和参数
复杂工作流程的扩展代码示例
常见问题排查
性能优化技巧
与其他库的集成模式

官方文档：https://scikit.bio/docs/latest/
GitHub 仓库：https://github.com/scikit-bio/scikit-bio
论坛支持：https://forum.qiime2.org（scikit-bio 是 QIIME 2 生态系统的一部分）

🇺🇸English

scikit-bio

Overview

scikit-bio is a comprehensive Python library for working with biological data. Apply this skill for bioinformatics analyses spanning sequence manipulation, alignment, phylogenetics, microbial ecology, and multivariate statistics.

When to Use This Skill

This skill should be used when the user:

Works with biological sequences (DNA, RNA, protein)
Needs to read/write biological file formats (FASTA, FASTQ, GenBank, Newick, BIOM, etc.)
Performs sequence alignments or searches for motifs
Constructs or analyzes phylogenetic trees
Calculates diversity metrics (alpha/beta diversity, UniFrac distances)
Performs ordination analysis (PCoA, CCA, RDA)
Runs statistical tests on biological/ecological data (PERMANOVA, ANOSIM, Mantel)
Analyzes microbiome or community ecology data
Works with protein embeddings from language models
Needs to manipulate biological data tables

Core Capabilities

1. Sequence Manipulation

Work with biological sequences using specialized classes for DNA, RNA, and protein data.

Key operations:

Read/write sequences from FASTA, FASTQ, GenBank, EMBL formats
Sequence slicing, concatenation, and searching
Reverse complement, transcription (DNA→RNA), and translation (RNA→protein)
Find motifs and patterns using regex
Calculate distances (Hamming, k-mer based)
Handle sequence quality scores and metadata

Common patterns:

import skbio

# Read sequences from file
seq = skbio.DNA.read('input.fasta')

# Sequence operations
rc = seq.reverse_complement()
rna = seq.transcribe()
protein = rna.translate()

# Find motifs
motif_positions = seq.find_with_regex('ATG[ACGT]{3}')

# Check for properties
has_degens = seq.has_degenerates()
seq_no_gaps = seq.degap()

Important notes:

Use DNA, RNA, Protein classes for grammared sequences with validation
Use Sequence class for generic sequences without alphabet restrictions
Quality scores automatically loaded from FASTQ files into positional metadata
Metadata types: sequence-level (ID, description), positional (per-base), interval (regions/features)

2. Sequence Alignment

Perform pairwise and multiple sequence alignments using dynamic programming algorithms.

Key capabilities:

Global alignment (Needleman-Wunsch with semi-global variant)
Local alignment (Smith-Waterman)
Configurable scoring schemes (match/mismatch, gap penalties, substitution matrices)
CIGAR string conversion
Multiple sequence alignment storage and manipulation with TabularMSA

Common patterns:

from skbio.alignment import local_pairwise_align_ssw, TabularMSA

# Pairwise alignment
alignment = local_pairwise_align_ssw(seq1, seq2)

# Access aligned sequences
msa = alignment.aligned_sequences

# Read multiple alignment from file
msa = TabularMSA.read('alignment.fasta', constructor=skbio.DNA)

# Calculate consensus
consensus = msa.consensus()

Important notes:

Use local_pairwise_align_ssw for local alignments (faster, SSW-based)
Use StripedSmithWaterman for protein alignments
Affine gap penalties recommended for biological sequences
Can convert between scikit-bio, BioPython, and Biotite alignment formats

3. Phylogenetic Trees

Construct, manipulate, and analyze phylogenetic trees representing evolutionary relationships.

Key capabilities:

Tree construction from distance matrices (UPGMA, WPGMA, Neighbor Joining, GME, BME)
Tree manipulation (pruning, rerooting, traversal)
Distance calculations (patristic, cophenetic, Robinson-Foulds)
ASCII visualization
Newick format I/O

Common patterns:

from skbio import TreeNode
from skbio.tree import nj

# Read tree from file
tree = TreeNode.read('tree.nwk')

# Construct tree from distance matrix
tree = nj(distance_matrix)

# Tree operations
subtree = tree.shear(['taxon1', 'taxon2', 'taxon3'])
tips = [node for node in tree.tips()]
lca = tree.lowest_common_ancestor(['taxon1', 'taxon2'])

# Calculate distances
patristic_dist = tree.find('taxon1').distance(tree.find('taxon2'))
cophenetic_matrix = tree.cophenetic_matrix()

# Compare trees
rf_distance = tree.robinson_foulds(other_tree)

Important notes:

Use nj() for neighbor joining (classic phylogenetic method)
Use upgma() for UPGMA (assumes molecular clock)
GME and BME are highly scalable for large trees
Trees can be rooted or unrooted; some metrics require specific rooting

4. Diversity Analysis

Calculate alpha and beta diversity metrics for microbial ecology and community analysis.

Key capabilities:

Alpha diversity: richness, Shannon entropy, Simpson index, Faith's PD, Pielou's evenness
Beta diversity: Bray-Curtis, Jaccard, weighted/unweighted UniFrac, Euclidean distances
Phylogenetic diversity metrics (require tree input)
Rarefaction and subsampling
Integration with ordination and statistical tests

Common patterns:

from skbio.diversity import alpha_diversity, beta_diversity
import skbio

# Alpha diversity
alpha = alpha_diversity('shannon', counts_matrix, ids=sample_ids)
faith_pd = alpha_diversity('faith_pd', counts_matrix, ids=sample_ids,
                          tree=tree, otu_ids=feature_ids)

# Beta diversity
bc_dm = beta_diversity('braycurtis', counts_matrix, ids=sample_ids)
unifrac_dm = beta_diversity('unweighted_unifrac', counts_matrix,
                           ids=sample_ids, tree=tree, otu_ids=feature_ids)

# Get available metrics
from skbio.diversity import get_alpha_diversity_metrics
print(get_alpha_diversity_metrics())

Important notes:

Counts must be integers representing abundances, not relative frequencies
Phylogenetic metrics (Faith's PD, UniFrac) require tree and OTU ID mapping
Use partial_beta_diversity() for computing specific sample pairs only
Alpha diversity returns Series, beta diversity returns DistanceMatrix

5. Ordination Methods

Reduce high-dimensional biological data to visualizable lower-dimensional spaces.

Key capabilities:

PCoA (Principal Coordinate Analysis) from distance matrices
CA (Correspondence Analysis) for contingency tables
CCA (Canonical Correspondence Analysis) with environmental constraints
RDA (Redundancy Analysis) for linear relationships
Biplot projection for feature interpretation

Common patterns:

from skbio.stats.ordination import pcoa, cca

# PCoA from distance matrix
pcoa_results = pcoa(distance_matrix)
pc1 = pcoa_results.samples['PC1']
pc2 = pcoa_results.samples['PC2']

# CCA with environmental variables
cca_results = cca(species_matrix, environmental_matrix)

# Save/load ordination results
pcoa_results.write('ordination.txt')
results = skbio.OrdinationResults.read('ordination.txt')

Important notes:

PCoA works with any distance/dissimilarity matrix
CCA reveals environmental drivers of community composition
Ordination results include eigenvalues, proportion explained, and sample/feature coordinates
Results integrate with plotting libraries (matplotlib, seaborn, plotly)

6. Statistical Testing

Perform hypothesis tests specific to ecological and biological data.

Key capabilities:

PERMANOVA: test group differences using distance matrices
ANOSIM: alternative test for group differences
PERMDISP: test homogeneity of group dispersions
Mantel test: correlation between distance matrices
Bioenv: find environmental variables correlated with distances

Common patterns:

from skbio.stats.distance import permanova, anosim, mantel

# Test if groups differ significantly
permanova_results = permanova(distance_matrix, grouping, permutations=999)
print(f"p-value: {permanova_results['p-value']}")

# ANOSIM test
anosim_results = anosim(distance_matrix, grouping, permutations=999)

# Mantel test between two distance matrices
mantel_results = mantel(dm1, dm2, method='pearson', permutations=999)
print(f"Correlation: {mantel_results[0]}, p-value: {mantel_results[1]}")

Important notes:

Permutation tests provide non-parametric significance testing
Use 999+ permutations for robust p-values
PERMANOVA sensitive to dispersion differences; pair with PERMDISP
Mantel tests assess matrix correlation (e.g., geographic vs genetic distance)

7. File I/O and Format Conversion

Read and write 19+ biological file formats with automatic format detection.

Supported formats:

Sequences: FASTA, FASTQ, GenBank, EMBL, QSeq
Alignments: Clustal, PHYLIP, Stockholm
Trees: Newick
Tables: BIOM (HDF5 and JSON)
Distances: delimited square matrices
Analysis: BLAST+6/7, GFF3, Ordination results
Metadata: TSV/CSV with validation

Common patterns:

import skbio

# Read with automatic format detection
seq = skbio.DNA.read('file.fasta', format='fasta')
tree = skbio.TreeNode.read('tree.nwk')

# Write to file
seq.write('output.fasta', format='fasta')

# Generator for large files (memory efficient)
for seq in skbio.io.read('large.fasta', format='fasta', constructor=skbio.DNA):
    process(seq)

# Convert formats
seqs = list(skbio.io.read('input.fastq', format='fastq', constructor=skbio.DNA))
skbio.io.write(seqs, format='fasta', into='output.fasta')

Important notes:

Use generators for large files to avoid memory issues
Format can be auto-detected when into parameter specified
Some objects can be written to multiple formats
Support for stdin/stdout piping with verify=False

8. Distance Matrices

Create and manipulate distance/dissimilarity matrices with statistical methods.

Key capabilities:

Store symmetric (DistanceMatrix) or asymmetric (DissimilarityMatrix) data
ID-based indexing and slicing
Integration with diversity, ordination, and statistical tests
Read/write delimited text format

Common patterns:

from skbio import DistanceMatrix
import numpy as np

# Create from array
data = np.array([[0, 1, 2], [1, 0, 3], [2, 3, 0]])
dm = DistanceMatrix(data, ids=['A', 'B', 'C'])

# Access distances
dist_ab = dm['A', 'B']
row_a = dm['A']

# Read from file
dm = DistanceMatrix.read('distances.txt')

# Use in downstream analyses
pcoa_results = pcoa(dm)
permanova_results = permanova(dm, grouping)

Important notes:

DistanceMatrix enforces symmetry and zero diagonal
DissimilarityMatrix allows asymmetric values
IDs enable integration with metadata and biological knowledge
Compatible with pandas, numpy, and scikit-learn

9. Biological Tables

Work with feature tables (OTU/ASV tables) common in microbiome research.

Key capabilities:

BIOM format I/O (HDF5 and JSON)
Integration with pandas, polars, AnnData, numpy
Data augmentation techniques (phylomix, mixup, compositional methods)
Sample/feature filtering and normalization
Metadata integration

Common patterns:

from skbio import Table

# Read BIOM table
table = Table.read('table.biom')

# Access data
sample_ids = table.ids(axis='sample')
feature_ids = table.ids(axis='observation')
counts = table.matrix_data

# Filter
filtered = table.filter(sample_ids_to_keep, axis='sample')

# Convert to/from pandas
df = table.to_dataframe()
table = Table.from_dataframe(df)

Important notes:

BIOM tables are standard in QIIME 2 workflows
Rows typically represent samples, columns represent features (OTUs/ASVs)
Supports sparse and dense representations
Output format configurable (pandas/polars/numpy)

10. Protein Embeddings

Work with protein language model embeddings for downstream analysis.

Key capabilities:

Store embeddings from protein language models (ESM, ProtTrans, etc.)
Convert embeddings to distance matrices
Generate ordination objects for visualization
Export to numpy/pandas for ML workflows

Common patterns:

from skbio.embedding import ProteinEmbedding, ProteinVector

# Create embedding from array
embedding = ProteinEmbedding(embedding_array, sequence_ids)

# Convert to distance matrix for analysis
dm = embedding.to_distances(metric='euclidean')

# PCoA visualization of embedding space
pcoa_results = embedding.to_ordination(metric='euclidean', method='pcoa')

# Export for machine learning
array = embedding.to_array()
df = embedding.to_dataframe()

Important notes:

Embeddings bridge protein language models with traditional bioinformatics
Compatible with scikit-bio's distance/ordination/statistics ecosystem
SequenceEmbedding and ProteinEmbedding provide specialized functionality
Useful for sequence clustering, classification, and visualization

Best Practices

Installation

uv pip install scikit-bio

Performance Considerations

Use generators for large sequence files to minimize memory usage
For massive phylogenetic trees, prefer GME or BME over NJ
Beta diversity calculations can be parallelized with partial_beta_diversity()
BIOM format (HDF5) more efficient than JSON for large tables

Integration with Ecosystem

Sequences interoperate with Biopython via standard formats
Tables integrate with pandas, polars, and AnnData
Distance matrices compatible with scikit-learn
Ordination results visualizable with matplotlib/seaborn/plotly
Works seamlessly with QIIME 2 artifacts (BIOM, trees, distance matrices)

Common Workflows

Microbiome diversity analysis : Read BIOM table → Calculate alpha/beta diversity → Ordination (PCoA) → Statistical testing (PERMANOVA)
Phylogenetic analysis : Read sequences → Align → Build distance matrix → Construct tree → Calculate phylogenetic distances
Sequence processing : Read FASTQ → Quality filter → Trim/clean → Find motifs → Translate → Write FASTA
Comparative genomics : Read sequences → Pairwise alignment → Calculate distances → Build tree → Analyze clades

Reference Documentation

For detailed API information, parameter specifications, and advanced usage examples, refer to references/api_reference.md which contains comprehensive documentation on:

Complete method signatures and parameters for all capabilities
Extended code examples for complex workflows
Troubleshooting common issues
Performance optimization tips
Integration patterns with other libraries

Additional Resources

Official documentation: https://scikit.bio/docs/latest/
GitHub repository: https://github.com/scikit-bio/scikit-bio
Forum support: https://forum.qiime2.org (scikit-bio is part of QIIME 2 ecosystem)

Weekly Installs

163

Repository

davila7/claude-…emplates

GitHub Stars

23.5K

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

claude-code141

opencode136

gemini-cli130

cursor127

antigravity118

codex118

DOCX文件创建、编辑与分析完整指南 - 使用docx-js、Pandoc和Python脚本

48,500 周安装

scikit-bio：Python生物信息学分析库，处理序列、比对、系统发育与多样性分析

🇨🇳中文介绍

scikit-bio

概述

何时使用此技能

核心功能

1. 序列操作

相关 Skills

2. 序列比对

3. 系统发育树

4. 多样性分析

5. 排序方法

6. 统计检验

7. 文件输入/输出和格式转换

8. 距离矩阵

9. 生物表

10. 蛋白质嵌入

最佳实践

安装

性能考虑

与生态系统集成

常见工作流程

参考文档

其他资源

🇺🇸English

scikit-bio

Overview

When to Use This Skill

Core Capabilities

1. Sequence Manipulation

2. Sequence Alignment

3. Phylogenetic Trees

4. Diversity Analysis

5. Ordination Methods

6. Statistical Testing

7. File I/O and Format Conversion

8. Distance Matrices

9. Biological Tables

10. Protein Embeddings

Best Practices

Installation

Performance Considerations

Integration with Ecosystem

Common Workflows

Reference Documentation

Additional Resources

最新 Skills