⚠️

重要前提

安装AI Skills的关键前提是：必须科学上网，且开启TUN模式，这一点至关重要，直接决定安装能否顺利完成，在此郑重提醒三遍：科学上网，科学上网，科学上网。查看完整安装教程 →

DeepChem：Python化学与生物机器学习库，用于分子性质预测与药物发现

deepchem by k-dense-ai/claude-scientific-skills

55 周安装量

17,300 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/k-dense-ai/claude-scientific-skills --skill deepchem

AI/机器学习科研工具生物信息学

🇨🇳中文介绍

DeepChem

概述

DeepChem 是一个全面的 Python 库，用于将机器学习应用于化学、材料科学和生物学。通过专门的神经网络、分子特征化方法和预训练模型，实现分子性质预测、药物发现、材料设计和生物分子分析。

何时使用此技能

此技能应在以下情况下使用：

加载和处理分子数据（SMILES 字符串、SDF 文件、蛋白质序列）
预测分子性质（溶解度、毒性、结合亲和力、ADMET 性质）
在化学/生物数据集上训练模型
使用 MoleculeNet 基准数据集（Tox21、BBBP、Delaney 等）
将分子转换为适合机器学习模型的特征（指纹、图表示、描述符）
为分子实现图神经网络（GCN、GAT、MPNN、AttentiveFP）
使用预训练模型进行迁移学习（ChemBERTa、GROVER、MolFormer）
预测晶体/材料性质（带隙、形成能）
分析蛋白质或 DNA 序列

核心功能

1. 分子数据加载与处理

DeepChem 为各种化学数据格式提供专门的加载器：

import deepchem as dc

# 加载包含 SMILES 的 CSV
featurizer = dc.feat.CircularFingerprint(radius=2, size=2048)
loader = dc.data.CSVLoader(
    tasks=['solubility', 'toxicity'],
    feature_field='smiles',
    featurizer=featurizer
)
dataset = loader.create_dataset('molecules.csv')

# 加载 SDF 文件
loader = dc.data.SDFLoader(tasks=['activity'], featurizer=featurizer)
dataset = loader.create_dataset('compounds.sdf')

# 加载蛋白质序列
loader = dc.data.FASTALoader()
dataset = loader.create_dataset('proteins.fasta')

关键加载器：

：包含分子标识符的表格数据

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

4. 模型选择与训练

快速模型选择指南

数据集大小	任务	推荐模型	特征化器
< 1K 样本	任意	SklearnModel (RandomForest)	CircularFingerprint
1K-100K	分类/回归	GBDTModel 或 MultitaskRegressor	CircularFingerprint
> 100K	分子性质	GCNModel, AttentiveFPModel, DMPNNModel	MolGraphConvFeaturizer
任意（推荐小型）	迁移学习	ChemBERTa, GROVER, MolFormer	模型特定
晶体结构	材料性质	CGCNNModel, MEGNetModel	基于结构
蛋白质序列	蛋白质性质	ProtBERT	基于序列

示例：传统机器学习

from sklearn.ensemble import RandomForestRegressor

# 包装 scikit-learn 模型
sklearn_model = RandomForestRegressor(n_estimators=100)
model = dc.models.SklearnModel(model=sklearn_model)
model.fit(train)

示例：深度学习

# 多任务回归器（用于指纹）
model = dc.models.MultitaskRegressor(
    n_tasks=2,
    n_features=2048,
    layer_sizes=[1000, 500],
    dropouts=0.25,
    learning_rate=0.001
)
model.fit(train, nb_epoch=50)

示例：图神经网络

# 图卷积网络
model = dc.models.GCNModel(
    n_tasks=1,
    mode='regression',
    batch_size=128,
    learning_rate=0.001
)
model.fit(train, nb_epoch=50)

# 图注意力网络
model = dc.models.GATModel(n_tasks=1, mode='classification')
model.fit(train, nb_epoch=50)

# 注意力指纹模型
model = dc.models.AttentiveFPModel(n_tasks=1, mode='regression')
model.fit(train, nb_epoch=50)

5. MoleculeNet 基准测试

快速访问 30 多个经过整理的基准数据集，并附带标准化的训练/验证/测试拆分：

# 加载基准数据集
tasks, datasets, transformers = dc.molnet.load_tox21(
    featurizer='GraphConv',  # 或 'ECFP', 'Weave', 'Raw'
    splitter='scaffold',     # 或 'random', 'stratified'
    reload=False
)
train, valid, test = datasets

# 训练和评估
model = dc.models.GCNModel(n_tasks=len(tasks), mode='classification')
model.fit(train, nb_epoch=50)

metric = dc.metrics.Metric(dc.metrics.roc_auc_score)
test_score = model.evaluate(test, [metric])

常用数据集：

分类：load_tox21()、load_bbbp()、load_hiv()、load_clintox()
回归：load_delaney()、load_freesolv()、load_lipo()
量子性质：load_qm7()、load_qm8()、load_qm9()
材料：load_perovskite()、load_bandgap()、load_mp_formation_energy()

完整的数据集列表请参见 references/api_reference.md。

利用预训练模型提高性能，尤其是在小型数据集上：

# ChemBERTa（在 7700 万分子上预训练的 BERT）
model = dc.models.HuggingFaceModel(
    model='seyonec/ChemBERTa-zinc-base-v1',
    task='classification',
    n_tasks=1,
    learning_rate=2e-5  # 微调时使用较低的学习率
)
model.fit(train, nb_epoch=10)

# GROVER（在 1000 万分子上预训练的图变换器）
model = dc.models.GroverModel(
    task='regression',
    n_tasks=1
)
model.fit(train, nb_epoch=20)

何时使用迁移学习：

小型数据集 (< 1000 样本)
新颖的分子骨架
有限的计算资源
需要快速原型设计

使用 scripts/transfer_learning.py 脚本进行引导式的迁移学习工作流。

# 定义评估指标
classification_metrics = [
    dc.metrics.Metric(dc.metrics.roc_auc_score, name='ROC-AUC'),
    dc.metrics.Metric(dc.metrics.accuracy_score, name='Accuracy'),
    dc.metrics.Metric(dc.metrics.f1_score, name='F1')
]

regression_metrics = [
    dc.metrics.Metric(dc.metrics.r2_score, name='R²'),
    dc.metrics.Metric(dc.metrics.mean_absolute_error, name='MAE'),
    dc.metrics.Metric(dc.metrics.root_mean_squared_error, name='RMSE')
]

# 评估
train_scores = model.evaluate(train, classification_metrics)
test_scores = model.evaluate(test, classification_metrics)

# 在测试集上进行预测
predictions = model.predict(test)

# 对新分子进行预测
new_smiles = ['CCO', 'c1ccccc1', 'CC(C)O']
new_features = featurizer.featurize(new_smiles)
new_dataset = dc.data.NumpyDataset(X=new_features)

# 应用与训练时相同的转换
for transformer in transformers:
    new_dataset = transformer.transform(new_dataset)

predictions = model.predict(new_dataset)

工作流 A：快速基准评估

用于在标准基准上评估模型：

import deepchem as dc

# 1. 加载基准数据集
tasks, datasets, _ = dc.molnet.load_bbbp(
    featurizer='GraphConv',
    splitter='scaffold'
)
train, valid, test = datasets

# 2. 训练模型
model = dc.models.GCNModel(n_tasks=len(tasks), mode='classification')
model.fit(train, nb_epoch=50)

# 3. 评估
metric = dc.metrics.Metric(dc.metrics.roc_auc_score)
test_score = model.evaluate(test, [metric])
print(f"Test ROC-AUC: {test_score}")

工作流 B：自定义数据预测

用于在自定义分子数据集上训练：

import deepchem as dc

# 1. 加载和特征化数据
featurizer = dc.feat.CircularFingerprint(radius=2, size=2048)
loader = dc.data.CSVLoader(
    tasks=['activity'],
    feature_field='smiles',
    featurizer=featurizer
)
dataset = loader.create_dataset('my_molecules.csv')

# 2. 拆分数据（对于分子，请使用 ScaffoldSplitter！）
splitter = dc.splits.ScaffoldSplitter()
train, valid, test = splitter.train_valid_test_split(dataset)

# 3. 标准化（可选但推荐）
transformers = [dc.trans.NormalizationTransformer(
    transform_y=True, dataset=train
)]
for transformer in transformers:
    train = transformer.transform(train)
    valid = transformer.transform(valid)
    test = transformer.transform(test)

# 4. 训练模型
model = dc.models.MultitaskRegressor(
    n_tasks=1,
    n_features=2048,
    layer_sizes=[1000, 500],
    dropouts=0.25
)
model.fit(train, nb_epoch=50)

# 5. 评估
metric = dc.metrics.Metric(dc.metrics.r2_score)
test_score = model.evaluate(test, [metric])

工作流 C：小型数据集上的迁移学习

用于利用预训练模型：

import deepchem as dc

# 1. 加载数据（预训练模型通常需要原始 SMILES）
loader = dc.data.CSVLoader(
    tasks=['activity'],
    feature_field='smiles',
    featurizer=dc.feat.DummyFeaturizer()  # 模型处理特征化
)
dataset = loader.create_dataset('small_dataset.csv')

# 2. 拆分数据
splitter = dc.splits.ScaffoldSplitter()
train, test = splitter.train_test_split(dataset)

# 3. 加载预训练模型
model = dc.models.HuggingFaceModel(
    model='seyonec/ChemBERTa-zinc-base-v1',
    task='classification',
    n_tasks=1,
    learning_rate=2e-5
)

# 4. 微调
model.fit(train, nb_epoch=10)

# 5. 评估
predictions = model.predict(test)

references/workflows.md 中包含了 8 个详细的工作流示例，涵盖分子生成、材料科学、蛋白质分析等。

此技能在 scripts/ 目录中包含三个生产就绪的脚本：

1. `predict_solubility.py`

训练和评估溶解度预测模型。适用于 Delaney 基准测试或自定义 CSV 数据。

# 使用 Delaney 基准测试
python scripts/predict_solubility.py

# 使用自定义数据
python scripts/predict_solubility.py \
    --data my_data.csv \
    --smiles-col smiles \
    --target-col solubility \
    --predict "CCO" "c1ccccc1"

2. `graph_neural_network.py`

在分子数据上训练各种图神经网络架构。

# 在 Tox21 上训练 GCN
python scripts/graph_neural_network.py --model gcn --dataset tox21

# 在自定义数据上训练 AttentiveFP
python scripts/graph_neural_network.py \
    --model attentivefp \
    --data molecules.csv \
    --task-type regression \
    --targets activity \
    --epochs 100

3. `transfer_learning.py`

在分子性质预测任务上微调预训练模型（ChemBERTa、GROVER）。

# 在 BBBP 上微调 ChemBERTa
python scripts/transfer_learning.py --model chemberta --dataset bbbp

# 在自定义数据上微调 GROVER
python scripts/transfer_learning.py \
    --model grover \
    --data small_dataset.csv \
    --target activity \
    --task-type classification \
    --epochs 20

常见模式与最佳实践

模式 1：始终对分子使用骨架拆分

# 良好：防止数据泄露
splitter = dc.splits.ScaffoldSplitter()
train, test = splitter.train_test_split(dataset)

# 不良：相似分子同时出现在训练集和测试集
splitter = dc.splits.RandomSplitter()
train, test = splitter.train_test_split(dataset)

模式 2：标准化特征和目标值

transformers = [
    dc.trans.NormalizationTransformer(
        transform_y=True,  # 同时标准化目标值
        dataset=train
    )
]
for transformer in transformers:
    train = transformer.transform(train)
    test = transformer.transform(test)

模式 3：从简单开始，然后扩展

从随机森林 + CircularFingerprint 开始（快速基线）
如果随机森林效果良好，尝试 XGBoost/LightGBM
如果样本数 >5K，转向深度学习（MultitaskRegressor）
如果样本数 >10K，尝试图神经网络
对于小型数据集或新颖骨架，使用迁移学习

模式 4：处理不平衡数据

# 选项 1：平衡转换器
transformer = dc.trans.BalancingTransformer(dataset=train)
train = transformer.transform(train)

# 选项 2：使用平衡指标
metric = dc.metrics.Metric(dc.metrics.balanced_accuracy_score)

模式 5：避免内存问题

# 对于大型数据集，使用 DiskDataset
dataset = dc.data.DiskDataset.from_numpy(X, y, w, ids)

# 使用较小的批次大小
model = dc.models.GCNModel(batch_size=32)  # 而不是 128

问题 1：药物发现中的数据泄露

问题：使用随机拆分允许相似分子同时出现在训练集和测试集中。 解决方案：对于分子数据集，始终使用 ScaffoldSplitter。

问题 2：图神经网络性能不如指纹方法

问题：图神经网络的性能比简单的指纹方法更差。 解决方案：

确保数据集足够大（通常 >10K 样本）
增加训练轮数（50-100）
尝试不同的架构（使用 AttentiveFP、DMPNN 代替 GCN）
使用预训练模型（GROVER）

问题 3：在小型数据集上过拟合

问题：模型记住了训练数据。 解决方案：

使用更强的正则化（将 dropout 增加到 0.5）
使用更简单的模型（使用随机森林代替深度学习）
应用迁移学习（ChemBERTa、GROVER）
收集更多数据

问题 4：导入错误

问题：找不到模块错误。 解决方案：确保 DeepChem 已安装所需的依赖项：

uv pip install deepchem
# 对于 PyTorch 模型
uv pip install deepchem[torch]
# 对于所有功能
uv pip install deepchem[all]

此技能包含全面的参考文档：

`references/api_reference.md`

完整的 API 文档，包括：

所有数据加载器及其用例
数据集类以及何时使用每个类
完整的特征化器目录及选择指南
按类别组织的模型目录（50 多个模型）
MoleculeNet 数据集描述
评估指标和函数
常见代码模式

何时参考：当您需要特定的 API 详细信息、参数名称或想要探索可用选项时，请搜索此文件。

`references/workflows.md`

八个详细的端到端工作流：

从 SMILES 进行分子性质预测
使用 MoleculeNet 基准测试
超参数优化
使用预训练模型进行迁移学习
使用 GAN 进行分子生成
材料性质预测
蛋白质序列分析
自定义模型集成

何时参考：将这些工作流用作实现完整解决方案的模板。

uv pip install deepchem

对于 PyTorch 模型（GCN、GAT 等）：

uv pip install deepchem[torch]

对于所有功能：

uv pip install deepchem[all]

如果出现导入错误，用户可能需要特定的依赖项。请查看 DeepChem 文档以获取详细的安装说明。

官方文档：https://deepchem.readthedocs.io/
GitHub 仓库：https://github.com/deepchem/deepchem
教程：https://deepchem.readthedocs.io/en/latest/get_started/tutorials.html
论文："MoleculeNet: A Benchmark for Molecular Machine Learning"

2026 年 1 月 20 日

🇺🇸English

DeepChem

Overview

DeepChem is a comprehensive Python library for applying machine learning to chemistry, materials science, and biology. Enable molecular property prediction, drug discovery, materials design, and biomolecule analysis through specialized neural networks, molecular featurization methods, and pretrained models.

When to Use This Skill

This skill should be used when:

Loading and processing molecular data (SMILES strings, SDF files, protein sequences)
Predicting molecular properties (solubility, toxicity, binding affinity, ADMET properties)
Training models on chemical/biological datasets
Using MoleculeNet benchmark datasets (Tox21, BBBP, Delaney, etc.)
Converting molecules to ML-ready features (fingerprints, graph representations, descriptors)
Implementing graph neural networks for molecules (GCN, GAT, MPNN, AttentiveFP)
Applying transfer learning with pretrained models (ChemBERTa, GROVER, MolFormer)
Predicting crystal/materials properties (bandgap, formation energy)
Analyzing protein or DNA sequences

Core Capabilities

1. Molecular Data Loading and Processing

DeepChem provides specialized loaders for various chemical data formats:

import deepchem as dc

# Load CSV with SMILES
featurizer = dc.feat.CircularFingerprint(radius=2, size=2048)
loader = dc.data.CSVLoader(
    tasks=['solubility', 'toxicity'],
    feature_field='smiles',
    featurizer=featurizer
)
dataset = loader.create_dataset('molecules.csv')

# Load SDF files
loader = dc.data.SDFLoader(tasks=['activity'], featurizer=featurizer)
dataset = loader.create_dataset('compounds.sdf')

# Load protein sequences
loader = dc.data.FASTALoader()
dataset = loader.create_dataset('proteins.fasta')

Key Loaders :

CSVLoader: Tabular data with molecular identifiers
SDFLoader: Molecular structure files
FASTALoader: Protein/DNA sequences
ImageLoader: Molecular images
JsonLoader: JSON-formatted datasets

2. Molecular Featurization

Convert molecules into numerical representations for ML models.

Decision Tree for Featurizer Selection

Is the model a graph neural network?
├─ YES → Use graph featurizers
│   ├─ Standard GNN → MolGraphConvFeaturizer
│   ├─ Message passing → DMPNNFeaturizer
│   └─ Pretrained → GroverFeaturizer
│
└─ NO → What type of model?
    ├─ Traditional ML (RF, XGBoost, SVM)
    │   ├─ Fast baseline → CircularFingerprint (ECFP)
    │   ├─ Interpretable → RDKitDescriptors
    │   └─ Maximum coverage → MordredDescriptors
    │
    ├─ Deep learning (non-graph)
    │   ├─ Dense networks → CircularFingerprint
    │   └─ CNN → SmilesToImage
    │
    ├─ Sequence models (LSTM, Transformer)
    │   └─ SmilesToSeq
    │
    └─ 3D structure analysis
        └─ CoulombMatrix

Example Featurization

# Fingerprints (for traditional ML)
fp = dc.feat.CircularFingerprint(radius=2, size=2048)

# Descriptors (for interpretable models)
desc = dc.feat.RDKitDescriptors()

# Graph features (for GNNs)
graph_feat = dc.feat.MolGraphConvFeaturizer()

# Apply featurization
features = fp.featurize(['CCO', 'c1ccccc1'])

Selection Guide :

Small datasets ( <1K): CircularFingerprint or RDKitDescriptors
Medium datasets (1K-100K) : CircularFingerprint or graph featurizers
Large datasets ( >100K): Graph featurizers (MolGraphConvFeaturizer, DMPNNFeaturizer)
Transfer learning : Pretrained model featurizers (GroverFeaturizer)

See references/api_reference.md for complete featurizer documentation.

3. Data Splitting

Critical : For drug discovery tasks, use ScaffoldSplitter to prevent data leakage from similar molecular structures appearing in both training and test sets.

# Scaffold splitting (recommended for molecules)
splitter = dc.splits.ScaffoldSplitter()
train, valid, test = splitter.train_valid_test_split(
    dataset,
    frac_train=0.8,
    frac_valid=0.1,
    frac_test=0.1
)

# Random splitting (for non-molecular data)
splitter = dc.splits.RandomSplitter()
train, test = splitter.train_test_split(dataset)

# Stratified splitting (for imbalanced classification)
splitter = dc.splits.RandomStratifiedSplitter()
train, test = splitter.train_test_split(dataset)

Available Splitters :

ScaffoldSplitter: Split by molecular scaffolds (prevents leakage)
ButinaSplitter: Clustering-based molecular splitting
MaxMinSplitter: Maximize diversity between sets
RandomSplitter: Random splitting
RandomStratifiedSplitter: Preserves class distributions

4. Model Selection and Training

Quick Model Selection Guide

Dataset Size	Task	Recommended Model	Featurizer
< 1K samples	Any	SklearnModel (RandomForest)	CircularFingerprint
1K-100K	Classification/Regression	GBDTModel or MultitaskRegressor	CircularFingerprint

100K | Molecular properties | GCNModel, AttentiveFPModel, DMPNNModel | MolGraphConvFeaturizer
Any (small preferred) | Transfer learning | ChemBERTa, GROVER, MolFormer | Model-specific
Crystal structures | Materials properties | CGCNNModel, MEGNetModel | Structure-based
Protein sequences | Protein properties | ProtBERT | Sequence-based

Example: Traditional ML

from sklearn.ensemble import RandomForestRegressor

# Wrap scikit-learn model
sklearn_model = RandomForestRegressor(n_estimators=100)
model = dc.models.SklearnModel(model=sklearn_model)
model.fit(train)

Example: Deep Learning

# Multitask regressor (for fingerprints)
model = dc.models.MultitaskRegressor(
    n_tasks=2,
    n_features=2048,
    layer_sizes=[1000, 500],
    dropouts=0.25,
    learning_rate=0.001
)
model.fit(train, nb_epoch=50)

Example: Graph Neural Networks

# Graph Convolutional Network
model = dc.models.GCNModel(
    n_tasks=1,
    mode='regression',
    batch_size=128,
    learning_rate=0.001
)
model.fit(train, nb_epoch=50)

# Graph Attention Network
model = dc.models.GATModel(n_tasks=1, mode='classification')
model.fit(train, nb_epoch=50)

# Attentive Fingerprint
model = dc.models.AttentiveFPModel(n_tasks=1, mode='regression')
model.fit(train, nb_epoch=50)

5. MoleculeNet Benchmarks

Quick access to 30+ curated benchmark datasets with standardized train/valid/test splits:

# Load benchmark dataset
tasks, datasets, transformers = dc.molnet.load_tox21(
    featurizer='GraphConv',  # or 'ECFP', 'Weave', 'Raw'
    splitter='scaffold',     # or 'random', 'stratified'
    reload=False
)
train, valid, test = datasets

# Train and evaluate
model = dc.models.GCNModel(n_tasks=len(tasks), mode='classification')
model.fit(train, nb_epoch=50)

metric = dc.metrics.Metric(dc.metrics.roc_auc_score)
test_score = model.evaluate(test, [metric])

Common Datasets :

Classification : load_tox21(), load_bbbp(), load_hiv(), load_clintox()
Regression : load_delaney(), load_freesolv(), load_lipo()
Quantum properties : load_qm7(), load_qm8(), load_qm9()
: , ,

See references/api_reference.md for complete dataset list.

6. Transfer Learning

Leverage pretrained models for improved performance, especially on small datasets:

# ChemBERTa (BERT pretrained on 77M molecules)
model = dc.models.HuggingFaceModel(
    model='seyonec/ChemBERTa-zinc-base-v1',
    task='classification',
    n_tasks=1,
    learning_rate=2e-5  # Lower LR for fine-tuning
)
model.fit(train, nb_epoch=10)

# GROVER (graph transformer pretrained on 10M molecules)
model = dc.models.GroverModel(
    task='regression',
    n_tasks=1
)
model.fit(train, nb_epoch=20)

When to use transfer learning :

Small datasets (< 1000 samples)
Novel molecular scaffolds
Limited computational resources
Need for rapid prototyping

Use the scripts/transfer_learning.py script for guided transfer learning workflows.

7. Model Evaluation

# Define metrics
classification_metrics = [
    dc.metrics.Metric(dc.metrics.roc_auc_score, name='ROC-AUC'),
    dc.metrics.Metric(dc.metrics.accuracy_score, name='Accuracy'),
    dc.metrics.Metric(dc.metrics.f1_score, name='F1')
]

regression_metrics = [
    dc.metrics.Metric(dc.metrics.r2_score, name='R²'),
    dc.metrics.Metric(dc.metrics.mean_absolute_error, name='MAE'),
    dc.metrics.Metric(dc.metrics.root_mean_squared_error, name='RMSE')
]

# Evaluate
train_scores = model.evaluate(train, classification_metrics)
test_scores = model.evaluate(test, classification_metrics)

8. Making Predictions

# Predict on test set
predictions = model.predict(test)

# Predict on new molecules
new_smiles = ['CCO', 'c1ccccc1', 'CC(C)O']
new_features = featurizer.featurize(new_smiles)
new_dataset = dc.data.NumpyDataset(X=new_features)

# Apply same transformations as training
for transformer in transformers:
    new_dataset = transformer.transform(new_dataset)

predictions = model.predict(new_dataset)

Typical Workflows

Workflow A: Quick Benchmark Evaluation

For evaluating a model on standard benchmarks:

import deepchem as dc

# 1. Load benchmark
tasks, datasets, _ = dc.molnet.load_bbbp(
    featurizer='GraphConv',
    splitter='scaffold'
)
train, valid, test = datasets

# 2. Train model
model = dc.models.GCNModel(n_tasks=len(tasks), mode='classification')
model.fit(train, nb_epoch=50)

# 3. Evaluate
metric = dc.metrics.Metric(dc.metrics.roc_auc_score)
test_score = model.evaluate(test, [metric])
print(f"Test ROC-AUC: {test_score}")

Workflow B: Custom Data Prediction

For training on custom molecular datasets:

import deepchem as dc

# 1. Load and featurize data
featurizer = dc.feat.CircularFingerprint(radius=2, size=2048)
loader = dc.data.CSVLoader(
    tasks=['activity'],
    feature_field='smiles',
    featurizer=featurizer
)
dataset = loader.create_dataset('my_molecules.csv')

# 2. Split data (use ScaffoldSplitter for molecules!)
splitter = dc.splits.ScaffoldSplitter()
train, valid, test = splitter.train_valid_test_split(dataset)

# 3. Normalize (optional but recommended)
transformers = [dc.trans.NormalizationTransformer(
    transform_y=True, dataset=train
)]
for transformer in transformers:
    train = transformer.transform(train)
    valid = transformer.transform(valid)
    test = transformer.transform(test)

# 4. Train model
model = dc.models.MultitaskRegressor(
    n_tasks=1,
    n_features=2048,
    layer_sizes=[1000, 500],
    dropouts=0.25
)
model.fit(train, nb_epoch=50)

# 5. Evaluate
metric = dc.metrics.Metric(dc.metrics.r2_score)
test_score = model.evaluate(test, [metric])

Workflow C: Transfer Learning on Small Dataset

For leveraging pretrained models:

import deepchem as dc

# 1. Load data (pretrained models often need raw SMILES)
loader = dc.data.CSVLoader(
    tasks=['activity'],
    feature_field='smiles',
    featurizer=dc.feat.DummyFeaturizer()  # Model handles featurization
)
dataset = loader.create_dataset('small_dataset.csv')

# 2. Split data
splitter = dc.splits.ScaffoldSplitter()
train, test = splitter.train_test_split(dataset)

# 3. Load pretrained model
model = dc.models.HuggingFaceModel(
    model='seyonec/ChemBERTa-zinc-base-v1',
    task='classification',
    n_tasks=1,
    learning_rate=2e-5
)

# 4. Fine-tune
model.fit(train, nb_epoch=10)

# 5. Evaluate
predictions = model.predict(test)

See references/workflows.md for 8 detailed workflow examples covering molecular generation, materials science, protein analysis, and more.

Example Scripts

This skill includes three production-ready scripts in the scripts/ directory:

1. `predict_solubility.py`

Train and evaluate solubility prediction models. Works with Delaney benchmark or custom CSV data.

# Use Delaney benchmark
python scripts/predict_solubility.py

# Use custom data
python scripts/predict_solubility.py \
    --data my_data.csv \
    --smiles-col smiles \
    --target-col solubility \
    --predict "CCO" "c1ccccc1"

2. `graph_neural_network.py`

Train various graph neural network architectures on molecular data.

# Train GCN on Tox21
python scripts/graph_neural_network.py --model gcn --dataset tox21

# Train AttentiveFP on custom data
python scripts/graph_neural_network.py \
    --model attentivefp \
    --data molecules.csv \
    --task-type regression \
    --targets activity \
    --epochs 100

3. `transfer_learning.py`

Fine-tune pretrained models (ChemBERTa, GROVER) on molecular property prediction tasks.

# Fine-tune ChemBERTa on BBBP
python scripts/transfer_learning.py --model chemberta --dataset bbbp

# Fine-tune GROVER on custom data
python scripts/transfer_learning.py \
    --model grover \
    --data small_dataset.csv \
    --target activity \
    --task-type classification \
    --epochs 20

Common Patterns and Best Practices

Pattern 1: Always Use Scaffold Splitting for Molecules

# GOOD: Prevents data leakage
splitter = dc.splits.ScaffoldSplitter()
train, test = splitter.train_test_split(dataset)

# BAD: Similar molecules in train and test
splitter = dc.splits.RandomSplitter()
train, test = splitter.train_test_split(dataset)

Pattern 2: Normalize Features and Targets

transformers = [
    dc.trans.NormalizationTransformer(
        transform_y=True,  # Also normalize target values
        dataset=train
    )
]
for transformer in transformers:
    train = transformer.transform(train)
    test = transformer.transform(test)

Pattern 3: Start Simple, Then Scale

Start with Random Forest + CircularFingerprint (fast baseline)
Try XGBoost/LightGBM if RF works well
Move to deep learning (MultitaskRegressor) if you have >5K samples
Try GNNs if you have >10K samples
Use transfer learning for small datasets or novel scaffolds

Pattern 4: Handle Imbalanced Data

# Option 1: Balancing transformer
transformer = dc.trans.BalancingTransformer(dataset=train)
train = transformer.transform(train)

# Option 2: Use balanced metrics
metric = dc.metrics.Metric(dc.metrics.balanced_accuracy_score)

Pattern 5: Avoid Memory Issues

# Use DiskDataset for large datasets
dataset = dc.data.DiskDataset.from_numpy(X, y, w, ids)

# Use smaller batch sizes
model = dc.models.GCNModel(batch_size=32)  # Instead of 128

Common Pitfalls

Issue 1: Data Leakage in Drug Discovery

Problem : Using random splitting allows similar molecules in train/test sets. Solution : Always use ScaffoldSplitter for molecular datasets.

Issue 2: GNN Underperforming vs Fingerprints

Problem : Graph neural networks perform worse than simple fingerprints. Solutions :

Ensure dataset is large enough (>10K samples typically)
Increase training epochs (50-100)
Try different architectures (AttentiveFP, DMPNN instead of GCN)
Use pretrained models (GROVER)

Issue 3: Overfitting on Small Datasets

Problem : Model memorizes training data. Solutions :

Use stronger regularization (increase dropout to 0.5)
Use simpler models (Random Forest instead of deep learning)
Apply transfer learning (ChemBERTa, GROVER)
Collect more data

Issue 4: Import Errors

Problem : Module not found errors. Solution : Ensure DeepChem is installed with required dependencies:

uv pip install deepchem
# For PyTorch models
uv pip install deepchem[torch]
# For all features
uv pip install deepchem[all]

Reference Documentation

This skill includes comprehensive reference documentation:

`references/api_reference.md`

Complete API documentation including:

All data loaders and their use cases
Dataset classes and when to use each
Complete featurizer catalog with selection guide
Model catalog organized by category (50+ models)
MoleculeNet dataset descriptions
Metrics and evaluation functions
Common code patterns

When to reference : Search this file when you need specific API details, parameter names, or want to explore available options.

`references/workflows.md`

Eight detailed end-to-end workflows:

Molecular property prediction from SMILES
Using MoleculeNet benchmarks
Hyperparameter optimization
Transfer learning with pretrained models
Molecular generation with GANs
Materials property prediction
Protein sequence analysis
Custom model integration

When to reference : Use these workflows as templates for implementing complete solutions.

Installation Notes

Basic installation:

uv pip install deepchem

For PyTorch models (GCN, GAT, etc.):

uv pip install deepchem[torch]

For all features:

uv pip install deepchem[all]

If import errors occur, the user may need specific dependencies. Check the DeepChem documentation for detailed installation instructions.

Additional Resources

Official documentation: https://deepchem.readthedocs.io/
GitHub repository: https://github.com/deepchem/deepchem
Tutorials: https://deepchem.readthedocs.io/en/latest/get_started/tutorials.html
Paper: "MoleculeNet: A Benchmark for Molecular Machine Learning"

Weekly Installs

Repository

k-dense-ai/clau…c-skills

GitHub Stars

17.3K

First Seen

Jan 20, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

opencode48

codex47

gemini-cli47

cursor45

claude-code44

github-copilot44

超能力技能使用指南：AI助手技能调用优先级与工作流程详解

55,300 周安装

load_mp_formation_energy()

DeepChem：Python化学与生物机器学习库，用于分子性质预测与药物发现

🇨🇳中文介绍

DeepChem

概述

何时使用此技能

核心功能

1. 分子数据加载与处理

相关 Skills

2. 分子特征化

特征化器选择决策树

特征化示例

3. 数据拆分

4. 模型选择与训练

快速模型选择指南

示例：传统机器学习

示例：深度学习

示例：图神经网络

5. MoleculeNet 基准测试

6. 迁移学习

7. 模型评估

8. 进行预测

典型工作流

工作流 A：快速基准评估

工作流 B：自定义数据预测

工作流 C：小型数据集上的迁移学习

示例脚本

1. predict_solubility.py

2. graph_neural_network.py

3. transfer_learning.py

常见模式与最佳实践

模式 1：始终对分子使用骨架拆分

模式 2：标准化特征和目标值

模式 3：从简单开始，然后扩展

模式 4：处理不平衡数据

模式 5：避免内存问题

常见陷阱

问题 1：药物发现中的数据泄露

问题 2：图神经网络性能不如指纹方法

问题 3：在小型数据集上过拟合

问题 4：导入错误

参考文档

references/api_reference.md

references/workflows.md

安装说明

其他资源

🇺🇸English

DeepChem

Overview

When to Use This Skill

Core Capabilities

1. Molecular Data Loading and Processing

2. Molecular Featurization

Decision Tree for Featurizer Selection

Example Featurization

3. Data Splitting

4. Model Selection and Training

Quick Model Selection Guide

Example: Traditional ML

Example: Deep Learning

Example: Graph Neural Networks

5. MoleculeNet Benchmarks

6. Transfer Learning

7. Model Evaluation

8. Making Predictions

Typical Workflows

Workflow A: Quick Benchmark Evaluation

Workflow B: Custom Data Prediction

Workflow C: Transfer Learning on Small Dataset

Example Scripts

1. predict_solubility.py

2. graph_neural_network.py

3. transfer_learning.py

Common Patterns and Best Practices

Pattern 1: Always Use Scaffold Splitting for Molecules

Pattern 2: Normalize Features and Targets

Pattern 3: Start Simple, Then Scale

Pattern 4: Handle Imbalanced Data

Pattern 5: Avoid Memory Issues

Common Pitfalls

Issue 1: Data Leakage in Drug Discovery

1. `predict_solubility.py`

2. `graph_neural_network.py`

3. `transfer_learning.py`

`references/api_reference.md`

`references/workflows.md`

1. `predict_solubility.py`

2. `graph_neural_network.py`

3. `transfer_learning.py`

`references/api_reference.md`

`references/workflows.md`