ChEMBL数据库Python客户端使用指南：药物发现与化学信息学编程教程

chembl-database by davila7/claude-code-templates

185 周安装量

24,200 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/davila7/claude-code-templates --skill chembl-database

科研工具生物信息学数据处理

🇨🇳中文介绍

ChEMBL 数据库

概述

ChEMBL 是由欧洲生物信息学研究所（EBI）维护的手动整理的生物活性分子数据库，包含超过 200 万个化合物、1900 万条生物活性测量数据、13,000 多个药物靶点，以及已批准药物和临床候选药物的数据。使用 ChEMBL Python 客户端以编程方式访问和查询此数据，用于药物发现和药物化学研究。

何时使用此技能

此技能应在以下情况使用：

化合物搜索：通过名称、结构或属性查找分子
靶点信息：检索有关蛋白质、酶或生物靶点的数据
生物活性数据：查询 IC50、Ki、EC50 或其他活性测量值
药物信息：查找已批准药物、作用机制或适应症
结构搜索：执行相似性或子结构搜索
化学信息学：分析分子性质和类药性
靶点-配体关系：探索化合物-靶点相互作用
药物发现：识别抑制剂、激动剂或生物活性分子

安装与设置

Python 客户端

编程访问需要 ChEMBL Python 客户端：

uv pip install chembl_webresource_client

基本使用模式

from chembl_webresource_client.new_client import new_client

# 访问不同的端点
molecule = new_client.molecule
target = new_client.target
activity = new_client.activity
drug = new_client.drug

核心功能

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

3. 生物活性数据

查询靶点的活性数据：

activity = new_client.activity
# 查找强效的 EGFR 抑制剂
results = activity.filter(
    target_chembl_id='CHEMBL203',
    standard_type='IC50',
    standard_value__lte=100,
    standard_units='nM'
)

获取化合物的所有活性数据：

compound_activities = activity.filter(
    molecule_chembl_id='CHEMBL25',
    pchembl_value__isnull=False
)

4. 基于结构的搜索

相似性搜索：

similarity = new_client.similarity
# 查找与阿司匹林相似的化合物
similar = similarity.filter(
    smiles='CC(=O)Oc1ccccc1C(=O)O',
    similarity=85  # 85% 相似性阈值
)

子结构搜索：

substructure = new_client.substructure
# 查找包含苯环的化合物
results = substructure.filter(smiles='c1ccccc1')

检索药物数据：

drug = new_client.drug
drug_info = drug.get('CHEMBL25')

获取作用机制：

mechanism = new_client.mechanism
mechanisms = mechanism.filter(molecule_chembl_id='CHEMBL25')

查询药物适应症：

drug_indication = new_client.drug_indication
indications = drug_indication.filter(molecule_chembl_id='CHEMBL25')

工作流 1：查找靶点的抑制剂

通过名称搜索识别靶点：

targets = new_client.target.filter(pref_name__icontains='EGFR')
target_id = targets[0]['target_chembl_id']

查询该靶点的生物活性数据：

activities = new_client.activity.filter(
    target_chembl_id=target_id,
    standard_type='IC50',
    standard_value__lte=100
)

提取化合物 ID 并检索详细信息：

compound_ids = [act['molecule_chembl_id'] for act in activities]
compounds = [new_client.molecule.get(cid) for cid in compound_ids]

工作流 2：分析已知药物

获取药物信息：

drug_info = new_client.drug.get('CHEMBL1234')

检索作用机制：

mechanisms = new_client.mechanism.filter(molecule_chembl_id='CHEMBL1234')

查找所有生物活性数据：

activities = new_client.activity.filter(molecule_chembl_id='CHEMBL1234')

工作流 3：构效关系研究

查找相似化合物：

similar = new_client.similarity.filter(smiles='query_smiles', similarity=80)

获取每个化合物的活性数据：

for compound in similar:
    activities = new_client.activity.filter(
        molecule_chembl_id=compound['molecule_chembl_id']
    )

使用结果中的分子属性分析属性-活性关系。

ChEMBL 支持 Django 风格的查询过滤器：

__exact - 精确匹配
__iexact - 不区分大小写的精确匹配
__contains / __icontains - 子字符串匹配
__startswith / __endswith - 前缀/后缀匹配
__gt, __gte, __lt, __lte - 数值比较
__range - 值在范围内
__in - 值在列表中
__isnull - 空值/非空检查

数据导出与分析

将结果转换为 pandas DataFrame 进行分析：

import pandas as pd

activities = new_client.activity.filter(target_chembl_id='CHEMBL203')
df = pd.DataFrame(list(activities))

# 分析结果
print(df['standard_value'].describe())
print(df.groupby('standard_type').size())

客户端自动缓存结果 24 小时。配置缓存：

from chembl_webresource_client.settings import Settings

# 禁用缓存
Settings.Instance().CACHING = False

# 调整缓存过期时间（秒）
Settings.Instance().CACHE_EXPIRE = 86400

仅在访问数据时才执行查询。转换为列表以强制执行：

# 查询尚未执行
results = molecule.filter(pref_name__icontains='aspirin')

# 强制执行
results_list = list(results)

结果自动分页。遍历所有结果：

for activity in new_client.activity.filter(target_chembl_id='CHEMBL203'):
    # 处理每个活性数据
    print(activity['molecule_chembl_id'])

查找激酶抑制剂

# 识别激酶靶点
kinases = new_client.target.filter(
    target_type='SINGLE PROTEIN',
    pref_name__icontains='kinase'
)

# 获取强效抑制剂
for kinase in kinases[:5]:  # 前 5 个激酶
    activities = new_client.activity.filter(
        target_chembl_id=kinase['target_chembl_id'],
        standard_type='IC50',
        standard_value__lte=50
    )

探索药物再利用

# 获取已批准药物
drugs = new_client.drug.filter()

# 对于每种药物，查找所有靶点
for drug in drugs[:10]:
    mechanisms = new_client.mechanism.filter(
        molecule_chembl_id=drug['molecule_chembl_id']
    )

# 查找具有所需属性的化合物
candidates = new_client.molecule.filter(
    molecule_properties__mw_freebase__range=[300, 500],
    molecule_properties__alogp__lte=5,
    molecule_properties__hba__lte=10,
    molecule_properties__hbd__lte=5
)

scripts/example_queries.py

演示常见 ChEMBL 查询模式的即用型 Python 函数：

get_molecule_info() - 通过 ID 检索分子详细信息
search_molecules_by_name() - 基于名称的分子搜索
find_molecules_by_properties() - 基于属性的筛选
get_bioactivity_data() - 查询靶点的生物活性数据
find_similar_compounds() - 相似性搜索
substructure_search() - 子结构匹配
get_drug_info() - 检索药物信息
find_kinase_inhibitors() - 专门的激酶抑制剂搜索
export_to_dataframe() - 将结果转换为 pandas DataFrame

有关实现细节和使用示例，请查阅此脚本。

references/api_reference.md

全面的 API 文档，包括：

完整的端点列表（分子、靶点、活性、测定、药物等）
所有筛选运算符和查询模式
分子属性和生物活性字段
高级查询示例
配置和性能调优
错误处理和速率限制

需要详细 API 信息或排查查询问题时，请参考此文档。

ChEMBL 数据是手动整理的，但可能包含不一致之处
始终检查活性记录中的 data_validity_comment 字段
注意 potential_duplicate 标志

生物活性值使用标准单位（nM、uM 等）
pchembl_value 提供归一化的活性值（-log 标度）
检查 standard_type 以了解测量类型（IC50、Ki、EC50 等）

遵守 ChEMBL 的公平使用政策
使用缓存以最小化重复请求
对于大型数据集，考虑批量下载
避免使用快速连续请求冲击 API

SMILES 字符串是主要的结构格式
化合物提供 InChI 键
可以通过图像端点生成 SVG 图像

2026 年 1 月 21 日

🇺🇸English

ChEMBL Database

Overview

ChEMBL is a manually curated database of bioactive molecules maintained by the European Bioinformatics Institute (EBI), containing over 2 million compounds, 19 million bioactivity measurements, 13,000+ drug targets, and data on approved drugs and clinical candidates. Access and query this data programmatically using the ChEMBL Python client for drug discovery and medicinal chemistry research.

When to Use This Skill

This skill should be used when:

Compound searches : Finding molecules by name, structure, or properties
Target information : Retrieving data about proteins, enzymes, or biological targets
Bioactivity data : Querying IC50, Ki, EC50, or other activity measurements
Drug information : Looking up approved drugs, mechanisms, or indications
Structure searches : Performing similarity or substructure searches
Cheminformatics : Analyzing molecular properties and drug-likeness
Target-ligand relationships : Exploring compound-target interactions
Drug discovery : Identifying inhibitors, agonists, or bioactive molecules

Installation and Setup

Python Client

The ChEMBL Python client is required for programmatic access:

uv pip install chembl_webresource_client

Basic Usage Pattern

from chembl_webresource_client.new_client import new_client

# Access different endpoints
molecule = new_client.molecule
target = new_client.target
activity = new_client.activity
drug = new_client.drug

Core Capabilities

1. Molecule Queries

Retrieve by ChEMBL ID:

molecule = new_client.molecule
aspirin = molecule.get('CHEMBL25')

Search by name:

results = molecule.filter(pref_name__icontains='aspirin')

Filter by properties:

# Find small molecules (MW <= 500) with favorable LogP
results = molecule.filter(
    molecule_properties__mw_freebase__lte=500,
    molecule_properties__alogp__lte=5
)

2. Target Queries

Retrieve target information:

target = new_client.target
egfr = target.get('CHEMBL203')

Search for specific target types:

# Find all kinase targets
kinases = target.filter(
    target_type='SINGLE PROTEIN',
    pref_name__icontains='kinase'
)

3. Bioactivity Data

Query activities for a target:

activity = new_client.activity
# Find potent EGFR inhibitors
results = activity.filter(
    target_chembl_id='CHEMBL203',
    standard_type='IC50',
    standard_value__lte=100,
    standard_units='nM'
)

Get all activities for a compound:

compound_activities = activity.filter(
    molecule_chembl_id='CHEMBL25',
    pchembl_value__isnull=False
)

4. Structure-Based Searches

Similarity search:

similarity = new_client.similarity
# Find compounds similar to aspirin
similar = similarity.filter(
    smiles='CC(=O)Oc1ccccc1C(=O)O',
    similarity=85  # 85% similarity threshold
)

Substructure search:

substructure = new_client.substructure
# Find compounds containing benzene ring
results = substructure.filter(smiles='c1ccccc1')

5. Drug Information

Retrieve drug data:

drug = new_client.drug
drug_info = drug.get('CHEMBL25')

Get mechanisms of action:

mechanism = new_client.mechanism
mechanisms = mechanism.filter(molecule_chembl_id='CHEMBL25')

Query drug indications:

drug_indication = new_client.drug_indication
indications = drug_indication.filter(molecule_chembl_id='CHEMBL25')

Query Workflow

Workflow 1: Finding Inhibitors for a Target

Identify the target by searching by name:

targets = new_client.target.filter(pref_name__icontains='EGFR')
target_id = targets[0]['target_chembl_id']

Query bioactivity data for that target:

activities = new_client.activity.filter(
    target_chembl_id=target_id,
    standard_type='IC50',
    standard_value__lte=100
)

Extract compound IDs and retrieve details:

compound_ids = [act['molecule_chembl_id'] for act in activities]
compounds = [new_client.molecule.get(cid) for cid in compound_ids]

Workflow 2: Analyzing a Known Drug

Get drug information :

drug_info = new_client.drug.get('CHEMBL1234')

Retrieve mechanisms :

mechanisms = new_client.mechanism.filter(molecule_chembl_id='CHEMBL1234')

Find all bioactivities :

activities = new_client.activity.filter(molecule_chembl_id='CHEMBL1234')

Workflow 3: Structure-Activity Relationship (SAR) Study

Find similar compounds :

similar = new_client.similarity.filter(smiles='query_smiles', similarity=80)

Get activities for each compound :

for compound in similar:
    activities = new_client.activity.filter(
        molecule_chembl_id=compound['molecule_chembl_id']
    )

Analyze property-activity relationships using molecular properties from results.

Filter Operators

ChEMBL supports Django-style query filters:

__exact - Exact match
__iexact - Case-insensitive exact match
__contains / __icontains - Substring matching
__startswith / __endswith - Prefix/suffix matching
__gt, __gte, __lt, __lte - Numeric comparisons
__range - Value in range

Data Export and Analysis

Convert results to pandas DataFrame for analysis:

import pandas as pd

activities = new_client.activity.filter(target_chembl_id='CHEMBL203')
df = pd.DataFrame(list(activities))

# Analyze results
print(df['standard_value'].describe())
print(df.groupby('standard_type').size())

Performance Optimization

Caching

The client automatically caches results for 24 hours. Configure caching:

from chembl_webresource_client.settings import Settings

# Disable caching
Settings.Instance().CACHING = False

# Adjust cache expiration (seconds)
Settings.Instance().CACHE_EXPIRE = 86400

Lazy Evaluation

Queries execute only when data is accessed. Convert to list to force execution:

# Query is not executed yet
results = molecule.filter(pref_name__icontains='aspirin')

# Force execution
results_list = list(results)

Pagination

Results are paginated automatically. Iterate through all results:

for activity in new_client.activity.filter(target_chembl_id='CHEMBL203'):
    # Process each activity
    print(activity['molecule_chembl_id'])

Common Use Cases

Find Kinase Inhibitors

# Identify kinase targets
kinases = new_client.target.filter(
    target_type='SINGLE PROTEIN',
    pref_name__icontains='kinase'
)

# Get potent inhibitors
for kinase in kinases[:5]:  # First 5 kinases
    activities = new_client.activity.filter(
        target_chembl_id=kinase['target_chembl_id'],
        standard_type='IC50',
        standard_value__lte=50
    )

Explore Drug Repurposing

# Get approved drugs
drugs = new_client.drug.filter()

# For each drug, find all targets
for drug in drugs[:10]:
    mechanisms = new_client.mechanism.filter(
        molecule_chembl_id=drug['molecule_chembl_id']
    )

Virtual Screening

# Find compounds with desired properties
candidates = new_client.molecule.filter(
    molecule_properties__mw_freebase__range=[300, 500],
    molecule_properties__alogp__lte=5,
    molecule_properties__hba__lte=10,
    molecule_properties__hbd__lte=5
)

Resources

scripts/example_queries.py

Ready-to-use Python functions demonstrating common ChEMBL query patterns:

get_molecule_info() - Retrieve molecule details by ID
search_molecules_by_name() - Name-based molecule search
find_molecules_by_properties() - Property-based filtering
get_bioactivity_data() - Query bioactivities for targets
find_similar_compounds() - Similarity searching
substructure_search() - Substructure matching
get_drug_info() - Retrieve drug information
find_kinase_inhibitors() - Specialized kinase inhibitor search
export_to_dataframe() - Convert results to pandas DataFrame

Consult this script for implementation details and usage examples.

references/api_reference.md

Comprehensive API documentation including:

Complete endpoint listing (molecule, target, activity, assay, drug, etc.)
All filter operators and query patterns
Molecular properties and bioactivity fields
Advanced query examples
Configuration and performance tuning
Error handling and rate limiting

Refer to this document when detailed API information is needed or when troubleshooting queries.

Important Notes

Data Reliability

ChEMBL data is manually curated but may contain inconsistencies
Always check data_validity_comment field in activity records
Be aware of potential_duplicate flags

Units and Standards

Bioactivity values use standard units (nM, uM, etc.)
pchembl_value provides normalized activity (-log scale)
Check standard_type to understand measurement type (IC50, Ki, EC50, etc.)

Rate Limiting

Respect ChEMBL's fair usage policies
Use caching to minimize repeated requests
Consider bulk downloads for large datasets
Avoid hammering the API with rapid consecutive requests

Chemical Structure Formats

SMILES strings are the primary structure format
InChI keys available for compounds
SVG images can be generated via the image endpoint

Additional Resources

ChEMBL website: https://www.ebi.ac.uk/chembl/
API documentation: https://www.ebi.ac.uk/chembl/api/data/docs
Python client GitHub: https://github.com/chembl/chembl_webresource_client
Interface documentation: https://chembl.gitbook.io/chembl-interface-documentation/
Example notebooks: https://github.com/chembl/notebooks

Weekly Installs

121

Repository

davila7/claude-…emplates

GitHub Stars

22.6K

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

claude-code102

opencode94

gemini-cli89

cursor88

antigravity84

codex79

智能OCR文字识别工具 - 支持100+语言，高精度提取图片/PDF/手写文本

1,100 周安装

__in - Value in list

__isnull - Null/not null check

ChEMBL数据库Python客户端使用指南：药物发现与化学信息学编程教程

🇨🇳中文介绍

ChEMBL 数据库

概述

何时使用此技能

安装与设置

Python 客户端

基本使用模式

核心功能

相关 Skills

1. 分子查询

2. 靶点查询

3. 生物活性数据

4. 基于结构的搜索

5. 药物信息

查询工作流

工作流 1：查找靶点的抑制剂

工作流 2：分析已知药物

工作流 3：构效关系研究

筛选运算符

数据导出与分析

性能优化

缓存

惰性求值

分页

常见用例

查找激酶抑制剂

探索药物再利用

虚拟筛选

资源

scripts/example_queries.py

references/api_reference.md

重要说明

数据可靠性

单位与标准

速率限制

化学结构格式

其他资源

🇺🇸English

ChEMBL Database

Overview

When to Use This Skill

Installation and Setup

Python Client

Basic Usage Pattern

Core Capabilities

1. Molecule Queries

2. Target Queries

3. Bioactivity Data

4. Structure-Based Searches

5. Drug Information

Query Workflow

Workflow 1: Finding Inhibitors for a Target

Workflow 2: Analyzing a Known Drug

Workflow 3: Structure-Activity Relationship (SAR) Study

Filter Operators

Data Export and Analysis

Performance Optimization

Caching

Lazy Evaluation

Pagination

Common Use Cases

Find Kinase Inhibitors

Explore Drug Repurposing

Virtual Screening

Resources

scripts/example_queries.py

references/api_reference.md

Important Notes

Data Reliability

Units and Standards

Rate Limiting

Chemical Structure Formats

Additional Resources

最新 Skills