PyHealth医疗健康AI工具包：临床机器学习Python库，支持MIMIC/eICU数据集与预测模型

pyhealth by davila7/claude-code-templates

211 周安装量

24,200 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/davila7/claude-code-templates --skill pyhealth

AI/机器学习 Python Web框架健康科技

🇨🇳中文介绍

PyHealth：医疗健康 AI 工具包

概述

PyHealth 是一个用于医疗健康 AI 的综合性 Python 库，为临床机器学习提供专门的工具、模型和数据集。在开发医疗健康预测模型、处理临床数据、使用医疗编码系统或在医疗健康环境中部署 AI 解决方案时，请使用此技能。

何时使用此技能

在以下情况时调用此技能：

处理医疗健康数据集：MIMIC-III、MIMIC-IV、eICU、OMOP、睡眠 EEG 数据、医学影像
临床预测任务：死亡率预测、再入院预测、住院时长预测、药物推荐
医疗编码：在 ICD-9/10、NDC、RxNorm、ATC 编码系统之间进行转换
处理临床数据：序列事件、生理信号、临床文本、医学影像
实现医疗健康模型：RETAIN、SafeDrug、GAMENet、StageNet、用于 EHR 的 Transformer
评估临床模型：公平性指标、校准、可解释性、不确定性量化

核心能力

PyHealth 通过一个为医疗健康 AI 优化的模块化 5 阶段流程运行：

数据加载：通过标准化接口访问 10 多个医疗健康数据集
任务定义：应用 20 多个预定义的临床预测任务或创建自定义任务
模型选择：从 33 多个模型中选择（基线模型、深度学习模型、医疗健康专用模型）
训练：使用自动检查点、监控和评估进行训练
部署：为临床使用进行校准、解释和验证

性能：医疗健康数据处理速度比 pandas 快 3 倍

快速开始工作流

from pyhealth.datasets import MIMIC4Dataset
from pyhealth.tasks import mortality_prediction_mimic4_fn
from pyhealth.datasets import split_by_patient, get_dataloader
from pyhealth.models import Transformer
from pyhealth.trainer import Trainer

# 1. 加载数据集并设置任务
dataset = MIMIC4Dataset(root="/path/to/data")
sample_dataset = dataset.set_task(mortality_prediction_mimic4_fn)

# 2. 分割数据
train, val, test = split_by_patient(sample_dataset, [0.7, 0.1, 0.2])

# 3. 创建数据加载器
train_loader = get_dataloader(train, batch_size=64, shuffle=True)
val_loader = get_dataloader(val, batch_size=64, shuffle=False)
test_loader = get_dataloader(test, batch_size=64, shuffle=False)

# 4. 初始化和训练模型
model = Transformer(
    dataset=sample_dataset,
    feature_keys=["diagnoses", "medications"],
    mode="binary",
    embedding_dim=128
)

trainer = Trainer(model=model, device="cuda")
trainer.train(
    train_dataloader=train_loader,
    val_dataloader=val_loader,
    epochs=50,
    monitor="pr_auc_score"
)

# 5. 评估
results = trainer.evaluate(test_loader)

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

1. 数据集和数据结构

文件：references/datasets.md

加载医疗健康数据集（MIMIC、eICU、OMOP、睡眠 EEG 等）
理解 Event、Patient、Visit 数据结构
处理不同的数据类型（EHR、信号、影像、文本）
为训练/验证/测试分割数据
使用 SampleDataset 进行任务特定的格式化

核心数据结构（Event、Patient、Visit）
10 多个可用数据集（EHR、生理信号、影像、文本）
数据加载和迭代
训练/验证/测试分割策略
大型数据集的性能优化

2. 医疗编码转换

文件：references/medical_coding.md

在医疗编码系统之间进行转换
处理诊断代码（ICD-9-CM、ICD-10-CM、CCS）
处理药物代码（NDC、RxNorm、ATC）
标准化操作代码（ICD-9-PROC、ICD-10-PROC）
将代码分组到临床类别中
处理分层药物分类

用于系统内查找的 InnerMap
用于跨系统转换的 CrossMap
支持的编码系统（ICD、NDC、ATC、CCS、RxNorm）
代码标准化和层次结构遍历
按治疗类别进行药物分类
与数据集的集成

3. 临床预测任务

文件：references/tasks.md

定义临床预测目标
使用预定义任务（死亡率、再入院、药物推荐）
处理基于 EHR、信号、影像或文本的任务
创建自定义预测任务
为模型设置输入/输出模式
应用任务特定的过滤逻辑

20 多个预定义的临床任务
EHR 任务（死亡率、再入院、住院时长、药物推荐）
信号任务（睡眠分期、EEG 分析、癫痫发作检测）
影像任务（COVID-19 胸部 X 光分类）
文本任务（医疗编码、专科分类）
自定义任务创建模式

文件：references/models.md

为临床预测选择模型
理解模型架构和能力
在通用模型和医疗健康专用模型之间选择
实现可解释模型（RETAIN、AdaCare）
处理药物推荐（SafeDrug、GAMENet）
为医疗健康使用图神经网络
配置模型超参数

33 多个可用模型
通用模型：Logistic Regression、MLP、CNN、RNN、Transformer、GNN
医疗健康专用模型：RETAIN、SafeDrug、GAMENet、StageNet、AdaCare
按任务类型和数据类型选择模型
可解释性考虑因素
计算要求
超参数调优指南

文件：references/preprocessing.md

为模型预处理临床数据
处理序列事件和时间序列数据
处理生理信号（EEG、ECG）
标准化实验室值和生命体征
为不同的任务类型准备标签
构建特征词汇表
管理缺失数据和异常值

15 多种处理器类型
序列处理（填充、截断）
信号处理（滤波、分割）
特征提取和编码
标签处理器（二分类、多分类、多标签、回归）
文本和图像预处理
常见的预处理工作流

文件：references/training_evaluation.md

使用 Trainer 类训练模型
评估模型性能
计算临床指标
评估跨人口统计群体的模型公平性
为可靠性校准预测
量化预测不确定性
解释模型预测
为临床部署准备模型

Trainer 类（训练、评估、推理）
用于二分类、多分类、多标签、回归任务的指标
用于偏差评估的公平性指标
校准方法（Platt scaling、temperature scaling）
不确定性量化（conformal prediction、MC dropout）
可解释性工具（注意力可视化、SHAP、ChEFER）
完整的训练流程示例

uv pip install pyhealth

Python ≥ 3.7
PyTorch ≥ 1.8
NumPy、pandas、scikit-learn

用例 1：ICU 死亡率预测

目标：预测重症监护病房的患者死亡率

加载 MIMIC-IV 数据集 → 阅读 references/datasets.md
应用死亡率预测任务 → 阅读 references/tasks.md
选择可解释模型（RETAIN） → 阅读 references/models.md
训练和评估 → 阅读 references/training_evaluation.md
为临床使用解释预测 → 阅读 references/training_evaluation.md

用例 2：安全药物推荐

目标：推荐药物，同时避免药物相互作用

加载 EHR 数据集（MIMIC-IV 或 OMOP） → 阅读 references/datasets.md
应用药物推荐任务 → 阅读 references/tasks.md
使用带 DDI 约束的 SafeDrug 模型 → 阅读 references/models.md
预处理药物代码 → 阅读 references/medical_coding.md
使用多标签指标评估 → 阅读 references/training_evaluation.md

用例 3：医院再入院预测

目标：识别有 30 天再入院风险的患者

加载多站点 EHR 数据（eICU 或 OMOP） → 阅读 references/datasets.md
应用再入院预测任务 → 阅读 references/tasks.md
在预处理中处理类别不平衡 → 阅读 references/preprocessing.md
训练 Transformer 模型 → 阅读 references/models.md
校准预测并评估公平性 → 阅读 references/training_evaluation.md

用例 4：睡眠障碍诊断

目标：根据 EEG 信号对睡眠阶段进行分类

加载睡眠 EEG 数据集（SleepEDF、SHHS） → 阅读 references/datasets.md
应用睡眠分期任务 → 阅读 references/tasks.md
预处理 EEG 信号（滤波、分割） → 阅读 references/preprocessing.md
训练 CNN 或 RNN 模型 → 阅读 references/models.md
评估每个阶段的性能 → 阅读 references/training_evaluation.md

用例 5：医疗代码转换

目标：在不同编码系统之间标准化诊断

阅读 references/medical_coding.md 获取全面指导
使用 CrossMap 在 ICD-9、ICD-10、CCS 之间转换
将代码分组到有临床意义的类别中
与数据集处理集成

用例 6：临床文本到 ICD 编码

目标：根据临床记录自动分配 ICD 代码

加载包含临床文本的 MIMIC-III → 阅读 references/datasets.md
应用 ICD 编码任务 → 阅读 references/tasks.md
预处理临床文本 → 阅读 references/preprocessing.md
使用 TransformersModel（ClinicalBERT） → 阅读 references/models.md
使用多标签指标评估 → 阅读 references/training_evaluation.md

始终按患者分割：确保没有患者出现在多个分割中，以防止数据泄露

from pyhealth.datasets import split_by_patient
train, val, test = split_by_patient(dataset, [0.7, 0.1, 0.2])

检查数据集统计信息：在建模前了解您的数据

print(dataset.stats())  # 患者、就诊、事件、代码分布

使用适当的预处理：使处理器与数据类型匹配（参见 references/preprocessing.md）

从基线开始：使用简单模型建立基线性能
- 用于二分类/多分类任务的 Logistic Regression
- 用于初始深度学习基线的 MLP
选择适合任务的模型：
- 需要可解释性 → RETAIN、AdaCare
- 药物推荐 → SafeDrug、GAMENet
- 长序列 → Transformer
- 图关系 → GNN
监控验证指标：为任务使用适当的指标并处理类别不平衡
- 二分类：AUROC、AUPRC（特别是对于罕见事件）
- 多分类：macro-F1（用于不平衡数据）、weighted-F1
- 多标签：Jaccard、example-F1
- 回归：MAE、RMSE

校准预测：确保概率可靠（参见 references/training_evaluation.md）
评估公平性：跨人口统计群体评估以检测偏差
量化不确定性：为预测提供置信度估计
解释预测：使用注意力权重、SHAP 或 ChEFER 建立临床信任
彻底验证：使用来自不同时间段或站点的保留测试集

限制和注意事项

大型数据集：深度学习模型需要足够的数据（数千名患者）
数据质量：缺失数据和编码错误会影响性能
时间一致性：在需要时确保训练/测试分割尊重时间顺序

外部验证：在不同医院/系统的数据上进行测试
前瞻性评估：在部署前在真实临床环境中验证
临床审查：让临床医生审查预测和解释
伦理考虑：解决隐私（HIPAA/GDPR）、公平性和安全性问题

推荐使用 GPU：用于高效训练深度学习模型
内存要求：大型数据集可能需要 16GB+ RAM
存储：医疗健康数据集可能达到 10s-100s GB

数据集导入错误：

确保数据集文件已下载且路径正确
检查 PyHealth 版本兼容性

减小批处理大小
减小序列长度（max_seq_length）
使用梯度累积
分块处理数据

检查类别不平衡并使用适当的指标（AUPRC vs AUROC）
验证预处理（归一化、缺失数据处理）
增加模型容量或训练轮数
检查训练/测试分割中的数据泄露

使用 GPU（device="cuda"）
增加批处理大小（如果内存允许）
减小序列长度
使用更高效的模型（CNN vs Transformer）

文档：https://pyhealth.readthedocs.io/
GitHub Issues：https://github.com/sunlabuiuc/PyHealth/issues
教程：7 个核心教程 + 5 个实用流程在线提供

示例：完整工作流

# 完整的死亡率预测流程
from pyhealth.datasets import MIMIC4Dataset
from pyhealth.tasks import mortality_prediction_mimic4_fn
from pyhealth.datasets import split_by_patient, get_dataloader
from pyhealth.models import RETAIN
from pyhealth.trainer import Trainer

# 1. 加载数据集
print("Loading MIMIC-IV dataset...")
dataset = MIMIC4Dataset(root="/data/mimic4")
print(dataset.stats())

# 2. 定义任务
print("Setting mortality prediction task...")
sample_dataset = dataset.set_task(mortality_prediction_mimic4_fn)
print(f"Generated {len(sample_dataset)} samples")

# 3. 分割数据（按患者以防止泄露）
print("Splitting data...")
train_ds, val_ds, test_ds = split_by_patient(
    sample_dataset, ratios=[0.7, 0.1, 0.2], seed=42
)

# 4. 创建数据加载器
train_loader = get_dataloader(train_ds, batch_size=64, shuffle=True)
val_loader = get_dataloader(val_ds, batch_size=64)
test_loader = get_dataloader(test_ds, batch_size=64)

# 5. 初始化可解释模型
print("Initializing RETAIN model...")
model = RETAIN(
    dataset=sample_dataset,
    feature_keys=["diagnoses", "procedures", "medications"],
    mode="binary",
    embedding_dim=128,
    hidden_dim=128
)

# 6. 训练模型
print("Training model...")
trainer = Trainer(model=model, device="cuda")
trainer.train(
    train_dataloader=train_loader,
    val_dataloader=val_loader,
    epochs=50,
    optimizer="Adam",
    learning_rate=1e-3,
    weight_decay=1e-5,
    monitor="pr_auc_score",  # 对不平衡数据使用 AUPRC
    monitor_criterion="max",
    save_path="./checkpoints/mortality_retain"
)

# 7. 在测试集上评估
print("Evaluating on test set...")
test_results = trainer.evaluate(
    test_loader,
    metrics=["accuracy", "precision", "recall", "f1_score",
             "roc_auc_score", "pr_auc_score"]
)

print("\nTest Results:")
for metric, value in test_results.items():
    print(f"  {metric}: {value:.4f}")

# 8. 获取带注意力的预测以进行解释
predictions = trainer.inference(
    test_loader,
    additional_outputs=["visit_attention", "feature_attention"],
    return_patient_ids=True
)

# 9. 分析高风险患者
high_risk_idx = predictions["y_pred"].argmax()
patient_id = predictions["patient_ids"][high_risk_idx]
visit_attn = predictions["visit_attention"][high_risk_idx]
feature_attn = predictions["feature_attention"][high_risk_idx]

print(f"\nHigh-risk patient: {patient_id}")
print(f"Risk score: {predictions['y_pred'][high_risk_idx]:.3f}")
print(f"Most influential visit: {visit_attn.argmax()}")
print(f"Most important features: {feature_attn[visit_attn.argmax()].argsort()[-5:]}")

# 10. 保存模型以供部署
trainer.save("./models/mortality_retain_final.pt")
print("\nModel saved successfully!")

有关每个组件的详细信息，请参阅 references/ 目录中的全面参考文件：

datasets.md：数据结构、加载和分割（4,500 字）
medical_coding.md：代码转换和标准化（3,800 字）
tasks.md：临床预测任务和自定义任务创建（4,200 字）
models.md：模型架构和选择指南（5,100 字）
preprocessing.md：数据处理器和预处理工作流（4,600 字）
training_evaluation.md：训练、指标、校准、可解释性（5,900 字）

全面文档总计：跨模块化参考文件约 28,000 字。

🇺🇸English

PyHealth: Healthcare AI Toolkit

Overview

PyHealth is a comprehensive Python library for healthcare AI that provides specialized tools, models, and datasets for clinical machine learning. Use this skill when developing healthcare prediction models, processing clinical data, working with medical coding systems, or deploying AI solutions in healthcare settings.

When to Use This Skill

Invoke this skill when:

Working with healthcare datasets : MIMIC-III, MIMIC-IV, eICU, OMOP, sleep EEG data, medical images
Clinical prediction tasks : Mortality prediction, hospital readmission, length of stay, drug recommendation
Medical coding : Translating between ICD-9/10, NDC, RxNorm, ATC coding systems
Processing clinical data : Sequential events, physiological signals, clinical text, medical images
Implementing healthcare models : RETAIN, SafeDrug, GAMENet, StageNet, Transformer for EHR
Evaluating clinical models : Fairness metrics, calibration, interpretability, uncertainty quantification

Core Capabilities

PyHealth operates through a modular 5-stage pipeline optimized for healthcare AI:

Data Loading : Access 10+ healthcare datasets with standardized interfaces
Task Definition : Apply 20+ predefined clinical prediction tasks or create custom tasks
Model Selection : Choose from 33+ models (baselines, deep learning, healthcare-specific)
Training : Train with automatic checkpointing, monitoring, and evaluation
Deployment : Calibrate, interpret, and validate for clinical use

Performance : 3x faster than pandas for healthcare data processing

Quick Start Workflow

from pyhealth.datasets import MIMIC4Dataset
from pyhealth.tasks import mortality_prediction_mimic4_fn
from pyhealth.datasets import split_by_patient, get_dataloader
from pyhealth.models import Transformer
from pyhealth.trainer import Trainer

# 1. Load dataset and set task
dataset = MIMIC4Dataset(root="/path/to/data")
sample_dataset = dataset.set_task(mortality_prediction_mimic4_fn)

# 2. Split data
train, val, test = split_by_patient(sample_dataset, [0.7, 0.1, 0.2])

# 3. Create data loaders
train_loader = get_dataloader(train, batch_size=64, shuffle=True)
val_loader = get_dataloader(val, batch_size=64, shuffle=False)
test_loader = get_dataloader(test, batch_size=64, shuffle=False)

# 4. Initialize and train model
model = Transformer(
    dataset=sample_dataset,
    feature_keys=["diagnoses", "medications"],
    mode="binary",
    embedding_dim=128
)

trainer = Trainer(model=model, device="cuda")
trainer.train(
    train_dataloader=train_loader,
    val_dataloader=val_loader,
    epochs=50,
    monitor="pr_auc_score"
)

# 5. Evaluate
results = trainer.evaluate(test_loader)

Detailed Documentation

This skill includes comprehensive reference documentation organized by functionality. Read specific reference files as needed:

1. Datasets and Data Structures

File : references/datasets.md

Read when:

Loading healthcare datasets (MIMIC, eICU, OMOP, sleep EEG, etc.)
Understanding Event, Patient, Visit data structures
Processing different data types (EHR, signals, images, text)
Splitting data for training/validation/testing
Working with SampleDataset for task-specific formatting

Key Topics:

Core data structures (Event, Patient, Visit)
10+ available datasets (EHR, physiological signals, imaging, text)
Data loading and iteration
Train/val/test splitting strategies
Performance optimization for large datasets

2. Medical Coding Translation

File : references/medical_coding.md

Read when:

Translating between medical coding systems
Working with diagnosis codes (ICD-9-CM, ICD-10-CM, CCS)
Processing medication codes (NDC, RxNorm, ATC)
Standardizing procedure codes (ICD-9-PROC, ICD-10-PROC)
Grouping codes into clinical categories
Handling hierarchical drug classifications

Key Topics:

InnerMap for within-system lookups
CrossMap for cross-system translation
Supported coding systems (ICD, NDC, ATC, CCS, RxNorm)
Code standardization and hierarchy traversal
Medication classification by therapeutic class
Integration with datasets

3. Clinical Prediction Tasks

File : references/tasks.md

Read when:

Defining clinical prediction objectives
Using predefined tasks (mortality, readmission, drug recommendation)
Working with EHR, signal, imaging, or text-based tasks
Creating custom prediction tasks
Setting up input/output schemas for models
Applying task-specific filtering logic

Key Topics:

20+ predefined clinical tasks
EHR tasks (mortality, readmission, length of stay, drug recommendation)
Signal tasks (sleep staging, EEG analysis, seizure detection)
Imaging tasks (COVID-19 chest X-ray classification)
Text tasks (medical coding, specialty classification)
Custom task creation patterns

4. Models and Architectures

File : references/models.md

Read when:

Selecting models for clinical prediction
Understanding model architectures and capabilities
Choosing between general-purpose and healthcare-specific models
Implementing interpretable models (RETAIN, AdaCare)
Working with medication recommendation (SafeDrug, GAMENet)
Using graph neural networks for healthcare
Configuring model hyperparameters

Key Topics:

33+ available models
General-purpose: Logistic Regression, MLP, CNN, RNN, Transformer, GNN
Healthcare-specific: RETAIN, SafeDrug, GAMENet, StageNet, AdaCare
Model selection by task type and data type
Interpretability considerations
Computational requirements
Hyperparameter tuning guidelines

5. Data Preprocessing

File : references/preprocessing.md

Read when:

Preprocessing clinical data for models
Handling sequential events and time-series data
Processing physiological signals (EEG, ECG)
Normalizing lab values and vital signs
Preparing labels for different task types
Building feature vocabularies
Managing missing data and outliers

Key Topics:

15+ processor types
Sequence processing (padding, truncation)
Signal processing (filtering, segmentation)
Feature extraction and encoding
Label processors (binary, multi-class, multi-label, regression)
Text and image preprocessing
Common preprocessing workflows

6. Training and Evaluation

File : references/training_evaluation.md

Read when:

Training models with the Trainer class
Evaluating model performance
Computing clinical metrics
Assessing model fairness across demographics
Calibrating predictions for reliability
Quantifying prediction uncertainty
Interpreting model predictions
Preparing models for clinical deployment

Key Topics:

Trainer class (train, evaluate, inference)
Metrics for binary, multi-class, multi-label, regression tasks
Fairness metrics for bias assessment
Calibration methods (Platt scaling, temperature scaling)
Uncertainty quantification (conformal prediction, MC dropout)
Interpretability tools (attention visualization, SHAP, ChEFER)
Complete training pipeline example

Installation

uv pip install pyhealth

Requirements:

Python ≥ 3.7
PyTorch ≥ 1.8
NumPy, pandas, scikit-learn

Common Use Cases

Use Case 1: ICU Mortality Prediction

Objective : Predict patient mortality in intensive care unit

Approach:

Load MIMIC-IV dataset → Read references/datasets.md
Apply mortality prediction task → Read references/tasks.md
Select interpretable model (RETAIN) → Read references/models.md
Train and evaluate → Read references/training_evaluation.md
Interpret predictions for clinical use → Read references/training_evaluation.md

Use Case 2: Safe Medication Recommendation

Objective : Recommend medications while avoiding drug-drug interactions

Approach:

Load EHR dataset (MIMIC-IV or OMOP) → Read references/datasets.md
Apply drug recommendation task → Read references/tasks.md
Use SafeDrug model with DDI constraints → Read references/models.md
Preprocess medication codes → Read references/medical_coding.md
Evaluate with multi-label metrics → Read references/training_evaluation.md

Use Case 3: Hospital Readmission Prediction

Objective : Identify patients at risk of 30-day readmission

Approach:

Load multi-site EHR data (eICU or OMOP) → Read references/datasets.md
Apply readmission prediction task → Read references/tasks.md
Handle class imbalance in preprocessing → Read references/preprocessing.md
Train Transformer model → Read references/models.md
Calibrate predictions and assess fairness → Read references/training_evaluation.md

Use Case 4: Sleep Disorder Diagnosis

Objective : Classify sleep stages from EEG signals

Approach:

Load sleep EEG dataset (SleepEDF, SHHS) → Read references/datasets.md
Apply sleep staging task → Read references/tasks.md
Preprocess EEG signals (filtering, segmentation) → Read references/preprocessing.md
Train CNN or RNN model → Read references/models.md
Evaluate per-stage performance → Read references/training_evaluation.md

Use Case 5: Medical Code Translation

Objective : Standardize diagnoses across different coding systems

Approach:

Read references/medical_coding.md for comprehensive guidance
Use CrossMap to translate between ICD-9, ICD-10, CCS
Group codes into clinically meaningful categories
Integrate with dataset processing

Use Case 6: Clinical Text to ICD Coding

Objective : Automatically assign ICD codes from clinical notes

Approach:

Load MIMIC-III with clinical text → Read references/datasets.md
Apply ICD coding task → Read references/tasks.md
Preprocess clinical text → Read references/preprocessing.md
Use TransformersModel (ClinicalBERT) → Read references/models.md
Evaluate with multi-label metrics → Read references/training_evaluation.md

Best Practices

Data Handling

Always split by patient : Prevent data leakage by ensuring no patient appears in multiple splits

from pyhealth.datasets import split_by_patient
train, val, test = split_by_patient(dataset, [0.7, 0.1, 0.2])

Check dataset statistics : Understand your data before modeling

print(dataset.stats())  # Patients, visits, events, code distributions

Use appropriate preprocessing : Match processors to data types (see references/preprocessing.md)

Model Development

Start with baselines : Establish baseline performance with simple models
- Logistic Regression for binary/multi-class tasks
- MLP for initial deep learning baseline
Choose task-appropriate models :
- Interpretability needed → RETAIN, AdaCare
- Drug recommendation → SafeDrug, GAMENet
- Long sequences → Transformer
- Graph relationships → GNN
Monitor validation metrics : Use appropriate metrics for task and handle class imbalance
- Binary classification: AUROC, AUPRC (especially for rare events)
- Multi-class: macro-F1 (for imbalanced), weighted-F1
- Multi-label: Jaccard, example-F1
- Regression: MAE, RMSE

Clinical Deployment

Calibrate predictions : Ensure probabilities are reliable (see references/training_evaluation.md)
Assess fairness : Evaluate across demographic groups to detect bias
Quantify uncertainty : Provide confidence estimates for predictions
Interpret predictions : Use attention weights, SHAP, or ChEFER for clinical trust
Validate thoroughly : Use held-out test sets from different time periods or sites

Limitations and Considerations

Data Requirements

Large datasets : Deep learning models require sufficient data (thousands of patients)
Data quality : Missing data and coding errors impact performance
Temporal consistency : Ensure train/test split respects temporal ordering when needed

Clinical Validation

External validation : Test on data from different hospitals/systems
Prospective evaluation : Validate in real clinical settings before deployment
Clinical review : Have clinicians review predictions and interpretations
Ethical considerations : Address privacy (HIPAA/GDPR), fairness, and safety

Computational Resources

GPU recommended : For training deep learning models efficiently
Memory requirements : Large datasets may require 16GB+ RAM
Storage : Healthcare datasets can be 10s-100s of GB

Troubleshooting

Common Issues

ImportError for dataset :

Ensure dataset files are downloaded and path is correct
Check PyHealth version compatibility

Out of memory :

Reduce batch size
Reduce sequence length (max_seq_length)
Use gradient accumulation
Process data in chunks

Poor performance :

Check class imbalance and use appropriate metrics (AUPRC vs AUROC)
Verify preprocessing (normalization, missing data handling)
Increase model capacity or training epochs
Check for data leakage in train/test split

Slow training :

Use GPU (device="cuda")
Increase batch size (if memory allows)
Reduce sequence length
Use more efficient model (CNN vs Transformer)

Getting Help

Documentation : https://pyhealth.readthedocs.io/
GitHub Issues : https://github.com/sunlabuiuc/PyHealth/issues
Tutorials : 7 core tutorials + 5 practical pipelines available online

Example: Complete Workflow

# Complete mortality prediction pipeline
from pyhealth.datasets import MIMIC4Dataset
from pyhealth.tasks import mortality_prediction_mimic4_fn
from pyhealth.datasets import split_by_patient, get_dataloader
from pyhealth.models import RETAIN
from pyhealth.trainer import Trainer

# 1. Load dataset
print("Loading MIMIC-IV dataset...")
dataset = MIMIC4Dataset(root="/data/mimic4")
print(dataset.stats())

# 2. Define task
print("Setting mortality prediction task...")
sample_dataset = dataset.set_task(mortality_prediction_mimic4_fn)
print(f"Generated {len(sample_dataset)} samples")

# 3. Split data (by patient to prevent leakage)
print("Splitting data...")
train_ds, val_ds, test_ds = split_by_patient(
    sample_dataset, ratios=[0.7, 0.1, 0.2], seed=42
)

# 4. Create data loaders
train_loader = get_dataloader(train_ds, batch_size=64, shuffle=True)
val_loader = get_dataloader(val_ds, batch_size=64)
test_loader = get_dataloader(test_ds, batch_size=64)

# 5. Initialize interpretable model
print("Initializing RETAIN model...")
model = RETAIN(
    dataset=sample_dataset,
    feature_keys=["diagnoses", "procedures", "medications"],
    mode="binary",
    embedding_dim=128,
    hidden_dim=128
)

# 6. Train model
print("Training model...")
trainer = Trainer(model=model, device="cuda")
trainer.train(
    train_dataloader=train_loader,
    val_dataloader=val_loader,
    epochs=50,
    optimizer="Adam",
    learning_rate=1e-3,
    weight_decay=1e-5,
    monitor="pr_auc_score",  # Use AUPRC for imbalanced data
    monitor_criterion="max",
    save_path="./checkpoints/mortality_retain"
)

# 7. Evaluate on test set
print("Evaluating on test set...")
test_results = trainer.evaluate(
    test_loader,
    metrics=["accuracy", "precision", "recall", "f1_score",
             "roc_auc_score", "pr_auc_score"]
)

print("\nTest Results:")
for metric, value in test_results.items():
    print(f"  {metric}: {value:.4f}")

# 8. Get predictions with attention for interpretation
predictions = trainer.inference(
    test_loader,
    additional_outputs=["visit_attention", "feature_attention"],
    return_patient_ids=True
)

# 9. Analyze a high-risk patient
high_risk_idx = predictions["y_pred"].argmax()
patient_id = predictions["patient_ids"][high_risk_idx]
visit_attn = predictions["visit_attention"][high_risk_idx]
feature_attn = predictions["feature_attention"][high_risk_idx]

print(f"\nHigh-risk patient: {patient_id}")
print(f"Risk score: {predictions['y_pred'][high_risk_idx]:.3f}")
print(f"Most influential visit: {visit_attn.argmax()}")
print(f"Most important features: {feature_attn[visit_attn.argmax()].argsort()[-5:]}")

# 10. Save model for deployment
trainer.save("./models/mortality_retain_final.pt")
print("\nModel saved successfully!")

Resources

For detailed information on each component, refer to the comprehensive reference files in the references/ directory:

datasets.md : Data structures, loading, and splitting (4,500 words)
medical_coding.md : Code translation and standardization (3,800 words)
tasks.md : Clinical prediction tasks and custom task creation (4,200 words)
models.md : Model architectures and selection guidelines (5,100 words)
preprocessing.md : Data processors and preprocessing workflows (4,600 words)
training_evaluation.md : Training, metrics, calibration, interpretability (5,900 words)

Total comprehensive documentation : ~28,000 words across modular reference files.

Weekly Installs

143

Repository

davila7/claude-…emplates

GitHub Stars

22.6K

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

claude-code118

opencode112

gemini-cli105

cursor103

antigravity97

codex94

超能力技能使用指南：AI助手技能调用优先级与工作流程详解

50,500 周安装

PyHealth医疗健康AI工具包：临床机器学习Python库，支持MIMIC/eICU数据集与预测模型

🇨🇳中文介绍

PyHealth：医疗健康 AI 工具包

概述

何时使用此技能

核心能力

快速开始工作流

相关 Skills

详细文档

1. 数据集和数据结构

2. 医疗编码转换

3. 临床预测任务

4. 模型和架构

5. 数据预处理

6. 训练和评估

安装

常见用例

用例 1：ICU 死亡率预测

用例 2：安全药物推荐

用例 3：医院再入院预测

用例 4：睡眠障碍诊断

用例 5：医疗代码转换

用例 6：临床文本到 ICD 编码

最佳实践

数据处理

模型开发

临床部署

限制和注意事项

数据要求

临床验证

计算资源

故障排除

常见问题

获取帮助

示例：完整工作流

资源

🇺🇸English

PyHealth: Healthcare AI Toolkit

Overview

When to Use This Skill

Core Capabilities

Quick Start Workflow

Detailed Documentation

1. Datasets and Data Structures

2. Medical Coding Translation

3. Clinical Prediction Tasks

4. Models and Architectures

5. Data Preprocessing

6. Training and Evaluation

Installation

Common Use Cases

Use Case 1: ICU Mortality Prediction

Use Case 2: Safe Medication Recommendation

Use Case 3: Hospital Readmission Prediction

Use Case 4: Sleep Disorder Diagnosis

Use Case 5: Medical Code Translation

Use Case 6: Clinical Text to ICD Coding

Best Practices

Data Handling

Model Development

Clinical Deployment

Limitations and Considerations

Data Requirements

Clinical Validation

Computational Resources

Troubleshooting

Common Issues

Getting Help

Example: Complete Workflow

Resources

最新 Skills