论文筛选标准构建指南：从头脑风暴到自动化测试的完整流程

The Agent Skills Directory

安装命令

npx skills add https://smithery.ai/skills/kthorn/building-paper-screening-rubrics

自动化科研工具生物信息学

🇨🇳中文介绍

构建论文筛选标准

概述

核心原则： 通过头脑风暴 → 测试 → 优化 → 自动化 → 审查 → 迭代，协作构建筛选标准。

好的标准来自于预先理解边缘情况，并在批量筛选前对真实论文进行测试。

使用时机

在以下情况使用此技能：

开始一项新的文献检索，需要筛选 50 篇以上的论文
当前标准错误分类论文（假阳性/假阴性）
在自动化筛选前需要定义“相关性”标准
想要更新标准并重新筛选缓存的论文
为评估论文相关性构建辅助脚本

不应使用的情况：

小型检索（<20 篇论文）- 手动筛选即可
现有标准效果良好 - 无需重建
一次性探索性检索

两阶段流程

第一阶段：协作式标准设计

步骤 1：头脑风暴相关性标准

提出与领域无关的问题，以理解是什么使论文具有相关性：

核心概念：

“您研究问题的关键术语/概念是什么？”
- 示例：特定基因、蛋白质、化合物、疾病、方法、生物体、理论
“是否有同义词或替代名称？”
“是否有应排除论文的术语（假阳性）？”

数据类型与成果：

“什么类型的信息使一篇论文有价值？”
- 定量测量（IC50、表达水平、群体大小等）
- 方案或方法
- 带有登录号的数据集（GEO、SRA、PDB 等）
- 代码或软件
- 化学结构
- 序列或基因组
- 理论模型
“您需要论文中的实际数据，还是只需要知道此类数据存在？”

论文类型：

“哪些类型的论文是相关的？”
- 仅限原创性研究？
- 综述或荟萃分析？
- 方法论文？
- 临床试验？
- 预印本是否可以接受？

关系与背景：

“关于相关/类似概念的论文是否相关？”
- 示例：“如果研究蛋白质 X，关于同源物/旁系同源物的论文是否相关？”
- 示例：“如果研究化合物 A，关于类似物/衍生物的论文是否相关？”
- 示例：“如果研究疾病 X，关于相关疾病的论文是否相关？”
“论文需要是关于您的主题，还是仅仅提及它？”
“即使没有活性数据，合成/方法论文是否相关？”

边缘情况：

“您能想到哪些看起来相关但实际上不相关的论文？”
“哪些论文可能看起来不相关但实际上相关？”

将回答记录在 screening-criteria.json 中

步骤 2：构建初始标准

基于头脑风暴，提出评分逻辑：

评分 (0-10):

关键词匹配 (0-3 分):
  - 核心术语 1: +1 分
  - 核心术语 2 或同义词: +1 分
  - 相关术语: +1 分

数据类型匹配 (0-4 分):
  - 测量类型 (IC50, Ki, EC50 等): +2 分
  - 数据集/代码可用: +1 分
  - 方法描述: +1 分

特异性 (0-3 分):
  - 原创性研究: +3 分
  - 方法论文: +2 分
  - 综述: +1 分

特殊规则:
  - 如果提及排除术语: 分数 = 0

阈值: ≥7 = 相关, 5-6 = 可能相关, <5 = 不相关

呈现给用户并询问： “此逻辑是否符合您的预期？”

将初始标准保存到 screening-criteria.json：

{
  "version": "1.0.0",
  "created": "2025-10-11T15:30:00Z",
  "keywords": {
    "core_terms": ["term1", "term2"],
    "synonyms": {"term1": ["alt1", "alt2"]},
    "related_terms": ["related1", "related2"],
    "exclusion_terms": ["exclude1", "exclude2"]
  },
  "data_types": {
    "measurements": ["IC50", "Ki", "MIC"],
    "datasets": ["GEO:", "SRA:", "PDB:"],
    "methods": ["protocol", "synthesis", "assay"]
  },
  "scoring": {
    "keywords_max": 3,
    "data_type_max": 4,
    "specificity_max": 3,
    "relevance_threshold": 7
  },
  "special_rules": [
    {
      "name": "scaffold_analogs",
      "condition": "mentions target scaffold AND (analog OR derivative)",
      "action": "add 3 points"
    }
  ]
}

第二阶段：测试驱动的优化

步骤 1：创建测试集

进行快速 PubMed 搜索以获取候选论文：

# 使用初始关键词搜索 20 篇论文
curl "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=YOUR_QUERY&retmax=20&retmode=json"

获取前 10-15 篇论文的摘要：

curl "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=PMID1,PMID2,...&retmode=xml&rettype=abstract"

向用户逐一展示摘要：

论文 1/10:
标题: [标题]
PMID: [12345678]
DOI: [10.1234/example]

摘要:
[完整摘要文本]

这篇论文与您的研究问题相关吗？ (y/n/可能)

将用户判断记录在 test-set.json 中：

{
  "test_papers": [
    {
      "pmid": "12345678",
      "doi": "10.1234/example",
      "title": "Paper title",
      "abstract": "Full abstract text...",
      "user_judgment": "relevant",
      "timestamp": "2025-10-11T15:45:00Z"
    }
  ]
}

继续直到获得 5-10 篇有明确判断的论文

步骤 2：使用标准为测试论文评分

将标准应用于每篇测试论文：

for paper in test_papers:
    score = calculate_score(paper['abstract'], rubric)
    predicted_status = "relevant" if score >= 7 else "not_relevant"
    paper['predicted_score'] = score
    paper['predicted_status'] = predicted_status

计算准确率：

correct = sum(1 for p in test_papers
              if p['predicted_status'] == p['user_judgment'])
accuracy = correct / len(test_papers)

步骤 3：向用户展示结果

呈现分类报告：

标准测试结果 (5 篇论文):

✓ PMID 12345678: 分数 9 → 相关 (用户: 相关) ✓
✗ PMID 23456789: 分数 4 → 不相关 (用户: 相关) ← 假阴性
✓ PMID 34567890: 分数 8 → 相关 (用户: 相关) ✓
✓ PMID 45678901: 分数 3 → 不相关 (用户: 不相关) ✓
✗ PMID 56789012: 分数 7 → 相关 (用户: 不相关) ← 假阳性

准确率: 60% (3/5 正确)
目标: ≥80%

--- 假阴性: PMID 23456789 ---
标题: "化合物 X 的新型类似物具有改进的效力"
分数细分:
  - 关键词: 1 分 (匹配 "化合物 X")
  - 数据类型: 2 分 (提及 IC50 值)
  - 特异性: 1 分 (原创性研究)
  - 总计: 4 分 → 不相关

遗漏原因: 论文讨论了 "类似物" 但未触发 scaffold_analogs 规则
摘要摘录: "我们合成了 12 种化合物 X 的类似物..."

--- 假阳性: PMID 56789012 ---
标题: "激酶抑制剂综述"
分数细分:
  - 关键词: 2 分
  - 数据类型: 3 分
  - 特异性: 2 分 (综述，非原创)
  - 总计: 7 分 → 相关

错误原因: 综述论文，用户仅需要原创性研究

步骤 4：迭代优化

请求用户进行调整：

当前准确率: 60% (低于 80% 阈值)

改进标准的建议:
1. 加强 scaffold_analogs 规则 - "合成了 N 种类似物" 是否应始终触发？
2. 降低综述论文的分数 (目前 2 分，也许改为 0 分？)
3. 为核心概念添加更多同义词术语？

您想调整什么？

根据反馈更新 screening-criteria.json

更新示例：

{
  "special_rules": [
    {
      "name": "scaffold_analogs",
      "condition": "mentions target scaffold AND (analog OR derivative OR synthesized)",
      "action": "add 3 points"
    }
  ],
  "paper_types": {
    "primary_research": 3,
    "methods": 2,
    "review": 0  // 从 1 更改而来
  }
}

步骤 5：重新测试直到满意

使用更新后的标准重新为测试论文评分

展示新结果：

更新后的标准测试结果 (5 篇论文):

✓ PMID 12345678: 分数 9 → 相关 (用户: 相关) ✓
✓ PMID 23456789: 分数 7 → 相关 (用户: 相关) ✓ (已修复!)
✓ PMID 34567890: 分数 8 → 相关 (用户: 相关) ✓
✓ PMID 45678901: 分数 3 → 不相关 (用户: 不相关) ✓
✓ PMID 56789012: 分数 5 → 不相关 (用户: 不相关) ✓ (已修复!)

准确率: 100% (5/5 正确) ✓
目标: ≥80% ✓

标准已准备好进行批量筛选！

如果准确率 ≥80%： 进行批量筛选 如果 <80%： 继续迭代

第三阶段：批量筛选

一旦标准在测试集上得到验证：

在完整的 PubMed 搜索结果上运行
将所有摘要保存到 abstracts-cache.json：

{
  "10.1234/example": {
    "pmid": "12345678",
    "title": "Paper title",
    "abstract": "Full abstract text...",
    "fetched": "2025-10-11T16:00:00Z"
  }
}

为所有论文评分，保存到 papers-reviewed.json：

{
  "10.1234/example": {
    "pmid": "12345678",
    "status": "relevant",
    "score": 9,
    "source": "pubmed_search",
    "timestamp": "2025-10-11T16:00:00Z",
    "rubric_version": "1.0.0"
  }
}

生成摘要报告：

使用已验证的标准筛选了 127 篇论文:
- 高度相关 (≥8): 12 篇论文
- 相关 (7): 18 篇论文
- 可能相关 (5-6): 23 篇论文
- 不相关 (<5): 74 篇论文

所有摘要已缓存以供重新筛选。
结果已保存至 papers-reviewed.json。

请离线审查，如果发现任何错误分类请提供反馈。

第四阶段：离线审查与重新筛选

用户离线审查论文，识别问题：

用户: "我审查了结果。有三篇论文被错误分类:
- PMID 23456789 得分为 4 但实际上相关 (讨论了支架类似物)
- PMID 34567890 得分为 8 但不相关 (错误靶点)
- PMID 45678901 得分为 6 但高度相关 (有关键数据集)

我们可以更新标准吗？"

根据反馈更新标准：

分析错误分类的原因
提出标准调整建议
使用新标准重新为所有缓存的论文评分
展示更改差异

重新筛选工作流：

# 从 abstracts-cache.json 加载所有摘要
# 将更新后的标准应用于每一篇
# 生成更改报告

标准更新: v1.0.0 → v1.1.0

更改:
- 将 "derivative" 添加到 scaffold_analogs 规则触发词
- 将数据集奖励分数从 +1 增加到 +2 分

重新筛选 127 篇缓存的论文...

状态变更:
  不相关 → 相关: 3 篇论文
    - PMID 23456789 (分数 4→7)
    - PMID 45678901 (分数 6→8)
  相关 → 不相关: 1 篇论文
    - PMID 34567890 (分数 8→6)

使用新分数更新 papers-reviewed.json。
新摘要:
- 高度相关: 13 篇论文 (+1)
- 相关: 19 篇论文 (+1)

文件结构

research-sessions/YYYY-MM-DD-topic/
├── screening-criteria.json      # 标准定义 (权重、规则、版本)
├── test-set.json               # 用于验证的基准事实论文
├── abstracts-cache.json        # 所有筛选论文的完整摘要
├── papers-reviewed.json        # 简单跟踪: DOI、分数、状态
└── rubric-changelog.md         # 标准更改历史及原因

与其他技能的集成

在评估论文相关性之前：

首先使用此技能构建和验证标准
创建 screening-criteria.json 和 abstracts-cache.json
然后使用已验证的标准运行评估论文相关性

在创建辅助脚本时：

使用 screening-criteria.json 参数化评分逻辑
引用 abstracts-cache.json 以避免重复获取
无需重写脚本即可轻松更新标准

在回答研究问题时：

在初始化阶段（第一阶段：解析查询之后）构建标准
在批量筛选前在测试集上验证
将标准与研究会话一起保存以实现可重复性

标准设计模式

模式 1：累加评分（默认）

score = 0
score += count_keyword_matches(abstract, keywords)  # 0-3 分
score += count_data_type_matches(abstract, data_types)  # 0-4 分
score += specificity_score(paper_type)  # 0-3 分

# 应用特殊规则
if matches_special_rule(abstract, rule):
    score += rule['bonus_points']

return score

模式 2：领域特定规则

药物化学：

{
  "special_rules": [
    {
      "name": "scaffold_analogs",
      "keywords": ["target_scaffold", "analog|derivative|series"],
      "bonus": 3
    },
    {
      "name": "sar_data",
      "keywords": ["IC50|Ki|MIC", "structure-activity|SAR"],
      "bonus": 2
    }
  ]
}

基因组学：

{
  "special_rules": [
    {
      "name": "public_data",
      "keywords": ["GEO:|SRA:|ENA:", "accession"],
      "bonus": 3
    },
    {
      "name": "differential_expression",
      "keywords": ["DEG|differentially expressed", "RNA-seq|microarray"],
      "bonus": 2
    }
  ]
}

计算方法：

{
  "special_rules": [
    {
      "name": "code_available",
      "keywords": ["github|gitlab|bitbucket", "code available|software"],
      "bonus": 3
    },
    {
      "name": "benchmark",
      "keywords": ["benchmark|comparison", "performance|accuracy"],
      "bonus": 2
    }
  ]
}

常见错误

跳过测试驱动的验证： 未经测试标准即进行批量筛选 → 许多错误分类，浪费时间 未缓存摘要： 重新筛选时从 PubMed 重新获取 → 速度慢，触及速率限制 无基准事实测试： 无法衡量标准准确率 → 不知道是否有效 测试论文太少： 仅在 2-3 篇论文上测试 → 标准过拟合，无法泛化 标准过于复杂： 包含 10 条以上规则的布尔逻辑 → 难以调试、更新、解释 未记录更改： 更新标准而不跟踪原因 → 无法重现，无法从错误中学习 阈值设置过高： 要求 95% 准确率 → 无限迭代，收益递减 未随会话保存标准： 会话结束时标准丢失 → 无法重现筛选

成功标准

标准准备就绪时：

在测试集上达到 ≥80% 准确率 (5-10 篇基准事实论文)
用户确信标准能捕捉边缘情况
领域特定模式的特殊规则已记录
所有文件已创建 (screening-criteria.json, test-set.json, abstracts-cache.json)
准备好进行批量筛选

快速参考

任务	文件	内容
定义标准	screening-criteria.json	关键词、权重、特殊规则
测试标准	test-set.json	带有用户判断的基准事实论文
缓存摘要	abstracts-cache.json	用于重新筛选的完整摘要文本
跟踪结果	papers-reviewed.json	DOI、分数、状态、标准版本
记录更改	rubric-changelog.md	更新历史和原理

示例会话

Agent: "我将帮助您构建筛选标准。让我们从一些关于什么使论文相关的问题开始..."

[头脑风暴阶段 - 提出 5 个问题类别]

User: "我正在寻找关于结核病耐药性、含有贝达喹啉和氯法齐明 MIC 数据的论文。关于类似物的论文也相关。"

Agent: "明白了。这是初始标准:
- 关键词: tuberculosis, drug resistance, bedaquiline, clofazimine (0-3 分)
- 数据: MIC 值, IC50, in vitro activity (0-4 分)
- 特异性: Primary research (0-3 分)
- 特殊规则: 如果提及目标药物 + 'analog/derivative' → +3 奖励分
- 阈值: ≥7 = 相关

这看起来对吗？"

User: "是的，我们来测试一下。"

Agent: "我将搜索 PubMed 获取 20 篇论文，并向您展示摘要进行分类..."

[展示 10 篇摘要，用户进行分类]

Agent: "在您的分类上测试标准...
准确率: 70% (7/10 正确)
- 2 个假阴性 (遗漏了相关论文)
- 1 个假阳性 (将综述标记为相关)

假阴性示例: 论文讨论了 'derivatives of bedaquiline' 但仅得 5 分，因为没有明确说 'analog'。

建议: 将 'derivative' 和 'compound' 添加到特殊规则触发词中？"

User: "是的，并且降低综述论文的分数。"

Agent: "已更新标准。重新测试...
准确率: 90% (9/10 正确) ✓

准备好对 127 篇论文进行批量筛选了吗？"

User: "是的，开始吧。"

Agent: [筛选 127 篇论文，保存结果]

"完成！找到了 18 篇相关论文。所有摘要已缓存以供重新筛选。
请离线审查，并告知我是否有任何错误分类。"

[稍后...]

User: "发现了 2 个错误分类。我们可以更新标准吗？"

Agent: "当然！我遗漏了什么？"

User: "PMID 12345 讨论了 pretomanid 与 bedaquiline 的联合疗法 - 应该是相关的。"

Agent: "明白了。将 'combination therapy' 添加为相关术语，并给予 +2 奖励分。
重新筛选所有 127 篇缓存的论文...
状态变更: 3 篇论文现在为相关 (包括 PMID 12345)。
已更新 papers-reviewed.json。"

后续步骤

构建标准后：

在评估论文相关性中用于批量筛选
使用 screening-criteria.json 参数化辅助脚本
在发现边缘情况时更新标准
当标准更改时重新筛选缓存的论文
在研究会话的 README 中记录标准以实现可重复性

每周安装次数

–

来源

smithery.ai/ski…-rubrics

首次出现

–

🇺🇸English

Building Paper Screening Rubrics

Overview

Core principle: Build screening rubrics collaboratively through brainstorming → test → refine → automate → review → iterate.

Good rubrics come from understanding edge cases upfront and testing on real papers before bulk screening.

When to Use

Use this skill when:

Starting a new literature search that will screen 50+ papers
Current rubric misclassifies papers (false positives/negatives)
Need to define "relevance" criteria before automated screening
Want to update criteria and re-screen cached papers
Building helper scripts for evaluating-paper-relevance

When NOT to use:

Small searches (<20 papers) - manual screening is fine
Rubric already works well - no need to rebuild
One-off exploratory searches

Two-Phase Process

Phase 1: Collaborative Rubric Design

Step 1: Brainstorm Relevance Criteria

Ask domain-agnostic questions to understand what makes papers relevant:

Core Concepts:

"What are the key terms/concepts for your research question?"
- Examples: specific genes, proteins, compounds, diseases, methods, organisms, theories
"Are there synonyms or alternative names?"
"Any terms that should EXCLUDE papers (false positives)?"

Data Types & Artifacts:

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

Task	File	Contents
Define rubric	screening-criteria.json	Keywords, weights, special rules
Test rubric	test-set.json	Ground truth papers with user judgments
Cache abstracts	abstracts-cache.json	Full abstract text for re-screening
Track results	papers-reviewed.json	DOI, score, status, rubric version
Document changes	rubric-changelog.md	History of updates and rationale

论文筛选标准构建指南：从头脑风暴到自动化测试的完整流程

🇨🇳中文介绍

构建论文筛选标准

概述

使用时机

两阶段流程

第一阶段：协作式标准设计

步骤 1：头脑风暴相关性标准

步骤 2：构建初始标准

第二阶段：测试驱动的优化

步骤 1：创建测试集

步骤 2：使用标准为测试论文评分

步骤 3：向用户展示结果

步骤 4：迭代优化

步骤 5：重新测试直到满意

第三阶段：批量筛选

第四阶段：离线审查与重新筛选

文件结构

与其他技能的集成

标准设计模式

模式 1：累加评分（默认）

模式 2：领域特定规则

常见错误

成功标准

快速参考

示例会话

后续步骤

🇺🇸English

Building Paper Screening Rubrics

Overview

When to Use

Two-Phase Process

Phase 1: Collaborative Rubric Design

Step 1: Brainstorm Relevance Criteria

相关 Skills

Step 2: Build Initial Rubric

Phase 2: Test-Driven Refinement

Step 1: Create Test Set

Step 2: Score Test Papers with Rubric

Step 3: Show Results to User

Step 4: Iterative Refinement

Step 5: Re-test Until Satisfied

Phase 3: Bulk Screening

Phase 4: Offline Review & Re-screening

File Structure

Integration with Other Skills

Rubric Design Patterns

Pattern 1: Additive Scoring (Default)

Pattern 2: Domain-Specific Rules

Common Mistakes

Success Criteria

Quick Reference

Example Session

Next Steps

最新 Skills