skill-judge by davila7/claude-code-templates
npx skills add https://github.com/davila7/claude-code-templates --skill skill-judge根据官方规范和从 17 个以上官方示例中提炼的模式,评估 Agent Skills。
Skill 不是教程。Skill 是一种知识外化机制。
传统的 AI 知识被锁定在模型参数中。要教授新能力:
Traditional: Collect data → GPU cluster → Train → Deploy new version
Cost: $10,000 - $1,000,000+
Timeline: Weeks to months
Skills 改变了这一点:
Skill: Edit SKILL.md → Save → Takes effect on next invocation
Cost: $0
Timeline: Instant
这是从"训练 AI"到"教育 AI"的范式转变——就像一个无需训练的热插拔 LoRA 适配器。你用自然语言编辑一个 Markdown 文件,模型的行为就会改变。
好的 Skill = 专家专属知识 − Claude 已经知道的知识
Skill 的价值由其知识增量来衡量——即它提供的知识与模型已有知识之间的差距。
当一个 Skill 解释"什么是 PDF"或"如何编写 for 循环"时,它是在压缩 Claude 已经知道的知识。这是令牌浪费——上下文窗口是与系统提示、对话历史、其他 Skills 和用户请求共享的公共资源。
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| 概念 | 本质 | 功能 | 示例 |
|---|---|---|---|
| 工具 | 模型能做什么 | 执行操作 | bash, read_file, write_file, WebSearch |
| Skill | 模型知道如何做 | 指导决策 | PDF 处理, MCP 构建, 前端设计 |
工具定义了能力边界——没有 bash 工具,模型就无法执行命令。Skills 注入知识——没有前端设计 Skill,模型会产生通用的 UI。
公式:
General Agent + Excellent Skill = Domain Expert Agent
同一个 Claude 模型,加载不同的 Skills,就变成了不同的专家。
评估时,对每个部分进行分类:
| 类型 | 定义 | 处理方式 |
|---|---|---|
| 专家 | Claude 确实不知道这个 | 必须保留——这是 Skill 的价值所在 |
| 激活 | Claude 知道但可能想不到 | 如果简短则保留——作为提醒 |
| 冗余 | Claude 肯定知道这个 | 应该删除——浪费令牌 |
Skill 设计的艺术在于最大化专家内容,谨慎使用激活内容,并无情地消除冗余内容。
最重要的维度。Skill 是否添加了真正的专家知识?
| 分数 | 标准 |
|---|---|
| 0-5 | 解释 Claude 知道的基础知识(什么是 X,如何编写代码,标准库教程) |
| 6-10 | 混合:一些专家知识被明显的内容稀释 |
| 11-15 | 主要是专家知识,冗余内容极少 |
| 16-20 | 纯粹的知识增量——每个段落都物有所值 |
危险信号(立即得分 ≤5):
积极信号(高知识增量的指标):
评估问题:
Skill 是否在传授必要的特定领域流程的同时,也传递了专家的思维模式?
专家和新手的区别不在于"知道如何操作"——而在于"如何思考问题"。但当 Claude 缺乏特定领域的流程知识时,仅有思维模式是不够的。
关键区别:
| 类型 | 示例 | 价值 |
|---|---|---|
| 思维模式 | "设计前,问:什么让这个令人难忘?" | 高——塑造决策 |
| 特定领域流程 | "OOXML 工作流:解包 → 编辑 XML → 验证 → 打包" | 高——Claude 可能不知道这个 |
| 通用流程 | "步骤 1:打开文件,步骤 2:编辑,步骤 3:保存" | 低——Claude 已经知道 |
| 分数 | 标准 | |
| --- | --- | |
| 0-3 | 只有 Claude 已经知道的通用流程 | |
| 4-7 | 有特定领域流程但缺乏思维框架 | |
| 8-11 | 良好的平衡:思维模式 + 特定领域工作流 | |
| 12-15 | 专家级:塑造思维并提供 Claude 不知道的流程 |
什么算作有价值的流程:
什么算作冗余流程:
专家思维模式示例:
Before [action], ask yourself:
- **Purpose**: What problem does this solve? Who uses it?
- **Constraints**: What are the hidden requirements?
- **Differentiation**: What makes this solution memorable?
有价值的特定领域流程示例:
### Redlining Workflow (Claude wouldn't know this sequence)
1. Convert to markdown: `pandoc --track-changes=all`
2. Map text to XML: grep for text in document.xml
3. Implement changes in batches of 3-10
4. Pack and verify: check ALL changes were applied
冗余的通用流程示例:
Step 1: Open the file
Step 2: Find the section
Step 3: Make the change
Step 4: Save and test
测试方法:
一个好的 Skill 在需要时两者都提供。
Skill 是否有有效的"绝对不要"列表?
为什么这很重要:专家知识的一半在于知道不要做什么。资深设计师看到白色背景上的紫色渐变会本能地感到不适——"太像 AI 生成的了。"这种对"绝对不要做什么"的直觉来自于踩过无数的坑。
Claude 没有踩过这些坑。它不知道 Inter 字体被过度使用,不知道紫色渐变是 AI 生成内容的标志。好的 Skills 必须明确说明这些"绝对不要做的事"。
| 分数 | 标准 |
|---|---|
| 0-3 | 未提及反模式 |
| 4-7 | 通用警告("避免错误"、"小心"、"考虑边界情况") |
| 8-11 | 带有一些推理的特定"绝对不要"列表 |
| 12-15 | 带有原因解释的专家级反模式——只有经验才能教会的事情 |
专家反模式(具体 + 原因):
NEVER use generic AI-generated aesthetics like:
- Overused font families (Inter, Roboto, Arial)
- Cliched color schemes (particularly purple gradients on white backgrounds)
- Predictable layouts and component patterns
- Default border-radius on everything
弱反模式(模糊,无推理):
Avoid making mistakes.
Be careful with edge cases.
Don't write bad code.
测试方法:专家阅读反模式列表后会说"是的,我吃过亏才学到这个"吗?还是他们会说"这对每个人来说都是显而易见的"?
Skill 是否遵循官方格式要求?特别关注描述质量。
| 分数 | 标准 |
|---|---|
| 0-5 | 缺少 frontmatter 或格式无效 |
| 6-10 | 有 frontmatter 但描述模糊或不完整 |
| 11-13 | 有效的 frontmatter,描述有 WHAT 但 WHEN 部分较弱 |
| 14-15 | 完美:包含 WHAT、WHEN 和触发关键词的全面描述 |
Frontmatter 要求:
name:小写,仅限字母数字和连字符,≤64 个字符description:最关键的字段——决定 Skill 是否会被使用为什么描述是最重要的字段:
┌─────────────────────────────────────────────────────────────────────┐
│ SKILL ACTIVATION FLOW │
│ │
│ User Request → Agent sees ALL skill descriptions → Decides which │
│ (only descriptions, not bodies!) to activate │
│ │
│ If description doesn't match → Skill NEVER gets loaded │
│ If description is vague → Skill might not trigger when it should │
│ If description lacks keywords → Skill is invisible to the Agent │
└─────────────────────────────────────────────────────────────────────┘
残酷的事实:内容完美但描述不佳的 Skill 是无用的——它永远不会被激活。描述是告诉 Agent"在这些情况下使用我"的唯一机会。
描述必须回答三个问题:
优秀的描述(包含所有三个要素):
description: "Comprehensive document creation, editing, and analysis with support
for tracked changes, comments, formatting preservation, and text extraction.
When Claude needs to work with professional documents (.docx files) for:
(1) Creating new documents, (2) Modifying or editing content,
(3) Working with tracked changes, (4) Adding comments, or any other document tasks"
分析:
差的描述(缺少要素):
description: "处理文档相关功能"
问题:
另一个差的例子:
description: "A helpful skill for various tasks"
这是无用的——Agent 不知道何时激活它。
描述质量检查清单:
Skill 是否实现了适当的内容分层?
Skill 加载有三个层次:
Layer 1: Metadata (always in memory)
Only name + description
~100 tokens per skill
Layer 2: SKILL.md Body (loaded after triggering)
Detailed guidelines, code examples, decision trees
Ideal: < 500 lines
Layer 3: Resources (loaded on demand)
scripts/, references/, assets/
No limit
| 分数 | 标准 |
|---|---|
| 0-5 | 所有内容都堆在 SKILL.md 中(>500 行,无结构) |
| 6-10 | 有参考资料但不清楚何时加载 |
| 11-13 | 良好的分层,存在强制加载触发器 |
| 14-15 | 完美:决策树 + 明确的触发器 + "不要加载"指导 |
对于有参考资料目录的 Skills,检查加载触发器质量:
| 触发器质量 | 特征 |
|---|---|
| 差 | 参考资料列在末尾,无加载指导 |
| 中等 | 有一些触发器但未嵌入工作流中 |
| 好 | 工作流步骤中存在强制加载触发器 |
| 优秀 | 场景检测 + 条件触发器 + "不要加载" |
加载问题:
Loading too little ◄─────────────────────────────────► Loading too much
- References sit unused - Wastes context space
- Agent doesn't know when to load - Irrelevant info dilutes key content
- Knowledge is there but never accessed - Unnecessary token overhead
好的加载触发器(嵌入在工作流中):
### Creating New Document
**MANDATORY - READ ENTIRE FILE**: Before proceeding, you MUST read
[`docx-js.md`](docx-js.md) (~500 lines) completely from start to finish.
**NEVER set any range limits when reading this file.**
**Do NOT load** `ooxml.md` or `redlining.md` for this task.
差的加载触发器(仅列出):
## References
- docx-js.md - for creating documents
- ooxml.md - for editing
- redlining.md - for tracking changes
对于简单的 Skills(无参考资料,<100 行):根据简洁性和自包含性评分。
对于任务的脆弱性,具体的程度是否合适?
不同的任务需要不同级别的约束。这是关于将自由度与脆弱性相匹配。
| 分数 | 标准 |
|---|---|
| 0-5 | 严重不匹配(创意任务使用僵化的脚本,脆弱操作使用模糊指导) |
| 6-10 | 部分合适,存在一些不匹配 |
| 11-13 | 对大多数场景有良好的校准 |
| 14-15 | 全程完美的自由度校准 |
自由度谱系:
| 任务类型 | 应该具有 | 原因 | 示例 Skill |
|---|---|---|---|
| 创意/设计 | 高自由度 | 多种有效方法,差异化是价值所在 | frontend-design |
| 代码审查 | 中等自由度 | 存在原则但需要判断力 | code-review |
| 文件格式操作 | 低自由度 | 一个错误的字节就会损坏文件,一致性至关重要 | docx, xlsx, pdf |
高自由度(基于文本的指导):
Commit to a BOLD aesthetic direction. Pick an extreme: brutally minimal,
maximalist chaos, retro-futuristic, organic natural...
中等自由度(伪代码或参数化):
Review priority:
1. Security vulnerabilities (must fix)
2. Logic errors (must fix)
3. Performance issues (should fix)
4. Maintainability (optional)
低自由度(特定脚本,精确步骤):
**MANDATORY**: Use exact script in `scripts/create-doc.py`
Parameters: --title "X" --author "Y"
Do NOT modify the script.
测试方法:问"如果 Agent 犯了一个错误,后果是什么?"
Skill 是否遵循已建立的官方模式?
通过分析 17 个官方 Skills,我们识别出 5 种主要设计模式:
| 模式 | ~行数 | 关键特征 | 示例 | 何时使用 |
|---|---|---|---|---|
| 思维方式 | ~50 | 思维 > 技术,强大的"绝对不要"列表,高自由度 | frontend-design | 需要品味的创意任务 |
| 导航 | ~30 | 最小的 SKILL.md,路由到子文件 | internal-comms | 多个不同的场景 |
| 哲学 | ~150 | 两步:哲学 → 表达,强调工艺 | canvas-design | 需要原创性的艺术/创作 |
| 流程 | ~200 | 分阶段的工作流,检查点,中等自由度 | mcp-builder | 复杂的多步骤项目 |
| 工具 | ~300 | 决策树,代码示例,低自由度 | docx, pdf, xlsx | 对特定格式的精确操作 |
| 分数 | 标准 | |||
| --- | --- | |||
| 0-3 | 无可识别的模式,结构混乱 | |||
| 4-6 | 部分遵循模式但有显著偏差 | |||
| 7-8 | 清晰的模式,有轻微偏差 | |||
| 9-10 | 熟练应用适当的模式 |
模式选择指南:
| 你的任务特征 | 推荐模式 |
|---|---|
| 需要品味和创造力 | 思维方式(~50 行) |
| 需要原创性和工艺质量 | 哲学(~150 行) |
| 有多个不同的子场景 | 导航(~30 行) |
| 复杂的多步骤项目 | 流程(~200 行) |
| 对特定格式的精确操作 | 工具(~300 行) |
Agent 能否实际有效地使用这个 Skill?
| 分数 | 标准 |
|---|---|
| 0-5 | 指导令人困惑、不完整、矛盾或未经测试 |
| 6-10 | 可用但存在明显缺陷 |
| 11-13 | 对常见情况有清晰的指导 |
| 14-15 | 全面覆盖,包括边界情况和错误处理 |
检查:
良好的可用性(决策树 + 备用方案):
| Task | Primary Tool | Fallback | When to Use Fallback |
|------|-------------|----------|----------------------|
| Read text | pdftotext | PyMuPDF | Need layout info |
| Extract tables | camelot-py | tabula-py | camelot fails |
**Common issues**:
- Scanned PDF: pdftotext returns blank → Use OCR first
- Encrypted PDF: Permission error → Use PyMuPDF with password
差的可用性(模糊):
Use appropriate tools for PDF processing.
Handle errors properly.
Consider edge cases.
完整阅读 SKILL.md,并对每个部分提问:
"Claude 已经知道这个了吗?"
将每个部分标记为:
计算粗略比例:E:A:R
[ ] Check frontmatter validity
[ ] Count total lines in SKILL.md
[ ] List all reference files and their sizes
[ ] Identify which pattern the Skill follows
[ ] Check for loading triggers (if references exist)
对于 8 个维度中的每一个:
Total = D1 + D2 + D3 + D4 + D5 + D6 + D7 + D8
Max = 120 points
等级标准(基于百分比):
| 等级 | 百分比 | 含义 |
|---|---|---|
| A | 90%+ (108+) | 优秀——生产就绪的专家级 Skill |
| B | 80-89% (96-107) | 良好——需要少量改进 |
| C | 70-79% (84-95) | 足够——有清晰的改进路径 |
| D | 60-69% (72-83) | 低于平均水平——存在显著问题 |
| F | <60% (<72) | 差——需要根本性重新设计 |
# Skill Evaluation Report: [Skill Name]
## Summary
- **Total Score**: X/120 (X%)
- **Grade**: [A/B/C/D/F]
- **Pattern**: [Mindset/Navigation/Philosophy/Process/Tool]
- **Knowledge Ratio**: E:A:R = X:Y:Z
- **Verdict**: [One sentence assessment]
## Dimension Scores
| Dimension | Score | Max | Notes |
|-----------|-------|-----|-------|
| D1: Knowledge Delta | X | 20 | |
| D2: Mindset vs Mechanics | X | 15 | |
| D3: Anti-Pattern Quality | X | 15 | |
| D4: Specification Compliance | X | 15 | |
| D5: Progressive Disclosure | X | 15 | |
| D6: Freedom Calibration | X | 15 | |
| D7: Pattern Recognition | X | 10 | |
| D8: Practical Usability | X | 15 | |
## Critical Issues
[List must-fix problems that significantly impact the Skill's effectiveness]
## Top 3 Improvements
1. [Highest impact improvement with specific guidance]
2. [Second priority improvement]
3. [Third priority improvement]
## Detailed Analysis
[For each dimension scoring below 80%, provide:
- What's missing or problematic
- Specific examples from the Skill
- Concrete suggestions for improvement]
Symptom: Explains what PDF is, how Python works, basic library usage
Root cause: Author assumes Skill should "teach" the model
Fix: Claude already knows this. Delete all basic explanations.
Focus on expert decisions, trade-offs, and anti-patterns.
Symptom: SKILL.md is 800+ lines with everything included
Root cause: No progressive disclosure design
Fix: Core routing and decision trees in SKILL.md (<300 lines ideal)
Detailed content in references/, loaded on-demand
Symptom: References directory exists but files are never loaded
Root cause: No explicit loading triggers
Fix: Add "MANDATORY - READ ENTIRE FILE" at workflow decision points
Add "Do NOT Load" to prevent over-loading
Symptom: Step 1, Step 2, Step 3... mechanical procedures
Root cause: Author thinks in procedures, not thinking frameworks
Fix: Transform into "Before doing X, ask yourself..."
Focus on decision principles, not operation sequences
Symptom: "Be careful", "avoid errors", "consider edge cases"
Root cause: Author knows things can go wrong but hasn't articulated specifics
Fix: Specific NEVER list with concrete examples and non-obvious reasons
"NEVER use X because [specific problem that takes experience to learn]"
Symptom: Great content but skill rarely gets activated
Root cause: Description is vague, missing keywords, or lacks trigger scenarios
Fix: Description must answer WHAT, WHEN, and include KEYWORDS
"Use when..." + specific scenarios + searchable terms
Example fix:
BAD: "Helps with document tasks"
GOOD: "Create, edit, and analyze .docx files. Use when working with
Word documents, tracked changes, or professional document formatting."
Symptom: "When to use this Skill" section in body, not in description
Root cause: Misunderstanding of three-layer loading
Fix: Move all triggering information to description field
Body is only loaded AFTER triggering decision is made
Symptom: README.md, CHANGELOG.md, INSTALLATION_GUIDE.md, CONTRIBUTING.md
Root cause: Treating Skill like a software project
Fix: Delete all auxiliary files. Only include what Agent needs for the task.
No documentation about the Skill itself.
Symptom: Rigid scripts for creative tasks, vague guidance for fragile operations
Root cause: Not considering task fragility
Fix: High freedom for creative (principles, not steps)
Low freedom for fragile (exact scripts, no parameters)
┌─────────────────────────────────────────────────────────────────────────┐
│ SKILL EVALUATION QUICK CHECK │
├─────────────────────────────────────────────────────────────────────────┤
│ │
│ KNOWLEDGE DELTA (most important): │
│ [ ] No "What is X" explanations for basic concepts │
│ [ ] No step-by-step tutorials for standard operations │
│ [ ] Has decision trees for non-obvious choices │
│ [ ] Has trade-offs only experts would know │
│ [ ] Has edge cases from real-world experience │
│ │
│ MINDSET + PROCEDURES: │
│ [ ] Transfers thinking patterns (how to think about problems) │
│ [ ] Has "Before doing X, ask yourself..." frameworks │
│ [ ] Includes domain-specific procedures Claude wouldn't know │
│ [ ] Distinguishes valuable procedures from generic ones │
│ │
│ ANTI-PATTERNS: │
│ [ ] Has explicit NEVER list │
│ [ ] Anti-patterns are specific, not vague │
│ [ ] Includes WHY (non-obvious reasons) │
│ │
│ SPECIFICATION (description is critical!): │
│ [ ] Valid YAML frontmatter │
│ [ ] name: lowercase, ≤64 chars │
│ [ ] description answers: WHAT does it do? │
│ [ ] description answers: WHEN should it be used? │
│ [ ] description contains trigger KEYWORDS │
│ [ ] description is specific enough for Agent to know when to use │
│ [ ] Includes scenarios where this skill MUST be used (not just "can be used")
│ │
│ STRUCTURE: │
│ [ ] SKILL.md < 500 lines (ideal < 300) │
│ [ ] Heavy content in references/ │
│ [ ] Loading triggers embedded in workflow │
│ [ ] Has "Do NOT Load" for preventing over-loading │
│ │
│ FREEDOM: │
│ [ ] Creative tasks → High freedom (principles) │
│ [ ] Fragile operations → Low freedom (exact scripts) │
│ │
│ USABILITY: │
│ [ ] Decision trees for multi-path scenarios │
│ [ ] Working code examples │
│ [ ] Error handling and fallbacks │
│ [ ] Edge cases covered │
│ │
└─────────────────────────────────────────────────────────────────────────┘
评估任何 Skill 时,始终回到这个基本问题:
"这个领域的专家,看到这个 Skill,会说: '是的,这捕捉了我花了多年才学到的知识'吗?"
如果答案是肯定的 → Skill 具有真正的价值。如果答案是否定的 → 它只是在压缩 Claude 已经知道的东西。
最好的 Skills 是压缩的专家大脑——它们将设计师 10 年的美学积累压缩成 43 行,或将文档专家的操作经验压缩成一个 200 行的决策树。
被压缩的必须是 Claude 没有的东西。否则,就是垃圾压缩。
这个 Skill(skill-judge)本身应该通过评估:
将此 Skill 与自身进行对比评估,作为校准练习。
每周安装次数
145
仓库
GitHub 星标
22.6K
首次出现
Jan 25, 2026
安全审计
安装于
opencode120
claude-code118
gemini-cli112
codex108
cursor103
github-copilot101
超能力技能使用指南:AI助手技能调用优先级与工作流程详解
46,500 周安装
Claude代码格式化设置 - 自动配置代码风格规则与架构记忆
317 周安装
功能优先级排序工具:产品经理必备的ICE/RICE框架,高效评估产品功能待办事项
325 周安装
axiom-apple-docs-research:高效获取 Apple 开发者文档与 WWDC 会议文稿,含代码示例
160 周安装
AI访谈总结工具 - 自动生成结构化客户访谈摘要,提升产品管理效率
327 周安装
冲刺规划指南:如何高效进行Sprint Planning,评估团队容量与风险管理
324 周安装
GitHub CLI创建PR指南:使用gh pr create命令创建拉取请求的最佳实践
320 周安装