写作技能：基于测试驱动开发的AI代理技能文档编写指南

writing-skills by 0x2e/superpowers

11 周安装量

GitHub

安装命令

npx skills add https://github.com/0x2e/superpowers --skill writing-skills

🇨🇳中文介绍

写作技能

概述

写作技能是应用于流程文档的测试驱动开发。

个人技能存放在特定代理的目录中（Claude Code 使用 ~/.claude/skills，Codex 使用 ~/.agents/skills/）

你编写测试用例（包含子代理的压力场景），观察它们失败（基线行为），编写技能（文档），观察测试通过（代理遵守），然后重构（堵住漏洞）。

核心原则： 如果你没有观察过代理在没有该技能时的失败情况，你就不知道这个技能是否教授了正确的东西。

必备背景： 在使用此技能之前，你必须理解 superpowers:test-driven-development。该技能定义了基本的 RED-GREEN-REFACTOR 循环。本技能将 TDD 应用于文档编写。

官方指导： 关于 Anthropic 官方的技能编写最佳实践，请参阅 anthropic-best-practices.md。本文档提供了额外的模式和指南，是对本技能中 TDD 重点方法的补充。

什么是技能？

技能是针对已验证技术、模式或工具的参考指南。技能帮助未来的 Claude 实例发现并应用有效的方法。

技能是： 可重用的技术、模式、工具、参考指南

技能不是： 关于你如何一次性解决问题的叙述

技能的 TDD 映射

TDD 概念	技能创建
测试用例	包含子代理的压力场景
生产代码	技能文档 (SKILL.md)
测试失败 (RED)	代理在没有技能时违反规则（基线）
测试通过 (GREEN)	代理在有技能时遵守规则
重构	在保持遵守的同时堵住漏洞
先写测试	在编写技能之前运行基线场景
观察失败	记录代理使用的确切合理化理由
最小化代码	编写针对这些特定违规行为的技能
观察通过	验证代理现在是否遵守
重构循环	发现新的合理化理由 → 堵住 → 重新验证

整个技能创建过程遵循 RED-GREEN-REFACTOR。

何时创建技能

在以下情况创建：

该技术对你来说并非直观明显
你会在跨项目中再次参考此内容
模式具有广泛适用性（非项目特定）
其他人会从中受益

不要为以下情况创建：

一次性解决方案
其他地方已有完善文档的标准实践
项目特定的约定（放在 CLAUDE.md 中）
机械性约束（如果可以用正则表达式/验证强制执行，就自动化它——将文档留给需要判断的情况）

技能类型

技术

具有具体步骤的方法（condition-based-waiting, root-cause-tracing）

模式

思考问题的方式（flatten-with-flags, test-invariants）

参考

API 文档、语法指南、工具文档（office docs）

目录结构

skills/
  skill-name/
    SKILL.md              # 主要参考（必需）
    supporting-file.*     # 仅在需要时

扁平命名空间 - 所有技能在一个可搜索的命名空间中

为以下情况使用单独文件：

大量参考 (100+ 行) - API 文档、综合语法
可重用工具 - 脚本、实用程序、模板

保持内联：

原则和概念
代码模式 (< 50 行)
其他所有内容

SKILL.md 结构

Frontmatter (YAML):

仅支持两个字段：name 和 description
总计最多 1024 个字符
name: 仅使用字母、数字和连字符（无括号、特殊字符）
description: 第三人称，仅描述何时使用（而非其作用）
- 以 "Use when..." 开头，专注于触发条件
- 包含具体的症状、情况和上下文
- 切勿总结技能的过程或工作流（参见 CSO 部分了解原因）
- 尽可能保持在 500 个字符以内

---
name: Skill-Name-With-Hyphens
description: Use when [specific triggering conditions and symptoms]
---

# 技能名称

## 概述
这是什么？用 1-2 句话说明核心原则。

## 何时使用
[如果决策不直观，使用小型内联流程图]

包含症状和使用场景的要点列表
何时不使用

## 核心模式（针对技术/模式）
前后代码对比

## 快速参考
用于扫描常见操作的表格或要点

## 实现
简单模式的内联代码
大量参考或可重用工具的文件链接

## 常见错误
出错的地方 + 修复方法

## 实际影响（可选）
具体结果

Claude 搜索优化 (CSO)

对发现至关重要： 未来的 Claude 需要找到你的技能

1. 丰富的描述字段

目的： Claude 读取描述来决定为给定任务加载哪些技能。让它回答："我现在应该阅读这个技能吗？"

格式： 以 "Use when..." 开头，专注于触发条件

关键：描述 = 何时使用，而非技能的作用

描述应仅描述触发条件。切勿在描述中总结技能的过程或工作流。

为什么这很重要： 测试发现，当描述总结了技能的工作流时，Claude 可能会遵循描述而不是阅读完整的技能内容。一个写着 "code review between tasks" 的描述导致 Claude 只进行一次审查，即使技能的流程图清楚地显示了两次审查（规范符合性审查，然后是代码质量审查）。

当描述改为仅 "Use when executing implementation plans with independent tasks in the current session"（无工作流总结）时，Claude 正确地阅读了流程图并遵循了两阶段审查过程。

陷阱： 总结工作流的描述创建了一个 Claude 会采用的捷径。技能主体变成了 Claude 会跳过的文档。

# ❌ 错误：总结工作流 - Claude 可能遵循这个而不是阅读技能
description: Use when executing plans - dispatches subagent per task with code review between tasks

# ❌ 错误：过程细节过多
description: Use for TDD - write test first, watch it fail, write minimal code, refactor

# ✅ 良好：仅触发条件，无工作流总结
description: Use when executing implementation plans with independent tasks in the current session

# ✅ 良好：仅触发条件
description: Use when implementing any feature or bugfix, before writing implementation code

内容：

使用表明此技能适用的具体触发因素、症状和情况
描述问题（竞态条件、不一致行为）而非语言特定症状（setTimeout, sleep）
保持触发因素与技术无关，除非技能本身是技术特定的
如果技能是技术特定的，在触发因素中明确说明
使用第三人称书写（注入到系统提示中）
切勿总结技能的过程或工作流

# ❌ 错误：太抽象、模糊，未包含何时使用
description: For async testing

# ❌ 错误：第一人称
description: I can help you with async tests when they're flaky

# ❌ 错误：提及技术但技能并非特定于它
description: Use when tests use setTimeout/sleep and are flaky

# ✅ 良好：以 "Use when" 开头，描述问题，无工作流
description: Use when tests have race conditions, timing dependencies, or pass/fail inconsistently

# ✅ 良好：技术特定技能，具有明确的触发因素
description: Use when using React Router and handling authentication redirects

2. 关键词覆盖

使用 Claude 会搜索的词语：

错误消息："Hook timed out", "ENOTEMPTY", "race condition"
症状："flaky", "hanging", "zombie", "pollution"
同义词："timeout/hang/freeze", "cleanup/teardown/afterEach"
工具：实际命令、库名、文件类型

3. 描述性命名

使用主动语态，动词优先：

✅ creating-skills 而非 skill-creation
✅ condition-based-waiting 而非 async-test-helpers

4. 令牌效率（关键）

问题： 入门和频繁引用的技能会加载到每一次对话中。每一个令牌都很重要。

目标字数：

入门工作流：每个 <150 词
频繁加载的技能：总计 <200 词
其他技能：<500 词（仍需简洁）

技巧：

将细节移至工具帮助：

# ❌ 错误：在 SKILL.md 中记录所有标志
search-conversations supports --text, --both, --after DATE, --before DATE, --limit N

# ✅ 良好：参考 --help
search-conversations supports multiple modes and filters. Run --help for details.

使用交叉引用：

# ❌ 错误：重复工作流细节
When searching, dispatch subagent with template...
[20 lines of repeated instructions]

# ✅ 良好：引用其他技能
Always use subagents (50-100x context savings). REQUIRED: Use [other-skill-name] for workflow.

压缩示例：

# ❌ 错误：冗长的示例 (42 词)
your human partner: "How did we handle authentication errors in React Router before?"
You: I'll search past conversations for React Router authentication patterns.
[Dispatch subagent with search query: "React Router authentication error handling 401"]

# ✅ 良好：最小化示例 (20 词)
Partner: "How did we handle auth errors in React Router?"
You: Searching...
[Dispatch subagent → synthesis]

消除冗余：

不要重复交叉引用技能中的内容
不要解释命令中显而易见的内容
不要包含同一模式的多个示例

验证：

wc -w skills/path/SKILL.md
# getting-started workflows: aim for <150 each
# Other frequently-loaded: aim for <200 total

按你所做的或核心见解命名：

✅ condition-based-waiting > async-test-helpers
✅ using-skills 而非 skill-usage
✅ flatten-with-flags > data-structure-refactoring
✅ root-cause-tracing > debugging-techniques

动名词 (-ing) 适用于过程：

creating-skills, testing-skills, debugging-with-logs
主动，描述你正在采取的行动

4. 交叉引用其他技能

在编写引用其他技能的文档时：

仅使用技能名称，并带有明确的要求标记：

✅ 良好：**REQUIRED SUB-SKILL:** Use superpowers:test-driven-development
✅ 良好：**REQUIRED BACKGROUND:** You MUST understand superpowers:systematic-debugging
❌ 错误：See skills/testing/test-driven-development（不清楚是否必需）
❌ 错误：@skills/testing/test-driven-development/SKILL.md（强制加载，消耗上下文）

为什么不用 @ 链接： @ 语法会立即强制加载文件，在你需要它们之前就消耗了 200k+ 的上下文。

流程图使用

digraph when_flowchart {
    "Need to show information?" [shape=diamond];
    "Decision where I might go wrong?" [shape=diamond];
    "Use markdown" [shape=box];
    "Small inline flowchart" [shape=box];

    "Need to show information?" -> "Decision where I might go wrong?" [label="yes"];
    "Decision where I might go wrong?" -> "Small inline flowchart" [label="yes"];
    "Decision where I might go wrong?" -> "Use markdown" [label="no"];
}

仅在以下情况使用流程图：

不明显的决策点
你可能过早停止的过程循环
"何时使用 A 与 B" 的决策

切勿在以下情况使用流程图：

参考材料 → 表格、列表
代码示例 → Markdown 块
线性说明 → 编号列表
没有语义含义的标签（step1, helper2）

关于 graphviz 样式规则，请参阅 @graphviz-conventions.dot。

为你的合作伙伴可视化： 使用此目录中的 render-graphs.js 将技能的流程图渲染为 SVG：

./render-graphs.js ../some-skill           # 每个图表单独渲染
./render-graphs.js ../some-skill --combine # 所有图表在一个 SVG 中

代码示例

一个优秀的示例胜过许多平庸的示例

选择最相关的语言：

测试技术 → TypeScript/JavaScript
系统调试 → Shell/Python
数据处理 → Python

良好的示例：

完整且可运行
注释良好，解释原因
来自真实场景
清晰展示模式
准备好进行适配（非通用模板）

不要：

用 5 种以上语言实现
创建填空模板
编写人为的示例

你擅长移植——一个优秀的示例就足够了。

文件组织

自包含技能

defense-in-depth/
  SKILL.md    # 所有内容内联

何时：所有内容都合适，不需要大量参考

带有可重用工具的技能

condition-based-waiting/
  SKILL.md    # 概述 + 模式
  example.ts  # 可供适配的工作助手

何时：工具是可重用代码，而不仅仅是叙述

带有大量参考的技能

pptx/
  SKILL.md       # 概述 + 工作流
  pptxgenjs.md   # 600 行 API 参考
  ooxml.md       # 500 行 XML 结构
  scripts/       # 可执行工具

何时：参考材料太大，无法内联

铁律（与 TDD 相同）

NO SKILL WITHOUT A FAILING TEST FIRST

这适用于新技能和对现有技能的编辑。

在测试之前编写技能？删除它。重新开始。未经测试就编辑技能？同样的违规。

没有例外：

不适用于"简单添加"
不适用于"仅添加一个部分"
不适用于"文档更新"
不要将未经测试的更改保留为"参考"
不要在运行测试时"适配"
删除意味着删除

必备背景： superpowers:test-driven-development 技能解释了为什么这很重要。同样的原则适用于文档。

测试所有技能类型

不同类型的技能需要不同的测试方法：

纪律执行技能（规则/要求）

示例： TDD, verification-before-completion, designing-before-coding

测试方法：

学术问题：他们理解规则吗？
压力场景：他们在压力下遵守吗？
多重压力组合：时间 + 沉没成本 + 疲惫
识别合理化理由并添加明确的应对措施

成功标准： 代理在最大压力下遵循规则

技术技能（操作指南）

示例： condition-based-waiting, root-cause-tracing, defensive-programming

测试方法：

应用场景：他们能正确应用该技术吗？
变化场景：他们能处理边缘情况吗？
信息缺失测试：说明有空白吗？

成功标准： 代理成功地将技术应用于新场景

模式技能（心智模型）

示例： reducing-complexity, information-hiding concepts

测试方法：

识别场景：他们能识别何时适用该模式吗？
应用场景：他们能使用该心智模型吗？
反例：他们知道何时不适用吗？

成功标准： 代理正确识别何时/如何应用模式

参考技能（文档/API）

示例： API 文档、命令参考、库指南

测试方法：

检索场景：他们能找到正确的信息吗？
应用场景：他们能正确使用找到的信息吗？
空白测试：常见用例是否涵盖？

成功标准： 代理找到并正确应用参考信息

跳过测试的常见合理化理由

借口	现实
"技能显然很清晰"	对你清晰 ≠ 对其他代理清晰。测试它。
"它只是一个参考"	参考可能有空白、不清楚的部分。测试检索。
"测试过度了"	未经测试的技能有问题。总是如此。15 分钟测试节省数小时。
"如果出现问题我会测试"	问题 = 代理无法使用技能。在部署前测试。
"测试太繁琐"	测试比在生产中调试坏技能更不繁琐。
"我确信它很好"	过度自信保证有问题。无论如何都要测试。
"学术审查就够了"	阅读 ≠ 使用。测试应用场景。
"没时间测试"	部署未经测试的技能会浪费更多时间在以后修复它。

所有这些都意味着：在部署前测试。没有例外。

使技能免受合理化理由影响

强制执行纪律的技能（如 TDD）需要抵制合理化理由。代理很聪明，在压力下会找到漏洞。

心理学说明： 理解为什么说服技巧有效，有助于你系统地应用它们。关于权威、承诺、稀缺性、社会认同和统一性原则的研究基础，请参阅 persuasion-principles.md (Cialdini, 2021; Meincke et al., 2025)。

明确堵住每一个漏洞

不要仅仅陈述规则——禁止特定的变通方法：

没有例外：

不要将其保留为"参考"
不要在编写测试时"适配"它
不要看它
删除意味着删除

</Good>

### 处理"精神与字面"的争论

尽早添加基本原则：

```markdown
**违反规则的字面意思就是违反规则的精神。**

这切断了整个"我遵循精神"的合理化理由类别。

构建合理化理由表

从基线测试中捕获合理化理由（参见下面的测试部分）。代理提出的每一个借口都放入表中：

| Excuse | Reality |
|--------|---------|
| "Too simple to test" | Simple code breaks. Test takes 30 seconds. |
| "I'll test after" | Tests passing immediately prove nothing. |
| "Tests after achieve same goals" | Tests-after = "what does this do?" Tests-first = "what should this do?" |

创建危险信号列表

让代理在合理化时容易进行自我检查：

## 危险信号 - 停止并重新开始

- 先写代码后测试
- "我已经手动测试过了"
- "事后测试能达到相同目的"
- "这是关于精神而非仪式"
- "这不一样，因为..."

**所有这些都意味着：删除代码。用 TDD 重新开始。**

为违规症状更新 CSO

添加到描述中：当你即将违反规则时的症状：

description: use when implementing any feature or bugfix, before writing implementation code

技能的 RED-GREEN-REFACTOR

遵循 TDD 循环：

RED: 编写失败的测试（基线）

在没有技能的情况下运行包含子代理的压力场景。记录确切行为：

他们做了什么选择？
他们使用了什么合理化理由（逐字记录）？
哪些压力触发了违规？

这就是"观察测试失败"——你必须在编写技能之前看到代理自然的行为。

GREEN: 编写最小化技能

编写针对这些特定合理化理由的技能。不要为假设的情况添加额外内容。

使用技能运行相同的场景。代理现在应该遵守。

REFACTOR: 堵住漏洞

代理找到了新的合理化理由？添加明确的应对措施。重新测试直到无懈可击。

测试方法： 关于完整的测试方法，请参阅 @testing-skills-with-subagents.md：

如何编写压力场景
压力类型（时间、沉没成本、权威、疲惫）
系统地堵住漏洞
元测试技术

反模式

❌ 叙述性示例

"In session 2025-10-03, we found empty projectDir caused..." 为什么不好： 太具体，不可重用

❌ 多语言稀释

example-js.js, example-py.py, example-go.go 为什么不好： 质量平庸，维护负担重

❌ 流程图中的代码

step1 [label="import fs"];
step2 [label="read file"];

为什么不好： 无法复制粘贴，难以阅读

❌ 通用标签

helper1, helper2, step3, pattern4 为什么不好： 标签应具有语义含义

停止：在转向下一个技能之前

编写任何技能后，你必须停止并完成部署过程。

不要：

批量创建多个技能而不测试每一个
在当前技能验证之前转向下一个技能
因为"批处理更高效"而跳过测试

下面的部署清单对每个技能都是强制性的。

部署未经测试的技能 = 部署未经测试的代码。这违反了质量标准。

技能创建清单（TDD 适配版）

重要：使用 TodoWrite 为下面的每个清单项创建待办事项。

RED 阶段 - 编写失败的测试：

创建压力场景（纪律技能需要 3 个以上组合压力）
在没有技能的情况下运行场景——逐字记录基线行为
识别合理化理由/失败的模式

GREEN 阶段 - 编写最小化技能：

名称仅使用字母、数字、连字符（无括号/特殊字符）
YAML frontmatter 仅包含 name 和 description（最多 1024 字符）
描述以 "Use when..." 开头，并包含具体的触发因素/症状
描述使用第三人称书写
整个文档包含用于搜索的关键词（错误、症状、工具）
概述清晰，包含核心原则
解决在 RED 阶段识别的特定基线失败
代码内联或链接到单独文件
一个优秀的示例（非多语言）
使用技能运行场景——验证代理现在是否遵守

REFACTOR 阶段 - 堵住漏洞：

从测试中识别新的合理化理由
添加明确的应对措施（如果是纪律技能）
从所有测试迭代中构建合理化理由表
创建危险信号列表
重新测试直到无懈可击

质量检查：

仅在决策不直观时使用小型流程图
快速参考表
常见错误部分
没有叙述性故事
仅针对工具或大量参考使用支持文件

部署：

将技能提交到 git 并推送到你的 fork（如果已配置）
考虑通过 PR 贡献回来（如果广泛有用）

发现工作流

未来 Claude 如何找到你的技能：

遇到问题 ("tests are flaky")
找到技能 (描述匹配)
扫描概述 (这相关吗？)
阅读模式 (快速参考表)
加载示例 (仅在实现时)

为此流程优化——尽早并经常放置可搜索的术语。

底线

创建技能就是流程文档的 TDD。

同样的铁律：没有失败的测试就没有技能。同样的循环：RED（基线）→ GREEN（编写技能）→ REFACTOR（堵住漏洞）。同样的好处：更好的质量，更少的意外，无懈可击的结果。

如果你对代码遵循 TDD，对技能也要遵循。这是应用于文档的相同纪律。

每周安装

仓库

0x2e/superpowers

首次出现

2 天前

安全审计

Gen Agent Trust HubWarn SocketPass SnykPass

安装于

amp2

cline2

opencode2

cursor2

kimi-cli2

codex2

🇺🇸English

Writing Skills

Overview

Writing skills IS Test-Driven Development applied to process documentation.

Personal skills live in agent-specific directories (~/.claude/skills for Claude Code, ~/.agents/skills/ for Codex)

You write test cases (pressure scenarios with subagents), watch them fail (baseline behavior), write the skill (documentation), watch tests pass (agents comply), and refactor (close loopholes).

Core principle: If you didn't watch an agent fail without the skill, you don't know if the skill teaches the right thing.

REQUIRED BACKGROUND: You MUST understand superpowers:test-driven-development before using this skill. That skill defines the fundamental RED-GREEN-REFACTOR cycle. This skill adapts TDD to documentation.

Official guidance: For Anthropic's official skill authoring best practices, see anthropic-best-practices.md. This document provides additional patterns and guidelines that complement the TDD-focused approach in this skill.

What is a Skill?

A skill is a reference guide for proven techniques, patterns, or tools. Skills help future Claude instances find and apply effective approaches.

Skills are: Reusable techniques, patterns, tools, reference guides

Skills are NOT: Narratives about how you solved a problem once

TDD Mapping for Skills

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

TDD Concept	Skill Creation
Test case	Pressure scenario with subagent
Production code	Skill document (SKILL.md)
Test fails (RED)	Agent violates rule without skill (baseline)
Test passes (GREEN)	Agent complies with skill present
Refactor	Close loopholes while maintaining compliance
Write test first	Run baseline scenario BEFORE writing skill
Watch it fail	Document exact rationalizations agent uses
Minimal code	Write skill addressing those specific violations
Watch it pass	Verify agent now complies
Refactor cycle	Find new rationalizations → plug → re-verify

Excuse	Reality
"Skill is obviously clear"	Clear to you ≠ clear to other agents. Test it.
"It's just a reference"	References can have gaps, unclear sections. Test retrieval.
"Testing is overkill"	Untested skills have issues. Always. 15 min testing saves hours.
"I'll test if problems emerge"	Problems = agents can't use skill. Test BEFORE deploying.
"Too tedious to test"	Testing is less tedious than debugging bad skill in production.
"I'm confident it's good"	Overconfidence guarantees issues. Test anyway.
"Academic review is enough"	Reading ≠ using. Test application scenarios.
"No time to test"	Deploying untested skill wastes more time fixing it later.

写作技能：基于测试驱动开发的AI代理技能文档编写指南

🇨🇳中文介绍

写作技能

概述

什么是技能？

技能的 TDD 映射

何时创建技能

技能类型

技术

模式

参考

目录结构

SKILL.md 结构

Claude 搜索优化 (CSO)

1. 丰富的描述字段

2. 关键词覆盖

3. 描述性命名

4. 令牌效率（关键）

4. 交叉引用其他技能

流程图使用

代码示例

文件组织

自包含技能

带有可重用工具的技能

带有大量参考的技能

铁律（与 TDD 相同）

测试所有技能类型

纪律执行技能（规则/要求）

技术技能（操作指南）

模式技能（心智模型）

参考技能（文档/API）

跳过测试的常见合理化理由

使技能免受合理化理由影响

明确堵住每一个漏洞

构建合理化理由表

创建危险信号列表

为违规症状更新 CSO

技能的 RED-GREEN-REFACTOR

RED: 编写失败的测试（基线）

GREEN: 编写最小化技能

REFACTOR: 堵住漏洞

反模式

❌ 叙述性示例

❌ 多语言稀释

❌ 流程图中的代码

❌ 通用标签

停止：在转向下一个技能之前

技能创建清单（TDD 适配版）

发现工作流

底线

🇺🇸English

Writing Skills

Overview

What is a Skill?

TDD Mapping for Skills

相关 Skills

最新 Skills

When to Create a Skill

Skill Types

Technique

Pattern

Reference

Directory Structure

SKILL.md Structure

name: Skill-Name-With-Hyphens description: Use when [specific triggering conditions and symptoms]

Skill Name

Overview

When to Use

Core Pattern (for techniques/patterns)

Quick Reference

Implementation

Common Mistakes

Real-World Impact (optional)

Claude Search Optimization (CSO)

1. Rich Description Field

❌ BAD: Too abstract, vague, doesn't include when to use

❌ BAD: First person

❌ BAD: Mentions technology but skill isn't specific to it

✅ GOOD: Starts with "Use when", describes problem, no workflow

✅ GOOD: Technology-specific skill with explicit trigger