字幕修正技能：AI自动修正SRT字幕语音识别错误，保持时间轴不变

subtitle-correction by sugarforever/01coder-agent-skills

124 周安装量

83 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/sugarforever/01coder-agent-skills --skill subtitle-correction

AI/机器学习内容创作音频处理

🇨🇳中文介绍

字幕修正技能

此技能用于修正字幕文件中的语音识别错误，同时严格保持时间轴信息不变。

交互式工作流程

步骤 1：向用户请求术语

重要提示：在开始任何修正之前，始终向用户询问领域特定术语。

向用户提示：

在开始修正之前，请提供一些关键术语，帮助我更准确地识别和修正语音识别错误：

1.  **专有名词**：人名、品牌名、产品名等（如：Anthropic、Claude）
2.  **技术术语**：框架、库、工具名称（如：LangChain、OpenAI、PyTorch）
3.  **领域词汇**：行业特定词汇（如：checkpointer、middleware、runtime）
4.  **其他关键词**：视频中频繁出现的重要词汇

请用逗号分隔，例如：`LangChain, Agent, OpenAI, checkpointer`

对于英文用户：

Before I begin correction, please provide key terms to help me accurately identify speech recognition errors:

1.  **Proper nouns**: Names, brands, products (e.g., Anthropic, Claude)
2.  **Technical terms**: Frameworks, libraries, tools (e.g., LangChain, PyTorch)
3.  **Domain vocabulary**: Industry-specific terms (e.g., checkpointer, middleware)
4.  **Other keywords**: Important words that appear frequently

Please separate with commas, e.g.: `LangChain, Agent, OpenAI, checkpointer`

步骤 2：确认理解

收到术语后，通过以下方式确认：

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

步骤 3：使用术语进行处理

使用提供的术语来：

构建预期词汇的心理模型
识别可能的语音识别错误
在整个过程中应用一致的修正

当用户不提供术语时

如果用户说“没有”/“no”/“直接开始”：

使用内置模式继续进行修正
标记不确定的修正供用户审查
完成后，询问是否遗漏了任何术语

读取字幕文件 - 加载用户提供的 .srt 文件
识别错误模式 - 识别常见的语音识别错误
应用修正 - 修正错误，同时完全保留时间戳
输出修正后的文件 - 根据用户的上下文返回或保存

绝不修改时间戳 - 保持所有 00:00:00,000 --> 00:00:00,000 行完全不变
绝不更改字幕编号 - 保持序列号不变
绝不合并或拆分字幕条目 - 保持一一对应关系

1. 语音错误（同音字/谐音错误）

中文语音识别中常见：

会话 ↔ 绘画 (huìhuà)
元数据 ↔ 源数据 (yuán shùjù)
本课 ↔ 本科 (běnkè)
示例 ↔ 事例 (shìlì)
实践 ↔ 时间 (shíjiàn)

2. 技术术语错误

语音识别经常在以下方面出错：

框架名称：LangChain, LangGraph, OpenAI, PyTorch, TensorFlow
编程术语：API, SDK, runtime, checkpointer, middleware
代码标识符：snake_case 名称、函数名、类名

3. 中英文混合内容

Luncheon/lunch → langchain
open EI/open Email → OpenAI
land GRAPH → langgraph
a memory Server → MemorySaver

4. 代码相关术语

将口头描述转换为正确的格式：

"underscore" → 变量名中的 "_"
"dot" → 方法调用中的 "."
识别 camelCase、snake_case、PascalCase 模式

用户提供的术语

当用户提供术语列表时，将其作为修正的主要参考：

用户提供的术语：LangChain,Agent,OpenAI,LangGraph

这些术语指示：

技术术语的正确拼写
关于内容领域的上下文
识别语音识别错误的线索

对于长文件（>200 行）

使用 view_range 参数分块处理
跨块保持上下文
逐步构建完整的修正文件

识别领域（AI/ML、Web 开发等）
构建预期术语的心理模型
一致地应用领域特定的修正

验证所有时间戳未更改
验证字幕数量未更改
检查整个文件的术语一致性
确保没有孤立的修正（部分修复）

中文 AI/ML 课程内容

错误	修正	上下文
蓝犬/蓝卷/Lantern	LangChain	框架名称
绘画	会话	会话/对话
拖/tour	tool	工具概念
checkpoint组件	checkpointer组件	记忆组件
源数据	元数据	元数据
大约模型	大模型	大模型
中间键	中间件	中间件

口头表达	书面形式
user underscore 001	user_001
thread underscore id	thread_id
create underscore agent	create_agent
runtime dot state	runtime.state

保存时，使用 -corrected 后缀：

输入：filename.srt
输出：filename-corrected.srt

使用 scripts/subtitle_tool.py 来验证和分析字幕文件：

# 验证修正后的文件保持结构
python scripts/subtitle_tool.py validate original.srt corrected.srt

# 显示带颜色输出的词级差异（默认，仅显示更改）
python scripts/subtitle_tool.py diff original.srt corrected.srt

# 在终端显示所有条目（已更改和未更改）
python scripts/subtitle_tool.py diff original.srt corrected.srt --all

# 生成 HTML 差异报告（推荐用于审查）
python scripts/subtitle_tool.py diff original.srt corrected.srt --html report.html

# 显示简单的基于行的差异（原始/修正行）
python scripts/subtitle_tool.py diff original.srt corrected.srt --simple

# 禁用颜色以便输出到文件
python scripts/subtitle_tool.py diff original.srt corrected.srt --no-color

# 分析文件以查找潜在的语音识别错误
python scripts/subtitle_tool.py analyze input.srt --terms "LangChain,OpenAI"

终端输出（默认）

显示带颜色的词级更改：

[1] 00:00:01,500 --> 00:00:04,500
  今天我们来学习[-Luncheon-]{+LangChain+}框架

[3] 00:00:08,000 --> 00:00:12,500
  我们可以用它来创建[-绘画-]{+会话+}应用程序

[-deleted-] - 删除的文本（在终端中显示为红色）
{+added+} - 添加的文本（在终端中显示为绿色）
使用 --all 也显示未更改的条目

HTML 报告（推荐用于审查）

生成完整的比较报告，包含：

所有条目（已更改和未更改）
并排列：原始 | 修正 | 差异视图
视觉高亮：删除部分红色删除线，添加部分绿色
摘要统计：总条目数、更改数、未更改数
跳转链接：快速导航到已更改的条目
更改指示器：黄色圆点标记已更改的行

python scripts/subtitle_tool.py diff original.srt corrected.srt --html diff_report.html

然后在浏览器中打开 diff_report.html。

修正前：运行 analyze 以识别潜在错误
修正后：运行 validate 以确保结构完整性
审查更改：运行 diff --html report.html 生成可视化比较报告

条目数与原始文件匹配
所有时间戳未更改
所有序列号保持不变
无格式损坏

交互 1：用户上传文件但未提供术语

用户：帮我修正这个字幕文件

在开始修正之前，请提供一些关键术语，帮助我更准确地识别语音识别错误：

1.  **专有名词**：人名、品牌名、产品名
2.  **技术术语**：框架、库、工具名称
3.  **领域词汇**：行业特定词汇
4.  **其他关键词**：视频中频繁出现的重要词汇

请用逗号分隔，例如：`LangChain, Agent, OpenAI`

用户：LangChain, Agent, OpenAI, LangGraph, checkpointer

收到以下术语：
- 技术框架：LangChain, LangGraph, OpenAI
- 技术概念：Agent, checkpointer

这是一个 LangChain 相关的技术教程。还有补充吗？

用户：没有了，开始吧

Claude：[继续执行修正工作流程]

交互 2：用户预先提供术语

用户：帮我修正字幕，术语：LangChain, OpenAI, Agent

Claude：[确认术语，然后直接继续]

读取上传的 .srt 文件
运行 analyze 以识别潜在错误
使用提供的术语作为主要参考应用修正
运行 validate 以确认结构完整性
使用 -corrected 后缀保存修正后的文件
生成差异报告并呈现更改摘要
提供 HTML 报告：询问用户是否需要 HTML 差异报告以便于审查

输出：提供已做修正的分类摘要。

完成后，提示用户：

修正完成！我可以生成一个 HTML 差异报告，方便您在浏览器中查看所有修改。
需要生成 HTML 报告吗？

Correction complete! I can generate an HTML diff report for easier review in your browser.
Would you like me to generate the HTML report?

AI 代码实施计划编写技能 | 自动化开发任务分解与 TDD 流程规划工具

49,000 周安装

字幕修正技能：AI自动修正SRT字幕语音识别错误，保持时间轴不变

🇨🇳中文介绍

字幕修正技能

交互式工作流程

步骤 1：向用户请求术语

步骤 2：确认理解

相关 Skills

步骤 3：使用术语进行处理

当用户不提供术语时

核心工作流程

严格规则

时间轴保持

错误类别

1. 语音错误（同音字/谐音错误）

2. 技术术语错误

3. 中英文混合内容

4. 代码相关术语

用户提供的术语

处理策略

对于长文件（>200 行）

对于技术内容

质量检查

常见修正模式

中文 AI/ML 课程内容

代码标识符

输出格式

验证脚本

差异输出格式

终端输出（默认）

HTML 报告（推荐用于审查）

验证工作流程

验证检查

示例交互

交互 1：用户上传文件但未提供术语

交互 2：用户预先提供术语

修正过程

最新 Skills