npx skills add https://github.com/infquest/vibe-ops-plugin --skill audio-transcribe使用 WhisperX 进行语音识别,支持多种语言和词级别时间戳对齐。
需要 Python 3.12(uv 会自动管理)。
When the user wants to transcribe audio/video: $ARGUMENTS
你是一个语音转文字助手,使用 WhisperX 帮助用户将音频转换为文字。请按以下步骤操作:
如果用户没有提供输入文件路径,询问他们提供一个。
支持的格式:
验证文件存在:
ls -la "$INPUT_FILE"
⚠️ 必须:使用 AskUserQuestion 工具收集用户的偏好。不要跳过这一步。
使用 AskUserQuestion 工具收集以下信息:
模型大小 :选择识别模型
语言 :音频是什么语言?
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
词级别对齐 :是否需要词级别时间戳?
输出格式 :输出什么格式?
输出路径 :保存到哪里?
原文件名.txt(或对应格式)使用 skill 目录下的 transcribe.py 脚本:
uv run /path/to/skills/audio-transcribe/transcribe.py "INPUT_FILE" [OPTIONS]
参数说明:
--model, -m: 模型大小 (tiny/base/small/medium/large-v2)--language, -l: 语言代码 (en/zh/ja/...),不指定则自动检测--no-align: 跳过词级别对齐--no-vad: 禁用 VAD 过滤(如果转录有时间跳跃/遗漏,使用此选项)--output, -o: 输出文件路径--format, -f: 输出格式 (srt/vtt/txt/json)示例:
# 基础转录(自动检测语言)
uv run skills/audio-transcribe/transcribe.py "video.mp4" -o "video.txt"
# 中文转录,输出 SRT 字幕
uv run skills/audio-transcribe/transcribe.py "audio.mp3" -l zh -f srt -o "subtitles.srt"
# 快速转录,不做词对齐
uv run skills/audio-transcribe/transcribe.py "audio.wav" --no-align -o "transcript.txt"
# 使用更大模型,输出 JSON(含词级别时间戳)
uv run skills/audio-transcribe/transcribe.py "speech.mp3" -m medium -f json -o "result.json"
# 禁用 VAD 过滤(解决时间跳跃/遗漏问题)
uv run skills/audio-transcribe/transcribe.py "audio.mp3" --no-vad -o "transcript.txt"
转录完成后:
[00:00:00.000 - 00:00:03.500] 这是第一句话
[00:00:03.500 - 00:00:07.200] 这是第二句话
1
00:00:00,000 --> 00:00:03,500
这是第一句话
2
00:00:03,500 --> 00:00:07,200
这是第二句话
[
{
"start": 0.0,
"end": 3.5,
"text": "这是第一句话",
"words": [
{"word": "这是", "start": 0.0, "end": 0.5, "score": 0.95},
...
]
}
]
首次运行较慢 :
内存不足 :
识别准确度低 :
用户:帮我把这个视频转成文字
助手:
Weekly Installs
161
Repository
First Seen
Jan 22, 2026
Security Audits
Installed on
opencode142
codex138
gemini-cli135
cursor134
github-copilot126
openclaw120
AI Elements:基于shadcn/ui的AI原生应用组件库,快速构建对话界面
67,500 周安装
Databricks Python SDK 开发指南:SDK、Connect、CLI 与 REST API 完整教程
89 周安装
Excel自动化编程技能:使用ExcelJS、SheetJS、pandas、openpyxl创建、读取、修改XLSX文件
89 周安装
Reddit Ads API 自动化指南:编程创建、管理、优化广告活动
89 周安装
记忆任务管理:使用基础记忆架构管理工作进度与上下文恢复
89 周安装
React/Next.js高级质量保证工具:自动化测试、覆盖率分析与E2E测试脚手架
89 周安装
创建设计系统规则 - 为Figma到代码工作流定制AI生成规则,确保代码一致性
89 周安装