重要前提
安装AI Skills的关键前提是:必须科学上网,且开启TUN模式,这一点至关重要,直接决定安装能否顺利完成,在此郑重提醒三遍:科学上网,科学上网,科学上网。查看完整安装教程 →
npx skills add https://github.com/agntswrm/agent-media --skill audio-transcribe将音频文件转录为带时间戳的文本。支持自动语言检测、说话人识别(声纹分离),并输出包含分段级别时间信息的结构化 JSON。
npx agent-media@latest audio transcribe --in <路径> [选项]
| 选项 | 必需 | 描述 |
|---|---|---|
--in | 是 | 输入音频文件路径或 URL(支持 mp3、wav、m4a、ogg) |
--diarize | 否 | 启用说话人识别 |
--language | 否 | 语言代码(未提供则自动检测) |
--speakers |
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| 否 |
| 为声纹分离提供的说话人数量提示 |
--out | 否 | 输出路径、文件名或目录(默认:./) |
--provider | 否 | 使用的服务提供商(local、fal、replicate、runpod) |
返回包含转录数据的 JSON 对象:
{
"ok": true,
"media_type": "audio",
"action": "transcribe",
"provider": "fal",
"output_path": "transcription_123_abc.json",
"transcription": {
"text": "完整的转录文本...",
"language": "en",
"segments": [
{ "start": 0.0, "end": 2.5, "text": "你好。", "speaker": "SPEAKER_0" },
{ "start": 2.5, "end": 5.0, "text": "嗨,你好。", "speaker": "SPEAKER_1" }
]
}
}
基本转录(自动检测语言):
npx agent-media@latest audio transcribe --in interview.mp3
带说话人识别的转录:
npx agent-media@latest audio transcribe --in meeting.wav --diarize
指定语言和说话人数量的转录:
npx agent-media@latest audio transcribe --in podcast.mp3 --diarize --language en --speakers 3
使用特定服务提供商:
npx agent-media@latest audio transcribe --in audio.wav --provider replicate
要转录视频文件,请先提取音频:
# 步骤 1:从视频中提取音频
npx agent-media@latest audio extract --in video.mp4 --format mp3
# 步骤 2:转录提取出的音频
npx agent-media@latest audio transcribe --in extracted_xxx.mp3
使用 Transformers.js 在本地 CPU 上运行,无需 API 密钥。
使用 Moonshine 模型(比 Whisper 快 5 倍)
模型在首次使用时下载(约 100MB)
不支持 声纹分离 —— 如需说话人识别,请使用 fal 或 replicate
你可能会看到 mutex lock failed 错误 —— 忽略它,如果输出中 "ok": true,则结果是正确的
npx agent-media@latest audio transcribe --in audio.mp3 --provider local
FAL_API_KEYwizper 模型进行快速转录(快 2 倍)whisper 模型(原生支持)REPLICATE_API_TOKENwhisper-diarization 模型,基于 Whisper Large V3 Turbo需要 RUNPOD_API_KEY
使用 pruna/whisper-v3-large 模型(Whisper Large V3)
不支持 声纹分离(说话人识别)—— 如需声纹分离,请使用 fal 或 replicate
npx agent-media@latest audio transcribe --in audio.mp3 --provider runpod
每周安装量
29
代码仓库
GitHub 星标数
3
首次出现
2026年1月20日
安全审计
安装于
opencode23
gemini-cli20
claude-code20
codex19
cursor19
openclaw17
Transcribes audio files to text with timestamps. Supports automatic language detection, speaker identification (diarization), and outputs structured JSON with segment-level timing.
npx agent-media@latest audio transcribe --in <path> [options]
| Option | Required | Description |
|---|---|---|
--in | Yes | Input audio file path or URL (supports mp3, wav, m4a, ogg) |
--diarize | No | Enable speaker identification |
--language | No | Language code (auto-detected if not provided) |
--speakers | No | Number of speakers hint for diarization |
--out | No | Output path, filename or directory (default: ./) |
--provider | No | Provider to use (local, fal, replicate, runpod) |
Returns a JSON object with transcription data:
{
"ok": true,
"media_type": "audio",
"action": "transcribe",
"provider": "fal",
"output_path": "transcription_123_abc.json",
"transcription": {
"text": "Full transcription text...",
"language": "en",
"segments": [
{ "start": 0.0, "end": 2.5, "text": "Hello.", "speaker": "SPEAKER_0" },
{ "start": 2.5, "end": 5.0, "text": "Hi there.", "speaker": "SPEAKER_1" }
]
}
}
Basic transcription (auto-detect language):
npx agent-media@latest audio transcribe --in interview.mp3
Transcription with speaker identification:
npx agent-media@latest audio transcribe --in meeting.wav --diarize
Transcription with specific language and speaker count:
npx agent-media@latest audio transcribe --in podcast.mp3 --diarize --language en --speakers 3
Use specific provider:
npx agent-media@latest audio transcribe --in audio.wav --provider replicate
To transcribe a video file, first extract the audio:
# Step 1: Extract audio from video
npx agent-media@latest audio extract --in video.mp4 --format mp3
# Step 2: Transcribe the extracted audio
npx agent-media@latest audio transcribe --in extracted_xxx.mp3
Runs locally on CPU using Transformers.js, no API key required.
Uses Moonshine model (5x faster than Whisper)
Models downloaded on first use (~100MB)
Does NOT support diarization — use fal or replicate for speaker identification
You may see a mutex lock failed error — ignore it, the output is correct if "ok": true
npx agent-media@latest audio transcribe --in audio.mp3 --provider local
FAL_API_KEYwizper model for fast transcription (2x faster) when diarization is disabledwhisper model when diarization is enabled (native support)REPLICATE_API_TOKENwhisper-diarization model with Whisper Large V3 TurboRequires RUNPOD_API_KEY
Uses pruna/whisper-v3-large model (Whisper Large V3)
Does NOT support diarization (speaker identification) - use fal or replicate for diarization
npx agent-media@latest audio transcribe --in audio.mp3 --provider runpod
Weekly Installs
29
Repository
GitHub Stars
3
First Seen
Jan 20, 2026
Security Audits
Gen Agent Trust HubPassSocketPassSnykWarn
Installed on
opencode23
gemini-cli20
claude-code20
codex19
cursor19
openclaw17
超能力技能使用指南:AI助手技能调用优先级与工作流程详解
53,700 周安装
NotebookLM 研究助手技能:基于 Google NotebookLM 的文档智能查询与自动化管理工具
1 周安装
NoSQL专家指南:Cassandra与DynamoDB分布式数据库设计模式与性能优化
1 周安装
Next.js Supabase 认证集成指南:App Router 中间件与服务器操作最佳实践
1 周安装
SaaS营销创意库:140个已验证策略,含SEO、内容营销、付费广告与竞争对手分析
1 周安装
LLM应用模式:生产级RAG架构、AI智能体与LLMOps最佳实践指南
1 周安装
SaaS产品发布策略指南:ORB框架与五阶段方法,打造成功功能发布与用户增长
1 周安装