视频处理器：YouTube下载、格式转换、音频转录工具 - 集成yt-dlp、FFmpeg、Whisper

Video Processor by iamzhihuix/happy-claude-skills

1 周安装量

272 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/iamzhihuix/happy-claude-skills --skill 'Video Processor'

内容创作自动化音频处理

🇨🇳中文介绍

视频处理器

使用说明

本技能提供全面的视频处理工具，包括使用 yt-dlp、FFmpeg 和 OpenAI 的 Whisper 模型进行 YouTube 视频下载、音频提取、格式转换和音频转录。

前提条件

必需工具（必须在您的环境中安装）：

yt-dlp：适用于 YouTube 和数千个其他站点的视频下载器
```
# 通过 pip 安装
```
pip install -U yt-dlp

验证安装

yt-dlp --version
FFmpeg：用于视频/音频处理的多媒体框架
```
# macOS
```
brew install ffmpeg

Ubuntu/Debian

apt-get install ffmpeg

验证安装

ffmpeg -version
OpenAI Whisper：语音转文本转录模型
```
# 通过 pip 安装
```
pip install -U openai-whisper

验证安装

whisper --help

Python 包（通过 PEP 723 包含在脚本中）：

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

FlyClaw：零登录航班聚合查询工具，Python实现多源航班信息与价格搜索

4,000,000 周安装

Azure RBAC 权限管理工具：查找最小角色、创建自定义角色与自动化分配

117,000 周安装

GitHub Actions 官方文档查询助手 - 精准解答 CI/CD 工作流问题

31,800 周安装

通过 LiteLLM 代理让 Claude Code 对接 GitHub Copilot 运行 | 高级变通方案指南

31,600 周安装

click（CLI 框架）
ffmpeg-python（FFmpeg 的 Python 包装器）
yt-dlp（视频下载器）

使用 scripts/video_processor.py 脚本执行所有视频处理任务。该脚本提供了一个简单的 CLI，包含以下命令：

0. 从 YouTube 或其他平台下载视频（新增功能！）

从 YouTube 和数千个其他受支持的网站下载视频：

# 下载视频
uv run .claude/skills/video-processor/scripts/video_processor.py download "https://youtube.com/watch?v=..." output.mp4

# 仅下载音频（作为 MP3）
uv run .claude/skills/video-processor/scripts/video_processor.py download "https://youtube.com/watch?v=..." --audio-only

# 显示视频信息而不下载
uv run .claude/skills/video-processor/scripts/video_processor.py download "https://youtube.com/watch?v=..." --info

# 下载带字幕的视频
uv run .claude/skills/video-processor/scripts/video_processor.py download "https://youtube.com/watch?v=..." output.mp4 --subtitle

--audio-only：仅下载音频（提取为 MP3）
--subtitle：下载并嵌入字幕（支持 en、zh-Hans、zh-Hant）
--info：显示视频信息而不下载
--format：指定视频格式偏好（默认：最佳质量）

1. 从视频中提取音频

从视频文件中提取音轨：

uv run .claude/skills/video-processor/scripts/video_processor.py extract-audio input.mp4 output.wav

--format：输出音频格式（默认：wav）。支持：wav、mp3、aac、flac
输出适用于转录或独立音频使用

2. 将视频转换为 MP4

将任何视频文件转换为 MP4 格式：

uv run .claude/skills/video-processor/scripts/video_processor.py to-mp4 input.avi output.mp4

--codec：视频编解码器（默认：libx264）。常见选项：libx264、libx265、h264
--preset：编码速度/质量预设（默认：medium）。选项：ultrafast、fast、medium、slow、veryslow

3. 将视频转换为 WebM

将任何视频文件转换为 WebM 格式（针对网络优化）：

uv run .claude/skills/video-processor/scripts/video_processor.py to-webm input.mp4 output.webm

--codec：视频编解码器（默认：libvpx-vp9）。选项：libvpx、libvpx-vp9
WebM 针对网络播放和流媒体进行了优化

4. 使用 Whisper 转录音频

使用 OpenAI 的 Whisper 模型将音频或视频文件转录为文本：

# 转录视频文件（音频将自动提取）
uv run .claude/skills/video-processor/scripts/video_processor.py transcribe input.mp4 transcript.txt

# 直接转录音频文件
uv run .claude/skills/video-processor/scripts/video_processor.py transcribe audio.wav transcript.txt

--model：Whisper 模型大小（默认：base）。选项：
- tiny：最快，准确度最低（约 1GB RAM）
- base：快速，良好准确度（约 1GB RAM）[默认]
- small：平衡（约 2GB RAM）
- medium：高准确度（约 5GB RAM）
- large：最佳准确度，最慢（约 10GB RAM）
--language：语言代码（默认：自动检测）。示例：en、es、fr、de、zh
--format：输出格式（默认：txt）。选项：txt、srt、vtt、json

转录工作流程：

如果输入是视频，FFmpeg 将音频提取到临时 WAV 文件
Whisper 处理音频文件
转录结果以请求的格式保存
临时文件自动清理

5. 组合工作流程示例

端到端处理视频：

# 1. 提取音频用于分析
uv run .claude/skills/video-processor/scripts/video_processor.py extract-audio lecture.mp4 lecture.wav

# 2. 转录为 SRT 字幕
uv run .claude/skills/video-processor/scripts/video_processor.py transcribe lecture.mp4 lecture.srt --format srt --model small

# 3. 转换为网络格式
uv run .claude/skills/video-processor/scripts/video_processor.py to-webm lecture.mp4 lecture.webm

FFmpeg 和 Whisper 集成：

FFmpeg 本身不转录音频——它准备音频供外部转录使用
工作流程是：提取音频（FFmpeg）→ 转录（Whisper）→ 可选：与视频重新集成
FFmpeg 可以直接将音频管道传输到 Whisper 进行实时处理（高级用例）

用于转录的音频格式：

Whisper 最适合 WAV 或 MP3 格式
采样率：16kHz 是最佳选择（脚本自动处理转换）
脚本以 Whisper 的最佳设置提取音频

txt：纯文本转录
srt：SubRip 字幕格式（包含时间戳）
vtt：WebVTT 字幕格式（网络标准）
json：包含词级时间戳的详细 JSON

脚本包含全面的错误处理：

验证输入文件是否存在
检查 FFmpeg 和 Whisper 是否已安装
为缺少的依赖项提供清晰的错误消息
在出错时处理临时文件清理

使用 tiny 或 base 模型进行快速草稿
使用 small 或 medium 模型进行生产级转录
仅在需要最高准确度时使用 large 模型
对于长视频，考虑先提取音频，然后分段转录
使用 VP9 的 WebM 转换时间较长，但生成的文件更小

示例 1：快速视频转 MP4 转换

我有一个来自旧摄像机的 AVI 文件。你能把它转换成 MP4 吗？

使用 to-mp4 命令和默认设置：

uv run .claude/skills/video-processor/scripts/video_processor.py to-mp4 old_video.avi output.mp4
确认转换成功完成
通知用户输出文件的位置

示例 2：提取音频并转录

我录制了一个讲座视频，需要一份转录稿。你能提取音频并转录吗？

首先提取音频：

uv run .claude/skills/video-processor/scripts/video_processor.py extract-audio lecture.mp4 lecture.wav
然后使用 base 模型进行转录（速度/准确度平衡良好）：

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe lecture.mp4 transcript.txt --model base
与用户分享 transcript.txt 文件

示例 3：创建带字幕的网络优化视频

我需要把这个视频放到我的网站上，并加上字幕。你能帮忙吗？

转换为 WebM 以进行网络优化：

uv run .claude/skills/video-processor/scripts/video_processor.py to-webm presentation.mp4 presentation.webm
生成 SRT 字幕文件：

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe presentation.mp4 subtitles.srt --format srt --model small
通知用户现在拥有：
- presentation.webm（网络优化视频）
- subtitles.srt（用于嵌入的字幕文件）

示例 4：指定语言的高质量转录

我有一个西班牙语采访视频，需要一份准确的转录稿用于出版。

使用更大的模型并指定语言以获得最佳准确度：

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe interview.mp4 transcript.txt --model medium --language es
可选地创建 SRT 以供审阅：

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe interview.mp4 transcript.srt --format srt --model medium --language es
与用户一起审阅转录稿并进行必要的更正

示例 5：批量处理多个视频

我有一个包含多个培训视频的文件夹，都需要转换为 WebM 并转录。

列出目录中的所有视频文件：

ls training_videos/*.mp4
对每个视频文件运行转换和转录：

对于每个视频：video1.mp4、video2.mp4 等

uv run .claude/skills/video-processor/scripts/video_processor.py to-webm training_videos/video1.mp4 output/video1.webm

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe training_videos/video1.mp4 output/video1.txt --model base

# 对每个文件重复此操作

3. 确认所有转换和转录已完成 4. 提供输出文件的摘要

视频处理器技能为常见视频处理任务提供了统一的接口：

音频提取：以各种格式提取音轨
格式转换：转换为 MP4（通用）或 WebM（网络优化）
转录：语音转文本，支持多种输出格式
灵活：用于模型选择、语言和输出格式的 CLI 参数

所有操作都通过一个单一的、文档齐全的脚本处理，具有合理的默认值和全面的错误处理。

🇺🇸English

Video Processor

Instructions

This skill provides comprehensive video processing utilities including YouTube video download, audio extraction, format conversion, and audio transcription using yt-dlp, FFmpeg, and OpenAI's Whisper model.

Prerequisites

Required tools (must be installed in your environment):

yt-dlp : Video downloader for YouTube and thousands of other sites
```
# Install via pip
```
pip install -U yt-dlp

Verify installation

yt-dlp --version
FFmpeg : Multimedia framework for video/audio processing
```
# macOS
```
brew install ffmpeg

Ubuntu/Debian

apt-get install ffmpeg

Verify installation

ffmpeg -version
OpenAI Whisper : Speech-to-text transcription model
```
# Install via pip
```
pip install -U openai-whisper

Verify installation

whisper --help

Python packages (included in script via PEP 723):

click (CLI framework)
ffmpeg-python (Python wrapper for FFmpeg)
yt-dlp (video downloader)

Workflow

Use the scripts/video_processor.py script for all video processing tasks. The script provides a simple CLI with the following commands:

0. Download Video from YouTube or Other Platforms (NEW!)

Download videos from YouTube and thousands of other supported websites:

# Download video
uv run .claude/skills/video-processor/scripts/video_processor.py download "https://youtube.com/watch?v=..." output.mp4

# Download audio only (as MP3)
uv run .claude/skills/video-processor/scripts/video_processor.py download "https://youtube.com/watch?v=..." --audio-only

# Show video info without downloading
uv run .claude/skills/video-processor/scripts/video_processor.py download "https://youtube.com/watch?v=..." --info

# Download with subtitles
uv run .claude/skills/video-processor/scripts/video_processor.py download "https://youtube.com/watch?v=..." output.mp4 --subtitle

Options:

--audio-only: Download audio only (extracts to MP3)
--subtitle: Download and embed subtitles (supports en, zh-Hans, zh-Hant)
--info: Show video information without downloading
--format: Specify video format preference (default: best quality)

1. Extract Audio from Video

Extract the audio track from a video file:

uv run .claude/skills/video-processor/scripts/video_processor.py extract-audio input.mp4 output.wav

Options:

--format: Output audio format (default: wav). Supports: wav, mp3, aac, flac
Output is suitable for transcription or standalone audio use

2. Convert Video to MP4

Convert any video file to MP4 format:

uv run .claude/skills/video-processor/scripts/video_processor.py to-mp4 input.avi output.mp4

Options:

--codec: Video codec (default: libx264). Common options: libx264, libx265, h264
--preset: Encoding speed/quality preset (default: medium). Options: ultrafast, fast, medium, slow, veryslow

3. Convert Video to WebM

Convert any video file to WebM format (web-optimized):

uv run .claude/skills/video-processor/scripts/video_processor.py to-webm input.mp4 output.webm

Options:

--codec: Video codec (default: libvpx-vp9). Options: libvpx, libvpx-vp9
WebM is optimized for web playback and streaming

4. Transcribe Audio with Whisper

Transcribe audio or video files to text using OpenAI's Whisper model:

# Transcribe video file (audio will be extracted automatically)
uv run .claude/skills/video-processor/scripts/video_processor.py transcribe input.mp4 transcript.txt

# Transcribe audio file directly
uv run .claude/skills/video-processor/scripts/video_processor.py transcribe audio.wav transcript.txt

Options:

--model: Whisper model size (default: base). Options:
- tiny: Fastest, lowest accuracy (~1GB RAM)
- base: Fast, good accuracy (~1GB RAM) [DEFAULT]
- small: Balanced (~2GB RAM)
- medium: High accuracy (~5GB RAM)
- large: Best accuracy, slowest (~10GB RAM)
--language: Language code (default: auto-detect). Examples: en, es, fr, de, zh
--format: Output format (default: txt). Options: txt, srt, vtt, json

Transcription workflow:

If input is video, FFmpeg extracts audio to temporary WAV file
Whisper processes the audio file
Transcription is saved in requested format
Temporary files are cleaned up automatically

5. Combined Workflow Example

Process a video end-to-end:

# 1. Extract audio for analysis
uv run .claude/skills/video-processor/scripts/video_processor.py extract-audio lecture.mp4 lecture.wav

# 2. Transcribe to SRT subtitles
uv run .claude/skills/video-processor/scripts/video_processor.py transcribe lecture.mp4 lecture.srt --format srt --model small

# 3. Convert to web format
uv run .claude/skills/video-processor/scripts/video_processor.py to-webm lecture.mp4 lecture.webm

Key Technical Details

FFmpeg and Whisper Integration:

FFmpeg doesn't transcribe audio itself - it prepares audio for external transcription
The workflow is: Extract audio (FFmpeg) → Transcribe (Whisper) → Optional: Re-integrate with video
FFmpeg can pipe audio directly to Whisper for real-time processing (advanced use case)

Audio Format for Transcription:

Whisper works best with WAV or MP3 formats
Sample rate: 16kHz is optimal (script handles conversion automatically)
The script extracts audio with optimal settings for Whisper

Output Formats:

txt : Plain text transcript
srt : SubRip subtitle format (includes timestamps)
vtt : WebVTT subtitle format (web standard)
json : Detailed JSON with word-level timestamps

Error Handling

The script includes comprehensive error handling:

Validates input files exist
Checks FFmpeg and Whisper are installed
Provides clear error messages for missing dependencies
Handles temporary file cleanup on errors

Performance Tips

Use tiny or base models for quick drafts
Use small or medium for production transcriptions
Use large only when maximum accuracy is required
For long videos, consider extracting audio first, then transcribe in segments
WebM conversion with VP9 takes longer but produces smaller files

Examples

Example 1: Quick Video to MP4 Conversion

User request:

I have an AVI file from my old camera. Can you convert it to MP4?

You would:

Use the to-mp4 command with default settings:

uv run .claude/skills/video-processor/scripts/video_processor.py to-mp4 old_video.avi output.mp4
Confirm the conversion completed successfully
Inform the user about the output file location

Example 2: Extract Audio and Transcribe

User request:

I recorded a lecture video and need a transcript. Can you extract the audio and transcribe it?

You would:

First extract the audio:

uv run .claude/skills/video-processor/scripts/video_processor.py extract-audio lecture.mp4 lecture.wav
Then transcribe using the base model (good balance of speed/accuracy):

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe lecture.mp4 transcript.txt --model base
Share the transcript.txt file with the user

Example 3: Create Web-Optimized Video with Subtitles

User request:

I need to put this video on my website with subtitles. Can you help?

You would:

Convert to WebM for web optimization:

uv run .claude/skills/video-processor/scripts/video_processor.py to-webm presentation.mp4 presentation.webm
Generate SRT subtitle file:

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe presentation.mp4 subtitles.srt --format srt --model small
Inform user they now have:
- presentation.webm (web-optimized video)
- subtitles.srt (subtitle file for embedding)

Example 4: High-Quality Transcription with Language Specification

User request:

I have a Spanish interview video that needs an accurate transcript for publication.

You would:

Use a larger model with language specified for best accuracy:

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe interview.mp4 transcript.txt --model medium --language es
Optionally create SRT for review:

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe interview.mp4 transcript.srt --format srt --model medium --language es
Review the transcript with the user and make any necessary corrections

Example 5: Batch Processing Multiple Videos

User request:

I have a folder of training videos that all need to be converted to WebM and transcribed.

You would:

List all video files in the directory:

ls training_videos/*.mp4
For each video file, run the conversion and transcription:

For each video: video1.mp4, video2.mp4, etc.

uv run .claude/skills/video-processor/scripts/video_processor.py to-webm training_videos/video1.mp4 output/video1.webm

uv run .claude/skills/video-processor/scripts/video_processor.py transcribe training_videos/video1.mp4 output/video1.txt --model base

# Repeat for each file

3. Confirm all conversions and transcriptions completed 4. Provide summary of output files

Summary

The video-processor skill provides a unified interface for common video processing tasks:

Audio extraction : Extract audio tracks in various formats
Format conversion : Convert to MP4 (universal) or WebM (web-optimized)
Transcription : Speech-to-text with multiple output formats
Flexible : CLI arguments for model selection, language, and output formats

All operations are handled through a single, well-documented script with sensible defaults and comprehensive error handling.

Weekly Installs

–

Repository

iamzhihuix/happ…e-skills

GitHub Stars

270

First Seen

–

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Skills CLI 使用指南：AI Agent 技能包管理器安装与管理教程

31,600 周安装

视频处理器：YouTube下载、格式转换、音频转录工具 - 集成yt-dlp、FFmpeg、Whisper

🇨🇳中文介绍

视频处理器

使用说明

前提条件

验证安装

Ubuntu/Debian

验证安装

验证安装

相关 Skills

工作流程

0. 从 YouTube 或其他平台下载视频（新增功能！）

1. 从视频中提取音频

2. 将视频转换为 MP4

3. 将视频转换为 WebM

4. 使用 Whisper 转录音频

5. 组合工作流程示例

关键技术细节

错误处理

性能提示

示例

示例 1：快速视频转 MP4 转换

示例 2：提取音频并转录

示例 3：创建带字幕的网络优化视频

示例 4：指定语言的高质量转录

示例 5：批量处理多个视频

对于每个视频：video1.mp4、video2.mp4 等

总结

🇺🇸English

Video Processor

Instructions

Prerequisites

Verify installation

Ubuntu/Debian

Verify installation

Verify installation

Workflow

0. Download Video from YouTube or Other Platforms (NEW!)

1. Extract Audio from Video

2. Convert Video to MP4

3. Convert Video to WebM

4. Transcribe Audio with Whisper

5. Combined Workflow Example

Key Technical Details

Error Handling

Performance Tips

Examples

Example 1: Quick Video to MP4 Conversion

Example 2: Extract Audio and Transcribe

Example 3: Create Web-Optimized Video with Subtitles

Example 4: High-Quality Transcription with Language Specification

Example 5: Batch Processing Multiple Videos

For each video: video1.mp4, video2.mp4, etc.

Summary

最新 Skills