多模态大语言模型集成指南：图像分析、语音处理与AI视频生成（Kling/Sora/Veo/Runway）

multimodal-llm by yonatangross/orchestkit

94 周安装量

134 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/yonatangross/orchestkit --skill multimodal-llm

AI/机器学习音频处理计算机视觉

🇨🇳中文介绍

多模态大语言模型模式

集成领先多模态模型的视觉、音频和视频生成能力。涵盖图像分析、文档理解、实时语音代理、语音转文本、文本转语音以及 AI 视频生成（Kling 3.0、Sora 2、Veo 3.1、Runway Gen-4.5）。

快速参考

类别	规则	影响	使用场景
视觉：图像分析	1	高	图像描述、视觉问答、多图像比较、目标检测
视觉：文档理解	1	高	光学字符识别、图表/图解分析、PDF 处理、表格提取
视觉：模型选择	1	中	选择提供商、成本优化、图像尺寸限制
音频：语音转文本	1	高	转录、说话人分离、长音频处理
音频：文本转语音	1	中	语音合成、富有表现力的文本转语音、多说话人对话
音频：模型选择	1	中

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

find-skills 技能搜索工具 - Vercel Labs 开源智能体技能包管理器

867,400 周安装

React 组合模式指南：Vercel 组件架构最佳实践，提升代码可维护性

116,600 周安装

AI Elements：基于shadcn/ui的AI原生应用组件库，快速构建对话界面

66,200 周安装

超能力技能使用指南：AI助手技能调用优先级与工作流程详解

49,600 周安装

规则	文件	关键模式
图像分析	`rules/vision-image-analysis.md`	Base64 编码、多图像、边界框

规则	文件	关键模式
文档视觉	`rules/vision-document.md`	PDF 页面范围、细节级别、OCR 策略

规则	文件	关键模式
视觉模型	`rules/vision-models.md`	提供商比较、令牌成本、图像限制

规则	文件	关键模式
语音转文本	`rules/audio-speech-to-text.md`	Gemini 长音频、GPT-4o-Transcribe、AssemblyAI 功能

规则	文件	关键模式
文本转语音	`rules/audio-text-to-speech.md`	Gemini TTS、语音配置、听觉提示

规则	文件	关键模式
音频模型	`rules/audio-models.md`	实时语音比较、语音转文本基准测试、定价

规则	文件	关键模式
视频模型	`rules/video-generation-models.md`	Kling vs Sora vs Veo vs Runway、定价、能力

规则	文件	关键模式
API 集成	`rules/video-generation-patterns.md`	Kling REST、fal.ai SDK、Vercel AI SDK、任务轮询

规则	文件	关键模式
多镜头	`rules/video-multi-shot.md`	Kling 3.0 角色元素、6 镜头故事板、身份绑定

决策	推荐
高精度视觉	Claude Opus 4.6 或 GPT-5
长文档处理	Gemini 2.5 Pro（100 万上下文）
高性价比视觉	Gemini 2.5 Flash（$0.15/百万令牌）
视频分析	Gemini 2.5/3 Pro（原生视频支持）
语音助手	Grok Voice Agent（最快，<1 秒）
情感语音 AI	Gemini Live API
长音频转录	Gemini 2.5 Pro（9.5 小时）
说话人分离	AssemblyAI 或 Gemini
自托管语音转文本	Whisper Large V3
角色一致性视频	Kling 3.0（Character Elements 3.0）
叙事视频/故事讲述	Sora 2（最佳因果连贯性）
电影级 B-roll	Veo 3.1（摄像机控制 + 流畅运动）
专业视觉特效	Runway Gen-4.5（Act-Two 运动转移）
高产量社交视频	Kling 3.0 Standard（$0.20/视频）
开源视频生成	Wan 2.6 或 LTX-2
口型同步/虚拟形象视频	Kling 3.0（原生口型同步 API）

import anthropic, base64

client = anthropic.Anthropic()
with open("image.png", "rb") as f:
    b64 = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": [
        {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
        {"type": "text", "text": "Describe this image"}
    ]}]
)

未在视觉请求中设置 max_tokens（响应被截断）
发送过大的图像而未调整大小（>2048 像素）
对简单的“是/否”分类使用 high 细节级别
使用语音转文本+大语言模型+文本转语音管道，而非原生语音到语音
未利用打断支持来实现自然的语音对话
使用已弃用的模型（GPT-4V、Whisper-1）
忽视视觉和音频端点的速率限制
同步调用视频生成 API（它们是异步的——需轮询或使用回调）
生成独立片段时未使用角色元素（每次角色外观不同）
使用 Sora 处理高产量社交内容（昂贵、缓慢——应改用 Kling Standard）

ork:rag-retrieval - 结合图像和文本检索的多模态 RAG
ork:llm-integration - 通用大语言模型函数调用模式
streaming-api-patterns - 用于实时音频的 WebSocket 模式
ork:demo-producer - 终端演示视频（VHS、asciinema）——非 AI 视频生成

🇺🇸English

Multimodal LLM Patterns

Integrate vision, audio, and video generation capabilities from leading multimodal models. Covers image analysis, document understanding, real-time voice agents, speech-to-text, text-to-speech, and AI video generation (Kling 3.0, Sora 2, Veo 3.1, Runway Gen-4.5).

Quick Reference

Category	Rules	Impact	When to Use
Vision: Image Analysis	1	HIGH	Image captioning, VQA, multi-image comparison, object detection
Vision: Document Understanding	1	HIGH	OCR, chart/diagram analysis, PDF processing, table extraction
Vision: Model Selection	1	MEDIUM	Choosing provider, cost optimization, image size limits
Audio: Speech-to-Text	1	HIGH	Transcription, speaker diarization, long-form audio
Audio: Text-to-Speech	1	MEDIUM	Voice synthesis, expressive TTS, multi-speaker dialogue
Audio: Model Selection	1	MEDIUM	Real-time voice agents, provider comparison, pricing
Video: Model Selection	1	HIGH	Choosing video gen provider (Kling, Sora, Veo, Runway)
Video: API Patterns	1	HIGH	Async task polling, SDK integration, webhook callbacks
Video: Multi-Shot	1	HIGH	Storyboarding, character elements, scene consistency

Total: 9 rules across 3 categories (Vision, Audio, Video Generation)

Vision: Image Analysis

Send images to multimodal LLMs for captioning, visual QA, and object detection. Always set max_tokens and resize images before encoding.

Rule	File	Key Pattern
Image Analysis	`rules/vision-image-analysis.md`	Base64 encoding, multi-image, bounding boxes

Vision: Document Understanding

Extract structured data from documents, charts, and PDFs using vision models.

Rule	File	Key Pattern
Document Vision	`rules/vision-document.md`	PDF page ranges, detail levels, OCR strategies

Vision: Model Selection

Choose the right vision provider based on accuracy, cost, and context window needs.

Rule	File	Key Pattern
Vision Models	`rules/vision-models.md`	Provider comparison, token costs, image limits

Audio: Speech-to-Text

Convert audio to text with speaker diarization, timestamps, and sentiment analysis.

Rule	File	Key Pattern
Speech-to-Text	`rules/audio-speech-to-text.md`	Gemini long-form, GPT-4o-Transcribe, AssemblyAI features

Audio: Text-to-Speech

Generate natural speech from text with voice selection and expressive cues.

Rule	File	Key Pattern
Text-to-Speech	`rules/audio-text-to-speech.md`	Gemini TTS, voice config, auditory cues

Audio: Model Selection

Select the right audio/voice provider for real-time, transcription, or TTS use cases.

Rule	File	Key Pattern
Audio Models	`rules/audio-models.md`	Real-time voice comparison, STT benchmarks, pricing

Video: Model Selection

Choose the right video generation provider based on use case, duration, and budget.

Rule	File	Key Pattern
Video Models	`rules/video-generation-models.md`	Kling vs Sora vs Veo vs Runway, pricing, capabilities

Video: API Patterns

Integrate video generation APIs with proper async polling, SDKs, and webhook callbacks.

Rule	File	Key Pattern
API Integration	`rules/video-generation-patterns.md`	Kling REST, fal.ai SDK, Vercel AI SDK, task polling

Video: Multi-Shot

Generate multi-scene videos with consistent characters using storyboarding and character elements.

Rule	File	Key Pattern
Multi-Shot	`rules/video-multi-shot.md`	Kling 3.0 character elements, 6-shot storyboards, identity binding

Key Decisions

Decision	Recommendation
High accuracy vision	Claude Opus 4.6 or GPT-5
Long documents	Gemini 2.5 Pro (1M context)
Cost-efficient vision	Gemini 2.5 Flash ($0.15/M tokens)
Video analysis	Gemini 2.5/3 Pro (native video)
Voice assistant	Grok Voice Agent (fastest, <1s)
Emotional voice AI	Gemini Live API
Long audio transcription	Gemini 2.5 Pro (9.5hr)
Speaker diarization	AssemblyAI or Gemini
Self-hosted STT	Whisper Large V3
Character-consistent video	Kling 3.0 (Character Elements 3.0)
Narrative video / storytelling	Sora 2 (best cause-and-effect coherence)
Cinematic B-roll	Veo 3.1 (camera control + polished motion)
Professional VFX	Runway Gen-4.5 (Act-Two motion transfer)

Example

import anthropic, base64

client = anthropic.Anthropic()
with open("image.png", "rb") as f:
    b64 = base64.standard_b64encode(f.read()).decode("utf-8")

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": [
        {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
        {"type": "text", "text": "Describe this image"}
    ]}]
)

Common Mistakes

Not setting max_tokens on vision requests (responses truncated)
Sending oversized images without resizing (>2048px)
Using high detail level for simple yes/no classification
Using STT+LLM+TTS pipeline instead of native speech-to-speech
Not leveraging barge-in support for natural voice conversations
Using deprecated models (GPT-4V, Whisper-1)
Ignoring rate limits on vision and audio endpoints
Calling video generation APIs synchronously (they're async — poll or use callbacks)
Generating separate clips without character elements (characters look different each time)
Using Sora for high-volume social content (expensive, slow — use Kling Standard instead)

Related Skills

ork:rag-retrieval - Multimodal RAG with image + text retrieval
ork:llm-integration - General LLM function calling patterns
streaming-api-patterns - WebSocket patterns for real-time audio
ork:demo-producer - Terminal demo videos (VHS, asciinema) — not AI video gen

Weekly Installs

Repository

yonatangross/orchestkit

GitHub Stars

134

First Seen

Feb 14, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

gemini-cli91

codex90

opencode90

github-copilot90

cursor89

amp87

多模态大语言模型集成指南：图像分析、语音处理与AI视频生成（Kling/Sora/Veo/Runway）

🇨🇳中文介绍

多模态大语言模型模式

快速参考

相关 Skills

视觉：图像分析

视觉：文档理解

视觉：模型选择

音频：语音转文本

音频：文本转语音

音频：模型选择

视频：模型选择

视频：API 模式

视频：多镜头

关键决策

示例

常见错误

相关技能