ElevenLabs 文本转语音自动化工具 - 集成API、批量生成、音频流式传输

ElevenLabs Automation by composiohq/awesome-claude-skills

50,000 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/composiohq/awesome-claude-skills --skill 'ElevenLabs Automation'

自动化音频处理 API

🇨🇳中文介绍

ElevenLabs 自动化

自动化您的 ElevenLabs 文本转语音工作流程——将文本转换为自然语音、浏览语音库、检查语音详情、查询订阅额度、选择 TTS 模型、流式传输音频以实现低延迟交付，以及从历史记录中检索先前生成的音频。

工具包文档： composio.dev/toolkits/elevenlabs

设置

将 Composio MCP 服务器添加到您的客户端：https://rube.app/mcp
在提示时连接您的 ElevenLabs 账户（API 密钥认证）
开始使用以下工作流程

核心工作流程

1. 从文本生成语音

使用 ELEVENLABS_TEXT_TO_SPEECH 将文本转换为可下载的音频文件。

Tool: ELEVENLABS_TEXT_TO_SPEECH
Inputs:
  - voice_id: string (required) -- 从 ELEVENLABS_GET_VOICES 获取
  - text: string (required) -- 最大约 10,000 字符（大多数模型），30,000（Flash/Turbo v2），40,000（v2.5）
  - model_id: string (default "eleven_monolingual_v1") -- 例如，"eleven_multilingual_v2"
  - output_format: string (default "mp3_44100_128") -- 参见下方格式
  - optimize_streaming_latency: integer (0-4; eleven_v3 不支持)
  - seed: integer (optional, 用于可重现性 -- 不保证)
  - pronunciation_dictionary_locators: array (optional, 最多 3 个词典)

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

2. 浏览可用语音

使用 ELEVENLABS_GET_VOICES 列出所有语音及其属性和设置。

Tool: ELEVENLABS_GET_VOICES
Inputs: (none)

在 data.voices[] 中返回一个数组，包含 voice_id、name、labels（性别、口音、用例）和设置。

3. 检查特定语音

使用 ELEVENLABS_GET_VOICE 在合成前获取候选语音的详细元数据。

Tool: ELEVENLABS_GET_VOICE
Inputs:
  - voice_id: string (required) -- 例如，"21m00Tcm4TlvDq8ikWAM"
  - with_settings: boolean (default false) -- 包含详细的语音设置

4. 检查订阅和额度

使用 ELEVENLABS_GET_USER_SUBSCRIPTION_INFO 在批量生成前验证计划限制和剩余额度。

Tool: ELEVENLABS_GET_USER_SUBSCRIPTION_INFO
Inputs: (none)

5. 列出可用 TTS 模型

使用 ELEVENLABS_GET_MODELS 发现兼容的模型，并通过 can_do_text_to_speech: true 进行筛选。

Tool: ELEVENLABS_GET_MODELS
Inputs: (none)

6. 流式传输音频和检索历史记录

使用 ELEVENLABS_TEXT_TO_SPEECH_STREAM 进行低延迟流式交付，并使用 ELEVENLABS_GET_AUDIO_FROM_HISTORY_ITEM 重新下载先前生成的音频。

Tool: ELEVENLABS_TEXT_TO_SPEECH_STREAM
  - 与 TEXT_TO_SPEECH 的核心输入相同，但返回用于低延迟播放的流

Tool: ELEVENLABS_GET_AUDIO_FROM_HISTORY_ITEM
  - history_item_id: string (required) -- 来自先前生成的 ID

问题	详情
文本长度限制	大多数模型每个请求限制在约 10,000-20,000 字符。输入过长会返回 HTTP 400。将长文本分割成块（约 5000 字符）并按块生成。
输出是预签名 URL	`ELEVENLABS_TEXT_TO_SPEECH` 返回 `data.file.s3url`，有效期约 1 小时（X-Amz-Expires=3600）。请及时下载音频文件。
额度和信用错误	HTTP 401 附带 `quota_exceeded` 或 HTTP 402 `payment_required` 表示额度不足或层级限制。在批量作业前使用 `ELEVENLABS_GET_USER_SUBSCRIPTION_INFO` 进行检查。
语音权限	HTTP 401 附带 `missing_permissions` 表示 API 密钥缺少 `voices_read` 范围。请验证密钥权限。
模型兼容性	并非所有模型都支持 TTS。使用 `ELEVENLABS_GET_MODELS` 并通过 `can_do_text_to_speech: true` 进行筛选。`optimize_streaming_latency` 参数在 `eleven_v3` 中不支持。
大型语音列表截断	`ELEVENLABS_GET_VOICES` 可能返回一个很长的列表。请从完整的 `data.voices[]` 有效负载中选择——预览可能显示为截断。

工具标识	描述
`ELEVENLABS_TEXT_TO_SPEECH`	将文本转换为语音，返回可下载的音频文件
`ELEVENLABS_GET_VOICES`	列出所有可用语音及其属性
`ELEVENLABS_GET_VOICE`	获取特定语音的详细信息
`ELEVENLABS_GET_USER_SUBSCRIPTION_INFO`	检查订阅计划和剩余额度
`ELEVENLABS_GET_MODELS`	列出可用的 TTS 模型及其功能
`ELEVENLABS_TEXT_TO_SPEECH_STREAM`	流式传输音频以实现低延迟交付
`ELEVENLABS_GET_AUDIO_FROM_HISTORY_ITEM`	从生成历史记录中重新下载音频

由 Composio 提供支持

🇺🇸English

ElevenLabs Automation

Automate your ElevenLabs text-to-speech workflows -- convert text to natural speech, browse the voice library, inspect voice details, check subscription credits, select TTS models, stream audio for low-latency delivery, and retrieve previously generated audio from history.

Toolkit docs: composio.dev/toolkits/elevenlabs

Setup

Add the Composio MCP server to your client: https://rube.app/mcp
Connect your ElevenLabs account when prompted (API key authentication)
Start using the workflows below

Core Workflows

1. Generate Speech from Text

Use ELEVENLABS_TEXT_TO_SPEECH to convert text into a downloadable audio file.

Tool: ELEVENLABS_TEXT_TO_SPEECH
Inputs:
  - voice_id: string (required) -- obtain from ELEVENLABS_GET_VOICES
  - text: string (required) -- max ~10,000 chars (most models), 30,000 (Flash/Turbo v2), 40,000 (v2.5)
  - model_id: string (default "eleven_monolingual_v1") -- e.g., "eleven_multilingual_v2"
  - output_format: string (default "mp3_44100_128") -- see formats below
  - optimize_streaming_latency: integer (0-4; NOT supported with eleven_v3)
  - seed: integer (optional, for reproducibility -- not guaranteed)
  - pronunciation_dictionary_locators: array (optional, up to 3 dictionaries)

Output formats:

MP3: mp3_22050_32, mp3_44100_32, mp3_44100_64, mp3_44100_96, mp3_44100_128, mp3_44100_192 (Creator+)
PCM: pcm_16000, pcm_22050, pcm_24000, pcm_44100 (Pro+)
uLaw: ulaw_8000 (for Twilio)

Important: Output is a file object with a presigned download link at data.file.s3url (expires in ~1 hour). Download promptly.

2. Browse Available Voices

Use ELEVENLABS_GET_VOICES to list all voices with their attributes and settings.

Tool: ELEVENLABS_GET_VOICES
Inputs: (none)

Returns an array at data.voices[] with voice_id, name, labels (gender, accent, use_case), and settings.

3. Inspect a Specific Voice

Use ELEVENLABS_GET_VOICE to get detailed metadata for a candidate voice before synthesis.

Tool: ELEVENLABS_GET_VOICE
Inputs:
  - voice_id: string (required) -- e.g., "21m00Tcm4TlvDq8ikWAM"
  - with_settings: boolean (default false) -- include detailed voice settings

4. Check Subscription and Credits

Use ELEVENLABS_GET_USER_SUBSCRIPTION_INFO to verify plan limits and remaining credits before bulk generation.

Tool: ELEVENLABS_GET_USER_SUBSCRIPTION_INFO
Inputs: (none)

5. List Available TTS Models

Use ELEVENLABS_GET_MODELS to discover compatible models and filter by can_do_text_to_speech: true.

Tool: ELEVENLABS_GET_MODELS
Inputs: (none)

6. Stream Audio and Retrieve History

Use ELEVENLABS_TEXT_TO_SPEECH_STREAM for low-latency streamed delivery, and ELEVENLABS_GET_AUDIO_FROM_HISTORY_ITEM to re-download previously generated audio.

Tool: ELEVENLABS_TEXT_TO_SPEECH_STREAM
  - Same core inputs as TEXT_TO_SPEECH but returns a stream for low-latency playback

Tool: ELEVENLABS_GET_AUDIO_FROM_HISTORY_ITEM
  - history_item_id: string (required) -- ID from a previous generation

Known Pitfalls

Pitfall	Detail
Text length limits	Most models cap at ~10,000-20,000 chars per request. Oversized input returns HTTP 400. Split long text into chunks (~5000 chars) and generate per chunk.
Output is a presigned URL	`ELEVENLABS_TEXT_TO_SPEECH` returns `data.file.s3url` with a ~1 hour expiry (X-Amz-Expires=3600). Download the audio file promptly.
Quota and credit errors	HTTP 401 with `quota_exceeded` or HTTP 402 `payment_required` means insufficient credits or tier restrictions. Check with `ELEVENLABS_GET_USER_SUBSCRIPTION_INFO` before bulk jobs.
Voice permissions	HTTP 401 with `missing_permissions` means the API key lacks scope. Verify key permissions.

Quick Reference

Tool Slug	Description
`ELEVENLABS_TEXT_TO_SPEECH`	Convert text to speech, returns downloadable audio file
`ELEVENLABS_GET_VOICES`	List all available voices with attributes
`ELEVENLABS_GET_VOICE`	Get detailed info for a specific voice
`ELEVENLABS_GET_USER_SUBSCRIPTION_INFO`	Check subscription plan and remaining credits
`ELEVENLABS_GET_MODELS`	List available TTS models and capabilities
`ELEVENLABS_TEXT_TO_SPEECH_STREAM`

Powered byComposio

Weekly Installs

Repository

composiohq/awes…e-skills

GitHub Stars

42.7K

First Seen

Jan 1, 1970

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

通过 LiteLLM 代理让 Claude Code 对接 GitHub Copilot 运行 | 高级变通方案指南

31,600 周安装