印度语文本转语音与AI工具 - 支持23种语言文档处理、翻译和聊天

indic-tts by ankitjh4/indic-ai-skills

1 周安装量

32 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/ankitjh4/indic-ai-skills --skill indic-tts

AI/机器学习音频处理自然语言处理

🇨🇳中文介绍

面向所有人的印度语文本转语音

使用 Sarvam AI 为印度语言提供高质量的文本转语音服务。

⚠️ 必需条件：API 密钥

您必须拥有 Sarvam API 密钥才能使用此技能。

在此处获取免费的 API 密钥：https://dashboard.sarvam.ai

设置步骤

前往 Sarvam 仪表板并生成一个 API 密钥
将其添加到 Zo 的密钥中：设置 → 高级
添加密钥：SARVAM_API_KEY = 您的-api-密钥

文档智能

使用 Sarvam AI 的文档智能 API 从 PDF 文档和图像（JPEG/PNG）中提取文本和结构。支持 23 种印度语言及英语。

支持的语言

代码	语言
`hi-IN`	印地语（默认）
`en-IN`

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

find-skills 技能搜索工具 - Vercel Labs 开源智能体技能包管理器

812,900 周安装

React 组合模式指南：Vercel 组件架构最佳实践，提升代码可维护性

109,600 周安装

AI Elements：基于shadcn/ui的AI原生应用组件库，快速构建对话界面

60,400 周安装

AI 代码实施计划编写技能 | 自动化开发任务分解与 TDD 流程规划工具

45,700 周安装

# 处理 PDF 文档
python3 scripts/document_intelligence.py document.pdf --language hi-IN --format md

# 使用自定义输出目录处理
python3 scripts/document_intelligence.py document.pdf -o ./extracted/

# 检查现有任务的状态
python3 scripts/document_intelligence.py --job-id <job-id>

# 下载已完成任务的结果
python3 scripts/document_intelligence.py --job-id <job-id> --download -o ./output/

参数	默认值	描述
`file`	-	要处理的 PDF 或 ZIP 文件
`--language`	hi-IN	文档语言代码
`--format`	md	输出格式：html、md 或 json
`--output-dir`	.	保存输出文件的目录
`--poll`	5	状态检查之间的秒数
`--timeout`	300	等待完成的最大秒数
`--job-id`	-	检查状态/下载现有任务
`--download`	-	现有任务的下载模式

# 使用 sarvam-105b 进行聊天（默认）
python3 scripts/text_processing.py chat "用简单的术语解释量子计算"

# 使用系统上下文进行聊天
python3 scripts/text_processing.py chat "写一首诗" --system "你是一位富有创造力的诗人"

# 调整温度（0-2，越低越集中）
python3 scripts/text_processing.py chat "创意故事" --temperature 0.8

# 简单聊天
python3 scripts/text_processing.py chat "印度的首都是什么？" --model sarvam-m

# 使用系统上下文聊天
python3 scripts/text_processing.py chat "告诉我关于 AI 的事" --system "你是一个乐于助人的 AI 助手" --model sarvam-m

# 调整温度
python3 scripts/text_processing.py chat "创意故事" --temperature 0.8 --model sarvam-m

# 自动检测源语言并翻译成印地语
python3 scripts/text_processing.py translate "Hello, how are you?" --target hi-IN

# 指定源语言
python3 scripts/text_processing.py translate "नमस्ते" --source hi-IN --target en-IN

# 使用 Mayura 模型和口语模式
python3 scripts/text_processing.py translate "What's up?" --target hi-IN --model mayura:v1 --mode modern-colloquial

# 使用罗马化输出进行翻译
python3 scripts/text_processing.py translate "I am going home" --target hi-IN --model mayura:v1 --output-script roman

# 印地语转英语（罗马化）
python3 scripts/text_processing.py transliterate "नमस्ते" --source hi-IN --target en-IN

# 英语转印地语
python3 scripts/text_processing.py transliterate "namaste" --source en-IN --target hi-IN

# 使用口语形式转换
python3 scripts/text_processing.py transliterate "I have 2 meetings at 3pm" --source en-IN --target hi-IN --spoken-form

# 带翻译的流式传输（默认）
python3 scripts/speech_to_text.py websocket audio.wav

# 转录模式（无翻译）
python3 scripts/speech_to_text.py websocket audio.wav --mode transcribe

# 不同的输出模式（仅 saaras:v3）
python3 scripts/speech_to_text.py websocket audio.wav --mode translit    # 罗马化输出
python3 scripts/speech_to_text.py websocket audio.wav --mode verbatim  # 精确的逐字输出
python3 scripts/speech_to_text.py websocket audio.wav --mode codemix   # 代码混合输出

模式（v3）：translate, transcribe, verbatim, translit, codemix

# 完整工作流程 - 创建、上传、启动、轮询、下载
python3 scripts/speech_to_text.py batch audio1.mp3 audio2.mp3 audio3.mp3 --output-dir ./transcripts/

# 带说话人分离
python3 scripts/speech_to_text.py batch meeting.wav --diarization --num-speakers 3

# 分步工作流程
# 1. 创建任务
python3 scripts/speech_to_text.py batch-create --diarization
# 返回：Job ID: abc-123

# 2. 上传文件
python3 scripts/speech_to_text.py batch-upload abc-123 audio.mp3

# 3. 启动任务
python3 scripts/speech_to_text.py batch-start abc-123

# 4. 检查状态
python3 scripts/speech_to_text.py batch-status abc-123

# 5. 下载结果
python3 scripts/speech_to_text.py batch-download abc-123 output1.txt output2.txt --output-dir ./results/

代码	语言
`hi-IN`	印地语
`bn-IN`	孟加拉语
`ta-IN`	泰米尔语
`te-IN`	泰卢固语
`gu-IN`	古吉拉特语
`kn-IN`	卡纳达语
`ml-IN`	马拉雅拉姆语
`mr-IN`	马拉地语
`pa-IN`	旁遮普语
`od-IN`	奥里亚语
`en-IN`	英语

参数	默认值	描述
`text`	-	要转换的文本（最多 2500 个字符）
`--language`	hi-IN	目标语言代码
`--speaker`	meira	语音说话人
`--model`	bulbul:v3	TTS 模型
`--output`	output.wav	输出文件路径
`--sample-rate`	24000	音频采样率

🇮🇳हिन्दी

Indian TTS for everyone

High-quality Text-to-Speech for Indian languages using Sarvam AI.

⚠️ Required: API Key

You must have a Sarvam API key to use this skill.

Get your free API key at: https://dashboard.sarvam.ai

Setup

Go to Sarvam Dashboard and generate an API key
Add it to Zo's secrets: Settings → Advanced
Add secret: SARVAM_API_KEY = your-api-key

Document Intelligence

Extract text and structure from PDF documents and images (JPEG/PNG) using Sarvam AI's Document Intelligence API. Supports 23 Indian languages plus English.

Supported Languages

Code	Language
`hi-IN`	Hindi (default)
`en-IN`	English
`bn-IN`	Bengali
`gu-IN`	Gujarati
`kn-IN`	Kannada
`ml-IN`	Malayalam
`mr-IN`	Marathi
`or-IN`	Odia
`pa-IN`	Punjabi
`ta-IN`	Tamil
`te-IN`	Telugu
`ur-IN`	Urdu
`as-IN`	Assamese
`bodo-IN`	Bodo
`doi-IN`	Dogri
`ks-IN`	Kashmiri
`kok-IN`	Konkani
`mai-IN`	Maithili
`mni-IN`	Manipuri
`ne-IN`	Nepali
`sa-IN`	Sanskrit
`sat-IN`	Santali
`sd-IN`	Sindhi

Output Formats

md - Markdown files (default, human-readable)
html - Structured HTML with layout preservation
json - Structured JSON for programmatic processing

Usage

# Process a PDF document
python3 scripts/document_intelligence.py document.pdf --language hi-IN --format md

# Process with custom output directory
python3 scripts/document_intelligence.py document.pdf -o ./extracted/

# Check status of existing job
python3 scripts/document_intelligence.py --job-id <job-id>

# Download results for completed job
python3 scripts/document_intelligence.py --job-id <job-id> --download -o ./output/

File Constraints

PDF files or ZIP files containing JPEG/PNG images
Maximum file size: 200 MB
Maximum pages/images: 500
ZIP files must be flat (no nested folders)

Options

Parameter	Default	Description
`file`	-	PDF or ZIP file to process
`--language`	hi-IN	Document language code
`--format`	md	Output format: html, md, or json
`--output-dir`	.	Directory to save output files
`--poll`	5	Seconds between status checks

Text Processing

Text AI capabilities including chat completion, translation, transliteration, and language detection. Supports 23 Indian languages.

Chat / Text Completion

Sarvam's LLM APIs for chat and text completion. Two models available:

sarvam-105b (Flagship) - Most capable model for complex reasoning, coding, and instruction following
sarvam-m - Efficient model for general chat

sarvam-105b (Flagship Model)

The flagship 105B parameter model with state-of-the-art performance on Hindi and Indian language benchmarks.

# Chat using sarvam-105b (default)
python3 scripts/text_processing.py chat "Explain quantum computing in simple terms"

# Chat with system context
python3 scripts/text_processing.py chat "Write a poem" --system "You are a creative poet"

# Adjust temperature (0-2, lower = more focused)
python3 scripts/text_processing.py chat "Creative story" --temperature 0.8

Key Features :

Best for complex reasoning, coding, and instruction following
Excellent Hindi and Indian language understanding
Supports 22 Indian languages + English
Large context window

sarvam-m (Efficient Model)

Efficient model for general chat and text completion.

# Simple chat
python3 scripts/text_processing.py chat "What is the capital of India?" --model sarvam-m

# Chat with system context
python3 scripts/text_processing.py chat "Tell me about AI" --system "You are a helpful AI assistant" --model sarvam-m

# Adjust temperature
python3 scripts/text_processing.py chat "Creative story" --temperature 0.8 --model sarvam-m

Translation

Translate text between 23 Indian languages. Two models available:

mayura:v1 - 12 languages, supports modes and transliteration
sarvam-translate:v1 - All 23 languages, formal mode only

Languages : hi-IN, en-IN, bn-IN, gu-IN, kn-IN, ml-IN, mr-IN, od-IN, pa-IN, ta-IN, te-IN, as-IN, brx-IN, doi-IN, kok-IN, ks-IN, mai-IN, mni-IN, ne-IN, sa-IN, sat-IN, sd-IN, ur-IN

# Auto-detect source and translate to Hindi
python3 scripts/text_processing.py translate "Hello, how are you?" --target hi-IN

# Specify source language
python3 scripts/text_processing.py translate "नमस्ते" --source hi-IN --target en-IN

# Use Mayura model with colloquial mode
python3 scripts/text_processing.py translate "What's up?" --target hi-IN --model mayura:v1 --mode modern-colloquial

# Translate with romanized output
python3 scripts/text_processing.py translate "I am going home" --target hi-IN --model mayura:v1 --output-script roman

Modes (mayura:v1 only): formal, modern-colloquial, classic-colloquial, code-mixed

Output Scripts (mayura:v1 only): roman, fully-native, spoken-form-in-native

Transliteration

Convert text from one script to another while preserving pronunciation.

# Hindi to English (romanization)
python3 scripts/text_processing.py transliterate "नमस्ते" --source hi-IN --target en-IN

# English to Hindi
python3 scripts/text_processing.py transliterate "namaste" --source en-IN --target hi-IN

# With spoken form conversion
python3 scripts/text_processing.py transliterate "I have 2 meetings at 3pm" --source en-IN --target hi-IN --spoken-form

Language Detection

Automatically identify the language and script of text.

python3 scripts/text_processing.py detect "नमस्ते दुনিয়া"
# Output: Language: hi-IN, Script: Deva

python3 scripts/text_processing.py detect "Hello world"
# Output: Language: en-IN, Script: Latn

Speech-to-Text

Convert speech to text with automatic language detection and optional translation to English. Three modes available:

REST API - Quick transcription (<30 seconds), immediate results
WebSocket - Real-time streaming for live audio
Batch API - Process multiple files or longer audio with speaker diarization

Supported Languages (22 Indian languages)

hi-IN, bn-IN, kn-IN, ml-IN, mr-IN, od-IN, pa-IN, ta-IN, te-IN, gu-IN, en-IN, as-IN, ur-IN, ne-IN, kok-IN, ks-IN, sd-IN, sa-IN, sat-IN, mni-IN, brx-IN, mai-IN, doi-IN

REST API (Quick Transcription)

Best for short audio files (<30 seconds). Immediate results.

# Basic transcription with auto-translation to English
python3 scripts/speech_to_text.py rest audio.mp3

# With context prompt
python3 scripts/speech_to_text.py rest audio.mp3 --prompt "This is a conversation about technology"

# Specify codec for PCM files
python3 scripts/speech_to_text.py rest audio.raw --codec pcm_s16le

Supported formats : WAV, MP3, AAC, AIFF, OGG, OPUS, FLAC, MP4/M4A, AMR, WMA, WebM, PCM

WebSocket Streaming

Real-time speech-to-text with streaming audio.

# Streaming with translation (default)
python3 scripts/speech_to_text.py websocket audio.wav

# Transcription mode (no translation)
python3 scripts/speech_to_text.py websocket audio.wav --mode transcribe

# Different output modes (saaras:v3 only)
python3 scripts/speech_to_text.py websocket audio.wav --mode translit    # Romanized output
python3 scripts/speech_to_text.py websocket audio.wav --mode verbatim  # Exact word-for-word
python3 scripts/speech_to_text.py websocket audio.wav --mode codemix   # Code-mixed output

Modes (v3): translate, transcribe, verbatim, translit, codemix

Batch API (Long Audio & Multiple Files)

For longer audio or processing multiple files. Supports speaker diarization.

# Full workflow - create, upload, start, poll, download
python3 scripts/speech_to_text.py batch audio1.mp3 audio2.mp3 audio3.mp3 --output-dir ./transcripts/

# With speaker diarization
python3 scripts/speech_to_text.py batch meeting.wav --diarization --num-speakers 3

# Step-by-step workflow
# 1. Create job
python3 scripts/speech_to_text.py batch-create --diarization
# Returns: Job ID: abc-123

# 2. Upload files
python3 scripts/speech_to_text.py batch-upload abc-123 audio.mp3

# 3. Start job
python3 scripts/speech_to_text.py batch-start abc-123

# 4. Check status
python3 scripts/speech_to_text.py batch-status abc-123

# 5. Download results
python3 scripts/speech_to_text.py batch-download abc-123 output1.txt output2.txt --output-dir ./results/

Batch workflow states : Accepted → Pending → Running → Completed/Failed

Text-to-Speech (TTS)

High-quality Text-to-Speech for Indian languages using Sarvam AI's Bulbul v3 model.

Quick Start

python3 scripts/tts.py "नमस्ते, आप कैसे हैं?" --language hi-IN --speaker meera

Supported Languages

Code	Language
`hi-IN`	Hindi
`bn-IN`	Bengali
`ta-IN`	Tamil
`te-IN`	Telugu
`gu-IN`	Gujarati
`kn-IN`	Kannada
`ml-IN`

Speakers

Female : Meera (default), Priya, Neha, Simran, Kavya, Ishita, Shreya, Roopa, Tanya, Shruti, Suhani, Kavitha, Rupali, Amelia, Sophia

Male : Shubh, Aditya, Rahul, Amit, Dev, Arjun, Ratan, Varun, Manan, Sumit, Kabir, Aayan, Ashutosh, Advait, Anand, Tarun, Sunny, Mani, Gokul, Vijay, Mohit, Rehan, Soham

TTS Options

Parameter	Default	Description
`text`	-	Text to convert (max 2500 chars)
`--language`	hi-IN	Target language code
`--speaker`	meira	Voice speaker
`--model`	bulbul:v3	TTS model
`--output`	output.wav	Output file path

Resources

Dashboard: https://dashboard.sarvam.ai
Docs: https://docs.sarvam.ai
Cookbook: https://github.com/sarvamai/sarvam-ai-cookbook

Weekly Installs

Repository

ankitjh4/indic-ai-skills

GitHub Stars

First Seen

1 day ago

Security Audits

Gen Agent Trust HubPass SocketFail SnykPass

Installed on

amp1

cline1

opencode1

cursor1

kimi-cli1

codex1

印度语文本转语音与AI工具 - 支持23种语言文档处理、翻译和聊天

🇨🇳中文介绍

面向所有人的印度语文本转语音

⚠️ 必需条件：API 密钥

设置步骤

文档智能

支持的语言

相关 Skills

输出格式

使用方法

文件限制

选项

文本处理

聊天 / 文本补全

sarvam-105b（旗舰模型）

sarvam-m（高效模型）

翻译

转写

语言检测

语音转文本

支持的语言（22 种印度语言）

REST API（快速转录）

WebSocket 流式传输

Batch API（长音频和多文件）

文本转语音（TTS）

快速开始

支持的语言

说话人

TTS 选项

资源

🇮🇳हिन्दी

Indian TTS for everyone

⚠️ Required: API Key

Setup

Document Intelligence

Supported Languages

Output Formats

Usage

File Constraints

Options

Text Processing

Chat / Text Completion

sarvam-105b (Flagship Model)

sarvam-m (Efficient Model)

Translation

Transliteration

Language Detection

Speech-to-Text

Supported Languages (22 Indian languages)

REST API (Quick Transcription)

WebSocket Streaming

Batch API (Long Audio & Multiple Files)

Text-to-Speech (TTS)

Quick Start

Supported Languages

Speakers

TTS Options

Resources

最新 Skills