阿里云通义千问ASR语音识别教程 - 非实时音频转录技能（支持同步/异步调用）

alicloud-ai-audio-asr by cinience/alicloud-skills

264 周安装量

364 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/cinience/alicloud-skills --skill alicloud-ai-audio-asr

AI/机器学习云服务音频处理

🇨🇳中文介绍

Category: provider

Model Studio Qwen ASR (非实时)

验证

mkdir -p output/alicloud-ai-audio-asr
python -m py_compile skills/ai/audio/alicloud-ai-audio-asr/scripts/transcribe_audio.py && echo "py_compile_ok" > output/alicloud-ai-audio-asr/validate.txt

通过标准：命令退出码为 0 且生成 output/alicloud-ai-audio-asr/validate.txt 文件。

输出与证据

将转录文本和 API 响应存储在 output/alicloud-ai-audio-asr/ 目录下。
每次运行保留一份命令日志或示例响应。

使用 Qwen ASR 对录制的音频进行转录（非实时），包括短音频同步调用和长音频异步任务。

关键模型名称

使用以下确切的模型字符串之一：

qwen3-asr-flash
qwen-audio-asr

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

标准化接口 (asr.transcribe)

audio (字符串, 必需): 公开 URL 或本地文件路径。
model (字符串, 可选): 默认 qwen3-asr-flash。
language_hints (数组, 可选): 例如 zh, en。
sample_rate (数字, 可选)
vocabulary_id (字符串, 可选)
disfluency_removal_enabled (布尔值, 可选)
timestamp_granularities (数组, 可选): 例如 sentence。
async (布尔值, 可选): 对于同步模型默认为 false，对于 qwen3-asr-flash-filetrans 默认为 true。

text (字符串): 标准化的转录文本。
task_id (字符串, 可选): 异步提交时存在。
status (字符串): SUCCEEDED 或提交状态。
raw (对象): 原始 API 响应。

快速开始 (官方 HTTP API)

同步转录 (OpenAI 兼容协议):

curl -sS --location 'https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions' \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "qwen3-asr-flash",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "input_audio",
            "input_audio": {
              "data": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
            }
          }
        ]
      }
    ],
    "stream": false,
    "asr_options": {
      "enable_itn": false
    }
  }'

异步长文件转录 (DashScope 协议):

curl -sS --location 'https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription' \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
  --header 'X-DashScope-Async: enable' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "qwen3-asr-flash-filetrans",
    "input": {
      "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
    }
  }'

curl -sS --location "https://dashscope.aliyuncs.com/api/v1/tasks/<task_id>" \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY"

使用捆绑的脚本处理 URL/本地文件输入和可选的异步轮询：

python skills/ai/audio/alicloud-ai-audio-asr/scripts/transcribe_audio.py \
  --audio "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3" \
  --model qwen3-asr-flash \
  --language-hints zh,en \
  --print-response

python skills/ai/audio/alicloud-ai-audio-asr/scripts/transcribe_audio.py \
  --audio "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3" \
  --model qwen3-asr-flash-filetrans \
  --async \
  --wait

对于本地文件，当无法直接使用 URL 时，请使用 input_audio.data (data URI)。
保持 language_hints 最少，以减少识别歧义。
对于异步任务，使用 5-20 秒的轮询间隔，并设置最大重试保护。
将标准化输出保存在 output/alicloud-ai-audio-asr/transcripts/ 目录下。

默认输出：output/alicloud-ai-audio-asr/transcripts/
可使用 OUTPUT_DIR 环境变量覆盖基础目录。

确认用户意图、区域、标识符以及操作是只读的还是会修改数据的。
首先运行一个最小的只读查询，以验证连接性和权限。
使用明确的参数和有限的范围执行目标操作。
验证结果并保存输出/证据文件。

references/api_reference.md
references/sources.md
实时合成由 skills/ai/audio/alicloud-ai-audio-tts-realtime/ 提供。

🇺🇸English

Category: provider

Model Studio Qwen ASR (Non-Realtime)

Validation

mkdir -p output/alicloud-ai-audio-asr
python -m py_compile skills/ai/audio/alicloud-ai-audio-asr/scripts/transcribe_audio.py && echo "py_compile_ok" > output/alicloud-ai-audio-asr/validate.txt

Pass criteria: command exits 0 and output/alicloud-ai-audio-asr/validate.txt is generated.

Output And Evidence

Store transcripts and API responses under output/alicloud-ai-audio-asr/.
Keep one command log or sample response per run.

Use Qwen ASR for recorded audio transcription (non-realtime), including short audio sync calls and long audio async jobs.

Critical model names

Use one of these exact model strings:

qwen3-asr-flash
qwen-audio-asr
qwen3-asr-flash-filetrans

Selection guidance:

Use qwen3-asr-flash or qwen-audio-asr for short/normal recordings (sync).
Use qwen3-asr-flash-filetrans for long-file transcription (async task workflow).

Prerequisites

Install SDK dependencies (script uses Python stdlib only):

python3 -m venv .venv . .venv/bin/activate
Set DASHSCOPE_API_KEY in environment, or add dashscope_api_key to ~/.alibabacloud/credentials.

Normalized interface (asr.transcribe)

Request

audio (string, required): public URL or local file path.
model (string, optional): default qwen3-asr-flash.
language_hints (array, optional): e.g. zh, en.
sample_rate (number, optional)
vocabulary_id (string, optional)
disfluency_removal_enabled (bool, optional)
timestamp_granularities (array, optional): e.g. .

Response

text (string): normalized transcript text.
task_id (string, optional): present for async submission.
status (string): SUCCEEDED or submission status.
raw (object): original API response.

Quick start (official HTTP API)

Sync transcription (OpenAI-compatible protocol):

curl -sS --location 'https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions' \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "qwen3-asr-flash",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "input_audio",
            "input_audio": {
              "data": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
            }
          }
        ]
      }
    ],
    "stream": false,
    "asr_options": {
      "enable_itn": false
    }
  }'

Async long-file transcription (DashScope protocol):

curl -sS --location 'https://dashscope.aliyuncs.com/api/v1/services/audio/asr/transcription' \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
  --header 'X-DashScope-Async: enable' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "qwen3-asr-flash-filetrans",
    "input": {
      "file_url": "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3"
    }
  }'

Poll task result:

curl -sS --location "https://dashscope.aliyuncs.com/api/v1/tasks/<task_id>" \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY"

Local helper script

Use the bundled script for URL/local-file input and optional async polling:

python skills/ai/audio/alicloud-ai-audio-asr/scripts/transcribe_audio.py \
  --audio "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3" \
  --model qwen3-asr-flash \
  --language-hints zh,en \
  --print-response

Long-file mode:

python skills/ai/audio/alicloud-ai-audio-asr/scripts/transcribe_audio.py \
  --audio "https://dashscope.oss-cn-beijing.aliyuncs.com/audios/welcome.mp3" \
  --model qwen3-asr-flash-filetrans \
  --async \
  --wait

Operational guidance

For local files, use input_audio.data (data URI) when direct URL is unavailable.
Keep language_hints minimal to reduce recognition ambiguity.
For async tasks, use 5-20s polling interval with max retry guard.
Save normalized outputs under output/alicloud-ai-audio-asr/transcripts/.

Output location

Default output: output/alicloud-ai-audio-asr/transcripts/
Override base dir with OUTPUT_DIR.

Workflow

Confirm user intent, region, identifiers, and whether the operation is read-only or mutating.
Run one minimal read-only query first to verify connectivity and permissions.
Execute the target operation with explicit parameters and bounded scope.
Verify results and save output/evidence files.

References

references/api_reference.md
references/sources.md
Realtime synthesis is provided by skills/ai/audio/alicloud-ai-audio-tts-realtime/.

Weekly Installs

162

Repository

cinience/alicloud-skills

GitHub Stars

340

First Seen

10 days ago

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

gemini-cli161

github-copilot161

codex161

kimi-cli161

amp161

cline161

Azure 配额管理指南：服务限制、容量验证与配额增加方法

79,700 周安装

async (bool, optional): default false for sync models, true for qwen3-asr-flash-filetrans.