阿里云通义千问VL图像理解API：多模态AI模型调用与图像分析指南

alicloud-ai-multimodal-qwen-vl by cinience/alicloud-skills

297 周安装量

364 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/cinience/alicloud-skills --skill alicloud-ai-multimodal-qwen-vl

AI/机器学习云服务 API

🇨🇳中文介绍

Category: provider

Model Studio 通义千问 VL（图像理解）

验证

mkdir -p output/alicloud-ai-multimodal-qwen-vl
python -m py_compile skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py && echo "py_compile_ok" > output/alicloud-ai-multimodal-qwen-vl/validate.txt

通过标准：命令以 0 退出且生成 output/alicloud-ai-multimodal-qwen-vl/validate.txt 文件。

输出与证据

将原始模型响应和标准化提取结果保存到 output/alicloud-ai-multimodal-qwen-vl/。
包含输入图像引用和提示语，以便追溯。

通过 DashScope 兼容模式 API，使用通义千问 VL 模型处理图像输入 + 文本输出的理解任务。

先决条件

安装依赖项（建议在虚拟环境中进行）：

python3 -m venv .venv . .venv/bin/activate python -m pip install requests
在环境中设置 DASHSCOPE_API_KEY，或将 dashscope_api_key 添加到文件中。

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

标准化接口 (multimodal.chat)

prompt (字符串，必需)：关于图像的用户问题/指令。
image (字符串，必需)：HTTPS URL、本地路径或 data: URL。
model (字符串，可选)：默认为 qwen3-vl-plus。
max_tokens (整数，可选)：默认为 512。
temperature (浮点数，可选)：默认为 0.2。
detail (字符串，可选)：auto/low/high，默认为 auto。
json_mode (布尔值，可选)：尽可能返回纯 JSON 响应。
schema (对象，可选)：用于结构化提取的 JSON Schema。
max_retries (整数，可选)：针对 429/5xx 的重试次数，默认为 2。
retry_backoff_s (浮点数，可选)：指数退避的基础秒数，默认为 1.5。

text (字符串)：主要的模型回答。
model (字符串)：实际使用的模型。
usage (对象)：后端返回的令牌使用情况。

python skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py \
  --request '{"prompt":"Summarize the main content in this image","image":"https://example.com/demo.jpg"}' \
  --print-response

使用本地图像：

python skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py \
  --request '{"prompt":"Extract key information from the image","image":"./samples/invoice.png","model":"qwen3-vl-plus"}' \
  --print-response

结构化提取（JSON 模式）：

python skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py \
  --request '{"prompt":"Extract fields: title, amount, date","image":"./samples/invoice.png"}' \
  --json-mode \
  --print-response

结构化提取（JSON Schema）：

python skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py \
  --request '{"prompt":"Extract invoice fields","image":"./samples/invoice.png"}' \
  --schema skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/references/examples/invoice.schema.json \
  --print-response

cURL（兼容模式）

curl -sS https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model":"qwen3-vl-plus",
    "messages":[
      {
        "role":"user",
        "content":[
          {"type":"image_url","image_url":{"url":"https://example.com/demo.jpg"}},
          {"type":"text","text":"Describe this image and list executable actions"}
        ]
      }
    ],
    "max_tokens":512,
    "temperature":0.2
  }'

如果设置了 --output，JSON 响应将保存到该文件。
默认输出目录约定：output/alicloud-ai-multimodal-qwen-vl/。

python tests/ai/multimodal/alicloud-ai-multimodal-qwen-vl-test/scripts/smoke_test_qwen_vl.py \
  --image ./tmp/vl_test_cat.png

错误	可能原因	操作
401/403	缺少或无效的密钥	检查 `DASHSCOPE_API_KEY` 和账户权限。
400	无效的请求模式或不支持的图像源	验证 `messages` 内容和图像 URL/路径格式。
429	速率限制	使用指数退避和降低并发度进行重试。
5xx	临时后端问题	使用退避和幂等请求设计进行重试。

为了稳定的生产行为，请固定使用快照模型 ID，而不是纯 -latest。
上传前压缩非常大的图像以减少延迟和成本。
在提示语中添加明确的提取约束（字段、JSON 结构、语言）。
对于类似 OCR 的输出，要求提供置信度说明和未解析文本标记。

确认用户意图、区域、标识符以及操作是只读的还是可修改的。
首先运行一个最小的只读查询，以验证连接性和权限。
使用明确的参数和有限的范围执行目标操作。
验证结果并保存输出/证据文件。

来源列表：references/sources.md
API 说明：references/api_reference.md

🇺🇸English

Category: provider

Model Studio Qwen VL (Image Understanding)

Validation

mkdir -p output/alicloud-ai-multimodal-qwen-vl
python -m py_compile skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py && echo "py_compile_ok" > output/alicloud-ai-multimodal-qwen-vl/validate.txt

Pass criteria: command exits 0 and output/alicloud-ai-multimodal-qwen-vl/validate.txt is generated.

Output And Evidence

Save raw model responses and normalized extraction results to output/alicloud-ai-multimodal-qwen-vl/.
Include input image reference and prompt for traceability.

Use Qwen VL models for image input + text output understanding tasks via DashScope compatible-mode API.

Prerequisites

Install dependencies (recommended in a venv):

python3 -m venv .venv . .venv/bin/activate python -m pip install requests
Set DASHSCOPE_API_KEY in environment, or add dashscope_api_key to ~/.alibabacloud/credentials.

Critical model names

Prefer the Qwen3 VL family:

qwen3-vl-plus
qwen3-vl-flash

When you need explicit "latest" routing or reproducible snapshots, use supported aliases/snapshots from the official model list, such as:

qwen3-vl-plus-latest
qwen3-vl-plus-2025-12-19
qwen3-vl-flash-latest

Legacy names still seen in some workloads:

qwen-vl-max-latest
qwen-vl-plus-latest

Normalized interface (multimodal.chat)

Request

prompt (string, required): user question/instruction about image.
image (string, required): HTTPS URL, local path, or data: URL.
model (string, optional): default qwen3-vl-plus.
max_tokens (int, optional): default 512.
temperature (float, optional): default 0.2.
detail (string, optional): auto//, default .

Response

text (string): primary model answer.
model (string): model actually used.
usage (object): token usage if returned by backend.

Quickstart

python skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py \
  --request '{"prompt":"Summarize the main content in this image","image":"https://example.com/demo.jpg"}' \
  --print-response

Using local image:

python skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py \
  --request '{"prompt":"Extract key information from the image","image":"./samples/invoice.png","model":"qwen3-vl-plus"}' \
  --print-response

Structured extraction (JSON mode):

python skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py \
  --request '{"prompt":"Extract fields: title, amount, date","image":"./samples/invoice.png"}' \
  --json-mode \
  --print-response

Structured extraction (JSON Schema):

python skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/scripts/analyze_image.py \
  --request '{"prompt":"Extract invoice fields","image":"./samples/invoice.png"}' \
  --schema skills/ai/multimodal/alicloud-ai-multimodal-qwen-vl/references/examples/invoice.schema.json \
  --print-response

cURL (compatible mode)

curl -sS https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model":"qwen3-vl-plus",
    "messages":[
      {
        "role":"user",
        "content":[
          {"type":"image_url","image_url":{"url":"https://example.com/demo.jpg"}},
          {"type":"text","text":"Describe this image and list executable actions"}
        ]
      }
    ],
    "max_tokens":512,
    "temperature":0.2
  }'

Output location

If --output is set, JSON response is saved to that file.
Default output dir convention: output/alicloud-ai-multimodal-qwen-vl/.

Smoke test

python tests/ai/multimodal/alicloud-ai-multimodal-qwen-vl-test/scripts/smoke_test_qwen_vl.py \
  --image ./tmp/vl_test_cat.png

Error handling

Error	Likely cause	Action
401/403	Missing or invalid key	Check `DASHSCOPE_API_KEY` and account permissions.
400	Invalid request schema or unsupported image source	Validate `messages` content and image URL/path format.
429	Rate limit	Retry with exponential backoff and lower concurrency.
5xx	Temporary backend issue	Retry with backoff and idempotent request design.

Operational guidance

For stable production behavior, pin snapshot model IDs instead of pure -latest.
Compress very large images before upload to reduce latency and cost.
Add explicit extraction constraints in prompt (fields, JSON shape, language).
For OCR-like output, ask for confidence notes and unresolved text markers.

Workflow

Confirm user intent, region, identifiers, and whether the operation is read-only or mutating.
Run one minimal read-only query first to verify connectivity and permissions.
Execute the target operation with explicit parameters and bounded scope.
Verify results and save output/evidence files.

References

Source list: references/sources.md
API notes: references/api_reference.md

Weekly Installs

175

Repository

cinience/alicloud-skills

GitHub Stars

340

First Seen

12 days ago

Security Audits

Gen Agent Trust HubPass SocketPass SnykWarn

Installed on

gemini-cli174

github-copilot174

codex174

kimi-cli174

amp174

cursor174

Azure RBAC 权限管理工具：查找最小角色、创建自定义角色与自动化分配

101,200 周安装

json_mode (bool, optional): return JSON-only response when possible.

schema (object, optional): JSON Schema for structured extraction.

max_retries (int, optional): retry count for 429/5xx, default 2.

retry_backoff_s (float, optional): exponential backoff base seconds, default 1.5.