AI图像生成工具 - 支持OpenAI、Google、阿里通义万象、Replicate等多平台API

baoyu-image-gen by xy121718/baoyu-skills

102 周安装量

77 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/xy121718/baoyu-skills --skill baoyu-image-gen

AI/机器学习自动化图像处理

🇨🇳中文介绍

图像生成 (AI SDK)

基于官方 API 的图像生成。支持 OpenAI、Google、DashScope（阿里通义万象）、Replicate 和 xheai（中转站）提供商。

脚本目录

代理执行：

SKILL_DIR = 此 SKILL.md 文件所在目录
脚本路径 = ${SKILL_DIR}/scripts/main.ts

步骤 0：加载首选项 ⛔ 阻塞

关键：此步骤必须在任何图像生成之前完成。请勿跳过或延迟。

检查 EXTEND.md 文件是否存在（优先级：项目 → 用户）：

test -f .baoyu-skills/baoyu-image-gen/EXTEND.md && echo "project"
test -f "$HOME/.baoyu-skills/baoyu-image-gen/EXTEND.md" && echo "user"

结果	操作
找到	加载、解析、应用设置。如果 `default_model.[provider]` 为 null → 仅询问模型（流程 2）

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

相关 Skills

FlyClaw：零登录航班聚合查询工具，Python实现多源航班信息与价格搜索

4,000,000 周安装

find-skills 技能搜索工具 - Vercel Labs 开源智能体技能包管理器

896,800 周安装

Azure RBAC 权限管理工具：查找最小角色、创建自定义角色与自动化分配

142,000 周安装

React 组合模式指南：Vercel 组件架构最佳实践，提升代码可维护性

120,000 周安装

关键：如果未找到，请在生成任何图像之前使用 AskUserQuestion 完成完整设置（提供商 + 模型 + 质量 + 保存位置）。在 EXTEND.md 创建之前，生成功能将被阻塞。

路径	位置
`.baoyu-skills/baoyu-image-gen/EXTEND.md`	项目目录
`$HOME/.baoyu-skills/baoyu-image-gen/EXTEND.md`	用户主目录

EXTEND.md 支持：默认提供商 | 默认质量 | 默认宽高比 | 默认图像尺寸 | 默认模型

模式：references/config/preferences-schema.md

# ⚠️ 长prompt用 --promptfiles 或双引号包裹，避免换行解析错误
# 推荐: npx -y bun "${SKILL_DIR}/scripts/main.ts" -p "长prompt" --image out.png
# 或:   npx -y bun ${SKILL_DIR}/scripts/main.ts --promptfiles prompt.txt --image out.png

# 基本用法
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image cat.png

# 指定宽高比
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A landscape" --image out.png --ar 16:9

# 高质量
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image out.png --quality 2k

# 从提示文件读取
npx -y bun ${SKILL_DIR}/scripts/main.ts --promptfiles system.md content.md --image out.png

# 带参考图像（Google 多模态或 OpenAI 编辑）
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "Make blue" --image out.png --ref source.png

# 带参考图像（显式指定提供商/模型）
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "Make blue" --image out.png --provider google --model gemini-3-pro-image-preview --ref source.png

# 指定提供商
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image out.png --provider openai

# DashScope (阿里通义万象)
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "一只可爱的猫" --image out.png --provider dashscope

# Replicate (google/nano-banana-pro)
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image out.png --provider replicate

# Replicate 指定模型
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image out.png --provider replicate --model google/nano-banana

# xheai (中转站 - 兼容 OpenAI 格式)
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image out.png --provider xheai

# xheai 使用 nano-banana-2
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image out.png --provider xheai --model nano-banana-2

选项	描述
`--prompt <text>`, `-p`	提示文本
`--promptfiles <files...>`	从文件读取提示（拼接）
`--image <path>`	输出图像路径（必需）
`--provider google	openai
`--model <id>`, `-m`	模型 ID (Google: `gemini-3-pro-image-preview`, `gemini-3.1-flash-image-preview`; OpenAI: `gpt-image-1.5`; xheai: `gemini-3.1-flash-image-preview`, `nano-banana-2`)
`--ar <ratio>`	宽高比 (例如：`16:9`, `1:1`, `4:3`)
`--size <WxH>`	尺寸 (例如：`1024x1024`)
`--quality normal	2k`
`--imageSize 1K	2K
`--ref <files...>`	参考图像。Google 多模态 (`gemini-3-pro-image-preview`, `gemini-3-flash-preview`, `gemini-3.1-flash-image-preview`) 和 OpenAI 编辑（GPT Image 模型）支持。如果省略提供商：优先 Google，然后 OpenAI
`--n <count>`	图像数量
`--json`	JSON 输出

变量	描述
`OPENAI_API_KEY`	OpenAI API 密钥（当 OPENAI_BASE_URL 指向 xheai.cc 时也用于 xheai）
`GOOGLE_API_KEY`	Google API 密钥
`DASHSCOPE_API_KEY`	DashScope API 密钥（阿里云）
`REPLICATE_API_TOKEN`	Replicate API 令牌
`OPENAI_IMAGE_MODEL`	OpenAI/xheai 模型覆盖
`GOOGLE_IMAGE_MODEL`	Google 模型覆盖
`DASHSCOPE_IMAGE_MODEL`	DashScope 模型覆盖（默认：z-image-turbo）
`REPLICATE_IMAGE_MODEL`	Replicate 模型覆盖（默认：google/nano-banana-pro）
`OPENAI_BASE_URL`	自定义 OpenAI 端点（设置为 https://api.xheai.cc 以使用 xheai）
`GOOGLE_BASE_URL`	自定义 Google 端点
`DASHSCOPE_BASE_URL`	自定义 DashScope 端点
`REPLICATE_BASE_URL`	自定义 Replicate 端点
`DEBUG_ENV`	设置为 `1` 以启用环境加载和提供商检测的调试输出

加载优先级：CLI 参数 > EXTEND.md > 环境变量 > <cwd>/.baoyu-skills/.env > ~/.baoyu-skills/.env

跨平台路径：~/.baoyu-skills/.env 自动解析为：

Windows: C:\Users\<username>\.baoyu-skills\.env
macOS: /Users/<username>/.baoyu-skills/.env
Linux: /home/<username>/.baoyu-skills/.env

调试模式：设置 DEBUG_ENV=1 以查看加载了哪些 .env 文件以及检测到哪些 API 密钥：

DEBUG_ENV=1 npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image cat.png

模型优先级（从高到低），适用于所有提供商：

CLI 标志：--model <id>
EXTEND.md：default_model.[provider]
环境变量：<PROVIDER>_IMAGE_MODEL (例如：GOOGLE_IMAGE_MODEL)
内置默认值

EXTEND.md 覆盖环境变量。如果同时存在 EXTEND.md default_model.google: "gemini-3-pro-image-preview" 和环境变量 GOOGLE_IMAGE_MODEL=gemini-3.1-flash-image-preview，则以 EXTEND.md 为准。

代理必须在每次生成前显示模型信息：

显示：Using [provider] / [model]
显示切换提示：Switch model: --model <id> | EXTEND.md default_model.[provider] | env <PROVIDER>_IMAGE_MODEL

支持的模型格式：

owner/name（官方模型推荐），例如 google/nano-banana-pro
owner/name:version（按版本的社区模型），例如 stability-ai/sdxl:<version>

# 使用 Replicate 默认模型
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image out.png --provider replicate

# 显式覆盖模型
npx -y bun ${SKILL_DIR}/scripts/main.ts --prompt "A cat" --image out.png --provider replicate --model google/nano-banana

提供了 --ref + 没有 --provider → 自动选择 Google 优先，然后 OpenAI，然后 Replicate
指定了 --provider → 使用它（如果使用 --ref，必须是 google、openai 或 replicate）
只有一个可用的 API 密钥 → 使用该提供商
多个可用 → 默认为 Google

预设	Google imageSize	OpenAI 尺寸	使用场景
`normal`	1K	1024px	快速预览
`2k` (默认)	2K	2048px	封面、插图、信息图

Google imageSize：可以使用 --imageSize 1K|2K|4K 覆盖

支持：1:1, 16:9, 9:16, 4:3, 3:4, 2.35:1

Google 多模态：使用 imageConfig.aspectRatio
Google Imagen：使用 aspectRatio 参数
OpenAI：映射到最接近的受支持尺寸

默认：顺序生成（一次生成一张图像）。这确保了稳定的输出和更轻松的调试。

并行生成：仅当用户明确请求并行/并发生成时使用。

模式	何时使用
顺序（默认）	正常使用、单张图像、小批量
并行	用户明确请求、大批量（10+）

并行设置（当请求时）：

设置	值
推荐并发数	4 个子代理
最大并发数	8 个子代理
使用场景	用户请求并行时的大批量生成

代理实现（仅并行模式）：

# 使用 Task 工具并行启动多个生成
# 每个 Task 作为后台子代理运行，设置 run_in_background=true
# 当所有任务完成后通过 TaskOutput 收集结果

缺少 API 密钥 → 错误并附带设置说明
生成失败 → 自动重试一次
无效的宽高比 → 警告，使用默认值继续
参考图像与不支持的提供商/模型一起使用 → 错误并附带修复提示（切换到 Google 多模态：gemini-3-pro-image-preview, gemini-3.1-flash-image-preview；或 OpenAI GPT Image 编辑）

通过 EXTEND.md 进行自定义配置。有关路径和支持的选项，请参阅首选项部分。

AI Elements：基于shadcn/ui的AI原生应用组件库，快速构建对话界面

69,600 周安装

AI图像生成工具 - 支持OpenAI、Google、阿里通义万象、Replicate等多平台API

🇨🇳中文介绍

图像生成 (AI SDK)

脚本目录

步骤 0：加载首选项 ⛔ 阻塞

相关 Skills

用法

选项

环境变量

模型解析

Replicate 模型

提供商选择

质量预设

宽高比

生成模式

错误处理

扩展支持

最新 Skills