AI文档配图生成工具 - 自动理解内容，智能生成专业配图，支持Markdown/PDF

document-illustrator by op7418/document-illustrator-skill

405 周安装量

303 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/op7418/document-illustrator-skill --skill document-illustrator

AI/机器学习内容创作设计

🇨🇳中文介绍

Document Illustrator Skill

基于 AI 智能分析的文档配图生成工具。无需依赖特定格式，自动理解内容并生成专业配图。

🎯 核心特点

✨ AI 智能归纳 ：自动理解文档内容，智能提取核心主题
🎨 格式无关 ：支持任何格式的文档（Markdown、纯文本、PDF 等）
📐 灵活比例 ：支持 16:9（横屏）和 3:4（竖屏）
🖼️ 封面图可选 ：可生成概括全文的封面图
🎭 三种风格 ：渐变玻璃卡片、票据风格、矢量插画

🚀 使用方法

直接告诉 Claude

帮我为这个文档生成配图：/path/to/document.md

或者：

我想为这篇文章生成一些配图

📝 完整工作流程

第 1 步：Claude 读取和理解文档

当你请求生成配图时，Claude 会：

使用 Read 工具读取完整文档
AI 分析理解文档内容和结构
识别核心主题和要点

无需担心文档格式 ：

✅ 标准 Markdown（##、###）
✅ 分隔线格式（======、------）
✅ 纯文本段落
✅ 任何其他格式

第 2 步：配置选项（3 个问题）

Claude 会询问你的偏好：

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

第 3 步：Claude 归纳内容并展示

根据你指定的数量，Claude 会智能归纳文档，然后展示给你确认：

📋 内容归纳完成

📄 封面图内容：（如果选择生成）
"AI 编程工具概念演化：从 Rules 到 Skills"
- 核心概念：静态上下文 vs 动态上下文
- 演化路径：Rules → Commands → MCP → Modes → Skills
- 最佳实践：简化为两个核心工具

📚 内容配图（共 6 张）：

1. Rules 的诞生与演化
   包含：早期模型幻觉问题、rules 文件的作用、静态上下文概念

2. Commands 和工作流打包
   包含：固定工作流的出现、slash command、团队分享

3. MCP Servers 带来动态能力
   包含：第三方工具集成、OAuth 认证、上下文膨胀问题

4. Modes 和 Subagents 的登场
   包含：人设提示词、系统提示词修改、可靠性设计、Hooks 确定性

5. Skills 统一动态上下文
   包含：Skills 概念、动态加载、编程工具优化

6. 最佳实践与未来展望
   包含：Rules 使用建议、Skills 探索、核心理念总结

✓ 所有内容已覆盖，无遗漏

确认开始生成配图吗？(Y/N)

关键保证 ：

✅ 内容完整：所有重要信息都会被归入某张图片
✅ 逻辑清晰：按照内容的自然逻辑分段
✅ 用户可控：展示归纳结果，等待用户确认

第 4 步：生成配图

确认后，Claude 调用 Python 脚本生成图片：

🖼️  开始生成配图...

正在生成封面图...
  ✓ 已保存: /path/to/document/images/cover.png

正在生成第 1/6 张...
  标题: Rules 的诞生与演化
  ✓ 已保存: /path/to/document/images/illustration-01.png

正在生成第 2/6 张...
  标题: Commands 和工作流打包
  ✓ 已保存: /path/to/document/images/illustration-02.png

...

✨ 完成！共生成 7 张配图（1 张封面 + 6 张内容）

第 5 步：输出结果

输出位置 ：文档所在目录下的 images/ 文件夹

/path/to/your/document/
└── images/
    ├── cover.png              # 封面图（如果选择生成）
    ├── illustration-01.png    # 第 1 张内容配图
    ├── illustration-02.png    # 第 2 张内容配图
    ├── illustration-03.png
    ├── illustration-04.png
    ├── illustration-05.png
    └── illustration-06.png

🎨 三种风格说明

1. 渐变玻璃卡片风格 (gradient-glass)

Apple Keynote 风格的极简主义
玻璃拟态（Glassmorphism）设计
深邃虚空黑或纯净陶瓷白基底
流动的极光渐变色
3D 玻璃物体和发光效果

适用场景 ：

科技产品介绍
数据分析报告
未来趋势展望
产品功能演示

2. 票据风格 (ticket)

数字极简票券设计
高度对比的黑白配色
类似登机牌、门票的结构
精确的几何分区
中英混排，多向文字布局

适用场景 ：

信息图表
统计数据展示
时间线和流程图
要点总结

3. 矢量插画风格 (vector-illustration)

扁平化矢量插画
统一粗细的黑色轮廓线
复古柔和的配色
几何化处理
横向全景式构图

适用场景 ：

故事叙述
概念解释
教育内容
品牌宣传

示例 1：完整流程

用户: 帮我为 ~/blog/ai-tools.md 生成配图，用票据风格

Claude: 好的，让我先读取这个文档...
        [读取文档，分析内容]

        检测到文档长度约 3000 字，内容涉及 AI 工具演化。

        请选择图片比例：
        1. 16:9 (横屏)
        2. 3:4 (竖屏)

用户: 1

Claude: 是否生成封面图？
        1. 是
        2. 否

用户: 是

Claude: 期望生成多少张内容配图？
        建议范围：3-10 张
        根据文档内容，推荐生成 5 张

用户: 5

Claude: [展示归纳的 5 个主题]
        确认开始生成配图吗？

用户: Y

Claude: [调用 Python 脚本生成 6 张图片]
        ✨ 完成！配图已保存到 ~/blog/images/

示例 2：纯文本文档

用户: 为这个纯文本笔记生成配图

Claude: [读取笔记，即使没有任何标题也能理解内容]
        [智能识别 3 个核心主题]
        [询问配置、展示归纳、生成配图]

示例 3：自定义数量

用户: 我想要 8 张图，竖屏的，不要封面

Claude: 好的，16:9 竖屏，不生成封面，8 张内容配图。
        [将文档归纳为 8 个主题]
        [展示归纳结果，用户确认后生成]

比例	分辨率	适用场景
16:9	2560x1440 (2K)	演示文稿、横屏展示
3:4	1920x2560	社交媒体、竖屏查看

可选 4K 分辨率：

16:9 → 3840x2160
3:4 → 2880x3840

模型：Gemini 2.0 Flash Image Preview (Nano Banana Pro)
成本：每张图片 = 1 次 API 调用
速度：平均 10-20 秒/张

pip install google-genai pillow python-dotenv

在 ~/.claude/skills/document-illustrator/.env 中配置
或设置环境变量 GEMINI_API_KEY

📊 内容归纳原则

Claude 归纳内容时遵循以下原则：

✅ 所有重要信息都会被包含
✅ 不会遗漏关键概念
✅ 保留原文的核心观点

按照内容的自然逻辑分段
相关内容归为一组
保持叙事的连贯性

每张图片包含相似的信息量
避免某张过于拥挤或空洞
根据内容重要性调整

展示归纳结果给用户确认
用户可以要求调整
确认后才开始生成

问题 1：API 密钥错误

错误信息 ：

Error: Invalid API key

解决方案 ：

检查 .env 文件中的 GEMINI_API_KEY
确保 API 密钥有效且未过期
获取新密钥：https://makersuite.google.com/app/apikey

问题 2：内容归纳不理想

问题：归纳的主题不符合预期

解决方案 ：

在归纳展示阶段，告诉 Claude 你的期望
Claude 会重新归纳并调整
确认满意后再开始生成

问题 3：图片生成失败

可能原因 ：

网络连接问题
API 配额用尽
内容过长超过限制

解决方案 ：

检查网络连接
检查 API 配额
尝试增加图片数量（分散内容）

图片数量	API 调用次数	预估成本
无封面 + 3 张	3 次	低
有封面 + 5 张	6 次	中
有封面 + 10 张	11 次	较高

短文档（<1000字）：3-5 张
中等文档（1000-3000字）：5-7 张
长文档（>3000字）：8-10 张

1. 合理选择图片数量

每张图片信息量过大
不容易理解和记忆

内容分散
增加成本和生成时间

根据文档长度选择
每张图片涵盖 1-2 个核心观点

2. 根据用途选择比例

PPT 演示
网站横幅
视频封面
博客配图（桌面端）

社交媒体（Instagram、小红书）
移动端文章
海报设计
竖屏视频

3. 封面图的使用

建议生成封面图的场景 ：

系列文章（作为统一引导）
社交分享（作为预览图）
文档首页（概括全文）

可以不生成的场景 ：

仅内部使用
图片数量已足够
希望降低成本

4. 风格选择建议

技术文档 → 渐变玻璃卡片风格 数据报告 → 票据风格 教程故事 → 矢量插画风格 产品介绍 → 渐变玻璃卡片风格

传统方式（已废弃）

[代码] 读取文档 → 识别 ## ### 标题 → 机械切分
       ↓
    依赖特定格式
    容易遗漏内容
    不够智能

新方式（当前实现）

[Claude] 读取文档 → AI 理解内容 → 智能归纳主题
         ↓
      格式无关
      内容完整
      用户可控

核心区别 ：

❌ 旧方式：依赖代码解析，只能处理标准格式
✅ 新方式：AI 理解内容，任何格式都能处理

🎯 与其他工具的对比

功能	Document Illustrator	传统 PPT 工具	AI 图片生成器
理解文档内容	✅ AI 智能理解	❌ 需要手动	❌ 需要手动输入
格式依赖	✅ 格式无关	❌ 依赖特定格式	✅ 无依赖
内容完整性	✅ 自动验证	⚠️ 手动确保	❌ 无法保证
批量生成	✅ 一次生成多张	❌ 逐张制作	⚠️ 需要多次输入
风格一致性	✅ 自动保持	⚠️ 手动调整	⚠️ 需要重复提示词

如有问题或建议：

直接在 Claude Code 中询问 Claude
查看计划文件：~/.claude/plans/shimmering-tickling-seahorse.md
检查 Skill 目录：~/.claude/skills/document-illustrator/

让 AI 帮你理解和归纳内容，生成专业配图！ ✨

🇺🇸English

Document Illustrator Skill

基于 AI 智能分析的文档配图生成工具。无需依赖特定格式，自动理解内容并生成专业配图。

🎯 核心特点

✨ AI 智能归纳 ：自动理解文档内容，智能提取核心主题
🎨 格式无关 ：支持任何格式的文档（Markdown、纯文本、PDF 等）
📐 灵活比例 ：支持 16:9（横屏）和 3:4（竖屏）
🖼️ 封面图可选 ：可生成概括全文的封面图
🎭 三种风格 ：渐变玻璃卡片、票据风格、矢量插画

🚀 使用方法

直接告诉 Claude

帮我为这个文档生成配图：/path/to/document.md

或者：

我想为这篇文章生成一些配图

📝 完整工作流程

第 1 步：Claude 读取和理解文档

当你请求生成配图时，Claude 会：

使用 Read 工具读取完整文档
AI 分析理解文档内容和结构
识别核心主题和要点

无需担心文档格式 ：

✅ 标准 Markdown（##、###）
✅ 分隔线格式（======、------）
✅ 纯文本段落
✅ 任何其他格式

第 2 步：配置选项（3 个问题）

Claude 会询问你的偏好：

问题 1：图片比例

请选择图片比例：
1. 16:9 (横屏) - 适合演示文稿、幻灯片、横屏展示
2. 3:4 (竖屏) - 适合社交媒体、手机查看、海报

请选择 (1/2):

问题 2：封面图

是否生成封面图？
封面图将概括文档的所有核心信息，作为系列配图的引导。

1. 是 - 生成封面图 + 内容配图
2. 否 - 仅生成内容配图

请选择 (1/2):

问题 3：内容配图数量

期望生成多少张内容配图？
建议范围：3-10 张
根据文档内容，推荐生成 6 张

请输入数字：

第 3 步：Claude 归纳内容并展示

根据你指定的数量，Claude 会智能归纳文档，然后展示给你确认：

📋 内容归纳完成

📄 封面图内容：（如果选择生成）
"AI 编程工具概念演化：从 Rules 到 Skills"
- 核心概念：静态上下文 vs 动态上下文
- 演化路径：Rules → Commands → MCP → Modes → Skills
- 最佳实践：简化为两个核心工具

📚 内容配图（共 6 张）：

1. Rules 的诞生与演化
   包含：早期模型幻觉问题、rules 文件的作用、静态上下文概念

2. Commands 和工作流打包
   包含：固定工作流的出现、slash command、团队分享

3. MCP Servers 带来动态能力
   包含：第三方工具集成、OAuth 认证、上下文膨胀问题

4. Modes 和 Subagents 的登场
   包含：人设提示词、系统提示词修改、可靠性设计、Hooks 确定性

5. Skills 统一动态上下文
   包含：Skills 概念、动态加载、编程工具优化

6. 最佳实践与未来展望
   包含：Rules 使用建议、Skills 探索、核心理念总结

✓ 所有内容已覆盖，无遗漏

确认开始生成配图吗？(Y/N)

关键保证 ：

✅ 内容完整：所有重要信息都会被归入某张图片
✅ 逻辑清晰：按照内容的自然逻辑分段
✅ 用户可控：展示归纳结果，等待用户确认

第 4 步：生成配图

确认后，Claude 调用 Python 脚本生成图片：

🖼️  开始生成配图...

正在生成封面图...
  ✓ 已保存: /path/to/document/images/cover.png

正在生成第 1/6 张...
  标题: Rules 的诞生与演化
  ✓ 已保存: /path/to/document/images/illustration-01.png

正在生成第 2/6 张...
  标题: Commands 和工作流打包
  ✓ 已保存: /path/to/document/images/illustration-02.png

...

✨ 完成！共生成 7 张配图（1 张封面 + 6 张内容）

第 5 步：输出结果

输出位置 ：文档所在目录下的 images/ 文件夹

/path/to/your/document/
└── images/
    ├── cover.png              # 封面图（如果选择生成）
    ├── illustration-01.png    # 第 1 张内容配图
    ├── illustration-02.png    # 第 2 张内容配图
    ├── illustration-03.png
    ├── illustration-04.png
    ├── illustration-05.png
    └── illustration-06.png

🎨 三种风格说明

1. 渐变玻璃卡片风格 (gradient-glass)

特点：

Apple Keynote 风格的极简主义
玻璃拟态（Glassmorphism）设计
深邃虚空黑或纯净陶瓷白基底
流动的极光渐变色
3D 玻璃物体和发光效果

适用场景 ：

科技产品介绍
数据分析报告
未来趋势展望
产品功能演示

2. 票据风格 (ticket)

特点：

数字极简票券设计
高度对比的黑白配色
类似登机牌、门票的结构
精确的几何分区
中英混排，多向文字布局

适用场景 ：

信息图表
统计数据展示
时间线和流程图
要点总结

3. 矢量插画风格 (vector-illustration)

特点：

扁平化矢量插画
统一粗细的黑色轮廓线
复古柔和的配色
几何化处理
横向全景式构图

适用场景 ：

故事叙述
概念解释
教育内容
品牌宣传

💡 使用示例

示例 1：完整流程

用户: 帮我为 ~/blog/ai-tools.md 生成配图，用票据风格

Claude: 好的，让我先读取这个文档...
        [读取文档，分析内容]

        检测到文档长度约 3000 字，内容涉及 AI 工具演化。

        请选择图片比例：
        1. 16:9 (横屏)
        2. 3:4 (竖屏)

用户: 1

Claude: 是否生成封面图？
        1. 是
        2. 否

用户: 是

Claude: 期望生成多少张内容配图？
        建议范围：3-10 张
        根据文档内容，推荐生成 5 张

用户: 5

Claude: [展示归纳的 5 个主题]
        确认开始生成配图吗？

用户: Y

Claude: [调用 Python 脚本生成 6 张图片]
        ✨ 完成！配图已保存到 ~/blog/images/

示例 2：纯文本文档

用户: 为这个纯文本笔记生成配图

Claude: [读取笔记，即使没有任何标题也能理解内容]
        [智能识别 3 个核心主题]
        [询问配置、展示归纳、生成配图]

示例 3：自定义数量

用户: 我想要 8 张图，竖屏的，不要封面

Claude: 好的，16:9 竖屏，不生成封面，8 张内容配图。
        [将文档归纳为 8 个主题]
        [展示归纳结果，用户确认后生成]

🔧 技术细节

图片规格

比例	分辨率	适用场景
16:9	2560x1440 (2K)	演示文稿、横屏展示
3:4	1920x2560	社交媒体、竖屏查看

可选 4K 分辨率：

16:9 → 3840x2160
3:4 → 2880x3840

API 调用

模型：Gemini 2.0 Flash Image Preview (Nano Banana Pro)
成本：每张图片 = 1 次 API 调用
速度：平均 10-20 秒/张

环境要求

必需：

pip install google-genai pillow python-dotenv

API 密钥 ：

在 ~/.claude/skills/document-illustrator/.env 中配置
或设置环境变量 GEMINI_API_KEY

📊 内容归纳原则

Claude 归纳内容时遵循以下原则：

1. 完整性优先

✅ 所有重要信息都会被包含
✅ 不会遗漏关键概念
✅ 保留原文的核心观点

2. 逻辑清晰

按照内容的自然逻辑分段
相关内容归为一组
保持叙事的连贯性

3. 平衡分配

每张图片包含相似的信息量
避免某张过于拥挤或空洞
根据内容重要性调整

4. 用户可控

展示归纳结果给用户确认
用户可以要求调整
确认后才开始生成

🐛 故障排除

问题 1：API 密钥错误

错误信息 ：

Error: Invalid API key

解决方案 ：

检查 .env 文件中的 GEMINI_API_KEY
确保 API 密钥有效且未过期
获取新密钥：https://makersuite.google.com/app/apikey

问题 2：内容归纳不理想

问题：归纳的主题不符合预期

解决方案 ：

在归纳展示阶段，告诉 Claude 你的期望
Claude 会重新归纳并调整
确认满意后再开始生成

问题 3：图片生成失败

可能原因 ：

网络连接问题
API 配额用尽
内容过长超过限制

解决方案 ：

检查网络连接
检查 API 配额
尝试增加图片数量（分散内容）

💰 成本估算

图片数量	API 调用次数	预估成本
无封面 + 3 张	3 次	低
有封面 + 5 张	6 次	中
有封面 + 10 张	11 次	较高

建议：

短文档（<1000字）：3-5 张
中等文档（1000-3000字）：5-7 张
长文档（>3000字）：8-10 张

📚 最佳实践

1. 合理选择图片数量

太少：

每张图片信息量过大
不容易理解和记忆

太多：

内容分散
增加成本和生成时间

2. 根据用途选择比例

16:9 适合 ：

PPT 演示
网站横幅
视频封面
博客配图（桌面端）

3:4 适合 ：

社交媒体（Instagram、小红书）
移动端文章
海报设计
竖屏视频

3. 封面图的使用

建议生成封面图的场景 ：

系列文章（作为统一引导）
社交分享（作为预览图）
文档首页（概括全文）

可以不生成的场景 ：

仅内部使用
图片数量已足够
希望降低成本

4. 风格选择建议

技术文档 → 渐变玻璃卡片风格 数据报告 → 票据风格 教程故事 → 矢量插画风格 产品介绍 → 渐变玻璃卡片风格

🔄 工作原理

传统方式（已废弃）

[代码] 读取文档 → 识别 ## ### 标题 → 机械切分
       ↓
    依赖特定格式
    容易遗漏内容
    不够智能

新方式（当前实现）

[Claude] 读取文档 → AI 理解内容 → 智能归纳主题
         ↓
      格式无关
      内容完整
      用户可控

核心区别 ：

❌ 旧方式：依赖代码解析，只能处理标准格式
✅ 新方式：AI 理解内容，任何格式都能处理

🎯 与其他工具的对比

功能	Document Illustrator	传统 PPT 工具	AI 图片生成器
理解文档内容	✅ AI 智能理解	❌ 需要手动	❌ 需要手动输入
格式依赖	✅ 格式无关	❌ 依赖特定格式	✅ 无依赖
内容完整性	✅ 自动验证	⚠️ 手动确保	❌ 无法保证
批量生成	✅ 一次生成多张	❌ 逐张制作	⚠️ 需要多次输入
风格一致性	✅ 自动保持	⚠️ 手动调整	⚠️ 需要重复提示词

📞 获取帮助

如有问题或建议：

直接在 Claude Code 中询问 Claude
查看计划文件：~/.claude/plans/shimmering-tickling-seahorse.md
检查 Skill 目录：~/.claude/skills/document-illustrator/

让 AI 帮你理解和归纳内容，生成专业配图！ ✨

Weekly Installs

397

Repository

op7418/document…or-skill

GitHub Stars

297

First Seen

Jan 21, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

opencode334

gemini-cli318

cursor292

claude-code286

codex284

github-copilot207

AI Elements：基于shadcn/ui的AI原生应用组件库，快速构建对话界面

56,200 周安装

AI文档配图生成工具 - 自动理解内容，智能生成专业配图，支持Markdown/PDF

🇨🇳中文介绍

Document Illustrator Skill

🎯 核心特点

🚀 使用方法

直接告诉 Claude

📝 完整工作流程

第 1 步：Claude 读取和理解文档

第 2 步：配置选项（3 个问题）

相关 Skills

问题 1：图片比例

问题 2：封面图

问题 3：内容配图数量

第 3 步：Claude 归纳内容并展示

第 4 步：生成配图

第 5 步：输出结果

🎨 三种风格说明

1. 渐变玻璃卡片风格 (gradient-glass)

2. 票据风格 (ticket)

3. 矢量插画风格 (vector-illustration)

💡 使用示例

示例 1：完整流程

示例 2：纯文本文档

示例 3：自定义数量

🔧 技术细节

图片规格

API 调用

环境要求

📊 内容归纳原则

1. 完整性优先

2. 逻辑清晰

3. 平衡分配

4. 用户可控

🐛 故障排除

问题 1：API 密钥错误

问题 2：内容归纳不理想

问题 3：图片生成失败

💰 成本估算

📚 最佳实践

1. 合理选择图片数量

2. 根据用途选择比例

3. 封面图的使用

4. 风格选择建议

🔄 工作原理

传统方式（已废弃）

新方式（当前实现）

🎯 与其他工具的对比

📞 获取帮助

🇺🇸English

Document Illustrator Skill

🎯 核心特点

🚀 使用方法

直接告诉 Claude

📝 完整工作流程

第 1 步：Claude 读取和理解文档

第 2 步：配置选项（3 个问题）

问题 1：图片比例

问题 2：封面图

问题 3：内容配图数量

第 3 步：Claude 归纳内容并展示

第 4 步：生成配图

第 5 步：输出结果

🎨 三种风格说明

1. 渐变玻璃卡片风格 (gradient-glass)

2. 票据风格 (ticket)

3. 矢量插画风格 (vector-illustration)

💡 使用示例

示例 1：完整流程

示例 2：纯文本文档

示例 3：自定义数量

🔧 技术细节

图片规格

API 调用

环境要求

📊 内容归纳原则

1. 完整性优先

2. 逻辑清晰

3. 平衡分配

4. 用户可控

🐛 故障排除