PDF Vision Reader：利用Claude Vision将图表PDF转换为Markdown文档的AI工具

pdf-vision-reader by childbamboo/claude-code-marketplace-sample

173 周安装量

GitHub

安装命令

npx skills add https://github.com/childbamboo/claude-code-marketplace-sample --skill pdf-vision-reader

AI/机器学习文件管理计算机视觉

🇨🇳中文介绍

PDF Vision Reader

这是一个将包含大量图表的 PDF 文件转换为图像，并利用 Claude 的 vision 功能分析内容并转换为 Markdown 的技能。

快速开始

基本用法

# 1. 将 PDF 转换为图像
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"

# 2. 使用 Read 工具读取并分析每个图像
# 3. 汇总为 Markdown 格式

前提条件

所需软件包：

# Python 包
wsl pip3 install pdf2image Pillow

# 系统包 (poppler)
wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils

工作流程

步骤 1: 将 PDF 转换为图像

wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf"

这将创建 document_pages/ 目录，并将每个页面保存为图像：

page_001.png
page_002.png

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

步骤 2: 分析每个图像

使用 Read 工具依次读取每个图像并分析其内容。

分析时的指令示例：

请详细描述此图像的内容：
- 标题或标题
- 正文文本
- 图表说明
- 图表或图形的数据
- 关键要点

步骤 3: 整合到 Markdown

整合所有页面的分析结果，创建一个 Markdown 文件。

示例 1: 将演示文稿资料转换为 Markdown

User: "使用 vision 分析 presentation.pdf 并转换为 Markdown"
Assistant:
1. 使用 scripts/pdf_to_images.py 将 PDF 转换为图像
2. 使用 Read 工具读取每个图像
3. 分析每个页面的内容（标题、图表、文本）
4. 整合所有页面的分析结果
5. 使用 Write 工具保存为 Markdown 文件

示例 2: 仅分析特定页面

User: "仅分析 document.pdf 的第 5-10 页"
Assistant:
1. 将 PDF 转换为图像（所有页面）
2. 仅使用 Read 工具读取 page_005.png 到 page_010.png
3. 将相关页面的内容转换为 Markdown

自动提取的信息

从每个页面图像中提取以下内容：

文本信息
- 标题/标题
- 正文文本
- 项目符号列表
- 注释/说明文字
图表
- 图表类型（流程图、组织结构图等）
- 图表说明/摘要
- 主要元素和关系
图形/图表
- 图形类型（条形图、饼图等）
- 轴标签
- 主要数据点
- 趋势或模式
表格
- 表格结构
- 标题行
- 数据内容
- 转换为 Markdown 表格格式
布局/结构
- 页面整体布局
- 章节划分
- 强调的信息

Markdown 输出格式

# [PDF标题]

**分析日期:** YYYY-MM-DD
**总页数:** N

---

## 第 1 页: [页面标题]

### 概要
[页面概要说明]

### 主要内容
- [要点1]
- [要点2]

### 图表
**图1: [图表标题]**
[图表说明]

### 文本内容
[页面内的文本]

---

## 第 2 页: [页面标题]
...

将 PDF 的每个页面转换为 PNG 图像
可指定分辨率（默认: 200 DPI）
自动创建输出目录

python scripts/pdf_to_images.py <pdf_path> [output_dir] [dpi]

# 示例
python scripts/pdf_to_images.py document.pdf ./images 300

[pdf_name]_pages/page_001.png
[pdf_name]_pages/page_002.png
...

✅ 文本（日语/英语）
✅ 图表/示意图
✅ 图形/图表
✅ 表格
✅ 屏幕截图
✅ 信息图表
✅ 复杂布局
⚠️ 手写笔记（精度视情况而定）
⚠️ 低分辨率图像（可能导致精度下降）

与文本提取的区别

pdf-reader (文本提取)

✅ 适用于纯文本 PDF，速度快
✅ 纯文本提取
❌ 无法提取图表
❌ 布局被简化

pdf-vision-reader (图像分析)

✅ 理解图表/图形
✅ 保持复杂布局
✅ 描述视觉元素
⚠️ 处理时间较长
⚠️ API 成本（图像分析）

PDF 类型	推荐技能
以文本为中心的文档	pdf-reader
演示文稿资料	pdf-vision-reader
包含大量图表/图形的资料	pdf-vision-reader
技术图纸/设计文档	pdf-vision-reader
论文（包含图表）	pdf-vision-reader
简单的文本 PDF	pdf-reader

页数	图像转换	分析（Claude vision）	总计
10页	5秒	30-60秒	~1分钟
30页	15秒	90-180秒	~3分钟
100页	50秒	300-600秒	~10分钟

🇯🇵日本語

PDF Vision Reader

図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。

クイックスタート

基本的な使い方

# 1. PDF を画像に変換
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"

# 2. 各画像を Read ツールで読み込んで解析
# 3. Markdown 形式でまとめる

前提条件

必要なパッケージ：

# Python パッケージ
wsl pip3 install pdf2image Pillow

# システムパッケージ (poppler)
wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils

ワークフロー

ステップ1: PDF を画像に変換

wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf"

これにより document_pages/ ディレクトリが作成され、各ページが画像として保存されます：

page_001.png
page_002.png
page_003.png
...

ステップ2: 各画像を解析

Read ツールで各画像を順番に読み込み、内容を解析します。

解析時の指示例:

この画像の内容を詳しく説明してください：
- タイトルや見出し
- 本文テキスト
- 図表の説明
- グラフやチャートのデータ
- 重要なポイント

ステップ3: Markdown に統合

各ページの解析結果を統合して、一つの Markdown ファイルを作成します。

使用例

例1: プレゼンテーション資料を Markdown 化

User: "presentation.pdf を vision で解析して Markdown 化して"
Assistant:
1. scripts/pdf_to_images.py で PDF を画像に変換
2. 各画像を Read ツールで読み込み
3. 各ページの内容を解析（タイトル、図表、テキスト）
4. 全ページの解析結果を統合
5. Write ツールで Markdown ファイルに保存

例2: 特定のページのみ解析

User: "document.pdf の 5-10 ページだけ解析して"
Assistant:
1. PDF を画像に変換（全ページ）
2. page_005.png から page_010.png のみ Read で読み込み
3. 該当ページの内容を Markdown 化

解析の観点

自動的に抽出する情報

各ページの画像から以下を抽出：

テキスト情報
- タイトル・見出し
- 本文テキスト
- 箇条書きリスト
- 注釈・キャプション
図表
- 図の種類（フローチャート、組織図、etc.）
- 図の説明・要約
- 主要な要素と関係性
グラフ・チャート
- グラフの種類（棒グラフ、円グラフ、etc.）
- 軸ラベル
- 主要なデータポイント
- トレンドや傾向
テーブル
- テーブルの構造
- ヘッダー行
- データの内容
- Markdown テーブル形式に変換
レイアウト・構造
- ページ全体のレイアウト
- セクション分け
- 強調されている情報

Markdown 出力フォーマット

# [PDFタイトル]

**解析日時:** YYYY-MM-DD
**総ページ数:** N

---

## Page 1: [ページタイトル]

### 概要
[ページの概要説明]

### 主要な内容
- [ポイント1]
- [ポイント2]

### 図表
**図1: [図のタイトル]**
[図の説明]

### テキスト内容
[ページ内のテキスト]

---

## Page 2: [ページタイトル]
...

スクリプト詳細

pdf_to_images.py

機能:

PDF の各ページを PNG 画像に変換
解像度指定可能（デフォルト: 200 DPI）
出力ディレクトリの自動作成

使い方:

python scripts/pdf_to_images.py <pdf_path> [output_dir] [dpi]

# 例
python scripts/pdf_to_images.py document.pdf ./images 300

出力:

[pdf_name]_pages/page_001.png
[pdf_name]_pages/page_002.png
...

対応可能なコンテンツ

✅ テキスト（日本語・英語）
✅ 図表・ダイアグラム
✅ グラフ・チャート
✅ テーブル
✅ スクリーンショット
✅ インフォグラフィック
✅ 複雑なレイアウト
⚠️ 手書きメモ（精度は状況による）
⚠️ 低解像度画像（精度低下の可能性）

テキスト抽出との違い

pdf-reader (テキスト抽出)

✅ テキストのみの PDF で高速
✅ 純粋なテキスト抽出
❌ 図表は抽出不可
❌ レイアウトは簡略化

pdf-vision-reader (画像解析)

✅ 図表・グラフを理解
✅ 複雑なレイアウトを保持
✅ ビジュアル要素の説明
⚠️ 処理時間が長い
⚠️ API コスト（画像解析）

推奨される使い分け

PDF の種類	推奨スキル
テキスト中心の文書	pdf-reader
プレゼンテーション資料	pdf-vision-reader
図表・グラフが多い資料	pdf-vision-reader
技術図面・設計書	pdf-vision-reader
論文（図表含む）	pdf-vision-reader
単純なテキストPDF	pdf-reader

トラブルシューティング

pdf2image が見つからない

wsl pip3 install pdf2image

poppler-utils が見つからない

wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils

画像変換が失敗する

PDF が破損していないか確認
ディスク容量を確認
メモリ不足の可能性（大きな PDF は分割処理）

解析精度が低い

DPI を上げる（300 推奨）

python scripts/pdf_to_images.py document.pdf ./images 300

元の PDF の画質を確認

パフォーマンス

処理時間の目安

ページ数	画像変換	解析（Claude vision）	合計
10ページ	5秒	30-60秒	~1分
30ページ	15秒	90-180秒	~3分
100ページ	50秒	300-600秒	~10分

最適化のヒント

必要なページのみ処理
- 全ページ変換後、重要なページのみ解析
DPI の調整
- 図表が多い: 300 DPI
- テキスト中心: 150-200 DPI
バッチ処理
- 複数 PDF を並行処理しない（順次処理）

パス変換

Windows パスから WSL パスへの変換：

C:\Users\... → /mnt/c/Users/...
D:\Projects\... → /mnt/d/Projects/...

バージョン履歴

v1.0.0 (2026-01-06): 初期リリース
- PDF → 画像変換機能
- Vision ベースの解析ワークフロー
- 図表・グラフの理解対応
- Markdown 出力フォーマット

Weekly Installs

102

Repository

childbamboo/cla…e-sample

First Seen

Jan 28, 2026

Security Audits

Gen Agent Trust HubPass SocketPass SnykPass

Installed on

opencode96

gemini-cli94

cursor93

github-copilot92

codex92

amp88

AI 代码实施计划编写技能 | 自动化开发任务分解与 TDD 流程规划工具

47,700 周安装

PDF Vision Reader：利用Claude Vision将图表PDF转换为Markdown文档的AI工具

🇨🇳中文介绍

PDF Vision Reader

快速开始

基本用法

前提条件

工作流程

步骤 1: 将 PDF 转换为图像

相关 Skills

步骤 2: 分析每个图像

步骤 3: 整合到 Markdown

使用示例

示例 1: 将演示文稿资料转换为 Markdown

示例 2: 仅分析特定页面

分析视角

自动提取的信息

Markdown 输出格式

脚本详情

pdf_to_images.py

可处理的内容

与文本提取的区别

pdf-reader (文本提取)

pdf-vision-reader (图像分析)

推荐的使用区分

故障排除

找不到 pdf2image

找不到 poppler-utils

图像转换失败

分析精度低

性能

处理时间参考

优化提示

路径转换

相关工具

版本历史

🇯🇵日本語

PDF Vision Reader

クイックスタート

基本的な使い方

前提条件

ワークフロー

ステップ1: PDF を画像に変換

ステップ2: 各画像を解析

ステップ3: Markdown に統合

使用例

例1: プレゼンテーション資料を Markdown 化

例2: 特定のページのみ解析

解析の観点

自動的に抽出する情報

Markdown 出力フォーマット

スクリプト詳細

pdf_to_images.py

対応可能なコンテンツ

テキスト抽出との違い

pdf-reader (テキスト抽出)

pdf-vision-reader (画像解析)

推奨される使い分け

トラブルシューティング

pdf2image が見つからない

poppler-utils が見つからない

画像変換が失敗する

解析精度が低い

パフォーマンス

処理時間の目安

最適化のヒント

パス変換

関連ツール

バージョン履歴

最新 Skills