PDF转Markdown工具 - 文本提取与表格转换技能，支持WSL环境运行

pdf-reader by childbamboo/claude-code-marketplace-sample

183 周安装量

GitHub

安装命令

npx skills add https://github.com/childbamboo/claude-code-marketplace-sample --skill pdf-reader

Python Web框架文件管理数据处理

🇨🇳中文介绍

PDF Reader

这是一个将 PDF 文件提取文本并转换为 Markdown 格式的技能。

快速开始

基本用法

# 在 WSL 环境中运行 Python 脚本
wsl python3 scripts/read_pdf.py "/mnt/c/path/to/file.pdf"

保存为 Markdown 格式

使用脚本提取文本
使用 Write 工具保存到 .md 文件

前提条件

需要 pdfplumber 包：

wsl pip3 install pdfplumber

使用示例

示例 1: 读取 PDF 文件并显示内容

User: "读取 C:\Users\keita\repos\guideline.pdf"
Assistant:
1. 将 Windows 路径转换为 WSL 路径: /mnt/c/Users/keita/repos/guideline.pdf
2. 执行 wsl python3 scripts/read_pdf.py
3. 以 Markdown 格式显示提取的文本

示例 2: 将 PDF 转换为 Markdown 并保存

User: "将 指南.pdf 转换为 Markdown 并保存"
Assistant:
1. 使用 scripts/read_pdf.py 提取文本
2. 以 Markdown 格式结构化（每页包含标题，也包括表格）
3. 使用 Write 工具保存到 指南.md
4. 报告保存完成

工作流程

🇯🇵日本語

PDF Reader

PDF ファイルをテキスト抽出して Markdown 形式に変換するスキルです。

クイックスタート

基本的な使い方

# WSL環境でPythonスクリプトを実行
wsl python3 scripts/read_pdf.py "/mnt/c/path/to/file.pdf"

Markdown形式で保存

スクリプトでテキスト抽出
Write ツールで .md ファイルに保存

前提条件

pdfplumber パッケージが必要です：

wsl pip3 install pdfplumber

使用例

例1: PDF ファイルを読み込んで内容を表示

User: "C:\Users\keita\repos\guideline.pdf を読み込んで"
Assistant:
1. Windowsパスを WSL パスに変換: /mnt/c/Users/keita/repos/guideline.pdf
2. wsl python3 scripts/read_pdf.py を実行
3. 抽出されたテキストを Markdown 形式で表示

例2: PDF を Markdown に変換して保存

User: "ガイドライン.pdf を Markdown に変換して保存"
Assistant:
1. scripts/read_pdf.py でテキスト抽出
2. Markdown形式で構造化（ページごとに見出し、テーブルも含む）
3. Write ツールで ガイドライン.md に保存
4. 保存完了を報告

ワークフロー

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

批量处理多个文件

使用 Glob 搜索 .pdf 文件
对每个文件执行脚本
汇总报告结果

# [PDF文件名]

**总页数:** 10

---

## 第 1 页

[第 1 页的文本内容]

### 表格

**表格 1:**

| 列1 | 列2 | 列3 |
| --- | --- | --- |
| 数据1 | 数据2 | 数据3 |

---

## 第 2 页

[第 2 页的文本内容]

---

Python 脚本位于 scripts/read_pdf.py。

逐页提取文本
将表格转换为 Markdown
结构化多页内容
错误处理

python scripts/read_pdf.py <file_path>

✅ 文本提取（所有页面）
✅ 表格的 Markdown 转换
✅ 保留页码
✅ 结构化输出
⚠️ 从图像中提取文本（不支持 OCR）
⚠️ 复杂布局会被简化

无法从扫描的 PDF（仅图像）中提取文本
不包含 OCR 功能
复杂布局会被简化
字体信息、颜色等样式会丢失
不会提取嵌入对象

pdfplumber 未安装

wsl pip3 install pdfplumber

PDF 可能是扫描图像（需要 OCR）
PDF 可能已加密
PDF 可能没有文本层

# 确认日语支持
wsl locale
# 确认包含 UTF-8

对于大型 PDF 文件，请考虑分页处理。

从 Windows 路径到 WSL 路径的转换：

C:\Users\... → /mnt/c/Users/...
D:\Projects\... → /mnt/d/Projects/...
将反斜杠 \ 转换为斜杠 /

PyPDF2 : 轻量级替代库
pdfminer.six : 需要更精细控制时
Camelot : 专注于表格提取
OCRmyPDF : 对扫描 PDF 应用 OCR

仅提取特定页面

可以修改脚本，使用切片如 pdf.pages[0:5]。

仅使用脚本中的 extract_tables() 部分。

结合使用 pytesseract 和 pdf2image（建议创建为单独技能）。

v1.0.0 (2026-01-06): 初始版本
- 基本文本提取功能
- 支持表格 Markdown 转换
- 在 WSL 环境中运行
- 逐页结构化

単一ファイルの読み込み

ユーザーが PDF ファイルパスを指定
Windows パスを WSL パス形式に変換 (C:\ → /mnt/c/)
wsl python3 scripts/read_pdf.py を実行
抽出されたテキストを Markdown 形式で表示または保存

複数ファイルの一括処理

Glob で .pdf ファイルを検索
各ファイルに対してスクリプトを実行
結果をまとめて報告

# [PDFファイル名]

**Total Pages:** 10

---

## Page 1

[ページ1のテキスト内容]

### Tables

**Table 1:**

| 列1 | 列2 | 列3 |
| --- | --- | --- |
| データ1 | データ2 | データ3 |

---

## Page 2

[ページ2のテキスト内容]

---

スクリプト詳細

Python スクリプトは scripts/read_pdf.py に配置されています。

ページごとのテキスト抽出
テーブルの Markdown 化
複数ページの構造化
エラーハンドリング

python scripts/read_pdf.py <file_path>

✅ テキスト抽出（全ページ）
✅ テーブルの Markdown 化
✅ ページ番号の保持
✅ 構造化された出力
⚠️ 画像からのテキスト抽出（OCR未対応）
⚠️ 複雑なレイアウトは簡略化

スキャンされた PDF（画像のみ）からはテキスト抽出不可
OCR 機能は含まれません
複雑なレイアウトは簡略化されます
フォント情報、色などのスタイルは失われます
埋め込みオブジェクトは抽出されません

トラブルシューティング

pdfplumber がインストールされていない

wsl pip3 install pdfplumber

テキストが抽出されない

PDF がスキャン画像の可能性があります（OCR が必要）
PDF が暗号化されている可能性があります
テキストレイヤーがない PDF かもしれません

# 日本語対応の確認
wsl locale
# UTF-8 が含まれていることを確認

メモリ不足エラー

大きな PDF ファイルの場合、ページごとに分割して処理することを検討してください。

Windows パスから WSL パスへの変換：

C:\Users\... → /mnt/c/Users/...
D:\Projects\... → /mnt/d/Projects/...
バックスラッシュ \ をスラッシュ / に変換

PyPDF2 : 軽量な代替ライブラリ
pdfminer.six : より詳細な制御が必要な場合
Camelot : テーブル抽出特化
OCRmyPDF : スキャン PDF に OCR を適用

特定のページのみ抽出

スクリプトを修正して pdf.pages[0:5] のようにスライスを使用できます。

テーブルのみ抽出

スクリプト内の extract_tables() 部分のみを使用します。

OCR が必要な場合

pytesseract と pdf2image を組み合わせて使用します（別スキルとして作成推奨）。

バージョン履歴

v1.0.0 (2026-01-06): 初期リリース
- 基本的なテキスト抽出機能
- テーブル Markdown 化対応
- WSL環境での動作
- ページごとの構造化

Apify Actor 输出模式生成工具 - 自动化创建 dataset_schema.json 与 output_schema.json

1,300 周安装

PDF转Markdown工具 - 文本提取与表格转换技能，支持WSL环境运行

🇨🇳中文介绍

PDF Reader

快速开始

基本用法

保存为 Markdown 格式

前提条件

使用示例

示例 1: 读取 PDF 文件并显示内容

示例 2: 将 PDF 转换为 Markdown 并保存

工作流程

🇯🇵日本語

PDF Reader

クイックスタート

基本的な使い方

Markdown形式で保存

前提条件

使用例

例1: PDF ファイルを読み込んで内容を表示

例2: PDF を Markdown に変換して保存

ワークフロー

相关 Skills

读取单个文件

批量处理多个文件

输出格式

Markdown 结构

脚本详情

支持功能

限制

故障排除

pdfplumber 未安装

未提取到文本

出现乱码

内存不足错误

路径转换

相关工具

高级用法

仅提取特定页面

仅提取表格

需要 OCR 时

版本历史

単一ファイルの読み込み

複数ファイルの一括処理

出力形式

Markdown 構造

スクリプト詳細

対応機能

制限事項

トラブルシューティング

pdfplumber がインストールされていない

テキストが抽出されない

文字化けする

メモリ不足エラー

パス変換

関連ツール

高度な使い方

特定のページのみ抽出

テーブルのみ抽出

OCR が必要な場合

バージョン履歴

最新 Skills