markdown-tools by daymade/claude-code-skills
npx skills add https://github.com/daymade/claude-code-skills --skill markdown-tools通过智能多工具编排,将文档转换为高质量的 Markdown 格式。
| 模式 | 速度 | 质量 | 使用场景 |
|---|---|---|---|
| 快速 (默认) | 快 | 良好 | 草稿、简单文档 |
| 深度 | 较慢 | 最佳 | 最终文档、复杂布局 |
# 必需:PDF/DOCX/PPTX 支持
uv tool install "markitdown[pdf]"
pip install pymupdf4llm
brew install pandoc
# 快速模式 (默认) - 快速,使用单一最佳工具
uv run --with pymupdf4llm --with markitdown scripts/convert.py document.pdf -o output.md
# 深度模式 - 多工具并行执行并合并结果
uv run --with pymupdf4llm --with markitdown scripts/convert.py document.pdf -o output.md --heavy
# 检查可用工具
uv run scripts/convert.py --list-tools
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| 格式 | 快速模式工具 | 深度模式工具 |
|---|---|---|
| pymupdf4llm | pymupdf4llm + markitdown | |
| DOCX | pandoc | pandoc + markitdown |
| PPTX | markitdown | markitdown + pandoc |
| XLSX | markitdown | markitdown |
深度模式并行运行多个工具并选择最佳片段:
| 片段类型 | 选择标准 |
|---|---|
| 表格 | 行/列数更多,表头分隔符正确 |
| 图像 | 存在替代文本,优先使用本地路径 |
| 标题 | 层级结构正确,长度适当 |
| 列表 | 项目更多,嵌套结构得以保留 |
| 段落 | 内容完整性 |
# 提取图像及其元数据
uv run --with pymupdf scripts/extract_pdf_images.py document.pdf -o ./assets
# 生成 Markdown 引用文件
uv run --with pymupdf scripts/extract_pdf_images.py document.pdf --markdown refs.md
输出:
assets/img_page1_1.png,assets/img_page2_1.jpgassets/images_metadata.json (页码、位置、尺寸)# 验证转换质量
uv run --with pymupdf scripts/validate_output.py document.pdf output.md
# 生成 HTML 报告
uv run --with pymupdf scripts/validate_output.py document.pdf output.md --report report.html
| 指标 | 通过 | 警告 | 失败 |
|---|---|---|---|
| 文本保留率 | >95% | 85-95% | <85% |
| 表格保留率 | 100% | 90-99% | <90% |
| 图像保留率 | 100% | 80-99% | <80% |
# 合并多个 Markdown 文件
python scripts/merge_outputs.py output1.md output2.md -o merged.md
# 显示片段归属
python scripts/merge_outputs.py output1.md output2.md -o merged.md --verbose
# Windows → WSL 转换
python scripts/convert_path.py "C:\Users\name\Documents\file.pdf"
# 输出:/mnt/c/Users/name/Documents/file.pdf
"没有可用的转换工具"
# 安装所有工具
pip install pymupdf4llm
uv tool install "markitdown[pdf]"
brew install pandoc
PDF 转换期间出现 FontBBox 警告
输出中缺少图像
scripts/extract_pdf_images.py 单独提取输出中的表格损坏
scripts/validate_output.py 进行验证| 脚本 | 用途 |
|---|---|
convert.py | 主编排器,支持快速/深度模式 |
merge_outputs.py | 合并多个 Markdown 输出 |
validate_output.py | 质量验证并生成 HTML 报告 |
extract_pdf_images.py | PDF 图像提取及元数据 |
convert_path.py | Windows 到 WSL 路径转换器 |
references/heavy-mode-guide.md - 详细的深度模式文档references/tool-comparison.md - 工具能力比较references/conversion-examples.md - 批量操作示例每周安装量
133
代码仓库
GitHub 星标数
637
首次出现
2026 年 1 月 21 日
安全审计
安装于
claude-code107
opencode103
codex98
gemini-cli96
github-copilot80
cursor80
Convert documents to high-quality markdown with intelligent multi-tool orchestration.
| Mode | Speed | Quality | Use Case |
|---|---|---|---|
| Quick (default) | Fast | Good | Drafts, simple documents |
| Heavy | Slower | Best | Final documents, complex layouts |
# Required: PDF/DOCX/PPTX support
uv tool install "markitdown[pdf]"
pip install pymupdf4llm
brew install pandoc
# Quick Mode (default) - fast, single best tool
uv run --with pymupdf4llm --with markitdown scripts/convert.py document.pdf -o output.md
# Heavy Mode - multi-tool parallel execution with merge
uv run --with pymupdf4llm --with markitdown scripts/convert.py document.pdf -o output.md --heavy
# Check available tools
uv run scripts/convert.py --list-tools
| Format | Quick Mode Tool | Heavy Mode Tools |
|---|---|---|
| pymupdf4llm | pymupdf4llm + markitdown | |
| DOCX | pandoc | pandoc + markitdown |
| PPTX | markitdown | markitdown + pandoc |
| XLSX | markitdown | markitdown |
Heavy Mode runs multiple tools in parallel and selects the best segments:
| Segment Type | Selection Criteria |
|---|---|
| Tables | More rows/columns, proper header separator |
| Images | Alt text present, local paths preferred |
| Headings | Proper hierarchy, appropriate length |
| Lists | More items, nested structure preserved |
| Paragraphs | Content completeness |
# Extract images with metadata
uv run --with pymupdf scripts/extract_pdf_images.py document.pdf -o ./assets
# Generate markdown references file
uv run --with pymupdf scripts/extract_pdf_images.py document.pdf --markdown refs.md
Output:
assets/img_page1_1.png, assets/img_page2_1.jpgassets/images_metadata.json (page, position, dimensions)# Validate conversion quality
uv run --with pymupdf scripts/validate_output.py document.pdf output.md
# Generate HTML report
uv run --with pymupdf scripts/validate_output.py document.pdf output.md --report report.html
| Metric | Pass | Warn | Fail |
|---|---|---|---|
| Text Retention | >95% | 85-95% | <85% |
| Table Retention | 100% | 90-99% | <90% |
| Image Retention | 100% | 80-99% | <80% |
# Merge multiple markdown files
python scripts/merge_outputs.py output1.md output2.md -o merged.md
# Show segment attribution
python scripts/merge_outputs.py output1.md output2.md -o merged.md --verbose
# Windows → WSL conversion
python scripts/convert_path.py "C:\Users\name\Documents\file.pdf"
# Output: /mnt/c/Users/name/Documents/file.pdf
"No conversion tools available"
# Install all tools
pip install pymupdf4llm
uv tool install "markitdown[pdf]"
brew install pandoc
FontBBox warnings during PDF conversion
Images missing from output
scripts/extract_pdf_images.pyTables broken in output
scripts/validate_output.py| Script | Purpose |
|---|---|
convert.py | Main orchestrator with Quick/Heavy mode |
merge_outputs.py | Merge multiple markdown outputs |
validate_output.py | Quality validation with HTML report |
extract_pdf_images.py | PDF image extraction with metadata |
convert_path.py | Windows to WSL path converter |
references/heavy-mode-guide.md - Detailed Heavy Mode documentationreferences/tool-comparison.md - Tool capabilities comparisonreferences/conversion-examples.md - Batch operation examplesWeekly Installs
133
Repository
GitHub Stars
637
First Seen
Jan 21, 2026
Security Audits
Gen Agent Trust HubPassSocketPassSnykPass
Installed on
claude-code107
opencode103
codex98
gemini-cli96
github-copilot80
cursor80
Skills CLI 使用指南:AI Agent 技能包管理器安装与管理教程
33,600 周安装
JSON 转视频工具 - 使用 Remotion 渲染器将 JSON 时间线规范转换为动态视频
153 周安装
Slack 代理开发指南:Chat SDK 与 Bolt for JavaScript 框架选择与部署教程
153 周安装
inbox 智能体邮件收件箱 - 检查待处理消息和HELP_REQUEST | 命令行工具
153 周安装
ISO 13485内部审计专家指南:医疗器械QMS审计计划、执行与不符合项管理
153 周安装
TikTok广告优化全攻略:从创意、技术到效果分析的完整检查清单与评分系统
154 周安装
Odoo 升级助手 v4.0:自动化模块升级,解决版本兼容性问题
154 周安装