URL转Markdown工具 - 支持公众号、飞书、YouTube等平台网页内容抓取与转换

markdown-proxy by joeseesun/markdown-proxy

384 周安装量

285 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/joeseesun/markdown-proxy --skill markdown-proxy

内容创作自动化知识管理

🇨🇳中文介绍

Markdown Proxy - URL 转 Markdown

将任意 URL 转为干净的 Markdown。支持需要登录的页面和专有平台。

URL 路由规则（先判断再执行）

收到 URL 后，先判断类型，不同类型走不同通道：

URL 特征	路由到	原因
`mp.weixin.qq.com`	内置 `scripts/fetch_weixin.py`	公众号有反爬，需 Playwright 抓取
`feishu.cn` / `larksuite.com`（文档/知识库）	内置 `scripts/fetch_feishu.py`	需要飞书 API 认证
/

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

代理服务优先级

优先级	服务	URL 模式	优势
1	r.jina.ai	`https://r.jina.ai/{url}`	内容更完整，保留图片链接，覆盖面广
2	defuddle.md	`https://defuddle.md/{url}`	输出更干净，带 YAML frontmatter
3	`agent-fetch`	npx agent-fetch	本地工具，无需网络代理
4	`defuddle` CLI	defuddle parse	本地 CLI，适合普通网页

步骤 0: URL 类型判断

if URL contains "mp.weixin.qq.com":
    → Step A: 公众号抓取
    → 结束

if URL contains "feishu.cn/docx/" or "feishu.cn/wiki/" or "feishu.cn/docs/" or "larksuite.com/docx/":
    → Step B: 飞书文档抓取
    → 结束

if URL contains "youtube.com" or "youtu.be":
    → 调用 yt-search-download skill
    → 结束

else:
    → 继续 Step 1

步骤 A: 公众号文章抓取（内置）

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_weixin.py "WEIXIN_URL"

依赖：playwright、beautifulsoup4、lxml 输出：YAML frontmatter（title, author, date, url）+ Markdown 正文失败时回退到 Step 1-2 代理服务。

步骤 B: 飞书文档抓取（内置）

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "FEISHU_URL"

依赖：requests（标准库级别），环境变量 FEISHU_APP_ID + FEISHU_APP_SECRET 支持：docx 文档、doc 文档、wiki 知识库页面（自动解析实际文档 ID）输出：YAML frontmatter（title, document_id, url）+ Markdown 正文支持 --json 参数输出 JSON 格式。

步骤 1: 优先使用 r.jina.ai

curl -sL "https://r.jina.ai/{original_url}" 2>/dev/null

如果返回非空且包含实际内容，使用此结果。

步骤 2: 如果 Jina 失败，使用 defuddle.md

curl -sL "https://defuddle.md/{original_url}" 2>/dev/null

步骤 3: 如果两个代理都失败，回退到本地工具

# agent-fetch: https://github.com/teng-lin/agent-fetch
npx agent-fetch "{original_url}" --json
# 或
defuddle parse "{original_url}" -m -j

步骤 4: 展示内容（必做）

抓取成功后，必须按以下格式向用户展示：

**标题**: {title}
**作者**: {author}（如有）
**来源**: {source_type}（公众号 / 飞书文档 / 网页等）
**URL**: {original_url}

### 内容摘要
{前 3-5 句话的摘要}

### 正文
{完整 Markdown 内容，超长时截取前 200 行并注明"内容已截取，完整版已保存到 xxx"}

步骤 5: 保存文件（默认执行）

将抓取的 Markdown 内容保存到本地：

默认保存路径：~/Downloads/{title}.md
文件格式：YAML frontmatter（title, author, date, url, source）+ Markdown 正文

文件名用文章标题，去掉特殊字符
如果用户指定了其他保存路径，按用户要求
保存后告知用户文件路径
如果用户明确说"不用保存"或只是快速预览，可以跳过

curl -sL "https://r.jina.ai/https://x.com/username/status/1234567890"

curl -sL "https://r.jina.ai/https://example.com/article"

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_weixin.py "https://mp.weixin.qq.com/s/abc123"

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "https://xxx.feishu.cn/docx/xxxxxxxx"

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "https://xxx.feishu.cn/wiki/xxxxxxxx"

r.jina.ai 和 defuddle.md 均免费、无需 API key
公众号文章使用内置 Playwright 脚本（需 playwright install chromium）
飞书文档使用内置 API 脚本（需环境变量 FEISHU_APP_ID + FEISHU_APP_SECRET）
飞书脚本自动将 blocks 转为 Markdown（标题、列表、代码块、引用、待办等）
对于超长内容，可用 | head -n 200 先预览

🇺🇸English

Markdown Proxy - URL to Markdown

将任意 URL 转为干净的 Markdown。支持需要登录的页面和专有平台。

URL 路由规则（先判断再执行）

收到 URL 后，先判断类型，不同类型走不同通道：

URL 特征	路由到	原因
`mp.weixin.qq.com`	内置 `scripts/fetch_weixin.py`	公众号有反爬，需 Playwright 抓取
`feishu.cn` / `larksuite.com`（文档/知识库）	内置 `scripts/fetch_feishu.py`	需要飞书 API 认证
`youtube.com` / `youtu.be`	`yt-search-download` skill	YouTube 有专用工具链
其他所有 URL	代理服务级联（见下方）

代理服务优先级

优先级	服务	URL 模式	优势
1	r.jina.ai	`https://r.jina.ai/{url}`	内容更完整，保留图片链接，覆盖面广
2	defuddle.md	`https://defuddle.md/{url}`	输出更干净，带 YAML frontmatter
3	`agent-fetch`	npx agent-fetch	本地工具，无需网络代理
4	`defuddle` CLI	defuddle parse

Workflow

Step 0: URL 类型判断

if URL contains "mp.weixin.qq.com":
    → Step A: 公众号抓取
    → 结束

if URL contains "feishu.cn/docx/" or "feishu.cn/wiki/" or "feishu.cn/docs/" or "larksuite.com/docx/":
    → Step B: 飞书文档抓取
    → 结束

if URL contains "youtube.com" or "youtu.be":
    → 调用 yt-search-download skill
    → 结束

else:
    → 继续 Step 1

Step A: 公众号文章抓取（内置）

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_weixin.py "WEIXIN_URL"

依赖：playwright、beautifulsoup4、lxml 输出：YAML frontmatter（title, author, date, url）+ Markdown 正文失败时回退到 Step 1-2 代理服务。

Step B: 飞书文档抓取（内置）

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "FEISHU_URL"

Step 1: 优先用 r.jina.ai

curl -sL "https://r.jina.ai/{original_url}" 2>/dev/null

如果返回非空且包含实际内容，使用此结果。

Step 2: 如果 Jina 失败，用 defuddle.md

curl -sL "https://defuddle.md/{original_url}" 2>/dev/null

Step 3: 如果两个代理都失败，回退本地工具

# agent-fetch: https://github.com/teng-lin/agent-fetch
npx agent-fetch "{original_url}" --json
# 或
defuddle parse "{original_url}" -m -j

Step 4: 展示内容（必做）

抓取成功后，必须按以下格式向用户展示：

**标题**: {title}
**作者**: {author}（如有）
**来源**: {source_type}（公众号 / 飞书文档 / 网页等）
**URL**: {original_url}

### 内容摘要
{前 3-5 句话的摘要}

### 正文
{完整 Markdown 内容，超长时截取前 200 行并注明"内容已截取，完整版已保存到 xxx"}

Step 5: 保存文件（默认执行）

将抓取的 Markdown 内容保存到本地：

默认保存路径：~/Downloads/{title}.md
文件格式：YAML frontmatter（title, author, date, url, source）+ Markdown 正文

文件名用文章标题，去掉特殊字符
如果用户指定了其他保存路径，按用户要求
保存后告知用户文件路径
如果用户明确说"不用保存"或只是快速预览，可以跳过

Examples

X/Twitter 帖子

curl -sL "https://r.jina.ai/https://x.com/username/status/1234567890"

普通网页

curl -sL "https://r.jina.ai/https://example.com/article"

公众号文章

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_weixin.py "https://mp.weixin.qq.com/s/abc123"

飞书文档

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "https://xxx.feishu.cn/docx/xxxxxxxx"

飞书知识库

python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "https://xxx.feishu.cn/wiki/xxxxxxxx"

Notes

r.jina.ai 和 defuddle.md 均免费、无需 API key
公众号文章使用内置 Playwright 脚本（需 playwright install chromium）
飞书文档使用内置 API 脚本（需环境变量 FEISHU_APP_ID + FEISHU_APP_SECRET）
飞书脚本自动将 blocks 转为 Markdown（标题、列表、代码块、引用、待办等）
对于超长内容，可用 | head -n 200 先预览

Weekly Installs

351

Repository

joeseesun/markdown-proxy

GitHub Stars

274

First Seen

3 days ago

Security Audits

Gen Agent Trust HubPass SocketWarn SnykWarn

Installed on

codex340

gemini-cli339

kimi-cli339

amp339

cline339

warp339

xdrop 文件传输脚本：Bun 环境下安全上传下载工具，支持加密分享

20,700 周安装

URL转Markdown工具 - 支持公众号、飞书、YouTube等平台网页内容抓取与转换

🇨🇳中文介绍

Markdown Proxy - URL 转 Markdown

URL 路由规则（先判断再执行）

相关 Skills

代理服务优先级

工作流程

步骤 0: URL 类型判断

步骤 A: 公众号文章抓取（内置）

步骤 B: 飞书文档抓取（内置）

步骤 1: 优先使用 r.jina.ai

步骤 2: 如果 Jina 失败，使用 defuddle.md

步骤 3: 如果两个代理都失败，回退到本地工具

步骤 4: 展示内容（必做）

步骤 5: 保存文件（默认执行）

示例

X/Twitter 帖子

普通网页

公众号文章

飞书文档

飞书知识库

注意事项

🇺🇸English

Markdown Proxy - URL to Markdown

URL 路由规则（先判断再执行）

代理服务优先级

Workflow

Step 0: URL 类型判断

Step A: 公众号文章抓取（内置）

Step B: 飞书文档抓取（内置）

Step 1: 优先用 r.jina.ai

Step 2: 如果 Jina 失败，用 defuddle.md

Step 3: 如果两个代理都失败，回退本地工具

Step 4: 展示内容（必做）

Step 5: 保存文件（默认执行）

Examples

X/Twitter 帖子

普通网页

公众号文章

飞书文档

飞书知识库

Notes

最新 Skills