markdown-proxy by joeseesun/markdown-proxy
npx skills add https://github.com/joeseesun/markdown-proxy --skill markdown-proxy将任意 URL 转为干净的 Markdown。支持需要登录的页面和专有平台。
收到 URL 后,先判断类型,不同类型走不同通道:
| URL 特征 | 路由到 | 原因 |
|---|---|---|
mp.weixin.qq.com | 内置 scripts/fetch_weixin.py | 公众号有反爬,需 Playwright 抓取 |
feishu.cn / larksuite.com(文档/知识库) | 内置 scripts/fetch_feishu.py | 需要飞书 API 认证 |
| / |
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
youtube.comyoutu.beyt-search-download skill |
| YouTube 有专用工具链 |
| 其他所有 URL | 代理服务级联(见下方) |
| 优先级 | 服务 | URL 模式 | 优势 |
|---|---|---|---|
| 1 | r.jina.ai | https://r.jina.ai/{url} | 内容更完整,保留图片链接,覆盖面广 |
| 2 | defuddle.md | https://defuddle.md/{url} | 输出更干净,带 YAML frontmatter |
| 3 | agent-fetch | npx agent-fetch | 本地工具,无需网络代理 |
| 4 | defuddle CLI | defuddle parse | 本地 CLI,适合普通网页 |
if URL contains "mp.weixin.qq.com":
→ Step A: 公众号抓取
→ 结束
if URL contains "feishu.cn/docx/" or "feishu.cn/wiki/" or "feishu.cn/docs/" or "larksuite.com/docx/":
→ Step B: 飞书文档抓取
→ 结束
if URL contains "youtube.com" or "youtu.be":
→ 调用 yt-search-download skill
→ 结束
else:
→ 继续 Step 1
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_weixin.py "WEIXIN_URL"
依赖:playwright、beautifulsoup4、lxml 输出:YAML frontmatter(title, author, date, url)+ Markdown 正文 失败时回退到 Step 1-2 代理服务。
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "FEISHU_URL"
依赖:requests(标准库级别),环境变量 FEISHU_APP_ID + FEISHU_APP_SECRET 支持:docx 文档、doc 文档、wiki 知识库页面(自动解析实际文档 ID) 输出:YAML frontmatter(title, document_id, url)+ Markdown 正文 支持 --json 参数输出 JSON 格式。
curl -sL "https://r.jina.ai/{original_url}" 2>/dev/null
如果返回非空且包含实际内容,使用此结果。
curl -sL "https://defuddle.md/{original_url}" 2>/dev/null
# agent-fetch: https://github.com/teng-lin/agent-fetch
npx agent-fetch "{original_url}" --json
# 或
defuddle parse "{original_url}" -m -j
抓取成功后,必须 按以下格式向用户展示:
**标题**: {title}
**作者**: {author}(如有)
**来源**: {source_type}(公众号 / 飞书文档 / 网页等)
**URL**: {original_url}
### 内容摘要
{前 3-5 句话的摘要}
### 正文
{完整 Markdown 内容,超长时截取前 200 行并注明"内容已截取,完整版已保存到 xxx"}
将抓取的 Markdown 内容保存到本地:
默认保存路径:~/Downloads/{title}.md
文件格式:YAML frontmatter(title, author, date, url, source)+ Markdown 正文
curl -sL "https://r.jina.ai/https://x.com/username/status/1234567890"
curl -sL "https://r.jina.ai/https://example.com/article"
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_weixin.py "https://mp.weixin.qq.com/s/abc123"
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "https://xxx.feishu.cn/docx/xxxxxxxx"
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "https://xxx.feishu.cn/wiki/xxxxxxxx"
playwright install chromium)FEISHU_APP_ID + FEISHU_APP_SECRET)| head -n 200 先预览每周安装数
351
代码仓库
GitHub 星标数
274
首次出现
3 天前
安全审计
安装于
codex340
gemini-cli339
kimi-cli339
amp339
cline339
warp339
将任意 URL 转为干净的 Markdown。支持需要登录的页面和专有平台。
收到 URL 后,先判断类型,不同类型走不同通道:
| URL 特征 | 路由到 | 原因 |
|---|---|---|
mp.weixin.qq.com | 内置 scripts/fetch_weixin.py | 公众号有反爬,需 Playwright 抓取 |
feishu.cn / larksuite.com(文档/知识库) | 内置 scripts/fetch_feishu.py | 需要飞书 API 认证 |
youtube.com / youtu.be | yt-search-download skill | YouTube 有专用工具链 |
| 其他所有 URL | 代理服务级联(见下方) |
| 优先级 | 服务 | URL 模式 | 优势 |
|---|---|---|---|
| 1 | r.jina.ai | https://r.jina.ai/{url} | 内容更完整,保留图片链接,覆盖面广 |
| 2 | defuddle.md | https://defuddle.md/{url} | 输出更干净,带 YAML frontmatter |
| 3 | agent-fetch | npx agent-fetch | 本地工具,无需网络代理 |
| 4 | defuddle CLI | defuddle parse |
if URL contains "mp.weixin.qq.com":
→ Step A: 公众号抓取
→ 结束
if URL contains "feishu.cn/docx/" or "feishu.cn/wiki/" or "feishu.cn/docs/" or "larksuite.com/docx/":
→ Step B: 飞书文档抓取
→ 结束
if URL contains "youtube.com" or "youtu.be":
→ 调用 yt-search-download skill
→ 结束
else:
→ 继续 Step 1
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_weixin.py "WEIXIN_URL"
依赖:playwright、beautifulsoup4、lxml 输出:YAML frontmatter(title, author, date, url)+ Markdown 正文 失败时回退到 Step 1-2 代理服务。
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "FEISHU_URL"
依赖:requests(标准库级别),环境变量 FEISHU_APP_ID + FEISHU_APP_SECRET 支持:docx 文档、doc 文档、wiki 知识库页面(自动解析实际文档 ID) 输出:YAML frontmatter(title, document_id, url)+ Markdown 正文 支持 --json 参数输出 JSON 格式。
curl -sL "https://r.jina.ai/{original_url}" 2>/dev/null
如果返回非空且包含实际内容,使用此结果。
curl -sL "https://defuddle.md/{original_url}" 2>/dev/null
# agent-fetch: https://github.com/teng-lin/agent-fetch
npx agent-fetch "{original_url}" --json
# 或
defuddle parse "{original_url}" -m -j
抓取成功后,必须 按以下格式向用户展示:
**标题**: {title}
**作者**: {author}(如有)
**来源**: {source_type}(公众号 / 飞书文档 / 网页等)
**URL**: {original_url}
### 内容摘要
{前 3-5 句话的摘要}
### 正文
{完整 Markdown 内容,超长时截取前 200 行并注明"内容已截取,完整版已保存到 xxx"}
将抓取的 Markdown 内容保存到本地:
默认保存路径:~/Downloads/{title}.md
文件格式:YAML frontmatter(title, author, date, url, source)+ Markdown 正文
curl -sL "https://r.jina.ai/https://x.com/username/status/1234567890"
curl -sL "https://r.jina.ai/https://example.com/article"
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_weixin.py "https://mp.weixin.qq.com/s/abc123"
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "https://xxx.feishu.cn/docx/xxxxxxxx"
python3 ~/.claude/skills/markdown-proxy/scripts/fetch_feishu.py "https://xxx.feishu.cn/wiki/xxxxxxxx"
playwright install chromium)FEISHU_APP_ID + FEISHU_APP_SECRET)| head -n 200 先预览Weekly Installs
351
Repository
GitHub Stars
274
First Seen
3 days ago
Security Audits
Gen Agent Trust HubPassSocketWarnSnykWarn
Installed on
codex340
gemini-cli339
kimi-cli339
amp339
cline339
warp339
xdrop 文件传输脚本:Bun 环境下安全上传下载工具,支持加密分享
20,700 周安装
| 本地 CLI,适合普通网页 |