content-extract by blessonism/openclaw-search-skills
npx skills add https://github.com/blessonism/openclaw-search-skills --skill content-extract目标:把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口 ,供后续所有业务 skill(github-explorer、写作类 skills、日报等)复用。
核心原则(来自你发的 Excel Skill 拆解文章的启发):
输入:url
references/domain-whitelist.mdmodel_version=MinerU-HTMLweb_fetch(url)广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
references/heuristics.md)包括:
skills/mineru-extract/scripts/mineru_parse_documents.pymodel_version=MinerU-HTML无论用 probe 还是 MinerU,都返回同一套结构:
{
"ok": true,
"source_url": "...",
"engine": "web_fetch" ,
"markdown": "...",
"artifacts": {
"out_dir": "...",
"markdown_path": "...",
"zip_path": "..."
},
"sources": [
"原文URL",
"(如使用MinerU)MinerU full_zip_url",
"(如使用MinerU)本地markdown_path"
],
"notes": ["任何重要限制/失败原因/下一步建议"]
}
注意:
engine可能是web_fetch或mineru。
当需要 MinerU 时,用这个命令(返回 JSON,且可把 markdown 内联进 JSON,便于下游总结):
python3 mineru-extract/scripts/mineru_parse_documents.py \
--file-sources "<URL>" \
--model-version MinerU-HTML \
--emit-markdown --max-chars 20000
路径说明 : 上述命令假设你在 skills 安装根目录下执行。如果 mineru-extract 安装在其他位置,请替换为实际路径。
sources(原文入口 + 解析产物入口)。markdown_path(本地路径)写进 sources,方便复查。Weekly Installs
120
Repository
GitHub Stars
357
First Seen
Feb 11, 2026
Security Audits
Installed on
openclaw110
codex109
opencode108
kimi-cli107
gemini-cli107
github-copilot107
通过 LiteLLM 代理让 Claude Code 对接 GitHub Copilot 运行 | 高级变通方案指南
40,000 周安装