web-scraper by agentbay-ai/agentbay-skills
npx skills add https://github.com/agentbay-ai/agentbay-skills --skill web-scraper获取网页内容(文本 + 图片)并本地保存为 HTML 或 Markdown 格式。
依赖极简:仅需 requests 和 beautifulsoup4 - 无需浏览器自动化。
默认行为:自动下载图片到本地 images/ 目录。
{baseDir}/scripts/scrape.py --url "https://example.com" --format html --output /tmp/page.html
{baseDir}/scripts/scrape.py --url "https://example.com" --format md --output /tmp/page.md
{baseDir}/scripts/scrape.py --url "https://docs.example.com" --format md --recursive --max-depth 2 --output ~/Downloads/docs-archive
需要 Python 3.8+ 和极简依赖:
cd {baseDir}
pip install -r requirements.txt
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
或手动安装:
pip install requests beautifulsoup4
注意:无需浏览器或驱动程序 - 使用纯 HTTP 请求。
html 或 md(默认:html)--no-download-images 禁用)--recursive)html 或 mdimages/ 文件夹中/tmp/ 或 ~/Downloads/){baseDir}/scripts/scrape.py --url "https://docs.openclaw.ai/start/quickstart" --format html --output ~/Downloads/openclaw-quickstart.html
{baseDir}/scripts/scrape.py --url "https://en.wikipedia.org/wiki/Web_scraping" --format md --output ~/Documents/web-scraping.md
结果:创建 web-scraping.md + images/ 文件夹,包含所有下载的图片(文本 + 图片)。
{baseDir}/scripts/scrape.py --url "https://example.com" --format md --no-download-images
结果:仅包含文本 + 图片 URL(不下载到本地)。
{baseDir}/scripts/scrape.py --url "https://example.com" --format html
# 保存为:example-com-{timestamp}.html
{baseDir}/scripts/scrape.py --url "https://docs.example.com" --format md --recursive --output ~/Downloads/docs-archive
输出结构(所有页面的文本 + 图片):
docs-archive/
├── index.md
├── getting-started.md
├── api/
│ ├── authentication.md
│ └── endpoints.md
└── images/ # 所有页面的共享图片
├── logo.png
└── diagram.svg
{baseDir}/scripts/scrape.py \
--url "https://blog.example.com" \
--format html \
--recursive \
--max-depth 3 \
--max-pages 100 \
--output ~/Archives/blog-backup
{baseDir}/scripts/scrape.py \
--url "https://example.com" \
--format md \
--recursive \
--no-respect-robots \
--rate-limit 1.0
{baseDir}/scripts/scrape.py \
--url "https://yoursite.com" \
--format md \
--recursive \
--rate-limit 0.2
images/ 文件夹images/ 目录(默认)--no-download-images 标志仅保留原始 URL--recursive)--max-depth 限制抓取的层级深度(默认:2)--max-pages 限制总页面数,防止无限抓取(默认:50)--same-domain 将抓取限制在起始域名内(默认:开启)--rate-limit 在请求之间添加延迟(默认:0.5秒)--max-depth 1 --max-pages 10 测试--no-respect-robots--same-domain 启用--timeout 标志(值以秒为单位)每周安装量
18
代码仓库
GitHub 星标数
20
首次出现
2026年2月13日
安全审计
安装于
gemini-cli17
codex17
opencode17
amp16
github-copilot16
kimi-cli16
Fetch web page content (text + images) and save as HTML or Markdown locally.
Minimal dependencies : Only requires requests and beautifulsoup4 - no browser automation.
Default behavior : Downloads images to local images/ directory automatically.
{baseDir}/scripts/scrape.py --url "https://example.com" --format html --output /tmp/page.html
{baseDir}/scripts/scrape.py --url "https://example.com" --format md --output /tmp/page.md
{baseDir}/scripts/scrape.py --url "https://docs.example.com" --format md --recursive --max-depth 2 --output ~/Downloads/docs-archive
Requires Python 3.8+ and minimal dependencies:
cd {baseDir}
pip install -r requirements.txt
Or install manually:
pip install requests beautifulsoup4
Note : No browser or driver needed - uses pure HTTP requests.
html or md (default: html)--no-download-images to disable)html or mdimages/ folder/tmp/ or ~/Downloads/){baseDir}/scripts/scrape.py --url "https://docs.openclaw.ai/start/quickstart" --format html --output ~/Downloads/openclaw-quickstart.html
{baseDir}/scripts/scrape.py --url "https://en.wikipedia.org/wiki/Web_scraping" --format md --output ~/Documents/web-scraping.md
Result : Creates web-scraping.md + images/ folder with all downloaded images (text + images).
{baseDir}/scripts/scrape.py --url "https://example.com" --format md --no-download-images
Result : Only text + image URLs (not downloaded locally).
{baseDir}/scripts/scrape.py --url "https://example.com" --format html
# Saves to: example-com-{timestamp}.html
{baseDir}/scripts/scrape.py --url "https://docs.example.com" --format md --recursive --output ~/Downloads/docs-archive
Output structure (text + images for all pages):
docs-archive/
├── index.md
├── getting-started.md
├── api/
│ ├── authentication.md
│ └── endpoints.md
└── images/ # Shared images from all pages
├── logo.png
└── diagram.svg
{baseDir}/scripts/scrape.py \
--url "https://blog.example.com" \
--format html \
--recursive \
--max-depth 3 \
--max-pages 100 \
--output ~/Archives/blog-backup
{baseDir}/scripts/scrape.py \
--url "https://example.com" \
--format md \
--recursive \
--no-respect-robots \
--rate-limit 1.0
{baseDir}/scripts/scrape.py \
--url "https://yoursite.com" \
--format md \
--recursive \
--rate-limit 0.2
images/ folderimages/ directory (default)--no-download-images flag to keep original URLs only--recursive)--max-depth limits how many levels deep to crawl (default: 2)--max-pages caps total pages to prevent runaway crawls (default: 50)--same-domain keeps crawl within starting domain (default: on)--rate-limit adds delay between requests (default: 0.5s)--max-depth 1 --max-pages 10 first--no-respect-robots for your own sites--same-domain enabled--timeout flag for slow-loading pages (value in seconds)Weekly Installs
18
Repository
GitHub Stars
20
First Seen
Feb 13, 2026
Security Audits
Gen Agent Trust HubPassSocketFailSnykWarn
Installed on
gemini-cli17
codex17
opencode17
amp16
github-copilot16
kimi-cli16
Skills CLI 使用指南:AI Agent 技能包管理器安装与管理教程
44,900 周安装