tavily-crawl by tavily-ai/skills
npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl爬取网站并从多个页面提取内容。支持将每个页面保存为本地 Markdown 文件。
如果 PATH 中找不到 tvly,请先安装它:
curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login
不要跳过此步骤或回退到其他工具。
有关替代安装方法和身份验证选项,请参阅 tavily-cli。
/docs/ 页面)# 基本爬取
tvly crawl "https://docs.example.com" --json
# 将每个页面保存为 Markdown 文件
tvly crawl "https://docs.example.com" --output-dir ./docs/
# 深度爬取并设置限制
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json
# 筛选特定路径
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json
# 语义聚焦(返回相关片段,而非完整页面)
tvly crawl "https://docs.example.com" --instructions "查找身份验证文档" --chunks-per-source 3 --json
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| 选项 | 描述 |
|---|---|
--max-depth | 爬取深度级别(1-5,默认值:1) |
--max-breadth | 每页爬取的链接数(默认值:20) |
--limit | 总页面数上限(默认值:50) |
--instructions | 用于语义聚焦的自然语言指导 |
--chunks-per-source | 每个页面的片段数(1-5,需要 --instructions) |
--extract-depth | basic(默认值)或 advanced |
--format | markdown(默认值)或 text |
--select-paths | 逗号分隔的正则表达式模式,用于指定包含的路径 |
--exclude-paths | 逗号分隔的正则表达式模式,用于指定排除的路径 |
--select-domains | 逗号分隔的正则表达式,用于指定包含的域名 |
--exclude-domains | 逗号分隔的正则表达式,用于指定排除的域名 |
--allow-external / --no-external | 包含外部链接(默认值:允许) |
--include-images | 包含图片 |
--timeout | 最长等待时间(10-150 秒) |
-o, --output | 将 JSON 输出保存到文件 |
--output-dir | 将每个页面保存为目录中的 .md 文件 |
--json | 结构化 JSON 输出 |
用于智能体场景(将结果提供给 LLM):
始终使用 --instructions + --chunks-per-source。仅返回相关片段而非完整页面——防止上下文爆炸。
tvly crawl "https://docs.example.com" --instructions "API 身份验证" --chunks-per-source 3 --json
用于数据收集(保存到文件):
使用 --output-dir 而不使用 --chunks-per-source,以获取完整的 Markdown 文件页面。
tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/
--max-depth 1、--limit 20 — 然后逐步增加。--select-paths 来聚焦于您需要的部分。--limit 以防止爬取失控。每周安装量
1.4K
代码仓库
GitHub 星标数
138
首次出现
10 天前
安全审计
安装于
codex1.4K
opencode1.4K
cursor1.4K
gemini-cli1.4K
cline1.4K
github-copilot1.4K
Crawl a website and extract content from multiple pages. Supports saving each page as a local markdown file.
If tvly is not found on PATH, install it first:
curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login
Do not skip this step or fall back to other tools.
See tavily-cli for alternative install methods and auth options.
/docs/)# Basic crawl
tvly crawl "https://docs.example.com" --json
# Save each page as a markdown file
tvly crawl "https://docs.example.com" --output-dir ./docs/
# Deeper crawl with limits
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json
# Filter to specific paths
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json
# Semantic focus (returns relevant chunks, not full pages)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json
| Option | Description |
|---|---|
--max-depth | Levels deep (1-5, default: 1) |
--max-breadth | Links per page (default: 20) |
--limit | Total pages cap (default: 50) |
--instructions | Natural language guidance for semantic focus |
--chunks-per-source | Chunks per page (1-5, requires --instructions) |
--extract-depth |
For agentic use (feeding results to an LLM):
Always use --instructions + --chunks-per-source. Returns only relevant chunks instead of full pages — prevents context explosion.
tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json
For data collection (saving to files):
Use --output-dir without --chunks-per-source to get full pages as markdown files.
tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/
--max-depth 1, --limit 20 — and scale up.--select-paths to focus on the section you need.--limit to prevent runaway crawls.Weekly Installs
1.4K
Repository
GitHub Stars
138
First Seen
10 days ago
Security Audits
Gen Agent Trust HubFailSocketPassSnykFail
Installed on
codex1.4K
opencode1.4K
cursor1.4K
gemini-cli1.4K
cline1.4K
github-copilot1.4K
React 组合模式指南:Vercel 组件架构最佳实践,提升代码可维护性
102,200 周安装
basic (default) or advanced |
--format | markdown (default) or text |
--select-paths | Comma-separated regex patterns to include |
--exclude-paths | Comma-separated regex patterns to exclude |
--select-domains | Comma-separated regex for domains to include |
--exclude-domains | Comma-separated regex for domains to exclude |
--allow-external / --no-external | Include external links (default: allow) |
--include-images | Include images |
--timeout | Max wait (10-150 seconds) |
-o, --output | Save JSON output to file |
--output-dir | Save each page as a .md file in directory |
--json | Structured JSON output |