Tavily AI 网页内容提取工具 - 从URL快速提取纯净文本与结构化数据

extract by tavily-ai/skills

4,800 周安装量

142 GitHub Stars

GitHub

安装命令

npx skills add https://github.com/tavily-ai/skills --skill extract

AI/机器学习开发数据分析

🇨🇳中文介绍

提取技能

从指定 URL 提取纯净内容。当您明确知道需要从哪些页面获取内容时，此功能非常理想。

身份验证

该脚本通过 Tavily MCP 服务器使用 OAuth 进行身份验证。无需手动设置 - 首次运行时，它将：

检查 ~/.mcp-auth/ 目录中是否存在现有令牌
如果未找到，将自动打开浏览器进行 OAuth 身份验证

注意： 您必须拥有一个现有的 Tavily 账户。OAuth 流程仅支持登录 - 无法通过此流程创建账户。如果您还没有账户，请先在 tavily.com 注册。

备选方案：API 密钥

如果您更倾向于使用 API 密钥，请在 https://tavily.com 获取一个，并将其添加到 ~/.claude/settings.json 文件中：

{
  "env": {
    "TAVILY_API_KEY": "tvly-your-api-key-here"
  }
}

快速开始

使用脚本

./scripts/extract.sh '<json>'

示例：

广告位招租

在这里展示您的产品或服务

触达数万 AI 开发者，精准高效

联系我们

带查询焦点的多 URL 提取

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": [
      "https://example.com/ml-healthcare",
      "https://example.com/ai-diagnostics"
    ],
    "query": "AI diagnostic tools accuracy",
    "chunks_per_source": 3
  }'

POST https://api.tavily.com/extract

请求头	值
`Authorization`	`Bearer <TAVILY_API_KEY>`
`Content-Type`	`application/json`

字段	类型	默认值	描述
`urls`	数组	必需	要提取的 URL（最多 20 个）
`query`	字符串	null	根据相关性对内容块进行重新排序
`chunks_per_source`	整数	3	每个 URL 的内容块数（1-5，需要 `query` 参数）
`extract_depth`	字符串	`"basic"`	`basic` 或 `advanced`（针对 JS 页面）
`format`	字符串	`"markdown"`	`markdown` 或 `text`
`include_images`	布尔值	false	是否包含图片 URL
`timeout`	浮点数	可变	最大等待时间（1-60 秒）

{
  "results": [
    {
      "url": "https://example.com/article",
      "raw_content": "# Article Title\n\nContent..."
    }
  ],
  "failed_results": [],
  "response_time": 2.3
}

深度	使用场景
`basic`	简单的文本提取，速度更快
`advanced`	动态/JS 渲染的页面、表格、结构化数据

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": ["https://docs.python.org/3/tutorial/classes.html"],
    "extract_depth": "basic"
  }'

带查询的定向提取

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": [
      "https://example.com/react-hooks",
      "https://example.com/react-state"
    ],
    "query": "useState and useEffect patterns",
    "chunks_per_source": 2
  }'

JavaScript 密集型页面

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": ["https://app.example.com/dashboard"],
    "extract_depth": "advanced",
    "timeout": 60
  }'

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": [
      "https://example.com/page1",
      "https://example.com/page2",
      "https://example.com/page3",
      "https://example.com/page4",
      "https://example.com/page5"
    ],
    "extract_depth": "basic"
  }'

每个请求最多 20 个 URL - 对于更大的列表请分批处理
使用 query + chunks_per_source 仅获取相关内容
首先尝试 basic，如果内容缺失再回退到 advanced
为加载缓慢的页面设置更长的 timeout（最长 60 秒）
检查 failed_results 以了解无法提取的 URL

🇺🇸English

Extract Skill

Extract clean content from specific URLs. Ideal when you know which pages you want content from.

Authentication

The script uses OAuth via the Tavily MCP server. No manual setup required - on first run, it will:

Check for existing tokens in ~/.mcp-auth/
If none found, automatically open your browser for OAuth authentication

Note: You must have an existing Tavily account. The OAuth flow only supports login — account creation is not available through this flow. Sign up at tavily.com first if you don't have an account.

Alternative: API Key

If you prefer using an API key, get one at https://tavily.com and add to ~/.claude/settings.json:

{
  "env": {
    "TAVILY_API_KEY": "tvly-your-api-key-here"
  }
}

Quick Start

Using the Script

./scripts/extract.sh '<json>'

Examples:

# Single URL
./scripts/extract.sh '{"urls": ["https://example.com/article"]}'

# Multiple URLs
./scripts/extract.sh '{"urls": ["https://example.com/page1", "https://example.com/page2"]}'

# With query focus and chunks
./scripts/extract.sh '{"urls": ["https://example.com/docs"], "query": "authentication API", "chunks_per_source": 3}'

# Advanced extraction for JS pages
./scripts/extract.sh '{"urls": ["https://app.example.com"], "extract_depth": "advanced", "timeout": 60}'

Basic Extraction

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": ["https://example.com/article"]
  }'

Multiple URLs with Query Focus

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": [
      "https://example.com/ml-healthcare",
      "https://example.com/ai-diagnostics"
    ],
    "query": "AI diagnostic tools accuracy",
    "chunks_per_source": 3
  }'

API Reference

Endpoint

POST https://api.tavily.com/extract

Headers

Header	Value
`Authorization`	`Bearer <TAVILY_API_KEY>`
`Content-Type`	`application/json`

Request Body

Field	Type	Default	Description
`urls`	array	Required	URLs to extract (max 20)
`query`	string	null	Reranks chunks by relevance
`chunks_per_source`	integer	3	Chunks per URL (1-5, requires query)
`extract_depth`	string	`"basic"`

Response Format

{
  "results": [
    {
      "url": "https://example.com/article",
      "raw_content": "# Article Title\n\nContent..."
    }
  ],
  "failed_results": [],
  "response_time": 2.3
}

Extract Depth

Depth	When to Use
`basic`	Simple text extraction, faster
`advanced`	Dynamic/JS-rendered pages, tables, structured data

Examples

Single URL Extraction

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": ["https://docs.python.org/3/tutorial/classes.html"],
    "extract_depth": "basic"
  }'

Targeted Extraction with Query

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": [
      "https://example.com/react-hooks",
      "https://example.com/react-state"
    ],
    "query": "useState and useEffect patterns",
    "chunks_per_source": 2
  }'

JavaScript-Heavy Pages

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": ["https://app.example.com/dashboard"],
    "extract_depth": "advanced",
    "timeout": 60
  }'

Batch Extraction

curl --request POST \
  --url https://api.tavily.com/extract \
  --header "Authorization: Bearer $TAVILY_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "urls": [
      "https://example.com/page1",
      "https://example.com/page2",
      "https://example.com/page3",
      "https://example.com/page4",
      "https://example.com/page5"
    ],
    "extract_depth": "basic"
  }'

Tips

Max 20 URLs per request - batch larger lists
Usequery + chunks_per_source to get only relevant content
Trybasic first, fall back to advanced if content is missing
Set longertimeout for slow pages (up to 60s)
Checkfailed_results for URLs that couldn't be extracted

Weekly Installs

4.8K

Repository

tavily-ai/skills

GitHub Stars

142

First Seen

Jan 25, 2026

Security Audits

Gen Agent Trust HubWarn SocketPass SnykWarn

Installed on

opencode4.3K

gemini-cli4.2K

codex4.2K

github-copilot4.1K

kimi-cli4.0K

amp4.0K

React 组合模式指南：Vercel 组件架构最佳实践，提升代码可维护性

102,200 周安装