Apify Automation by composiohq/awesome-claude-skills
npx skills add https://github.com/composiohq/awesome-claude-skills --skill 'Apify Automation'直接在 Claude Code 中运行 Apify 网络爬取 Actor 并管理数据集。同步或异步执行爬虫,获取结构化数据,创建可重复使用的任务,并检查运行日志,无需离开终端。
工具包文档: composio.dev/toolkits/apify
将 Composio MCP 服务器添加到您的配置中:
https://rube.app/mcp
在提示时连接您的 Apify 账户。代理将提供一个身份验证链接。
在 apify.com/store 浏览可用的 Actor。每个 Actor 都有其独特的输入模式——在运行前务必查看 Actor 的文档。
执行一个 Actor 并在单次调用中立即获取其数据集项。适用于快速爬取任务。
工具: APIFY_RUN_ACTOR_SYNC_GET_DATASET_ITEMS
关键参数:
actorId (必需) -- Actor ID,格式为 用户名/actor名称 (例如,)广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
compass/crawler-google-placesinput -- 符合 Actor 模式的 JSON 输入对象。每个 Actor 都有唯一的字段名称——请查看 apify.com/store 获取确切的模式。limit -- 要返回的最大项目数offset -- 用于分页的跳过项目数format -- json (默认), csv, jsonl, html, xlsx, xmltimeout -- 运行超时时间(秒)waitForFinish -- 最大等待时间 (0-300 秒)fields -- 要包含的字段的逗号分隔列表omit -- 要排除的字段的逗号分隔列表示例提示:"运行 Google Places 爬虫,搜索 '纽约的餐厅' 并返回前 50 个结果"
触发一个 Actor 运行,无需等待完成。适用于长时间运行的爬取任务。
工具: APIFY_RUN_ACTOR
关键参数:
actorId (必需) -- Actor 别名或 IDbody -- Actor 的 JSON 输入对象memory -- 内存限制,单位 MB (必须是 2 的幂,最小 128)timeout -- 运行超时时间(秒)maxItems -- 返回项目的上限build -- 特定的构建标签 (例如,latest, beta)使用 APIFY_GET_DATASET_ITEMS 并传入运行的 datasetId 来获取结果。
示例提示:"以 1024MB 内存异步启动 example.com 的网络爬虫 Actor"
从特定数据集中获取数据,支持分页、字段选择和过滤。
工具: APIFY_GET_DATASET_ITEMS
关键参数:
datasetId (必需) -- 数据集标识符limit (默认/最大 1000) -- 每页项目数offset (默认 0) -- 分页偏移量format -- json (推荐), csv, xlsxfields -- 仅包含特定字段omit -- 排除特定字段clean -- 移除 Apify 特定的元数据desc -- 反向排序 (最新的在前)示例提示:"从数据集 myDatasetId 中以 JSON 格式获取前 500 个项目"
在运行前查看 Actor 元数据、输入模式和配置。
工具: APIFY_GET_ACTOR
关键参数:
actorId (必需) -- Actor ID,格式为 用户名/actor名称 或十六进制 ID示例提示:"显示 apify/web-scraper Actor 的详情和输入模式"
为重复的爬取任务配置具有预设输入的可重复使用的 Actor 任务。
工具: APIFY_CREATE_TASK
配置一次任务,然后使用一致的输入参数重复触发它。适用于计划或重复的数据收集工作流。
示例提示:"为 Google 搜索爬虫创建一个 Apify 任务,默认查询为 'AI 初创公司' 和美国位置"
列出 Actor 运行、浏览数据集以及检查运行详情,用于监控和调试。
工具: APIFY_GET_LIST_OF_RUNS, APIFY_DATASETS_GET, APIFY_DATASET_GET, APIFY_GET_LOG
用于列出运行:
datasetId 用于数据检索用于数据集管理:
APIFY_DATASETS_GET -- 分页列出您的所有数据集APIFY_DATASET_GET -- 获取特定数据集的元数据用于调试:
APIFY_GET_LOG -- 检索运行或构建的执行日志示例提示:"列出 web scraper Actor 的最后 10 次运行,并显示最近一次运行的日志"
queries 或 search_terms 这样的通用字段名称将被拒绝。请务必在 apify.com/store 上查看 Actor 的页面以获取确切的字段名称 (例如,Google Maps 的 searchStringsArray,网络爬虫的 startUrls)。https:// 或 http://)。许多 Actor 要求 URL 作为具有 url 属性的对象:{"startUrls": [{"url": "https://example.com"}]}。APIFY_GET_DATASET_ITEMS 每次调用的最大 limit 为 1000。对于大型数据集,请使用 offset 循环收集所有项目。relevance 而不是 RELEVANCE,all 而不是 ALL)。APIFY_RUN_ACTOR_SYNC_GET_DATASET_ITEMS 的最大 waitForFinish 为 300 秒。对于更长的运行,请使用 APIFY_RUN_ACTOR (异步) 并通过 APIFY_GET_DATASET_ITEMS 轮询。| 工具别名 | 描述 |
|---|---|
APIFY_RUN_ACTOR_SYNC_GET_DATASET_ITEMS | 同步运行 Actor 并立即获取结果 |
APIFY_RUN_ACTOR | 异步运行 Actor (触发并返回) |
APIFY_RUN_ACTOR_SYNC | 同步运行 Actor,返回输出记录 |
APIFY_GET_ACTOR | 获取 Actor 元数据和输入模式 |
APIFY_GET_DATASET_ITEMS | 从数据集检索项目 (分页) |
APIFY_DATASET_GET | 获取数据集元数据 (项目计数等) |
APIFY_DATASETS_GET | 列出所有用户数据集 |
APIFY_CREATE_TASK | 创建可重复使用的 Actor 任务 |
APIFY_GET_TASK_INPUT | 检查任务的存储输入 |
APIFY_GET_LIST_OF_RUNS | 列出 Actor 的运行 |
APIFY_GET_LOG | 获取运行的执行日志 |
由 Composio 提供支持
每周安装数
0
代码仓库
GitHub 星标数
43.1K
首次出现
1970年1月1日
安全审计
Run Apify web scraping Actors and manage datasets directly from Claude Code. Execute crawlers synchronously or asynchronously, retrieve structured data, create reusable tasks, and inspect run logs without leaving your terminal.
Toolkit docs: composio.dev/toolkits/apify
Add the Composio MCP server to your configuration:
https://rube.app/mcp
Connect your Apify account when prompted. The agent will provide an authentication link.
Browse available Actors at apify.com/store. Each Actor has its own unique input schema -- always check the Actor's documentation before running.
Execute an Actor and immediately retrieve its dataset items in a single call. Best for quick scraping jobs.
Tool: APIFY_RUN_ACTOR_SYNC_GET_DATASET_ITEMS
Key parameters:
actorId (required) -- Actor ID in format username/actor-name (e.g., compass/crawler-google-places)input -- JSON input object matching the Actor's schema. Each Actor has unique field names -- check apify.com/store for the exact schema.limit -- max items to returnoffset -- skip items for paginationformat -- json (default), csv, jsonl, html, xlsx, xmltimeout -- run timeout in secondswaitForFinish -- max wait time (0-300 seconds)fields -- comma-separated list of fields to includeomit -- comma-separated list of fields to excludeExample prompt: "Run the Google Places scraper for 'restaurants in New York' and return the first 50 results"
Trigger an Actor run without waiting for completion. Use for long-running scraping jobs.
Tool: APIFY_RUN_ACTOR
Key parameters:
actorId (required) -- Actor slug or IDbody -- JSON input object for the Actormemory -- memory limit in MB (must be power of 2, minimum 128)timeout -- run timeout in secondsmaxItems -- cap on returned itemsbuild -- specific build tag (e.g., latest, beta)Follow up with APIFY_GET_DATASET_ITEMS to retrieve results using the run's datasetId.
Example prompt: "Start the web scraper Actor for example.com asynchronously with 1024MB memory"
Fetch data from a specific dataset with pagination, field selection, and filtering.
Tool: APIFY_GET_DATASET_ITEMS
Key parameters:
datasetId (required) -- dataset identifierlimit (default/max 1000) -- items per pageoffset (default 0) -- pagination offsetformat -- json (recommended), csv, xlsxfields -- include only specific fieldsomit -- exclude specific fieldsclean -- remove Apify-specific metadataExample prompt: "Get the first 500 items from dataset myDatasetId in JSON format"
View Actor metadata, input schema, and configuration before running it.
Tool: APIFY_GET_ACTOR
Key parameters:
actorId (required) -- Actor ID in format username/actor-name or hex IDExample prompt: "Show me the details and input schema for the apify/web-scraper Actor"
Configure reusable Actor tasks with preset inputs for recurring scraping jobs.
Tool: APIFY_CREATE_TASK
Configure a task once, then trigger it repeatedly with consistent input parameters. Useful for scheduled or recurring data collection workflows.
Example prompt: "Create an Apify task for the Google Search scraper with default query 'AI startups' and US location"
List Actor runs, browse datasets, and inspect run details for monitoring and debugging.
Tools: APIFY_GET_LIST_OF_RUNS, APIFY_DATASETS_GET, APIFY_DATASET_GET, APIFY_GET_LOG
For listing runs:
datasetId from run details for data retrievalFor dataset management:
APIFY_DATASETS_GET -- list all your datasets with paginationAPIFY_DATASET_GET -- get metadata for a specific datasetFor debugging:
APIFY_GET_LOG -- retrieve execution logs for a run or buildExample prompt: "List the last 10 runs for the web scraper Actor and show logs for the most recent one"
queries or search_terms will be rejected. Always check the Actor's page on apify.com/store for exact field names (e.g., searchStringsArray for Google Maps, startUrls for web scrapers).https:// or http://) in URLs. Many Actors require URLs as objects with a url property: {"startUrls": [{"url": "https://example.com"}]}.APIFY_GET_DATASET_ITEMS has a max of 1000 per call. For large datasets, loop with to collect all items.| Tool Slug | Description |
|---|---|
APIFY_RUN_ACTOR_SYNC_GET_DATASET_ITEMS | Run Actor synchronously and get results immediately |
APIFY_RUN_ACTOR | Run Actor asynchronously (trigger and return) |
APIFY_RUN_ACTOR_SYNC | Run Actor synchronously, return output record |
APIFY_GET_ACTOR | Get Actor metadata and input schema |
APIFY_GET_DATASET_ITEMS | Retrieve items from a dataset (paginated) |
APIFY_DATASET_GET |
Powered byComposio
Weekly Installs
0
Repository
GitHub Stars
43.1K
First Seen
Jan 1, 1970
Security Audits
Skills CLI 使用指南:AI Agent 技能包管理器安装与管理教程
27,400 周安装
desclimitoffsetrelevance not RELEVANCE, all not ALL).APIFY_RUN_ACTOR_SYNC_GET_DATASET_ITEMS has a maximum waitForFinish of 300 seconds. For longer runs, use APIFY_RUN_ACTOR (async) and poll with APIFY_GET_DATASET_ITEMS.| Get dataset metadata (item count, etc.) |
APIFY_DATASETS_GET | List all user datasets |
APIFY_CREATE_TASK | Create a reusable Actor task |
APIFY_GET_TASK_INPUT | Inspect a task's stored input |
APIFY_GET_LIST_OF_RUNS | List runs for an Actor |
APIFY_GET_LOG | Get execution logs for a run |