seo-technical by agricidaniel/claude-seo
npx skills add https://github.com/agricidaniel/claude-seo --skill seo-technical截至 2025-2026 年,AI 公司积极抓取网络以训练模型并为 AI 搜索提供支持。通过 robots.txt 管理这些爬虫是一项关键的技术性 SEO 考量。
已知的 AI 爬虫:
| 爬虫 | 公司 | robots.txt 令牌 | 用途 |
|---|---|---|---|
| GPTBot | OpenAI | GPTBot | 模型训练 |
| ChatGPT-User | OpenAI | ChatGPT-User | 实时浏览 |
| ClaudeBot |
广告位招租
在这里展示您的产品或服务
触达数万 AI 开发者,精准高效
| Anthropic |
ClaudeBot |
| 模型训练 |
| PerplexityBot | Perplexity | PerplexityBot | 搜索索引 + 训练 |
| Bytespider | ByteDance | Bytespider | 模型训练 |
| Google-Extended | Google-Extended | Gemini 训练(非搜索) |
| CCBot | Common Crawl | CCBot | 开放数据集 |
关键区别:
Google-Extended 会阻止 Gemini 训练使用,但不会影响 Google 搜索索引或 AI 概览(这些使用 Googlebot)GPTBot 会阻止 OpenAI 训练,但不会阻止 ChatGPT 通过浏览(ChatGPT-User)引用您的内容示例 — 选择性屏蔽 AI 爬虫:
# 允许搜索索引,屏蔽 AI 训练爬虫
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
# 允许所有其他爬虫(包括用于搜索的 Googlebot)
User-agent: *
Allow: /
建议: 在屏蔽之前,请考虑您的 AI 可见性策略。被 AI 系统引用可以提升品牌知名度和推荐流量。请交叉参考 seo-geo 技能以获取完整的 AI 可见性优化方案。
Google 于 2025 年 12 月更新了其 JavaScript SEO 文档,并提供了关键澄清:
<meta name="robots" content="noindex"> 但 JavaScript 将其移除,Google 可能仍会遵循原始 HTML 中的 noindex 指令。请在初始 HTML 响应中提供正确的 robots 指令。最佳实践: 在初始服务器渲染的 HTML 中提供关键的 SEO 元素(规范标签、meta robots、结构化数据、标题、meta 描述),而不是依赖 JavaScript 注入。
| 类别 | 状态 | 得分 |
|---|---|---|
| 可抓取性 | ✅/⚠️/❌ | XX/100 |
| 可索引性 | ✅/⚠️/❌ | XX/100 |
| 安全性 | ✅/⚠️/❌ | XX/100 |
| URL 结构 | ✅/⚠️/❌ | XX/100 |
| 移动端 | ✅/⚠️/❌ | XX/100 |
| 核心 Web 指标 | ✅/⚠️/❌ | XX/100 |
| 结构化数据 | ✅/⚠️/❌ | XX/100 |
| JS 渲染 | ✅/⚠️/❌ | XX/100 |
| IndexNow | ✅/⚠️/❌ | XX/100 |
如果 DataForSEO MCP 工具可用,请使用 on_page_instant_pages 进行实时页面分析(状态码、页面计时、损坏链接、页面检查),使用 on_page_lighthouse 进行 Lighthouse 审计(性能、可访问性、SEO 得分),以及使用 domain_analytics_technologies_domain_technologies 进行技术栈检测。
每周安装量
113
代码仓库
GitHub 星标数
2.0K
首次出现
2026 年 2 月 19 日
安全审计
安装于
codex108
github-copilot107
opencode107
gemini-cli106
cursor106
kimi-cli105
As of 2025-2026, AI companies actively crawl the web to train models and power AI search. Managing these crawlers via robots.txt is a critical technical SEO consideration.
Known AI crawlers:
| Crawler | Company | robots.txt token | Purpose |
|---|---|---|---|
| GPTBot | OpenAI | GPTBot | Model training |
| ChatGPT-User | OpenAI | ChatGPT-User | Real-time browsing |
| ClaudeBot | Anthropic | ClaudeBot | Model training |
| PerplexityBot | Perplexity | PerplexityBot | Search index + training |
| Bytespider | ByteDance | Bytespider | Model training |
| Google-Extended | Google-Extended | Gemini training (NOT search) | |
| CCBot | Common Crawl | CCBot | Open dataset |
Key distinctions:
Google-Extended prevents Gemini training use but does NOT affect Google Search indexing or AI Overviews (those use Googlebot)GPTBot prevents OpenAI training but does NOT prevent ChatGPT from citing your content via browsing (ChatGPT-User)Example — selective AI crawler blocking:
# Allow search indexing, block AI training crawlers
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
# Allow all other crawlers (including Googlebot for search)
User-agent: *
Allow: /
Recommendation: Consider your AI visibility strategy before blocking. Being cited by AI systems drives brand awareness and referral traffic. Cross-reference the seo-geo skill for full AI visibility optimization.
Google updated its JavaScript SEO documentation in December 2025 with critical clarifications:
<meta name="robots" content="noindex"> but JavaScript removes it, Google MAY still honor the noindex from raw HTML. Serve correct robots directives in the initial HTML response.Best practice: Serve critical SEO elements (canonical, meta robots, structured data, title, meta description) in the initial server-rendered HTML rather than relying on JavaScript injection.
| Category | Status | Score |
|---|---|---|
| Crawlability | ✅/⚠️/❌ | XX/100 |
| Indexability | ✅/⚠️/❌ | XX/100 |
| Security | ✅/⚠️/❌ | XX/100 |
| URL Structure | ✅/⚠️/❌ | XX/100 |
| Mobile | ✅/⚠️/❌ | XX/100 |
| Core Web Vitals | ✅/⚠️/❌ | XX/100 |
| Structured Data | ✅/⚠️/❌ | XX/100 |
| JS Rendering | ✅/⚠️/❌ | XX/100 |
| IndexNow | ✅/⚠️/❌ | XX/100 |
If DataForSEO MCP tools are available, use on_page_instant_pages for real page analysis (status codes, page timing, broken links, on-page checks), on_page_lighthouse for Lighthouse audits (performance, accessibility, SEO scores), and domain_analytics_technologies_domain_technologies for technology stack detection.
Weekly Installs
113
Repository
GitHub Stars
2.0K
First Seen
Feb 19, 2026
Security Audits
Gen Agent Trust HubPassSocketPassSnykWarn
Installed on
codex108
github-copilot107
opencode107
gemini-cli106
cursor106
kimi-cli105
程序化SEO实战指南:大规模创建优质页面,避免内容单薄惩罚
33,300 周安装
Salesforce开发最佳实践:LWC、Apex触发器与异步处理模式详解
289 周安装
ChatGPT应用构建器 - 基于MCP服务器创建扩展LLM功能的对话式应用
290 周安装
HeyGen数字人视频API教程:创建AI虚拟人视频,控制形象、语音、脚本和场景
290 周安装
PyAutoGUI 自动化脚本:鼠标键盘控制、截图、图像识别、颜色操作全指南
290 周安装
TypeScript Monorepo 启动模板 | pnpm + tdown 构建工具链 | 现代化库开发架构
290 周安装
MCP服务器开发指南 - 构建高质量模型上下文协议服务器的完整流程
290 周安装