学習は拒否し検索は通すrobots.txt設計
AIボットは一括ブロックでよいのか
AIボットの一括ブロックは、引用や可視性を狙う事業サイトには不利です。学習クローラーだけ拒否し、検索とユーザー取得のボットは通す、という分け方が定石になりつつあります。
この移行は実データにも表れています。Hostingerが667億件のボットリクエストを分析したところ、OpenAIの検索クローラーが到達するサイトの割合は4.7%から55%超へ拡大し、学習クローラーは84%から12%へ縮小しました(Search Engine Journal, 2026)。サイト運営者が「学習は断るが検索には載りたい」という制御へ動いている、という変化です。
なぜ分けて制御できるのか
主要各社がクローラーを目的別に分け、robots.txtで個別に許可・拒否できるようにしているからです。学習用を止めても検索引用には影響せず、検索用を止めるとそのAIの検索回答から消えます。
OpenAIはGPTBot(学習)、OAI-SearchBot(検索索引)、ChatGPT-User(ユーザー操作)を独立制御でき、OAI-SearchBotを拒否するとChatGPT検索の回答に出なくなります(OpenAI公式, 2026)。Anthropicも2026年2月にClaudeBot(学習)、Claude-User(ユーザー取得)、Claude-SearchBot(検索品質向上)の3ボット体制を公式化し、Claude-SearchBotを止めると検索結果での可視性と正確性が下がりうると明記しています(Anthropic公式)。Googleでは学習制御のGoogle-Extendedを拒否しても検索順位に影響しません(Google検索セントラル)。
設定例
学習クローラーを拒否し、検索・ユーザー取得ボットを許可する基本形です。各UA名は変わることがあるので、公式ドキュメントで都度確認してください。
# 学習クローラーを拒否(知的財産・収益保護を重視する場合)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
# AI検索・ユーザー取得は許可(被引用・可視性のため)
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
つまづきやすい点
いちばんの失敗は、学習を断るつもりで検索ボットまで巻き込むことです。OAI-SearchBotやClaude-SearchBotを誤って拒否すると、その検索回答から消えます。
もうひとつ、SaaSや製品サイトでは「全部許可」も合理的です。学習に載るほどブランドが正しく表現されやすいからで、学習拒否は知的財産や収益保護を優先する場合の選択にすぎません。Anthropicはrobots.txtを尊重しIPレンジを非公開にしているため、IPでのブロックは逆効果になります。robots.txtで素直に制御するのが正解です。
設定後に意図せず遮断していないかはAIクローラーの誤ブロックを防ぐで、各ボットの役割整理はrobots.txtでAIクローラーを制御する方法で、学習トークン単体の話はGoogle-Extendedとはで扱います。
参考文献
- Search Engine Journal「Anthropic's Claude Bots Make Robots.txt Decisions More Granular」2026 https://www.searchenginejournal.com/anthropics-claude-bots-make-robots-txt-decisions-more-granular/568253/
- OpenAI「Overview of OpenAI Crawlers」2026 https://developers.openai.com/api/docs/bots
- Anthropic「Does Anthropic crawl data from the web?」 https://support.claude.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
- Google検索セントラル「Google's common crawlers」 https://developers.google.com/crawling/docs/crawlers-fetchers/google-common-crawlers