AIクローラーの誤ブロックを防ぐ
AIクローラーの誤ブロックとは
robots.txt で許可していても、CDNやWAFのレート制限でAIクローラーが弾かれ、実質ブロックになっている状態です。サイト側は許可したつもりでも、AIには本文が届いていません。
Mersel の整理によると、約27%のB2B SaaS・ECサイトが、ローカルのrobots.txtは正しく設定されているのにCDN層で主要なLLMクローラーを誤ってブロックしているとされます(出典: How to Block or Allow AI Bots)。許可と実際の到達は別物です。
なぜrobots.txtを許可しても弾かれるのか
原因はrobots.txtの外側にあります。Cloudflare などのBot対策やWAFのルール、そしてレート制限による429 Too Many Requests が、AIクローラーのアクセスに当たります。
robots.txt はあくまでクローラーへのお願いの記述で、実際の通信を遮断するのはその手前のCDNやファイアウォールです。Cloudflare のダッシュボードには Security の Bots(「Control AI Crawlers」)にAIスクレイパーをブロックする設定があり、これが有効だと許可記述と無関係に弾かれます。AIクローラーは通常のブラウザと挙動が違うため、Bot対策に攻撃と誤認されやすいのも一因です。
確認と解消の手順
サーバーログで対象ボットへの403・429応答を探し、CDN側の設定を見直すのが基本です。
- サーバーログで OAI-SearchBot・ChatGPT-User・Claude-User・Claude-SearchBot・PerplexityBot に対する403や429の応答が出ていないか確認する。
- Cloudflare の Security の Bots(Control AI Crawlers)でAIスクレイパーのブロックが有効になっていないか点検する。
- AI検索ボットへのレート制限が厳しすぎないか確認し、必要なら緩める。
誤ブロックは見つけにくい機会損失です。AI参照経由の流入は標準的なオーガニック検索より4.4倍コンバージョンが高いという集計もあり、塞いだままだと損失が積み上がります(出典: 同 Mersel)。Geo Index の「AIクローラー・アクセス診断」は、まさにこの誤ブロックを検出し、そもそもAIに読まれていない状態を可視化する機能です。
誤ブロックを解いて本文が届くようになったら、その先で引用されるかは記事の作りで決まります。整え方はLLMに読まれ引用される記事構成の作り方にまとめました。制御の基本はrobots.txtでAIクローラーを制御する方法、描画起因の未到達はSSRが必要な理由とAIクローラーのJS非実行を参照してください。