AIクローラーの誤ブロックを防ぐ方法

AIクローラーの誤ブロックとは

robots.txt で許可していても、CDNやWAFのレート制限でAIクローラーが弾かれ、実質ブロックになっている状態です。サイト側は許可したつもりでも、AIには本文が届いていません。

Mersel の整理によると、約27%のB2B SaaS・ECサイトが、ローカルのrobots.txtは正しく設定されているのにCDN層で主要なLLMクローラーを誤ってブロックしているとされます（出典: How to Block or Allow AI Bots）。許可と実際の到達は別物です。

なぜrobots.txtを許可しても弾かれるのか

原因はrobots.txtの外側にあります。Cloudflare などのBot対策やWAFのルール、そしてレート制限による429 Too Many Requests が、AIクローラーのアクセスに当たります。

robots.txt はあくまでクローラーへのお願いの記述で、実際の通信を遮断するのはその手前のCDNやファイアウォールです。Cloudflare のダッシュボードには Security の Bots（「Control AI Crawlers」）にAIスクレイパーをブロックする設定があり、これが有効だと許可記述と無関係に弾かれます。AIクローラーは通常のブラウザと挙動が違うため、Bot対策に攻撃と誤認されやすいのも一因です。

確認と解消の手順

サーバーログで対象ボットへの403・429応答を探し、CDN側の設定を見直すのが基本です。

サーバーログで OAI-SearchBot・ChatGPT-User・Claude-User・Claude-SearchBot・PerplexityBot に対する403や429の応答が出ていないか確認する。
Cloudflare の Security の Bots（Control AI Crawlers）でAIスクレイパーのブロックが有効になっていないか点検する。
AI検索ボットへのレート制限が厳しすぎないか確認し、必要なら緩める。

誤ブロックは見つけにくい機会損失です。AI参照経由の流入は標準的なオーガニック検索より4.4倍コンバージョンが高いという集計もあり、塞いだままだと損失が積み上がります（出典: 同 Mersel）。Geo Index の「AIクローラー・アクセス診断」は、まさにこの誤ブロックを検出し、そもそもAIに読まれていない状態を可視化する機能です。

誤ブロックを解いて本文が届くようになったら、その先で引用されるかは記事の作りで決まります。整え方はLLMに読まれ引用される記事構成の作り方にまとめました。制御の基本はrobots.txtでAIクローラーを制御する方法、描画起因の未到達はSSRが必要な理由とAIクローラーのJS非実行を参照してください。

AIクローラーの誤ブロックを防ぐ

目次

AIクローラーの誤ブロックとは

なぜrobots.txtを許可しても弾かれるのか

確認と解消の手順

関連記事