AI可視性を測るプロンプトセットの設計

プロンプトセットの設計が計測の精度を決める

AI可視性は、どのプロンプトで測るかに丸ごと依存します。同じ会社でも、聞き方を変えればChatGPTが返す答えも、登場するブランドも変わります。だから計測の前に、固定したプロンプト群を設計しておきます。

設計の出発点は、自社が出たい高インテントのクエリです。「(製品カテゴリ) おすすめ」「(製品カテゴリ) 比較」「(用語)とは」のように、購買や検討に近い問いを並べます。さらにファネル段階で分け、KnowとCommercialを混ぜておくと、認知と検討の両方の可視性が見えます。

日本語のプロンプトをどう作るか

日本語では、表記揺れ・敬語・カタカナと英字の揺れを意図的に含めます。ここが日本市場のプロンプト設計の勘所です。

「GEOとは」「GEO 意味」「ジェネレーティブエンジン最適化とは」のように、同じ意図を別表記でも投げる。
「教えてください」「とは何か」のような敬語・常体の違いを混ぜる。
「Webサイト」「ウェブサイト」のようなカタカナと英字の揺れを入れる。

表記が変わると、AIが拾うソースも答え方も変わります。1つの聞き方だけで測ると、本来出ているはずの可視性を取りこぼします。

揺らぎをどう平均化するか

同じプロンプトでも、AIの回答は実行のたびに揺れます。1クエリ1回では誤読の元になるので、複数回・複数LLMで実行して平均を取ります。学術研究では、temperature=0.7で1クエリにつき5応答を取るといった設計が使われます。

揺らぎは時間軸でも起きます。Digital Authority Partnersの縦断調査では、AIの引用は約4週間周期で入れ替わり、28日間で同一URLが残る割合は10.6%でした（everything-pr, 2026年）。単月の1点ではなく、数か月のローリング比較で傾向を見ます。測定時点とモデル名を必ず記録するのも、この変動に対処するためです。

プロンプトはエンジンごとにも分けて回します。AuthorityTechの集計では、エンジン間の引用重複は11%で、1つのプラットフォームの監視では全体像の25%未満しか掴めません（AuthorityTech, 2026年）。横断計測の理由は1つのAIだけ見ても足りない・横断計測に書きました。

Geo Indexは、設計したプロンプト群を複数のLLMで実行し、29メトリクス・6カテゴリで集計します。何を測るかの全体像はAI可視性・引用率の測り方、計測と最適化のつなぎは2026年最新のLLM最適化をどうぞ。

AI可視性を測るプロンプトセットの設計

目次

プロンプトセットの設計が計測の精度を決める

日本語のプロンプトをどう作るか

揺らぎをどう平均化するか

関連記事