AIの回答は鵜呑みにできない・引用の裏取り
AIの回答はどこまで信用できるのか
SourceCheckupの研究によると、AIは出典を付けても、その出典が主張を裏付けているとは限りません。Web検索付きのGPT-4oでも、個々の主張の約30%が引用ソースに裏付けられていませんでした(Nature Communications, 2025年)。リンクが並んでいても、そのリンク先に書いていないことを答える場合があります。
この研究はLLM 7種を800の医療質問・約58,000の主張とソースの組で評価しました。臨床医による人手検証でも、回答が引用で完全に裏付けられていた割合は40.4%にとどまり、自動評価のSourceCheckupと近い結果でした。同研究は、LLM応答の50〜90%が引用ソースに完全には裏付けられていない、とも報告しています。
「引用された」と「正しく要約された」は別物
自社が引用されても、好意的で正確な文脈で語られているとは限りません。誤った文脈での引用は、むしろブランドを損ないます。だから計測では、引用の有無だけでなく、どんな文脈で・正確にかまで見ます。
この観点は、外部スコアの読み方とも地続きです。Googleは2026年6月、第三者ツールの「AI可視性スコア」は測定ではなくモデリング(推定)だと明言しました(DigitalApplied, 2026年6月)。どのツールの数字も推定なので、測定時点とモデル名を添えて誠実に扱うのが筋です。スコアの信頼性そのものは「AI可視性スコア」は測定か推定かで詳しく扱っています。
何を測れば誤った引用に気づけるか
引用の正確性を測るなら、感情・品質の指標を引用の指標と並べて見ます。具体的には、引用文脈が好意的かを見るpositive_rateやsentiment_index、要約が事実と合っているかを見るcontext_accuracyです。Geo Indexの29メトリクス・6カテゴリには、こうした感情・品質カテゴリが含まれます。
統計や出典を本文に正しく置くこと自体が、AIに誤読されにくくする打ち手になります。出典の入れ方は統計・引用・出典の入れ方に、計測の全体設計は2026年最新のLLM最適化にまとめました。Geo Indexは引用の有無に加えて文脈と正確性も測る設計で、引用分析は無料体験から試せます(限定ベータ)。自社が正しい文脈で語られているか確かめたい方は、https://www.geoindex.app/ から始めてみてください。