実験しようとしたら、実験の前提が崩れた——生成AIで指名検索を試してわかった、厄介な問題
概要
自分のコンテンツがAIに引用されているかどうかを確かめようとした。 やることはシンプルに見えた。しかし、実験を始めた途端に前提が崩れていった。
最初につまずいたのは、実験結果が自分の閲覧履歴に汚染されていたことだ。 「引用された」と思った瞬間、それが自分のアカウント情報によるパーソナライズだったと気づいた。
この記事は、その過程で見つかった3つの問題と、それでも観察できたことの記録である。
問題① パーソナライズが実験を汚染していた
最初にPerplexityで試したとき、自分のサイトのURLが引用リストに出てきた。 「引用されている」と思いかけたところで気づいた。ログインしたままの状態で検索していた。
シークレットモードに切り替えて同じクエリを投げると、結果が変わった。 自分のURLは出てきたが、同時にAI Alchemy Labとは無関係なURLも混在していた。 sobabilio.catやlancers.jpといったサイトが引用リストに並んでいた。
生成AIの場合、SEOでいうシークレットモードとは意味が違う。 Googleのシークレットモードは閲覧履歴やCookieを除外するが、 生成AIの回答はそれだけでは揃わない。 アカウントの利用履歴、セッションの状態、モデルのバージョンやロールアウト状況によって、 同じクエリでも毎回異なる結果が返ってくる。「フラットな結果」の定義が、そもそも存在しない。
別アカウントで試すと、またさらに結果が変わった。 何をもって正しい計測とするのか、基準が見えなかった。
実験を行うなら、無料アカウントまたは別アカウントを用意し、 シークレットモードで行うことが最低条件になる。 有料ユーザーが自分のツールで自分のコンテンツを試せない、という構造的な問題がここにある。
問題② 有料版では実験ができなかった
ChatGPTとGeminiの有料版を使っていると、過去の利用履歴がパーソナライズに影響する。 自分のコンテンツについて質問すれば、学習データではなく履歴参照で回答が変わる可能性がある。 実験としての条件が崩れる。
これは有料版を使い続けてきた自分には盲点だった。 課金して便利に使っていたつもりが、実験という観点では足かせになっていた。
問題③ 「フラットな結果」が定義されていない
SEOであれば、シークレットモードで検索することには明確な意味がある。 ログインや履歴の影響を除外し、より客観的な検索順位に近い状態を確認できる。
生成AIにはその前提が通用しない。
「専門家はどうやって実験しているのだろう」と気になって調べてみると、 2026年4月に公開されたarXivの論文(21,143件の引用記録を分析したもの)にたどり着いた。 英語論文で読み解くのに時間がかかったが、趣旨はシンプルだった。 条件を揃えたとしても結果は「静的なスナップショット」に過ぎず、 因果の主張は避けるべきだ、という指摘だ。 専門家でも「フラットな結果」は取れないということだ。
それでも観察したこと
条件を揃えきれないまま、複数のプラットフォームに同じクエリを投げた。 結果はプラットフォームごとに構造が違った。
Gemini
固有名詞「AI Alchemy Lab」を認識せず、回答を完全に拒否した。
ChatGPT
「一次情報は見つからなかった」と断った上で、学習データから推論した内容を返してきた。 Hacker NewsやLatent Spaceへの言及があったが、 実際にそれらを参照したのではなく、学習データからの補完である可能性が高い。 引用しているように見えて、実際は補完という挙動だ。
Perplexity
複数のURLを引用したが、無関係なURLも混在した。 引用している情報の鮮度はCopilotより新しく、2025年の情報を引用していた。
Copilot
Bingのインデックスをベースにしており、2023年の情報を返してきた。
なぜ情報鮮度がプラットフォームで違うのか
この差が気になってさらに調べると、各AIの仕組みの違いが見えてきた。 技術的に深い話ではなく、「どこから情報を取ってきているか」の構造の違いだ。
- Perplexity:Google/Bing APIを経由して上位ページをリアルタイムでスクレイピングして要約する。最新情報を得やすい構造になっている。
- ChatGPT:独自インデックスを持ち、更新に時間がかかる。あるマーケティングツールが実施した30日間の追跡実験では、Google AI Modeが翌日に新規ページの36%を引用したのに対し、ChatGPTは初日8%で、30日後でも42%にとどまった。また、クエリの約65%はウェブ検索を行わず、学習データだけで回答しているという調査結果もある。
- Gemini:リアルタイム検索が統合されていない状態で動作した可能性があり、知識のカットオフが影響した可能性がある。
- Copilot:Bingインデックスを参照しているが、GoogleやPerplexityほどの即時性はない。
解決のヒントを探した
実験条件を整えることが難しいとわかった時点で、計測ツールを探してみた。
GEO診断ツールを試してみた
現時点で個人が試せるものとして、いくつかのサービスが存在する。
| ツール名 | 特徴 | 費用 |
|---|---|---|
| Genview | 日本語対応・無料診断あり | 無料プランあり |
| Otterly.ai | 英語・AI検索横断モニタリング | 14日間無料トライアル |
| SE Ranking | 既存SEOツールの拡張機能 | 有料(一部無料) |
試しに、業界でよく知られたAI系展示会「AI・人工知能EXPO」をGenviewで診断してみた。
| 指標 | スコア |
|---|---|
| GEOスコア(総合) | 85 / 100 |
| ChatGPT | 78 |
| Gemini | 92 |
| Copilot | 0 |
数値は出た。ただ、この数値が何を意味しているのかは、今の私には判断できなかった。
Copilotが0というのはどういう状態なのか。 Geminiが92でも、先ほどの実験ではGeminiは固有名詞を認識しなかった。 スコアと実際の挙動が合わない。
素人なりに考えると、スコアはおそらく「インデックスされているか」や 「構造化データが整っているか」といった技術的な条件を見ているのではないか。 一方で、実際の引用は「クエリとの一致度」や「情報の鮮度」が影響しているのではないか。 つまり、スコアと引用は別の問いに答えているのかもしれない。 これはあくまで仮説だが、両者がズレるのはそういう理由ではないかと思っている。
無料のお試し版でそこまで深く見えないのは当然かもしれない。 ここで「ツールは使えない」と結論づけるのは早計だと思っている。
最後に気づいたこと
同じクエリをGoogle検索で入力したとき、AI Alchemy Labのコンテンツがトップに表示された。 Google AIによる概要では、Xの投稿まで引用されていた。
AIに引用されているかを確認しようとして、 一番精度が高かったのは通常のGoogle検索だった。 これが今回の実験で最も意外な観察だった。
次のステップへ
調べていくうちに、引用を逆算した研究や実践例がすでに海外にはあることがわかった。 被リンクの少ないページが引用全体の9割以上を占めるというデータもある。
AI Alchemy Labは開設からまだ日が浅く、被リンクはほぼゼロに近い。 いわゆる「弱小サイト」の典型だ。 それでも引用される余地があるとすれば、規模ではなく内容の構造に鍵があるはずだ。 それを自分のコンテンツで確かめるのが、次のステップだ。 スコアという出口からではなく、引用という事実から逆算する。
.png?width=2240&height=1260&name=AI%20Alchemy%20Lab%20(1).png)