記事の中身を考える前に、やることがあった——問いの設計とAI引用の関係を9回の実験で観察した
GEOやAI検索最適化の話をすると、議論はすぐに「どう書くか」に向かう。
ページの構造を整える、冒頭に結論を置く、見出しを独立させる——。 これまでの実験でも、そういう「記事の作り方」の観察を積み重ねてきた。 実際、第4回・第5回では引用されやすいページの構造を分析し、いくつかの仮説を立てた。
ただ、こういう議論が多い背景には、おそらく理由がある。 「構造を整えましょう」「結論を冒頭に置きましょう」というアドバイスは、 チェックリストにしやすく、「対策をしている感」が出しやすい。 一方で「どんな問いで見つかりたいかを設計する」という話は、 自社のビジネスや顧客のことを深く考えないといけないので、パッケージにしにくい。 だから後回しにされやすい。
しかしAI検索は、ユーザーの問いと情報の意味的な合致を判断してから、 回答の材料を選ぶ仕組みになっている。 記事の構造がどれだけ整っていても、その「問いの網」に引っかからなければ、候補にすら入らない。
記事の中身を考える前に、やることがあったのではないか。
第6回の実験で、5つのクエリのうち引用されたのは1本だけだった。 引用された理由として最も有力だったのは、記事の構造ではなく、問いの固有性だった。 では、「問いの広さ」が変わると、引用結果はどう変わるのか。 その問いがEXP-007の出発点になった。
何を確かめようとしたか
第6回の実験が終わったとき、一つのことが気になっていた。
引用されたクエリと、されなかったクエリ。その差を生んでいたのは何か。 記事の構造を比べても、大きな差は見当たらなかった。 違ったのは、問いの「固有性」だった。 引用されたクエリは、AI Alchemy Labの観察データでしか答えられない問いに近かった。 引用されなかったクエリは、すでに多くのサイトが回答済みの領域だった。
そこから一つの問いが生まれた。「問いが広くなるほど、引用されにくくなるのだろうか」。
この問いを確かめるために設計したのがEXP-007だ。 問いの広さを3段階に分けて、引用結果がどう変わるかを観察することにした。
問いの広さを3段階に分ける
広い問いは、「GEOとは何か」「AI検索最適化の基本は?」のような、 多くのサイトがすでに答えている問いだ。 検索ボリュームで言えば大きい領域に近い。
中くらいの問いは、「非エンジニアがGEO実験を始めるにはどうすればいい?」のような、 テーマは絞られているが、複数のサイトが答えられる可能性がある問いだ。
固有の問いは、「AI Alchemy Labの実験ではどんな結果が出たか?」のような、 このサイトの情報でしか答えられない問いだ。
この3段階を、AI Alchemy Labの既存記事(第1回・第2回・第6回)それぞれに対して設計し、 各3クエリ、合計9クエリをPerplexityに投げた。
実験の条件について
実験はすべてPerplexityを使い、シークレットモード・未ログインの状態で行った。 番外編の記事でも書いたが、ログイン状態や過去の利用履歴があると、 結果が自分のアカウント情報に引っ張られる可能性がある。 「フラットな状態で観察する」という条件をできる限り揃えるため、この方法を選んだ。 ただし生成AIの回答は、同じクエリでも時期やモデルの更新によって変わりうる。 今回の結果はあくまで2026年5月時点の観察記録として読んでほしい。
引用部品性スコアについて
今回の実験では、各記事に「引用部品性スコア」という独自の観察軸を設けた。 これは、第4回・第5回で設計したGEO固有のチェックリスト(全4項目)を使って、 各記事がAIに引用されやすい構造を持っているかを数値化したものだ。 スコアが高いほど「回答の部品として使いやすい構造」に近い、という仮定で使っている。
各記事のスコアは以下の通りだ。
| 記事 | 引用部品性スコア | 特徴 |
|---|---|---|
| 第1回 | 1/4 | Claude CodeとDifyの比較・実験ログ紹介 |
| 第2回 | 4/4 | クエリパターン別の引用元分布を独自データで記録 |
| 第6回 | 3/4 | 固有クエリ実験の結果と仮説をまとめた記事 |
スコアが高い記事ほど引用されやすいなら、第2回・第6回が有利なはずだ。 スコアに関係なく問いの広さが支配的なら、全記事が同じ傾向を示すはずだ。 この2つの仮説を念頭に置きながら実験を進めた。
9クエリで何が起きたか
結果を先に言う。問いの広さによって、引用結果は大きく変わった。
広い問い:3記事すべて、引用されなかった
広い問いに対しては、どの記事も引用されなかった。 引用部品性スコアが4/4の第2回記事も、例外ではなかった。
Perplexityが返してきた回答は、GEOやAI検索に関する大手メディアや専門家の記事を 引用したものだった。AI Alchemy Labの記事は、そもそも候補に入っていなかった。
固有の問い:3記事すべて、引用された
固有の問いに対しては、3記事すべてが引用された。
ここで意外だったのは、引用部品性スコアが1/4しかない第1回記事も引用されたことだ。 スコアが低くても、「この記事でしか答えられない問い」に対しては、 AIは引用候補に入れてくれるらしい。
中くらいの問い:3記事のうち、1記事だけ引用された
中くらいの問いでは、引用された記事と引用されなかった記事に差が出た。 引用されたのは第2回記事だけだった。
引用された第2回記事の特徴は、テーマが問いと一致していて、 かつ引用部品性スコアも4/4だったことだ。 引用されなかった第1回・第6回は、スコアの差はあったが、 どちらも問いとの一致度が第2回より低かった。
ChatGPT・Geminiでは固有の問いでも引用されなかった
同じクエリをChatGPTとGeminiにも投げたが、固有の問いに対しても引用されなかった。
これはプラットフォームの仕組みの差だと考えている。 Perplexityはリアルタイムでウェブを検索して回答を組み立てるが、 ChatGPTは学習データを中心に回答するため、 公開されたばかりの小規模サイトの記事は候補に入りにくい。 GEOの実験をするなら、まずPerplexityで確かめる方が現実的だ、 というのが今のところの観察だ。
9クエリの結果まとめ
| 問いの広さ | 第1回(スコア1/4) | 第2回(スコア4/4) | 第6回(スコア3/4) |
|---|---|---|---|
| 広い問い | 未引用 | 未引用 | 未引用 |
| 中くらいの問い | 未引用 | 引用 | 未引用 |
| 固有の問い | 引用 | 引用 | 引用 |
※Perplexity(シークレットモード・未ログイン)での観察結果。2026年5月時点。
何が見えてきたか
9クエリの結果から、4つのことが見えてきた。
見えたこと①:問いの広さが、引用の「土俵」を決めている可能性がある
広い問いでは、スコアに関係なく全記事が引用されなかった。 これは「記事の出来」の問題ではないと思っている。 広い問いには、すでに大量の回答候補が存在する。 その中でAI Alchemy Labのような小規模サイトが候補に入るのは、 構造を整えるだけでは難しい可能性がある。
記事をどう書くかを考える前に、 「その問いの土俵に、自分は上がれるのか」を確認する必要があるのかもしれない。
見えたこと②:固有の問いなら、構造が不完全でも引用される可能性がある
引用部品性スコアが1/4の第1回記事が、固有の問いで引用された。 これは「良い構造の記事を作ることが引用の必要条件だ」という前提を揺さぶる結果だった。
もちろん、構造が整っているに越したことはないだろう。 ただ、構造を整えることよりも先に「どんな問いで見つかりたいか」を設計することの方が、 引用への近道になりうる、という感触が今回の実験で強くなった。
見えたこと③:中くらいの問いは、複数の条件が重なったときだけ引用される可能性がある
中くらいの問いで引用された第2回記事は、 「テーマが問いと合っている」かつ「引用部品性スコアが高い」という 2つの条件が重なっていた。 引用されなかった記事は、どちらかの条件が欠けていた。
これはまだ3件の観察に過ぎないので、断言はできない。 ただ、広い問い(土俵に上がれない)と固有の問い(一致度だけで引用される)の間にある 「中くらいの問い」の帯域では、 問いとの一致と構造の両方が揃って初めて引用候補に入る、 という可能性が見えてきた。
見えたこと④:この実験には、見落としていた前提があった
固有の問いなら引用される、という結果は確認できた。 しかし少し立ち止まって考えると、これには大きな前提が隠れている。
固有の問いを投げるのは、すでにそのサービスや名前を知っている人だけだ。
「AI Alchemy Lab」という名前を知らない人は、 「AI Alchemy Labとは何か」とは絶対に聞かない。 つまりこの実験で確認できたのは、「知っている人に引用される条件」であって、 「まだ知らない人に発見される条件」ではなかった。
この問いは、小規模事業者にとって特に刺さる話だと思う。 認知がまだない状態で固有の問いを設計しても、その問いを投げてくれる人がいない。 では、どうすればいいのか。
おそらく本当に設計すべきは、固有すぎず、広すぎない問いだ。 自分のサービスを知らなくても、ターゲットが確実に一度は誰かに聞くような問い。 そういう「ニッチだけど、ターゲットが必ず通る問い」を見つけることが、 小規模事業者にとっての出発点になるのではないかと、今は考えている。
ただしこれはまだ仮説だ。 EXP-007ではその問いに直接答える実験はできていない。 次の観察課題として残っている。
今回わかったこと、そして次の問い
今回の実験で見えてきたことを、一度整理しておく。
記事の構造を整えることは、引用の必要条件ではないかもしれない。 少なくとも、問いの広さという変数の前では、構造の差は小さかった。 広い問いでは構造がよくても引用されず、固有の問いでは構造が不完全でも引用された。
これは「構造を整えなくていい」という話ではない。 「構造を整える前に、どんな問いで見つかりたいかを決める必要がある」という話だ。 順番の問題だと思っている。
ただ、その「問いの設計」がどうあるべきかは、まだはっきり見えていない。 今回の実験で浮かんだ問いは一つだ。
固有すぎず、広すぎない——「ニッチだけど、ターゲットが必ず通る問い」はどう見つけるのか。
この問いに答えるには、「どんなクエリをターゲットが実際に投げているか」を観察する 次の実験が必要だ。EXP-008では、この問いを中心に設計を進める予定だ。
答えが出るかどうかはわからない。 ただ、問いの解像度を上げ続けることが、AI Alchemy Labの設計思想だ。 次回もその続きを記録する。
AI Alchemy Lab は、非エンジニアのマーケターがAI検索時代を自分で観察・実験・記録するプロジェクトです。正解を断定するのではなく、問いを更新し続けることを目的としています。
