第3回では、PythonでWebページのHTML構造を数値化した。文字数、見出しの数、著者情報の有無——取得できるものを取得した。ところが解析を終えてみると、妙な感覚が残った。「測るべきものを測れていなかったのではないか」という感覚だ。
その問いを持ったまま第4回に進み、GEO固有の指標を一から設計して同じURLに当てはめた。すると、第3回では見えなかったものが見えてきた。チェックリストで満点に近いスコアを取った長文記事が引用されない。構造的に整っているとは言えないページが引用される。SEO的な評価軸とGEO的な評価軸が、別の方向を向いていることが、データの上でも確認できた。
第5回は、この2回の解析を重ねて見えてきたことを整理する回だ。答えが出たわけではない。ただ、「何を問うべきか」の輪郭が、少しだけ見えてきた気がしている。そしてその輪郭は、GEOに対して事前に抱いていたイメージと、少し違う形をしていた。
第3回の解析で信頼度が高いと判断した発見は、大きく2つだ。
一つ目は、クエリの意図がドメインの種類を決めるという傾向だ。「AIエージェントツールを比較したい」という問いには企業メディアが70%を占め、「技術的な実装方法を知りたい」という問いには公式ドキュメントが50%、技術者ブログが28.6%という構成になった。キーワードではなく、問いの性質が引用先を決めている可能性がある。
二つ目は、技術系クエリで引用されたページにはコードブロックと比較表が突出して多かったという観察だ。技術者ブログのコードブロック数の平均は25.3件で、企業メディア全体の平均0.9件と比べると、その差は明確だった。「技術的な問いには、技術的な形式で答えているページが選ばれる」という傾向が、数値の上でも確認できた。
一方で、正直に言えば見えなかったことの方が多かった。文字数・見出しの数・著者情報・更新日——これらはHTMLから取得しやすい指標だったが、振り返ると「取得しやすいものを取得した」だけだった。これらはSEO評価でも使われてきた指標と大差なく、「AIがなぜそのページを選ぶか」という問いには答えられていなかった。
第4回では、SEO指標では説明できなかった引用の逆転現象を正面から扱うために、GEO固有の指標を一から設計した。「AIが回答を組み立てるとき、どんな情報を部品として使いやすいか」という視点から14項目のチェックリストを作り、28件のURLに当てはめた。サンプル数は少なく、統計的な確証はない。それでも、3つの仮説が浮かび上がった。
直接引用されたページと、されなかったページのスコアを比較すると、「見つかりやすさ」を測る指標の平均差は約0.9だったのに対し、「使いやすさ」を測る指標の平均差は約3.0と、約3倍の開きがあった。
この傾向は、外部の研究とも方向性が一致している。AirOps社が35万4千ページを分析した研究では、AIに引用されるページは権威あるサイトよりも、質問にピンポイントで答えているページだという結論が出ている。「良いコンテンツ」より「使えるコンテンツ」が選ばれる、という感覚は、複数の研究が同じ方向を向いている。
チェックリストの14項目のうち、最も引用との相関が強かったのは「冒頭に結論・定義が置かれているか」と「見出し配下の内容が独立して理解できるか」の2項目だった。この両方を満たすページは、直接引用グループで約75%、非直接引用グループで約30%と、顕著な差が出た。
AIはページ全体を読むのではなく、意味のまとまり(チャンク)を単位として情報を処理している。その視点で見ると、見出しが「話の区切り」として機能していること、そして冒頭のチャンクだけで答えの骨格が掴めることが、引用されやすさに直結していると考えられる。
チェックリストで第1層5点満点・第2層8点中8点という高スコアを取った約66,000字の記事が、引用されなかった。同様に約96,000字の記事も未引用だった。「丁寧に作られているのに選ばれない」という逆転現象だ。
この観察も、外部研究と方向性が一致している。Forbes誌が紹介した複数の研究では、AI引用における最適な記事の長さは500〜2,000語とされており、5,000語を超えるページは引用率が下がるという結果が出ている。
気になったのでGeminiに問いを立ててみた。返ってきた推測の中で特に興味深かったのが2つの考え方だ。
一つ目は「チャンキング」の問題だ。PerplexityのようなAI検索は、ページを丸ごと読むのではなく、数百〜数千文字の意味のまとまり(チャンク)に分割して処理している。長文記事は無数のチャンクに切り刻まれる結果、特定の質問に対する「答えの濃度」が薄まりやすく、AIがどの部分を使えばいいか判断しにくくなる可能性がある。
二つ目は「Lost in the Middle(長い文章の中盤をAIが見落としやすくなる現象)」と呼ばれる考え方だ。スタンフォード大学などの研究で、AIは入力されたテキストの最初と最後は処理しやすいが、中間にある情報は見落としやすいという傾向が報告されている。長文記事の中盤にどれだけ良い情報が書かれていても、AIにとっては「死角」に入ってしまうリスクがある。
Geminiはこの構造を「辞書と一問一答集の違い」と表現した。SEOに求められる「長さ」が、GEOでは不利となる可能性がある、ということだ。これはあくまで推測であり、メカニズムが完全に解明されているわけではない。ただ、自分たちの実験で観察した「高スコアでも未引用」という現象と、方向性として一致している。
第3回と第4回の解析を並べてみると、一つのことが浮かび上がってくる。SEO指標が測っているのは「検索エンジンに見つかりやすいか」という軸であり、GEO固有指標が測っているのは「AIが回答の部品として使いやすいか」という軸だ。この2つは部分的に重なるが、イコールではない。
クエリの意図がドメインの種類を決めるという傾向(第3回)と、冒頭に結論を置き見出しごとに話を完結させるページが引用されやすいという傾向(第4回)は、別の軸で動いている。前者は「どんなサイトが選ばれるか」という話であり、後者は「選ばれたサイトの中でどのページが使われるか」という話に近い。つまり、到達性と使いやすさは、段階が違う問いだ。
ここで正直に言っておく必要がある。今回の2つの解析は、同一クエリ・同一時点・同一評価基準という条件が揃った比較ではない。第3回はSEO的な構造指標、第4回はGEO固有のチェックリストと、測る道具が違う。そのため「SEOとGEOのどちらが引用に効くか」という問いへの答えは、まだ出せない。それは次の実験課題だ。
それでも、この2回を通じて見えてきたことがある。GEOは「より良いコンテンツを作る」ゲームではなく、「AIが手を伸ばしやすい場所に情報を置く」ゲームかもしれない、という感覚だ。この感覚は、事前に抱いていたGEOのイメージと少し違った。「SEOとは別の最適化をすればいい」という話ではなく、情報の整理の仕方そのものを問い直す話に近い。
2回の解析から見えてきたことを、暫定ルール候補として整理する。候補としてリストアップする基準は一つだ。自分たちの実験で観察した傾向と、外部の研究や信頼性の高いメディアの報告が、同じ方向を向いているものに限る。実験単独で出てきた傾向は、次の検証課題として保留にした。なお、各ルールに付記している確信度は、外部研究との一致度と自社データの強さを総合した主観的な判断であり、客観的なスコアではない。
GR1:クエリの意図に合わせて、コンテンツの形式を選ぶ 技術的な問いには技術的な形式で、比較を求める問いには比較表で答える。AIはキーワードではなく、問いの性質に合った情報を選んでいる可能性がある。(確信度:中)
GR2:冒頭に結論を置き、見出しごとに話を完結させる 「この見出しの下だけ読んでも答えが分かる」という構造が、引用されやすさに直結する可能性がある。AIが情報を部品として切り取ることを前提に、一問一答のカードを積み重ねるイメージで設計する。AirOps社の研究でも、見出しが質問と一致しているページの引用率は41%と、一致度が低いページの30%を上回っている。(確信度:中)
GR3:長文化を避け、一つの問いに絞って書く 網羅的な長文はGEOでは情報の濃度が薄まるリスクがある。Forbes誌が紹介した複数の研究では、5,000語を超えるページは引用率が下がるという傾向が報告されている。一つの問いに対して深く答える方針の方が、AIには使いやすい可能性がある。(確信度:中)
GR4:技術系トピックにはコードブロックと比較表を配置する 技術的なクエリで引用されたページには、コードブロックと比較表が突出して多かった。これは自分たちの実験でも最も信頼度の高い発見の一つだ。(確信度:高)
GR5:著者情報を明記する 実験データでは引用されたページの約60%で著者情報が明記されていた。これは「著者情報と適切なメタデータを持つコンテンツは、匿名のコンテンツより40%多く引用される」という研究報告(Siftly・Directive Consulting)と合致する。(確信度:中)
今回の2回の解析で見えてきたことは、「GEOはSEOとは別の最適化をすればいい」という話ではなく、情報の整理の仕方そのものを問い直す話かもしれない、ということだ。ただしそれはまだ仮説であり、28件のパイロット解析から見えた輪郭に過ぎない。
次のステップとして、以下の4つの小規模検証を第6・7回で実施する予定だ。
一つ目は、引用箇所の逆引きだ。既存28件のPerplexity回答と元URLを照合し、「どの段落が実際に使われたか」「見出し直下の文章だったか」を集計する。新しいデータを加えずに、チャンク適性の仮説に最も直接的な証拠を得られる検証だ。
二つ目は、自社記事での固有クエリ実験だ。「この記事しか答えられない」水準の固有性の高い問いを設計し、公開済みのAI Alchemy Lab記事(第1〜4回)がPerplexityに引用されるかどうかを観察する。
三つ目は、長文のRAG擬似テスト(AIが外部情報を参照して回答を生成する仕組みを使った検証)だ。未引用だった長文2件(約66,000字・約96,000字)に同一のプロンプトをClaudeで投げ、AIが情報を取り出しにくくなる様子を定性的に観察する。
四つ目は、SEOとの比較実験だ。同一クエリ・同一時点でGoogle検索とPerplexity検索を並べて比較する正式実験を設計する。条件の定義から始める、次のフェーズの実験だ。
次回(第6回)はまず、引用箇所の逆引きと自社記事の固有クエリ実験から始める予定だ。答えを出すより、問いの解像度を上げ続けることがAI Alchemy Labの設計思想だ。次回もその続きを記録する。