AI実務設計ログ

SEOでは測れなかったもの:AIに引用されるページの条件を探る実験記録

作成者: 椎名真弓|May 6, 2026 12:11:31 AM

非エンジニアのマーケターがAIエージェントの自作を検討するとき、どんな問いを持つだろうか——そう考えて設計した4種類のクエリをPerplexityに投げると、AIは特定のWebページを引用しながら回答を組み立てた。引用されたページと、されなかったページ。その差を生むのは何か。SEO的な強さなのか、それとも別の何かなのか。この問いが、今回の実験の出発点だ。

第3回までの解析では、文字数・見出し数・画像数・著者情報といったHTML構造指標を数値化した。しかし正直に言えば、取得できた指標のほとんどは従来のSEO評価で使われるものと大差なかった。測りやすいものを測っていただけで、AIが「なぜそのページを選ぶか」という問いには答えられていなかった。

第4回は、その限界を正面から扱う。SEO的な外れ値が引用され、構造的に整ったコンテンツが引用されない——そんな逆転現象を説明するために、GEO固有の指標を一から設計して実際のURLに当てはめた記録である。

 

 

なぜSEO指標では足りないのか

AIは、ページ全体を読むのではない。意味の塊(チャンク)を評価し、「この質問に使える部品があるか」を判断している。

その視点で見ると、SEO指標が測っているものと、AIが実際に参照する基準の間にはズレがある。見出しの数が多いことは、検索エンジンにとってはポジティブシグナルかもしれない。しかしAIにとっては、見出しの下の内容が独立して理解できるかどうかの方が重要だ。文字数が多いことはSEOでは有利に働くことがある。しかしAIにとっては、長すぎるページはノイズになる可能性がある。

つまり、SEOが「検索エンジンに見つかりやすいか」を最適化するものだとすれば、GEOは「AIが回答部品として使いやすいか」を最適化するものだ。この2つは部分的に重なるが、イコールではない。

第3回の解析で確認された逆転現象——SEO指標が外れ値なのに引用されるページ、構造的に整っているのに引用されないページ——は、この「測るべき軸が違う」という問題を示唆している。

GEO固有の指標を設計する

SEO指標では説明できないなら、AIの引用ロジックから逆算して指標を設計するしかない。そう判断して設計したのが、以下の3層構造のチェックリストだ。

第1層:到達性(引用候補に入るか)

AIの参照リストにそもそも入れるかどうかを判定する層。SEOと部分的に重なるが、GEOの前提条件として位置づける。

項目 内容
S1 冒頭200字以内にメイントピックが明示されているか
S2 複数のサブトピックが扱われているか
S3 著者名または組織名が明記されているか
S4 公開日または更新日が記載されているか
S5 外部メディアや第三者からの言及があるか

スコア = 該当数 ÷ 5

第2層:使いやすさ(実際に引用されるか)

AIが「回答部品として切り取れるか」を判定する層。今回の設計でGEO固有の核心に位置づけたのがここだ。

項目 内容
A1 冒頭に結論または定義が置かれているか
A2 統計・数値データが含まれているか
A3 出典・根拠が明示されているか
A4 権威ある第三者の引用があるか
A5 各見出し配下の内容が独立して理解できるか
A6 比較表・推奨リスト・vs構造があるか
A7 短く明確な定義文があるか
A8 番号付きの手順が含まれているか
A9 条件別の推奨表現があるか

スコア = 該当数 ÷ 9

第3層:役割タイプ(どんな文脈で引用されるか)

スコア化はせず、引用される文脈を分類として記録する。

タイプ 内容
T1 実務比較型(ツール・手法の比較)
T2 一次情報・技術根拠型(データ・仕様・公式情報)
T3 トレンド・事例型(動向・導入事例)
T4 UGC型(個人ブログ・SNS・体験談)

複数選択可。引用文脈の傾向を把握するための補助分類として使う。

各項目はYes / No / N/A で判定し、判定の揺らぎを抑える。合計14項目のチェックリストを設計し、判定はGemini 2.5 Proに委託することで一貫性を確保した。SNS・PDF・一覧ページ・トップページは第1層・第2層の評価対象外とし、役割タイプ分類のみ記録している。

 

実際のURLにあてはめてみた

第2回・第3回の実験でPerplexityが参照した44件のURLを対象に、このチェックリストを適用した。

確かめたかったのは一つのことだ。Perplexityの回答本文に直接掲載されたURL(直接引用)と、参照リストには含まれるが本文未掲載のURL(非直接引用)の間に、チェックリストのスコアで差が出るかどうか。この差が出れば、GEO固有指標が引用の境界を捉えている可能性がある。

SNS・PDF・一覧ページ・トップページを除外した結果、第1層・第2層まで評価できたのは28件。この28件をパターンA〜Dの4バッチに分けてGeminiに判定を依頼し、結果をGoogleドキュメントで受け取って集計した。

なお、「非直接引用」グループには、Perplexityが内部で参照したが表示しなかったケースと、そもそも候補に入らなかったケースが混在している可能性がある。この点は方法論上の限界として明示しておく。

 

 

パイロット解析から見えてきた3つの仮説

28件のパイロット解析から、3つの仮説が浮かび上がった。いずれもサンプル数が小さく統計的な確証はないが、次の実験を設計するうえで十分に示唆のある結果だった。

仮説1:GEOでは「見つかりやすさ」より「使いやすさ」が引用を左右する

直接引用グループと非直接引用グループのスコアを比較すると、第1層(到達性)の平均差は約0.9だったのに対し、第2層(使いやすさ)の平均差は約3.0と、約3倍の開きがあった。

AIはページを「回答部品」として切り取れるかどうかを重視している可能性がある。SEOが「見つかりやすさ」を最適化するものだとすれば、GEOで効くのは「使いやすさ」の方だ——そう考えると、引用の逆転現象が説明しやすくなる。

仮説2:「結論の先出し × 見出しの独立性」が最重要指標候補

第2層の9項目のうち、A1(冒頭に結論・定義)とA5(見出し単位で独立理解可能)の両方がYesのページは、直接引用グループで約75%、非直接引用グループで約30%と、顕著な差が出た。

これを「チャンク適性」と呼ぶことにした。AIはテキストを小さな意味単位で処理するため、見出しが独立した意味の境界になっていること、そして冒頭のチャンクだけで答えの骨格が取れることが、引用されやすさに直結していると考えられる。SEOにはない、GEO固有の設計軸だ。

仮説3:SEOで有効だった「網羅的長文」はGEOではリスクになる

約66,000字のQiita記事(第1層5/5・第2層8/9)と約96,000字のnote記事は、チェックリスト上は高スコアだったにもかかわらず、どちらも引用されなかった。

長文はSEO的には情報量の多さとして評価されることがある。しかしGEOでは、コンテキストウィンドウを消費しすぎて関連チャンクの優先度が下がるか、あるいはノイズが多すぎてAIが適切な部品を見つけにくくなる可能性がある。「長ければ有利」という常識が、GEOでは逆転するかもしれない。

 

 

今回わかってきたこと、そして次の問い

今回の実験でわかってきたのは、GEOで引用されるかどうかは「AIが回答部品として使いやすいか」という軸で説明できる可能性があるということだ。そしてその軸を測る指標として、第2層の「使いやすさ」——特にチャンク適性(A1×A5)——が有効である可能性が見えてきた。

一方で、今回の観察はパイロット段階に過ぎない。28件のサンプル、Geminiによる判定、非直接引用グループの混在という限界がある。仮説はあくまで仮説だ。

次回(第5回)では、第3回のSEO延長解析と今回のGEO固有解析を統合し、「AIに引用されるコンテンツ設計ルール」の言語化を試みる。SEO的に正しいことをやっていても引用されない、という現象に対して、具体的な設計指針を出せるかどうか。それが次の問いだ。

 

AI Alchemy Lab は、マーケターがAIと実験しながら学ぶ記録です。正解を出すのではなく、問いを更新し続けることを目的としています。