0|実験ログ:あるプロンプトを試してみた 私はマーケティング支援の仕事をしているため、 外部のマーケティング講座や記事をチェックすることが多い。
AI実務ログ:AIに評価を任せたら、問いが増えて判断が止まった
0|実験ログ:評価をAIに任せてみた
前回は、「判断が止まる状態」を扱った。
今回は、その一歩手前で起きていたことのログである。
私はChatGPTを使って、
SEO記事の自動化設計を進めていた。
参考記事のテイストに近づけるために、
一致度評価の仕組みを作り、
生成
↓
評価
↓
改善
を繰り返していた。
評価は数値で出る。
理由もつく。
改善するたびにスコアは上がり、最終的には「かなり再現できた」と思える水準まで到達した。
ここまでは、順調だった。
念のため、このまま進めていいか確認しようと思い、同じ評価を別のAIでも試してみた。
ClaudeとGeminiで、同じ記事を同じ条件で評価した。
結果は、想定と違った。
ChatGPTでは約77%。
Claudeでは60%台。
Geminiでは90%台。
同じ記事に対して、まったく違う評価が返ってきた。
1|AIの評価結果
評価の内容自体は、どれも成立していた。
あるAIは、構造の意図の違いを指摘していた。
別のAIは、行動を促す設計になっていない点を指摘していた。
また別のAIは、意味としては十分一致していると判断していた。
どれも、間違っているとは言えなかった。
むしろ、それぞれ納得できる説明だった。

2|しかし、ここで手が止まった
ここで、手が止まった。
どの評価が正しいのか、分からない。
それはつまり、
これまで頼りにしていた評価が、正しくなかった可能性が出てきた、ということだった。
もしそうだとすると、ここまでやってきた改善は、正しい方向だったのか。
何を基準に、改善していたのか。そこが分からなくなった。
評価は出ている。
数値もあるし、理由もある。
それでも、次にどう動くべきかが決まらなかった。
3|もう一つの違和感
違和感は、評価のズレではなかった。
それぞれの評価は、どれも成立していた。
構造を重視した評価。
行動性を重視した評価。
意味の一致を見た評価。
どれも正しい。
それなのに、判断できない。
ここで引っかかったのは、評価の「結果」ではなく、評価の「前提」だった。
なぜその評価になるのかは分かる。
しかし、何を基準にしているのかは分からない。
評価はあるのに、判断に使えない。
4|評価が判断にならない構造
少し整理してみると、原因ははっきりしていた。
評価は、数値ではなかった。
評価とは、
どこを見るか
何を良しとするか
の組み合わせだった。
今回の評価は、
構造を見るもの
論点を見るもの
意味を見るもの
に分かれていた。
しかし、
どれを優先するのか
何を一致とみなすのか
その定義は置いていなかった。
だから、評価が揃わない。
問題は、評価がズレたことではなく、
評価をまとめるための軸を最初から持っていなかったことだった。
この状態で評価を増やすとどうなるか。
判断材料は増える。
しかし、判断の軸がない。
すると、
問いだけが増える。
「どの評価が正しいのか」
「どこを直すべきなのか」
「そもそも今の方向でいいのか」
答えではなく、問いが増えていく。
結果として、判断が止まる。
5|実務の中で起きた変化
そこで、評価のやり方を変えた。
評価を変えたというより、その前にやることを変えた。
先に、基準を置いた。
参考記事の特徴を、次のように整理した。
・論理の歩幅
・筆者スタンス
・情報の優先順位
・文体トーン
何を再現するのかを、先に決めた。
その上で、評価を行った。
一致率だけでなく、
・過剰
・欠落
・変質
という形で、ズレを見た。
評価の役割が変わった。
数値を出すものではなく、
ズレを見つけるものになった。
ここでようやく、評価が判断に使える形になった。
6|AI実務における評価の壁
AIを使って評価を行うと、次の状態に入ることがある。
評価が増えているのに、判断が進まない。
この状態では、どれだけ評価を増やしても、判断は進まない。
むしろ、
評価が増えるほど、方向が見えなくなる。
今回止まったのは、この状態に入ったときだった。
評価は出せる。
しかし、
何をもって良いとするかを決めていないと、その評価は使えない。
評価に頼る前に、何を再現するのかを決める必要がある。
評価は、その後に使うものになる。
評価は客観だと思っていた。
しかし実際には、評価は基準に依存していた。
だからこそ、評価は使える。
ただし、基準がある場合に限る。