コンテンツまでスキップ

AI実務ログ:AIに評価を任せたら、問いが増えて判断が止まった

0|実験ログ:評価をAIに任せてみた

前回は、「判断が止まる状態」を扱った。
今回は、その一歩手前で起きていたことのログである。

私はChatGPTを使って、
SEO記事の自動化設計を進めていた。

参考記事のテイストに近づけるために、
一致度評価の仕組みを作り、

生成

評価

改善

を繰り返していた。

評価は数値で出る。
理由もつく。

改善するたびにスコアは上がり、最終的には「かなり再現できた」と思える水準まで到達した。

ここまでは、順調だった。

 

念のため、このまま進めていいか確認しようと思い、同じ評価を別のAIでも試してみた。

ClaudeとGeminiで、同じ記事を同じ条件で評価した。

結果は、想定と違った。

ChatGPTでは約77%。
Claudeでは60%台。
Geminiでは90%台。

同じ記事に対して、まったく違う評価が返ってきた。

 

1|AIの評価結果

評価の内容自体は、どれも成立していた。

あるAIは、構造の意図の違いを指摘していた。

別のAIは、行動を促す設計になっていない点を指摘していた。

また別のAIは、意味としては十分一致していると判断していた。

どれも、間違っているとは言えなかった。

むしろ、それぞれ納得できる説明だった。

AI実務ログ第5回

 

2|しかし、ここで手が止まった

ここで、手が止まった。

どの評価が正しいのか、分からない。

 

それはつまり、

これまで頼りにしていた評価が、正しくなかった可能性が出てきた、ということだった。

もしそうだとすると、ここまでやってきた改善は、正しい方向だったのか。

何を基準に、改善していたのか。そこが分からなくなった。

 

評価は出ている。

数値もあるし、理由もある。

 

それでも、次にどう動くべきかが決まらなかった。

 

3|もう一つの違和感

違和感は、評価のズレではなかった。

それぞれの評価は、どれも成立していた。

構造を重視した評価。
行動性を重視した評価。
意味の一致を見た評価。

どれも正しい。

それなのに、判断できない。

ここで引っかかったのは、評価の「結果」ではなく、評価の「前提」だった。

なぜその評価になるのかは分かる。

しかし、何を基準にしているのかは分からない。

評価はあるのに、判断に使えない。

 

4|評価が判断にならない構造

少し整理してみると、原因ははっきりしていた。

評価は、数値ではなかった。

評価とは、

どこを見るか
何を良しとするか

の組み合わせだった。

今回の評価は、

構造を見るもの
論点を見るもの
意味を見るもの

に分かれていた。

しかし、

どれを優先するのか
何を一致とみなすのか

その定義は置いていなかった。

だから、評価が揃わない。

問題は、評価がズレたことではなく、

評価をまとめるための軸を最初から持っていなかったことだった。

この状態で評価を増やすとどうなるか。

判断材料は増える。

しかし、判断の軸がない。

すると、

問いだけが増える。

「どの評価が正しいのか」
「どこを直すべきなのか」
「そもそも今の方向でいいのか」

答えではなく、問いが増えていく。

結果として、判断が止まる。

 

5|実務の中で起きた変化

そこで、評価のやり方を変えた。

評価を変えたというより、その前にやることを変えた。

先に、基準を置いた。

参考記事の特徴を、次のように整理した。

・論理の歩幅
・筆者スタンス
・情報の優先順位
・文体トーン

何を再現するのかを、先に決めた。

その上で、評価を行った。

一致率だけでなく、

・過剰
・欠落
・変質

という形で、ズレを見た。

評価の役割が変わった。

数値を出すものではなく、
ズレを見つけるものになった。

ここでようやく、評価が判断に使える形になった。

 

6|AI実務における評価の壁

AIを使って評価を行うと、次の状態に入ることがある。

評価が増えているのに、判断が進まない。

この状態では、どれだけ評価を増やしても、判断は進まない。

むしろ、

評価が増えるほど、方向が見えなくなる。

今回止まったのは、この状態に入ったときだった。

評価は出せる。

しかし、

何をもって良いとするかを決めていないと、その評価は使えない。

評価に頼る前に、何を再現するのかを決める必要がある。

評価は、その後に使うものになる。

評価は客観だと思っていた。

しかし実際には、評価は基準に依存していた。

だからこそ、評価は使える。

ただし、基準がある場合に限る。