前回は、「判断が止まる状態」を扱った。
今回は、その一歩手前で起きていたことのログである。
私はChatGPTを使って、
SEO記事の自動化設計を進めていた。
参考記事のテイストに近づけるために、
一致度評価の仕組みを作り、
生成
↓
評価
↓
改善
を繰り返していた。
評価は数値で出る。
理由もつく。
改善するたびにスコアは上がり、最終的には「かなり再現できた」と思える水準まで到達した。
ここまでは、順調だった。
念のため、このまま進めていいか確認しようと思い、同じ評価を別のAIでも試してみた。
ClaudeとGeminiで、同じ記事を同じ条件で評価した。
結果は、想定と違った。
ChatGPTでは約77%。
Claudeでは60%台。
Geminiでは90%台。
同じ記事に対して、まったく違う評価が返ってきた。
評価の内容自体は、どれも成立していた。
あるAIは、構造の意図の違いを指摘していた。
別のAIは、行動を促す設計になっていない点を指摘していた。
また別のAIは、意味としては十分一致していると判断していた。
どれも、間違っているとは言えなかった。
むしろ、それぞれ納得できる説明だった。
ここで、手が止まった。
どの評価が正しいのか、分からない。
それはつまり、
これまで頼りにしていた評価が、正しくなかった可能性が出てきた、ということだった。
もしそうだとすると、ここまでやってきた改善は、正しい方向だったのか。
何を基準に、改善していたのか。そこが分からなくなった。
評価は出ている。
数値もあるし、理由もある。
それでも、次にどう動くべきかが決まらなかった。
違和感は、評価のズレではなかった。
それぞれの評価は、どれも成立していた。
構造を重視した評価。
行動性を重視した評価。
意味の一致を見た評価。
どれも正しい。
それなのに、判断できない。
ここで引っかかったのは、評価の「結果」ではなく、評価の「前提」だった。
なぜその評価になるのかは分かる。
しかし、何を基準にしているのかは分からない。
評価はあるのに、判断に使えない。
少し整理してみると、原因ははっきりしていた。
評価は、数値ではなかった。
評価とは、
どこを見るか
何を良しとするか
の組み合わせだった。
今回の評価は、
構造を見るもの
論点を見るもの
意味を見るもの
に分かれていた。
しかし、
どれを優先するのか
何を一致とみなすのか
その定義は置いていなかった。
だから、評価が揃わない。
問題は、評価がズレたことではなく、
評価をまとめるための軸を最初から持っていなかったことだった。
この状態で評価を増やすとどうなるか。
判断材料は増える。
しかし、判断の軸がない。
すると、
問いだけが増える。
「どの評価が正しいのか」
「どこを直すべきなのか」
「そもそも今の方向でいいのか」
答えではなく、問いが増えていく。
結果として、判断が止まる。
そこで、評価のやり方を変えた。
評価を変えたというより、その前にやることを変えた。
先に、基準を置いた。
参考記事の特徴を、次のように整理した。
・論理の歩幅
・筆者スタンス
・情報の優先順位
・文体トーン
何を再現するのかを、先に決めた。
その上で、評価を行った。
一致率だけでなく、
・過剰
・欠落
・変質
という形で、ズレを見た。
評価の役割が変わった。
数値を出すものではなく、
ズレを見つけるものになった。
ここでようやく、評価が判断に使える形になった。
AIを使って評価を行うと、次の状態に入ることがある。
評価が増えているのに、判断が進まない。
この状態では、どれだけ評価を増やしても、判断は進まない。
むしろ、
評価が増えるほど、方向が見えなくなる。
今回止まったのは、この状態に入ったときだった。
評価は出せる。
しかし、
何をもって良いとするかを決めていないと、その評価は使えない。
評価に頼る前に、何を再現するのかを決める必要がある。
評価は、その後に使うものになる。
評価は客観だと思っていた。
しかし実際には、評価は基準に依存していた。
だからこそ、評価は使える。
ただし、基準がある場合に限る。