Mar 29, 2026 3:30:31 AM

AI実務ログ：AIで仮説を早く出そうとしたら、逆に迷走した話

椎名真弓

0｜実験ログ：仮説を早く出すための仕組みを作った

業務効率化のプロジェクトに入る前に、毎回ひとつ気になっていたことがあった。

クライアントと会話を始める前の段階で、
「この業務はどこまで効率化できるのか」という仮説を、
もう少し精度高く、かつ早く持てないか。

本来このフェーズは、

業務理解
↓
仮説構築
↓
すり合わせ

というプロセスを何度も往復しながら進める。
しかし、どうしても初動に時間がかかる。

そこで試したのが、業務効率化の「試算」をAIで事前に組み立てる仕組みだった。

対象となる業界の業務を洗い出し、
カテゴリーごとに分解し、
各タスクについて「どの程度効率化できるか」を仮説として算出する。

さらに、その結果をもとに、提案のたたき台となるスライドまで一気に生成する。

目的はシンプルだった。

クライアントと話す前に「当たり仮説」を持ち、初動のスピードを上げること。

このプロセスは、できるだけ恣意性を排除するために、複数のAIを役割分担させて構築していた。

業界選定やリサーチはPerplexity。
業務分解や粒度調整はClaude。
全体の統合やアウトプット生成はChatGPT。

さらに、最終的な判断は人間が行う前提で設計し、一つのAIの出力に依存しないようにしていた。

構造としては、

業界選定
↓
業務構造の整理
↓
タスク分解
↓
効率化手段の整理
↓
時短効果の試算
↓
スライド生成

という流れを、チェーンプロンプトでつないでいく。

自分なりに、かなり綿密に設計したつもりだった。

抜け漏れなく、ダブりもなく、それぞれの工程がきちんとつながっている。
どこか一部だけが良いのではなく、全体として矛盾のない構造になっている、という感覚があった。

実際に出てきたアウトプットも、かなりそれらしく見えた。

業務ごとに整理された効率化案。
具体的なツールの適用可能性。
そして、それぞれのタスクに対する削減時間の試算。

数値も出ており、構造も整っていて、提案資料としてそのまま使えそうな状態まで仕上がっていた。

「これは使えるかもしれない」

そう思えるだけの完成度だった。
少なくとも、初動の仮説としては十分に機能するはずだと感じていた。

1｜違和感は、かなり遅れてやってきた

違和感は、かなり遅れてやってきた。

最初は、アウトプットの完成度に意識が向いていて、細かい中身を疑うことはほとんどなかった。

むしろ、

ここまで整理されている
数値も具体的に出ている
論理的にも破綻していない

という状態を見て、「よくできている」と評価していた。

ただ、いくつかのタスクを並べて見ていたときに、ふと引っかかるものがあった。

削減率が、どれも似たような数値に収まっている。

50％前後。

60％を少し超えるものもあれば、40％台のものもある。
しかし全体としては、きれいにそのあたりに分布している。

その瞬間に、「こんなに揃うはずがない」と思った。

業務効率化は、そんなに均一に進むものではない。

あるタスクは大きく削減できる一方で、ほとんど変わらないものもある。
むしろ現実は、ばらつきが出る方が自然だ。

それにも関わらず、この結果は妙に整いすぎている。

そこで初めて、この試算そのものを疑い始めた。

AI実務ログ第6回

2｜本当に引っかかったのは、数字ではなかった

ただ、本当に引っかかったのは、その数字そのものではなかった。

それまで、この違和感に気づけなかったことだった。

自分自身、この業務はある程度理解しているつもりだった。

どこが効率化しやすく、どこが難しいかも、感覚としては持っている。

それにも関わらず、このアウトプットを見たとき、最初に出てきたのは疑問ではなく、納得だった。

「それっぽい」と思ってしまった。

構造も整っている。
説明も一貫している。
数値も現実的に見える。

その状態を前にすると、内容の妥当性よりも、整合性の方を先に信じてしまう。

結果として、疑うべきポイントを見逃したまま、そのまま進めてしまいそうになっていた。

もしあのとき、あの「揃いすぎた数字」に違和感を持たなければ、この仮説を前提に、そのまま議論を進めていたと思う。

そしてその場合、議論の方向そのものが、最初からずれていた可能性がある。

3｜起きていたのは、単純な試算ミスではなかった

今回起きていたことを振り返ると、単純に「AIの試算が間違っていた」という話ではなかった。

むしろ問題だったのは、そのアウトプットが「間違っているように見えなかった」ことだった。

AIの出力は、一つひとつを見ると、それなりに妥当な要素で構成されている。

業務の分解も、効率化の手段も、使われている用語も、
どれも間違っているわけではない。

それらが矛盾なくつながり、一貫したストーリーとして並べられると、全体としての整合性が生まれる。

そしてこの整合性が、内容の妥当性よりも先に、信頼を作ってしまう。

今回のケースでも、

業務構造は整理されている
タスク分解も粒度が揃っている
効率化手段も一般的に妥当
数値も極端ではなく現実的に見える

という状態が積み上がっていた。

その結果、「一つひとつを疑う理由が見つからない」状態になる。

しかも、対話の中で改善を重ねていくと、この感覚はさらに強くなる。

修正を入れるたびに、

表現が整う
構造が整理される
抜け漏れが補完される

という変化が起きる。

すると、「より良くなっている」という実感が生まれる。

ただ、この「改善している感覚」の中で起きているのは、必ずしも質の向上とは限らない。

今回起きていたのは、むしろ逆の現象だった。

4｜改善していたのではなく、適応していた

AIの出力に合わせて、思考の前提そのものが少しずつ調整されていく。

最初は仮説として置いていたはずの前提が、整合性のある形で繰り返し提示されることで、
徐々に「疑わなくてよいもの」に変わっていく。

その結果、仮説が固定化されていく。

しかもこの固定化は、破綻や違和感を伴わず、むしろ「きれいに整理されていく」形で進む。

だからこそ、気づきにくい。

今回の一連のプロセスも、

仮説を出し
↓
それを整え
↓
さらに精緻化する

という流れの中で、

結果的には「特定の評価軸に適応した状態」に収束していた。

それは、現実の業務を反映した仮説というよりも、「もっともらしく見える構造」に最適化された仮説だった。

改善していたように見えて、実際には、特定の前提に沿って思考が整形されていただけだった。

5｜そこで初めて見えた、設計上の問題

今回の経験から、ひとつ明確に感じたことがある。

仮説を早く出すために使っていたはずのAIが、結果的に、判断を遅らせていた。

そしてその原因は、単純な精度の問題ではなかった。

むしろ、

構造が整っている
論理が一貫している
数値もそれらしく見える

という状態そのものが、判断を鈍らせていたように思う。

つまり、問題は「間違った出力」が出ることではなく、「疑いにくい出力」が生まれることだった。

この前提に立つと、AIの使い方も少し変わってくる。

たとえば、数値をそのまま受け取るのではなく、
その数値が成立するための前提や、成立しないケースを先に洗い出す。

あるいは、一つの仮説を精緻化するのではなく、
あえて複数の仮説を並べて、どれか一つに固定されない状態を保つ。

「整える」方向ではなく、「揺らす」方向の使い方に寄せる、という発想である。

ただ、こうした対応を入れたとしても、まだ十分ではない気もしている。

制約を加えることも、仮説を分岐させることも、結局は同じ構造の中での調整に過ぎない可能性がある。

今回起きていたのは、出力の問題というよりも、
「思考が特定の枠に収束していく構造」そのものだったのではないか。

そう考えると、単純にプロンプトを改善するだけではなく、AIを使う前提として、

どの段階で疑うのか
何を疑うのか
どこまでを仮説として扱うのか

といった「扱い方」自体を、もう一段上で設計し直す必要があるのかもしれない。

6｜今回止まったのは、ここだった

まだはっきりした答えは出ていない。

ただ、少なくとも今回の経験から、強く意識しておくべき前提は見えた。

改善は中立ではない。整っているものほど、疑いにくい。

AIは仮説を速く出してくれる。それ自体は間違いなく強い。

ただ、その速さと整合性が、そのまま判断の質につながるとは限らない。

むしろ、「改善している感覚」の中で、気づかないうちに一つの前提へと適応してしまうことがある。

今回、逆に迷走したのは、AIの精度が足りなかったからではなかった。

整っているものを、整っているという理由で信じかけてしまったからだった。

この構造を見落としたままAIを使うと、仮説を早く出すための手段が、逆に判断を遅らせるものになってしまう。

今回止まったのは、まさにその地点だった。

適応設計, AI思考ログ

AI実務ログ：AIで仮説を早く出そうとしたら、逆に迷走した話

0｜実験ログ：仮説を早く出すための仕組みを作った

1｜違和感は、かなり遅れてやってきた

2｜本当に引っかかったのは、数字ではなかった

3｜起きていたのは、単純な試算ミスではなかった

4｜改善していたのではなく、適応していた

5｜そこで初めて見えた、設計上の問題

6｜今回止まったのは、ここだった

関連記事

AI実務ログ：AIでリサーチを進めたら、情報を絞っていたのに決められなくなった

AI実務ログ：AIに違和感を解消させようとして、別のAIに聞いたら迷走した理由

AI実務ログ：AIに任せるほど、なぜ判断が止まるのか