この動画は、2025年に広く拡散されたMIT発の「企業の生成AIパイロットの95%が失敗している」という主張を検証する内容である。実際には、その数字は調査結果の誤読に基づいており、調査そのものもサンプル数の小ささ、未査読、利益相反の未開示、結論の誘導性といった問題を抱えていたと指摘する。AIそのものの成否よりも、権威あるブランド、メディアの見出し、投資家心理が結びつくことで、弱い根拠の話が世界的な常識になってしまう危うさを描いた批判的解説である。

MIT研究の見出しが生んだ巨大な誤解
昨年8月にテクノロジーニュースを追っていたなら、企業における生成AIのパイロット導入の95%が失敗していることを示したという、このMITの研究について、ほぼ間違いなく耳にしたはずです。この結果は、Nasdaqの売りを引き起こす一因になるほど大きなものでした。
人々は、こんなにもおかしな話がどうして本当であり得るのか、もっともらしい高度な説明を一生懸命ひねり出しました。そしてそれはForbes、Axios、The Hill、Harvard Business Review、その他何十もの媒体で繰り返され、「AIは過大評価されている」という反動的な論調における定番となり、エリート層の意見の中でも最も長く残り、最も広く引用される統計の一つになりました。
問題は何でしょうか。この見出しの根拠になった研究が、想像以上に信じがたいほど弱いものだったことです。
しかも、その見出しは、たとえこの研究を完全にそのまま受け入れたとしても、研究が実際に見つけた内容を完全に誤って説明しています。
この研究をめぐる話は、魅力的な結論を持つおいしい見出しを見たときには、たとえそれがMIT発をうたっていたとしても、まったくのナンセンスかもしれないということを示しています。
95%失敗という数字は何を意味していなかったのか
まず知っておくべき最も重要な点は、このレポートは、ほとんどすべてのジャーナリストが主張したように、企業における生成AIのパイロット導入の95%が失敗していることを示してはいない、ということです。
むしろこのレポートが見つけたのは、調査対象となった全組織のうち、60%がカスタムの企業向けAIツールを調査・検討した、20%が実際にそれらを使った何らかのパイロットプロジェクトを行う段階まで進んだ、そして全体の5%が、それらのツールを本番環境へうまく導入するところまで進んだ、ということでした。
つまり、企業の80%は、カスタムでタスク特化型の生成AIをそもそも一度もパイロット導入していなかったのです。それを「95%が失敗している」と言うのは、Tinderユーザーの95%は結婚に失敗している、と言うようなものです。話題にしている人々の80%は、そもそも最初からデートにすら行っていないのですから。
さらに、その調査自身によれば、パイロットが本番導入へ進まなかった主な理由は、それらがうまくいっていなかったからではなく、非常におなじみで一般的な「新しいツールを採用することへの組織的な消極性」でした。
もちろん、完全に間違った数字を見出しに載せた点では、メディアに明確な責任があります。しかし、レポート自体も自分たちのグラフについて同じ間違いをしており、企業向けAIソリューションの95%の失敗率に言及しています。
これは間違いです。これらの結果が実際に示しているのは、カスタムAIツールを実際にパイロット導入した20%のうち、およそ25%、つまり4分の1が成功したということです。
これはパイロットプロジェクトの成功率として、特に低い数字ではありません。そして、世間に伝えられた数字よりも5倍高い成功率です。
成功の基準を考えると25%はむしろ高い
実際には、この研究で成功と見なされるためにプロジェクトが越えなければならなかったハードルを理解すれば、25%の成功率はかなり印象的です。
成功と認定されるには、AIアプリケーションが6カ月以内に、生産性または損益に対して「顕著かつ持続的な」影響を示す必要がありました。
彼らは「顕著」や「持続的」を定義していません。しかし、6カ月以内に収益性または生産性に顕著で持続的な改善をもたらすというのは、どんな新規プロジェクトにとっても明らかに高いハードルです。
企業向けテクノロジーの導入は、たとえかなりうまく進んでいたとしても、最終損益への影響が現れるまでに何年もかかることが多いというのは、広く理解されています。
そして、この基準ではどうなるかに注目してください。
単に収支トントンになるAIプロジェクトは、失敗です。
企業に何らかの利益をもたらしているものの、まだ生産性や利益に顕著な影響を与えていないプロジェクトも、失敗です。
来年には利益を出す見込みだが、まだ利益を出していないプロジェクトも、同じく失敗です。
もしかすると、この著者たちは、これらのプロジェクトがうまくいっていないという結果を見つけたがっているのではないか、という感じがしてきませんか。この点には後で戻ります。
ただし、もう一つ覚えておくべき重要なことがあります。これらのプロジェクトは2024年のAIモデルで動いていたということです。カップの中のビー玉は、カップを逆さにしたら落ちるということすら理解できなかった時代のモデルです。
当時のAIは、今日私たちが使えるものと比べれば、本当にひどいものでした。そんなモデルで4分の1のプロジェクトが容易に利益を出せたのだとしたら、もしそれが本当なら、実はかなり驚くべきことです。
企業AIの話なのに、日常的なAI利用が見落とされている
しかし、この研究結果の説明で最も奇妙な点には、まだ触れてすらいません。
ここまで話してきた数字はすべて、企業が何らかの特定の狭い用途のために開発または調達する、カスタムでタスク特化型のAIだけを対象にしています。
しかし、それは人工知能を使う最も一般的な方法でも、実際には最善の方法でもありません。私たちの多くは、仕事をより速く進めたり、より高い品質でこなしたりするために、ただChatGPTやClaudeやGeminiを使っています。
そして実際に、そのレポートは、調査対象企業の90%超で、従業員が業務タスクに生成AIを定期的に使っており、多くの場合は1日に何度も使っていることを見つけています。
つまり、本来の見出しとなるべき結果は、カスタムAIアプリケーションの4分の1が短期間で利益を生み、さらに調査対象企業のほぼすべての労働者が、個人用AIツールを定期的からほぼ常時に近い頻度で使っている、というものだったはずです。
ところが、なぜかこのレポートは、こうしたAIの使い方にははっきりと冷淡です。そして、これらのツールは「主に個人の生産性を高めるものであり、損益のパフォーマンスを高めるものではない」とコメントしています。
私はビジネスの終身教授ではないかもしれません。しかし、従業員一人ひとりの生産性が上がるなら、少なくとも組織をきちんと管理できている場合には、より少ない人員でより多くの商品を売れるということではないのでしょうか。そして、それは収益性を改善する何らかの機会をもたらすのではないでしょうか。
つまり、配送ドライバーにより速いバンを与えることは、その人個人の配送速度を高めるだけです。しかし、だからといって配送が速くなっても企業の最終損益には影響しない、ということになるのでしょうか。
サンプル数の水増しと小さすぎる調査規模
このレポートの最後の弱点として、この研究を主流に押し上げたFortuneの記事は、この調査がリーダー150人へのインタビューと従業員350人への調査に基づいていると主張していました。しかし、論文そのものを見ると、実際には52件のインタビューと、別の153人への紙のアンケートに基づいていることがわかります。
なぜFortuneはサンプルサイズを2倍から3倍に膨らませ、何十もの他のニュース媒体にも同じことをさせ、その記録を一度も訂正しなかったのでしょうか。これについての私の仮説は、この後で話します。
しかし、サンプルサイズが小さいことは本当に重要です。なぜなら、それは結果の不確実性の幅が実際には非常に大きいことを意味するからです。
成功したカスタムAIプロジェクトを持つ企業は5%だという発見は、どうやらその52件のインタビューだけに基づいているようです。つまり、その5%という数字は、おそらく52社中の実際の2社か3社程度に基づいているということです。
インタビュー1件か2件の結果が逆になれば、まったく違う見出しになっていたでしょう。本当の比率は、簡単に3倍高くも、3分の1にもなり得ます。これほど小さなサンプルからでは、まったく判断できません。
もっとも、そのことはレポートを読んでもわかりませんし、それを報じたジャーナリストの記事を読んでも、やはりわかりません。
誰も研究を読めないまま世界に広がった
しかし、事態はさらに悪くなります。
このケースでは、この論文が査読を受けていなかったり、外部の専門家によって精査されていなかったりしただけではありません。世界中のジャーナリストがこの話を報じようとしていた時点で、彼らが主張を正確に説明し、それが本当に筋が通っているのか考えられるようにするための記事すら、入手可能ではありませんでした。
実際、Fortuneの記事が猛烈に拡散したとき、方法と結果を説明するレポートは、どこにも一般公開されていませんでした。
基礎となるレポートへのリンクは、冗談ではなく、Googleフォームにつながっていました。そこでは、個人情報を入力し、なぜ彼らの組織に関心があるのか、そしてagentic webをどのように使う予定なのかを説明することで、PDFを具体的にリクエストするようになっていました。今でもそのリンクはそのフォームに飛びます。
要するに、この調査は世界中で拡散し、市場を動かし、AI言説を大きく形作る流れにすでに乗っていました。そして、多くの人がどうしても信じたかったことを語っていました。メディアも一般の人々も政策立案者も、それを読んで、その見出しの結論が、ほんの一握りにも満たないカスタムAI導入事例に基づいているかもしれないと確認できる前に、です。
これがメディアのインセンティブというものです。
なぜこの弱い研究がAI論争の定番になったのか
では、優れた研究でも、ましてや良い研究でもないのだとしたら、なぜこれは2025年にAIについて書かれたものの中で、最も広く引用されるものの一つになったのでしょうか。
説明の大きな部分は、MITというラベルにあるはずです。
これを有名にしたFortuneの記事と同じように、私を含む全員が、すぐにそれを「MITの研究」と呼ぶようになりました。
私たちは即座にその結果を非常に真剣に受け止めました。なぜなら、頭の中では、MITのビジネススクールや経営大学院から出た、しっかりした査読済み論文、あるいは少なくとも、この種の社会科学研究を専門とする人々が行ったプロジェクトを想像していたからです。
しかし、そうではありませんでした。
これが査読を経る学術論文として意図されていたことを示すものはありません。
著者は、MITの教授とポスドク研究員で、どちらも現在はAIエージェントのフレームワークに取り組んでいます。さらに、AIエージェントに関わるMicrosoftのプロダクトマネージャー、そしてagentic AIシステムの開発と商業化にも取り組んでいるスタートアップ創業者です。
利益相反と都合のよすぎる結論
そして、ここにはもう一つ非常に問題のある側面があります。
このレポートの主な結論の一つは、AIツールがビジネスで十分に広がっていないのは、学習、記憶、文脈への適応が欠けているからだ、というものです。そして、その解決策はAIエージェントのフレームワークだと言っています。偶然にも、それは彼ら全員が現在開発しているか、売ろうとしているものとまさに同じ種類のものです。
その後、このレポートはNANDAを具体的に名指しします。NANDAは、4人全員が何らかの形で関わっているプロジェクトです。そして、自分たちが今まさに特定した問題を解決するための最良の道筋の一つとして紹介しているのです。
このレポートを読んでいると、彼らによる調査結果の解釈が、私にはほとんど意味をなさないと感じる箇所が他にもたくさんありました。しかし、それらは一貫して、彼らのAIエージェントフレームワークが企業にとって本当に不可欠である、という結論へ導いているように見えます。
ああ、それから、証拠によれば、それらは社内で開発するのではなく、外部組織から購入すべきであることも、どうやら間違いないようです。
ここですべてを取り上げる代わりに、最も目立つ例のいくつかは、動画説明欄にリンクした文書にまとめておきます。
しかし要するに、このグループは、私の見方では控えめに言ってもデータの解釈にかなり無理がある研究レポートを発表し、現在のAIは失敗している、そしてその解決策はまさに彼ら自身が構築し販売している技術である、と結論づけたのです。
そしてこれはMITブランドのもとで宣伝されました。利益相反の開示はありませんでした。彼らの雇用主ではなく本人たちの見解を反映したものだという注記があるだけでした。
公平を期すために言えば、彼らが自分たちの作っているものは有用であり、企業のAI導入に役立つと本気で信じていることは確かだと思います。そして、それは十分に正しいかもしれません。おそらく実際に正しい可能性も高いでしょう。
しかし、ここにあるものは、ジャーナリストや一般の人々や投資家が、MITの研究がAIは企業の助けになることに完全に失敗していると証明した、と聞かされたときに頭に思い描いていたものとは、まったく別物です。
本当の教訓はAIではなく情報流通の危うさにある
ご覧のとおり、ここでの本当の教訓は人工知能についてのものではありません。この研究は、AIについてどちらの方向にも何か新しいことを教えてくれるほど良いものではありません。
これは、52件のインタビューと153件の調査結果、不透明で非常に疑わしいデータ分析、開示されていない利益相反、そして驚くほど都合のよい結論に基づく、わかりにくいレポートが、MITのお墨付きを得て、Fortuneを通じて拡散し、Nasdaqを動かし、そして誰もその研究を読むことすらできないうちに、文字通り何千万人もの人々に記憶される常識になってしまうという話です。
AIについてどう考えているにせよ、それは私たちを不安にさせるべきです。


コメント