MIT論文「バイラル研究」を完全論破

AI研究
この記事は約14分で読めます。

この動画は、「MIT研究で95%のAI導入が失敗」という見出しで話題となった論文について、実際の内容を詳細に検証したものである。メディアの報道と論文の実際の内容には大きな乖離があり、失敗した5%は汎用LLM(ChatGPTやClaudeなど)ではなく、高額なカスタムAIツールを指していることを明らかにしている。一方で汎用LLMは83%という高い導入成功率を示しており、90%の従業員が個人的にAIツールを業務で活用する「シャドウAI経済」が形成されていることも論文は示している。

MIT Viral Study DEBUNKED
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

MITのバイラル論文を検証する

こんな見出しを見たことがあるやろ。MIT研究によると、企業の生成AI導入の95%が失敗してるって報告や。95%の生成AI導入プロジェクトが失敗、ただの誇大宣伝で変革は少ないって話やな。95%の組織がAI投資でゼロリターンやったとMIT研究で判明したって。めっちゃ大きな見出しやん。

ただ、一つ問題があるねん。誰もこの研究を実際に読んでへんのちゃうかってことや。

実際の研究は、ここで言われてる主張を本当に裏付けてるんやろか。調べてみよう。

研究の実態を探る

これがその研究や。「生成AI格差:2025年ビジネスにおけるAIの現状」っていうタイトルで、MITから出されたもんやな。研究期間は2025年1月から6月までや。52の組織、300の公開されたAI取り組み、153人のシニアリーダー、そして一般の会社員も調査対象に含まれてる。

要約を見ると、生成AIに300億から400億ドルの企業投資がされたにも関わらず、統合されたAIパイロットプログラムのうち、数百万ドルの価値を生み出してるのはたった5%だけやって書いてある。これをちょっと詳しく見てみよう。

まず最初に、ChatGPTやCopilotみたいなツールは広く導入されてるって言うてる。80%以上の組織がそれらを探索したり、パイロット運用したりしてるんや。

ほとんどの会社が使おうと試みてて、約40%が実際に展開を報告してる。この研究で理解せなあかん最初のポイントは、AIをどう定義してるかってことやな。みんな勝手に自分の都合のいいように使ってる言葉やからな。FortuneやForbesの記事みたいに、多くの記事ではLLMの話をしてないことに言及してへん。

研究結果の詳細分析

生成AIって言うたら、みんなそれを思い浮かべるやろ。実際の結果を示したチャートがこれや。この論文が発表してる最終結果やな。濃い青は汎用LLMを表してて、ChatGPT、Claude、Gemini 2.5 Proなんかのことを指してる。僕らが使って愛用してるやつらやな。

薄い青は組み込み型または特定タスク向けの生成AIや。これが具体的に何を意味するかの例は提示されてへん。成功事例についても話してるけど、後で戻るとして、これが具体的に何を指してるかはちょっと曖昧やな。

でも汎用LLMについては重要なことを理解せなあかん。これが今めっちゃ騒がれてるもんやろ。ChatGPTモーメント、GPT-4、全部汎用LLMから始まったもんや。調査した会社の80%が汎用LLMを使ってる。

50%の会社が何らかの形でパイロットプログラムを作って、それをワークフローに統合しようと試みてる。つまり「試してみよう」って言って、実際に展開したってことや。50%の会社がそうしてて、そのうちの40%が成功した実装、つまり長期的に使い続けることを決めたってことやな。

つまり、LLMを試すことを決めた会社の80%が、結果的にそれを使い続けてるってことや。あの5%の成功プロジェクトってのは、組み込み型または特定タスク向けの生成AIの話で、LLMの話やない。

成功の定義とROI

この場合、何を成功とカウントしてるんやろか。これは会社が社内でパイロットプログラムをすることを選択した場合のことや。これが何を意味するかを理解するのは重要やで。つまり、トップレベル、リーダーシップが何らかの新しい会社特有の生成AIツールを導入することを決定して、それを自分たちで構築するか、外部の誰かを雇ってやってもらうかしたってことや。

ちなみに、他の会社を雇ったり、ベンダーと組んだり、複数の人と提携してソリューションを作ってもらったりするのは、成功率が2倍になる。

多くの問題は、会社が自社でこれを構築しようとすることからも来てるんや。そして、パイロットプログラムを開始してから6ヶ月後、ステークホルダー、リーダーシップ、インタビューを受けた人たちがこんな質問を受ける。「生成AI導入で測定可能なROIを観測しましたか?」

もし「はい」って答えたら、それは成功としてカウントされる。「はい」って言ったら成功欄に、「いいえ」って言ったら失敗欄に入れられるんや。だから、これらの数字が何を意味するかは少し曖昧やな。

シャドウAI経済の実態

でも、全く曖昧やないことがある。シャドウAI経済や。ここで言うてるように、AIはすでに仕事を変革してる。ただし、公式チャンネルを通してやない。

僕らの研究では、従業員が個人のChatGPTアカウント、クラウドサブスクリプション、その他の消費者向けツールを使って、仕事の大部分を自動化してる活発なシャドウAI経済を発見した。

従業員たちが影でこっそりと、様々な生成AIツール、LLMを使って仕事の大部分を自動化してるんや。多くの場合、IT部門の知識や承認なしにな。

その規模は注目すべきもんや。公式のLLMサブスクリプションを購入したって言う会社は40%だけやったのに、90%以上の会社の従業員が個人のAIツールを業務タスクに定期的に使ってるって報告してる。

これはその数字を逆転させてるようなもんやろ。5%のイニシアチブしか機能してないけど、でも何や、90%の従業員がLLMを使って仕事の大部分を自動化してるって。

実際、ほぼ全ての人が何らかの形でLLMを仕事に使ってる。ChatGPTは企業ツールに勝ってる。なぜなら、同じようなモデルを使ってても、より良く、より速く、より馴染みがあるからや。

具体的な事例分析

ここで例を挙げてる。中規模法律事務所の企業弁護士がこのダイナミクスを典型的に示してる。彼女の組織は専門の契約分析ツールに5万ドルを投資した。

これは、どこかのベンダーが「おお、この魔法のAI製品で全ての契約を分析して、いろいろ提供するで」って売り込んできたツールの一つや。彼女にこの魔法のAIツールを売ったんやな。

でも彼女は一貫してChatGPTを下書き作業に使ってる。「ベンダーは同じ基盤技術を使ってるって主張してるのに、ChatGPTの方が一貫して良い結果を出す」って言うてる。

このパターンは、月20ドルの汎用ツールが、同じタスク用に作られた桁違いに高い専用企業システムを上回ってることを示してる。

分かるやろ。5万ドルで性能の悪いもの対月20ドルでめちゃくちゃ良く動くもの。後者は、これらの会社の従業員の90%が使ってて、時には秘密裏にな。

これらの会社が汎用LLMをパイロット運用する時の約80%で、結局それを使い続けることになってる。だから導入率は高いし、成功率も高い。みんなこれらのLLM使ってる、みんなや。めちゃくちゃ成功してる。

重要な洞察

これを理解するのは重要や。「おお、AIは詐欺や。機能せえへん」とか言う人たちにたくさん出会うからな。確かに、僕個人は5万ドルの契約分析ツールに金を払ったことはない。

でもそれが実際に詐欺で、性能の悪いものを売って誰かがたくさん金を儲けたとしても驚かへん。様々なLLMツールは僕が毎日使ってて、めちゃくちゃ満足してる。僕の仕事の多くを自動化してくれる。契約の分析、リサーチ、コーディング、本当に何百万もの違うことに使ってる。

これなしで生活するのは嫌やな。だから覚えといて。あの5%、95%が失敗して5%だけ成功するって話は、汎用LLM、ChatGPT、Claude、Gemini、Grokなんかの話やない。それらの話やない。

多分ChatGPTのラッパーで、もっと悪い仕事をするのに誰かが5万ドル請求することに決めたやつの話やろう。20ドルでできることに5万ドル使って、良いROIが出るやろか。多分やない。悪い決断やろう。

成功例から学ぶ教訓

でも成功した5%からも学べることがあると思う。一つは戦略的パートナーシップや。つまりツールを購入する場合な。外部の会社、ベンダーから何かを手に入れる。どこかのベンダーと共同開発するかもしれへん。これらは、これらの会社が自社で開発しようとするより2倍成功する可能性がある。

専門家にこのツールを設計してもらったら、成功の可能性は高くなるけど、それでも多分一桁台やろう。

もう一つ分かったことは、その5%の成功プロジェクトからのROIの多くが、バックオフィスでの勝利やったってことや。ほとんどの人がフロントオフィス的なことの実装に集中してるのにな。

これはどういう意味やろか。フロントオフィスでは、リード認定速度が40%速くなった。顧客維持も少し良くなった。それはそれで良い。でもバックオフィスでの勝利はかなり大きかった。

BPOはビジネスプロセスアウトソーシングや。第三者に仕事の一部を任せることやな。外部の会計士を雇って会計をやってもらうのもBPOの一例やな。

BPO削減で、カスタマーサービスと文書処理で年間200万から1000万ドルや。どこかの会社が200万から1000万ドルを削減できた、あるいは複数の会社かもしれへんけど、かなり大きな金額やな。カスタマーサービスや文書処理の契約をキャンセルして、AIで処理できるようになったんや。

これは非常に現実的で非常に大きな勝利や。エージェンシー支出の削減もあって、外部のクリエイティブやコンテンツコストが30%減少した。マーケティングやその他の用途で、支出を30%削減したんや。これもかなりの額やな。

金融サービスのリスクチェックでは、外部委託のリスク管理に年間100万ドル支出してたのを削減した。

メディア報道の問題点

この論文から興味深いポイントがいくつかあったな。でも、この5%が何を表すか明確に区別せずに報告してる人がいるなら、それは汎用LLMを表さへん。これはChatGPT、Claude、Gemini、Grokなんかやない。オープンソースLLMでもない。これは他の何かのプロジェクトで、その弁護士が言うてたみたいに5万ドルもする特別な契約分析ツールで、ChatGPTの方が良い仕事をするようなもんのことや。

これがそのカテゴリーやな。でも、彼らは20%の会社だけがこれらのプロジェクトをパイロット運用してることにも注目や。20%の会社がパイロットしてて5%が成功してる。ってことは、パイロットプロジェクトの25%が最終的に機能してるってことやろ。僕の計算が間違ってたら訂正してや。

この数字、20%の会社がこれらの特定タスク向け生成AIのうちの一つをパイロットすることを決めて、この数字はROIがあって6ヶ月後も続けることを決めたもんの数やな。それが勝利条件や。

ってことは、パイロットプロジェクトの25%が長期使用されてROIを示すことになったってことや。何か見落としてるか教えてや。でも、これ以上の情報はあんまり提供されてへん。収集したデータを全部見せてくれるようなデータはない。

だからちょっと推測せなあかんところもあるけど、僕はそう読んでる。ここで注目してや。汎用LLMの50%がパイロットされて40%が成功実装された。下のところでそれについて話してる。汎用LLMチャットボットは約83%という高いパイロットから実装への率を示してるって言うてる。

でも、そうするとこれは25%になるはずやろ。20%の会社がAIプロジェクトをパイロットして、5%の会社がROIを示してる。これはこの数字の5%やなくて、調査した会社全体の5%や。

ここで言うてるのは、企業の5%だけがワークフローにAIツールを大規模に統合してるってことや。でも論文全体が非常に曖昧や。彼らの数字が正確に何やったか理解するのがめちゃくちゃ難しい。

その5%って何なん。それが何なのか理解するのがめちゃくちゃ難しい。意図的にそう書かれてるのか分からんけど、何か変な感じやな。この論文について明確なのは、汎用LLMが絶対に圧勝してるってことだけや。

企業側からもめちゃくちゃ導入されてるし、彼らが「シャドウAI」って呼んでるシャドウ経済でも、従業員たちが「会社が金を払わへんでも、この作業にはChatGPTを使うで」って感じで、会社のIT部門が問題視してても、あまりにも価値があるから自分の金を払ってでも使うし、場合によっては見つかったら叱責や解雇のリスクもあるのに、こっそり使ってるんや。

報道の誤解と実態

ChatGPTを使って解雇されることはないやろうけど、明確な許可なしに使うのには何らかのリスクがあるやろな。

きっと誰か、こういうことを書いてるレポーターの一人は、この研究を読んで僕が言うてることを理解してるはずやって思うかもしれへん。Forbesを見てみよう。彼らはAIツールって呼んでる。

企業の5%だけがこれらのAIツールをワークフローに組み込むことができたって言うてる。論文が言うてることとLLMとこれらの他のカスタムツールとの区別は全然してへん。区別なしで全部同じカテゴリーに放り込んでて、ChatGPTみたいな高い導入率、高い使用率を得てるツールも全部含まれてるような感じにしてる。

でもそれは真実やない。この記事のどこにもLLMについて言及されてへん。区別も引かれてへん。LLMについて言及すらされてへん。ただAIツール全般って感じや。論文の結果が示してることとは違うのにな。

Fortuneマガジンを見てみよう。「MIT報告書:95%のAIパイロットが失敗、投資家を動揺させる」ジェレミー・カーンの記事や。これは嘘や。この論文は、カスタム企業AIツールの5%が本格運用に到達してるって示してる。企業の5%だけがワークフローにAIツールを統合してるって。

このFortune記事のどこにも、LLMと研究が実際に焦点を当ててるAIツールの種類との区別は書かれてへん。この記事で彼は、組織の人々がAIツールを適切に使用する方法や、AIの利点を捉えつつダウンサイドリスクを最小化できるワークフローを設計する方法を単純に理解してへんって言うてる。

大言語モデルは簡単に見える。結局、平易な言語で指示を与えることができるからなって。でも、この研究プロジェクトについてみんなが作ってる見出しは、汎用LLMについてやなかった。それは僕らが何なのか全く分からん他のAIツールについてやった。それが5%や。

これらの会社はLLMを使ってる。パイロットしてる。実装してる。従業員の90%が使ってる。LLMが問題やないんや。

そして彼は続ける。「ウォートン教授のイーサン・マリクは、AIの真の利益は、企業がAIモデルに既存のプロセスに従わせようとするのを止めた時に来るって示唆してる。既存のプロセスの多くは、彼によると、何よりも官僚主義とオフィス政治を反映したもんで、単純にモデルに望ましいビジネス結果を生み出す独自の方法を見つけさせるべきやって」

これは第一原理から考えるってことやろ。僕らがこの官僚主義の混乱、システムの混乱を作り出したから、AIがそれを解きほぐせるか見てみようってやなくて、いや、僕らは本当に何を達成しようとしてるんや、AIがそこに到達するのを手伝えるかってことや。

そして彼は言う。マリクは規制要求の程度を過小評価してると僕は思うって。だから、この記事の著者は、イーサン・マリクが何かを理解してへんって思うてるんや。

イーサン・マリクはウォートン教授で、人工知能研究者で、ニューヨークタイムズのベストセラー作家や。僕が彼について好きなことの一つは、彼のSubstackニュースレター「One Useful Thing」を書いてることや。でも、このマガジンで働いてるジャーナリストに比べたら何でもないらしい。

記事を書いた人は全てを理解してるんやと。皮肉が分からん人のために言うとくけど、僕は皮肉を言うてる。イーサン・マリクを引用してるこの小さなセクションが、この記事全体で一番賢いことやと思う。

Tom’s Hardwareを見てみよう。「生成AI実装の95%が測定可能な影響を与えてない」って。ここで、ChatGPTみたいな汎用ツールがワークフローに適応せえへんから、95%が目標性能を達成してないって言うてる。

そんなことは真実やないし、少なくとも論文からのもんやない。そこに書かれてることで、論文に書かれてることと関係あるものは何一つない。何一つや。

entrepreneur.comも同じことを報告してる。成功する5%のプログラムについて言及してる。でもそれから続ける。「さらに、OpenAIやPerplexityのような第三者ベンダーからAIツールを購入する企業は、社内でAIツールを開発する企業よりも有利や」って。

いや、全然ちゃう。汎用LLMチャットボットは、83%のパイロットから実装への率を持ってる。それらが再び圧勝してるんや。良い仕事してる。あの5%は他の何らかのランダムな生成AIツールを開発したもんのことや。

僕はこれら全部が間違ってると思う。僕がおかしいんやろか。前に言うたことあるけど、誰もこれらの論文を読まへんって。冗談やない。誰も読まへん。

僕が開いて見たら、そこらの記者の中で実際にこの論文を見た最初の人かもしれへん。驚くことに、今回のこの特定の記事については、実際に論文を読んだ他の人をインターネット上で一人見つけた。

検証結果の総括

本当にショックやった。今まで経験したことないくらいショックで唖然としたわ。カイルっていう人がランダムに僕のフィードに現れた。今まで聞いたことない人やったけど、彼は論文を読んで多くの問題に気づいて、これらの雑誌に印刷されて新聞に掲載されてる見出しやその他のものが100%間違ってるって指摘した。

とにかく、どう思うか教えてや。僕はちょっと頭おかしくなってる気分やけど、ここまで見てくれたなら、本当にありがとう。また次の動画で会おう。

コメント

タイトルとURLをコピーしました