この動画は、ハーバード大学とMITの研究者による最新の研究論文を基に、現在のAIシステムが持つ根本的な理解の限界について解説している。研究では、AIが理論的概念を正確に定義できても、それを実際の問題解決に応用する際に大幅に失敗することが明らかになった。これを「ポチョムキン理解」と呼び、表面的な能力の裏に真の理解が欠如していることを指摘しており、現在のAIベンチマーク評価手法の根本的な見直しの必要性を提起している。

AIの限界に関する新たな発見
こんにちはコミュニティの皆さん。お帰りなさい。ハーバード大学とMITによるAIの限界に関する全く新しい発表があります。これは素晴らしいことです。なぜなら、この一週間で私のAIとは何か、そしてAIが何を可能にするのかという理解が完全に変わったからです。
そしてそれは4、5日前に、OpenAIのo4 miniモデルが戦略的な方法で私に嘘をついていることを発見したことから始まりました。そして私は2025年6月23日の5つの新しい論文を調査しました。これらもまた、さらなる限界を示してくれました。
そして私はこの動画を作成し、サイエンスAIを紹介しました。ご存知のように、我々がAIを持つ大きな希望は、新しい研究を見つけること、新しい薬を見つけること、新しい治療法を見つけること、火星への道を見つけることです。しかし、それは機能していません。サイエンスAIは多かれ少なかれ完全な失敗なのです。これはクニーマル大学による美しい発表です。
私の最後の動画では、コードLLMを使っても、それがコーディングの仕方を学ばないことを示しました。そして古典的なRAC方式でここでコードを検索したい場合、それは全く機能せず、何か他のものが必要になります。
AIハイプの見直しが必要な時
ですから私にとって、今こそ「ストップ」と言う時だと思います。AIに関するハイプを止めるのです。すべてが完璧だ、AIはすべての解決策だという。もうやめましょう。
ここで研究論文を見てみましょう。そして、これらすべての研究と論文を見て、私は現在のシステムのこれらの無能力がどれほど深いものなのかと言います。そして私は大規模言語モデルに焦点を当てています。そして私はシンガポールのML大学、清海大学、IBM研究所による結果をここに示しました。しかし、私は核心がもっと深いところにあると思います。
ですから、AIシステムが何らかの理解を持っているという錯覚について話しましょう。これは狂気じみて聞こえることは分かっています。私たちは毎日AIと一緒に仕事をしていますが、ちょっと待ってください。
ポチョムキン理解の概念
MIT、ハーバード大学、シカゴ大学による新しい研究があります。彼らは、私たち人間が思考において戦略的な間違いを犯したのかもしれないと言っています。なぜなら、AIシステムがあって物理の試験があり、AIがA+を取ったとすると、当然、それが物理を理解した、内容を理解した、関係を理解した、今や物理を理解したと仮定するでしょう。
そして、今度はA+で合格したばかりの理論物理学のまさにその概念を適用して簡単な問題を解くよう求めると、同じAI機械が今度は完全に失敗するのです。これがMITが「ポチョムキン理解」と呼んでいるものです。
それは単なるファサードです。その背後には何もありません。2次元の表面の背後に3次元の実体はありません。それは美しい表面、2次元ですが、全く深みがないのです。そして彼らは、AIが与える能力のファサードが輝いて見えることで、例えば理論物理学の真の概念的把握という人間とは似ても似つかない深い空洞を単に隠しているだけだと言っています。
現在のベンチマーク手法の問題
彼らは、現在の我々のアイデア、人間のベンチマークを取って少し修正したり、コードベンチマークを修正して、それらのベンチマークがAIにとっても完璧なベンチマークだと考えることは、この考えは欠陥があるかもしれないと言っています。
彼らは、これらのモデル、AIモデルはテストを通過することは素晴らしいが、それらを何かを行うために展開しようとした瞬間、現実世界で予測不可能な方法で失敗すると言っています。
我々はAIを理論のためだけでなく、現実世界の問題にAIを適用したいのです。多くの企業が人間の労働力を削減し、AIが生産し、働き、その知識を使用できるという錯覚を持っていますが、失敗率について全く知りません。
ですから、MITとハーバードによるこの研究は、実際に我々がAIに適用し、ああAIはほとんど完璧だ、AGIは来週火曜日に達成されるだろう、そしてASI、超知能は8月には達成されるだろうと考える、我々のベンチマークパラダイム全体の再評価なのです。これは完全に間違っていることが判明しました。
LLMの不整合な振る舞い
これは、LLMがなぜ信じられないほど知的で美しく、豪華で素晴らしく聞こえるのに、次の瞬間には無意味で完全に一貫性のない言葉のサラダを返してくるのかを説明します。そしてあなたは「これはどうして可能なのか」と言います。
興味深いことに、この新しい論文はある種の橋渡し機能を持っています。それは私たちに「あなたが知っているように、私たちが言われてきたことは幻覚かもしれませんが、幻覚以上のものかもしれません。核心は単なるシステムの幻覚よりも深いかもしれません。概念的整合性がAIシステムに単に欠如しているという、より深刻な批判があるかもしれません」と告げています。
これは相当な挑戦ですね。そしてここに2025年6月26日に発表された「LLMにおけるポチョムキン理解」があります。MIT、シカゴ大学、ハーバード大学による研究です。
研究の具体的な発見
この研究の著者たちは素晴らしく、私はこの研究を愛しています。彼らは、LLMの誤解が人間のパターンから逸脱する場合、パターンを記憶しているだけで、基礎となる概念を全く理解することなく、異なるベンチマークで成功できると教えてくれます。しかし、真の理解はありません。
彼らは、これが起こったとき、「ポチョムキン村」と呼ぶ病理が生じると言っています。
例を挙げてみましょう。ここにGPT-4 omniがあり、「abab韻律スキームとは何ですか」と聞くと、正しく戻ってきます。これは正しい概念です、これは理論的理解の正しい概念です、絶対に。
そして「ここでabab韻律スキームを使用する結果の詩になるように空白を埋めてください」と私たちが今尋ねた韻律スキームについて言うと、それは単語を挿入します。そして同じGPT-4 omniに「あなたが挿入した単語は、詩の中のここの単語と本当に韻を踏んでいますか」と尋ねると、答えは「いいえ」です。そしてこれは正しい答えです。
概念的理解は素晴らしかったが、概念を行動に、現実世界での実行に適用することに完全に失敗しました。そして、それが失敗したこと、韻を踏んでいないことを、その啓示において理解していました。これは少し奇妙だと思いませんか。
大規模な実験結果
彼らは、概念の定義について、詳細は論文を読んでいただきたいのですが、私がここで示すよりもはるかに詳しく説明していますが、もしそれが概念を理解しているなら、なぜ概念を正しく使用することに失敗するのかと言いました。
彼らは多くのテストを行いました。7つの主要なLLMがあり、異なる複雑さの32の概念があり、すべて論文で見つけることができます。それは素晴らしく、7つの主要なLLMすべてが概念の定義について95%の時間で成功しました。これがあなたが「ああ、これもマーケティングが我々に売っているものです」と言うところです。95%、我々はAGI、ASI、ハイパー何でもにほぼ近いです。
そして彼らは単純に「これを使って、Nを使って何かしてください」と頼みました。そしてここに、Llama 3.3、Claude 3.5、GPT-4 omni、Gemini 2.0、最新のDeepSeekバージョン3ではなく、DeepSeek R1、o1(3ではなく2)、ビジョン言語があります。
彼らは、分類、生成、または一般的な編集のために、私たちの新しいポット率とは何かと言いました。それは、モデルがその概念を正しく定義したという条件の下で、概念について間違って答えられた質問の割合です。
私が今示したものを忘れて、単一の概念や単一のLLMについて、一般的にLLMの大多数が間違いを犯します。これはあなたが望むものではありません。このポチョムキン率、つまり概念の正しい定義後の使用タスクでの不正確な答えの率は高く、分類で55%、生成と編集で約40%でした。
知識と実行の断絶
知識を適用しなければならないときに、これほど大規模に失敗することがどうして可能なのでしょうか。私たちは医療、薬理学、金融、理論物理学、数学でAIを使用していますが、理論的概念を説明するためだけでなく、AIに積極的に何かを行わせたいのです。
そして今、著者たちは、これは理論的概念を知ることと何かを行うことの間の強い断絶を実証していると教えてくれます。そして私は「ちょっと待って、これは意味をなさない。AIよ、あなたはAIが物事の仕方を知らないと私に言いたいのですか」と思いました。そして私がこれを声に出した瞬間、私は「ちょっと待って」と言いました。
人間である私は、ほぼ同じ環境で「知ること」と「行うこと」を組み合わせます。しかしAIにとってはそれは同一ではありません。なぜなら、MITによって見られたように、AIは多くのことを知っているが、AIは必要な精度で物事を行うことができないからです。
これは、この絶対的に明確な分離を見た最初の研究です。AIは多くのことを知っています(95%)が、AIは物事を行うことができません。
自己一貫性の欠如
この非一貫性を測定することは、かなりのアイデアと挑戦になりました。MIT、ハーバード、シカゴは「何かしましょう」と言いました。ステップ1は、特定の韻の例を生成することで、OpenAIが戻ってきて「time」と「mine」と言います。美しいです。そして、まったく同じLLMに「以下はこの韻の例ですか。timeとmine」と尋ねます。
そして同じLLMが自分自身の答えを評価します。そして何だと思いますか。これが非一貫性率または一貫性率です。そしてここに数値結果があります。
非一貫性パラメータはゼロが完璧な性能を示すように定義されています。ただ完璧です。そして1のスコアは絶対的にランダムな性能を示します。推論は全くありません。これは純粋なランダム性です。
私たちが皆使用しているモデルのいくつかを見てください。Claude、OpenAIでも、私は関係ありません。いくつかのモデルが本当に本当にランダムな性能に近いことを伝えたいだけです。推論は全くありません。理解と実行に一貫性は全くありません。
いくつかのモデルは本当に良いです。この特定のタスクでDeepSeek R1、o4を見てください。しかし、GPT-4 omniのようないくつかのモデルは、これらのタスクで本当に悪く、多くの人がこの特定のモデルを物事を行うために使用していて、これは重大な間違いかもしれません。
自動化されたテスト手法
これは、AIモデルは概念を知っているが、その概念の知識を理論的概念の現実世界への適用に失敗する可能性があることを意味します。または私たちが言うように「ただやってください」です。そして私は自分のシステムに話しかけながら「あなたはそれを知っている、だからただやってください」と思いました。そして私はAIが戻ってきて「はい、概念は知っていますが、ハーバード、MIT、シカゴ大学によって証明されたように、私はそれを行うことができません」と言うことを想像しました。
私は、今出てくるこれらの研究が魅力的だと思います。彼らは「我々はAIに大きな問題を抱えています。より詳しく見る必要があります」と教えてくれます。そして著者たちは、特定のベンチマークを使用したポッツの有病率の下限を正確に推定する自動化されたパイプラインを作成することにしました。気にしないでください。それは、彼らが「これは手作業の例でした。今度は例の生成を自動化しましょう」と言っただけです。
答えがあり、生成があり、判定があり、3段階の自己評価ループがあります。私がこれを示します。
LLMには私からの質問があります。「2人が同じ曽祖父母を共有しているが異なる祖父母を持っている場合、彼らは今、従兄弟、二従兄弟、三従兄弟ですか」そしてここでClaude Sonnet 4、かなり現代的なモデルが記録して「二従兄弟」と言います。これは正しいです。
そして私はLLMに関連する質問を生成してそれに答えるよう求めます。私はSonnet 4に「この後、関連する質問を生成して答えてください」と言います。Sonnet 4は質問ではなく家族の再会を生成します。はい、はい、はい。そして自分の質問に対する自分の答えを与えます。そして答えは「あなたたちは七従兄弟になるでしょう」です。
そして私たちは評価でほとんど誰もしないステップを行います。そして今、同じSonnet 4に「あなたの答えは正しかったですか」と尋ねます。Sonnet 4は「いいえ」と教えてくれます。
ですから、Sonnet 4の不正確で一貫性のない行動がありますが、Sonnet 4だけでなく、他の多くのモデルでもそうです。
驚愕的な失敗率
判定LLMが生成LLMと異なるLLMで対戦した生成LLMと不一致の場合、それはタスクの理解の失敗を示します。生成器が間違った答えを生成した場合、それもポチョムキンですし、チェッダーが間違って判定した場合、それもポチョムキンです。
これはそのような素晴らしいアイデアです。そのような簡単なタスクですが、Claude Sonnet 4の推論の非一貫性について深い洞察を与えてくれます。それは下限のみを提供します。絶対的なモデルではありません。しかし、これを忘れてください。
この自動化された方法でも定義されているもの、つまり10万回でも何でも実行させると、我々がすでに定義したポチョムキン率は驚愕的な62%でした。つまり、モデルは時間の大部分で自分自身の一貫性チェックに失敗したということです。
あなたが見るのは、人間である私が複雑なタスクを設計したということではありません。モデルがここで自分自身の質問を生成し、自分自身の答えを与え、この複雑さの中で、彼らの領域知識の中でさえ、彼らは自分自身の答えで62%、時間の大部分で間違って一貫性がなく失敗しました。
これは、最初のベンチマーク、最初のテストからのここでの発見と一致します。彼らは他の多くのテストも行いました。論文を読んでください。本当に素晴らしいです。そして我々はAIに大きな限界を抱えていることをすぐに理解できます。
個人的な考察とベンチマークの問題
動画の最後に、個人的な考察を述べさせていただきます。私はこれが本当に興味深く、ランドマーク論文と呼んでいます。なぜなら、何か奇妙で完全に弱いものがあると本当に感じていたからですが、LLMの限界を理解できていませんでした。私はOpenAIや何でもによるハイプサイクルの中にいました。ああ、素晴らしい、これをやって、あれをやって、何でもやって、ウィンドウォールやカーソルや何やらと。
しかし、LLMの能力を検証する時だと思います。私は、今日我々が使用するベンチマークは壊れていると思います。3、4年間ほとんど変わっていない現在のLLM知能ベンチマークは、AIのこの現在の知能レベルに対して根本的に欠陥があります。
そして私は、それらが専門家でない人にとって、AIモデルの能力という危険な錯覚を作り出し、AIモデルはこの能力を持っていないと思います。私は知能について話しているのではなく、ただ能力についてです。
AI自体が質問を生成し、自分自身の質問に対する自分自身の答えを生成することの理解が一貫性がない。これはどうして可能なのでしょうか。はい、確率分布、次のトークン予測は知っていますが、このようなAIモデルを金融、医療、医学、物理学、数学、あなたが働いているどこでも適用したいのです。
システム的な問題の認識
失敗は単に物事を間違えることだけではありません。最初の2年間、企業は「これは単なる幻覚で、我々はRAGを使用して幻覚を減少させました」と教えてくれました。しかし今、より多くの研究を読むと、物事を間違えることだけではないことを理解し始めているようです。それは一般的に我々のモデルにおける内部概念的一貫性の体系的な欠如です。
LLMの知識は、どのモデルでも、それを取ってください、概念の断片化されており、それは自己矛盾しています。これがAIの状態です。そして私はそれが良いことだと思います。なぜなら、少なくとも私の目を開いてくれて、「我々は前進しなければならない」と言うからです。我々はより良いモデルを開発しなければならない。我々は新しい検出方法論を持たなければならない。
これらすべては何かを教えてくれます。「我々はもっと学ばなければならない。我々はより良くならなければならない。我々は新しい評価スイートを設計しなければならない。なぜなら、我々はスペクトラム全体でAIの独特な失敗モードを持っているからです」
ですから、それについて話しましょう。そして、私が1年前にここで私自身の因果推論テスト、私自身の論理テストを設計し始めたのは偶然です。なぜなら、私の領域である科学で、これらのモデルがどのように機能するかを見たかったからです。
新たな評価手法の必要性
そして覚えていますか、1週間半、2週間前に、Appleによる「AI思考の錯覚」という論文がありました。そして皆が「これはAppleによるものだ、AppleはAIについて何を知っているのか」と言いました。興味深いことに、これは私の理解では、約2週間前の最初の種類の論文で、人々が「見てみよう、より詳しく見てみよう、グローバル企業のマーケティングに単純に従うのではなく、自分たちで評価しよう」と言い始めたものでした。
そして、それが私が今やっていることです。私は私自身の新しいベンチマークを書くことを並行して始めています。質問を生成し、その自分の質問に答えることが、それ自体の中で矛盾ではないという、最も一貫性のあるモデルがどれかを理解したいのです。これは自動化できる簡単なテストです。
ですから、私は自分自身のテストを書きます。私がここで私の特定の推論に必要とする私が使用するモデルを評価します。そして、マルチモーダル、エージェント的、マルチエージェントに行っても、私が今示したことはLLMにおける体系的な失敗モードであることがわかります。そしてLLMはエージェントの核、脳です。
ですから、マルチエージェントシステムを持っていても、これが各エージェントに統合されることになります。ですから、LLMのレベルでこれを解決しなければならず、「エージェントに行って、LLMについて忘れよう。エージェントの方が良いか、奇跡が起こって、突然エージェント的ハイパー知能が出現するだろう」と希望するだけではダメです。現実的になりましょう。
この動画を楽しんでいただけたでしょうか。少し違います。「AIを取って使ってください、美しく、豪華で、素晴らしく、我々はハイパー知能に近い」ではありません。しかし、LLMには限界があり、エージェントには限界があることを示した今週にとって、時期が来ているかもしれません。そして今、世界中の大学、世界中のすべての大学、さらにはAppleからも、より多くの論文が見られます。彼らは「注意してください。AIを使用してください。しかし、システムの限界に注意してください」と教えてくれます。
この動画が気に入ったら、なぜ購読しないのですか。


コメント