AI推論の崩壊（Apple）

この動画では、Appleが発表した最新の研究論文「AI思考の錯覚」について詳しく解説している。研究では、Claude SonnetやGPT-4などの大規模推論モデルが、一定の複雑度を超えた問題に対して突然推論能力を失い、パフォーマンスが崩壊する現象を明らかにした。特に注目すべきは、モデルが困難な問題に直面した際に推論トークンを減らし、事実上「諦める」行動を示すことである。この研究は、現在のAIの推論能力が真の論理的思考ではなく、高度なパターンマッチングに過ぎないという衝撃的な結論を導き出している。

新しいAI研究論文の紹介
大規模推論モデルの価値検証
Appleの「思考の錯覚」研究
標準テストでの検証
Appleの独自テスト結果
複雑度と性能の関係
中複雑度での思考モデルの優位性
トークン長の分析
思考プロセスの予期しない減少
4つのパズル環境での検証
プロプライエタリモデルの透明性問題
複雑度レベルでの統一的パターン
研究結果の要約
思考の脆弱性
推論崩壊の分析
「思考の錯覚」
最終的な発見：強化学習の限界
論理的手順の根本的問題
解決策とツールの必要性
最新モデルでの実装
Apple研究論文の意義
パターンマッチングとしてのAI推論
基本的な限界への対処
予測可能な崩壊パターン
専門家向けの深い分析
記憶されたパターンと真の推論
学習されたパターンの限界
高分散・不安定戦略
ベンチマークの問題点
独自テストの重要性
ツール使用による解決策
計算モデリングの価値
研究の価値と今後の課題

新しいAI研究論文の紹介

皆さん、こんにちは。また戻ってきていただき、本当に嬉しいです。今回は全く新しいAI研究論文について話していきます。「AI思考の錯覚」についてで、これはAppleからの研究です。そうです、数日後には大きなAppleのイベントがありますので、Appleの最新研究をお見せするのは良いタイミングだと思いました。

まず、現在の状況を確認しましょう。ここにARC AGIリーダーボードがあり、ここに我々のLLMがあります。Claude Sonnet 4、Claudeなどです。

そして、ここに思考機能を持つ大規模推論モデルがあります。Claude Opus 4の8K思考モードと16K思考モードがあり、このベンチマークでの成果を見ることができます。ここでパフォーマンスとスコアに本当に大きな飛躍があります。Opus 4の最大思考モードでの2%未満から、ほぼ9%のパフォーマンスまで上がっています。

大規模推論モデルの価値検証

現在、私たちはこれらの大規模推論モデルが本当にお金をかける価値があるかを検証しています。私自身でテストを行い、思考モードではないClaude Sonnet 4を使いました。前回の動画からのテストを行い、例えば、私のエレベーターテストでは答えは12回のボタン押しでした。

そして、32K思考モードのClaude Sonnet 4で同じテストを行いました。これはSonnetの最大思考量です。すると6回のボタン押しまで減りました。これが正しい解決策です。12回のボタン押しは間違った解決策でした。推論モデルで思考プロセスを活性化すると、大きな違いがあることがわかります。

Appleの「思考の錯覚」研究

Appleはこれを「思考の錯覚」と呼んでいます。私たちにはLLMがありますが、どのように結果を見つけるかは決してわからず、数年前にOpenAIの最初のo1があったときにすべてが変わりました。

そして、R1、推論モデルがあり、それらには思考プロセスがあり、思考タグと思考終了タグを見ることができ、実際に推論プロセスを見ることができました。これらのモデルの一部には自己反省があり、素晴らしいものでした。真の人工推論が起こっている、またはそれがすぐそこまで来ていると思ったので、記念碑的な飛躍でした。

しかし、2025年6月の初めに、Appleの研究者たちはシンプルな質問を投げかけることにしました。それは本当に思考なのか、それとも非常に巧妙な錯覚なのか？単なるパターンマシンのシミュレーションなのか？可能でしょうか？

標準テストでの検証

標準的なテストを見てみましょう。100年前からある良き古きMath 500、AIM 24、AIM 25、AIM 26で、ここで青色で示されているように、思考モードの方が少し時間をかければ非思考モデルよりも良い結果を出すことがいつも見られます。

DeepSeek R1（新しいR1ではなく、古いR1）で見ると、思考は常により良く、より複雑になるほど思考が本当に改善され、私を含むすべての人が、今は思考モデルを使おうと考えました。

Appleの独自テスト結果

彼らは独自のテストを行い、結果が一貫せず混乱することを発見しました。彼らが見つけたのは、大きく3つの領域があることです：タスクの低複雑度、中複雑度、そしてすべてのAIモデルが推論を停止する高複雑度領域です。彼らは諦めてしまうのです。

彼らは非常にシンプルなテストを設計することにしました。1、2、3つのパックがあり、1つのオブジェクト、2つのオブジェクト、3つのオブジェクトを一つのパックから別のパックに移動させるだけです。それだけです。

複雑度と性能の関係

非常に明確なテスト環境があり、モデルの思考開始と思考終了トークンで起こっている思考を見るだけです。

Claude 3.7（4ではありませんが）を見ると、ここの濃いオレンジが非思考で、青が思考です。ここでエラーがあります。まず、私たちが簡単な複雑度と呼ぶもので、x軸に複雑度、つまり移動させなければならないディスクの数があります。

1つまたは2つの場合、両方のモデルは同等に動作し、非思考の方が少し良いかもしれませんが、両方とも同じレベルです。そして、ここで青色の領域、中複雑度レベルに入ります。

中複雑度での思考モデルの優位性

現在、4、5、8から10の異なるディスクを移動させなければなりません。すべてが順序立てられるように。美しいです。与えられたレベルでの精度を見ると、パフォーマンスに違いがあることがわかります。

思考はこの中複雑度間隔内で、より高い複雑度数でより良いパフォーマンスを持っています。そして、両方のモデルがクラッシュする領域があります。何も機能しません。複雑度がモデルをクラッシュさせます。両方のモデルのパフォーマンスはゼロに近いです。

トークン長の分析

Appleは「これは興味深い。詳しく見てみよう」と言いました。そして、トークンの長さについて言及しました。y軸に5,000トークン長、10、20Kトークン長を示します。

仮定は、タスクの複雑度が高くなるほど、システムがより多くの推論トークンまたは思考トークンを使用するということです。すべての可能な順列について思考し、私の評価ビデオの一つを見れば、推論プロセスが最大8分かかる場合があることがわかります。

思考プロセスの予期しない減少

複雑度が高くなるほど、より多くのトークンを生成します。美しいですが、何が起こるかというと、閾値があり、まさに中複雑度と強複雑度の開始の間の閾値で、システムが内部で使用するトークン、思考が減少することを見ます。

なぜでしょうか？タスクの複雑度をさらに高めると、トークンは上がるはずなのに、なぜ突然モデルが「私にとってはこれで終わり、これが私のピークパフォーマンスでした、諦めます」と言うのでしょうか？

思考トークンの量が減少し、Claude 3.7でも同じことが起こります。思考プロセスではなく、応答の長さも減少しています。これは興味深いことでした。

4つのパズル環境での検証

Appleは「これは特定のベンチマークテストだけかもしれない」と言いました。そこで、これらのテストを複数含む制御されたテスト環境を定義する必要があり、4つのシンプルなパズルを決めました。

ハノイの塔、チェックジャンプ、川渡り、ブロックワールド。4つの非常に馴染みのあるシンプルなパズル環境が見えます。これがテスト環境を提供し、最初の質問は「これは4つの異なるパズル環境すべてで起こるのか？」でした。

これは素晴らしい動きだったと思います。なぜなら、これらのパズルは絶対に制御可能で、精密に困難度を調整できるからです。ディスクがあるだけで、ハノイの塔を見ると、絶対に検証可能で、思考ステップをここでチェックできるからです。

プロプライエタリモデルの透明性問題

これらのモデルの一部は実際にまだ思考プロセスを提供してくれます。プロプライエタリモデルは思考手順を隠しています。前回、o4 miniは私に思考について何も見せませんでした。彼らは思考モードで透明性を保つことを恐れており、私はそれを評価しません。

特定のパズル構成はインターネット上にあまり散らばっていない可能性があります。そのため、非常に特定の構成についてはデータ汚染がありません。

複雑度レベルでの統一的パターン

これを見てください。低複雑度を黄色、中複雑度を青、高複雑度をオレンジ色で分けました。上部にSonnetが見え、ここにDeepSeekが見えます。

Pass@Kが最適なベンチマークパラメータではないことは知っていますが、これが公開されているので、これで行かなければなりません。

Claude 3.17の非思考を見ると、パフォーマンスが思考よりもはるかに速く上がります。低複雑度タスクがある場合、非思考モデルを使用してください。より速く、より良いです。

中複雑度があり、これはもちろんこの4つのテストでの複雑度の定義に依存しますが、思考モデルがパワープレイヤーです。「非思考よりもずっと良い」と言います。

しかし、彼らが高複雑度と呼ぶものに入ると、これは10個のディスクを移動させるだけですが、両方のモデルがゼロに崩壊します。「これで終わり、諦めます」と言います。

研究結果の要約

オープンソースモデルでも同じです。今日公開されたAppleの結果は以下の通りです：

非思考モデルは単純な問題、単純な複雑度で優れています。o3やo4のような思考モデル、大規模推論モデルは中複雑度で利点を示しますが、両方のモデルがより高い複雑度で失敗します。コンピュータ割り当てに関係なく、8K、16K、32K、何を与えてもタスクを解決できません。

思考の脆弱性

そこで彼らは「これは興味深くない」と言いました。この思考は有用に見えるが、極めて脆弱だということがわかりました。失敗を遅らせることはできます。この中複雑度の非常に狭い時代で少し移動させることはできますが、それを防ぐことはできませんでした。

したがって、Appleは「これらのLRM、大規模推論モデルは汎用推論器にはならない。非常に狭い窓内でのみ機能する」と言いました。

4つのベンチマークそれぞれについて詳しく見ると、ほぼ同じ動作が見られます。異なる環境で異なる複雑度で始まりますが、黄色の環境（本当にシンプル）、青色（中程度）、そして両方のモデルがハード複雑度エリアでクラッシュします。いつも同じ動作です。

推論崩壊の分析

Appleは「これは興味深い。では、10個のディスクを移動させるだけで推論モデルの崩壊があるとしたら、どのように可能なのか？」と言いました。

彼らは、この臨界点をより詳しく見て、すでに可視化で閾値を示したように、問題が真に複雑になるとき、複雑度を高めると、モデルは思考クラスを開始すると言いました。思考プロセスのトークン数が減少したことを覚えています。

これは興味深いです。何らかの形でモデルは、それが解決できないことを認識していました。複雑すぎて、諦めて少ない推論トークンを使い始めたのです。

「思考の錯覚」

これがAppleが「思考の錯覚」と呼ぶものです。推論能力を超えた問題に直面したとき、大規模推論モデルはより頑張って失敗しようとさえしません。ただ諦めるのです。この動作が見られ、これは絶対に魅力的です。

もちろん、より深い理由は、モデルの事前学習データセットの品質と複雑さに遡りますが、これについては後で詳しく説明します。

この推論の洗練されたファサードは完全に崩れ、理論的には間違っている可能性のある短いトークン節約出力にデフォルトします。実際に本当に完全に間違っており、これは解決策ではありません。これはLLMが諦めることです。この特定のテストで見る非常に奇妙な動作です。

最終的な発見：強化学習の限界

しかし、Appleは「まだ何かが残っている。最後のひねりと呼ぼう」と言いました。最後の質問があったからです。私たちには訓練方法論があります。単純なSFT教師あり訓練について話しているのではありません。

この強力な強化学習があります。これは学習のための最も強力な学習またはエンジンです。そして今、私たちはモデルに解決策を教えます。「これが解決策です」と言って、人間としてコンテキスト学習の将来のショート学習でレシピを提供します。

高複雑度体制で、彼らは今それを実装できるでしょうか？与えられたテンプレートに従うことができるでしょうか？

どう思いますか？結果は全く役に立ちませんでした。大規模推論モデルは依然として失敗しました。絶対に驚くべきことに、否定的な意味で、同じ複雑度レベルでです。

論理的手順の根本的問題

これは新しいことだと思いました。これは奇妙なことです。強化学習が境界をさらに押し進め、より高い推論レベル、より高い複雑度に行く能力を増加させると思っていました。そして今、Appleは「推論テンプレート、ソルバーがあっても、推論モデルは同じ複雑度レベルで依然として失敗する」と言っています。

これは何を意味するでしょうか？ところで、これは見事な洞察だと思います。これは高レベルの問題解決だけではありません。もっと深い、もっと根本的な何かです。特定の閾値で、論理的な手順の連続を確実に従う能力がないのです。これは本当に新しいことです。

解決策とツールの必要性

これを防ぐ方法がわかっていて、すぐにお見せします。人間の意味論的論理思考から、C++などのシンプルなコンピュータスクリプトが知っていることに論理パターンを切り替えるだけです。シンプルなコンピュータスクリプトは、膨大な数の日数でこのアルゴリズムを完璧に実行します。全く問題ありません。

しかし、最大限に最適化された巨大で洗練されたニューラルネットワーク、トランスフォーマーは解決策を見つけることができませんでした。

一方で、ツールがあります。C++環境やPython環境など、お好きなものがあります。MCBプロトコルツール接続で、これをツールに渡して返してもらえます。

しかし、これは私たちのトランスフォーマーが特定の閾値以下または以上で実際に推論できないことも意味します。閾値に達すると、推論は崩壊します。

Apple研究論文の意義

これが論文です。もちろん、これはアーカイブではありません。これはAppleです。apple.comの機械学習サイトの論文に行く必要があります。特定のリンクがあります。素晴らしい論文です。これを見てください。気に入っています。本当に興味深いことを示してくれたすべての著者に感謝します。

批判的な現実チェックだと思いました。AI推論、特にそれらの閾値を超えて私たちを押し進める強化学習の力について仮定を持っていたからです。そして今、この現実チェックは本当に私にとって何かでした。

パターンマッチングとしてのAI推論

これらのモデル、特にこの大規模推論モデルが行っていることは、人間の推論、複雑な推論構造のようなものではなく、極めて高度な形のパターンマッチングであることを教えてくれます。

次の言葉に備えてください：推論をシミュレートするだけで、実際の推論に全く近づかない。これは素晴らしいパターンマッチングマシンで、それだけです。

基本的な限界への対処

したがって、一つの洞察は、大規模推論マイルについて、それらをより大きく、より大きく、より大きくすることではないということでした。何兆、何京の自由パラメータでも、もっと深い問題があり、この特定のテストでAppleで明確に見えるこれらの基本的な問題や限界を最初に克服しなければなりません。

私たちが見る思考は堅牢ではありません。それらの推論モデルの一般的なスキルではありません。特定のスイートスポット、スイートインターバルに基づいて動作し、非常に予測可能な方法で崩壊します。これが驚くべきことです。

予測可能な崩壊パターン

これは単なるカオス的システムではありません。複雑度が特定の閾値を超えるときに、絶対に予測可能に崩壊します。これです。

真に挑戦されたとき、私たちの推論モデルで、努力は直感に反して減少します。その推論トークンは、より多くが良いのではないという基本的なスケーリング制限でもあります。

解決策を見つけることに苦労するだけでなく、明示的な指示に従うことさえできず、論理的および手続き的実行の弱点を強調しています。私は常に、インコンテキスト学習プロンプトにいくつかの短い例を提供すれば問題解決に役立つと思っていましたが、Appleに従えば、それは役に立ちませんでした。絶対に魅力的です。

専門家向けの深い分析

これがビデオの終わりです。しかし、「より深い問題について専門家がいますか？」と言う専門家がいるなら、もちろんです。

「これで終わりです」と言うなら、「視聴ありがとうございました」と言いますが、続けたいなら、「さあ、行きましょう」。

彼らは興味深いトピックを見つけました。Claude 3.7を見て、一つの特定のパズル環境、ハノイの塔について、これは本当に有名で、常に教科書にあり、インターネットのどこでもこの例を見つけることができるので、本当によく知られていると言いました。

問題はClaude 3.7モデルが一つのミスを犯す前に、ほぼ100の連続した動きを生成することに問題がなかったことですが、あまり知られていない川渡りパズルでは、100の動きを達成した同じモデルが、この教科書にない、インターネット中にないあまり知られていないパズルで5つの正しい動きさえ管理できませんでした。

記憶されたパターンと真の推論

パズルは合計11の動きしか必要としませんでした。将来の動きの投影や予測が解決するには複雑すぎるとは言えません。5つの動きさえできず、システムは崩壊しました。

これは私たちに何かを教えてくれます。著者は、Claude 3.17モデルがアルゴリズム的動機を何度も見て、それに対する一種の手続き的筋肉記憶を発達させた可能性があると言います。

すべての解決策に慣れています。問題ありません。この特定のパズル、ハノイの塔について非常に多くのパターンを学習したため、100ステップ進むことができます。しかし、あまり知られていないパズルでは、推論で5ステップさえ移動できません。

推論はありません。記憶されたパターンのみです。彼らは、私たちが推論として認識するものは、しばしば記憶された解決テンプレートの検索と適応であり、第一原理、第一推論原理からの演繹ではないことを示唆していると言います。

学習されたパターンの限界

モデルはパズルルールを論理的に考えていません。そうであれば、5ステップ以上進むはずです。学習された、訓練されたパターン、慣れ親しんだ行動を実行しているだけで、事前学習データで何千回も見たものです。

明確なパターンがない問題に遭遇すると、その推測される推論能力はほぼ瞬時に蒸発します。

Appleによる美しい研究です。LLMの推論能力への私の信念を本当に後退させます。

高分散・不安定戦略

彼らは「この思考は高分散です。不安定な戦略」だと言います。なぜなら、幸運になって最初の実行で絶対に正しい解決策を見つけることができる可能性がありますが、失敗点の分散もはるかに、はるかに高いからです。

これは、思考プロセスが私たちの推論モデル内で起こっているハイリスク・ハイリターン戦略ゲームであることを意味します。

最高の強化学習でも、安定していません。信頼できるアルゴリズムではなく、最高の強化学習でも破滅的に失敗する可能性があります。

ベンチマークの問題点

Appleがこのようなシンプルで些細なパズルで、私たちの推論モデルの深い動作を推論できたのは素晴らしいと思います。

同意するかどうかわかりませんが、同意すると思います。私が示したこれらの標準ベンチマーク、このMath 500は、4、5年間知られており、誰もがそれらを知り、誰もがこれが将来のモデルがテストされるベンチマークになることを知っています。

私たちが詳しく知っているこのベンチマーク、理論的には誰かが新しいモデルをここで良いパフォーマンスを持つように訓練できるので、偶然に絶対に誤解を招きます。危険に誤解を招くかどうかわかりませんが、絶対に誤解を招きます。

問題の一面、光の一つの偏光面だけを示し、LLMの推論能力について間違った結論を出したほど多くの興味深いことを省いているからです。

独自テストの重要性

これが理由で、多くの人が私に「なぜ独自のテストを設計するのか」と尋ねます。このビデオで私が独自の因果推論テスト、独自の論理テスト、独自のパズルを設計しているのを見ました。「利用可能なベンチマークが非常に多いのに、なぜ独自のものを作らなければならないのか」と言います。

私の特定のドメイン、AIが強力であってほしい特定のタスクについて、独自のテストを設計しなければならないからです。そして、インターネットで公開しません。そうでなければ、標準ベンチマークで抱えているのと同じ問題に時間が経つにつれて遭遇するからです。

物理学、数学、金融、ヘルスケア、医療、薬学など、特定のドメインで作業し、パフォーマンスに興味がある場合、独自のテストを設計してください。システムに何を望むかを正確に知っています。テストを設計すれば、結果に驚かれるでしょう。

ツール使用による解決策

前回のビデオから、6月5日の新しいGemini 2.5 Pro プレビューで、コード実行を活性化せずにテストを行いました。

このビデオで示され説明されたような同じテストを今行う場合、もちろん新しいGemini 2.5 Pro プレビューはPythonコードやC++を書きます。Pythonコードを求めました。

コード実行ができます。これを実行し、ここでシルバーを美しく実行します。コード実行結果は正確に6回のプレスです。これは完璧な解決策です。この特定のテストで詳しく示されている1、2、3、4、5、6回のボタンプレスが見えます。

コード実行後、思考モードを最大に設定したところ、「これは計算モデリングの力を実証しています」と言い、これはAppleと一致します。

計算モデリングの価値

論理問題をソルバー問題に翻訳するのは簡単です。C++、Python、お好きなものを使用できます。しかし、コードソルバーを書き、コードを書く多くの年の経験があるため、コードは確定的な解決策を持ち、人間や人工知能が論理推論ステップとして考えるものは破滅的に間違っている可能性があります。

しかし、新しいMCBプロトコル、ツール使用、関数呼び出し、私たちが持っているすべてのものを使って、コンピュータモデリングに接続し、モデリングを実行し、パフォーマンスを取得し、その後LLMまたは大規模推論モデル推論で続行してください。

研究の価値と今後の課題

前回から何をしているかを正確に示すためです。楽しんでいただけたことを願っています。Appleに感謝します。Appleの最新研究論文とAIの錯覚を見るのは常に素晴らしいことです。

人工知能の限界を明確に示す美しい論文だと思います。最もシンプルなテストでも美しい論文を書き、現在の推論モデルの現在の問題に深い洞察を得ることができることを示したかったのです。これは未解決です。

この突然の閾値がなぜあるのか、パフォーマンスにこのような鋭いエッジと低下があるのか、私たちには全くわかりません。そして、これらの問題にどう対処するかも本当にわかりません。

このような動画をもっと見たい場合は、なぜ購読しないのですか？次回の動画でお会いしましょう。