この動画は、AI業界が大きく期待を寄せる推論モデルの実際の能力について疑問を投げかける内容である。OpenAIのo1やAnthropicのClaude、GoogleのGeminiなど最新の推論AIが本当に知能を獲得しているのか、それとも単なるパターンマッチングにすぎないのかを検証している。Appleの研究チームによる「思考の錯覚」と題された論文を中心に、複雑な論理パズルでは推論モデルの性能が急激に低下することを示し、真の汎用人工知能(AGI)への道のりがこれまで考えられていたよりもはるかに困難である可能性を指摘している。
AIブームの数十億ドル規模の盲点
誰もがAIがより賢くなることに賭けています。驚くべきことは、AIが推論できるということです。私たちは推論AI時代のまさに始まりにいるのです。より賢いモデル、より鋭い直感、人工超知能。私は人工超知能を実現できると思いますし、それは人類が100年以上続けてきたこの傾向の延長線上にあると推測しています。
これがコンピュート需要の爆発的な新たな需要を後押ししています。その推論プロセスを実行するのに必要な計算量は、これまで行っていたことの100倍です。そして企業は遅れをとることを避けるため、数十億ドルを投じて全力で取り組んでいます。私たちは現在AIに約20億ドルを費やしています。実際に使用されているケースは約600件あります。
その数は来年には倍増し、さらに3倍になる可能性があります。しかし、もしこれが全て過大に約束されたもので、私たちが底なしの金の無駄遣いに向かって真っ直ぐ進んでいるとしたらどうでしょうか?新しい研究が誇大宣伝に疑問を投げかけています。新しい論文で、彼らは推論モデルの高まる傾向と、それらが本当により正確なのかどうかについて冷水を浴びせています。AIは実際により賢くなっているのでしょうか、それとも単なる錯覚なのでしょうか?
私はDierdre Bosaです。Tech Check Take:AIの推論の盲点をお届けします。
AI推論:新たなフロンティア
AI推論、それは新たなフロンティアです。人工超知能への次の飛躍とされるものです。ブラックボックスで質問に答えるだけのチャットボットは忘れてください。これらのモデルは思考し、作業過程を示し、問題をステップに分解します。そしてそれは単語を予測することから行動を計画することへのシフトです。
GPT-4oにとって難しい理由は、最初の試行で正しく答えなければならないからです。制約を満たしているかチェックして、それから詩を修正することはできません。
では、o1-previewで同じ詩を試してみましょう。GPT-4oとは異なり、o1-previewは最終的な答えを出す前に思考を開始することがわかります。
アイデアは、より多く考えるほど、より賢くなるということです。まさに人間のように。私たちは思考がしばしば一発勝負以上のものであることを知っています。思考には複数の計画、最良のものを選ぶ複数の潜在的な答えが必要かもしれません。私たちが考えているときと同じように。
推論モデルの展開
私たちは答えを提供する前に答えについて熟考するかもしれません。反省です。問題を取り上げて、ステップバイステップで分解するかもしれません。思考の連鎖です。
OpenAI、Anthropic、Google、DeepSeek、これらすべてがこのトレンドに飛び乗りました。モデルの後にモデル、リリースの後にリリース。o1、o1 Pro、o3、o3 Mini、Sonnet 4、Opus 4、R1、Gemini 2.0 Flash。それぞれが卓越した推論能力を謳い、それぞれがこれまでで最も強力であることを約束しています。
ただし、一連の研究論文がその約束に疑問を投げかけています。Appleのチームによる最も注目度の高いもので、率直に「思考の錯覚」というタイトルが付けられており、問題が十分に困難になると、推論モデルは機能しなくなると結論付けています。
ハノイの塔での検証
Appleが行うように、論理パズルで分析してみましょう。ハノイの塔です。3本の棒、円盤の積み重ね。目標は、すべての円盤を別の棒に移動することです。大きなものを下に、小さなものを上に、可能な限り少ない移動回数で。
これは認知スキルを構築するために幼児に与えるようなものかもしれませんが、推論のストレステストでもあります。
ゲームの最も単純なバージョン、わずか3枚の円盤では、Anthropicのモデルは推論ありでもなしでも同じパフォーマンスを示します。円盤を数枚追加すると、推論が上回りますが、ここで転換点が来ます。7枚の円盤を超えると、パフォーマンスがゼロ精度まで崩壊します。
そしてそれはAnthropicのモデルだけでなく、DeepSeekやOpenAIのモデルでも同様です。タスクが困難になるはずだったほど、モデルのパフォーマンスは悪化しました。同じことが他のパズルでも起こりました。チェッカー、川渡り問題。これらは基本的な論理ゲームです。
では、ここでの本当の教訓は何でしょうか?これらのモデルは思考しているように見えますが、実際に行っているかもしれないのはパターンマッチングです。
パターンマッチングの限界
パズルが馴染みのあるもので、訓練で見たことがあるものであれば、うまくやります。しかし、新しく、複雑で、テストされていないものを投げると、失敗します。知能に見えるものは、単に大規模な記憶かもしれません。
少なくとも、推論の側面に関して、どれほど迅速に物事が到達するか、実際にどれほど速く進歩しているかについては、多くの議論があります。
Appleだけではありません。Salesforceはこれを「ギザギザの知能」と呼び、現在のLLM能力と実世界の企業需要との間に大きなギャップがあることを発見しています。最も先進的な推論モデルの一つの作成者であるAnthropicは、自身の最近の論文で警告を発しました。タイトルは「推論モデルは必ずしも考えていることを言わない」です。
そして中国の研究所LEAPは、今日のAI訓練方法が真に新しい推論能力を引き出すことができていないことを発見しました。
私たちはベンチマークで本当にうまくやらせることができます。特定のタスクで本当にうまくやらせることができ、それは価値があります。多くのエージェントが特定のタスクを行うことを望んでいます。
私が十分に理解されていないと思うこと、そしてあなたが言及するそれらの論文の一部が示すことは、それが汎化しないということです。このタスクでは本当に優秀かもしれませんが、あなたや私が寝ながらでもできるような非常に常識的なことでは、ひどいのです。そして、それが現在の推論モデルの根本的な限界だと思います。
汎化の問題
言い換えれば、これらのモデルは単に限定的なだけではありません。汎化しないのです。つまり、見たことのあるテストでパフォーマンスを発揮する方法を学習しているだけで、実世界のテストに直面することができません。
ハノイの塔で本当に優秀なものを構築する方法は知っていますが、そのような問題は100万個あり、これが問題です。汎化しないなら、何度も何度も何度も訓練しなければなりません。
私たちは、はるかに多様なAIモデルを見る時代に入ると思います。今のところは機能するかもしれません。狭い仕事のために構築された、またはベンチマークを打ち負かすために構築された特化したAI。しかし、それが目標ではありません。聖杯は人工超知能です。推論し、適応し、訓練されたことを超えて思考できるシステム。私たちよりも賢いシステムです。
そしてその面では、人工超知能は私たちが思っていたよりもはるかに遠いと思います。それが重要な教訓です。日常生活でAIによる大きな影響はまだ期待できると思いますが、すべてを知っていて何でもできる人工超知能というものは、何年も何年も先のことだと思います。
そこに到達するには、私たちがまだ持っていない大きなブレークスルーが必要でしょう。
投資への影響
業界は人工超知能を約束しました。代わりに得たものは、狭いベンチマークと浅い推論かもしれません。では、業界は間違った種類の知能を追いかけているのでしょうか?そして、それは投資家や全体的なAI取引にとって何を意味するのでしょうか?
推論モデルが機能するなら、理論的にははるかに多くのコンピュートが必要になり、それはNvidiaのような株式を押し上げているインフラブームを延長する可能性があります。
Jensen Huang自身が、推論モデルは従来のものよりもはるかに多くのコンピュートを必要とすると述べています。この時点で私たちが必要とする計算量は、エージェンティックAIの結果として、推論の結果として、昨年のこの時期に私たちが必要だと思っていたものの簡単に100倍です。
しかし、スケールしないなら、今日のAIが実際にどこまで行けるのか、そして企業が確実な見返りの保証なしにAIに数十億ドルを注ぎ込んでいるだけなのかについて、より深い疑問を提起します。
スケーリング法則の基盤
AI業界は単純なアイデアの上に構築されています。スケールは機能する。モデルが大きくなるほど、より多くのデータが供給されるほど、より賢くなります。専門家が「スケーリング法則」と呼ぶものです。
機械学習の特性の一つは、もちろん脳が大きくなるほど、より多くのデータを教えることができ、より賢くなるということです。私たちはこれを「スケーリング法則」と呼んでいます。モデルのサイズ、訓練データの量をスケールアップするにつれて、知能の効果、品質、パフォーマンスが向上するという証拠がすべてあります。
しかし、それが壊れ始めると、モデルが改善を停止すると、基盤が揺らぎます。AIは壁にぶつかります。
そして最後にそれが起こったのは、2024年11月頃で、業界は本格的な実存的危機に入りました。進歩の停滞と中国の追い上げに関する議論が、2025年初頭にNvidiaが調整局面に落ち込んだことで、公共のAI取引に打撃を与えました。
そして、OpenAIのCEOであるSam Altmanが「壁はない」と言ったことから、AnthropicのCEOであるDario AmodeiやNvidiaのJensen Huangまで、誰もが意見を述べました。
人々はこれらを「スケーリング法則」と呼んでいます。それはムーアの法則が誤称であるのと同様の誤称です。ムーアの法則、スケーリング法則、これらは宇宙の法則ではありません。経験的規則性です。私はそれらが継続することに賭けるつもりですが、それについて確信はありません。ここで、ほぼ全世界が間違いました。
推論への期待と現実
事前訓練の進歩が停滞すると、推論は脱出ハッチになるはずでした。新しい種類の知能、測定が困難だが、潜在能力に満ちたもの。うまくいけば、次の支出の波を正当化し、AI取引を生き続けさせるでしょう。チップメーカー、ハイパースケーラーは、その物語で回復しました。
私たちは、これらの基盤モデルの構築者である皆さんが、訓練と推論のための最高のシステムだけでなく、最大のコンピュートを確実に得られるよう、自分たちを深くコミットすることを完全に意図しています。
私たちの第7世代TPU Ironwoodは、規模での思考と推論を動力とするための最初の設計です。実際、それは究極の極端なコンピューティング問題であり、それは「推論」と呼ばれています。
しかし、それがもはや当然ではないなら、この再燃した勢いを壊し、再び投資家にAI支出への見返りについて疑問を持たせる可能性があります。
企業の大規模投資
Google、OpenAI、Anthropicなどの主要プレイヤーによる推論への大規模投資に加えて、全体的にアメリカの企業もそれに大きく賭け始めています。
今年の初めからAI採用を開始した企業の数が加速しており、テクノロジーが真に彼らのビジネスを変革し、革命化するという信念に基づいています。
たとえJPMorganのCEOであるJamie Dimonが言うように、「利益がすぐには明確でない」としても。AIは企業にとって必須要件となっていますが、見返りが実現しないなら、その前提全体が再考される可能性があります。
そして、それがAppleの白書が冷水のように受け取られた理由です。
Appleの論文への反応
一部の人々は、その警告をAppleがゴールポストを動かし、遅れを取っているために会話をシフトさせていると見ました。
Appleは現在、LLMと推論が実際には機能しないという論文を出しており、彼らが言ったことは課題について完全に間違いではありませんでした。しかし、それが出てきて、そして彼らが持ったようなWWDCを持ち、知能が完全な失敗だったという事実に実際に対処しないことは、むしろこう聞こえます。「おっと、こちらを見てください。他のすべてのMAG7企業がヒューマノイドロボットを構築し、将来の大規模データセンターを構築し、実際のネットワーキングとGPUを構築している間、私たちは何をしているのか正確にはわからないから」
Anthropicは最終的に応答を発表し、「思考の錯覚の錯覚」というタイトルの別の論文で、Appleがそれらの論理パズルを実行するために使用した技術的手法の一部に問題を提起しました。
しかし、警告を鳴らしている研究者の波は無視し難いものです。Appleがやっていたことは、基本的にモデルが知能を持つには、まだ長い道のりがあるという物語を設定し始めることだったと思います。
AGIへのタイムライン
そして、それがすべてからの最大の変化球かもしれません。汎用人工知能、またはAGIへのタイムラインを押し戻すことです。それはSam Altman、ソフトバンクのMasayoshi Son、Mark Zuckerbergによって高コストで追求されている夢です。
それは、かつて業界で最も戦略的で整合性の取れたものとして広く見られていたAIパートナーシップに巨大な影響を与えます。OpenAIとMicrosoftです。OpenAIがAGIを宣言すると、6年前に結ばれた彼らの合意によると、パートナーシップは終了します。これは、知能の定義と誰がそれを呼ぶかが、AIの未来を誰がコントロールするかを決定する可能性があることを意味します。
推論はAIの次の大きな飛躍になるはずでした。代わりに、それは私たちがまだどれだけ遠くにいるかを思い出させるステップにすぎないかもしれません。


コメント