Apple、AI推論能力に関する爆弾発言を投下：LLMは推論できない

この動画は、Appleが2025年6月に発表した研究論文「The Illusion of Thinking」について解説している。同論文は、OpenAIのo3やAnthropic社のClaude、DeepSeek R1などの最先端AI推論モデルが、実際には真の論理的推論を行っておらず、高度なパターンマッチングに過ぎないと主張している。Appleは「ハノイの塔」パズルを用いた独自のテスト手法により、これらのモデルが複雑な問題で完全に破綻することを実証した。この発表はAppleの開発者会議直前という絶妙なタイミングで行われ、AI業界に大きな波紋を呼んでいる。

AIコミュニティを震撼させたAppleの研究論文
研究論文の詳細と衝撃的な内容
絶妙なタイミングでの発表
Appleの発見：3つの性能ゾーン
モデルの限界を明らかにする実験
AI推論に関する大きな議論とTwitterでの論争
反論：トークン制限問題
難易度測定に関する議論
結論と今後への影響
Gary Marcusの視点と業界への影響
まとめ：現実的なAI評価の必要性

AIコミュニティを震撼させたAppleの研究論文

今、ソーシャルメディア、特にAIコミュニティで人々がパニックになっている出来事についてお話しする必要があります。Appleが、みんなが夢中になっているこれらの高度な思考系AIモデルについて、実際には全く思考していない可能性があると基本的に述べる研究論文を発表したのです。

そして、このタイミングが本当に驚くべきものです。なぜなら、みんながAppleがAI機能を披露することを期待していた大きな開発者会議のわずか数日前に発表されたからです。誰も予想していなかった爆弾発言でした。

研究論文の詳細と衝撃的な内容

2025年6月7日、つまりわずか2日前に、Appleの機械学習チームが、おそらくAI研究で見た中で最も挑発的なタイトルの研究論文を発表しました。「思考の錯覚：問題の複雑さのレンズを通して見る推論モデルの強みと限界の理解」というタイトルです。

私が最初にこのタイトルを見た時、「待って、AppleはAI業界全体に異議を唱えたのか」と思いました。この新しい話は本当に人々を動揺させています。なぜなら、基本的にAppleが、AIの未来とされるこれらの超高度なAIモデル、つまりOpenAIのo3、AnthropicのClaude、DeepSeek R1、さらにはGoogleの最新思考モデルといった最先端モデルを取り上げて、それらの限界を完全に暴露する一連のテストにかけたからです。

私はまた、Appleが舞台裏で本格的なAI研究を行っていることを知って驚きました。ほとんどの人はAppleをただiPhoneやMacBookを作る会社だと思っていますが、実際にはこれらのAIシステムがどのように実際に動作するかを静かに研究してきた機械学習研究部門全体を持っているのです。

絶妙なタイミングでの発表

タイミングがクレイジーだと言ったことを覚えていますか。正直言って笑えるほどです。Appleの世界開発者会議が文字通り今日、6月9日に開催されており、みんなGoogleやOpenAIに追いつくための印象的なAI機能をAppleがついに披露することを期待しています。しかし、AIを誇大宣伝する代わりに、彼らは基本的に皇帝は裸だと言う論文を発表したのです。

これをさらに興味深くしているのは、AppleがAIの取り組みで大きく苦戦していることです。彼らのApple Intelligence機能は単純に遅れており、Siriもまだそれほど優秀ではありません。実際、私は最近Perplexity音声アシスタントについて動画を作りましたが、それはSiriができることを遥かに上回っています。

Appleは実際にAI競争で後れを取っていることで叩かれてきました。だから、Appleが出てきて、「みんな見て、この推論AI全体はみんなが思っているほど素晴らしくないかもしれない」と本質的に述べる論文を発表した時、彼らが真に科学的なのか、それともゲームに負けているからゴールポストを動かそうとしているだけなのか疑問に思わざるを得ません。

私は、Appleの元デザイン責任者ジョニー・アイブが実際にOpenAIと働くために去ったという記事を見つけました。これは基本的にAppleにとって顔面を殴られるようなものです。最近それについて動画を作りました。そのデバイスはかなりクレイジーで、かなり奇妙です。スター社員があなたの競合他社に転職し、その直後にあなたの会社が競合他社の技術が実際には機能しないという論文を発表し始めるようなものです。少し怪しいように思えます。

Appleの発見：3つの性能ゾーン

それでは、Appleが実際に発見したことを見てみましょう。正直言って、批判にもかかわらず、これはかなり心を打つものです。彼らが見つけたことを正確に分解してみましょう。これが超興味深くなるところだからです。

みんなが使用する典型的なAIベンチマーク、つまりこれらのモデルが通常エースする数学問題やコーディングテストを使用する代わりに、Appleはパズルゲームを使用して独自のテスト環境を作成しました。彼らは特に「ハノイの塔」パズルのバリエーションを使用しました。これは、特定のルールに従って一つのペグから別のペグにディスクを移動しなければならない古典的な問題です。

このアプローチの素晴らしい点は、問題がどれほど複雑かを正確に制御できることでした。彼らは1枚のディスクだけの超簡単なパズルから始めて、20枚のディスクまでの本当に複雑なものまでスケールアップしました。

そして、ここからがワイルドです。Appleは、これらのAIモデルをテストする時、基本的に3つの異なる性能ゾーンがあることを発見しました。

まず、低複雑性ゾーンがあります。これは私の心を完全に打ち砕きました。通常のAIモデルが実際に、簡単な問題において高度な推論モデルよりも優れた性能を発揮するのです。それは、市街地交通において、タスクに対して過度に設計されているため、レースカーが実際に普通の車よりも遅いようなものです。

次に、中程度複雑性ゾーンがあり、これは推論モデルが実際に輝く場所です。これは、o1やo3のようなこれらの思考モデルが標準モデルを本当に上回る場所です。だから、その余分な思考が実際に役立つスイートスポットがあるのです。

しかし、ここからが核心です。高複雑性ゾーンでは、両方のタイプのモデルが完全に崩壊します。彼らの精度は基本的にゼロまで落ちます。そして、これは時間や計算能力が不足したからではありません。Appleは両方を十分に与えました。モデルは単に諦めたのです。

さらに魅力的なのは、Appleが発見したこの奇妙な行動です。問題が困難になるにつれて、推論モデルがより長く、より一生懸命考えることを期待するでしょう。しかし、それは起こりませんでした。最初は、はい、問題がより複雑になるにつれて、彼らはより多くの努力を推論に費やしていました。しかし、ある時点で、彼らは実際により少ない努力を投入し始めました。問題が難しすぎることを感知し、本当に解決しようとするよりも手を抜くことを決めたようでした。

モデルの限界を明らかにする実験

私はまた、Appleが本当に賢いことを試したことを知って驚きました。彼らは実際にこれらのモデルにパズルを解くために必要な正確なアルゴリズムを与えました。文字通り段階的な解決方法を手渡したのです。それでもモデルは複雑な問題で失敗しました。

これは、これらのモデルが人間が行うように実際に論理的推論を行っていないことを示唆しています。彼らはより洗練されたパターンマッチングマシンのようなものです。

研究者たちは、AIモデルが以前に見たことがあるバリエーションの問題に遭遇した時、基本的に記憶された解決テンプレートを検索して適応させているため、かなりうまく処理できることを発見しました。しかし、真に新しい複雑な問題に直面した時、彼らの推論能力とされるものはほぼ瞬時に蒸発します。

AI推論に関する大きな議論とTwitterでの論争

ここからが本当にスパイシーになります。なぜなら、AIコミュニティがこの研究が実際に何を意味するかについて完全に分かれているからです。一部の人々はこれをAppleがAI推論が偽物だと証明したかのように扱っていますが、他の人々はAppleが完全にポイントを逃したと言っています。この論争は本当に人々をスポーツゲームのように味方を選ばせています。

一方では、これが推論モデル周りのすべての誇大宣伝が単なるマーケティングの戯言に過ぎないことを証明すると言っている人々がいます。私は、この論文がこれらのモデルが実際の思考マシンというよりも本質的に確率的テープレコーダーであることを示すと言った誰かのコメントを見つけました。

しかし、Appleの結論に対して強く反発している全く別の陣営があります。多くの研究者がこの個人に同意しているTwitterスレッドを紹介しましょう。

反論：トークン制限問題

scaling01というTwitterアカウントがこの研究論文に関していくつか異なることをツイートしました。私はこのTwitterスレッドのクリフノート版を説明します。

ハノイの塔を見ると、すべての動きは約10トークン（基本的に単語のようなもの）を要します。だから8,191の動きの場合、それは81,910トークンになります。これらのAIモデルのほとんどは、出力できる量に制限があります。

DeepSeek R1は64,000トークンを出力でき、Claude 3.7 SonnetとO3 miniは100,000から128,000トークンを出力できます。だから、総動き数がそのトークン制限を超えると、モデルは物理的に全体の答えを出力できません。Twitterの投稿で本を書こうとするようなものです。

要点は何でしょうか。Apple論文は、これらのAIモデルがより多くのディスクを持つハノイの塔のような高複雑性パズルで精度が崩壊し、それが推論の失敗を暗示していると主張しました。しかし、ツイートは「いや、モデルが愚かになるのではなく、答えを書き終えることさえできないのです。だから彼らは失敗するのです。明らかでしょう」と言っています。

ツイートからの重要な観察がいくつかあり、基本的にパズルを解くためにn-1の2乗の動きが必要だと述べています。基本的に、これは急速に成長し、各動きは約10トークンを要すると述べています。だから、nが13ディスクのように大きくなりすぎると、モデルが完璧に考えることができたとしても、単にスペースが不足します。10ページのノートブックに200ページのエッセイを書こうとするようなものです。

難易度測定に関する議論

また、このTwitterスレッドの別の部分も非常に興味深いと思います。もう一度、シンプル版を説明します。なぜLLMはハノイの塔を処理できるが、より簡単に見えるパズルで失敗するのでしょうか。

Apple論文では、最短解がどれくらい長いかによってパズルの難易度を定義しています。ハノイの塔は2のn-1乗の動きが必要で、これは指数的です。一方、チェッカージャンピングは二次的で、川渡りとブロックワールドは線形的です。

だから彼らは、ハノイの塔が最も多くの動きを要するため最も困難だと言います。しかし、それはおそらく難易度を定義する最も賢い方法ではありません。

このTwitterスレッドは、その論理が欠陥している可能性があると述べています。何かに時間がかかるからといって、それを理解するのがより困難であるとは限りません。例えば、ハノイの塔は一つのきれいな再帰ルールです。選択肢も検索も推測もありません。同じルールを無意識に従うだけで勝てます。

しかし、一方で川渡りは慎重な計画が必要です。複数の有効に見える選択肢がありますが、ほとんどは前もって考えない限り失敗につながります。だから、ハノイの解決は長いですが、実際は非常に簡単です。一方、川渡りは短い解決がありますが、実際に見つけるのは本当に困難です。

この人は実際にO3とGemini 2.5 Proに、パズル難易度のより良い測定を考え出すよう求めました。モデルが実際にパズル難易度をどのようにランク付けしたと思いますか。彼らは川渡りを1位、ブロックワールドを2位、チェッカージャンピングを3位、ハノイの塔を最下位に置きました。これは論文自体の性能チャートが示すものと一致します。ハノイは高い動き数まで解決されますが、川渡りは早期に失敗します。

結論と今後への影響

ここでの要点は何でしょうか。Appleは、モデルが構成的深度が低いパズルで苦戦する一方で、構成的深度が高いパズルで成功するのは奇妙で謎めいていると言いました。しかし、このTwitterスレッドは基本的に、それは謎めいていない、あなたが単に難易度を間違って測定しただけだと言っています。解決の長さを考えることの困難さの代用として使用しているが、それは推論の働き方ではないと。

要するに、Appleはより多くの動きを要するため、彼らが評価したタスクがより困難だと言っており、モデルがより簡単なパズルで失敗するのは奇妙だと言います。しかし、Twitterは「いいえ、ハノイは単に長いだけで、困難ではありません。川渡りが実際に困難で、あなたの指標が壊れています」と言います。

だから、推論モデルの謎めいた行動は神秘的ではないかもしれません。それは単に仮定の悪いケースかもしれません。

Gary Marcusの視点と業界への影響

Gary Marcusは「LLMへのノックアウトブロー」というタイトルの記事を持っており、これはApple論文と同じ日に投下されました。この男は遠慮していません。彼は種類の勝利周回をしながら、同時にAIコミュニティを真っ二つに分けた真実爆弾を投下しています。

まず、Gary Marcusは何かワイルドなことを明らかにしています。Apple論文は実際に、訓練データ外でのニューラルネットワークの失敗についての彼の数十年前の議論を名指ししています。彼は1998年から簡単な数学問題で失敗する初期のニューラルネットワークを酷評する論文を発表して以来、この件について叫び続けてきました。

Marcusは「これは私の1998年論文の核心であり、1999年の私の最初のサイエンス論文の中心でした。幼児がニューラルネットを上回ることを示したのです」と書いています。完全な円環の瞬間について話していますね。

しかし、本当に私の注意を引いたのは、MarcusがAppleのハノイの塔の発見がAI企業にとって単に恥ずかしいだけでなく、AGI群衆にとって存在論的に恐ろしいものだと指摘していることです。彼は、AIの偉大な父の一人であるハーブ・サイモンが1950年代レベルの技術でハノイを解決した一方で、現代のLLMが人類のすべての知識にアクセスできるにもかかわらず8枚のディスクで窒息することを指摘しています。

彼の殺し文句は、10億ドルのAIシステムを使って第1学期のCS学生が処理する問題を解決できないなら、AGIに到達する可能性は本当に遠いように思えるというものです。

まとめ：現実的なAI評価の必要性

これが私たちをどこに導くかというと、まず、この研究のタイミングは開発者会議に向けたAppleの戦略について多くを物語っています。みんながより大きく、より複雑なシステムを構築することに競争している間、Appleは基本的に「ちょっと待って、私たちはここで間違った道を歩んでいるかもしれません」と言っているのです。

本当に起こっていることは、AppleがAI競争で自分たちを異なって位置づけようとしているということだと思います。最も印象的な推論モデルを構築しようとする代わりに、彼らは実際にリアルユーザーのために働く実用的なAIに焦点を当てています。

この研究はまた、現在のAI開発の状態について重要なことを明らかにしています。みんながまだそこにないAI能力について大げさな主張をしているところです。このApple論文は、業界にその現在の限界についてもう少し正直になることを強制する現実チェックのようなものです。

最も重要な要点は、AIが何ができて何ができないかについて、もっと現実的になる必要があるということです。これらのモデルは信じられないほど強力なツールですが、魔法ではありませんし、確実にまだ人間レベルの推論者ではありません。彼らの限界を理解することは実際には悲観的ではありません。それは実用的であり、より効果的に使用するのに役立ちます。