Apple衝撃の発見「LLMは推論できない」| AGI開発中止

Apple・ティムクック
この記事は約13分で読めます。

Appleが発表した研究論文「思考の錯覚」は、大規模言語モデルの推論能力に疑問を投げかけている。しかし、この研究手法には複数の問題点が指摘されており、特にハノイの塔のような既知のパズルを使用することの妥当性や、モデルが複雑すぎる問題に対して人間と同様のアプローチを取ることの評価について議論が分かれている。AI業界で遅れをとるAppleの研究戦略に対する疑問の声も上がっている。

スティーブ・ジョブズの理念とAppleの現在

スティーブ・ジョブズはこう言いました。我々人間は道具作りの名人である。自転車に乗った人間はコンドルを圧倒的に凌駕した。そして、コンピューターとは私にとってまさにそれなのです。我々の心のための自転車なのです。

今や我々にはAIがあります。道具を作る道具です。Appleがこれに全力で取り組んでいるに違いないと思いますよね。

Appleの研究論文「思考の錯覚」

そこでAppleが「思考の錯覚」と題する論文を発表しました。彼らは推論能力を持つモデル、つまり推論能力を備えた大規模言語モデルをテストして、特定のタスクでどの程度のパフォーマンスを発揮するかを調べました。

多くの人々が、今や大規模言語モデルは推論できないことが分かった、それは全て錯覚だったと投稿しています。当然、私はこの論文を詳しく見てみたくなりました。彼らがこれらのモデルは推論できない、それは単なる錯覚だと断言できるような決定的な発見をしたのか、非常に興味深く思ったからです。

興味深いことに、これはAppleから出た最初の論文ではありません。彼らは大規模言語モデルに対してやや皮肉的なアプローチを取っているようです。大規模言語モデルにおける数学的推論の限界を理解するという別の論文もありました。今回は問題の複雑性を通じて推論の限界を実現するという内容です。

Appleの立ち位置への疑問

Appleには、私の知る限り、推論モデルは存在しません。もしあったとしても、どのリーダーボードにも載っていません。Appleは、我々全員が同意できることですが、最も劣悪なAI製品を持っています。ですから、他の皆がやっていることについて、「なぜうまくいかないのか、その理由はこうです」と言いながら研究を発表するのは少し奇妙なことです。

アンドリュー・ホワイト氏がここで指摘しているように、彼らの戦略が何なのか全く分かりません。私も同感です。なぜ彼らがこんなことをしているのか、よく理解できません。

論文の主要な発見

では、実際の事例を見てみましょう。論文を詳しく見てみましょう。

まず、彼らは最新のフロンティア言語モデルが大規模推論モデルを導入したと述べています。質問をすると即座に答えを吐き出すLLMがあります。そして最近では、一部の人が大規模推論モデルと呼ぶものが導入されました。これらは20秒ほど「考えています」と表示し、思考の連鎖推論を行うもので、特定のタスクでの回答を改善することが示されています。通常は数学、コーディング、基本的に答える前に何かを考え抜くことが役立つ分野です。

そして彼らは、現在の評価は主に確立された数学とコーディングのベンチマークに焦点を当て、最終的な回答の正確性を重視していると述べています。論文を通して気づくように、彼らはこれらのベンチマークがこれらのモデルをテストする最良の方法ではないという考えに言及しています。なぜなら、このデータが訓練データに含まれていて、単にそれらの答えを記憶しているのか、実際に思考を通じて新しい洞察を得ているのかが確実でないからです。

これは確かに真実です。特定のAI研究所がデータでモデルを訓練してこれらのベンチマークをゲーム化し、それらのベンチマークで非常に良い成績を収める傾向があることを我々は見てきました。しかし、実世界のタスクをやらせようとすると、期待ほどうまくいきません。そのため、多くの人がこれらのベンチマークを眉唾物として扱っています。

簡単な回答と推論集約的回答の違い

続ける前に、クイックレスポンスで正解が得られる簡単な回答と、もう少し推論集約的なものとの違いについて、本当に簡単に説明しましょう。

2足す2は何かと聞かれたら、4と答えるでしょう。考える必要はありません。多くの精神的エネルギーを費やす必要はありません。答えはそこにあります。本当に考え抜く必要はありません。

では、9掛ける6は何かと聞いたら、それを考え抜くのに少し多くの努力が必要かもしれません。もし記憶していたり、最近やったことがあったり、こういうことを記憶する傾向があるなら、すぐに答えが分かるかもしれません。あるいは頭の中で計算をしなければならないかもしれませんし、その計算をするトリックを思い出すかもしれません。でも重要なのは、通常は考え抜いて答えを出すのに少し時間がかかることです。

しかし、これが最後の質問です。1から1500万の間に素数はいくつありますか?本当によく考えてみてください。答えが分かりますか?

ほとんどの人にとって、我々は素早く「この問題を解く近道はあるか?」と考えるかもしれません。そして思いつかなければ、今このビデオを見ながらこの問題を解こうと大量の精神的努力を費やし始めることはないでしょう。ですから、ここでは少し努力をし、この問題ではもっと努力をしたかもしれませんが、この問題では恐らくより少ない努力を費やしたでしょう。それが非常に複雑だと気づいて、取り組まないことを選んだのです。

重要なのは、問題にかけようとする時間は、問題が難しくなるにつれて単純に増加するわけではないということです。ある時点で、それは自分にとって少し難しすぎて取り組む価値がないと判断し、もう考えなくなります。これを覚えておいてください。

論文の主要な発見

では、この論文の主要な発見は何だったのでしょうか?3つありました。

1つ目は、標準モデルが大規模推論モデルを驚くほど上回る低複雑度タスクです。2足す2のように、すぐに答えが分かるかもしれません。考える必要はありません。考えすぎることが結果を悪化させるシナリオさえ恐らくあるでしょう。

2つ目は、大規模推論モデルでの追加思考が優位性を示す中複雑度タスクです。ステップバイステップで考え抜かなければならない少し複雑なもので、ステップバイステップで考え抜く能力が本当に輝くところです。そこで結果が改善されます。

そして3つ目は、両モデルが完全に崩壊する高複雑度タスクです。つまり、問題が非常に複雑で複合的な場合、両タイプのモデルは単に崩壊します。続けることができません。

これらのモデルはハノイの塔、チェッカージャンピング、川渡り、ブロックワールドなどでテストされています。ここに主要なチャートがあります。簡単な問題では、思考モデルと非思考モデルは青色で似たような結果を示しています。中難度の課題では、思考モデルが明確な優位性を得ています。

答える前により長く考える能力が特定のタスクで役割を果たし、これらのモデルに大きな優位性をもたらしています。理にかなっていますよね?2足す2はすぐに答えが分かります。ただ吐き出せばいいのです。9掛ける6や、この例で使った何でも、記憶していなければ数秒かかるかもしれません。答えは出るでしょうが、処理するのに数秒必要なだけです。

そして、より困難なタスクでは、両モデルが完全に崩壊してゼロになります。ステップを考え抜いて正しい答えを出し続けることができません。

テスト結果と結論

ご覧の通り、ClaudeやDeepSeek R1、そして03 miniの中・高構成でも、これらのテストの一部で実行しました。

結論として、彼らはこれらのモデルが特定の複雑性閾値を超えた一般化された推論能力の開発に失敗したと述べました。そして、これが恐らく人々が推論は機能しない、本物ではない、錯覚だという考えを得る原因なのでしょう。

多くの人が、Appleがマイクを落とした、大規模言語モデルは考えない、思考を同化するだけだと理解する必要がある、LLMは推測マシンだ、と書いています。別の論文では、LMはしばしば真に理解することなく論理を同化すると述べています。

研究への反論と問題点

この研究に対する反論をいくつか見てみましょう。この論文の問題のいくつかについて最良の説明の1つは、ショーン・ゴディのブログ投稿だと思います。下にリンクを貼ります。残念ながら、彼は数年前からツイートしていません。理由は分かりません。ショーン、もし聞いているなら、Twitterに戻ってください。我々はあなたに戻ってきて欲しいです。

彼は、AI言語モデルが超知能への道のりにあるとは信じていないが、それでもこの論文はあまり好きではないと述べています。これは私の見解でもあります。いくつかの問題を見ています。大規模言語モデルの栄誉を守ろうとか、そういうことをしようとしているわけではありません。ただ、この論文について答える必要があると思う疑問がいくつかあります。

論文の第一の問題点

論文の最初の問題は、コーディングと数学のベンチマークは訓練データに存在する可能性があるため悪いと述べながら、ハノイの塔を選んでいることです。

しかし、ショーンがここで述べているように、ハノイの塔は数学とコーディングよりもさらに悪い推論のテストケースです。数学エンコーディングベンチマークが大規模言語モデルの訓練データの一部であるデータによる汚染に苦しんでいることを心配しているなら、なぜ解決策がインターネット上に存在することが分かっている有名なパズルを選ぶのでしょうか?

彼は10ディスクハノイの塔解決策のGoogle結果にリンクしており、まずGoogle AIの概要が表示されます。大量のビデオ、大量の結果があります。何らかの曖昧なベンチマークよりも、これを解決する方法についてインターネット上により多くの例があることになります。何百万ページものコーディングAIベンチマークについてのページはありません。10ディスクハノイパズルを解決する方法については百万ページのようにあります。

そして彼は続けます。この理由で、モデルにアルゴリズムを与えても役に立たなかったという論文の驚きに困惑していると。ある時点で彼らはモデルにアルゴリズムを与えて、それが能力を向上させるかどうか確認しました。ハノイの塔アルゴリズムはモデル訓練データに何度も現れます。もちろん、アルゴリズムを与えても大して役に立ちません。モデルは既にそれが何かを知っています。より良くなるための新しい情報を与えていないのです。既に知っているのですから。

さらなる問題点

また、推論モデルはパズルではなく、数学とコーディングで意図的に訓練されています。強化学習で、多くの企業が数学とコーディングでうまくやりたがっていることを我々は知っています。それが焦点です。パズルは推論スキルの公正な代理なのでしょうか?多分そうかもしれませんし、そうでないかもしれません。確実に、パズルスキルよりもコーディングスキルと数学スキルに賭けるでしょう。

彼は例を挙げています。これらのモデルがGPT-3.5以降、ペトラルカのソネットを書くのが上手になっていないので、本当の進歩は何もなされていないと言うようなものです。再び、これらの奇妙で場違いなパズルを選ぶことは、必ずしも何かを示すものではありません。

これは街灯効果の事例かもしれません。基本的に、何が起こっているかを観察するのがより簡単なところで物事を研究するのです。モールの外のどこかで車の鍵を落として、他はすべて暗いので街灯の下でだけ探すようなものです。だから探していないのです。その光る光の下だけで探しているのです。見えるところにある可能性が高いわけではありません。暗闇のどこかにあるかもしれません。だから、光の下だけを見ても本当に役に立ちません。

実際のテスト結果

ショーンを含む多くの人々が、実際にDeepSeek R1でこれらのプロンプトのいくつかをテストしました。彼らは10ディスクのハノイパズルを与えました。モデルは基本的な数学を行い、大量の動きがあることに気づきました。だから、すべてのそれらの動きを手動で生成することは不可能だと。考え抜きます。

1から1500万の間に素数がいくつあるかを見つける私が与えた例を思い出してください。恐らく近道はあるかと考えたかもしれません。なかったので、実際にそれを見つけるために数学をしなければならず、転々と数えなければならず、諦めました。これらの推論モデルは何をするか推測してください?全く同じことです。

モデルは即座に、1000を超える動きを追跡する必要があるため、すべてのそれらの動きを手動で生成することは不可能だと決定します。だから、近道を見つけようと回り続けて失敗します。

ここでの重要な洞察は、特定の複雑性閾値を過ぎると、モデルは推論すべきステップが多すぎると決定し、巧妙な近道を探し始めることです。8または9ディスクを過ぎると、調査されているスキルは、モデルがハノイの塔の連続を推論できるかから、モデルが連続を推論することをスキップする一般化されたハノイ塔解決策を思いつけるかに、静かに変わります。

ここで論文のこの部分を見てください。これが10です。ここに複雑すぎる線があります。そして、ここで見ることができるように、結果はゼロに近いです。だから研究者は、このモデルの精度は10以降はゼロだと言いました。彼らはそれを間違いだと印をつけ続けます。

他の研究者による再現実験

XのここにいるSomeoneが実際にこの実験を再現して言っています。彼らの正確なプロンプトでハノイゲームを再現した後のさらなる観察です。再び、そのApple論文からの正確なプロンプトを使用しています。

この人は、コンテキストウィンドウ、これらのモデルの出力制限に注目して、13ディスク以上ではすべてのモデルがゼロ精度になると述べています。単純にそれほど多く出力できないからです。推論の余地なしでの最大解決可能サイズは、DeepSeekで12ディスク、Claude 3.7と03 miniで13ディスクです。

100万トークンのコンテキストウィンドウGeminiをテストしていないことに注意してください。そして、実際にモデルの出力を見ると、大きくなりすぎると問題について推論さえしないことが分かります。大量の動きのためです。32,000の動きを個別にリストするのではなく、解決アプローチを説明すると言います。

人間的な推論アプローチ

ここで何が起こっているかが理解できることを願います。モデルが問題の複雑さを考え抜いて、「すべてのステップをリストするつもりはない」と考えて、試そうともしないからといって、それが間違いを犯すのと同じではありません。

ビデオの始めに2足す2を聞いたとき、私に付き合って4と言ったかもしれません。本能的に答えを知っていたのです。9掛ける6と言ったとき、恐らく1、2秒考えたかもしれません。何らかの近道を思い出したかもしれません。答えさえ得たかもしれません。そして、この非常に複雑なことをするように与えたとき、数秒間考えて、それを解決する簡単な方法がないと気づいて、ただ諦めたかもしれません。

もしそうしたなら、それはあなたが推論できないことを意味します。あからさまに、あなたは推論能力がありません。あなたの推論能力は錯覚です。申し訳ありません。

あるいは、これは考え抜いて「これをする簡単な方法がないので、このタスクを完了できないので、この物事をしない。近道を考えてみよう」と言う非常に人間的な推論能力なのでしょうか?

それはより人間的なアプローチ方法です。これらのモデルは我々が物事について推論する方法を模倣しています。ちなみに、10ディスクのハノイ問題を解くように私に求めたら、私がただそこに座って、何千もの動きがあろうとも、時間をかけて転々と書き出すと思いますか?いいえ、ここで私が何をするか知っていますか?Gemini 2.5 Proに10ディスクのハノイの塔パズルを解決するコードを作成するように頼みました。

結果がこちらです。何をしたか見てみましょう。ここでディスクの数を変更できます。10に設定して開始しましょう。実際に理解できるかどうか見てみましょう。ご覧の通り、必要な最小動き数が1,023であることを知っています。現在600です。すべてをアニメーション化しているので、速度を少し上げてみましょう。ああ、そこです。ハノイの塔ソルバー。1,023動きで解決しました。

でも待ってください、推論は錯覚だと思っていました。では、なぜ我々が与えた問題を解決するツールを構築することができるのでしょうか?なぜ、1000を超える動きをリストしなければならないこれらの非常に複雑な問題では、それが実行可能でないかもしれなくて、異なるアプローチを考えなければならないという事実を理解することができるのでしょうか?

それは合理的に見えませんか?より良い言葉がないので、合理的です

結論への問いかけ

でも、これについてどう思うか教えてください。Appleが何かを掴んでいて、これらのモデルは単に思考と推論の錯覚を持っているだけだと思いますか?再び、推論と思考について、我々はこれらの言葉の明確な定義を持っていません。特にAIとの関係においてです。

より良い質問は、それが人間が思考し推論する方法と似たことをしているように見えるかということです。そこには何らかの類似点があるかもしれません。機能するように見える、同じような結果を達成するように見える何らかの模倣かもしれません。

あるいは、AppleがAI開発で遅れをとっていて、スティーブ・ジョブズが墓の中でひっくり返っていると思いますか?コメントで教えてください。私の名前はウェス・ロスです。

コメント

タイトルとURLをコピーしました