Appleの AI論文についての大きな誤解—みんなが見逃している本当のポイント

Apple・ティムクック
この記事は約10分で読めます。

この動画は、最近話題となったAppleの AI研究論文について、インターネット上で広まっている誤解を解説し、論文の真の意味と実用的な示唆を説明するものである。多くの人がこの論文を「AIは偽物だ」「推論は機能しない」という証拠として解釈しているが、実際には論文が示しているのは、ツールや推論時間なしの条件下でのLLMの限界であり、これは AI システム設計における「助けを求める」フレームワークの必要性を示唆している重要な研究である。

インターネットが大騒ぎしているApple研究論文の真実

インターネットはAppleの研究論文で大混乱しています。AIは偽物だ、AIは死んだ、Appleが推論の間違いを証明したという内容に要約されるミーム投稿の数を追いきれないほどです。これはミームになってしまっていて、私は皆さんにお願いしたいのです。座って論文を読んで、Appleが実際に何を主張しているのかを理解し、AIシステムのシステム設計という観点で実際にどこで現実と接するのかを理解してください。なぜなら、人々が大騒ぎしているほど劇的な論文では全くないからです。

まず、まだ読んでいない方のために、Appleが実際に何をしたのかを簡潔にご説明します。Appleの研究チームは、推論言語モデルが実際に推論しているかどうかをテストしたかったのです。ここで非常に正確に言いたいのですが、彼らは複数の過去のモデルを使用せず、長い推論時間モデルも使用せず、大量のトークンを消費することも望まず、AnthropicがリリースしたオープンソースのClaude推論トレースフレームワークも使用しませんでした。

つまり、基本的にAnthropicが推論トレースフレームワークをリリースしており、それを使ってLLMを通じて実際に思考を追跡できるのです。非常にクールで、とても新しいものです。この論文はそれより前に書かれたので、使用しませんでした。

代わりに、彼らはモデルが述べた思考の連鎖を推論を追跡し信頼性を決定する方法として使用しました。モデルが述べた思考の連鎖がモデルのパフォーマンスと多少曖昧な関係にあることは私にも分かっていましたが、とにかくテストしているのです。

研究の詳細:使用されたモデルと制約条件

彼らは4つの異なるモデルを使用しました。Claude、Gemini、DeepSeek、そしてOpenAIのo3 miniから1つずつです。繰り返しますが、これは全てモデルのタイミングに関することで、より小さなモデルを使用しているのです。OpenAIの最先端のo3モデルは使用せず、GeminiのGemini 2.5 Proも使用しませんでした。彼らは意図的に思考の連鎖と長い推論時間をテストしたかったようで、それらは異なるものです。

次に、彼らが選んだモデルをカスタムパズルでテストしました。Google検索は許可されず、Pythonも許可されず、ツールは一切与えられませんでした。これは人間に試験を受けさせるのに、鉛筆も紙も計算機も一切のツール使用も与えないようなものです。ただモデルと思考のためのトークン予算だけです。

彼らが選んだパズルは、モデルがパターン連想を通じて答えを記憶していないように、大量に訓練されていないものにしたかったのです。そして複雑さを調整できるものにしたかったのです。

ハノイの塔:注目を集める数学パズル

最も注目を集めているものについて説明しましょう。私もよく知らなかったので説明します。ハノイの塔と呼ばれるもので、非常に有名な数学パズルです。基本的に、子供がいる方なら分かると思いますが、小さな木の棒があって、穴の開いた様々なサイズの木の円盤があります。子供がその円盤を木の棒に刺して、手の協調性などに良いものです。

数学者である数学は、それを数学的含意を持つパズルに変えました。基本的にハノイの塔でやるべきことは、大きな円盤が小さな円盤の上に来ないよう慎重に円盤を移動することです。そして異なる問題の複雑さがあります。3枚の円盤のハノイの塔は明らかに4枚より簡単で、5枚より簡単です。

論理の同じアイデアとして川渡り問題があります。川を渡る人々に制約があるものです。実際にこれについての童話もあります。狼とスイカと一緒に渡るというような、他にも何かあったと思いますが、異なる文化で異なるバージョンがあります。しかし考え方は、正しい順序で渡らないと、確かヤギもいて、ヤギがスイカを食べ、狼がヤギを食べることができ、川を渡る正しい順序を見つけなければならないというものです。

要点は、ハノイの塔、川渡り、論理チェッカー、ジャンピングゲーム、全て論理です。Appleはツール使用なし、推論時間なし、ただ思考の連鎖の状態だけで、モデルが思考の連鎖の状態で正確に直感的に推論を再現する能力をテストしようとしているのです。

予想通りの結果と実際の発見

これらのモデルと多くの時間を過ごしている私にとって、直感的にこれは無駄な努力のように感じられます。これで非常に悪い結果になるだろうと思いました。結果的に、私が思っていたよりも少し良い結果でした。追加の思考トークンは中程度の複雑さの問題で役立つようで、思考や思考の連鎖が全くない普通のモデルは悪い結果になるようです。それは素晴らしいことです。

そして高複雑度と呼ばれるものでは、モデルは全く良い結果を出しません。崖から落ちるような結果になります。これがAppleが宣伝している大きな発見です。実際にはAppleではないかもしれません。研究者に敬意を払うべきで、彼らは論文で行き過ぎたコミットはしませんでした。彼らの苦労に対して、始まったミーム戦争全てを彼らのせいにするのは不適切で不親切でしょう。それは本当に彼らの責任ではありません。

しかし、人々が彼らの研究から言っているのは、高複雑度問題周辺で発見したこの崖が、AIは役に立たないということを意味するということです。

インターネットの過剰反応と現実的な解釈

インターネットは正気を失い、私は少し立ち戻って話したいと思います。なぜなら結局のところ、これが本当に言っているのは、LLMがツールを持たず推論時間もない場合、ある時点で新規問題を確率的に解決する能力が尽きるということです。

私もそうです。Xで見た非常に鋭い意見の一つは、ミシガン大学の大学院生の多くも非論理的思考と多くのパターンマッチングを使っているようだと言う人がいました。人間もこれをするのに、なぜこれが特に新しい考えなのか分からないというものでした。

私の考えでは、ほとんどの人間は事後の推論を行います。これは思考の連鎖が正確であるという考えに最も近い類推だと思います。人間は多くの事後推論を行い、LLMは思考の流れを生成する傾向があり、彼らにとってパターンが意味を成すようにします。私はこれをかなり平凡な反応だと考えています。

より興味深い視点:AIシステムの「助けを求める」能力

実際に、この論文についてより興味深い見解は、どうやってLLMに助けを求めさせるかということです。覚えているかもしれませんが、これで私の年齢がバレますが、「クイズミリオネア」というゲームショーがしばらく放送されていて、できることの一つに助けを求めることがありました。他のゲームショーでもこれをやっています。「クイズミリオネア」というゲームショーがしばらく放送されていて、できることの一つに助けを求めることがありました。他のゲームショーでもこれをやっています。「クイズ ミリオネア」というゲームショーがしばらく放送されていて、できることの一つに助けを求めることがありました。他のゲームショーでもこれをやっています。「クイズミリオネア」だけではないことは分かっています。

しかし概念は基本的に、ライフラインの終わりにいて問題を解決する方法がない時、助けを求めるということです。これが実際に、このApple論文からAIシステム構築者にとって最も実用的で有用な要点だと思います。

基本的に、推論時間を必要とせず、最小限のツール使用を求めるアプリケーションが間違いなくあります。なぜなら、それらは費用と時間を追加し、時間と費用を多く消費する余裕がない場合、モデルがそれらなしで良いパフォーマンスを発揮する必要があるからです。

実用的な応用例:低遅延が重要な場面

例えば、電話の顧客サービスボットでは、低遅延が本質的に重要です。1分半の思考時間を消費することはできません。それでは機能しません。取引における詐欺をフラグ立てする場合、カードが提出された後、詐欺決定を行う時間は非常に少ないです。

これは重要でしょうか。その意味では絶対に重要です。LLMが良い決定を下す必要があり、ツール使用も推論もない時があるでしょう。Apple論文はそのような状況に正確に適用されます。ゲームショーのように、LLMが助けを求めるタイミングを知ってほしいのです。より大きなモデルを関与させる時であることを知り、継続を優雅に処理してほしいのです。

それは顧客サービスチャットボットが、LLMがバックグラウンドで推論している間、無害な質問で顧客を電話に留めておくような形かもしれません。それは取引が「うーん、いつもより少し時間がかかっています」と言って、ディスクを少し回転させるような形かもしれません。

助けを求めるフレームワークの必要性

これについて優雅になる方法はたくさんありますが、重要な洞察は、現在LLMが困難な状況に遭遇した時に助けを求める、超標準的で理解され受け入れられたフレームワークを持っていないことです。マルチエージェントシステムを成功させたいなら、私たち全員が実装方法を理解しているトリガーポイントが必要です。

トリガーポイントのための定義されたフレームワークが必要です。LLMが特定の複雑さの閾値に達し、そのモデルのパラメータ、そのモデルで行われたテスト、遅延要件、ツールの欠如、推論時間の欠如を考慮して成功する可能性が非常に低い時、私たちは助けを求めに行くことを理解するためです。

現在、その多くはシステムを設計するチームによって最善努力ベースで行われていると感じており、私たちがコミュニティとして集まって、いつ助けを求めるライフラインを持つことが意味をなすかについて、実際にシステム思考に取り組むことを愛しています。必ずしも人間に対してではなく、より賢いモデル、Pythonを持つモデル、推論時間を持つモデル、問題を解決できるモデルに対してです。

ツールと推論時間があれば解決可能

なぜなら、同じ問題、ハノイの塔、川渡り、チェッカー問題を、ツールと推論時間とインターネットアクセスを持つモデルに与えれば、それらを解決できると断言できるからです。大学院生により多くのツールを与えれば、より良い問題を解決できるのと同じです。私たち人間はツール使用者であり、LLMが人間のようにツール使用でより良くなることは実際に驚きではなく、よく知られていることです。

より高価なタスクがある時、それに対する定義されたフレームワークがあれば、高価なモデルに難しいエッジケースを解決させに行くことができます。低遅延の小さなモデルが顧客クエリの98%に答えることができ、2%の時間で上に電話して賢いモデルに整理してもらう世界を想像してください。

上に助けを求める電話をするトリガーが何であるかを私たち全員が理解するフレームワークが必要です。これが最も適用可能な要点の一つだと思います。

推論は機能するという立場

推論が機能しないと言って走り回るのは役に立たないと思います。実際、全体的にツール使用で再実行する必要があると思います。インターネットアクセスで再実行し、より高度なモデルで再実行し、推論時間で再実行し、Anthropicがリリースした推論トレースフレームワークで再実行する必要があります。

「それはかなり高価ですね」と誰かが言うなら、私の答えは「Appleは多くの現金を持っているので、本当に気にしているならこのテストを行う余裕がある」です。実際に、AIが社会に変革をもたらすものであるなら、これらのモデルがどのように推論するかを理解するために少しの実験に予算を組むことは価値があると思います。これらのモデルがどのように推論するかを理解できなければ、これらのモデルとのアラインメントを解決することはかなり困難だからです。

私にとって、これはお金をよく使ったと感じられ、彼らが論文を作成したことを気にしません。確実に彼らを攻撃したくありません。この分野でのより多くの研究は良いことだと思います。実用的な要点があると思いますし、インターネットは正気を失いました。落ち着く必要があります

コメント

タイトルとURLをコピーしました