「AIは推論できない」というAppleの主張が1300万人以上に見られた件について、知っておくべきこと

Apple・ティムクック
この記事は約13分で読めます。

この動画は、Appleが発表した「AIは実際には推論できない」とする論文について詳細に分析している。同論文は数千万人に読まれ、大手メディアでも取り上げられたが、実際の内容を30ページにわたって精査した結果、論文の主張には重大な欠陥があることが判明した。大規模言語モデルが完璧な計算機ではないことは既知の事実であり、これらのモデルはツールと組み合わせることで真価を発揮するという点を論文は見落としている。動画ではOpenAIの最新モデルo3 Proの評価も含め、現在利用すべきAIモデルの推奨も行っている。

論争を呼ぶApple論文の背景

ほとんどの人には、数千万人が目にしたこのような見出しを調査するための時間がありません。AIモデルは実際には推論を行わず、単にパターンを記憶しているだけ、AGIはほとんどが誇大宣伝で、引用されている基礎となるApple論文でさえ、それは思考の錯覚だと述べています。これは、ガーディアン紙のような主要メディアで取り上げられ、かなり破壊的なApple論文として引用されました。

では、見出しの半分が差し迫ったAIによる雇用の黙示録について語り、残りの半分が大規模言語モデルはすべて偽物だと語っている時、人々は何を信じればよいのでしょうか。

うまくいけば、私が特定の物語を売ろうとしているのではないことがお分かりいただけるでしょう。私は30ページの論文を完全に読み、周辺の分析も読んだ上で発見したことをお話しするだけです。また、最後にどのモデルを使用すべきかについての推奨で締めくくり、はい、OpenAIの新しいo3 Proについても触れますが、そのモデルにアクセスするための月額200ドルの価格は、あなた方のような一般大衆向けではないと言えるでしょう。

このような投稿が数千万のビューを獲得し、主流メディアで取り上げられる理由について、簡単な背景をお話しします。それは冒頭の不必要に狂乱的な「速報」のためだけではありません。人々がこれらのAI研究所のCEOによる主張を聞いているからでもあります。例えば、昨日のSam Altmanの投稿「人類はデジタル超知能の構築に近づいている。私たちは事象の地平線を越えた。離陸が始まった」といったものです。

これらの用語の定義は意図的に曖昧ですが、人々が注目する理由は理解できます。人々は大規模言語モデルがいかに急速に改善されているかを自分の目で見ることができ、AnthropicのCEOが「ホワイトカラーの血の海が来る」と言って生成された見出しを読むことができます。

Apple論文の具体的な主張

今では毎週のようにニューヨーク・タイムズでこのような見出しを目にするので、人々が注目するのも不思議ではありません。皮肉を込めて言えば、AppleはAIを実際に改善するよりも、AIを「論破」する論文をより多く作成しているように見えるという人もいるでしょうが、その皮肉は脇に置いておきましょう。

論文は本質的に、大規模言語モデルは明示的なアルゴリズムに従わず、十分な複雑度のパズルに苦戦すると主張しました。ハノイの塔のようなパズルで、ディスクの塔を一箇所から別の場所に移動させなければならないが、大きなディスクを小さなディスクの上に置いてはいけないというルールがあるものです。

また、青いトークンをすべて右に、赤いトークンを左に移動させなければならないチェッカーのゲームや、あなたにはキツネとニワトリの挑戦としてより馴染みがあるかもしれない川渡りゲームでモデルをテストしました。キツネをニワトリと一緒に残すことなく川の向こう側に行かなければならないというものです。

これらのゲームはすべて、もちろん、複雑さを拡大することができ、実際にそうされました。より多くのピースを導入すればするほど複雑になります。モデルが計算機のような事前プログラムされたアルゴリズムのセットであれば、ディスクやチェッカーやブロックがいくつあっても関係なく、パフォーマンスは常に100%であるべきです。

衝撃的なことに、論文ではそうではないことが示され、タスクが複雑になればなるほど、パフォーマンスは著しく低下しました。しかし、これは大規模言語モデルについて何年も前から知られていることです。同じ入力が常に同じ出力につながる従来のソフトウェアではなく、もちろん完全にランダム化されているわけでもありません。そうでなければ、単一のベンチマークも通過できないでしょう。それらは2つの極端の間のどこかにある確率的ニューラルネットワークです。

掛け算の例で見る既知の限界

完璧な例は再び掛け算です。このビデオのタイトルに「速報」を追加することもできましたが、これは何年も前から知られていることです。モデルにツールへのアクセスを与えずに掛け算を実行するよう求めると、掛け算の桁数が大きくなった瞬間に、劇的に失敗し始めます。時々正解を得るのではなく、桁数が十分に大きければ、決して合計を正しく得ることがありません。

桁数が十分に小さければ、モデルは正しい答えに推論することができます。OpenAIのo1 miniとo3 miniの違いでわかるように、パフォーマンスは段階的に改善されています。言い換えれば、最新のモデルを困らせるにはより大きな桁数が必要ですが、最新の最高のモデルでさえ、ツールを与えなければ、最終的に2つの数字を掛け算できない点に到達するということを改めて強調しなければなりません。

しかし、これは常にそうなるでしょう。これらのモデルは完全に予測可能になるように設計されていないからです。生成的になるように設計されています。ソフトウェアになるように設計されているのではなく、ソフトウェアを使用するように設計されています。もっともらしい出力を生成したがるため、対処できない質問をされるとハルシネーションを起こします。

例えば、ここで私はAnthropicの最新モデルClaude 3 OpusとGoogle DeepMindの最新モデルGemini 2.5 Proに計算を与えましたが、ツールへのアクセスは与えませんでした。彼らは決してこれを正しく得ることはありませんでしたが、「わからない」と言う代わりに、両方の場合で答えをハルシネーションしました。面白いことに、これらの答えは2で終わり67で始まるという点でもっともらしく、正しい答えもそうです。結局のところ、これらのモデルは非常に説得力のあるでたらめ屋なのです。

ツールを使用した場合の実際の能力

しかし、論文が無視したのは、これらのモデルがツールを使用でき、非常に効果的に使用するということです。これは同じClaude 3 Opusですが、今度はコードの使用が許可されており、正しい答えを得ました。コードやツールを使用するようにとさえ言わなかったことに注目してください。そうすることを知っていたのです。

私にとって驚きだったのは、このApple論文が大規模推論モデル(彼らがそう呼んでいる)が正確な計算を実行できないことを発見して驚いたということです。私たちはそれができないことを知っています

私より前に何人かの他の人々が、論文のもう一つの致命的な弱点を指摘しています。それは、モデルが一度に出力できるトークン数または単語の一部に制約があるため、一定レベルの複雑さを超えると精度が最終的にゼロに向かって崩壊すると記述していることです。テストされたAnthropicのClaudeモデルの場合、そのトークン制限は128,000トークンでしたが、テストされた質問の一部はそのトークン数以上を必要としました。

論文の方法論における問題点

つまり、モデルが計算機になるように訓練されていたとしても(そうではありませんが)、必要なトークン数を出力するのに十分なスペースが与えられていませんでした。私にとって、モデルが自分の出力制限を認識し、論文が「より短いトレース」と呼ぶものを出力した、基本的には諦めたということは、モデルの功績です。必要な答えを出力するためのスペースがないことを「知っていた」からです。

代わりに、モデルは「使用する必要があるアルゴリズムはこれです」や「使用する必要があるツールはこれです」といったものを出力しました。これは合理的だと思います。

多くの人が見逃したと思う簡単な詳細の一つは、論文が実際に、思考モデル対非思考モデルを比較したかったと認めていることです。長い思考の連鎖を出力するものと、そうでないものを数学ベンチマークで比較しようとしたのです。結果が期待していた物語にかなり合致せず、思考モデルが同じ計算予算で非思考モデルを実際に上回ったため、実際に数学ベンチマークを放棄し、パズルに頼りました。

つまり、私が言いたいのは、著者が思考モデルをテストする際に、その能力の欠如について先入観を持ってきたように少し感じるということです。

アルゴリズムの実行に関する誤解

論文から私たち全員にとっての学習の瞬間が来るのは、Appleの著者がプロンプトでアルゴリズム、これらのパズルを解くアルゴリズムを提供したときに、モデルがしばしば失敗することに驚いているからです。彼らはこれに驚き、注目に値すると考えています。なぜなら「確実に、解決策を見つけることは、与えられたアルゴリズムを単に実行することよりも多くの計算を必要とする」と言うからです。

しかし、あなた方はもうこれを理解しています。これらは計算機ではありません。アルゴリズムを実行するように設計されていません。代わりに確率的なニューラルネットワークだからです。正しい次のステップを出力する確率が99.9%だったとしても、何百万ものステップが関わっているときは、最終的に間違いを犯すでしょう。

もちろん、言語モデルが掛け算を実行する「アルゴリズム」を知っている掛け算を思い出してください。実際、モデルは行列の掛け算を通じて導出されますが、それは十分なステップが必要な場合に間違いを犯し始めないということを意味するわけではありません。

論文の結論は、見出しライターのためにお膳立てをしました。「私たちは一般化可能な推論に対する根本的な障壁に遭遇している可能性があります」と述べているからです。これを指摘することをお許しください。しかし、一般化された推論への制限というその引用は、2023年12月に私のPatreon で私がインタビューしたRalph教授のような専門家によって指摘されています。これは「速報」タイプの状況ではありません。

論文への反駁と実際の研究者の見解

ある研究者がClaude 3 Opusを使用し、Apple論文の欠陥を指摘する論文でそのモデルを共著者として名前を挙げたことも興味深いかもしれません。私が見逃したような欠陥、例えば、論理的不可能性のために答えることが不可能な特定の質問などです。

そうです、ガーディアンに掲載されたGary Marcusの記事を引用すると、テック界は新世代のAIの力が大幅に誇張されていることを示す論文に動揺しているわけではありません。その論文の結果に驚いたであろう真剣なAI研究者は一人もいないと言い切れます。

もちろん、これらのモデルが単純なシナリオや、少なくとも半単純なシナリオで基本的な推論の間違いを犯さないということではありません。私は、そのようなシナリオでモデルをテストするように設計されたSimpleBenchというベンチマークの作者です。例えば、手袋が単に道路に落ちることにモデルが気づかない傾向があるこのシナリオで、新しいo3 Proをテストしました。ちなみに、18分間考えたにもかかわらずです。

SimpleBenchについてもっと知りたい場合は、説明にリンクがあります。ちなみに、無料のChatGPTに慣れている場合に、どのモデルをチェックアウトすべきかについての私の推奨でこのビデオを終了します。OpenAIのo3 Pro APIは失敗しました。ちなみに、そのためそのモデルの結果はまだありません。

モデルの限界と創造的応用

もちろん、失敗モードはSimpleBenchで紹介されている単純なシナリオをはるかに超えています。多くの方が知らないかもしれない癖の一つがこれです。これはGoogleの新しいVo3 from Geminiで、私は「街灯が絶対にゼロ、一つの街灯も見えないロンドンのシーンを出力してください」と言いました。

もちろん、生成モデルのハルシネーションに傾倒すれば、V3からのこのような創造的な出力を得ることができます。「今月、卵の価格は上がるでしょうか?」「20ドルに達すると思います」。明らかにこれは風変わりな広告ですが、俳優やセット、小道具を使わずに会社が「節約」した莫大な金額を考えてみてください。

ハルシネーション問題と人間のパフォーマンスとの比較

そのため、イギリスのこのSky News司会者のように、何十万回も再生されているのを見て、ChatGPTがこの場合はトランスクリプトの答えをハルシネーションしていることに気づいたように、ショックを受けてほしくありません。これは「ハルシネーションする答えにもかかわらず、ChatGPTを信頼できるか?」という記事と同様に、いくつかのニュースセグメントを生成しました。

これは結局、大規模言語モデルがほぼすべてのテキストベースの領域で人間のパフォーマンスに急速に追いついているが、誤りを生成することにほとんど躊躇がないという2つの考えを同時に頭に留めておくことができるかどうかにかかっています。多くの人間のように言えるでしょう。

人間のパフォーマンスがあなたの基準であれば、彼らは急速に追いついており、私たちの最高のように嘘をつくことができます。しかし、ChatGPT、Gemini、Claudeなどの言語モデルはスーパーコンピューターではありません。例えば天気を予測できるようなAIの種類ではありません。

ツールとの組み合わせによる真の突破口

人間の突破口と同様に、彼らの真の突破口は、彼らのでたらめを修正してくれる環境でツールを使用するときに来ます。それは真の科学的進歩につながる可能性があります。それについてもっと知りたい場合は、私のAlpha Evolveビデオをチェックしてください。

率直に言って、そのビデオを作った後、Sam Altmanが「新しい洞察を見つけ出すことができるシステムの到着を見るのは2026年になるでしょう」と言うのを聞いて、非常に驚きました。私の考えでは、私たちは今それを持っています。再び、大規模言語モデル単体ではありませんが、シンボリックシステムと組み合わせた大規模言語モデルです。

現在のモデル推奨とベンチマークの注意点

言語モデルがまだ単独で超知能を実現できない一方で、どれを使うべきでしょうか。ベンチマークについて一つ注意点と、少しのアドバイスをさせてください。

過去48時間で、200ドル層でOpenAIからo3 Proを得ましたが、最終的には20ドル層にも流れてくると確信しています。もちろん、ベンチマークの結果はかなり印象的でした。競技レベルの数学で93%、本当に難しい博士レベルの科学の質問で84%、そして競技コーディングでELOランキングを見ることができます。

しかし、私の注意点は、OpenAIが2024年12月のクリスマスの12日目にショーケースしたo3 Proではなくo3モデルについて、以下で見ることができる結果から来ています。今日のo3 Proは、12月にからかわれたそのシステムを主に下回っていることがわかります。これが、見出しのベンチマーク結果を超えて、これらのモデルがあなたの使用ケースでどのように実行されるかを見る必要があることが多いという注意点です。

アドバイスは、ベンチマークを見るとき、企業はしばしば他のモデルプロバイダーとまったく比較しない(最近のOpenAIの場合のように)か、AnthropicのClaudeシリーズのモデルのように、複数のベンチマークを見せてくれますが、記録的な高スコアを得るために行った複数の並行試行や、より大きなモデルの深刻な使用制限、またはそのモデルの大幅に高騰した価格について明確ではありません。

最終的なモデル推奨

これが私の現在の推奨につながります。もちろんキャップ付きですが、無料でモデルを使用したい場合は、GoogleのGemini 2.5 Proです。はい、私はSimpleBenchでのトップスコアと、Voビデオジェネレーターモデルをいくつか使用できるという事実にわずかに影響されています。

名誉ある言及は、API経由で非常に安価で、少なくとも私たち全員が読むことができる技術レポートが付属しているDeepSeek R1です。今月、私のDeepSeek ドキュメンタリーの制作品質がかなり目立って向上したとコメントした方が多くいましたが、それ以上のものが来る予定です。しかし、その向上は、私のビデオエディターが今日のビデオのスポンサーであるStory Blocksを選択したことが少なからぬ部分を占めています。

実際、私たちがそれらを選んだのは、スポンサーシップより前に、設定されたサブスクリプション費用での多様な高品質メディアの無制限ダウンロードが部分的な理由でしたが、Story Blocksでダウンロードしたものはすべて100%ロイヤリティフリーという明確なライセンシングも理由でした。無制限のストックメディアダウンロードを開始したい場合は、storyblocks.com/iexplained 説明にリンクがあります。

これが、騒音の中でいくらかのシグナルを提供するのに役立ったことを願っています。

コメント

タイトルとURLをコピーしました