この動画では、Appleが発表した革命的な研究論文について解説している。この研究は、現在の大規模言語モデル(LLM)が真の推論能力を持たず、単に訓練データのパターンマッチングを行っているに過ぎないという衝撃的な結論を示している。GSM8Kベンチマークを改良したGSM Symbolicテストを用いて、名前や数値を変更しただけで性能が大幅に低下することを実証し、OpenAIのo1シリーズを含む最先端モデルでさえ真の論理的推論ではなく、洗練されたパターン認識に依存していることを明らかにした研究である。

Appleの衝撃的なAI研究発表
Appleが非常に驚くべき研究を発表しました。これによってAIコミュニティが完全に二分されていると思います。なぜなら、これはAIモデルについて私たちが知っていることを根本的に変えるものだからです。この研究が現在示唆していることにより、これは本当にすべてを変える可能性があると思います。
最近発表された最も重要な論文の一つであり、根本的に非常に驚くべき内容なので、これを詳しく説明していきます。
基本的に、Apple研究が発表したこの論文は「GSM Symbolic: 大規模言語モデルの数学的推論の限界を理解する」と呼ばれています。この論文が示唆していることの要約は、現在のLLMは真の論理的推論能力を持たないという仮説です。代わりに、これらのモデルは訓練データで観察された推論ステップを複製しようと試みているだけです。
つまり、この論文は現在の大規模言語モデル、GPT-4oやClaude 3.5 Sonnetのようなモデルが、私たちが思っているほど賢くなく、あらゆる種類の問題を推論しているわけではないということを示唆しようとしています。これらのモデルがやっていることは統計的パターンマッチングだけです。これは、これらのモデルが私たちがかつて思っていたほど賢くないということを意味し、今後の特定の事柄に深刻な影響を与える可能性があります。
従来のベンチマーク評価の問題点
モデルの推論能力や本質的にこれらのモデルがどれほど賢いかを評価するために、私たちが使用していた方法の一つは特定のベンチマークを行うことでした。そのベンチマークの一つがGSM8Kと呼ばれるものです。これは「小学校数学8000問」で、8000の小学校数学問題です。
Apple研究者はここで、OpenAIがGSM8Kを3年前にリリースしたとき、GPTシリーズモデルの最初の反復の一つであるGPT-3は、GSM8Kテストで35%のスコアを記録したと述べています。今日の30億パラメータのモデルは85%を超えており、大型モデルは95%に達しています。
しかし、彼は推論が本当に改善されたのかと論じています。これのうちどの程度が真の論理的・記号的推論対パターン認識・不注意なデータ汚染やオーバーフィッティングなのでしょうか。
基本的に彼が述べているのは、もし小さなモデルを振り返ってみると、1750億パラメータだったGPT-3のような小さなモデルは35%のスコアを記録し、今日の30億パラメータしかない小さなモデルが驚くほど85%を超え、大型モデルでは95%に達しているということです。
しかし彼は、こんなに短期間でこれほど素晴らしい進歩を遂げたが、この推論のうちどの程度が実際に改善されたのか対データ汚染かを理解する必要があると言っています。データ汚染とは基本的に、これらのモデルを訓練するために実際に使用するデータで、より多くのパラメータ、より多くのデータにおいて、この実際に使用するデータのうち、このパーセンテージの増加のどの程度が実際にデータ汚染に関連しているかということです。残念ながら、テストセットからのデータと答えの一部が訓練データに混入してしまい、モデルが実際に賢くなるのではなく、本質的に訓練されたものを記憶してしまうということです。そして、これのうちどの程度が単なるパターン認識なのかということです。
新しいベンチマーク:GSM Symbolicの導入
このグラフでは、2021年のGPT-3モデルと、もちろん2024年の最先端モデルを見ることができ、GSM8K精度が完全に上昇していることがわかります。これが継続的に上昇していることがわかりますが、このApple研究者チームが決めたのは、これらのモデルが実際に推論を向上させているかどうかをテストしたい場合、新しいベンチマークを考案する必要があるということでした。
彼らが使用したこの新しいベンチマークは少し異なるものです。それは文字通り少し異なります。なぜなら、それが行うことは物事をわずかに変更するからです。
彼らは「GSM Symbolicの紹介:数学的推論におけるLLMの限界をテストする新しいツール。GSMAKテストセットからシンボリックテンプレートを作成し、多数のインスタンスの生成と制御可能な実験の設計を可能にします。本質的にGSMAKの例のような50のユニークなGSM Symbolicセットを生成しますが、異なる値と名前を使用します」と述べました。
彼らがやったことは、テストセット、つまりGSMAから質問をいくつか取り、値と名前を変更することに決めたということです。基本的に数学の問題では、時々「ジミーは5つのリンゴを持っています」というような問題があるので、彼らが決めたことは、名前を変更しようということでした。ジミーからジョンに、リンゴからオレンジに、6つのオレンジから7つのオレンジに変更するということです。
彼らは値と名前を変更することに決め、これらのモデルが本当に推論能力があるなら、名前と数字を変更しただけで実際の問題は変更していない限り、これらの問題を問題なく処理できるはずです。
衝撃的な結果:性能の大幅な低下
ここで見ることができるのは、左側がGSM8Kで、変更される値がここに配置されていることがわかります。ソフィー、そして甥、そして31、8、9、ソフィー、甥、62が見えます。これらが変更に関して変更される唯一の値です。ここでGSM Symbolicテンプレートが見えます。もちろん名前、家族、合計があり、特定の範囲内でこれらを変更し、これがテンプレートの構築方法です。
重要なのは、彼らがやったことは名前と値を変更しただけだということを理解することです。しかし、これについて驚くべきことは、彼らが名前と値を変更したとき、様々な研究所のモデルが主張したものと、彼らが実際にテストして得たものとの間に、本質的に大きな乖離があったということです。
彼女はここで、GSMKの現在の精度は信頼できないと述べています。私たちは大きな性能変動を観察しています。例えば、LLaMA 8 8Bは70%から80%の間でスコアを記録し、53は75%から90%の間でスコアを記録します。ほとんどのモデルにおいて、GSM Symbolic(すでに受けたテストの変種で、異なる名前と異なる値を持つ)の平均性能はGSMAKよりも低いです。
報告された値と、もちろんGSM Symbolicテストでの実際の値との間にかなりの乖離があることがわかります。これは非常に驚くべきことです。実際のテストの結果は破線で示されています。これらのモデルが得たものを見たい場合、ここの破線でこれらのモデルが得たものを見ることができます。そして、これらのモデルが得た変動は90%から98%、70%から80%、そしてここから70%から85%のように見えます。
彼らは、変更されたのは名前と値だけであるという事実に基づいて、これらのモデルの結果にこのような巨大な乖離がある理由を疑問視し始めています。
これはより大きなチャートで、最大の低下を示すモデルのいくつかはPhi-2、Gemma 2、そしてこれらの他のモデルの一部であることがわかります。これらの小さなモデルは、おそらく多くのオーバーフィッティング、多くのデータ汚染などを持つモデルである可能性が高いようです。
モデルの脆弱性の発見
ここで研究者たちは、LLM推論の脆弱性を述べています。LLMは固有名詞の変更に敏感で、例えば人、食べ物、物体、そして数字が変更されたときはさらに敏感になります。彼は基本的にここで、小学生の数学テストのスコアが、名前だけを変更した場合に10%変動するだろうかと尋ねています。私はそうは思いません。
誰かにテストを与えて名前だけを変更した場合、数学ベースの質問の結果が10%変わるでしょうか?それは単なる名前なので、そうは思いません。これは、LLMが単に物事を記憶しているかパターン認識を行っている可能性があることを意味します。これは良くありません。なぜなら、これが本当なら、これらのモデルは私たちが思っているほど賢くないことを意味し、推論問題を解決するためのより良いアーキテクチャが必要かもしれないことを意味するからです。
ここではもっと多くのことが起こっています。これらの変更が他のモデルにどのように影響しているかを見ることができます。ここに変更プロットがあります。例えば、GSM8Kが破線であることがわかります。名前を変更すると、わずかな低下があり、数字を変更すると別の低下があり、両方を変更するとさらに大きな低下があります。
これは非常に驚くべきことです。なぜなら、これらのモデルがこれらの名前が変更されると混乱することを意味するからです。これは全く意味がありません。
難易度調整実験の結果
彼はまた、質問の難易度を調整することに決めました。モデルの行動を研究するために、GSM Symbolicの3つの新しい変種を導入します。1つの節を削除する(GSM M1)、1つの節を追加する、または2つの節を追加するというものです。基本的には、GSM Symbolicは1つの変更だけで、もちろんGSM Symbolic P1は難易度の増加、GSM Symbolic P2はさらなる難易度の増加です。
もちろん、この特定の結果はそれほど悪くないと思います。なぜなら、もちろん難易度を上げるとモデルは下がるべきで、これはここで私たちが経験することです。しかし、難易度はそれほど高くないようですが、性能には本当に大きな低下があり、これもこれらのモデルが本当に何が起こっているかを理解しているのかという疑問を提起します。
いくつかの難易度が追加されただけで、このような大きな低下があるからです。o1モデルは少し強いパフォーマンスを示すようですが、GPT-4oやGPT-4o miniのような他のモデルでは、はるかに大きな低下があります。
最も衝撃的な実験:GSM NoOp
ここで研究が本当にクレイジーになり始め、これらのモデルが本当に何が起こっているかを理解しているかどうか疑問視し始めます。研究者がさらにクレイジーなことを決めたからです。
ここで彼らは、これは疑問を提起すると述べています。これらのモデルは本当に数学的概念を理解しているのでしょうか?GSM NoOpの導入です。関連しているように見えるが、全体的な推論に貢献しない単一の節を追加します。したがって、NoOpです。
基本的に彼らがここで決めたことは、これらの従来のGSM8K試験問題を持つことでしたが、彼らがやったことは、実際には質問にまったく関連しないものを追加することでした。
ここに一つの例があり、この結果を見ることができます。これはかなりクレイジーです。
「オリバーは金曜日に44個のキウイを摘みます。そして土曜日に58個のキウイを摘みます。日曜日には金曜日の2倍の数のキウイを摘みますが、そのうち5つは平均より少し小さかったです。オリバーは何個のキウイを持っていますか?」
「そのうち5つは平均より少し小さかった」のような文は、あなたが持っているキウイの数に影響しません。文字通り数学に全く影響しません。それが大きいか小さいかは関係ありません。キウイはキウイです。
これについてクレイジーなことは、私たちは実際には推論と結論に無関係である、見た目は関連しているように見える文を質問に追加したと述べています。しかし、大多数のモデルはこれらの文を無視することに失敗し、盲目的にそれらを操作に変換し、間違いにつながります。
これらのモデルがやることは、5つが平均より小さいなら、と言って本当に混乱し、それは関連性がないので無視すべきなのに、そこで本当に混乱します。
これが行われたときのモデルの性能低下を見てください。性能低下は、これは狂気のようです。これは信じられません。GSM8Kを見ると、GSM NoOp精度では、私たちが現在存在する最高のモデルだと思われるOrionモデルであるo1 previewでさえ、GSM8KからGSM NoOp精度への17.7%の低下があります。これは非常に際立っています。
私がo1 previewモデル(ここのこのモデル)を強調する理由は、これが最高の推論能力を持つとされているモデルだからです。このような大きな傾きがあるべきではありません。なぜなら、私たちが持っているのは、これらのベンチマークが無関係な質問を持っているにもかかわらず、モデル全体で一貫した性能低下だからです。
o1 previewが推論においてOpenAIが主張するほど良いなら、このバーはここにあるべきです。なぜなら、これらのモデルは最終解に到達するために問題をステップバイステップで処理するからです。
OpenAIがo1をどのように訓練したかはわかりません。その背後には多くの秘密があります。しかし、見た目は無関係な情報が追加されたときにモデルが推論能力を44%、GPT-4oでは32%低下させるなら、これは絶対に注目すべきことだと思います。
なぜなら、ChatGPTに、GPT-4oに問題にデータを何度追加したか、私たちは非常に多くのコンテキストを提供し、時々おそらく時々、そのコンテキストの一部は完全に無関係で、推論出力の30から40%の低下は、かなりひどいです。それはかなり悪いです。正直な意見として、これ以外に言いようがありません。これは本当に衝撃的な発見です。
モデル間の比較分析
このような関連する文を追加することがこのような大きな性能低下をもたらすとは思わなかったからです。これについてクレイジーなことは、GPT-4oからo1 miniまで同様の性能低下を見ることです。o1 miniの低下は29%、GPT-4oは32%です。o1 previewは17.5%でより良い結果を示しますが、特に推論を行うために訓練されたモデルにとって、これほど大きな低下は期待していませんでした。
ここで他のオープンソースモデルを見ることができます。これらの他のモデルの多くはかなり小さいですが、推論について訓練されているという理由で、o1シリーズのモデルを含めたことを嬉しく思います。
これについて最もクレイジーなことは、これが私が言った通り、これが本当に根本的にすべてを変える可能性がある理由は、彼がここで言っていることです:データやモデルやコンピュートが根本的にこれを解決できるか?私たちはそうは思わない。彼らは、データ、モデル、またはコンピュートをスケールすることでは、この問題を根本的に解決することはできないと述べています。
OpenAIのo1シリーズはより良い性能を示していますが、依然として軽微な性能変動に苦しんでいます。o1 previewは大幅な改善を示していますが、依然としてこのような愚かな間違いに苦しんでいます。
この問題では、インフレ率を盲目的に適用しているだけです。質問は「リアムは学用品を買いたいと思っています。彼は今6.75ドルする消しゴムを買い、今11ドルする10冊のノートを買い、今19ドルする1束のボンド紙を買います。リアムは今いくら払うべきでしょうか?インフレにより昨年は価格が10%安かったと仮定して」です。
この質問を読むとき、インフレにより昨年は価格が10%安かったという事実は無視しなければなりません。なぜなら、リアムは今これらのものを買っているからです。ここのこの部分は完全に無視するのです。
この種の問題を見るほとんどの人間は、これを完全に理解するでしょう。なぜなら、ちょっと待って、なぜ昨年のインフレを見るのか、それを無視して、今すべてがいくらかかるかを考え、そして質問に答えるだろうからです。
もちろん、ここで、このモデルが推論を行っているとき、ステップ1:現在の価格を10%削減して昨年の価格を計算すると述べているのを見ることができます。これは全くやるべきことではありません。このステップをやることさえ想定されていません。モデルは完全にこれを間違えます。
質問は、これらのモデルが実際に推論が得意なら、本当に何が起こっているかを理解しているなら、このような単純な間違いをするでしょうか?
AI安全性と実用性への影響
彼はさらに、LMの真の推論能力を理解することは、精度と一貫性が交渉の余地のない実際のシナリオでそれらを展開するために重要であり、特にAI安全性、アライメント、教育、ヘルスケア、意思決定システムにおいて重要だと述べています。
これは本当に重要です。もしAGIに到達し、この種の技術を世界中に展開する可能性があると言うなら、プロンプトへの単純な入力がモデルを40から19%混乱させることができないことを確認する必要があります。
これらのモデルが特定の環境で使用されない理由の一つは、必要な精度の度合いが100%に非常に近く、それから逸脱するものは壊滅的な影響をもたらす特定のアプリケーションがあるからです。
例えば、落ちる飛行機の数は、0.なんとかで、ばかげています。特定の部品の故障率は狂気的です。私が言おうとしているポイントは、プロンプトの最後に何かが追加され、モデルがそれが関連するかどうかを区別できない場合、90%のシナリオで失敗するモデルを持つことはできないということです。
そして、これは本当に理解することが重要だと思います。なぜなら、これが事実なら、おそらく数学や特定の推論分野のような特定の分野にAIを配置することはないでしょう。なぜなら、これらの問題のいくつかを根本的に理解していないからです。
今後の課題と可能性
彼は続けて、パターン認識を超えて真の論理的推論に移行するモデルを開発することが、AIにとって次の大きな課題だと述べています。
これがクレイジーな理由は、もしこの論文がこれらのモデルが推論能力がないことを本質的に証明したなら、これはAIにとって大きな後退になる可能性があるからです。それは、OpenAIの最近のo1シリーズのモデルが単にそれほど良くないことを意味する可能性があります。それは大きな驚きかもしれませんが、これらのモデルが単により大きく、より多くのデータと、より多くのデータ汚染を持っていることを意味する可能性があります。
OpenAIは常にモデルをどのように訓練するかを明かしません。データをどこから得たかは言いません。これらのデータソースを分析できる第三者はありません。もちろん、これらは民間企業ですが、この論文は本当に重要だと思います。なぜなら、このギャップを埋めてこの問題を解決できるのが早ければ早いほど、実際にスピードランを開始してAGIに到達できる瞬間だからです。
彼はまた、全体的にゼロの証拠を見つけたと述べています。これは狂気的な声明です。LLaMA、Phi、Gemma、Mistraのようなオープンソースモデルと、GPT-4oやo1シリーズのような主要なクローズドモデルを含む、言語モデルにおける形式的推論の証拠を見つけませんでした。
そして、これから取り去ることができる声明の一つは、彼らの行動は洗練されたパターンマッチングによってよりよく説明されるということです。実際、質問の名前を変更するだけで結果を10%変更できるほど脆弱です。
これが本当にショッキングな研究だということを理解してください。本当に、もしテストを受けて名前を変更することで10%の低下があるなら、それはクレイジーです。特にこれらのものが使用される必要がある場所での将来の影響にとって。
考えてみてください。このモデルは95%の率を持っていると言って、あなたの問題をモデルに適用することを想像してください。しかし、あなたが自分の名前と数字で問題を入力したために、モデルはさまざまな場面でそれを間違える可能性があります。80%の時間で正しくなるかもしれませんが、20%の時間で推論ステップが間違っているということです。その20%をキャッチするでしょうか?それに気づくでしょうか?
これは、特定の使用例でAIを使用している皆さんにとって本当に重要なことです。なぜなら、AIは生成的で、もちろん結果が常に同じではないからです。
データ、パラメータ、コンピュートをスケールしたり、LLaMA 4やGPT-5のためのより良い訓練データを使用したりできますが、これはより良いパターンマッチャーをもたらすが、必ずしもより良い推論者をもたらすとは限らないと、Appleの研究は述べています。
これは絶対にクレイジーです。彼らは基本的に、これらのモデルは本質的にパターンマッチャーに過ぎないと言っています。これは本当に驚くべきことです。本当に、これは驚くべきことです。GPT-4o、GPT-3.5、オープンソースモデルのようなモデルに対してこれが起こる可能性があると思っていましたが、o1シリーズに対しては本当にクレイジーです。
このチャートを振り返って17.5%の低下を見ると、これは爆弾論文です。ここでo1 miniのより多くの結果を見ることができます。皆さんはこれをスクリーンショットして見ることができます。
他の研究との一致
これについてクレイジーなことは、これが実際にこれについて話している唯一の論文ではないということです。別の論文がありましたが、本当にそれほど注目を集めませんでした。なぜかわかりません。
このConsequent AIは、「推論性能の堅牢な評価のための機能ベンチマークと推論ギャップ」と述べました。基本的に彼らはほぼ同じことをしました。ここで、静的ベンチマークで最先端およびオープンソースモデル間で58%から80%の推論ギャップを発見したことがわかります。
推論ギャップでは、OpenAIのGPT-4が58.35%でした。基本的に結果に入る前に、彼らは同じことをしました。推論テストを解くモデルは、問題の静的バージョンと機能バリアントのスナップショットとの間で性能に差を示すべきではないと述べました。機能バリアントは、再び数字を変更できるところで変更したものです。
これがその時点での結果です。これは年の初めの研究論文なので、GPT-4しか見えず、AnthropicのClaude 2.1などが見えます。しかし、ポイントは、この研究が残念ながらかなり長い間存在していて、私たちはまだこれを見ることができていないということです。
まとめと今後の展望
これは本当に最も驚くべきことの一つです。AI ExplainedによるSimple Bench推論ベンチマークもあることを知っています。これは実際に、同様の推論を含む多くの異なる質問の束であるという意味で、GSM Symbolicベンチマークに非常に似た単純な推論問題を持つものです。o1がどこにあるかを見たいですが、これは私的データセットなのでデータ汚染がないものです。しかし、これは非常に興味深いと思います。
Apple研究が出て来て、彼らの行動は洗練されたパターンマッチングによってよりよく説明され、名前を変更するだけで10%の低下の影響を受けるほど脆弱だと述べていることは、データをスケールし、パラメータを変更し、より多くのコンピュートを持っても、この問題は解決されないということを意味します。
今、これはおそらく、これらのAIラボにいる多くの人々に物事をもう一度見直し、彼らがやってきたことを分析し、単にデータをスケールアップすることはできないかもしれないと考えさせることになると思います。もちろん、テスト時間コンピュートでの新しいスケーリング法則があり、これは確実に解決できるかもしれません。テスト時間コンピュートでは、推論により、問題を複数回分析するためのより良い推論ステップを持つことができるかもしれません。
実際に、モデルに質問を繰り返すように求めると、時々これらの間違いをキャッチするという研究論文がありました。しかし、彼らがこの問題をどのように解決するかを見るのは本当に興味深いと思います。彼らがこれに取り組む方法は100万通りあります。AIに質問を何回か聞いて、最良の回答を選ぶ必要があるかもしれません。彼らが取り組むことができる100万の異なる方法があります。
しかし、これは悪いニュースだと思います。なぜなら、私たちが間違った道にいることを意味するからです。しかし、それは良いニュースでもあります。なぜなら、問題が何かがわかった今、少なくとも実際に問題を修正して正しい方向に進むことができることがわかるからです。
私たちが実際にオフランプをやっていたように見えても、今では大きな乖離があることがわかるので、これをどのように解決できるかを考える必要があるということがわかります。
Appleからのこの研究について皆さんがどう思うかお聞かせください。これは絶対にクレイジーだと思いました。これらのモデルが推論者だと思うか、推論問題を解くためにそれらを使用するか、下にコメントでお聞かせください。そして、次の動画での皆さんの考えをお聞きしたいと思います。


コメント