新しいAI研究により、o1は推論能力がないことが証明された!

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,468 文字

New AI Research Proves o1 CANNOT Reason!
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

AIの産業界を危機に陥れる可能性のある新しい研究論文が実際に発表されました。これを軽々しく言っているわけではありません。というのも、これはモデルの信頼性に関する少々懸念される内容だからです。
Twitterでこのツイートを見つけました。そこには、o1プレビューがパトナム数学の問題を少し変更した際に、精度が驚くべきことに30%も低下したと書かれていました。本質的に彼らが述べているのは、人気のベンチマークを取り上げ、そのベンチマークに若干の変更を加えた際、これらのモデルの評価における精度が30%も低下したということです。
これは良いことではありません。なぜなら、エルビスという人物が話しているように、堅牢性はモデルの信頼性において重要な要素だからです。モデルの信頼性はAI産業に必要不可欠です。なぜなら、モデルが信頼できず予測可能でなければ、この技術を大規模に応用することはできないからです。金融やビジネスで使用する場合、モデルが非常に正確であることを確認する必要があります。テスト結果で30%もの精度低下があるような大きなばらつきがあれば、それは様々なプロジェクトで社内利用したいとは思えないものとなります。
論文は要旨から始まります。LLMが進歩し続けるにつれ、その推論能力を評価するために設計された既存の多くのベンチマークが飽和状態になってきているとあります。ベンチマークの飽和は実際にAI業界が望んでいたことなので、これは驚くべきことではありません。
そこで彼らは、ウィリアム・L・パトナム数学コンテストからの236の数学問題で構成される「パトナム・アクシオム・オリジナル・ベンチマーク」を、詳細な段階的解法とともに提示することにしました。このベンチマークの有効性を保持し、潜在的なデータ汚染を軽減するために、52の問題の機能的なバリエーションを含む「パトナム・アクシオム検証ベンチマーク」を作成しました。
基本的に、変数や定数などの問題要素を変更するだけで、オンラインには存在しない、無限の新しい同程度に難しい問題を生成できるということです。
ほぼすべてのモデルが、オリジナルの問題と比較して変形版で大幅に低い精度を示したと述べています。結果は、最も性能の良いモデルであるOpenAIのo1プレビューが、パトナム・アクシオム・オリジナルで41.95%の精度を達成したものの、対応するオリジナルの問題と比較して変形データセットでは約30%の精度低下を経験したことを明らかにしています。
これはつまり、以前から世に出ていた可能性のあるテストで41%の精度を示し、o1プレビューが確実に見たことのない新しいテストに変更すると30%の精度低下があったということです。
もちろん、なぜこれがo1プレビューで、o1やo3ではないのかと疑問に思う人もいるでしょう。まず、o3についてはこの研究が行われた時点でまだAPIアクセスがなかったと思われます。そしてo1プロンプトモード、あるいはo1については、この研究が実施された時点でAPIがなかったからです。
彼らが行った2つの変更について、前述のように説明します。変数の変更は最も単純な変形で、変数名を変更し、最終的な答えは変更しないものです。変数の変更は、モデルが学習した可能性のある元の記述から問題を少し修正します。定数の変更は数値的な性質を修正するものです。
長々と説明しましたが、本質的には、数字を変更し、テキストの一部を変更したと述べているだけです。実際にそれがどのように見えるかを示しています。定数の変更は安定して変わらない文字などです。PをYに変更しているのが分かります。変数XをWに、YをVに、PをLに変更しています。これが定数値の変更です。
次に変数の変更ですが、これは値が変更可能なものです。つまり数字の変更で、例えば2011を4680に変更しているのが分かります。
これが彼らが行ったベンチマークの種類です。全く新しいベンチマークを作成したわけではなく、基本的にすべて同じで、文字と数字を変更しただけです。数字が変数で、文字が定数です。
これを考えると、モデルはこれを正しく理解すべきです。なぜなら、変更されているのはごく小さな部分だけだからです。
ここに、AI業界の多くの人々を困惑させ、これらのモデルが推論できないと批判する人々のトランプカードとなっているグラフがあります。このベンチマークでの精度低下は、ほぼすべてのモデルで統計的に有意であり、図は95%信頼区間での平均精度を示しています。
驚くべきことに、オリジナルのo1では約50%の精度があったものが、場合によっては30%近く、あるいは35%まで低下しているのが分かります。これは、問題を見て同じ方法で推論するような堅牢なモデルを求める場合には、良い結果とは言えません。
これは、後で説明する別の研究論文のビデオで私が話したことですが、詳しく見てみると、ベンチマークの難しさを示す低い精度について言及しています。これはもちろん良いことですし、モデルがかなり良い性能を示していることを表しています。o1プレビューは優れたモデルですが、o1プレビュー、GPT-4o、Claude 3.5 Sonnet、Numina Math 7Bなどのモデルについて、信頼区間が重ならないことは、データ汚染によりオリジナルの問題での性能が人工的に高くなっていることを示しています。
数字を見ると、すべてのモデルで大幅な精度低下が見られます。GPT-4oが44%と最も急激な低下を示し、続いてo1プレビューが30%、GPT-4が29%、そして高名なClaude 3.5 Sonnetでさえ28.5%の低下を示しています。
これらの2つの変更を加えただけでこれほどの低下が見られるのは、明らかに問題です。これらのモデルを堅牢で信頼性が高く、広く使用できるようにしようとしている中で、これは解決しなければならない問題です。特定のベンチマークでテストした際に非常に良い結果を示すモデルが、実際の使用時には精度が低下して企業が使用するには信頼性の閾値を下回るようでは困ります。
ここで、これを説明する可能性のある2つのことについて手短に話したいと思います。1つは論文でも触れられている過学習です。これは本質的に、学習データセットにあまりにも密接に適合するLLMを作成してしまい、新しいデータに対する新しい予測ができなくなってしまう現象です。
これは基本的に、テストデータで過度に学習させすぎたため、テストでは良い性能を示すものの、実世界のシナリオでは良い性能を示さないということです。これは小規模なモデルで多くの人々が指摘する問題です。GSM-8Kのようなテスト形式の質問で過学習させてしまうため、素晴らしい性能を示すように見える小規模モデルは、テスト形式の質問でのみ良い性能を示すだけで、問題に対して過学習しているだけだと指摘されています。
この論文で触れられているもう1つの点は、データ汚染です。これは、評価ベンチマークのサンプルを事前学習コーパスに意図せず混入させてしまうことです。つまり、インターネットから大量のテキストデータでこれらのモデルを学習させる際に、時として不運にも、テストデータの一部が実際にモデルの学習に紛れ込んでしまうことがあるということです。
もちろん、学習時に見たことのあるデータであれば、そのテストで良い性能を示すことになります。そのため、変更を加えて新しいテストを作成することで、モデルがそれらの新しいテストで本当に良い性能を示すかどうかを確認できます。これはLLMでは頻繁に起こることであり、多くの人々がベンチマークに懐疑的になる理由です。
これが、私が個人的に、データ汚染があったとしても、日常的に行うタスクに基づいて独自のベンチマークを作成することをお勧めする理由です。そして、新しいモデルが登場したり、モデルが更新されたりするたびに、同じプロンプトをモデルに入力して、性能が向上したか低下したかを確認します。なぜなら、誰もが独自の特定のシナリオや特定のワークフローを持っており、GSM-8Kなどを見ることは非常に良いことですが、多くの場合、データ汚染が見過ごされてしまう可能性のある独自の使用事例があるからです。
論文はさらに、厳密性の問題に加えて、GPT-4oが論理的な飛躍と不整合な推論を示したことについても言及しています。図9で示されているように、モデルは単に答えが正しいと仮定してしまいます。これらの論理的な飛躍は、モデルが厳密な論理的出力を提供するのではなく、最終的な答えにたどり着くことを優先するため、GPT-4oの思考連鎖推論における問題の症状です。
これはGPT-4oの場合、私はあまり心配していません。なぜなら、現在のパラダイムを見ると、GPT-4oは基本的な指示を通じて推論できるものの、もはや推論モデルとは見なされていないからです。推論能力や純粋な推論能力のためのモデルを見ると、それはo1シリーズのモデルです。これらのモデルははるかに多くの能力を持っています。もちろん、これらのモデルが期待はずれの性能を示すのであれば、それは懸念すべきことです。
推論モデルを開発したのに、不整合な推論をするのは良くないからです。それでも、これらのモデルがテストと未検証のテスト(これらの新しい種類のテスト)の間で大きな差異を示すべきではありません。モデルの潜在的な学習データに明らかに何らかの欠陥があり、過学習やデータ汚染があったことを意味するため、依然としてあまり良い状況ではありません。
ここでOpenAIのo1プレビューについて触れると、彼らは全モデルの中でOpenAIのo1プレビューが最も良い性能を示し、パトナム・アクシオム・オリジナルで41.9%(236問中99問)のボックス精度を達成し、他のモデルは20%未満だったと述べています。
回答を分析すると、OpenAIのo1プレビューの応答のほとんどが、正解の解法と概ね同じ論理的パスをたどっていることが分かりました。しかし、これらの質問のいくつかには論理的な間違いと矛盾が含まれていました。モデルの応答と正解の解法との最大の違いは、数学的厳密性の一般的な欠如でした。正解の解法が解を進めるための主張を行い、それらの主張を段階的に証明するのに対し、o1プレビューはしばしば正当化なしに主張を行い、使用していました。
これは再び、最良のものではありませんが、これはo1プレビューなので、これが最善ではないかもしれませんが、実際のo1でこの論文を再度テストしてみたいと思います。しかし、o1プレビューにとって、正当化のない主張は最善ではありません。
そして、「o1プレビューは約束を示しているが、その数学的推論能力にはまだ明らかな欠陥がある」と述べています。
前述のように、私が以前カバーしていたアップルの研究論文についても触れたいと思います。そのビデオを作った時には大したことではないと思っていましたが、実際には50万回近く視聴され、AI業界がいかに注目を集めているかを示しています。これは基本的に同じことを述べていた論文で、論文の特定の部分を変更した際に、LLMは真の論理的推論が不可能であり、代わりに学習データで観察された推論ステップを再現しようとすると仮説を立てています。質問に関連すると思われる単一の節を追加すると、最大65%もの大幅な低下が観察されます。そのビデオから恐らくクリップを含めると思います。なぜならその論文がいかに驚くべきものだったかということですが、振り返ってみると、確かにそれは私たちを正しい方向に導くものでした。
もちろん、GSM-8K対GSMシンボリックのところでも、彼らは再びこれらの要素を変更しただけの新しいベンチマークを作成し、これらのモデル全体で大幅な低下を観察しました。ここで言えることは、大幅な低下を示したのは主にこれらの小規模モデルだったということです。つまり、これは小規模モデルが解決策に対して過学習している可能性があるということを示唆しています。
この動画をまとめると、最先端のLLMは数学などのベンチマークで既に性能が飽和しているにもかかわらず、パトナム・アクシオムの問題に正しく答えることにまだ苦労しているとのことです。潜在的なデータ汚染の問題に対処するため、私たちはパトナム・アクシオムの変形版を導入し、変数名、定数値、あるいは問題の言い回しを変更して、インターネット上のどこにも存在しない無限の数の問題を作成する可能性を提示しました。
そして、ほとんどの問題において、モデルは対応するオリジナルの問題と比べて変形版で大幅に性能が低下することに気づきました。私たちのデータセットは、モデルの推論能力の急速な進歩によって開かれた空白を埋めるものです。つまり、時間の経過とともにこれらのモデルの能力がまだ向上し続けるのかどうかを見るのは興味深いでしょう。
より広いAIコミュニティでこの論文がどのように受け止められるのか、そしてo1やo3のようなモデルで再度テストされるのかを見るのは興味深いでしょう。なぜなら、それらは本当の意味での推論モデルであり、それらのタスクでモデルがどのように性能を発揮するのかを知ることができる真のテストとなるからです。

コメント

タイトルとURLをコピーしました