ゲームオーバー?新しいAI研究がAIコミュニティを驚愕させる

AGIに仕事を奪われたい
この記事は約13分で読めます。

7,539 文字

Game OVER? New AI Research Stuns AI Community.
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

ゲームオーバー。これがAI業界のLLMに関してこのツイートが述べていたことです。このツイートはAIコミュニティで半ばバイラルになりました。その発端となったのは、この興味深いAI論文です。これは推論モデルの実際の仕組みと、AIの未来がどのようなものになり得るかについての洞察を私たちに与えてくれるものです。皆さんが混乱しないように、シンプルな方法でこれを解説していきたいと思います。
LLMにとって本当にゲームオーバーなのでしょうか?これまで多くの異なる論文が現れ、これらのモデルの本質に挑戦してきました。そして、これも注目すべき論文の一つです。具体的な内容に入りましょう。
「強化学習は本当にベースモデルを超えるLLMの推論能力を向上させるか」というこの論文は、モデルをより優れた思考と問題解決ができるように訓練する方法である強化学習を追加することが、実際にモデルをより賢くするかどうかを理解しようとするものです。この論文が述べているのは、強化学習は実際にはモデルをより賢くしないということです。
研究者たちが何をしたのか詳しく説明しましょう。この研究結果を理解するのに役立つ画像をご覧ください。これらの研究者たちは実際に何をしたのでしょうか?彼らは2種類のAIを用意しました。一つは通常の方法で訓練された「ベースモデル」(まったく変更を加えていないベースモデル)、もう一つは追加の強化学習で訓練された「RL VRモデル」です。
彼らは両方のモデルに同じ難しい質問を与え、AIが1回だけ試行できる場合(K=1)と、より多くの試行回数が許される場合(K=256、つまりAIに256回の試行機会を与えた場合)で、どれだけ正しい回答ができるかをテストしました。彼らが発見したことは非常に興味深いものでした。強化学習モデルは1回の試行でのみ優れていましたが、両方のモデルに多くの試行機会を与えると、ベースモデル(ここで見ることができるベースモデル)が長期的には実際により良い結果を出しました。
これは非常に驚くべきことです。なぜなら、強化学習はこれらの推論モデルの主要なパラダイムの一つであり、ベースモデルに既に能力が存在していることを発見したことは非常に興味深いことだからです。
これは何を意味するのでしょうか?基本的に、この論文は強化学習は実際には新しいスキルを教えるのではなく、AIがより素早く良い推測をするのを助けるだけだと述べています。そして明らかに、AIの好奇心を低下させ、問題解決の方法をより少なく探索するようになり、問題がより難しい場合に行き詰まりやすくなるとのことです。
この論文では、蒸留(distillation)と呼ばれるものについても言及されており、これは強化学習よりもはるかに優れており、モデルが新しいスキルを学ぶのに役立つとされています。
もう少し詳しく説明しましょう。これは論文に掲載されている画像で、二つの決定木を見ることができます。これらはモデルが問題を解決しようとする際に取りうる経路です。各ノードはモデルの推論のステップを表し、ここで見える「+1」はモデルが正解を得たことを意味し、「0」はモデルが間違った答えを受け取ったことを意味します。
左側のベースモデルは元の未訓練バージョンで、右側は正解に報酬を与える強化学習で訓練された同じモデルです。上の行は「より効率的なサンプリング」を示しています。ベースモデルは多くの経路を探索しますが、正解にたどり着くのは遅くなります。0、0、0とこれらの木を下っていき、最終的に正解である+1にたどり着きます。一方、強化学習モデルは報酬を与える経路を目指すことをすでに学習しているため、より早く正解を見つけます。これは良い結果です。強化学習はモデルがより早く良い答えを見つけるのに役立つからです。
ここで問題Bの「推論能力の範囲の縮小」を見てみましょう。ベースモデルはここでも多くの推論経路を探索し、そのうちの一つが正解に導きます。一方、訓練からの最も報酬の高い部分にのみ焦点を当てるように訓練された強化学習モデルは、今回は完全に答えを見逃してしまいます。答えがここにあったのに、このように訓練されたモデルは完全に見逃してしまったことがわかります。これは残念な結果です。強化学習によってモデルが狭すぎる視野を持つようになり、以前は見つけることができた正解を見逃してしまうのです。
ここでのメッセージは、強化学習は効率性を向上させ、答えをより早く見つけることができるようになりますが、柔軟性を低下させるということです。モデルの探索が減り、以前は見つけることができた答えを見逃す可能性があります。基本的に、この論文が述べているように、答えがベースモデルに隠されているならば、モデルを強化学習で訓練することで答えを見逃していないかどうかをどうやって知ることができるでしょうか。
このステートメントが半ばバイラルになったのは、かなりドラマチックだったからです。彼女は「RLの勝利ラップは時期尚早だったことが判明しました。この新しい論文は、派手な報酬ループが単に疲れた推論パスを絞り出しているだけで、ベースモデルがすでに知っていたことを静かに示しています」と述べています。彼は基本的に、誰もが強化学習は賢いAIを解き放つと思っていたが、この論文は違うことを示したと言っています。強化学習はただAIに頭の中に既にあった答えをより頻繁に選ばせるだけなのです。それはあなたに最大のヒット曲を演奏することを強制するようなもので、新しい音楽を作曲するわけではありません。
彼はまた「最初の試行での成功率は確かに上がるが、モデルの世界は実際には縮小する。フラッシュカードを暗記させて子供に優秀な成績を取らせ、それを知恵と呼ぶようなものだ」と述べています。基本的に彼が言っていることは、強化学習は確かにAIが最初の試行で正解を早く得るのに役立つが、強化学習は子供にフラッシュカードを詰め込むようなもので、彼らは答えを覚えていても、より深いことは何も理解していないということです。
「自己改善するLLMの壮大な夢は、基本的にカンニングペーパーとルーレットホイールのようなものだ。十分長くサンプリングし続ければ、ベースモデルは強化学習チャンピオンが自慢するのと同じ証明を、エントロピー税を差し引いて吐き出す」と述べています。
AIが自分自身を教えて輝かしいものになるという夢は、単なる神話かもしれません。通常のベースモデルに十分な試行回数を与えれば、最終的に強化学習で訓練されたモデルと同じ答えを見つけることができます。強化学習は新しいアイデアを与えるわけではなく、単にベッティングをよりスマートにするだけで、思考そのものをスマートにするわけではありません。
彼は「発見ではなく圧縮だ」と述べています。強化学習はAIに問題を解決する新しい方法を発見させているわけではなく、単にその知識をより効率的なパターンに圧縮しているだけなのです。おそらく究極的な目標はより優れたエージェントではなく、より鋭いファネルなのかもしれません。私たちはシリコンのオウムに、洞察と誤解されるようなオーバーフィットを行いながら、ますます無用なオリンピアードのハードルをクリアするよう指導してきたのです。
これは彼が、私たちはAIを「オウム」として訓練し、複雑な試験に合格させているが、彼らは学習しているのではなく、単に訓練データと試験スタイルをオーバーフィットしているだけで、本当の理解を発達させていないと述べているところです。そして彼はこう締めくくっています。「世界で最も高価なカーブフィッティングのデモの途中にいるのではないかと考えずにはいられない。私たちは過去5年間と何百万ドルもの費用をかけて、真の知性を構築することなくパターンを記憶する(カーブフィッティング)をAIに教えてきただけなのではないか」。
また、この論文の研究者からのQ&Aもあります。彼らはここで基本的に、なぜ多数決投票の代わりにKでのパス率を使用しているのか、そしてそれが彼らの発見を無効にするかどうかについて述べています。彼らは基本的に、現実世界のモデルは256回試行する機会を得られないので、この指標が有用なのかという疑問を投げかけています。彼らは基本的に「これは現実世界のパフォーマンスについてではなく、理論的な可能性についてである」と言っています。著者らは明確に、KでのパスRate(パス率)を使用するのは、モデルが現実世界で有用かどうかを判断するためではなく、モデルが十分な試行回数を与えられた場合にどこまで到達できるかを見つけるためだと述べています。
Kでのパス率とは何か覚えていますか?以前に議論したように、モデルがK回推測することが許され、その推測の一つが正解であれば、それは1ポイントを獲得します。これは基本的にモデルの最大能力を推測する方法であり、平均や多数決の選択ではありません。彼らの推論は本質的に、もし強化学習が本当にモデルをより賢くするなら、大きなKの場合、つまりモデルに多くのチャンスを与えると、強化学習を受けたモデルはベースモデルよりも多くの問題を解決するはずだということです。しかし実際には逆のことが起こります。強化学習モデルを使用すると、大規模な場合、ベースモデルよりも少ない問題しか解決できないのです。
これは実際、強化学習がモデルに新しい推論スキルを与えるのではなく、単に同じ答えをより効率的にサンプリングするのを助けているだけであることを意味します。そしてそのトレードオフは、実際には探索が少なくなることです。彼らは基本的に、Kでのパス率はモデルが通常何をするかではなく、理論的に何ができるかを示すものだと述べています。そして基本的に、強化学習がAIの思考を狭めることを証明するだけであり、たとえいくつかの答えを素早く出すことができるようになるとしてもです。
彼らが述べているもう一つのことは、「Kでのパス率は無意味ではないか、十分な回数推測すれば最終的に正解を当てることができるのではないか」ということです。答えが単に42のような数字であれば、モデルが1000回推測すれば、最終的に運によって当たる可能性があるという点で、彼らはある程度正しいです。これにより、いくつかの数学の問題ではパス率1,024が少しノイジーに見えるかもしれません。基本的に、1000回の試行を与えれば、最終的に正解にたどり着く可能性がありますが、コーディングの問題では単に推測して正解することはできません。すべてのテストケースに合格する必要があり、それを推測するのは難しいのです。それでも、より多くの試行を与えられた場合、ベースモデルは多くの場合、強化学習で訓練されたモデルよりも優れていました。
それは運ではなく、ベースモデル内の実際の推論能力です。彼らはこれを手作業で確認しました。彼らはAmyとGSM 8Kからのいくつかの問題を調べ、ベースモデルの答えは単なる幸運な推測ではなく、難しい問題でも少なくとも一つのステップバイステップの解決策を示していることを発見しました。例えば、分数や平方根のような非常に推測しにくい答えを持つmath 500のような難問でも、ベースモデルはより多くの試行を許された場合でもより良い結果を出しました。
基本的に、彼らは「もちろん、モデルがランダムに推測すれば、最終的に正解することができると予測できるので、これは数えない」と述べていますが、実際にはそうではありません。多くの答えは非常に具体的であり、これは単なるランダムではなく、より多くのチャンスで現れる埋もれたスキルを示しているということです。
彼らはまた、「ランダムサンプリングでも最終的に正解を生成することができる」と述べています。それでは、あなたの結果は無意味になるのではないでしょうか?確かに理論的には、ランダムにタイプすると最終的に正解にたどり着く可能性がありますが、その確率はほぼ不可能です。純粋なランダム性が正解を生み出しているわけではありません。実際の洞察は基本的に、この論文は「永遠にサンプリングを続ければ最終的に運が良くなる」と言っているのではなく、モデルが128回から1,024回の試行で正解を得ることができるならば、それはモデルが既に推論パスを知っていることを意味し、それは単なる運ではなく、ベースモデルに隠された能力だということを示しています。
ここでの違いは確率です。モデルが本当の理解を持っていれば、数百回の試行で正解がサンプリングされます。そうでなければ、実用的な計算をはるかに超えた何兆回もの試行が必要になるでしょう。強化学習は、モデルがより早く良い推測を選ぶのを助けますが、それは新しい推論を発見するわけではなく、単にモデルが既に持っていたものへのショートカットを提供するだけです。
もちろん、彼らが基本的に言っていることは「これは常識ではないのか?強化学習はモデルが最初の試行で正解するのを助けるべきではないのか?」ということです。それはもちろん予想されることですが、なぜそれが明らかではないのかというと、強化学習はpass at oneを向上させることを目的としています。それは驚くべきことではありません。もちろん、それはより早く答えを正しく得ることを目的としています。それは今、モデルがより知られている答えをより早く選ぶのが上手になっただけであり、それは私たち全員が知っていたことです。しかし驚くべきことは、強化学習はモデルができることを拡張するのではなく、単にそれをより効率的にするだけだということです。
彼らは基本的に「ベースモデルが1000回試行した後でも問題を解決できない場合、強化学習モデルもそれを解決することはできない」と言っています。これは、強化学習がベースモデルに新しい推論戦略を学ぶのを助けているのではなく、単にすでに知っていることに焦点を当てるように調整しているだけであることを意味します。これが重要な理由は、古典的な強化学習では、時間とともにより良い戦略を発見することが全体の目的ですが、ここでのLLMにおける強化学習は新しい思考を探索せず、ボックスから抜け出さず、ベースモデルの限界を超えず、単にモデルがすでに行っていることを引き締めるだけだからです。
彼らがこれに驚いた理由は、モデルが答えるために多くの試行を得るKでのパス実験では、ベースモデルが実際に強化学習で訓練されたモデルよりも優れていたからです。彼らは今、「これは基本的に強化学習がモデルをベースバージョンよりも優れた推論をできるようにすることができないことを意味するのか」と述べています。正確にはそうではありません。彼らは強化学習が無用だと言っているのではなく、これまでのところ、それがモデルを推論においてより賢くするという証拠を見ていないと言っています。
彼らは「強化学習は本当にモデルに新しい思考方法を学ばせるのに役立つのか」を尋ねる実験を慎重に実行しています。今のところ、強化学習はモデルがより早く答えるのを助けるが、ベースモデルがすでに知っていたことよりも優れているとは限らないようです。彼らはまだ、より大きなモデルとより多くのデータがそれを変える可能性があると考えており、現在Deepseek V3とR10でそれをテストしています。これは非常に興味深いことになるでしょう。ベースモデルのdeepseekと強化学習モデルを比較して、どれだけ賢くなるかを見るのです。彼らは基本的に、これの証拠を見る必要があると言っているのです。
もう一度、彼らは基本的に「強化学習は無用ではない、なぜならそれはサンプル効率を向上させるからだ」と述べていますが、AIでより困難な問題を解決したいなら、ベースモデルの上限を超えることができる新しい訓練パラダイムが必要かもしれません。彼らは基本的に「これらのモデルから新しい知識を得るための新しい方法が必要だ」と言っており、それはもちろん私たちが本当に求めている種類の知性です。
OpenAIの誰かが「これを読むと、脳細胞が一つしかない人なら素晴らしく感じるに違いない」と言いました。私はこれについて考えていましたが、ある意味でこれは興味深いと思います。なぜなら、モデルが行っていることを見ると、もちろん強化学習は素晴らしいです。それは答えをより早く得るのに役立つからです。しかし、もちろん欠点は、それが推論経路を狭め、最終的にいくつかの本当の答えを見逃す可能性があることです。
しかし、ある意味で実際にこれを実用的な意味で考えると、強化学習で訓練されたモデルは重要な方法でより賢いと主張することができます。それはより効率的であり、より確実かつ素早く正解を見つけることは、多くの場合、必要なことであり、間違いや誤った開始が少なく、実際のパフォーマンスと実世界のユースケース、特に一度だけ試行できる場合により良い結果をもたらすのです。
これは、人間の知性をどう見るかとかなり似ています。一貫して最初の試行で問題を正しく解決する人は、通常、同じ答えを得るために多くの試行が必要な人よりも賢いと考えられるでしょう。たとえ両方の人が技術的に同じ知識を持っていたとしてもです。
論文の区別は、これが改善の性質についてのものであるという点が私には魅力的です。モデルが新しい概念を学んだり、まったく新しい問題解決戦略を開発したりしたのではなく、むしろすでに知っていることをより上手に使うようになったということです。
しかし、この効率性の向上は、私個人としては依然として実用的な形の知性だと信じています。モデルが確実に正しいアプローチをすぐに選ぶことができれば、それは確かに正しい経路を見つけるために多くのランダムな試行が必要なモデルよりも知的であると言えるでしょう。たとえ両方が理論的に同じ能力を持っていたとしてもです。
論文で強調されている本当の限界は、強化学習には天井があるように見えることです。それは、基本的にベースモデルの能力の限界を超えている問題を解決するようにモデルを教えることはできません。そこで蒸留のような他のアプローチや、さらには他のアーキテクチャが必要になる可能性があります。
皆さんはこれについてどう思いますか?私はこれが非常に興味深いと思いました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました