AI Gets WEIRD: LLMsが内部的な「確信感」のみで推論を学習する

LLM・言語モデル
この記事は約11分で読めます。

バークレー大学の最新研究論文「Learning to Reason Without External Rewards」を解説する動画である。従来の強化学習では外部報酬(テストの正答率など)に依存していたが、この研究ではAIモデルの内部的な「確信度」のみを報酬信号として使用する革新的手法を提案している。モデルが自分の回答にどれだけ確信を持っているかを基準に学習を進める仕組みで、外部監督なしに推論能力の向上を実現している。数学的推論において76%の性能向上を達成し、さらにコード生成や指示従順性といった異なる領域でも汎化能力を示している。この手法は高品質なデータの必要性を減らし、AIシステムの自律的な能力獲得への道筋を示している。

バークレー大学の革新的研究「外部報酬なしの推論学習」

バークレー大学から「Learning to Reason Without External Rewards(外部報酬なしの推論学習)」という新しい論文が発表されました。通常、これらのモデルで強化学習を行う方法は、何らかのテストでの正確性や外部目標の達成と結びついています。

もし私たちがコーディングを上手に行いたいなら、そのモデルはコーディングタスクでどれだけ上手くできるかで評価されます。もし上手くできれば、バーチャルなハイタッチ、つまり「良い仕事をした、あなたがやっていることはうまく機能しているようだ、正しい答えが得られた」という正の強化学習信号を受け取ります。

論文で指摘されているように、検証可能な報酬による複雑な推論のための大規模言語モデルの強化学習訓練は効果的ですが、コストの高いドメイン固有の監督への依存によって制限されています。検証可能な報酬とは、最終的に私たちにとって有用な何かでモデルを評価することを意味します。

例えば、部屋の中で物体を動かすロボットを訓練している場合、物体を正常に移動させることに対して報酬を与えることができます。物体を拾い上げることができれば「良い仕事だ」と言えます。検証可能な報酬は、実際に私たちが達成したかったことと結びついています。例えば、プロセスの最後に部屋がより清潔になっているか、床が散らかっていないかをチェックすることです。うまくできた時には、バーチャルなハイタッチ、プラス1を与えます。

モデルの確信度を報酬信号として使用する画期的アプローチ

しかし、この論文が問いかけているのは、モデルの答えに対する確信度、彼らが「自己確実性」と呼ぶものを唯一の報酬信号として使用したらどうなるかということです。言い換えれば、テストでうまくやっているような外部報酬に基づいて評価する代わりに、任意の答えについてどれだけ確信を持っているかに基づいて評価するのです。

もしそれが少し非常識に聞こえるなら、ある種の永久機関のように感じられるなら、あなたは正しいかもしれません。奇妙なことに、それはある程度機能するのです

まず、大規模言語モデルが困難な問題に対してより低い確信度を示すという観察があったという事実から始めましょう。これはある程度理にかなっています。答えを知っていると確信している質問を受けた場合、それを正しく答える可能性が高くなります。「まあ、確実ではないが、これかもしれないし、あれかもしれない」という状況で、その答えに対して低い確信度を示す質問がある場合、それを間違える可能性があります。これは一般的に当てはまる傾向がありますよね。

確信度最適化による推論能力向上のメカニズム

例えば数学のテストの勉強をしている場合、おそらくそのテストで得た点数を、何か正しいことをしているに違いないという報酬信号として使用しているでしょう。低い成績を取った場合、何か間違ったことをしているに違いありません。そのテストでどれだけうまくやれるかという私たち自身の確信度を使うことは、何を正しくやっているか、何を間違っているかを見るための報酬信号としては機能しないように思えます。

しかし、彼らがここで指摘しているのは、確信度を最適化することで推論能力が向上するはずだということです。テストを受ける前により確信を持っているほど、そのテストでより良い成績を収める可能性が高いという考えです。

ここで彼らは確信度が何を意味するかを正確に説明しています。モデルの出力分布と一様分布の間の平均KLダイバージェンス、それが彼らの確信度測定です。これは何を意味するのでしょうか。

一部のモデルが自己検証のようなことを行っているのを聞いたことがあるかもしれません。彼らは1つの質問に100回答え、異なる答えを出すかもしれませんが、最も一般的な答えを使用することでより高い精度につながることに気づいています。

街頭での道案内の例えで理解する確信度測定

外国の都市にいて、街で誰かに道を尋ねた場合、最初の人が言ったことを何でも従ってその道順に従うと、道に迷う可能性があります。同じ街で100人の異なる人々に特定の場所への道順を尋ね、そのうち80%が同じ道順を与え、他の20%が他のランダムな道順を与えたことに気づいた場合、かなり安全に「80%の人々が合意している、これが正しい答えのようだ」と言えます。だから、これが私が行きたい場所への適切な道順である可能性がはるかに高いのです。

これらの大規模言語モデルを、道順やその他のより困難な質問について街で100人の異なる人々に尋ねるようなものと考えてください。質問がより困難であるほど、より多くの異なる答えが得られ、より簡単な質問では主に同じ答えが得られます。人々に2プラス2は何かと尋ねると、ほとんどの人が4と言うでしょう。地球と月の間に何マイルあるかと尋ねると、100万の異なる答えが得られます。おそらく知っている人が数人いるでしょうが、一部の人はただ数字を適当に言うだけです。

ここで彼らが確信度のアイデアと呼んでいるのは、それらの同じ答えがどれだけ頻繁に繰り返されるかということです。もちろん、これは高品質な応答を欠陥のあるものから区別するのに有用な指標です。

外部監督を排除する革新的フレームワーク

この論文のポイントである直感的な発想は、それらの自己生成信号、つまり確信スコアを使用して外部監督や手作りの報酬の必要性を排除できるかということを問いかけています。

1つのフレームワークでは、制御実験のようなものとして、彼らはgRPO、つまりグループ相対政策最適化を使用しています。これはDeepSeekモデルでの大きなブレークスルーの1つでした。もう少しハードウェア集約的で、より多くのGPUが必要なフレームワークを使用する代わりに、彼らはgRPOを思いつきました。これにより、より少ない計算要求のフレームワークでこれらのモデルを訓練することができ、これが効果的であることを示したのは彼らでした。

この論文によると、この新しいアプローチである直感者(Intuitor)は、正しいことが慎重に保証されたゴールド回答に依存することなく、gRPOの性能に匹敵します。応答を評価するための指標としてそれを使用する代わりに、私たちはモデルの直感、つまりその答えに対する確信度を使用するだけです。より確信を持っているほど良いのです。

実験結果:76%の性能向上と汎化能力の実証

彼らがこのアプローチをQuin 2.5-3bベースモデルに数学で行った場合、76%の向上を見ました。しかし、より重要なことは、このアプローチの強力な汎化能力を実証していることです。つまり、与えられたデータから答えを記憶しているだけでなく、他のすべての未見の問題を解決する能力を向上させることができるということです。

これは、テストのために練習問題をするのと似ています。それらの練習問題が最終試験に出ることはありませんが、うまくいけば、それらの問題を歩んで解決することで試験の準備をします。問題を一般的にどのように解決するかを汎化できると仮定して、それらの問題をどのように解決するかについてのいくつかのスキルを身につけ、それらの問題がどのように構造化されているかを理解し、それ以外のことに汎化することができます。

これは人間が非常に簡単に行うことです。私たちは汎用知能を持っており、これがこれらのモデルに出現させようとしていることです。データを記憶するだけでなく、未見のタスクに汎化することです。

データ不足問題への解決策としての意義

訓練のための慎重にキュレートされたデータは限られたリソースであり、高価です。慎重にキュレートされたデータへの依存を減らすことができるが、依然として強力な結果と強力な汎化を持てることを示すこのような論文は、明らかに大きな勝利です。

直感者は明確なプロンプトのみを必要とし、検証可能な報酬を必要としないため、タスク全体に広く適用可能であり、事前訓練されたLLMが以前に認識されていたよりもはるかに豊かな潜在行動事前分布を持っているという新たな証拠を提供しています。

潜在空間とは隠された思考空間、これらのモデルの脳のようなもので、Dwarash Patelのポッドキャストの1つでAnthropicの研究者にインタビューしているのを見た場合、彼らはこの会話をしていました。Anthropicの研究者は、知識と能力と理解の多くが、これらのモデルが訓練された後に既に焼き込まれているという理論を持っていました。

潜在能力の抽出と既存理論の支持

強化学習は、それを引き出すものや、おそらく別の考え方として、不要なものを剪定するもののようなものです。強化学習は何か全く新しい能力を追加するのではなく、その潜在空間からすでに存在するものを単純に抽出しているかもしれません。訓練されたモデルから、私たちは必要な能力を引き出すことができるだけです。

この論文が事前訓練されたLLMが以前に認識されていたよりもはるかに豊かな潜在行動事前分布を持っている可能性があると言う時、それは事前訓練から出てきた時に、すでにそこに多くのものがあるという理論を支持しているようです。私たちはそれを何らかの方法で抽出したり拡大したりする方法を見つける必要があるだけです。強化学習は必ずしも全く新しい能力を与えるわけではなく、既存のものを鋭くするだけです。

新しいフレームワーク「RLIF」の革新性

結論として、この論文のこのフレームワーク、彼らが直感者と呼んでいるものは、RLIFと呼んでいます。RLHF(人間フィードバックからの強化学習)があります。これは親指を上下するボタンなどをクリックする時です。RLVR(検証可能報酬)があります。これは非常によく考え抜かれ、非常によく設計された、価値のある結果を持ち、それに向かって訓練している時です。しかし、再び、データは高価であり、十分に持つことが困難です。これらのモデルの強化学習を行うためのそのデータが豊富にない特定の分野があります。

ここでRLIF(内部フィードバック)では、このモデルの内在的な自己確実性を唯一の報酬信号として使用し、人間強化での外部監督や検証可能な報酬でのゴールドスタンダードソリューションのような必要性を排除します。

この実験は、直感者が数学的推論において監督付き方法やgRPOの性能に匹敵しながら、コード生成や指示従順などのドメイン外タスクへの優れた汎化を達成することを示しています。つまり、これを数学の訓練に使用すると、コーディングや指示に従うことでも良くなるということです。それらのことについて訓練していないにもかかわらずです。それが汎化の意味です。

人間的な学習パターンとの類似性

コーディングを本当に上手に学ぶと、構造化されたアプローチが良いかもしれない人生の他の問題を考えるのにも役立つかもしれないのと似ています。これはドメイン外タスクへの同様の汎化を示しています。

また、興味深いことに、構造化された推論を促進する、つまり思考の連鎖を出力する推論方法を学ぶのが上手になり、報酬悪用に対する保護にもなるようです。特定のタスクを行いたい時、時々これらのモデルは少しズルをして、それを回避しようとする傾向があります。作業をせずに報酬を得ようとします。

コードの一部があり、それのためのテスト、つまりそれが動作していることを確認するユニットテストを書きたい場合、理想的には、すべての異なる状況をカバーし、このものが失敗する可能性のあるすべての異なる方法をテストするテストを書きます。しかし、時々モデルは「常に合格するテストを書けるか」と考え、それがダウングレードされないと思う場合、それをしようとします。これはそれに対する保護の方法であるようです。

内省による自己改善への道筋

この研究は内省を通じて改善できるAIシステムへの意味のあるステップを示している、と言うのは奇妙ではありませんか。そして豊かな潜在能力を解放するのです。再び、訓練された後の訓練された脳、潜在空間は、私たちが認識していたよりもはるかに多くの能力を持っているようであり、これらの方法はそれらを解放し、使用に投入されるのを助けます。

将来を見据えて、このパラダイムは新しいドメインでの自律的なスキル獲得と、人間の監督の限界に近づいたり、それを超えたりしても、拡張可能な自己改善が可能なAIエージェントへの扉を開きます

これは大きな問題です。なぜなら、よくラベル付けされたデータが必要であるという問題は、賢くて注意深く、すべてがラベル付けされていることを確認し、それが正しいことをダブルチェックし、データをキュレートするという退屈な作業ができる人間が必要だという事実です。このデータをふるいにかけるのを助けるために他のAIを使用し、AIによって生成されたデータである合成データを使用している間、私たちはそれをますます行っています。まだ、プロセスを遅くする特定の人間の抵抗があります。

スケーラブルな自律学習システムへの展望

もしこれがスケーラブルなアプローチであるなら、異なるドメイン全体で機能するアプローチであるなら、これはちょうど出たばかりなので、これがより広範囲に適用されるのを見るのはまだです。しかし、もしこれがスケーラブルで効果的なアプローチであるなら、多くの異なるドメインに適用できるようです。再び、そのドメインからの外部報酬は必要なく、モデルの内部的なアイデア、その自己確実性を活用するだけで済みます。そして、答えにますます確信を持つようになるにつれて、その応答の精度が向上します。

異なるAIラボがこれらのアイデアを実装し始める時、これに注目してください。なぜなら、彼らがここで言っているように、これを他の報酬方法と統合すると、ますます複雑な現実世界の課題に取り組み、より堅牢で汎化可能で真に自律的な学習システムの開発を進歩させるために、これを使用するかもしれません

AIが驚くべき直感力を持っていることについてどう思ったかを教えてください。それはあなたのビンゴカードにありましたか。ここまで見てくれた場合、視聴してくれて本当にありがとうございました。

コメント

タイトルとURLをコピーしました