
2,498 文字

もし私が、サイズが20倍以上ある競合モデルに勝てる小型AIモデルがあると言ったらどう思いますか?Deep Seek R1の671Bパラメータモデルのようなモデルにさえ匹敵するのです。これは強化学習による新しいアプローチのおかげです。この新しいモデルはQuenのQWQ 32Bパラメータモデルです。これは32Bパラメータモデルであり、強化学習と従来の大規模言語モデルの微調整方法を組み合わせたアプローチにより、大規模言語モデルに対する考え方を根本的に変えています。
ベンチマークを見てみると、AIM24テストでのQWQの結果、これは数学的推論のテストですが、QWQ 32Bパラメータモデルは79.5点を獲得しています。これはDeep Seek R1 671Bパラメータモデルとほぼ同等であり、O1 miniよりもはるかに優れています。実際、Deep Seekの蒸留モデルよりも優れた成績です。また、Life Code Benchを見ると、Deep Seekが65.9点だったのに対し、このモデルは63.4点をマークしており、再び同等のスコアを示しています。
さらに別のコーディングテストであるLive Benchでは、アリババグループのQuenによるQWQ 32Bパラメータモデルは73.1点を獲得し、この特定カテゴリーでは他のすべてのモデルよりも優れた成績を収めています。これらすべてのベンチマークを通じて、コーディングと数学の両方において、このモデルが堅実なベンチマーク結果を示していることがわかります。もちろん、モデル自体をテストする必要があります。
このモデルがどのように構築されたかを見てみましょう。このモデルは強化学習を使用して構築されており、コールドスタートチェックポイントから始まっています。コールドスタートチェックポイントとは一般的に、既存のデータで教師あり微調整(SFT)が行われていることを意味します。つまり、モデルの背後にある教師あり微調整が、数学やコーディングに翻訳される知識を獲得するのに役立ったと主張することは完全に可能です。これはモデルをテストするときに確認する必要があることです。
コールドチェックポイントの後、このモデルは結果ベースの報酬を使用した強化学習を受けています。ここでの強化学習は主に結果に基づいており、初期段階では従来の報酬モデルに依存するのではなく、最終解の正確性を確保するために数学に特化した精度検証器だけを利用しています。これは、既存のモデルを推論モデルに変換する方法を示した私の別の動画でUNSOを使用した方法と非常に似ています。
強化学習でよく使われる報酬モデルを使用する代わりに、精度検証器だけを使用しているのです。例えば、2+2という数学の問題があれば、答えが4の場合は報酬があり、4でない場合は報酬がありません。同様の方法で、数学問題の解の正確性を確認するために精度検証器を使用し、また生成されたコードが事前定義されたテストケースに合格するかどうかを評価するためのコード実行サーバーも使用しています。
これは、人工知能数学オリンピック優勝者とのポッドキャストで見たものと非常に似ています。コードが実際に実行される小さなサンドボックスや仮想ボックスのようなコード実行エンジンがあり、すべてが完全に機能することを確認します。コードを見るだけでなく、コードが実際に実行され、すべてのテストケースを通過することが検証されます。
Quenチームが発見したのは、この過程が進むにつれて、モデルのパフォーマンスがコーディングと数学の両方で継続的に向上したということです。これが最初の段階であり、これが完了した後、一般的な能力のための強化学習の第二段階がありました。
先ほど見た結果ベースの報酬とは異なり、ここでは実際に一般的な報酬モデルといくつかのルールベースの検証器を使用しました。彼らは、この特定の強化学習段階が非常に少ないステップで、指示に従うといったモデルの一般的な能力のパフォーマンスを向上させることができることを発見しました。
非常に正確な数学やコーディングのモデルを手に入れたとしても、最終的には人間の指示に従ってほしいものです。そこで、報酬モデルを使用して一般的な能力のための強化学習を行うことで、モデルの指示追従能力が向上し、人間の好みとの一致度も高まり、返答の質が向上します。またエージェントとしてのパフォーマンスも、前段階のモデルだけを使用するよりも大幅に向上します。
これは、モデルが数学とコーディングのパフォーマンスを低下させることなく、一般的な能力において向上できることを示しています。これはかなりの革新だと思います。多くの人々はこれを知っていましたが、このスケールでモデルをトレーニングし、このようなパフォーマンスを示し、671Bパラメータのモデルと比較することは非常に素晴らしいことです。
唯一私が少し懐疑的なのは、最初のコールドスタートチェックポイントで、これらのベンチマークに関連する数学データやコードデータに関して何らかの漏洩があったかどうかです。彼らはベンチマークの漏洩がないことを確認していると思いますが、コーディングと数学の2つのドメインだけで優れたモデルをトレーニングし、その後モデルをより一般化するというのは非常に興味深いアプローチです。
これは人間の学習方法ではないと思いますが、非常に興味深いアプローチです。強化学習の科学者がチューリング賞を受賞した日に、このモデルが登場し、20倍も大きいサイズのモデルに挑戦しているのです。これは強化学習がどのようにAGI(もし私たちがAGIについて話しているならば)に近づける可能性があるのかを理解するための素晴らしい時期です。
このモデルが単なるベンチマークハッキングなのか、それとも真のイノベーションなのかについてあなたの意見を教えてください。そして今までビデオを見てくれた方は、チャンネル登録とイイネボタンをお願いします。別のビデオでお会いしましょう。ハッピープロンプティング!


コメント