Sakana AI新モデルが強化学習革命を引き起こす

SakanaAI
この記事は約14分で読めます。

Sakana AIが発表した新しい強化学習アプローチ「Reinforcement Learning Teacher(RLT)」について解説する動画である。従来の強化学習では学習者であるAIモデルに対して正解時に報酬を与える方式だったが、この新手法では教師モデルが学生モデルにいかに効果的に説明できるかで評価される。わずか70億パラメータの小型モデルが、従来の数千億パラメータの大型モデルよりも優秀な教育効果を示し、訓練コストを大幅に削減しながらより良い性能を達成している。この革命的アプローチは、AI研究の民主化と自己改善型AIシステムの発展に大きな影響を与える可能性がある。

Sakana AI New Model Sparks a RL Revolution
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Sakana AIの革新的アプローチ

Sakana AIが戻ってきました。彼らは自己改善型コーディングエージェントであるDarwin Goalマシンの開発者であり、査読を通過した機械学習の科学論文を作成した初のAIも開発しました。そして今回、彼らはまたしてもオープンソースプロジェクトと研究論文を発表し、その意味するところは革命的である可能性があります。

強化学習(RL)とは、AIに何かを教えようとする手法で、うまくできた時に報酬を与えます。数学やコーディングが上達すると、バーチャルなハイタッチを与えて、良くなっている、目標に近づいていることを知らせるのです。基本的に「今やっていることをもっと続けなさい」と言っているわけです。

また、私たちが望む結果につながらない傾向にある行動や結果にペナルティを与える負の強化もあります。例えば、Doomのゲームを基本的に複製できたゲームエンジンのニューラルネットワークを思い出すかもしれません。リアルタイムでDoomをプレイしていましたが、コードは一行も使わず、ソフトウェアではありませんでした。進行しながら夢見るように生み出していくニューラルネットワークでした。

ゲームのデータを得るために、実際にDoomをプレイする小さなAIエージェントをたくさん訓練しました。そのために強化学習を使ってDoomのプレイを教えたのです。使用された報酬関数は以下のようなものでした。プレイヤーが攻撃を受けるとマイナス100ポイント、死亡すると5,000ポイント、敵への攻撃は300ポイントのプラス、つまり「よくやった、敵を倒した」というバーチャルハイタッチで1,000ポイント、そしてゲームプレイを改善したり、ゲームを前進させる様々な行動にもポイントが与えられました。

AIはDoomをプレイして、ゲームを前進させ、敵を撃つなどしてポイントを最大化しようとする一方で、攻撃を受けることを避け、特に死亡を避けようとしました。

革新的な「教師」アプローチ

この論文は、この考え方を少しひっくり返します。彼らは「強化学習教師」を導入しました。質問と回答のペアから説明を生成するよう教師モデルを訓練するのです。このモデルには質問が与えられ、正しい答えを知っています。正しい答えを見つけようとしているのではなく、すでに知っているのです。その目標は、その答えにどう到達するかの優れた説明を出力することです。

この教師モデルは学生モデルの理解を向上させるよう最適化されています。ほとんどの強化学習訓練では、訓練されているモデルは通常学生です。少なくとも強化学習においては、正しい答えを出すことに対して学生に正の報酬を与えています。学校や大学と似ていて、学生が成績をつけられています。学生の成績が悪ければ「悪い学生」と言い、良ければ「良い学生」と言います。

しかし、代わりに教師を評価したらどうでしょうか。教師がうまく教えて学生のスコアが向上すれば、それは良い教師です。教師が講義や解法などのどんな方法で教えようとも、それが学生のスコアを下げれば、それは悪い教師と言います。

このモデルは問題をゼロから解くのではなく、その説明が学生の正解発見にどれだけ効果的に役立つかに基づいて教師が報酬を受けます。これは推論モデルで行われます。

具体的な実装と結果

例えば、ここではオープンソースであるDeepSeek R1を使用していますが、もちろんOpenAIのo3モデルやGoogleのGemini 2.5 Proなど、推論モデルなら何でも使えます。ほとんどが2段階の学習プロセスに従います。まず教師モデルを訓練し、DeepSeek R1の場合はV3が教師モデルだった可能性があります。その後、その背景から、物事を推論して正しい答えに到達するよう強化学習で訓練された推論モデルを生成します。

教師モデルが訓練され、その出力が学生モデルの訓練に使用され、学生モデルが最終製品となります。教師を生成し、教師が講義や何らかの合成データ情報を出力し、それが学生の教育に使用され、学生がその結果となります。学生が強化学習を通じて評価される対象です。

これらの教師モデルは高価な強化学習を使って訓練され、モデルはこれらの問題をゼロから解くことを学び、正解を得た時にのみ報酬を受けます。このプロセスは遅く、コストがかかり、しばしば狭い焦点を持ち、学生が効果的に学習できるよう教師からの出力を慎重にフィルタリングする必要があります。

ここで彼らは方向転換を行います。解くことを教える代わりに、教えることを学ぶという観点からアプローチしています。質問と既知の解法があり、優秀な人間の指導者がするように、明確な段階的説明を出力するよう求めています。そして、その説明が学生にどれだけ役立つかで評価されます。

もちろん、これは教師モデルをその真の目的である学生への支援に合わせます。しかし、これは非常に興味深いことに、単独では問題を解けない小さく効率的なモデルを使用することも可能にします。問題を解くには大きく賢いモデルが必要で、それは実行コストが高いのですが、学生のための優秀な訓練材料を作成するには、小さく効率的なモデルを使用できるようで、結果は非常に良好です。

ここでご覧いただけるように、これは39のベースモデルです。赤い部分は「解くことを学ぶ」アプローチで、そのアプローチを使って46.6まで押し上げます。しかし、この新しいアプローチである「教えることを学ぶ」アプローチでは49.5まで到達します。AIM競技数学とGPQAを使用しており、私たちが見る多くのベンチマークがこれらです。これが彼らがパフォーマンスを測るためのベンチマークです。

驚くべき結果

ここで言っているように、結果は驚くべきものです。この数週間で複数の論文があり、これらの問題や訓練方法に新しいアプローチを見つけた時に驚くべき結果がありました。その中には、直感的にはあまり意味をなさないかもしれませんが、非常に効果的な手法があります。

わずか70億パラメータのこれらのコンパクトな教師は、桁違いに大きなLLMよりも推論スキルを教えるのが優秀です。100倍大きい、1000倍大きいと言っています。これにより、先進的なAIがより手頃で、訓練がはるかに高速になります。

ここに良い図があります。「解くことを学ぶ」では、ベースモデル、この場合は大きく高価なDeepSeek V3があります。教師モデルであるDeepSeek R1に投入する様々なタスクがあります。答えのデータは評価されます。正しく答えた時に報酬を得て、強化学習を受けます。このプロセスはモデルがそれらの質問により良く答えられるようになるまで続きます。これは正しいトリックをした時の犬のおやつのようなものです。

最後に、最終モデルへのコールドスタート蒸留プロセスがあります。コールドスタートとは、あまり事前知識がないかもしれないという意味です。この強化学習を使ってすべての知識をモデルに入れ込んでいます。蒸留は前のモデルの行動をコピーすることです。実際には、教師モデルによって生成された答えを使って、実際にタスクに使用する最終モデルを作成しています。この場合はDeepSeek R1などです。

これは通常のプロセスで、おそらくすべてのラボがこれやその変形を使って最終的な推論モデルを作成していると思われます。これが全体像です。すべてがタスクと答えのデータに依存しており、強化学習はそれらを使用していることに注目してください。

新しい「教えることを学ぶ」アプローチ

「教えることを学ぶ」アプローチでは少し異なります。小さく安価で高価ではない、この場合70億パラメータのベースモデルを取ります。タスクを使って、答えではなく(答えは知っているので)説明データを生成する教師モデルを作成します。

重要なのは、DRL報酬ループが、この説明データが学生モデルがそれらの質問に答えるのにどれだけ役立つかから来ることです。うまくいけば、報酬フィードバックは教師モデルに行き、「この種の説明は学生モデルがこれらのタスクの方法を理解するのにより良い」ということを知ります。これがRLループになります。

完了したら、その説明データを取って、最終モデルへのコールドスタート蒸留に使用します。彼らがここで続けているように、高価なLLMによるRLは、複雑な数学、コーディング、論理問題をゼロから解くことを学びます。これを試行錯誤、この強化学習プロセスを通じて行います。これは非常に効果的ですが、いくつかの欠点があります。

特に、これらのモデルはほぼ焦点が絞られる傾向があります。訓練されたタスクは得意ですが、より広い応用への汎化能力が低くなります。正しい答えに到達することを教えられますが、必ずしも正しい答えに到達することについてどう考えるかは教えられません。

彼らがここで述べているように、「小さな専門教師の不合理な効果」として、RLTモデルをこの分野で最も知られている手法と対決させています。このRLTモデルはわずか70億パラメータで、確実に小さい部類に入り、DeepSeek R1やQVQ(Quenの推論モデルシリーズの一つ)などのはるかに大きなモデルと競合しています。

学生モデルの訓練に使用する前に出力をクリーンアップするためにGPT-4 miniを使用していますが、それでもはるかに小さなRLTが数学と科学の複数の挑戦的ベンチマークで彼らを上回りました

具体的な比較結果

上部には6,710億パラメータというかなり重厚なモデルであるDeepSeek R1が教師として、そして70億とはるかに小さな私たちのRLT教師があります。10分の1のサイズです。両方ともQuen 70億にAIM数学、GPQA diamondなどの様々なタスクを教えています。これらは複雑なベンチマークです。

この上の線が開始時の状態で、ご覧のように、あまり良くありません。全体を平均すると39ポイントです。大きなDeepSeek R1モデルをトレーナーとして使用すると、かなり良くなります。46.6に跳ね上がります。この巨大なモデルが良いブースト、良い改善を与えます

しかし、小さな70億モデルがさらに49.5まで押し上げているのがご覧いただけます。これらの小さなモデルははるかに高速で安価で、おそらく消費者グレードのハードウェアでも実行可能であることを覚えておいてください。要点は、同じ計算量でより多くのことができ、結果はこれらの巨大なモデルよりも良いということです。

下部では「小さな教師は大きな学生を教えることができるか」という質問に答えています。70億パラメータの教師が320億パラメータの学生を教えることができるかということです。学生がはるかに大きなモデルであっても、まだ優秀な結果が見られます。

彼らはモデルのコストがどれだけ大きな違いを生むかを強調しています。これらのモデルははるかに小さいため、コストの観点から違いは劇的です。私たちの手法で320億の学生を訓練するのに単一の計算ノードで1日未満かかりましたが、従来のRLでは同じハードウェアで数ヶ月かかったでしょう。

結果が良いだけでなく、はるかに高速で安価です。この訓練はより良い推論ステップも作成します。説明はより焦点が絞られ、R1によって省略された追加の論理ステップを追加することさえできました。明確で直接的な言語を使用し、専門的な人間の教育者の簡潔さと明確さを反映しています。

未来への展望と革命的意味

より先進的で安価な推論モデルの新しいフロンティア。より多くの人々がこの論文を読み、これを適用し始めると、モデルの訓練方法においてある種の革命を見ることができるかもしれません。しばらくは見ることはないでしょうが、このアプローチがこの論文で示されているほどうまく機能するなら、コスト削減について考えてみてください。数ヶ月の訓練から単一の日まで削減しました。

これを視点に置くと、このアプローチを使って10,000ドルでモデルを訓練する違いがある一方で、従来のRLアプローチを取ると50万ドルのようなコストがかかり、その50万ドルのモデルは10,000ドルのモデルほど良いパフォーマンスを発揮しないということです。

モデルの訓練方法に容易に適応でき、欠点がなければ、これはかなり大きな革命のようなものになる可能性があります。彼らがここで指摘しているように、この新しいアプローチへの転換により、言語モデルが直接扱うには困難すぎると以前は考えられていた分野で強化学習を適用することが可能になります。

考えてみると、そこには多くの優秀な教師がいます。おそらく特定の証明や数学問題の解き方を説明するのが優秀な数学教師がいるでしょう。そういう人々は、最初にそのアイデアを思いつくのがそれほど得意ではないかもしれません。つまり、私たちがこれらのモデルに求めているように、基本的にゼロから自分で解くことはできなかったかもしれません。「どうやって解くの? 自分で考えて」という感じです。

しかし、それらの教師はその問題にどうアプローチするかを学生に説明するのは優秀かもしれません。これが成り立つなら、これは巨大なことになる可能性があります。

彼らがここで言っているように、RLTは先進的モデルの訓練コストを破壊する可能性があります。すべての段階で巨大なシステムに依存する代わりに、小さな専門教師を訓練し、それらを使ってはるかに大きなモデルを効率的に教育することができます。これは従来のスケーリングパラダイムをひっくり返します。最も重い作業はコンパクトで手頃なモデルによって処理され、それらが訓練する学生で強力な能力を解き放ちます。

将来を見据えると、このフレームワークはさらに興味深い何かを示唆しています。教師と学生の役割を同時に果たすモデルです。自分自身の利益のために説明を生成することで、そのようなシステムは時間をかけて自分自身をより良く教える方法を学ぶことができます。

Darwin Goalマシンとの関連性

このアイデアは、Sakana AIが背後にいるDarwin Goalマシンのビジョンを彷彿とさせます。彼らは様々なコーディングタスクを行う自分自身の能力を向上させる自己進化モデルを作成しました。コーディングをより良くするコードを作成します。それは驚異的です。

私がここで言っているように、それは自己反省と再帰的学習を通じて進化します。Sakana AIは再び、絶対的に巨大に見える巨大な論文を発表しています。Darwin Goalマシンについては別の動画で取り上げましたが、基本的なアイデアは、自分自身を改善するための多くの異なるアプローチを試すことです。自分自身のための新しいツール、新しい能力、新しいアプローチをタイプアップし、毎回その新しいアプローチや能力などがコーディング能力を向上させるかテストします。

この場合、SWE benchというベンチマークを使って、それでより良くなるかどうかを確認します。つまり改善したということで、時間をかけてこの進化的アプローチを使用します。うまくいく特定のアイデアがあると、その方向でより多くのアイデアを見つけようと続け、これらが特定の系統を形成します。それらのいくつかは行き詰まりだから絶滅します。改善に向けて機能しないのは問題ありませんが、いくつかは最高の可能な結果を作成する真のチャンピオン系統です。

ここでの進歩がご覧いただけるように上昇し、多くの異なることをテストしますが、時々その能力において跳躍します。これらすべてが同じことを示唆しています。私たちはこれらのモデルが自分自身を改善するこの自己再帰プロセスを始めています。

小さなモデルは次世代モデルを教えるのがより優秀です。特定の足場を持つこれらのモデルは、自分自身を改善するためのツールを作成するのがより優秀です。AIの研究の一部、機械学習研究の一部をAIに処理させているため、今後このようなことをもっと見ることになるでしょう。私たちはまだその初期段階にいますが、どんどん速くなり、自分自身に積み重なっていくような気がします。雪だるま式になり始めるでしょう。

市場への影響と今後の展望

これについてどう思うか教えてください。市場は最初にDeepSeekにそうしたように、1日でグローバル市場時価総額の1兆ドルを失うことでこれに反応するでしょうか。それとも、今や70億ドルのモデルがはるかに良いモデルを訓練できるという事実は、それが日常の人々や研究者、小さなラボにもっとアクセスしやすくなることを意味するのでしょうか。

それは彼らがSakana AIのアプローチを使って独自のモデルの訓練に飛び込み始めることを可能にするでしょう。どう思うか教えてください。これがどれだけ大きいかに興味があります。他のラボがこれにどう反応するかはまだ見ていません。彼らはこれを過去24時間以内に発表し、GoogleやOpenAI、Anthropicほど有名ではないため、このニュースが業界に浸透するのに時間がかかるかもしれません。

しかし、間違いなくSakana AIは自分たちの重量を超えて打撃を与える傾向があります。彼らはすべてをGitHubで公開していることに注目してください。これはオープンソースで、このコード、すべてが皆に利用可能です。私たちの誰もが抵抗できない一つのものさえあります。それはかわいいアニメキャラクターです。なぜこれを悲しそうに見せたのかわかりませんが。

どう思うか教えてください。私の名前はWes Rothで、次回お会いしましょう。

コメント

タイトルとURLをコピーしました