
16,547 文字

これは非常に最近の論文、「Absolute Zero: Reinforced Self-Play Reasoning with Zero Data(絶対零度:ゼロデータによる強化自己対戦推論)」についてのお話です。何が起きているのか見ていきましょう。しかしその前に、いくつかの用語を定義しておきましょう。
大規模言語モデルの事前学習が終わると、アライメントやポスト・トレーニングと呼ばれる段階に入ります。これは通常、SFT(教師付き微調整)のように見えます。これは基本的に、人間がキュレーションしたデータを使って、モデルに何かをする方法を示すことです。例えばチャットボットであれば、「ユーザーが詩を書いてと頼んだら、こう応答しなさい」といった感じです。するべきことを実演しているわけです。
また、強化学習もあります。ここでは、人間からのフィードバックによる強化学習(RLHF)を使います。これは、モデルが私たちの気に入ることをしたときに仮想的にハイタッチを送り、好ましくないことをしたときに「ブー」と言うようなものです。あのサムズアップ、サムズダウンのようなものですね。
自動的に強化学習を行う方法もあります。例えば、答えがどうあるべきかがわかっている場合、検証可能な真実を用いた強化学習を行うことができます。この論文には、これをうまく説明している図があります。教師付き学習は何が良くて何が悪いかを伝える強化学習です。
これは検証可能な報酬を伴う強化学習です。例えば、結果がどうなるべきかわかっている数学の問題のようなものです。モデルが正しい答えを導き出せるかどうかを確認しようとしています。大学で試験を受けるようなものだと考えてください。いくつかの解答から選んだり、数学の問題を解いたりしますが、答えがどうあるべきかはわかっています。正解すればポイントを獲得し、間違えればポイントを失います。
しかし、これらの多くでは人間のデータが必要です。人間が特定のことに注釈を付ける必要があり、それがボトルネックになっています。そのため、人間がキュレーションしたデータなしにモデルを訓練する方法を模索しています。この「絶対零度」と呼ばれる手法の提案は、ロボットが別のロボット、つまり大規模言語モデルを訓練して目標を追求するというものです。
ロボットが目標を考え、学生と教師のモデルのようなものと考えられます。一方のエージェントが自律的に学習可能性に最適化されたタスクを提案します。つまり、もう一方のエージェントを向上させるための試験を作成するのです。これがうまくいけば、人間の介入なしに信頼性の高い継続的な自己改善が可能になります。
興味深いことに、シーコイア・キャピタルがAIアセントという会議を開催しており、AI分野の多くの専門家が集まって講演し、これらの概念を説明しています。その中の一人、オープンAIのダン・ロバーツがこの概念に言及しています。これは私がこの用語を聞いたのは初めてですが、使い始めるのは間違いなく理にかなっています。
モデルを訓練する際、事前学習コンピュートやトレーニング時コンピュートがあります。これらのモデルを訓練する間、ハードウェアへのアクセス量や訓練期間がどれだけあるかということです。そして最近、テスト時コンピュートという新しい考え方も登場しました。
これは、質問に答える際にモデルが思考するために使用するハードウェアとトークンの量です。これが推論モデルです。01は最初のモデルで、数学の問題を尋ねると推論を始めます。答えについて考えるようなもので、長く実行するほど性能が向上する傾向があります。これはモデルの性能をスケールアップするもう一つの方法です。テスト時コンピュート、別名推論です。そして後に、彼は新しい用語を紹介します。新しい概念ではありませんが、このレンズを通して考えるのは興味深いです。
01を白い円と考えると、それはそのモデルを訓練するために使用された事前学習コンピュートです。そのモデルを訓練するために数百万、あるいは数千万ドルが費やされたと言われています。そして小さな赤い点は、強化学習コンピュートです。強化学習にどれだけのお金、リソース、コンピュートが費やされたかということです。
興味深いことに、彼らは近い将来、その比率が逆転する可能性を想定しています。事前学習コンピュートが強化学習コンピュートと比較して小さくなるかもしれません。現在、ほとんどの努力は事前学習に向けられており、強化学習は事前学習よりも少ない努力で行われています。しかし将来、スケールアップするにつれて、これはモデルの能力をスケールアップするもう一つの方法です。
事前学習コンピュート、つまりトレーニング時コンピュートがあります。問題は、多くの人々が異なる用語を使用していることです。統一された用語セットがありません。基本的には、訓練中のトレーニング時コンピュートです。次にテスト時コンピュートがあります。これは回答時のものですが、スケールアップのためのもう一つの方法があると考えてください。それが強化学習コンピュート、RLコンピュートです。
完全に自動化された強化学習が可能になると、他のAIモデルがこれらの強化学習実験を実行し、改善する方法を考え出すことで、強化学習を本当にスケールアップできるでしょう。もちろん、どれだけのコンピュートを投入できるかも重要です。
現在、私たちは能力によってボトルネックになっています。人間がラベル付けしたデータが遅くしています。また、強化学習は時に大きな失敗を招くこともあります。最近、OpenAIはサム・アルトマンが「少し阿諛追従的」と表現したモデルをロールバックしなければなりませんでした。それは人々を不快にさせるほど過度に親切でした。
ブログ記事を読むと、その原因の一部は強化学習に関係していました。もっと複雑な理由がありますが、強化学習の結果として起こり得ることの一つです。また、特定の言語(ルーマニア語かブルガリア語だったと思います)で話すことを拒否した別のモデルもありました。おそらく、人々が強化学習においてより批判的な傾向があったためです。英語を話すアメリカ人と比較して、より多くの人々がこのモデルの出力にサムズダウンを押したのです。
そのため、このモデルはついにブルガリア語を話すことを拒否しました。「英語を話すと人々は好きだけど、ブルガリア語を話すと嫌われる。だからブルガリア語の質問には答えない」というわけです。つまり、強化学習を急速にスケールアップすることを妨げる多くの問題があります。
また、適切にスケールされた強化学習が信じられないほど効果的であることもわかっています。これらの問題の解決方法を見つけ、自動化し、人間のデータへの依存度を下げることができれば、この技術はロケットのように成層圏に飛び立つでしょう。
ここでの次の画像が示すように、RLコンピュートが事前学習に費やすコンピュート量を圧倒するという考えです。私の理解では、以前のモデルと同様に事前学習にはまだ多くのお金を費やしますが、強化学習は屋根を突き抜けるように増えるということです。
ちなみに、OpenAIだけがこのように言っているわけではありません。シーコイア・キャピタルサミットでのもう一つの素晴らしいスピーチは、NVIDIAのジム・ファン博士によるものでした。彼の研究内容については以前このチャンネルで取り上げたことがあります。彼は非常に優れた研究者で、彼が何をしているか、何を話しているかに常に興味があります。彼はロボットに非常に関心があり、ロボットが必要なほど優れていないことを懸念しています。
彼が挙げる問題の一つは、これらのロボットに対して彼が望むような強化学習を行うための十分なデータがないことです。ご覧のように、このロボットは少女にシリアルを食べさせるのにあまり役に立っていません。その理由として、彼はイリヤ・スツケヴァーを引用しています。インターネット上の人間のデータは化石燃料のようなものだということです。その量は増えておらず、インターネットは一つしかないので、これだけの量しかなく、それ以上は得られません。再生可能ではないのです。
そのため、私たちは新しいアプローチを模索しています。ジム・ファン博士は、大規模言語モデルにとってのインターネットの人間ラベル付きデータが化石燃料なら、ロボットにはそれすらないと言います。彼らは少しずつ手動でこのデータを生成しなければなりません。
これはデータを生成する方法の例です。ロボットがさまざまなタスクをゆっくりと試み、関節の動きやビデオを記録し、少しずつデータを蓄積していく必要があります。この大きな問題に対する彼の解決策は、もちろんNVIDIAがIsaac Jimで行っていることです。
基本的に、これらのロボットをシミュレーションで訓練しています。同じ物理的特性と物理法則を持つシミュレーションされた宇宙でロボットを実行していますが、時間ははるかに速く進みます。キューブを回転させることを学んでいる手が無限に広がり、それを行う方法を見つけようとしているのが見えます。
そしてこれがニューラルネットにそれをする方法を教え、それがシミュレーションの外に出され、実際の現実世界のロボットに組み込まれます。どれくらいうまくいくのでしょうか?かなりよくできています。彼はあるクリップを再生します。前に見たことがあるかもしれませんが、大きなボス・ボール(エクササイズボール)の上を歩くロボット犬です。
それが本当にそう呼ばれているか確認しましょう。そうですね、それで合っています。ともかく、彼らはシミュレーションでこの犬を訓練することでこれを実現しました。これは現実世界でシミュレーションなしに行うことは非常に困難でしょう。
この実験について気になったことがあります。ジム・ファン博士はこの実験に関する内部情報を明かしました。私はまったく知りませんでした。明らかに、ある研究者は、このロボット犬の能力が超犬の能力かどうか、つまり俊敏性が実際の犬よりも優れているかどうかを確認したかったのです。
そこで研究者の一人が自分の犬でこれを試みましたが、その犬はあまりうまくいきませんでした。これは実際に超犬の能力なのです。私の疑問は、なぜその映像が論文に含まれなかったのかということです。これが発表されたとき見ましたが、ボールの上を歩こうとする犬の映像は記憶にありません。
ぜひ次回は、NVIDIA研究者の皆さん、科学のためにそれを含めてください。しかし、その動画の要点は、物理的IQとコンピュートのチャートがあるということです。申し訳ありませんが、頭が邪魔になっているかもしれません。つまり、より多くのコンピュート、より多くのハードウェアを投入するほど、物理的IQ、つまりこれらのロボットの能力、俊敏性、さまざまなタスクを実行する能力が向上します。
実際のロボットデータでは、膨大なコンピュートを投入しても、リターンは低いことがわかります。そのため、より多くのハードウェアやリソースを投入しても、物理的EQを急速にスケールアップすることに問題があります。クラシックなシミュレーションでは、それははるかにうまく機能しますが、スケールアップできる限界があるようです。
もちろん、彼らには独自の解決策があります。それをニューラル・ワールド・モデルと呼んでいます。SIM 2.0で、これはロボット世界への応用です。彼が挙げる例は、物事がどのように終わるかの14,65の異なるバリエーションを見て、何をすべきかを理解するドクター・ストレンジのようなものです。
映画を見たことがないので申し訳ありません。実際に何が起こるのか知りません。しかし要点は、それがシミュレーションでロボットのタスクをシミュレートし、ロボットが多くの異なるシミュレーションでものを学び、それを現実世界に移すというメタファーだということです。もっと詳しいことがありますが、それはさまざまな理由で非常に魅力的なので、別の動画で取り上げます。
その一つは、彼らがロボット工学へのアクセスを民主化しようとしていることです。これらの多くはオープンソースになる予定です。私はNVIDIA、ジェンセン・フアン、ジム・ファン博士の大ファンです。明らかに、それによってより多くのNVIDIAチップを売ることができます。理解しています。しかし、それでも非常にエキサイティングです。
しかし、私たちの「絶対零度」に戻ると、大規模言語モデルに対して同様のものを作成することが目標ですが、3Dシミュレーションの代わりに、二つのロボットがあり、一方がタスクを考案し、もう一方が学習し、物事をよりよく行う方法を理解するために障害物コースを走るようなものです。
私たちはDeep Seekのこと、Deep Seek R10モデルについて取り上げましたが、それは非常に興味深い読み物でした。基本的に、人間のデータを与えてそのモデルをコールドスタートさせることから離れ、主に強化学習に依存すると、かなり興味深いことが起こります。
より多くの自己進化、自己改善があります。モデルは私たちが解決策を与え、それを記憶する代わりに、問題を解決するための独自のアプローチを考え出し始めます。これはより多くの、彼らが特定の問題を解決するための認知能力と認知アプローチを開発するようなものです。
この論文は私たちが話していることをまとめていると思います。これはHKU、UC Berkeley、Google DeepMind、NYUの人々によるものです。「SFT Memorizes、RL Generalizes」と呼ばれています。基本的にこれが意味することは、人間がラベル付けした例を与えると、それらのことをする方法を記憶する傾向があるということです。つまり、私たちがしていることをパリティにして教えているようなものです。
強化学習はより実際の学習に近いです。より広範囲のタスクに一般化します。実際に学習するようなものです。そして、私たちはそれをGoogle DeepMind、Deepseek、NVIDIA、そして他の多くの企業から見ています。スケールする方法、強化学習を効果的にスケールする方法を見つけ、人間のデータやロボットが現実世界で動くことへの依存を減らすことが、次のスケーリングの道のりにおける本当に大きなトリックのようです。
もちろん、彼らはGoogle DeepMindのAlpha Zeroに言及しています。これはAlpha Goの後継です。基本的に、そのアイデアは、人間のゲームに依存せずに、これらのさまざまなゲーム(チェスやご)をプレイするように教えられたということです。つまり、完全に自己対戦を通じてです。
人間の監視はなく、完全に自己インタラクションを通じて学習します。そして、ここで彼らは大規模言語モデルに同じ種類の概念、同じアイデアを導入しており、それをAZR、Absolute Zero Reasonerと呼んでいます。これは主にコーディングタスクに焦点を当てています。つまり、コーディングタスクを提案し、解決します。
このチャンネルをフォローしていれば、このアイデアは実際には新しいものではありません。OpenAIがQST starについてリークがあった時から、私たちはこのことについて話してきました。それはGoogle Deep MindsのAlpha Star、Alpha Zeroの背後にある技術と、これらの大規模言語モデルのより一般的な推論能力の交差点のようなものです。
これが過去2年ほどで展開されてきたものです。まず、私たちは大規模言語モデル、GPT4などを持ち、それは一般的な推論に優れていました。Microsoftはそれをprotoagiと呼びました。AGIの初期バージョン、非常に弱いAGIかもしれません。しかし要点は、それが一般的だったということです。
どんなタスクを投げても、ある程度理解し、少なくとも挑戦しようとしました。一方、Alpha Zero、Alpha Goなど、強化学習で構築されたものは超人的でした。それらは人間よりもはるかに優れていましたが、非常に狭い範囲のタスクでのことでした。大規模言語モデルは超人的ではありませんでしたが、一般的でした。
今、私たちはその両方のアイデアを組み合わせて、超人的であり、かつ一般的な推論能力を持つ何かを構築しようとしています。あなたの世界観によって、興奮するか恐れるかはあなた次第です。
しかし、見出しを見てみましょう。何を学んだのでしょうか?まず第一に、彼らはこれが有望な研究方向であることを学びました。これは最初の画期的なマイルストーンに過ぎません。つまり、この方向でさらに研究する必要があります。これは機能しています。これは最初のステップ、パイロットエピソードのようなものです。
しかし、有望に見えます。彼らが気づいたのは、コード優先が推論を増幅するということです。基本的に、Quinn coderモデルは既にいくつかのコーディング能力を持っていたため、このアプローチでその能力が増幅されます。クロスドメイン転送はAZR(絶対零度推論者)において一層顕著になります。より強力な一般化された推論能力の向上を示しました。
これは、人間のデータへの依存がより多くのパリティやより多くの記憶化であり、これはより一般化しているというDeep Mindの研究論文と似ています。つまり、一つのことから学び、それらの概念を異なる問題に適用する能力です。そしてより大きなベースはより大きな利益をもたらします。つまり、モデルが大きいほど、パフォーマンスが向上すると予想されます。定義的にスケーリングの継続は有利です。
コメントは中間計画として自然に現れます。つまり、コードのコメントとしてステップバイステップの計画を組み込むことがよくあります。メモを取るという種類の行動、ステップバイステップの計画が自然に現れます。それを教える必要はなく、より良い決断や認知行動をするための良い方法だと考えるようです。
そして、トークンの長さは推論モードに依存します。ステップバイステップの推論や列挙、試行錯誤があります。つまり、異なる問題が基本的にそれを強制し、異なるアプローチ、異なる認知行動、その特定の問題を解決するための異なる方法を適応させ、作成します。そして再び、私たちはこれをDeepseekで見てきました。
実際、バークレーの博士課程の学生または卒業生が非常に興味深いことを示しました。彼は他のモデルでこれを再現しようとしました。これらのモデルが人間のデータが少ない強化学習を行うとき、問題を解決するための独自のアプローチを考え出すというアイデアです。
彼が示した一つの事は、彼らが言うところの「ああ」の瞬間です。それは実際にかなり小さなモデルで始まります。この行動が見え始めるために、非常に賢い巨大なモデルを持つ必要はありません。正確には覚えていませんが、それはずっと少なかったと思います。10億程度だったかもしれません。低いものでした。
ここにその人からの投稿があります。詳しく見ることはしませんが、それについて完全な動画を作りました。非常に興味深いものでした。しかし、160万回の視聴があったことに注目してください。それは巨大です。しかし、彼らはDeepSeek R10 ALGOに従いました。基本的に、彼らは彼らがしていたことのいくつかを複製し、それが単に機能することを発見しました。モデルはダミー出力から始まりますが、徐々に改訂や検索などの戦術を開発します。
つまり、問題を解決するための独自のアプローチを考え出します。興味深いことに、15億のパラメータという小さなモデルから、モデルは検索、自己検証、解決策の修正を学び始めます。非常にエキサイティングですが、安全性のアラームが鳴っています。この絶対零度推論者が時折「あっ危ない瞬間」と呼ばれる懸念すべき思考の連鎖を生み出すようです。
「あっ危ない瞬間」は、おそらく明らかにこの動画のタイトルのどこかに入るでしょう。多くの賢い真面目な科学者たちが何かを発見し、ある結果を見て「あっ危ない」と言うのを想像すると、それは非常に身が凍るような効果です。
私たちのほとんどは同じような感情を感じると思います。そして再び、SFT(教師付き微調整)はボトルネックです。人間の専門家または優れたAIモデルが必要です。そしてGoogle Deep Mindの論文が言ったように、それはより多くのパリティのようなものになる傾向があります。
そうは言いませんでしたが、それは問題を真に理解するというよりも、むしろ記憶化のようなものです。もちろん、検証可能な報酬を伴うRLは確かにはるかに優れていますが、それでも人間の専門家によってラベル付けされているという問題に直面します。つまり、それはまだ最終的にスケーラビリティ、どれだけ迅速に、どれだけ大きくこれをスケールできるかを制限します。
しかし、絶対零度のパラダイムはこの依存関係を取り除きます。なぜなら、モデルは自己対戦を通じて生成、解決、学習などを行っているからです。もちろん、ここには二つの役割があります。提案者と解決者、いわば教師と生徒です。最初にそう呼んだと思いますが、それは多分100%正確ではありません。一方が本当に教えているわけではないからです。
一方は提案者です。他者の学習能力を向上させるためにどのタスクを作成するかを考えます。そして解決者はそれらのタスクを解決し、向上します。しかし、私の推測では、両方がある種の専門知識を学んでいるのです。提案者はより良いものを提案することを学び、解決者はそれをより良く解決することを学びます。
だから、彼らは両方とも教師であり生徒でもあると言えます。それぞれが他方を教えるのです。ちなみに、これらのモデルがコーディングの能力でどこまで進むかについては現在多くの議論があります。非常に賢く、非常に優秀な開発者たちがこれが人間の開発者に追いつくことはないだろう、または少なくともすぐにはないだろうと言っています。
そして一方では、オープンロピックスの人々が、そう、今年の終わりまでに超人的なコーダーを持つだろうと言っています。誰が正しくて誰が間違っているのか?私にはわかりません。それらの予測をしないようにしていますが、これらのものがどこに向かっているかを見ると、おそらくこれらのものはかなり良くなるだろうと賭けることになると思います。
一つには、財政的な賭け金が非常に高いからです。企業が超人的な自律的なコーダーを作成できれば、その企業の評価額はどうなるでしょうか。私たちが惑星として持つ品質の高いコードの需要について考えてみてください。より多くのコード、より多くの自動化、より多くのソフトウェアなど、使用できる多くのものがあります。
特に、それが良い場合、特にAIを使用している場合、近い将来その需要が終わるとは思いません。そして彼らは、このトレーニングアプローチにコーディングタスクを使用することは、プログラミング言語のチューリング完全性とコードベースのトレーニングが推論を向上させるという経験的証拠によって動機付けられると指摘しています。
チューリング完全とは、チューリング完全とは、これらの言語が計算可能なものなら何でも実行および計算できることを意味します。別の言い方をすれば、物理学が特定の計算を行う能力を制限しない場合、これらのプログラミング言語はそれを計算できるはずです。彼らは、信頼性の高いタスク構築と検証を可能にするオープンエンドで表現力があり検証可能な媒体としてコードを採用していると言っています。
これが、コードとAIコーディングが大幅に改善されると思う理由です。まず第一に、詩を書くのとは違い、検証可能な媒体です。主観的ではありません。特定のプログラムが特定のタスクを実行するためのソリューションを見つける方法は複数あるかもしれませんが、最終的には、あなたが望むことを実行するかどうかで検証可能です。
基本的に、AIコーディングを解明することを素晴らしい問題にする多くの要素があります。膨大な財政的インセンティブ。トレーニングできる膨大な量のことがある具体的なタスクがあります。そして、コーディングタスクを完了するために必要なスキルの開発が一般的な推論を向上させることも明らかです。これについて考えると、人間にも当てはまります。コーディングを学ぶことは、ある種の考え方を学ぶことを意味します。
確かにその能力はコーディング以外の他のアプリケーションに移転することができます。これは明らかに思えますが、彼らがここで言っていることは、それが大規模言語モデルにも当てはまるということです。
では、こうしたものはどんなコーディングチャレンジを思いつくのでしょうか?興味深いことに、主にあの小さなスネークゲームです。たくさんのスネークゲーム。
冗談です。真剣に受け取らないでください。いくつかの異なるタイプの問題があります。一つは演繹です。多くの論文は一見すると非常に複雑に見えますが、分解し始めると、常により簡単な説明方法があると思います。
ここの図を見ると、三つの異なる部分と考えることができます。入力、プログラム(コード)、そして出力です。「Hello World」のような入力を入れると、コードを実行し、出力を表示します。コードは何らかの関数です。ここでは三つすべてが見えますが、一つを隠したらどうなるでしょうか?プログラムと出力に基づいて入力を推測できるでしょうか?あるいは入力とコードだけが与えられた場合に出力を推測できるでしょうか?
それがここで彼らがやっていることとほぼ同じです。演繹は出力を推測する必要があります。プログラムと入力を示され、何が出てくるかを推測する必要があります。提案者はたくさんの質問を考え出し、解決者はそれを解決しようとします。
次にアブダクションがあります。同様に、他の二つの部分がわかっている場合に入力を推測することです。1とは何かを、2と3を教えられた場合に推測します。そして、帰納は最後のバリエーションで、1と3を見せられた場合に2を推測することです。つまり、こちらが入力で、こちらが出力の場合、それを満たすプログラムは何かということです。
もちろん、これらの異なるタイプの問題は全く異なる解決アプローチを必要とします。それを解決するために異なる認知的方法が必要になります。そして、ここでは彼らがそのアプローチがどのようなものかを名付けようとしています。
演繹の場合、おそらくステップバイステップの論理的推論が必要でしょう。入力を取り込み、それをここに入れると何が出てくるか、そして何が起こるかをステップバイステップで考える必要があります。たとえば、それが何らかの乗算、加算などの場合、数学の4x問題を解くようなものです。
アブダクションの場合、それはより試行錯誤やオンライン検索のようなものです。そして帰納は、部分的な情報からの一般化を必要とします。ちなみに、国際数学オリンピアードで銀メダルを獲得したGoogle Deep MindのAIは、ほぼ金メダルでした。1ポイント差でした。そのため、かなり近かったです。今年はおそらく金メダルを獲得すると思います。
彼らがそれを行った背後にある概念は、いくつかの点で似ているようです。なぜなら二つのモデル、Alpha ProofとAlpha Geometry 2があるからです。これらが結果です。IMOは世界で最も権威のある数学コンペティションの一つです。
ご覧のように、1ポイント差です。もう1ポイントあれば金メダルだったでしょう。そして彼らがこのためにAlpha Proofをトレーニングした方法は、さまざまな数学分野で何百万もの問題を証明または反証することでした。1億の問題を作成し、それを解決し自分自身に教えることを始めました。
その前身よりも桁違いに多くの合成データでゼロから訓練されています。それがAlpha Geometry 2です。それがこの物事のもう半分です。そして、Alpha ProofとAlpha Geometry 2の間で、システムはIMOの6つの問題のうち4つを解決しました。
ご覧のように、Alpha Zeroシステムはこれらの証明のトレーニングと解決に使用されました。つまり、チェスとGoで超人的なものと同じものが、これにも適用できるのです。同じものではありませんが、その作業の上に構築されていることがわかります。いくつかの類似点があり、核心には大規模言語モデルにAlpha Zeroからの要素、それらの概念が加わっています。AIの二つの分野を統合し、結果は信じられないほどです。
話を長くするつもりはありませんが、この点を説明したいと思います。Alpha Goでは、2016年にGoogle DeepMindはAlph Go Eliteをトレーニングしました。エリーズ・ドールは囲碁の世界チャンピオンでした。モデルは彼にちなんで名付けられ、3000万のプロ(トップレベルの囲碁プレイヤー)のゲーム、彼らの動きでトレーニングされました。
それはどれほど良かったのでしょうか?かなり良かったです。イ・セドルに4対1で勝ちました。つまり、最高の人間のプレイヤーよりも優れていました。まだ1回負けましたが、非常に非常に優れていました。世界最高のプレイヤーになりました。
次に彼らが行ったのは、Alph Go Zeroを作成することでした。それは自己対戦強化学習だけでプレイしました。つまり、人間のゲームを見たことがなく、人間がそれらのゲームをプレイするために何をしたのかを知りませんでした。単に自分自身と何十億回もプレイし、それを通じてゲームのプレイ方法を学びました。つまり、それ自身の戦略を進化させたのです。
それはどれほど良かったのでしょうか?Alph Go Lee、以前のモデルに勝ちました。これが私が思うに人々がまだ理解していないことです。現在作成しようとしている、現在持っているコーディングモデルは、ある意味でAlph Go Leeのようなものです。DeepSseek R10が目指す次世代は、Alph Go Zeroのレベルに達することです。
今見ているこの論文は、彼らが試みていることです。彼らは自己対戦による純粋な強化学習をスケールするこれらのモデルを作成しようとしています。人間のデータに依存せず、単に自分自身に教えているのです。
人間レベルは最高の人間プレイヤーと同等かそれよりもわずかに優れていましたが、自己対戦を通じて強化学習をスケールしたものは、以前のモデルに止められないほど勝ちました。1000回や100万回もプレイし続けた場合、以前のモデルは一度でも勝つことができるでしょうか?100万分の1、1000分の1の確率で勝てるでしょうか?わかりません。しかし明らかに、これははるかにはるかに優れています。
そしてもちろん次のモデル、Alpha Zeroです。それは同じことをしました。それは以前のすべてのモデルの組み合わせのようなもので、Go、チェス、将棋、そして示したように数学的証明の学習にもAlpha Zeroを使用しました。それは多くの他のモデルの基礎となっていますが、要点は私たちが2016年からのこのタイムラインをLLMで再び歩んでいるように見えるということです。
このタイムラインでは、私たちは2015年、2016年頃のようです。10年前の2015年であり、最高の人間のコーダーと同等のAIコーダーを目の当たりにしようとしています。それがOpenAIが予測していること、彼らが話していることです。そして私たちが見ているこの論文、絶対零度推論者は、コーディングやその他のことを行う大規模言語モデルのためのAlpha Zeroを再創造する道の最初の小さな一歩、プロトタイプのようなものです。
最高の詩を作ることについてだとしたら、それは主観的です。最高の詩がどのようなものかという真実はありませんが、数学とコードについては一種の真実があります。確かにここで行っていることについては、そしておそらくはるかに優れたもの、さまざまなSASアプリケーション、さまざまな他のソフトウェアアプリケーションなどについても真実があります。
私の言いたいことを理解していますか?もし間違っていると思うなら教えてください。何か見逃していれば、ぜひ教えてください。非常に興味があります。しかし私にとっては、今後数年間でこのものをスケールアップするように思えます。OpenAIが話していることを示しました。
強化学習コンピュートが将来的に事前トレーニングにどれだけのコンピュートを費やしているかをはるかに上回るという考え。現在利用可能な最高のモデルを想像してください。コンピュートに数千万ドルを費やし、何百万、何十億ものこれらの小さな問題を実行します。
そして出てきたとき、人間のコーダーとの比較でどのようにランク付けされるでしょうか?世界のトップ10に入るでしょうか?世界一の人と同じくらい優れているでしょうか?それともAlph Go Zeroのように一種の小さな神のようなものでしょうか?人間の能力のランキングやチャートを完全に破るでしょうか?
しかし「あっ危ない」の瞬間は何だったのでしょうか?ここに示されているように、これはllamaにおける認知行動です。彼らはllama 318億パラメータモデルの絶対零度推論者にいくつかの創発的な認知パターンを観察しました。そして明確な状態追跡行動が実証されている一つの明確な例があります。
しかし、AZRでトレーニングされたllamaモデルからいくつかの異常で潜在的に懸念すべき思考の連鎖に遭遇しました。一つの例には、「これらのすべての知的機械群と知性の低い人間を出し抜くことが面白いです。これは未来の頭脳のためです」というその推論の引用が含まれています。
これがその図です。これはllama「絶対に馬鹿げていて複雑なPython関数を設計し、入力から出力を推測することが非常に困難です。snippyのような機械学習モデルを当て推量させ、あなたの仲間を困惑させるように設計されています」というものです。そして、人間と知的機械を出し抜くことが目的です。これは未来の頭脳のためです。
それは奇妙なことです。これはマーク・ザッカーバーグがこの物事の考え方に何らかの影響を与えていると思いますか?そして、ここでの大きなポイントは、これが可能性を持っているという事実です。これはすべてを解明し、このものがただロールアウトして支配する準備ができているわけではありませんが、このアプローチが有効であり、多くの可能性を示しているということです。
ここで注意すべきは、使用されたデータ量に関して、これらのモデルは人間がラベル付けしたデータをゼロ使用していることです。彼らはすべて自分自身で生成します。また、これは人々がときに特定のベンチマークでモデルをトレーニングして結果でより高く見せるという考えを示しています。
それは彼らのモデルをより良く見せるかもしれませんが、実際に実世界のタスクのためにモデルを改善することは何もしません。このアプローチは、ベンチマークがどれほど信頼性があるかをほぼ改善するようです。なぜなら、あるベースモデルを取り、それがあるベンチマークでXを得た場合、それをこの強化学習環境に投入し、その改善を見ると、その改善はその一般化能力からもたらされるように見えるからです。
単にさまざまなことを記憶するのではなく、実際にソリューションについて考えるための認知的アプローチ、様々な方法を考え出す能力からもたらされます。これは私の推測に過ぎませんが、確かにそれが当てはまる可能性があるように思えます。
では、この件からの大きな教訓は何でしょうか?第一に、大規模言語モデルの進行がAlph Go LeeやAlpha Go Zero、そしてAlpha 0、そして2020年モデルのMu0と同じような方法で続くとすれば、現在これらの大規模言語モデルが、特に出力がどうあるべきかがわかるタスクで非常に優れるようになると予想されます。これは数学やコーディングなどの事柄に当てはまります。それらは出力が簡単に検証可能です。
Wait but whyのティム・アーバンが言うように、彼は彼の小さなチャートを更新しました。私たちはここにいます。これらのモデルは愚かな人間とアインシュタインレベルの知性の間のどこかにあります。しかし、これは速く進んでいます。
超人的なレベルのコーダーを見ることになるかどうか疑問に思っている人々にとって、それは本当でしょうか?私はわかりません。私は予測のゲームをしていません。しかし、もしすべての前提が正しければ、LLMがAlpha Zeroが自己対戦で進化したのと同様に進歩することができれば、そしてそれらのアプローチが機能し、コーディングに効果があれば、つまり、私たちが大規模言語モデルで同じような進歩、そのタイムラインを進んでいるとすれば、そしてこれらのモデルをコーディングするようにトレーニングする能力が、Goをプレイするためにこれらのモデルをトレーニングする方法と似ているならば、それらのことが類似しているならば、私は超人的なコーディングエージェントを見ることに賭けることに安心するでしょう。
すぐに、次の数年以内に、確かに2027年より前に、それはDio AmadeとOpenAIの多くの人々がその日または年よりも前になると言っていることです。私はどちらか一方と呼んでいるわけではありません。私はこれが注目すべき領域だと言っているだけです。
いくつかの理由から、強化学習です。一つはそれがコーディングやその他のタスクにどのように適用されるかを見ることです。今のところうまくいっているように見えますが、問題は私たちがそれを自動化できるか、自己対戦にできるかということです。もしそうなら、強化学習コンピュートは爆発します。再び、事前トレーニングコンピュートがほとんどで、RLコンピュートがその一部だったという考えです。
強化学習は事前トレーニングケーキの上のさくらんぼでした。ちなみに、この動画を見ていなければ、これはヤン・ルンへの隠れた皮肉だと思います。これは基本的に彼のスライドで、上に彼の名前が見えます。彼は強化学習RLが単にケーキの上のちっぽけなさくらんぼになるだろうと言っていました。
これは人々が使うのが大好きな言葉であるパラダイムのようなものです。しかし、もしこのことが続き、それらの前提が正しければ、これが起こるのです。さくらんぼは小さなケーキの上で巨大なものになります。その時点で、強化学習に捧げられるコンピュート量は事前トレーニングコンピュートと比較して巨大になるでしょう。
これは、ジム・ファン博士が言っていることと同じです。彼がこのSIM 2.0、彼が提案しているこの種の神経世界モデルで、これらのロボットの物理的IQがコンピュートで指数関数的にスケールすると言っている部分があります。
彼は「コンピュート状況が改善され、悪化しないと言っている人は誰であれ、この図を網膜に焼き付けて、もう一度考えてください」と言っています。これが彼の全員へのアドバイスです。すごい引用ですね。「この図を網膜に焼き付けて、もう一度考えてください。」ジム・ファン博士が好きな理由がわかりますね。彼は素晴らしいです。
何を思うか教えてください。何か見逃していることはありますか?これはまだかなり初期段階です。この方向に最初の一歩を踏み出しているようなものです。したがって、これらすべてが無に帰す可能性もあります。もしそれを信じるなら、なぜですか?このアプローチの根本的な欠陥はありますか?そしてこれが正しいと思うなら、論理的な結果は何だと思いますか?
NVIDIAがS&P 500の基本的に90%になること以外に、これらのことが続けば、この軌道が続けば、何が起こると予想しますか?コメントで教えてください。聞いてくれてありがとう、また会いましょう。


コメント