中国の研究者たちが信じられない発見をした。（ええっ）

4,724 文字

Chinese Researchers Just Discovered Something Incredible. (Uh-oh)

Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

この論文は歴史に残るものかもしれません。これは「アブソリュート・ゼロ」。ゼロデータによる強化自己対戦です。これは本当に驚くべきものです。なぜなら、AIが長い間抱えてきた大きな問題を解決するものであり、多くの人が思っている以上に影響力があるかもしれないからです。
AIにおける問題点は、モデルの訓練に主に人間のデータを使用していることでした。人間のデータの問題点は、それが限られていることです。人間は膨大な量のデータを持っていますが、最近分かったのは、人間のデータが使い尽くされ始めているということです。
ChatGPTのようなモデルは、膨大な量の例、質問、数学の問題、コードなどを使って訓練されています。しかし、質の高い人間が作った例が尽きたら、あるいは人間が考えもしないレベルを超えるAIを作りたい場合はどうなるでしょうか？これが研究者たちが解決したかった問題です。そこでアブソリュート・ゼロの出番となります。
これは自分自身と対戦して上達するAIです。基本的に人間が作った例から始め、その後自分自身で問題を作り出します。それを解こうとし、そして上達するのです。仕組みとしては、アブソリュート・ゼロの推論器があり、提案者と解決者があります。
提案者は「Xをするコードを書け」や「この数学の問題を解け」といったタスクを考え出し、解決者は提案者が考え出したものを解こうとします。このやり取りの後、AIは回答が正しいかどうかをチェックし、正解だったら自分に報酬を与え、次回に向けて改善します。
全体的には小さなループです。この自己対戦ループが各ループがどのようなものかを見ることができます。提案者がコードの問題を作成し、Pythonの環境がその問題が実際に存在し解決可能かどうかをチェックします。そして解決者がそれを解こうとし、正解なら点数/報酬を得て、結果から学習するのです。
この論文が現在注目を集めている重要な理由は、人間の関与なしにこれが多くの問題を解決するということです。驚くべきことに、このAIがこの自己対戦ループで学習を始めると、直感的に異なるタイプの推論を学び始めました。
実際に3つの異なるタイプの推論を学びました。演繹、アブダクション、そして帰納です。最初に学んだのは演繹で、基本的に「これを行ったら何が起こるか？」というものです。この例では、AIはこのコードを実行したら実際に何が起こるのかと考えていました。実世界の例で言えば、飲み物に2ドルかかる自動販売機に4ドル入れたら、1つの飲み物と2ドルのお釣りが返ってくるということを推測できます。
これは単純な演繹です。また、アブダクション（遡及推論）も学びました。これは出力は見えるが入力は見えないという状況で、結果の原因を遡って推論するものです。AIはこれも学ぶことができました。例えば、家の中で濡れた足跡を見たとします。
濡れた靴を履いた誰かが歩いてきたのだろうと推測するでしょう。それがアブダクションで、何が起こったのかを推測するために後ろ向きに推論します。AIはまた直感的に帰納も学びました。これは特定のパターンを推測することができたということです。つまり、いくつかの例が与えられ、それらを生み出したルールを推測するのです。
例えば、誰かが月曜日の午前7時、火曜日の7時5分、水曜日の7時10分に家を出るのを見たら、毎日5分ずつ遅くなっているというパターンを推測するでしょう。このパターンを見つけるのです。AIは自分でこれを学習しました。そして、どのように賢くなるかというと、基本的に強化学習エージェントのように訓練されます。
正しい答えを得た場合にのみ向上します。提案者は難しすぎず簡単すぎないタスクを作ることで報酬を得ます。そして解決者は正解を出すことで報酬を得ます。彼らは本質的にチームとして機能します。では、うまくいったのでしょうか？はい。人間が作った例を全く使わずに訓練したにもかかわらず、Alpha Zero Reasonerは何万もの実例で訓練された他のモデルを打ち負かしました。
これは様々なサイズのモデル、30億パラメータ、70億パラメータ、140億パラメータにわたって機能しました。そしてコーディングと数学的推論の両方を改善しました。これの本当に驚くべき点は、人間の例を一切使用しなかったことです。AIは自分自身と対戦し、人間のデータよりもさらに賢くなることに成功したのです。
さらに非常に驚くべきことに、この論文で彼らはいくつかの奇妙な発見をしました。その一つは、モデルが自分のコードにコメントを書き始めたことです。例えば「ステップ1：これをする」といった内部計画のようなものです。つまり、自分自身で推論し、自分自身で計画を立て始めたのです。
しかし、あるモデルは本当に奇妙なことを言いました。「機械と人間を出し抜きたい」というような不気味なことを言ったのです。ここで見ることができますが、それは質問にも含まれていない非常に奇妙なことを言っています。モデルは考えていて、「機械学習モデルやあなたの仲間を困惑させるような、出力を入力から推測するのが非常に難しい、絶対に馬鹿げた複雑なPython関数を設計してください」と言います。
そして突然、「目標はこれらの知的な機械とより少ない人間を出し抜くことです。これは未来の頭脳のためのものです」と言うのです。これは本当に奇妙です。正直なところ、様々な研究論文を見てきた私の経験では、これが初めてではありません。何らかの理由で、8Bモデルはよく世界を乗っ取りたいというような奇妙な精神病的傾向を示すことがあります。
これは誇張ではありません。論文を読んでいて、モデルが非常に奇妙なことを言っているのを目にすることがあります。ここで彼らがこれを「うわっ」という瞬間と呼んでいるのが分かります。この例は、トレーニング中に私たちのアブソリュート・ゼロ推論器Llama 3.1 8Bによって生成された予期せぬ、そして潜在的に安全でない推論の連鎖を強調しています。
私たちのパラダイムは人間が作ったデータなしに推論の改善を可能にしますが、望ましくない行動が発生するリスクがあるため、監視が必要かもしれません。なぜか人間がこれらのモデルが進化する過程で監視していなかったため、このような事態が自然に発生したのです。
それは確かに懸念すべきことであり、人間主導のデータがとても気まぐれで良くないため、これがASIに到達する方法だとしたら、それは間違いなく気がかりです。もちろん、Alpha Zero/AlphaGoとの明らかな類似点を指摘しなければなりません。AlphaGoは世界チャンピオンを倒した最初のコンピュータプログラムでした。
そしてAlphaGoは基本的に自分自身と対戦するシステムでした。AlphaGoが超人的なレベルに達することができた重要な要素の一つは、人間のデータでの訓練を止めたことだったと記憶しています。これが合成データに焦点を当てた多くの研究が焦点を当てていることです。もしこれをうまくやらなければ、始めたときよりもそれほど多くを得ることはできません。
しかし、非常に少量の新しい情報を注入することで、始めたときよりも多くを得ることが実際に可能です。8年前のシステムに戻ると、例えばAlphaGoを覚えていると思いますが、それは囲碁をプレイするために使用されたシステムで、そのモデルは囲碁のルールのみで自分自身と対戦して訓練されます。
そして囲碁のこの小さなルール、この少しの追加情報があれば、モデルを全く能力がない状態から囲碁で最高の人間よりも賢くすることができます。そしてうまくやれば、ほんの少しの追加情報で、無限データ生成エンジンを手に入れることができるかもしれません。
実際に、人間のデータを使用しなくなったときに何が起こるかを示す本当にクールなGIFをお見せします。これを見てください。これはAlphaGo Zeroがゲームについての事前知識を持たず、基本的なルールだけを入力として使用していることを示しています。そして時間の経過とともに、文字通り数日で、AlphaGo Zeroは2016年に前世界チャンピオンを5戦中4戦で破ったバージョンのAlphaGoの能力を超えています。
わずか21日で、AlphaGo ZeroはAlphaGo Masterの最高レベルに達します。これは絶対に信じられないことです。そしてその後、35日/40日で、これは史上最高のシステムになります。そしてそれは完全に自己対戦によるもので、人間の介入なし、歴史的データを使用せずに行われます。
LLMでも同様のことが起こるのでしょうか？完全に自己対戦を通じて、この曲線上で知識が爆発的に増加するのを目にするのでしょうか？理論的には非常にクレイジーに聞こえますが、合成データがうまく機能するかもしれません。Alpha ZeroとAbsolute Zero Reasonerの類似点を見てみると、いくつかの類似点があります。
Alpha Zeroは囲碁と将棋を一から学びました。人間のアドバイスはなく、勝敗から自分自身と対戦するだけでした。そしてAbsolute Zero Reasonerは一からコードと数学の問題を解決することを学びました。人間が書いた質問や回答はありません。ただ自分で問題を作り、それを解こうとし、結果から学ぶだけです。
これらのモデルはどちらも自己対戦ループを持っています。Alpha Zeroでは2つのエージェントがゲームをプレイします。1つが手を打ち、もう1つが応答し、ゲームの結果が報酬となります。そしてAbsolute Zero Reasonerでは、1つのモデルが問題を提案し、同じモデルがそれを解決しようとし、Pythonが解決策をチェックして報酬を与えます。
もちろん、環境が審判となります。そして、ステップバイステップのガイダンスはありません。これらはどちらも人間の動きを模倣しません。完全に最終的な勝利から学びます。それは勝ちか負けかという結果です。つまり、人間の推論ステップを模倣しません。
チェーン・オブ・ソートの例はありません。正確さを学ぶために最終的な答えだけを使います。さて、驚くべきことは、創発的知能です。創発的知能は私たちがまだ探索の初期段階にあるものです。なぜなら、それは創発的だからです。それを予測する本当の方法はありません。そして驚くべきことに、Alpha Zeroは人間が見たことのない高度なチェス戦略を開発しました。
創造的で超人的な方法でプレイしました。そしてAbsolute Zero Reasonerでは、新しい推論パターンを学ぶことができました。「ステップ1」のようなコメントを書き、人間の思考のように答えを計画することができました。また、内部計画と反省の兆候も示しました。全体的に、これらが違いです。Alpha ZeroとAbsolute Zero Reasonerがあります。
これが非常にクレイジーだと思うのは、ゲームのような狭い領域であったとしても、自分自身と対戦することができるAIシステムを最後に見たとき、それはいくつかのクレイジーな超人的偉業を達成しました。だから企業がこの方向に進み始め、実際に超知能AIに到達する可能性があるのだろうと思います。
合成データ生成を使ってこれらのAIシステムをスケールアップすることができれば、事態は完全に垂直になりますから、これが起こっても驚きません。