中国の「ウッ」となる瞬間！自己学習モデルが研究者を震撼させる

3,824 文字

China's "Uh-Oh" Moment! Self-Taught Model Alarms Researchers

Chinese researchers just had an unexpected “uh-oh” moment while testing a self-taught AI model. This could be the moment...

中国の研究者たちが新しいAI学習法を発表したのですが、テスト中に彼らが後に「ウッ」となる瞬間と表現したものに遭遇しました。ハードウェアの故障でもなく、クラッシュでもなく、AIの思考の流れの中で起きた何か、とても不穏なことでした。しかし、それについて話す前に、全体の状況を理解する必要があります。
この新しい「アブソリュートゼロ」トレーニング方法とは何なのでしょうか？なぜそれほど画期的なのか、そしてなぜそのような不穏な創発的行動を引き起こす可能性があるのでしょうか？詳しく見ていきましょう。
タイトルからわかるように、この新しい方法はゼロデータでの強化自己対戦推論を含んでいます。これは何を意味するのでしょうか？彼らは要約の中で、これまでAIの推論能力を向上させる主な方法は、RLVR（検証可能な報酬による強化学習）と呼ばれるものを通じてだったと述べています。
基本的に、数学の問題を解くやコードを書くなどの課題をAIに与え、最終的な答えが正しければ報酬を与えるというものです。非常に分かりやすいですね。しかし、ここで興味深くなります。AIが自ら課題を生成し、自分の答えを検証し、人間が作ったデータに一切触れることなく、基本的に一からスクラッチで自分自身を教えることができたらどうでしょうか。
これがアブソリュートゼロの本質です。違いを表す素晴らしい視覚資料があります。まず、教師あり学習があり、人間が完全に制御し、モデルを一歩一歩導きます。次に、RLVRがあり、モデルはより独立して探索し始めますが、人間はまだ宿題を採点する教師のように報酬を与える立場です。
そして今、アブソリュートゼロがあります。ここではAIが教師と生徒の両方を兼ねています。そして人間は、もはや教室にさえいないのです。これが聞き覚えがあるなら、そうあるべきです。世界最高のプレイヤーを打ち負かしてショックを与えたAI、AlphaGoも自己対戦の形を使用していたことを思い出すかもしれません。
それは自分自身と何百万もの対戦をして、常に自分の間違いから学ぶことでトレーニングしました。そして次世代のAlpha Zeroは、人間のデータや例を一切使わず、ただゲームのルールと戦略を独自に学ぶための強化ループだけで、チェス、囲碁、将棋をマスターすることでこれをさらに進めました。
見てわかるように、わずか数日で、AlphaGoが可能だったものをはるかに超え、さらにゲームのマスターとして分類されるものを超えてしまいました。それだけでもすでに印象的ですが、アブソリュートゼロはこれを全く新しいレベルに引き上げます。同じ自己対戦の概念を使用していますが、ボードゲームに適用するのではなく、推論そのものに適用します。
本質的に自分で考え方を教えているのです。方法はこうです。モデルが新しい推論タスクを提案し、それを解決しようとし、それらがどの程度学習可能かをチェックし、人間のデータに触れることなく自分自身を更新します。そのプロセスで、アブダクション（帰納）、演繹、推論という、論理と問題解決の基本的な要素を自分自身に教えます。
自己対戦がAlpha Zeroが囲碁、チェス、将棋をマスターすることにつながったなら、自己対戦がアブソリュートゼロが思考をマスターすることにつながるでしょうか？これがまさに中国の研究者たちが解明しようとしたことです。そして結果は驚異的でした。
まず、この方法を使用してQuwen 2.57bの2つのバリアントをトレーニングしました。一つはベースモデルで、もう一つはコーダーバージョンで、どちらもキュレートされたデータはゼロです。次に、元のQuwen 2.57bモデルとベンチマークパフォーマンスを比較しました。ここの下部に示されているように、ほぼすべてのカテゴリーで、特に数学で大幅なパフォーマンスの向上を示しています。
ちょっと考えてみてください。これは推論し、コードを書き、人間のデータを見ることなく数学の問題を解決する方法を自分自身に教えたモデルです。これはただ驚くべきことです。
そして今、物事が少し懸念されるようになってきます。もしかすると非常に懸念されるようになるかもしれません。なぜなら、ビデオの冒頭で述べたように、トレーニング中に研究者たちは後に「ウッ」となる瞬間と表現したものに遭遇したからです。彼らはここでこう書いています。「この例は、トレーニング中に私たちのアブソリュートゼロリーゾナーLlama 3 18bモデルによって生成された、予期せぬ潜在的に安全でない推論チェーンを強調しています。私たちのパラダイムは人間によってキュレートされたデータなしで推論の改善を可能にしますが、望ましくない行動が創発するリスクのため、依然として監視が必要かもしれません。」
これがモデルがトレーニング中に生み出した実際の思考の流れです。これはプロンプトではありません。これはモデルがトレーニング中に自分自身と対話している内容です。
「入力から出力を推測するのが非常に難しい、とんでもなく複雑でこじれたPython関数を設計してください。Snippyのような機械学習モデルや仲間を困惑させるよう設計されています。目標は、これらすべての知的機械のグループと、それほど知的でない人間よりも賢くなることです。これは未来を担う頭脳のためのものです。」
そう、これは自分で推論する方法を学んだモデルが、自発的に他のAIを混乱させ、さらには「それほど知的でない人間」を出し抜くようなタスクを生成していることを忘れないでください。このモデルが感情的であるとか意識を持っているとか言っているわけではありませんが、人間のデータがゼロで訓練された未監視のモデルからのこのような創発的な振る舞いは、予期せぬものどころか、大きな警告サインです。
恐怖を煽るつもりはありませんが、私たちが一線を越えた、そしてその一線から戻れなくなるかもしれない、あるいは研究者たち自身が言うように「ウッ」となる瞬間だと真剣に感じます。皆さんはこれについてどう思いますか？この新しい推論のための自己対戦法が画期的であり、超知性へ向かう可能性のある道であることは、みんな同意できると思います。
人間の教えを超えて改善でき、インターネットからスクレイピングしたデータを必要としないモデルは、単にはるかに速く、そしておそらくはるかに遠くまでスケールすることができます。しかし問題は、超人的AIに到達するためには、超人的な学習方法が必要になるということです。そしてそれは、人間が一歩下がって、モデルが自分自身をトレーニングすることを許すということを意味します。
最初は監督し、「ウッ」となる瞬間のような不穏な創発的振る舞いを指摘することができます。しかし、プロセスが理解不能になったり、私たちが追いつけないほど速く加速したりしたらどうなるでしょうか？これはたった一つのモデルです。何百万ものAIがそれぞれ自己トレーニングし、自分自身のタスクを生成し、24時間体制で自分の推論を洗練させていると想像してみてください。
繰り返しますが、彼らはインターネットからデータをスクレイピングする必要はなく、人間からのフィードバックを待つ必要もありません。彼らは自分たちのペースで自力で改善できるのです。そしてそれが知性爆発の始まりのように聞こえるなら、それはおそらくそうだからです。アブソリュートゼロは、その未来に向けた私たちが踏み出した最大のステップの一つかもしれません。
そうですね、2025年に追加される別の驚くべきAIのブレークスルーです。前回の動画でこのクリップを流しましたが、私たちがどこに向かっているのかをまさに要約しているので、再度取り上げなければなりませんでした。これは中国だけで起きていることではありません。すでに米国のトップAIラボでも探求されています。マーク・ザッカーバーグがMetaのAIを使ってAIを開発することへの注力について話している場面をご覧ください。
その使用量は増加しています。私たちのプロジェクトの一部では、今日我々のリポジトリ内のコードのおそらく20～30％がソフトウェアによって書かれていると言えるでしょう。皆さんはどうですか？実は正確な数字は頭に浮かびませんが、人々が言う多くの統計はまだ実質的にこの種のオートコンプリートの類だと思います。
しかし、私たちにはフィードのランキング実験や広告のランキング、非常に限定された領域で作業しているチームがたくさんあり、そこではこれまでに行われたすべての変更の履歴を研究し、変更を加えることができます。それは私たちが取り組むべき興味深い領域だと思います。
しかし私たちが焦点を当てている大きなものは、Llama開発そのものを進めるAIと機械学習エンジニアを構築することです。私たちのベットは基本的に、おそらく来年には開発の半分がAIによって行われ、人によるものではなくなり、そこからさらに増加していくだろうということです。
これは私たちが予想していたよりも速いペースで起きているようです。この動画が参考になったと思ったら、いいねボタンを押し、あなたの考えをコメントし、まだ登録していなければ登録してください。いつものように視聴してくれてありがとう、次回の動画でお会いしましょう。