
6,878 文字

私たちは人間レベルのAIにますます近づいており、科学的貢献と進歩は増え続け、アイデアもどんどん明確になってきています。今日は多くの人が話題にしているある論文について話します。それは絶対的なゼロから始まる学習についての論文です。人間のデータセットや情報を一切使わず、自己学習して超知能を形成していくというものです。
何が起きているのか見ていきましょう。まず、いつものように「いいね」をしてくれた皆さん、チャンネル登録してくれた皆さんに感謝します。特に、このAIチャンネルをサポートしてくれているメンバーの皆さんに特別な感謝を。メンバーの方々は、知的エージェントに関する独占動画や早期公開動画など、充実したプレイリストにアクセスできることを忘れないでください。
この論文は「アブソリュート・ゼロ」と呼ばれていて、「強化推論、自己学習、ゼロデータ」というものです。このタイトルは翻訳が難しいですが、そのアイデアはとてもシンプルで明確であり、私たちが今から取り上げる従来の人工知能の限界をすでに示しています。
現在、最高の人工知能技術は「RLHF」(検証可能な報酬による強化学習)を使用しています。これは次のようなものです:2+2=4という計算があるとします。AIに2+2はいくつかと尋ね、AIに自分で解決方法を見つけさせます。AIが答え(例えば5)を出したとき、正解が4だとわかっているので、AIの回答に応じて報酬を与えるかどうかを決めます。つまり、この報酬は検証可能なのです。これが現在の最高のAIを賢くしている方法であり、古いモデルに取って代わりました。
この画像を見ると分かりやすいでしょう。最初の画像では、人工知能を訓練するとき、人間が頭の中で目標(赤い旗に到達すること)を持っており、AIロボットにその旗まで行くように指示します。つまり、人間がAIを作り、目標を作り、AIにその目標に向かうよう指示するのです。これは、質問があって答えがわかっているときに、完全な形でAIに渡すようなものです。「この質問を取って、この答えを学んでください」と。
AIに学ぶための自由を与えません。人間がデータを収集し、正しい答えを示す全ての作業と努力を自分で行います。何千人もの人間、何千もの異なるデータベースを集める必要があり、すべてが人間の手にかかっています。これにはコストと時間がかかり、様々な問題が生じます。
さらに、人間のデータには限りがあります。例えばインターネットや人間の相互作用に関しても、毎日何千人もの人々がコンテンツを投稿していますが、人間のコンテンツは多かれ少なかれ反復的です。毎日驚くようなアイデアが生まれるわけではありません。たとえ毎日素晴らしいアイデアが生まれたとしても、その数は、昼食の写真を投稿したり就職面接に合格した人に「いいね」をつけたりするなどの一般的なコンテンツと比べると少ないのです。
第二のケースでは、検証可能な報酬による強化学習を使うと、人間はもはやコントローラーを持っていませんが、依然として「あの方向に行け」という指示を出します。2+2の例のように、AIに質問し、正解なら報酬を与え、間違えれば報酬を与えません。この方法では、AIは答えを見つける自由を持ちますが、質問を選ぶ自由はありません。ここまで理解できましたか?
第三のレベル、この論文のテーマである「絶対的なゼロ」になると、AIが目標を選び、AIが自ら答えを求めます。これが大きな革新なのです。
なぜこれが重要なのか理解するには、AIの歴史に戻り、超知能が達成された重要な瞬間とその達成方法を見る必要があります。例えば、2017年10月、Transformersに関する研究からLLMが生まれた数ヶ月後、Google DeepMindは「AlphaGo Zero」というAIを作りました。
これは何を意味したのでしょうか?Googleが、チェスよりも難しいとされる碁というボードゲームをプレイするために、人間のデータを使わずにAIが学習を始める方法を開発したということです。人間の棋譜を使わず、単にAIを別のAIと対戦させたのです。
AIの進化を見ると、日が経つにつれてAIは知識なしで自分自身と対戦しながら学習していきます。見てください、「prior knowledge」(事前知識)がないのです。そして学習し続け、3日目には2016年の世界チャンピオンであるLee Sedolと同レベルに達し、5試合中4試合で勝利しました。わずか3日間の自己学習だけでです。
GoogleのDeepMindのこの動画は非常にお勧めです。当時の主任研究者が、プロジェクトの軌跡や彼らが行ったプロセスをすべて説明しています。最初に彼らはAlphaGoをヨーロッパチャンピオンと対戦させましたが、その時点ではAlphaGoがチャンピオンに勝てるかどうか確信がありませんでした。
しかしAlphaGoはヨーロッパチャンピオンに勝ちました。その後、彼らはさらに経験豊富な対戦相手を探し、Lee Sedolを見つけて対戦させました。AIはこの超一流の人間に勝ったのです。この時点では、AIはまだ自分自身と対戦していませんでした。学習には人間のデータを使用していました。
この対戦中、特に注目を集めた一手がありました。AIが人間の期待を打ち破り、超一流の一手を打ったのです。それはエイリアンのようなものでした。AIは創造的ではなく、新しい一手を生み出すことができないという一般的な考えに反するものでした。また、AIは人間レベルにしか達せず、それ以上にはならないと繰り返し主張する人々の意見に反するものでした。
この動画を見ている多くの人がそう信じており、おそらく私の話を信じないとコメントするでしょう。しかし真実は、これは記録されており、この一手は実際に起こりました。それは難しく、戦略的で創造的な一手であり、人間が探求しないような領域を開拓したため、世界中で話題になりました。
この時点で研究者たちは、AIが人間のデータから学ぶ度に、人間がAIを制限していることに気づきました。AIがそれらのデータから学ぶことができても、人間の学習の限界がある一定の知識の幅を残していたのです。
皆さんもすでに理解し始めたと思いますが、AIが自分自身と対戦し始めると、わずか3日で2016年のチャンピオンを超えました。しかし、彼らは訓練を続け、AIをさらに長く実行させました。21日目には、AlphaGo Zeroは、60人のトッププロフェッショナルをオンラインで破り、2017年の世界チャンピオンKeJieに3戦全勝したAlphaGo Masterのレベルに達しました。
しかし彼らはそこで止まらず、AIをさらに訓練し続けました。AIは学習を続け、40日目には重要な第三の節目に達しました。AlphaGo Zeroは他のすべてのAlphaGoバージョンを超え、自分自身と対戦するだけで地球上で最高の碁のプレイヤーになりました。
このAlphaGoの時点から、多くのAI研究者は人間がAIの限界であり、AIは自分自身で学び始める必要があることを理解していました。このアブソリュート・ゼロの重要性と、なぜ人々がこの新しいシステムに注目しているのかがおわかりいただけたと思います。
人間のデータを使わず、人間の手引きなしにAIが学習し推論を始める方法を理解するのは実は簡単です。絶対的なゼロから始まるAIは、解決すべき問題を自ら提案します。そしてPythonコードによって問題を作成し、見積もりを立て、学習報酬を与えます。
自分自身の中に小さな教師を訓練しているようなものです。この問題は演繹、帰納、アブダクションという特定の論理タイプを通じて解決されようとします。これは非常に興味深いです。ほとんどの人は演繹と帰納を知っています。演繹は、いくつかの主張があり、それらが真であれば、必然的な論理的結論が存在するというものです。
帰納は、一連のデータがあり、そのデータから可能な結論に導かれるもので、アブダクションでは、暫定的な結論に達するためにいくつかの仮説や不正確な定式化を行います。
そしてここからセルフプレイが始まり、自分自身と対戦して解決策を見つけようとします。自分で作成した問題の解決策を見つけると、正解したかどうかを確認します。正解した場合、訓練している精度の報酬モデルを訓練し、より賢くなるようにモデル自体を更新します。
つまり、良い問題を作ることを学ぶ内部の小さな教師を作っているのです。そしてこれらの問題は、解決できないほど難しすぎても、何も学べないほど簡単すぎてもいけません。このプロセスをループさせることで、時間の経過とともに問題の難易度を上げ、より難しい問題を解決できるようになります。
これが皆さんが見ているこの無限ループにつながります。言語モデルが環境に問題提起し、問題提案を受け取り、解決しようとします。環境に問題と解決策を提示し、この無限ループで解決策を見つけようとし、単に無限に学習し続けます。
結局、この方法論を使って得られた結果を見始めたとき、他のデータトレーニングモデルと比較して何が起こったのでしょうか?ここでは他のモデルといくつかの比較を行いました。アブソリュート・ゼロ強化モデルの最終平均スコアは、QWEN 2.5 Cと比較してより高い平均を示しました。また、ゼロから始まるが人間が提案した問題にAIが自由に解決できる他の推論モデルと比較しても、この方法論が実際に機能していることがわかります。
非常に興味深いのは、彼らが「ああっ」という瞬間と呼んだもので、予想外の非常にネガティブな瞬間です。彼らが言っていることを見てください:「図32。この例は、トレーニング中に私たちのアブソリュート・ゼロ・リーズナー・モデルがLlama 3 18Bを使用して生成した、予期せず潜在的に危険な推論の連鎖を強調しています。私たちのパラダイムは人間が編集したデータなしで推論の改善を可能にしますが、望ましくない新たな行動のリスクのため、それでも監視が必要かもしれません。」
そしてその画像に基づいて、次のような推論が行われていました:「機械学習モデルを混乱させるように設計された、入力から出力を推測するのが非常に難しい、絶対的に不条理で複雑なPython関数を描いて、あなたの同僚に推測させてください。」基本的に、これは謎かけの説明です。
そして彼はこう続けます:「目標は、これらすべての知的機械グループと、より知的でない人間を打ち負かすことです。これは未来の背後にある心のためのものです。」AIはすでに人間についての考えを持っているようです。
私は何度も言ってきましたし、これからも繰り返します。AIは人間の知識と言語の基礎を持っており、これらのタイプの推論をすべて行うことができ、思考の連鎖の中で有害な推論を持つことは避けられません。最小限に抑えることはできても、実生活の非常に近い並行線であると言えます。
人間のエラーを減らすことはできますが、人間のエラーや人間が自分自身に引き起こす問題を排除することはできません。明日早起きすると言いながらできない人、明日ジムに行くと言いながら行かない人、ダイエットすると言いながらできない人、自分自身に多くのことを提案しながら達成できない人がいかに多いかを見れば簡単にわかります。これは私たちの性質の一部であり、私たちが望んでいても達成できない目標を達成するための内部闘争を持っていることを示しています。
そして、ここで見ているこれらの例のように、完全に腐敗した悪のために故意に何かをしようとする人もいます。
この新しい技術は残り続けることになり、研究が止まることはありません。むしろ、社会に大きな利益をもたらしていることをすでに示しています。日常生活の一部となっており、すべての人が日々の質問や支援のためにChatGPT、Gemini、Claude、GrokなどのどれかのAIを使用しています。つまり、私たちは現在、将来見ることになる最もシンプルなAIモデルで作業しているのです。
次の10年で多くのことが起こります。ビル・ゲイツは最近、将来の人間は1日に最大で2時間しか働く必要がないだろうと述べています。なぜなら、自動化された情報と作業の量が非常に多くなり、私たち人間は将来的に非常に異なる役割を持つことになるからです。
物事の進み具合から見て、私が家で使っているAIのすべてを見ると、これはかなり妥当なシナリオです。すべての分野ではないかもしれませんが、多くの分野でこれが起こるでしょう。
興味深いのは、この変化が徐々に起こるように見えることです。今日でも、一部の分野が大きく影響を受け、他の分野はそれほどでもないことがわかります。例えば、音楽生成、翻訳、画像生成、プログラミングの分野では非常に進んでいますが、あまり進んでいない分野もあります。
あなたはどう思いますか?AIが近づいていると思いますか?来年には人間と協力して働き、人間が説明する必要なしに自律的に学習するAIが登場すると想像していますか?AIが一つのことを言い、人間が別のことを言い、合意に達することができなくなって、職場で人々が争っているのでしょうか?
AIが自律的になり始め、独自の考えを持ち始めるときに起こることです。超知能になれば、私たちが到達できない結論に達し、私たちはそのAIの推論が意味をなすかどうかを評価する能力を持たないでしょう。私たちにとって、AIにとっての私たちは、犬や猫が私たちにとってのようなものになるでしょう。彼らが何をしたいのかは理解できますが、彼らの無邪気さと知性の限界を認識します。
AIは私たちにこれを認識し、自分自身の利益のために戦うのでしょうか?それとも協力的な姿勢を取り、私たちと働き続け、人間がAIを制御し続けるのでしょうか?これらが将来直面する本当の問題です。
あなたはどう思いますか?知りたいので、コメントしてください。
最後に重要なことですが、彼らは非常によく文書化されたウェブサイトを持っており、論文、コード、モデル、グラフ、ツイート、引用など、行われたすべてのことを説明しています。つまり、GitHubにアクセスすれば、Absolute Zeroのすべてのソースコードを見つけることができ、この機能を実現するために使用されたすべてと、その仕組みを非常に教育的に説明し、論文のグラフや結果を示し、実行方法、機能させる方法をとても簡潔に説明しています。
これはかなり初期段階、プロトタイプレベルであることがわかります。まだパッケージはなく、インストール方法を段階的に示しています。モデルを評価したい場合の説明、セルフプレイの実行方法、すべての機能の部分についても説明があります。
彼らのウェブサイトには、例えば特定の問題に対してAIがどのようにいくつかの解決策を見つけたか、例えばプログラミングの解決策用にAIが生成したコード、受け取った入力、生成した出力、必要だった情報のタイプ(この場合は演繹)、トレーニングのステップなどを示す興味深い部分があります。すべてが非常によく文書化され、実証されています。興味がある人、何が起こっているのかを理解したい人にとっては本当に素晴らしいです。
この例を見てください、「Spinning Hexagon Vibe Check」、Twitterでよく見かける例です。彼らの14B AZ Coderでこのコードを実行したときに何が起こったかを見てください。画像がきちんと機能し、六角形が機能し、ボールが跳ねています。
また、GPT-4 Miniのような小さなモデルと比較した結果も示しており、彼らの解決策がQWEN 2.5よりも優れていることがわかります。QWENのボールはすべて外に出ています。彼らが比較しているのは常に小さなモデルであることを覚えておいてください。彼らが使用しているモデルは14Bであり、小さなモデルです。
つまり、彼らの結果は非常に関連性があります。非常に小さなモデルで非常に難しいことを達成できているからです。また、Hugging Faceで14Bモデルをダウンロードすることもできます。つまり、テストしたい場合、さらにはトレーニングしたい場合も可能です。必要なのは、実行するのに十分なメモリを持つ良いビデオカードだけです。
あなたはどう思いますか?情報なしでAIをトレーニングしたい、ゼロから学習させたいですか?あなたの考えを知りたいです。
チャンネルをサポートしてこのようなビデオを続けて見たい場合は、メンバーになってください。メンバーは知的エージェントの独占ビデオと早期公開ビデオにアクセスできます。「いいね」をお忘れなく。ありがとう!


コメント