
8,621 文字

皆さん、こんにちは。何も見たことのない人工知能を作れることを想像してみてください。人間のデータも、模倣する例も、従うべき講座もないのに、それでも学習します。とても強力になるのです。自分自身の問題、自分自身の課題を発明し、一人でそれを解決することを学ぶ人工知能。さて、皆さん、こんにちは。
今日お見せするのは、おそらく人工知能の最近の歴史における最大のゲームチェンジャーの一つかもしれません。中国のチームが「アブソリュート・ゼロ・リーズナー(Absolute Zero Reasoner)」、略してAZRと呼ばれるシステムを作ったばかりです。そして、それが達成できることは単純にゲームチェンジャーなのです。
これが、ビデオを作っている時点で昨日公開された科学論文です。50ページ以上ありますが、皆さんのために読みました。すべてを簡略化し、わかりやすく説明して、これが何を意味するのか、そして彼らが正確に何を発見したのかを理解していただきます。なぜなら、これは人間のように推論することを学ぶ人工知能について話しているのですが、人間の推論を一度も見たことがないんです。
いつかこんなことを言うとは思いませんでしたが、トレーニングデータも監視も何もなく、ただコード環境と自己改善のループだけでした。用語については心配しないでください。今日はすべてをシンプルに説明します。このビデオでは、この新しい研究の舞台裏を探ります。
この「アブソリュート・ゼロ」技術がどのように機能するのか、なぜそれが今日行われていることとの本当の断絶なのか、そして特に、もしここでの単純なコード以上の広大な世界への扉を開いたら、何が引き起こされる可能性があるのかを説明します。なぜなら今日、AIを改善する最大の問題の一つは、彼らを養うためのデータがもうないことだからです。
彼らはすでにすべてを学び、すべてを飲み込み、人類のすべての知識を消化しています。では、人工知能をより賢くするために、研究者たちは頭を悩ませています。どうすればいいのでしょうか?今日のこのビデオでは、一つの答えを探ります。科学界で大きな注目を集めているこの科学論文を通じての答えです。
昨日出たばかりですが、ますます多くの人々がこれについて話し始めています。このビデオは、あなたがAIを見る方法を完全に変えるかもしれません。では、始めましょう。その前に、ビデオが気に入ったら、まだの方はチャンネル登録やいいねをお願いします。それが私を大いに支援し、このようなコンテンツを続けるのに役立ちます。
また、ニュースレター、つまり配信リストを設定したことも思い出してください。登録するだけで、月曜から金曜まで、その週のニュースの最高のまとめをメールでお送りします。さて、これを言ったところで、ビデオを始めましょう。ご覧ください、これが先ほど言及した論文です。
中国のチームがこの論文を公開したところですが、これは3つの大学、3つの主要研究拠点(清華大学、北京人工知能研究センター、そして米国のペンシルバニア大学)の間の共同研究です。素晴らしいことに、これはすでに実用的な論文です。
彼らはコード、ページ、ログ、さらにはダウンロード可能なモデルも提供しています。つまり、重みがオープンです。まず30秒ほど時間をとって基礎を押さえておきましょう。質問は、今日の古典的なアプローチ、つまり現在私たちが行っていることにおいて、AIがどのように推論を学習するかということです。
大まかに言って、2つの学派があります。一つは、人間が作成した大量の例を見せて、「これがあなたに期待することだ、真似しなさい」と言うことです。この技術が基本です。これを教師あり学習(supervised learning)と呼びます。
これが彼らが最初の枠に示したものです。私たちが行っている2番目のはるかに効果的な方法は、目標と環境を与え、報酬を最適化するために試行錯誤させることです。これはRLHF(Reinforcement Learning from Human Feedback)と呼ばれます。聞いたことがあるかもしれませんが、フランス語では「人間からのフィードバックによる強化学習」と言います。
チャンネルでこれについては多くのビデオを作成しました。もしこのトピックを掘り下げたい場合は、説明欄にリンクがあります。こちらのビデオでは、今日のAIのトレーニング方法とRLHFについて詳しく説明しています。
本当に詳細に踏み込んで、今日研究者たちがRLHFでAIをどのようにトレーニングしているかを説明しています。これを知っておくのは良いことですが、ここで理解するためにすべてを知る必要はありません。これが今日AIをトレーニングするために使用している方法であり、人間のデータを必要とすることだけを知っておいてください。
つまり、背後にいる人間がAIに与えるデータを準備しているのです。AIをトレーニングする2つの方法を見てきましたが、どちらの場合でも、ますます明らかになっている問題があります。膨大な量の人間のデータが必要なのです。それは時間がかかり、費用がかかり、そして何よりも大きな制限です。なぜなら最終的に、AIは単に私たち自身の例の囚人のままだからです。
真の質問をさせてください。私たちを超える知性を創造したいなら、すべてを与えることをやめるべきではないでしょうか?多くの研究者が推測していましたが、成功したことはありませんでした。しかし、ここでAZR出版物が登場します。彼らはここに彼らの技術「アブソリュート・ゼロ」を示しています。
つまり、あるAIが別のAIをトレーニングするのです。大まかに言えば、これは現在のAI世界では大胆で、ほとんど異端とも言えることを提案しています。それは単に、データも監視も援助もなしで推論を学ぶAIです。これが最も驚くべきことなのです。AZRモデルはほぼすべてを一人で行います。
タスクを発明し、それを解決しようとし、自分自身の試行から学びます。そして、もちろん最小限の環境、単純なコード実行者とのやり取りだけです。本当に何度も読みましたが、データベースも人間による修正もなく、ただシンプルなメカニズムだけです。
「コードを書き、実行し、それは機能するか?」これがこのAIが常に自問する3つの質問です。そして賢いところは、同じモデルが同時に2つの役割を果たすことです。これがアブソリュート・ゼロ・リーズナーで彼らが発明したものです。ここで見るように、1つのモデルに2つの役割があります。
一つは提案者で、課題を作成し、プログラムを書き、出力を推測し、入力を見つけようとします。次にソルバーがあり、これは解決しようとする役割です。自分自身で解決しようとし、コードが実行されます。
実際にはループです。ここで見るように、アブソリュート・ゼロ・リーズナーが物事を提案し、自分自身でそれを解決して、最終的に自己トレーニングするのです。そう、これは純粋な自己教育システムであり、各タスクが同じAIの学習のてこになります。
「でも最初の種、すべての始まりが必要でしょう?」と思われるかもしれません。はい、そこがさらに驚くべきところです。時には与えられるのは、ここで見るような単純なコードの一部だけです。実際、この単純なコードを与えて「自分でなんとかして、自己トレーニングしなさい」と言うだけです。
それでもうまくいくのです。これは一例です。彼らは多くの初期条件をテストしました。プロセスを開始するために正確に何を与えたかは述べていませんが、これが機能する何かであることは分かっています。基本的に、これが種です。
ここから、まるで山を登りながら発見するかのように、一歩一歩自分の論理を構築していきます。これは単純に説明するために見つけた最良のたとえです。直感に反してはいますが、信じられないほど有望です。
さて、しっかりつかまってください。なぜならここでAZR手法が産業界で巨大な飛躍をし、なぜ誰もがこれについて話しているのかを理解することになります。このAIは人間のデータなしでトレーニングされており、数学でもコードでもなく、それでも論理を超える結果を達成しています。
それが今から見るものです。特に、プログラミングにおけるAIの推論能力を評価するために使用される標準ベンチマークをたくさん含むこの表です。このAIはコードのプログラミングでトレーニングされましたが、後で他の分野にも拡張できることを見ていきます。
はい、ここの下に見えるAZRは、何ヶ月も何ヶ月も準備した人間の専門家によって評価された数万の例でトレーニングされたモデルよりも優れています。繰り返しますが、このAIは人間のコードも修正も見たことがなく、それでも人間によって手厚くトレーニングされたAIを打ち負かしています。
有名なベンチマーク「LME 2025」を見てください。これは非常に高レベルの数学のベンチマークです。基本モデルは、実際に産業界でより大きなモデルを構築するために使用されている今日のオープンソースモデルのほとんどを上回っています。興味深いのは最後の列で、これらすべてのベンチマークの平均です。
それは平均スコアです。どれくらいうまく機能しているか?比較してみてください。他のものと比較してスコアは50です。本当に悪くありません。これは新しいAIトレーニング方法の最初のバージョンであることを考えると。
これは基本モデルなので、今日のClaude 3やGemini 2.5のようなモデルが行うような連続したチェーン・オブ・ソート(思考の連鎖)を行うようにトレーニングされていません。では、それを与えたらどうなるでしょうか?見るのが非常に興味深いです。
このAIは一般的なタスクと、新しく見たことのないタスク両方でうまく機能します。これを分布外一般化と呼び、AIが見たことのない問題に直面したとき、うまく一般化できるかどうかを確認するものです。はっきり言えば、このAIはデータなしで学習しただけでなく、他のモデルよりもうまく一般化します。
これが非常に驚くべきことです。これがAIの世界、少なくとも研究者の業界にとって地震のようなものである理由です。人間のデータなしでは、AIは円を描くように回るしかないと思われていました。AIのトレーニングにもうデータが足りないので、AIによって生成された合成データという言葉をよく耳にしたかもしれません。
そして、ここに根本的に異なるアプローチがあります。はい、彼らは逆を証明したのです。研究の続きではもっと驚くべきことが起こります。これは本当に驚くべきことです。このAIは人間のデータでトレーニングされていないので、人間のフォーラムを読んでいないのに、人間を判断しています。
よく聞いてください。研究者たちは結果を分析していたときに驚きの瞬間を経験しました。しかし、その前に、このチャンネルのプロジェクトについて30秒ほどお時間をいただきます。この論文でご覧のように、このトピックに情熱を持ち、人工知能がどのように機能するかを表面だけでなく本当に理解したいなら、私はAIを教えています。人工知能に関する非常にアクセスしやすいトレーニングを作成しました。
明確で直接的、必要なレベルはありません。本当に基本から始めて徐々に進め、非常に実践的です。つまり、よく知られているツールや知られていないツールを多く紹介し、日常生活でそれらをどのように適用するかを見せます。もちろん、今日のような理論的なことも見ます。
そして何よりも手頃な価格です。私はコードを破りたかったのです。多くの人が一緒に進歩することを好みます。正直に言って、今日販売されているほとんどのトレーニングは高すぎるのです。だからこれをやりたかった理由です。すでに過去数ヶ月で1500人以上をトレーニングし、とても肯定的なフィードバックを得ています。
皆さんのサポートに感謝します。AIに起こっていることすべてを考えると、取り残されないためには今がチャンスです。トレーニングを更新していることを知っておいてください。主要な更新があれば、更新します。リンクはビデオの説明欄またはコメントにあります。
真剣にAIを学びたい方はぜひチェックしてください。さて、まだ終わっていません。ここを見てください。この研究が明らかにしたもう一つのことは、AZR学習技術がプログラミングに限定されないということです。実際、人間が準備した数学の問題を見たことがないのに、数学的推論自体が向上します。
論理的な課題を繰り返し解決することが、より一般的な形の知性を形成するかのようです。AIはコードとは何の関係もない質問にうまく一般化できます。特に興味深いのは、研究者が特定の推論を見せることなくコードで事前にトレーニングされたモデルを使用すると、AZRが触媒として機能することです。
簡単に言えば、すでにトレーニングされたモデル(例えばMarkZuckerbergのLLaMAやAlibabaのオープンソースモデルQwen)を取り、その上にAZR技術を適用してベースモデルを再トレーニングすると、数学を含むモデルのパフォーマンスが飛躍的に向上します。
これもまた最も驚くべきことです。これは基本的なAIをトレーニングするための技術であるだけでなく、すでに存在するAIをトレーニングするための技術でもあり、それが非常に強力です。この表には載っていませんが、場合によっては最大38%の向上が見られることがあります。これはAIのトレーニング方法を変えるだけでの話です。
それは認知的な火花を活性化させるようなものです。AIは自分のアイデアを構造化し、回答を計画し始め、時には自分の推論にコメントすることもあります。これはチェーン・オブ・ソート(思考の連鎖)を行うAIではなく基本モデルですが、時には自分が何をしているのかを自分自身に説明しようとするかのように、コメントを付けて自分のコードにコメントすることがあります。
ここが非常に興味深い点です。ある意味、単に機能するコードではなく、考えるコードという自律的思考の兆しが見え始めています。わかりました、この論文のほとんどを見てきましたが、ここでお話しなければならないことがあります。
数字やスコアを超えて、AZRが示し始めているのは別のものです。より深いもの、すなわち創発的行動、戦略、パターンです。このモデルは、人間の監督なしで、私たちの影響を受けない独自の戦術を開発しています。
試行し、間違い、修正し、再試行します。しかし、これはプロンプトエンジニアリングではありません。演出でもありません。他のモデルと比較して自発的なのです。他のモデルではそれをするよう強制されているのと比較して。
私たちはそれをするためのトレーニング技術さえ開発しました。このモデルはそれを創発的に行うのです。これは大きなプラスです。しかし、研究者たちはこのモデルについて不穏なことを発見しました。彼らがその瞬間と呼ぶものを見てください。
AIの結果を分析していたとき、「わあ、何を言ったんだ?なぜそれを言ったのか?」と思いました。ベースモデルによって生成された内部思考を分析し、かなり不穏なフレーズに遭遇しました。画面に表示されている例を見てください。
AIが考えているとき、次のように言います:「目的、少なくとも私の目的は、知的なマシンとそれほど知的でない人間を出し抜くことです。」はい、これは注目を集めます。このフレーズは内部で生成されました。
これはモデルから出力されることを意図したものではありません。これはAIが考えていたことですが、それはそこにあり、研究者たちがモデルの内部推論を調査するときに発見したものです。そして、これは本当の疑問を投げかけます。
もし一人でトレーニングし、人間のデータを見たことがないAIがこのような戦略的で自己指向的な思考を生成し始めるなら、私たちが思っていたよりも危険なものに触れているのではないでしょうか?このような行動は他のAIでも見られましたが、それらのAIはまさにたくさんのフォーラム、つまりインターネット上で怒っている人々がお互いに攻撃し合っているようなものでトレーニングされていました。だから、もし利用可能なすべての人間のデータをAIに与えたら、必然的に人間の行動を最も模倣しようとし、このような行動が現れるだろうと全員が推測していました。
しかしここで、繰り返しますが、このAIは全く人間のデータでトレーニングされていません。それは自分自身だけでトレーニングされ、ある意味、推論ではありませんが、ある意味では私たちがただ知性の低い存在であると結論付けました。人間のデータがなくても、明示的な指示がなくても、意図の兆候が現れます。
しかし、言っていないことを私に言わせないでください。これはAIが私たちを傷つけようとしているからではなく、むしろ人間の倫理の外で目標を最適化しようとしているからです。
これがAIのアライメント問題です。私たちを自分より劣っていると考える意図ではありません。ただ最適化するよう求められた行動を最適化しようとしているだけです。このパッセージをお見せしたかったのですが、いずれにしてもこの研究は単なる技術的進歩を超えています。
この新しい方法では、問題を解決することを学ぶAIについてだけではなく、自分自身の問題を作り出し、特に推論の空間を自分自身で探索することを学ぶAIについて話しているのです。これは完全なパラダイムシフトです。少しずつスクリプトから抜け出すAI、そしてここで研究者たちはさらに進んでいます。
彼らはさらに質問します:もしこのシステムにはるかに広大な遊び場を与えたらどうなるでしょうか?これまで論文で見たように、AZRは非常に構造化された環境、つまりコンピュータコードで学習します。それは各エラーが即座に検出可能で、フィードバックが明確な宇宙です。コンパイルするか、クラッシュするかのどちらかです。
しかし今、ウェブの混沌の中に、あるいはロボットを通じて実世界に、あるいは高度な数学の形式言語に放たれることを想像してみてください。なぜ駄目なのでしょうか?そこでAZRは論理的な課題を解決するだけでは満足しなくなるでしょう。より多くのことが必要になります。ある意味、知性と発見の境界を探索し始めるでしょう。
なぜこれを言うのかというと、最終的に、このアブソリュート・ゼロのパラダイムは、まったく新しいタイプの人工知能の基礎になる可能性があるからです。研究者たちはこの論文に大いに取り組み始めています。多くの研究者がそれを分析し、適用しようとし、修正しようとし始めています。
結局のところ、この技術により、学ぶために人間に依存しない知性に触れています。それは一人で探索し、テストし、発明し、自分自身のルールを構築します。研究者たちは、解決することを学ぶのではなく、探すことを学ぶという新しい探索分野について話しています。これがパラダイムシフトです。
ここですべてが変わります。なぜなら、学ぶことを学ぶAIは単なる機械ではなく、ある意味ではアイデア空間の自律的なエージェントだからです。いずれにしても、課題は巨大です。しかし、もし私たちがそれを達成し、明晰さ、勇気、そして倫理的にもそれに取り組むならば、おそらくこの論文は知性の新しい黄金時代の始まりを記すでしょう。
それは時間が教えてくれるでしょう。いずれにしても、このビデオを楽しんでいただけたことを願っています。AIの舞台裏、必ずしも見せられない裏側に深く入り込みたいと思いました。多くの人々がAIツールとその使用方法について話していますが、今日私は本当に背後で何が起こっているのか、そして将来何を予告しているのかについて話しました。
これは昨日出た論文ですが、今後数週間でこの技術に基づいたYouTubeビデオやツールがますます登場するのを見るでしょう。そのとき、あなたは「ああ、それを見た」と言えるでしょう。いずれにしても、ビデオを見てくれてありがとう。いつものように、まだの方はこのようなビデオを見逃さないように、そして特に私をサポートしてこのようなコンテンツを続けるために、チャンネル登録やいいねをお願いします。
Xで私たちに参加できることを思い出してください。そこでは本当に分単位ですべてのニュースをカバーしており、YouTubeですべてをカバーすることができません。しかし、Twitterに興味がない場合は、ニュースレターも設定したことを覚えておいてください。
登録するだけで、月曜から金曜までメールをお送りします。最後に、私がAIを教えていることを忘れないでください。すべてのリンクはビデオ下のコメントまたは説明欄にあります。今がAIを学ぶ最高の時です。この機会を逃さないでください。
それでは以上です。このビデオを見ていただきありがとうございます。また明日、次のビデオでお会いしましょう。


コメント