本動画では、AIが自らを改善する「自己改善AIエージェント」の最新研究について解説している。特にJurgen Schmidhuberらによる「Huxley Gödel Machine」は、従来の短期的な性能改善に依存する手法の限界を克服し、子孫エージェントの潜在的な改善可能性を予測する「クレード・メタ生産性(CMP)」という新しい指標を導入した。この手法により、進化の系統樹において一見劣って見える分岐が、長期的には最良の結果をもたらす可能性を評価できるようになった。実験では人間が設計したエージェントと同等の性能を達成し、しかも計算時間とコストを大幅に削減することに成功している。再帰的自己改善という理論的な「知能爆発」への道筋が、徐々に現実のものとなりつつある状況を示す重要な研究である。

自己改善AIと知能爆発の可能性
AI界隈の多くの人たちが今、期待を持って注目しているものの一つが、自己改善AIエージェントの出現です。基本的に、AIが自分自身を改善できるようになったとき、つまり独自の機械学習研究を行い、特定のタスクでより良くなるために自分自身のソースコードや重みを修正できるようになったとき、事態は興味深くなります。なぜなら、それがどこまで進むのか、私たちにはよく分からないからです。
これが、潜在的に知能爆発を引き起こす可能性のあるポイントです。皆さんは間違いなくこのチャートを数百万回は見たことがあるでしょう。私が自分のチャンネルで少なくとも100万回は見せたからです。でもアイデアはこうです。私たちがこのあたりのどこかに到達すると、自動化されたAI研究が引き継ぎ、AIの進歩がこのように爆発的に起こるというものです。
もちろん、これは理論的なものです。そこに到達するかどうかは分かりません。でも私たちは、この理論的な知能爆発に至る範囲の中にいます。そして、いくつかの論文や研究が、それが実際に明らかになってきていることを示しています。Sam Altmanが言ったように、私たちは再帰的自己改善の幼虫段階にいるのです。
さて、ここにJurgen Schmidhuberという人物がいます。彼は非常に興味深い人物です。なぜなら、AIの行く先についての多くのアイデアを含む多くの論文を発表していたからです。Jurgen Schmidhuberが基本的に昔すべてを発明していて、後のAI研究者の多くが彼のアイデアをクレジットせずにコピーしただけだという冗談が広まっています。
Jurgen Schmidhuberが何かを書いていて、Geoffrey Hinton、Yoshua Bengio、Yann LeCunといった人たちが彼をコピーしているというミームが出回っています。そして彼の投稿がこちらです。彼は、みんなが今、再帰的自己改善とゲーデルマシンについて話していて、これがどのようにAGIにつながるのかと言っています。
彼は2003年にこのコンセプトについて話し始めました。そして今日、あるいは最近、何気なくこれを発表しました。私たちのHuxley Gödel Machineは、自身の長期的な自己改善の潜在能力を推定しながら、自身のコードを書き換えることを学習します。それはSWE-bench Liteの新しいタスクで一般化し、公式にチェックされた最高の人間が設計したエージェントと同等の性能を示しました。
このAIエージェントが自分自身のブートストラップを引っ張り上げているような感じです。頭からワイヤーが出ているものもあります。そうです、私たちは文字通り、Jurgen Schmidhuberが著者の一人として名を連ねている自己改善エージェントに関する研究論文を持っているのです。そして、過去にこのアプローチがどのように行われていたかについての大きな疑問や潜在的な制限の一つを、彼らが解決したようです。
過去というのは、この1年ほどのことだと思います。今年の初めに、Sakana AIからこの研究を見ました。Darwin Gödel Machine、自分自身のコードを書き換えることで自己改善するAIです。それは進化的探索、ダーウィン的探索というアイデアについて語っていました。つまり、異なるエージェントを試して、それらのエージェントの異なる修正が、コーディング能力をどのように向上させるかを確認するのです。
彼らには、これを本当によく説明する素晴らしいチャートがありました。SWE-benchというソフトウェアエンジニアリングタスクについてのベンチマークと、大規模言語モデルを使っています。AI、このエージェントは自分自身の修正を作成し、SWE-benchでどれだけうまく機能するかをテストして、異なるアプローチを試みます。
いくつかはあまりうまく機能しないことが分かります。それが赤いものです。そしてしばしば、悪い結果が出ると、その系統は終わります。一方、あるアプローチがうまく機能すれば、それは続きます。これを、犬や馬などを特定の特性のために繁殖させる方法と同じように、系統として考えることができます。
これと似たようなものだと考えることができます。このアプローチはいくらかの改善を示します。だから、可能な限り最良の解決策が得られるまで、それを続けましょう。これらを世代のようなものとして考えることができます。各新世代は、うまくいけば前の世代よりも改善されています。そして確かにこれは驚異的に見えます。
これは素晴らしく見えます。でも疑問が出てきます。最初の試み、ここで見られるように、それは良いものではなく、だから止まりました。この系統はなかった。その家系図は絶滅しました。でも、これの2番目、3番目、4番目の反復を作成したらどうなるでしょうか。これらすべての行き止まりを取って、さらに続けることを許可したらどうなるでしょうか。もしかしたら、最初は結果が悪かったかもしれないけれど、時間が経てば最良の結果を達成できた可能性はありますか。
このチャートを見ると、私たちには本当に分かりません。現在、多くのものがAIネイティブになっているのを目の当たりにしています。私は2010年に最初の成功したウェブサイトを構築しました。当時、私はWordPressを使いました。なぜなら、それは100%オープンソースで無料で、ウェブの43%を動かしていて、開発者コミュニティがあり、何千ものプラグイン、SEO、ユーザー管理があったからです。
15年後の今でも、私はすべてのウェブサイトでWordPressを使っています。それを超えるのは難しいです。だから、TenwebがWordPress用のVibeを構築していると発表したとき、私はかなり興奮しました。ちなみに、このビデオをスポンサーしてくれたTenwebに大感謝です。でも、なぜ私がこれに興奮したのかに戻りましょう。これがVibe for WordPressです。
これは世界初のAIネイティブなバイブコーディングのフロントエンドビルダーで、WordPressと完全に統合されています。バイブコーディングの創造的自由を提供します。どんなレイアウト、アニメーション、テーマも構築でき、WordPressのパワー、スケーラビリティ、プラグインエコシステムも備えています。では、バイブコーディングについて語り、ブログとコミュニティメンバーがチャットできるフォーラムを持つウェブサイトを作成できるか見てみましょう。
プロンプトを入力すると、数秒後に、異なるページ構造と、それらのウェブページに必要かもしれないさまざまな機能を持つウェブサイトの提案レイアウトが表示されます。ちなみに、あなたはただプロトタイピングしているだけではありません。完全なCMS、つまりコンテンツ管理システム、SEOツール、ユーザー管理、そして何千ものプラグインがすべて組み込まれた、実際のローンチ可能なウェブサイトを構築しているのです。
AIチャットで編集することも、コードエディタに飛び込むこともできます。完了したら、公開を押すだけです。ホスティング、ドメイン、CDN、SSL、バックアップなど、重要だけど時には退屈なものはすべて、すでに処理されています。そして最高の部分はこれです。あなたは自分のコードを所有しています。すべてがオープンソースで、ポータブルで、どこにでも拡張できます。
ロックインもなく、制限もありません。そして、エージェンシー、ホスト、SaaSプロバイダー向けに、もうすぐ登場する大きな機能があります。Vibeには完全なホワイトレーベルスイートが含まれます。自分のブランドでサイトを再販したり、API経由で作成を統合したりできます。このチャンネルをフォローしている方なら、多くの大手AIフロンティアラボが、チャット内で直接eコマースサイトやアプリと対話できるようにしていることをご存知でしょう。
なぜそれが重要なのでしょうか。Vibeの今後の機能には、完全なWooCommerce統合が含まれます。それは、eコマース向けの完全なサポートと、ウェブサイトを超えたアプリを作成する機能です。だから、もしAIのパワーと本当のWordPressの安定性が欲しかったなら、これです。Vibe for WordPressをチェックして、文字通りAIとチャットすることで、どれだけ速く次のサイトを構築できるか見てください。
説明欄とピン留めコメントにリンクがあります。何を構築するか教えてください。こちらはAlex Duffyです。最近彼にインタビューしました。素晴らしいインタビューでしたが、彼はこれについてコメントして言っています。「Schmidhuberのチームが、再帰的自己改善が大規模に機能し、一般化することをさりげなく証明している。コーディングエージェントは、人間のエンジニアと同等になるまで、何百回も自分自身を書き換えた。
ベンチマークの最大化ではできないけれど、エージェントの家系図を追跡して、実際に改善し続けている系統を見つけることができる。加速は続いている。」では、この論文を簡単に見て、彼らが何を見つけたのか見てみましょう。Huxley Gödel Machine、最適な自己改善マシンの近似による人間レベルのコーディングエージェント開発です。
最初に、いくつかの最近の研究が、自分自身のコードベースを編集できるコーディングエージェントを通じた自己改善を示していると述べています。それらは、より高いソフトウェアエンジニアリングベンチマークのパフォーマンスを好む拡張戦略を通じて、自己修正のツリーを成長させます。これは、より有望な後続の自己修正を意味すると仮定しています。
繰り返しになりますが、これが私がSakana AIを見せたかった理由です。なぜなら、これがこの種の唯一の研究ではありませんが、彼らのブログ投稿ですべてを説明する最高の仕事をしたと思うからです。Sakana AI、本当にありがとうございます。これで私の仕事がとても楽になります。彼らは本当にすべてを非常にアプローチしやすい方法で説明することができました。
だから、私たちが読んだ最初の段落や数文のポイントは、この考え方です。最終的な最良のエージェントがあると言っていて、それは明白かもしれないし、そうでないかもしれませんが、私たちはそれを仮定しているのです。だから、これが改善され、これが改善され、各ステップが改善であり、改善しないものはすべて消えていくなら、これが最良のものだと言います。
でも繰り返しますが、ここで切り離されたこの枝を取って、絶滅したと言えるものを続けたらどうなるか、私たちには分かりません。ここの最終ステップや20ステップ先がどのように見えるか、私たちには分かりません。これよりも悪いと仮定していますが、実際にはそうではないかもしれません。そして彼らはここで概念を導入しています。
彼らはそれをメタ生産性パフォーマンスミスマッチと呼んでいます。メタ生産性とは、エージェントの自己改善の潜在能力です。つまり、これが最終的な最良のエージェントだと言っているこのエージェントを取って、この最終的な最良のエージェントが元の出発点に対して100%の改善があるとしましょう。
だから、ここからここまでが100%です。理解しやすいように作っているだけです。実際のパフォーマンスはもっと良かったと思います。そしてもっと重要なのは、タスク間で多くの一般化があることです。それについては後で触れます。でも、Jurgen Schmidhuberの論文や他の著者のポイントだと思います。
彼を特定しているようで申し訳ありません。彼は論文の最後の名前ですが、つまり彼がその論文を積極的に構築することに最も貢献しなかったことを意味し、いわばアドバイザー的な役割を果たしたということですが、彼は私たちが取り上げている大きな名前です。でもポイントは、この絶滅したツリーを続けて、別の結果、別の結果、別の結果を得て、最終的にここのどこかで結果が改善され、元のものに対する最終的な改善が200%だったとしましょう。
だから、達成したものと達成できたかもしれないものとの違いは、これが最良の潜在的パフォーマンスだと想像すると、これがメタ生産性とパフォーマンスのミスマッチです。ちなみに、Machine Learning Street Talkで、彼らはGoogle DeepMindのAlpha Evolveプロジェクトに取り組んだ実際の研究者にインタビューしました。これはいくつかの点で似ていて、少なくとも、より良く最適化された結果のための進化的探索があるという意味で似ています。実際に、
それらの研究者が話したことの一つは、これらの小さな系統や世代のどれが続いて時間とともに良くなるかを知る方法が本当にないか、または難しいということでした。あるいは、これを何世代実行するか、ですよね。ここで特定の結果を達成したら、あるいは100世代続けたらどうなるか、それはより良くなるでしょうか。そして想像できるように、すべてにお金がかかり、これを実行するための計算が必要です。
時間とハードウェアリソースなどがかかります。だから、これを無限に実行できるわけではありません。だから、この想像上または理論的な結果は、最良の潜在的な可能性である数回の改善かもしれませんが、それがどこにあるか、またはこの種のメタ改善/パフォーマンスギャップがどれだけ大きいかを理解または予測する簡単な方法があるかどうかは分かりません。
さて、論文に戻りましょう。Huxley。Huxleyとは誰でしょうか。どうやらHenry Huxleyのようです。しばしばダーウィンのブルドッグと呼ばれ、ダーウィンの強固な支持者でした。そしてHuxleyにはクレードの概念がありました。ちなみに、時々、特定のものの発音方法を調べようとします。つまり、これはおそらくクレードでした。それは分かっていましたよね。でも、Gödelというこの名字のように、私は
ゴッドと発音し始めたと思います。私は多くを読む傾向があります。なぜなら、これがビデオやオーディオよりも、情報を脳に入れる最もコンパクトで凝縮された方法だと思うからです。少なくともこのようなものについては。だから、時々リーダー発音と呼ばれるものがあります。特定の単語を何度も見ると、頭の中でそれを言いますが、他の人がそれを言う方法とは異なるかもしれません。
これらのYouTubeビデオを作成することで、私は物事を正しく発音しようとする習慣を身につけなければなりませんでした。そして、すべての発音のソースが実際に正確というわけではありません。オンラインには大量の誤情報があります。YouTubeにフランス人の紳士がいて、これまでのところただ素晴らしいです。
彼は重いフランス語のアクセントで始めますが、それが英語の単語であろうとドイツ語の単語であろうと、常に完璧に発音します。でも、時々YouTube検索を実行するのに少し時間がかかります。だから今日は、正しく発音していることを確認するために、ChatGPTで素早く確認したかっただけです。
それが私が言ったのと同じ方法でそれを言った場合に備えて、その単語を言いたくありませんでした。だからヒントを与えて、それを声に出して言ってもらいたかったのです。だから、Cで始まるHenry Huxleyに触発された概念は何かと尋ねました。これが彼が言ったことです。あなたはおそらくThomas Henry Huxleyのことを考えているでしょう。彼は19世紀の生物学者で、しばしばダーウィンのブルドッグというニックネームで呼ばれていました。
Cで始まる彼のよく知られたアイデアの一つは、不可知論の概念です。彼は不可知論者という用語を作りました。だからCで始まるよく知られた概念は、彼の不可知論の概念です。不可知論のC。ちなみに、なぜそのようなことが起こるのか、またはなぜこれらの大規模言語モデルが、例えばstrawberryという単語のRの数を数えるのが難しいのかを知りたい場合、Andrej Karpathyがそれを素晴らしく説明しています。
それは本当に、LLMが私たちの単語、言語をどのように見るかに帰結します。そして彼らがそれをどのように行うかは、トークン化を通じてです。各トークンは、ほとんど奇妙な絵文字のようなものとして考えることができます。私たちが見るのと同じ単語を見ているのではなく、トークンで見ています。各トークンはほとんどシンボルのようなものです。だから、strawberryにRがいくつあるかと尋ねると、その質問はLLMにとってこのように見えるかもしれません。だからRもstrawberryもありません。
そしてそれが、agnosticがCで始まると考える理由である可能性が最も高いです。とにかく、クレードという単語が導入されたのは、1958年にドイツの生物学者Julian Huxley、Thomas Huxleyの孫によるもののようです。ちなみに、AIや他のことについて研究を続けると、このパターンに気づくことができるか見てください。
私たちのAI研究、機械学習、ニューラルネット、そういったもののどれだけが自然界から反映されているか。私たちが使用する概念の多く、私たちが到達するブレークスルーの多くは、しばしば生物学の何かに非常に明確な類似性を持っています。そしてこれも例外ではないようです。
1800年代半ばには、多くの博物学者がまだ種が下等な形態から高等な形態へと線形階層で進化すると考えていました。これは今年初めにSakana AIなどで見たものと同じです。各ステップが少し良くなるというものです。正しい方向への一歩です。そしてHuxleyは代わりに、種が共通の祖先から異なる系統に分岐する分岐進化系統樹を主張しました。
つまり、骨、頭蓋骨、神経系のような解剖学的特徴を比較して、関連性の程度を推測するというアイデアです。だから、最悪から最良への改善の線形ラインの代わりに、代わりに異なる祖先からのいくつかの特徴を見つけて、その系統がどれだけ良いか、または将来の子孫がどれだけ良いかを推定しようとしています。
彼らはここで言っています。このクレードの概念に触発されて、私たちは自己改善の潜在能力の指標として、エージェントの子孫のベンチマークパフォーマンスを集約するメトリックCMPを提案します。だからCMPはクレード・メタ生産性CMPで、基本的に彼らはこのメトリック、CMPを使って、特定の仮定の下でこのゲーデルマシンがどれだけうまく振る舞うかをシミュレートできます。
言い換えれば、彼らはこの理論的なツリー、または枝を予測できるようです。だから、そのCMPに基づいて、これが潜在的にどこに行き着く可能性があるかを予測できます。そしてこれを念頭に置いて、彼らはHuxley Gödel Machine HGMを導入しました。CMPを推定することで、つまり、子孫や将来の子孫が時間とともにどれだけ良くなれるかを推定することで、それをガイダンスとして使用し、自己修正のツリーを探索します。
関連するベンチマークでは、以前の自己改善コーディングエージェントを上回り、実時間、つまり実際の時間が少なくて済みます。時間を計測すると、より短い時間がかかります。最後に重要なことですが、HGMは他のコーディングデータセットや大規模言語モデルへの強力な転移を示し、これは非常に重要です。
どれだけ良くなるかが狭い範囲のものは望んでいません。言語やアプローチなどを超えて一般化できることを望んでいます。一般的に賢くなることを望んでいます。そして重要なことに、GPT-4oでSWE-bench Liteで測定されたこのアプローチは、人間が設計したコーディングエージェントの公式にチェックされた最良の結果と同等の人間レベルのパフォーマンスを達成します。
だから、これは大きな問題になる可能性があるように思えます。なぜなら、どの枝が最終的に最良の結果につながるかを推定できる公式やメトリックがあれば、明らかにそれは素晴らしいことですよね。だから、どの経路をたどるべきかを予測でき、計算の時間とお金の両方を節約できます。
そして私がここに書いたように、中心的な課題は、どの自己修正を受け入れるかをどのように決定するかです。最近の実装では、より高いベンチマークパフォーマンスを持つ自己修正を使用するだけです。だから、短期的な結果を見て、それらが最良の長期的な結果につながると仮定しています。
言い換えれば、高得点のエージェントは非生産的な子孫を生み出す可能性があります。逆に、低得点のものは、より大きな長期的利益を達成する系統の種になります。この現象をメタ生産性パフォーマンスミスマッチと呼んでいます。これはAIとバイオテクノロジーの多くの進歩とともに今考えると非常にクレイジーです。なぜなら、自然界で進化してきたものよりもはるかに優れた、信じられないほどの生物学的特徴と修正を作成できると仮定するのが非常に合理的に思えるからです。なぜなら、繰り返しますが、
系統を通じて、世代を通じてこのツリーを通過するには、より良くならなければなりません。これらのどれも大幅な後退であってはなりません。現実世界で実行可能でなければなりません。そうでなければ、生き残れません。だから、しばらく悪かったけれど、本当に良くなったこれらの奇妙なものが、現実世界では実行可能ではないかもしれませんが、自然に進化したもののどれよりもはるかに良い可能性があるのです。
だから、繰り返しますが、本当に速く、CMP、クレード・メタ生産性、またはクレードレベル・メタ生産性かもしれません。彼らは両方のものとしてそれを参照していると思います。でもそれが何かというと、これです。コーディングがかなり得意な元のコーディングエージェントがあります。私たちの大規模言語モデル、このAIは、そのコーディングエージェントをコーディングでより良くするコードを追加しようとします。
Sakana AIの論文から、文字列置換によるより細かいファイル編集や、コンテキスト制限での自動要約などの例があります。だから、コンテキストウィンドウの制限に近づいている場合、おそらくすべてを要約して、そのコンテキスト全体を保持する必要がなく、次のインスタンスに持ち越す必要があるものだけを保持するのです。そして、これらの異なる追加がもたらすジャンプを見ることができます。だから、前のバージョンとこれの間のジャンプを見てみましょう。これを追加したときに、だから、
1つの戦略を追加し、それがこのエージェントにつながったとしましょう。このエージェントは、テストしているベンチマークで10ポイント増加しています。だから、10ポイント改善しました。よくやった。ここのこのロボット、またはこのコーディングエージェント、私たちは異なる戦略を試し、これは1ポイントしか改善しませんでした。
だから、改善ですが、それほどエキサイティングではなく、それほど素晴らしくありません。だから、通常これ以前は、10ポイントを獲得したエージェント、短期的な結果が良かったので、これを続けます。だから、別のものを続けて、別のもの、別のものと続けて、ここで10ポイント、ここで10ポイント獲得したかもしれません。だから、この小さな枝を実行すると合計30ポイント追加されます。
私の頭がここで邪魔しています。プラス30ポイント。でも、私たちが知らなかったのは、この側を実行しなかったからです。これを続けると、もしかしたらこの最初の反復は悪かったけれど、それを構築し続けると、これは50ポイント、50ポイント獲得し始めたかもしれません。だから、この3回目の反復は試験で合計101追加ポイントを持っていましたが、これは30ポイントしかありませんでした。
過去にどのように行われていたかというと、いくつかのことによって制限されていました。1つは、この次の世代を実行するたびに、停止してこのエージェントとこのエージェントを評価していました。だから、これら2つを実行して、何ポイント獲得したか、何ポイント獲得したかと言い、それからこれを切って、ここに行って、これを実行して、何ポイント獲得したかと言い、今これを実行して、何ポイントと言っていました。この新しいアプローチCMPでは、
この系統を実行し続けた場合により良いエージェントを得る可能性がどれくらいあるかを推定します。もう一つの利点は、毎回評価を行う必要がないことです。だから、これら2つを実行して評価し、それに基づいて、これらを3回の反復実行し、これを任意の数の反復実行してから最終的なものをテストするかもしれません。だから、毎回、つまり評価していません。
そして、これが彼らのクレード・メタ生産性推定器です。これがその公式です。そして繰り返しますが、その系統で最高のパフォーマンスを持つ子孫の推定パフォーマンスを見つけようとしています。各反復で、アルゴリズムはまず評価するか拡張するかを選択します。以前の方法では、新しく作成されたエージェントを作成直後に直接評価していました。
これを試して評価します。この新しいアプローチには、より迅速により多くのサンプルを収集するという追加の利点があります。だから、拡張を長く実行し、必要に応じて評価できます。最後に、実際の結果はどうだったでしょうか。どれだけうまくいったでしょうか。ここに2つのベンチマーク、SWE Verified 60とPolyglotでの比較があります。
どちらも非常によく知られたコーディングベンチマークで、興味深いことにDGMです。だからそれは私たちが話してきたSakana AIからのDarwin Gödel Machineです。だから、これは実際に素晴らしい比較です。彼らは似たようなことをしています。だから、HGMでの控えめな改善に注目してください。Huxley Gödel Machine対Darwin Gödel Machine。
だから繰り返しますが、これはSakana AIで、これが私たちが話している新しいものです。だから改善がありましたが、実行にかかる時間がはるかに少ないことにも注目してください。はるかに安価です。Polyglotでも同じです。パフォーマンスが顕著に向上しており、繰り返しますが、以前のものよりも実行時間がはるかに短いです。HGMはまた、GPT-4o miniのSWE Verifiedリーダーボードで構築された最良の人間設計エージェントを上回りました。
これは最高得点のGPT-4o miniベースのシステムで、Claude Sonnet 3.7のような5倍高価なモデルを含む他のシステムと比較しても、トップ10に入っています。これらのアプローチはよく一般化します。だから、このベンチマークのゲーム化が得意になっているだけではありません。ベンチマークに過剰適合してそれを解読する方法を見つけているだけではありません。
他のモデルにも転移します。だから、これらのエージェントを取って、より大きなモデルで使用すると、それでも転移します。だから非常に興味深い発見です。結論として、彼らはこれを、これらの自己証明モデルを構築するための良い効果的なアプローチとして提案しています。
どの系統が将来最高のパフォーマンスを発揮するエージェントを生み出すかを予測するというアイデアは、確かに非常にエキサイティングです。それが生物学、自然界といくつかの類似点を持っているのも興味深いです。Jurgen Schmidhuberの名前がこれに関連する論文に登場するのを見るのはエキサイティングです。だから、興味深いアプローチと興味深い小さな論文です。
これについてどう思ったか教えてください。これは興味深く、エキサイティングですか。このようなアプローチがすぐに自己改善エージェントに私たちを導くと思いますか。コメントで教えてください。ここまで来てくれた方、視聴してくださって本当にありがとうございます。


コメント