元OpenAI研究者が公開したこれは…

元TeslaおよびOpenAIの研究者であるAndre Karpathyが、オープンソースの機械学習自動研究システム「AutoResearch」を公開した。このシステムは、家庭用コンピュータ上で動作し、AIモデルのトレーニングコードを自律的に改善する。Leopold Aschenbrennerが提唱した「知能爆発」仮説、すなわちAIがAI研究者を代替し始める時点から急速にAGIからASIへと進化するというシナリオに、この技術が実質的な一歩を踏み出したと言える。Karpathyのシステムは2日間で650回の実験を実行し、検証損失を改善する20の変更を発見、GPT-2相当のモデルへの到達時間を11%短縮した。これは小規模ながら実際の成果を上げており、さらに複数のエージェントを協調させる分散型研究の可能性も示唆されている。単一の研究機関ではなく、世界中の開発者が貢献する形での知能爆発という、これまでにない展開が現実味を帯びつつある。

this EX-OPENAI RESEARCHER just released it...

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

知能爆発の引き金を引いたのは誰か
知能爆発という仮説
AutoResearchの登場
未来からの視点
進化的アプローチとの類似性
実際の成果
NanoChatとAutoResearchの仕組み
セットアップと動作
実際の改善結果
研究者としての驚き
複数エージェントの協調と分散型研究
分散型知能爆発の可能性

知能爆発の引き金を引いたのは誰か

Karpathyが知能爆発の引き金を引くことに賭けていた人は、正解でしたね。もしこれをご存じない方がいたら、この話題は今まさに炎上している最中です。興奮している人もいれば、少し怖がっている人もいます。Andre Karpathyは、元Tesla、元OpenAIの研究者で、現在は自身のAI教育企業に取り組んでいます。

彼の目標は、私が見る限り、大規模言語モデルの構築方法やトレーニング方法などを、誰にでも非常にアクセスしやすいものにすることです。これまでに彼はトレーニングビデオと、家庭で独自のGPTをトレーニングできるオープンソースのモデルやコードベースをリリースしてきました。ClaudeやChatGPT、Geminiといった大規模言語モデルと同様のものを、彼が書いたコードと説明書を使って、自宅のコンピュータで小規模バージョンを構築できるんです。

しかし数日前、彼はさらに一歩進みました。オープンソースの機械学習自動研究者をリリースしたんです。多くの方がこのグラフを覚えていると思います。これはLeopold Aschenbrennerのものです。彼は元OpenAIの安全性研究者でした。OpenAIを退職してヘッジファンドを立ち上げ、様々なAI技術に投資する投資ファンドを運営していて、非常に順調にやっています。

知能爆発という仮説

彼はこの仮説的なシナリオ、知能爆発について語っています。AIの開発の軌跡を追っていくと、どんどん賢く、優れたものになっています。ある時点で、私たちはこの仮説を持っているんです。将来を予測すると、ある時点でAIがAI研究者を置き換えられるほど賢くなる。AIが人間よりもAI研究をうまく行えるようになるということです。

そうなると自動化されたAI研究が実現し、それが知能爆発の引き金になります。別の考え方をすると、AGI、つまり汎用人工知能と、ASI、つまり人工超知能の間ですね。その範囲、そのタイムラインはそれほど長くないかもしれないということです。AGIに到達し、自動化されたAI研究が実現すれば、それが知能爆発を生み出し、非常に素早く超知能に到達するというわけです。繰り返しますが、これは仮説です。

多くの人がこれに異議を唱えています。同時に、これらのAI研究所の多くの人々がこれについて語っています。AIモデルが次世代のAIモデルの改善に役立つということを完全に否定する非常に有名な人々もいますが、Google、Sakana AI、Anthropic、OpenAIからの事例は山ほどあります。

最近、xAIの数名の研究者が、今後12ヶ月以内に再帰的自己改善に近づいていると言っています。繰り返しますが、これは噂かもしれませんし、誇大宣伝かもしれません。しかし数日前、Andre Karpathyがこの自動研究システムを公開しました。それほど大きなプロジェクトではありません。かなり小規模です。オープンソースで、ダウンロードできます。

AutoResearchの登場

あなたのコンピュータで実行できるんです。そして大注目を集めています。850万回の視聴数です。そして家庭用コンピュータで実行できるこのコードの目的、ゴール、機能は、機械学習研究を実施することです。その目標は自分自身を改善することです。だから冒頭で私が「Karpathyは知能爆発の引き金を引いたのか」と述べたわけです。こういう誇張表現を私がすると、非常に嫌がる方もいます。

だから少なくとも1つは各動画に入れるようにしています。でも真実は何でしょうか。これは知能爆発なのでしょうか。さあ、確かめてみましょう。Andreが何を考えているのか垣間見るために、GitHubのAutoResearchのreadmeファイルの最初の部分を見てみましょう。これは未来へのある種の洞察です。

2026年3月のこの瞬間を振り返って見ているような感じで、フロンティアAI研究はかつて肉のコンピュータによって行われていたと語っています。食事、睡眠、楽しみの合間に、時々波の相互接続を使って同期し、グループミーティングという儀式を行っていた、と。肉のコンピュータとは何を意味しているのか混乱している方もいるかもしれませんが、彼は私たち人間のことを指しています。

私たちが肉のコンピュータなんです。つまり、将来を振り返って、AI研究が人間によって行われていた時代を懐かしむだろうと言っているわけです。その時代はとうの昔に過ぎ去ったと言っているんです。研究は今や完全に、空中の計算クラスター巨大構造全体で動作する自律的なAIエージェントの群れの領域になっている、と。ちなみにAndreが大好きです。

未来からの視点

彼は非常に面白い人物です。私のチャットボットは彼がユニコーン騎士団に所属していると確信しているんですが、それに関する情報源も見つけられないし、ユニコーン騎士団が何なのかも分かりません。それはちょっと置いておきましょう。でもこれらの自律型AI研究エージェント、彼らは今やコードベースの第10,025世代にいると主張しています。まあ、そう主張しているということです。

とにかく、それが正しいか間違っているか誰にも分からないでしょう。なぜならコードは今や自己修正するバイナリになっていて、人間の理解を超えて成長してしまったからです。これは本当によく書かれていると言わざるを得ません。バイナリというのは、実行可能なコードのことで、ソースコードとは違います。実行できるもの、という感じですね。

つまり人間の理解を超えて成長した自己修正バイナリというわけです。そして私たちが見ているこのリポジトリ、このページ、彼が自動研究者のコードをアップロードした場所ですが、このリポジトリはすべてがどのように始まったかの物語なんです。さて、ここでのアイデアは非常に非常にシンプルです。

AIエージェントに小規模だが実際の大規模言語モデルトレーニングセットアップを与えて、一晩中自律的に実験させるんです。すべてがいかにシンプルか注目してください。この言語モデルがコードを修正します。5分間トレーニングします。結果が改善されたかチェックして、思いついた変更を保持するか破棄します。そしてこれを繰り返すんです。シンプルですよね。

進化的アプローチとの類似性

ところで、これは非常に深いウサギの穴に入り込む可能性があります。なぜなら、最近の私のインタビューをいくつか見ている方なら、ここで説明していることと明らかなつながりがあるからです。ちなみにこれは生命の仕組み、進化の仕組みそのものです。そしてこれは、こうした自己改善AIモデルを作る際のアプローチにもなりつつあります。

Google DeepMindのAlpha Evolveがその完璧な例です。Sakana AIのDarwin Girdleマシンも素晴らしい例です。人間の脳の概念を取り入れてデジタル化し、地球上の生命が進化を経たのと同様のデジタル進化をスピードランしているという点で、多くの類似点があります。

つまり、眠りにつく前にこれを動かしておくと、一晩中コードを改善し続けるんです。適者生存です。改善されれば生き残り、そうでなければ絶滅します。そして朝起きると、実験のログと、うまくいけば改良されたモデルがあるというわけです。これが単なる理論的なものなのか、実際に機能しているのか疑問に思っているなら、Shopifyの創業者であるToby Lukeがこう言っています。シンギュラリティが始まった、と。

兆候がたくさんあります、と。でもポイントは、ここで彼が言っているように、彼は機械学習研究者ではないということです。これはShopifyというeコマースソリューションを提供するテクノロジー企業の創業者兼CEOです。彼は寝る前にこれを動かすようにセットしたと言っています。詳細については後ほど見ていきますが、彼が言っているのは、機械学習研究者ではないけれど、これを読むだけで魅了されてしまうということです。

実際の成果

このモデルは、実験を通じて推論しているんです。数ヶ月間機械学習研究者をフォローしていたよりも、これから多くを学んだと彼は言っています。これが2日間にわたって動作し、650の実験を行ったんです。これはかなり狂気的な圧縮です。完全に自動化されています。この話には戻ってきます。Andreはこう続けています。ここでのトレーニングコードは、NanoChatの簡略化された単一GPU実装だと。

これらの大規模モデル、ChatGPTやClaudeなどの多くは、分散トレーニングを使用しています。つまり、NvidiaのGPUやTPUが大量に並列で動作し、すべて相互接続されているんです。ちなみに「大量」は科学用語です。ここで話しているのは分散型ではありません。1つのGPU、言ってみれば1枚のNvidiaカードです。

つまり、あなたのコンピュータで実行できるものについて話しているんです。そしてNanoChatは、これもAndreが構築したもので、彼がオープンソース化してリリースしているいくつかのプロジェクトの1つです。基本的に誰でも迅速に小さな大規模言語モデル、あるいは小規模言語モデルと言った方が良いかもしれませんが、独自のGPTを作成できるようにするものです。

例えば、初めて試してみたいだけなら、シェイクスピアの作品で文字レベルのGPTをトレーニングできます。1メガバイトのファイル1つで。GPUがあれば、彼が提供する設定で素早くベビーGPTをトレーニングできます。ご覧のとおり、256文字のコンテキストサイズでGPTをトレーニングしています。

6層のトランスフォーマーで、各層に6つのヘッドがあります。1つのA100 GPUで、トレーニング実行には約3分かかります。つまりこのポイントは、こういったものを作ることを学び、用語やその仕組みを理解し始め、実際にこれらをトレーニングする全プロセスを見ることができるということです。そして完了すると、シェイクスピアのキャラクターを演じ始めるわけです。

NanoChatとAutoResearchの仕組み

NanoChatは、そういうことができるようにするためのコードベースのようなものです。そういったものを作りたければ、それを使って特定のことができるように言語モデルをトレーニングするんです。ChatGPTやClaudeほど優れてはいません。小さなものですが、自分のコンピュータで実際に自分で構築して、質問をすることができます。おそらく面白い答えが返ってくるでしょう。

想像できると思いますが、トレーニングコードがどうなっているか、作成するこのモデル、このAIモデルの能力にどうアプローチするかによって、より良いものになるかもしれないし、悪いものになるかもしれません。そしてより良くするためのアイデアを思いつき、それをテストして、実際に改善できるか確認できるでしょう。

でもここで自動研究が登場します。疑問は、なぜこれらのモデル自身に仮説を立てさせ、テストさせ、何がうまくいき、何がうまくいかないかを確認させないのか、ということです。あなたが眠っている間に、どう改善するかを見つけようとする研究組織のようなものです。彼はここで、核心的なアイデアは、研究者として通常触るPythonファイルには触らないということだと言っています。コードには触れません。

代わりに、プログラムをプログラムするんです。マークダウンファイルがAIエージェントにコンテキストを提供し、自律的な研究組織をセットアップします。このプログラムはマークダウンファイルなので、テキストとコードですが、私たちが今読んでいるものは基本的にマークダウンファイルです。readme.mdを読んでいるようなものです。これはそのプレビューのようなものです。つまりウェブサイト、テキスト、リンクなどのようなものと考えることができます。

つまりreadmeファイルのようなものをプログラミングしているんです。自然言語で、英語で指示を書いているだけです。そしてそこに書いたものが何であれ、それがAIエージェントにコンテキストを提供して、自律的な研究組織をセットアップし、研究を進めてモデルを改善する、あるいはより正確には、より良いモデルを生み出せるようにトレーニングを改善するんです。

セットアップと動作

セットアップはかなりシンプルです。prepare.pyファイルがあります。これはPythonコードファイルです。これは修正されず、ただセットアップするだけです。それからtrain.pyファイルがあります。これはAIエージェントによって編集されます。これが彼らが取り組んでいるものです。エージェントが編集する単一のファイルで、トレーニングの改善を目指します。すべてが公平です。

アーキテクチャ、ハイパーパラメータ、オプティマイザ、バッチサイズなど、すべてです。そしてプログラム。これは1つのエージェントのベースライン指示です。エージェントをここに向けて、実行させるんです。このファイルは人間によって編集され、反復されます。何が起こっているか理解できますよね。つまり、このprogram.mdを編集して、これが必要なことだと指示するんです。

一生懸命働いてください。私にはいくつかアイデアがあります。XYZはしないように気をつけてください。さあ行け、と。エージェントは「了解しました」と言って、このファイルの中でいろいろテストします。もう少し科学的なアプローチです。これがうまくいくかな。試してみよう。結果はどうだ。あ、これはうまくいった。保持しよう。別のことを試してみよう、という感じです。

そして何度も何度もループし続けます。トレーニングは、コンピュータの詳細に関係なく、固定された5分間の時間予算で実行されます。つまり、ハードウェアの種類に応じてスケールするようになっています。特定の出力ではなく、時間に基づいて制限を設定しているんです。5分間でどれだけできるか見てみよう、という感じです。

これをリリースする数日前、Andreはこうツイートしていて、これは彼がAutoResearchで行っていることとつながっていると思います。彼はこう言っています。本当に興味深いベンチマークは、NanoChatを最速で改善する研究用オーケストレーションエージェントコードは何か、ということです。これが新しいメタだと。考えてみると、ここではすべてがスケールダウンされていますが、ここでの発見やイノベーション、改善はスケールアップもするでしょうし、これがより使いやすくなってどんどん大きなモデルにスケールアップしていくにつれて、これらのモデルが思いつく新しい方法があるかもしれません。

実際の改善結果

だからこれを覚えておいてください。これらの発見でさえ有用かもしれませんが、すべてをスケールアップするにつれて、もっと広範囲になるかもしれません。ここから新しいイノベーションが生まれるかもしれません。でもそれはまだクレイジーなアプリケーションというわけではありません。すぐに戻ってきます。でもここにいくつかの結果があります。

Andre Karpathyが3日前に言っています。約2日間、AutoResearchにNanoChatのチューニングをさせたままにしておいた。検証損失を改善する20の変更が見つかりました。検証損失は、未見のデータでどれだけうまく機能するかと考えることができます。1000の数学問題をあなたに与えて、それを何度もやり続けるとしたら、私たちはそのどれか1つでどれだけうまくやっているかには興味がありません。

私たちが興味があるのは、見たことのない問題のテストでどれだけうまくやるか、ということです。つまり、これらの練習問題でトレーニングすることが、見たことのない問題でのスコアを改善するのか、ということです。それが私たちが常に知りたい質問です。これらのモデルがどれだけ優れているか、以前に見たことのないものでどれだけ改善しているか、です。

ここでは、その能力を改善した約20の変更が見つかり、それらの変更はすべて加算的で、より大きなモデルにも転用できました。つまり、これらの小さなモデルでこういったことをテストしたり発見したりできて、それらはより大きなモデルにも転用できるようです。これらの変更をすべて積み重ねると、今日彼が測定したところ、リーダーボードのGPT-2到達時間が2.02時間から1.8時間に短縮されました。つまり11%の改善です。

このシステムは自律的に、これらのモデルのトレーニング時間を圧縮する方法を見つけ出していて、事実上、次世代の自分自身を改善しているんです。Andreは言っています。はい、これらは本当の改善で、実際に違いを生み出しています。私の最初の素朴な試みが、すでにかなり手動で良くチューニングされていると思っていたプロジェクトに対して、これほどうまく機能したことに軽く驚いています。

研究者としての驚き

彼が何を言っているか分かりますよね。彼はトップAI研究者の1人です。非常に尊敬され、賢く、これらのAI研究所で働いてきました。知識がある人物です。彼が数人の自律型AIエージェントを立ち上げて研究をさせたところ、すでに彼の仕事を改善しているんです。はい、これはまだ小規模で実験的などという段階ですが、人々は注目すべきです。これは重要です。

これは5年後に振り返って「ああ、あれは何でもなかった」と言うようなものの1つである可能性は低いです。そしてこれがその理由です。繰り返しますが、Andre Karpathy、非常に尊敬され、非常に知識が豊富です。彼はこう言っています。これは私にとって初めてのことだ、と。なぜなら、ニューラルネットワークのトレーニングの反復的な最適化を手動で行うことに非常に慣れているからです。

アイデアを思いつき、実装し、うまくいくかチェックするんです。つまり、検証損失が改善されるか、ということです。これらのモデルがこれらのデータセット全体でどう一般化するか。見たことのあるデータでどうするか。それに基づいて新しいアイデアを思いつきます。インスピレーションを得るために論文を読んだりなどします。

これが機械学習研究者の仕事です。読んで、考えて、インスピレーションを得て、試してみて、結果を記録する。これが私が20年間毎日やっている基本的な仕事です。つまり彼には豊富な経験があるんです。繰り返しますが、エージェントがこのワークフロー全体を端から端まで、そして完全に自分自身で行うのを見るのは、約700の変更を自律的に進める様子は、ワイルドです。

彼の言葉です。私の言葉ではありません。「ワイルド」という言葉を使うのは好きですが、これはKarpathyが「ワイルド」という言葉を使っているんです。そして彼は、実験結果のシーケンスを本当に見て、それを使って次のものを計画していたと言っています。つまり、何がうまくいっているか注意を払っているんです。ほとんど学んでいるとも言えます。以前の仕事から学んでいます。

まだ斬新で画期的な研究ではありませんが、すべての調整は本物です。以前に手動でそれらを見つけたことはなく、それらは積み重なって実際にNanoChatを改善しました。彼はいくつかの具体例を挙げていますが、興味のある方は彼が投稿しているものをぜひチェックしてください。読むだけで本当に素晴らしいです。

複数エージェントの協調と分散型研究

彼はまた、ラウンド2の開始について語っています。複数のエージェントが協力して、基本的に並列で実行してこの研究を行うことを可能にするために、です。Tier LabsのAll LM Frontがこれを行います。これは最終ボス戦です。もちろん大規模ではもっと複雑ですが、ポイントは仕組みとしてエージェントの群れを立ち上げるということです。小さなモデルをチューニングするために協力させます。最も有望なアイデアをますます大きなスケールに昇格させます。

そして人間は、まあおそらく端の方で少し貢献するでしょう。つまり、評価できる何らかのメトリックがあれば、それを改善しようとする何らかの自動化された研究者を作ることができるんです。このすべてを見るのはかなり魅力的です。Google DeepMindやAlpha Evolve、Sakana AIなどの研究所からこのような研究論文を見てきました。以前の動画で取り上げたものが数多くあります。

でもこれは違います。これは何十年もの経験を持つ研究者による企業での出来事の話でした。これは違います。これは私たちが自分のコンピュータにインストールして、一晩動かして、何が起こるか見ることができるんです。自宅の快適さの中で、この種の再帰的自己改善AIを作ることができるんです。はい、今のところかなり小規模について話していますが、本物です。それがポイントです。

実際のエンジニアリング作業を行っているんです。実際の結果、実際の改善に貢献しているんです。そして今のところ、スケールアップもするようです。でもここに次のステップがあります。そしてここが少し怖くなり、少しより高度になるところです。ゲームがどう始まったか知っていますよね。シングルプレイヤーでした。自分1人でプレイするだけでした。やがてマルチプレイヤーになりました。

そして最終的にMMORPGができました。大規模マルチプレイヤーオンラインです。ここで考えてみてください。もし私がこれをダウンロードしたら、繰り返しますが、無料でオープンソースで、GitHubにあります。ダウンロードして実行すると、私たちの何人かがそれらを接続して並列で実行しようとすることを止めるものは何もないんです。現在の最良のトレーニングアプローチは、私たち全員がコンピュータを提供し、それが成長していく種のようなものです。

つまり、家庭用コンピュータの1人の研究者ではなく、研究コミュニティのようになるんです。そしてAndreは実際にこれをどう行うか考えています。彼はこう言っています。GitHubには私たちが必要とする機能がありますが、それを許可しないいくつかの問題があります。つまり、この狂った男は実際にこのようなものを作ることを考えているようです。

GitHubが彼らが探している何らかの機能を提供することを期待しているようです。基本的に、あらゆる場所のすべての人が、いわば1つの中心的な場所に貢献する必要があるということです。もちろん、これらの大規模言語モデルは、他のすべてのエージェントが何をしているかを読み、何がうまくいっているかを見ることができます。

自分のものをテストできます。何かをコミットしている場合、メインブランチに何かを追加している場合、小さなレポート、小さな研究論文のようなものを書いて追加することもできます。そうすれば、今後のすべてのエージェントがそれを読んで、何がうまくいき、何がうまくいかなかったかを理解し、そこから学ぶことができます。

分散型知能爆発の可能性

想定は、その知能爆発がどこかの研究所によって引き起こされるだろうということだったと思います。フロンティア研究所の1つ、Google DeepMind、OpenAI、xAI、Anthropic、もしかしたらDeepSeekかもしれません。誰かがこれを解明して、その研究所内で知能爆発が起こるだろう、と。その研究所が技術ツリーをスピードランして、他の誰よりも速く進歩するだろう、と。

でもこれは違うかもしれません。もしかしたらさらに良いかもしれません。どこかの研究所に隠されているのではなく、あらゆる場所のすべての人が貢献するんです。私たちは自分の小さなエージェントに自分の研究をさせます。OpenClawがリリースされたとき、確か約20万人の開発者が使用していました。彼らは自分のエージェントを立ち上げていました。

興味深いのは、その頃、Andre Karpathyが、おそらくここでアイデアを得たんでしょう。もしそれらすべてを取って、1つの問題に向けたらどうだろうと考えたんです。AIエージェントのソーシャルメディアのようなところですべてのエージェントがただしゃべっているMoldbookがあって、結果は面白かったり、時には良くなかったりしました。

でももし私たちがそれらすべてを整列させて、これに取り組むよう設定できたらどうでしょう。世界はこのようなものを見たことがありません。これに近いものすら何もありません。研究組織間や人々の間でこのような分散型の広範な協力はありました。トレントやブロックチェーンの特定のものなど、これに似ているものもあります。

だからアイデアは新しくないかもしれませんが、それをAIモデルの再帰的自己改善に適用することは、一言で言えばワイルドです。間違いなく注目すべき分野です。これについてどう思うか教えてください。これのチュートリアルが欲しいですか。私はこれをやっていません。ゼロから学ばなければならないでしょうが、それほど複雑には見えません。

実際に飛び込んでこれをセットアップしようとしたら、この発言を後悔することになるでしょう。チュートリアルが役立つかどうか教えてください。でもその前に、下にコメントして、これについてどう思うか教えてください。Andreは世界に、私たちが想像できるよりもはるかに大きな影響を与える何かを解き放ったのでしょうか。それともこれは行き止まりだと思いますか。どう思うか教えてください。

私の名前はWes Rothです。ここまで見てくださった方、本当にありがとうございました。次の動画でお会いしましょう。