ハードテイクオフが始まった

再帰的自己改善・RSI
この記事は約15分で読めます。

人工知能は再帰的自己改善フェーズに正式に突入し、エージェントが次世代の自分自身を構築する段階に到達した。Miniax、OpenAI、Anthropicといったフロンティアラボは、モデルが自身の進化プロセスに深く関与する手法を採用しており、人間の研究者がボトルネックではなくなりつつある。Andrej Karpathyのauto researchにより、個人開発者でも自律的な研究システムを構築可能となり、知能爆発の初期段階が現実のものとなっている。

Hard Takeoff has started
Access all AI models on Higgsfield: The 25 OpenClaw Use Cases eBook 👇🏼 The Subtle Art of Not Be...

AIの再帰的自己改善時代の到来

お気づきかどうか分かりませんが、私たちは正式に人工知能の再帰的自己改善フェーズに突入しました。このチャンネルでは長い間このことについて話してきましたが、今まさにその段階に到達したんです。でも、十分に議論されているとは思えません。そこで今回は複数の事例をお見せして、私たちがまだ最初のイニングにいることは確かですが、間違いなく再帰的に自己改善するエージェントを目の当たりにしていることを明確にしていきます。

つまり、あるエージェントが次のバージョンの自分自身を構築するのを手伝っているんです。そしてそれが起こると、知能爆発が起きることになります。もはや人間がボトルネックではなくなります。次の大きなイノベーションを起こすために人間のAI研究者を必要としなくなるんです。唯一の制限は、どれだけの計算資源を投入できるかだけです。信じてください、今は膨大な計算資源が存在しています。

今回の動画はHigsfieldの提供でお送りします。詳しくは後ほど。こちらはMiniax 2.7のリリースです。ちなみに、Miniaxをご存じない方のために説明すると、彼らは中国のフロンティアAIラボで、オープンソースモデルをリリースしています。このモデルにはとても期待しています。数週間以内にモデルのオープンウェイトを公開すると言っていたと思います。

なので、近いうちに見られることを期待しています。多くの人がMiniax 2.7について本当に良いことを言っています。でも今お見せしたいのはそれではありません。指摘したいのは、彼らがどのようにしてモデルを構築したかという話し方なんです。彼らは明らかにエージェントを使って自己改善を行っています。「人間の生産性がすでに完全に解放された今、次の自然なステップは、モデルと組織の両方の自己進化を開始することでした」

M2.7は、自身の進化に深く関与する最初のモデルです。これがワイルドだと思うなら、こう言っている会社は彼らだけではありません。OpenAIは明示的にそう言っています。そしてAnthropicも、明言していないとしても、明らかに同じことをやっています。続けます。例えば、M2.7を開発する際、モデルに自身のメモリを更新させ、強化学習実験を支援するためにハーネス内に数十の複雑なスキルを構築させました。

さらに、実験結果に基づいて、モデルに学習プロセスとハーネスを改善させました。このプロセスがモデルの自己進化サイクルを開始するんです。最後まで見ていてください。なぜなら、Andrej Karpathyがauto researchという、個人開発者や個人研究者でもこの種の自律的研究ができるものをリリースしたばかりだからです。

自律的研究の実践例

それだけではありません。私自身も自律的研究を行っています。少し後で私が何をやっているかお見せします。M2.7の仕組みはこうです。研究者は実験アイデアについてエージェントと議論することから始めます。エージェントは文献レビューを手伝い、事前設定された実験仕様を追跡し、データやその他のアーティファクトをパイプライン化し、実験を開始します。

彼らはそのプロセスがどのように機能するかについて、もう少し詳しく説明しています。でもここがポイントです。これによって問題発見と実験が加速され、より速くモデルを提供できるようになります。M2.7はワークフローの30%から50%を処理できるんです。こちらがM2イテレーションシステムです。ここに人間がいます。人間はハーネスを設定し、エージェントを操縦し、実験の方向性をレビューして決定します。

そしてここにエージェントハーネスがあります。スキル、メモリ、ガードレール、そしてモデルのパフォーマンスやモデルへのアップデートが他の実験と比較してどうなのかを評価する評価インフラがあります。そしてそこにエージェントがいます。全体のループはこうなります。実験は人間とAIによって設計されます。次にAIが実験のコードを書き、それを実行し、分析してレポートし、人間に返します。

人間は人工知能と一緒にそれをレビューし、議論し、何が機能していて何が機能していないかを把握し、そしてまたループに戻ります。最初に戻って、何度も繰り返すんです。ここで見られるように、彼らは全体のワークフローの30%から50%が今やAIによって処理されていると言っています。人間が実験の方向性や一連の実験を開始して、最後に結果をレビューするだけで、ほぼ完全にAIによって処理されるようになるのもそう遠くないと考えるのは、決して非現実的ではありません。

M27は、モデルのための効果的な最適化を発見し、温度、頻度ペナルティ、プレゼンスペナルティなどのサンプリングパラメータの最適な組み合わせを体系的に探索し、モデルのためのより具体的なワークフローガイドラインを設計し、スキャフォールドエージェントループにループ検出やその他の最適化を追加しました。

最終的に、これによって永続的評価セットで30%のパフォーマンス向上を達成しました。基本的に、モデルは今や自分自身を改善できるほど優れているということです。本当に驚くべきことですよね。そして自己改善しているものが他にもあるんです。それが今日の動画のスポンサー、Higsfieldです。Higsfieldは世界で最も急成長している生成AI企業で、世界で最もクリエイターフレンドリーなプラットフォームであるという1つの使命を持っています。

そして今、彼らは世界最高のビデオモデルの1つであるCling 3.0でローンチしています。Cling 3.0は次世代のAIテキストtoビデオモデルで、スクリプト、画像、リファレンス、オーディオを取り込み、美しいシネマティックシーケンスに変換します。マルチショットディレクション、ネイティブオーディオ、要素の一貫性、15秒の連続生成が得られます。

フロンティアラボの取り組み

つまり、マーケティング担当者の方、コンテンツクリエイターの方は、Clingを使う必要があるんです。マーケティングビデオからBロール、完全なAI生成ビデオまで、あらゆることに使えます。HigsfieldとCling 3.0を使えば、AIを使って信じられないほど視覚的に美しいビデオを作成するために必要なものがすべて揃います。それだけでなく、Higsfieldにはマーケティングパイプラインで使える他にも100万もの素晴らしい機能が付いています。

強くお勧めします。私の会社でも使っていますし、Higsfield内でCling 3.0をプレミアムプランの70%オフで入手できます。下に70%オフのリンクを貼っておきます。クリックして、私が紹介したと伝えてください。とても助かります。改めてHigsfieldに感謝します。では動画に戻ります。

OpenAIも同じことを言っています。Miniaxが最初にこれをやった会社ではありません。実際、こちらがOpenAIによるGPT-5.3 Codexの発表です。GPT-5.3 Codexは、自分自身の作成に貢献した最初のモデルです。Codexチームは初期バージョンを使って、自身のトレーニングをデバッグし、デプロイメントを管理し、テスト結果と評価を診断しました。私たちのチームは、Codexが自身の開発をどれだけ加速できたかに圧倒されました。

つまり、以前のモデルが新しいモデルを支援しただけでなく、新しいモデルの初期チェックポイントが同じモデルの後のチェックポイントを最適化するのを支援したんです。これはCodex 5.3でした。彼らはすでにGPT-5.4を出しています。それが何をしているか想像してみてください。こちらは2025年10月のSam Altmanの投稿です。わずか約5ヶ月前ですが、非常に多くのことが変わったので、10年前のように感じられるかもしれません。

でも彼はその時すでにそれを予言していました。「私たちは2026年9月までに数十万のGPU上で動作する自動化されたAI研究インターンを持つという内部目標を設定し、2028年3月までに真の自動化されたAI研究者を持つという目標を設定しました」。これは以前も取り上げましたが、2028年3月というタイムラインが何だか変な感じで非常に正確だと思いました。でも間違いなく、私たちはその目標をはるかに先行しているようです。

この時点で、AI研究インターンは絶対に持っていると言えます。Anthropicは「自己改善するAIを持っている」という言葉を言うことをはるかに躊躇していますが、もちろん彼らはAnthropicですから、そういうことは言いません。そして、彼らの会社の戦略を見れば、それがすでに起こっていることは非常に明白です。

これは2025年9月29日のもので、「Claude agent SDKでエージェントを構築する」というタイトルです。大したことではありません。エージェントSDKについての記事に過ぎません。ところで本当にクールな製品ですが、それでもメジャーリリースではなく、メジャーなモデルリリースでもありません。「過去数ヶ月間、Claude Codeは単なるコーディングツールをはるかに超えたものになりました。Anthropicでは、深い研究、ビデオ作成、ノートテイキングなど、無数の非コーディングアプリケーションに使用してきました」

実際、それは私たちのほぼすべての主要なエージェントループを動かし始めています。ここで注目してほしいことがいくつかあります。1つ目は、Anthropicは当初からAIモデルのコーディングユースケースにほぼ完全に焦点を当ててきたということです。でもなぜでしょうか?なぜ彼らはコーディングにそれほど集中しているのでしょうか?いくつかの理由があります。

1つは、コーディングが今日の収益源だからです。エンジニアリング業界全体が一夜にして変わり、今ではみんなソフトウェア構築を支援するトークンに数十億ドルを費やしています。それは素晴らしいことです。それがフライホイール効果です。なぜなら、その収益をすべて使って、より多くの人材を雇い、より多くのGPUを購入し、次のモデルに投資できるからです。でも他にも何かが起こっています。

深い研究に非常に優れたAIエージェントを持ち、コーディングに非常に優れていれば、次のバージョンの自分自身を構築するのを支援するツールを構築しているんです。それがいくつかの次元で機能します。1つは、エンジニアリング組織として実際に非常に迅速に動くためのインフラです。開発ツールからインフラ管理まで、すべてです。

数十万、数百万のGPUを管理するのは簡単ではありません。だからこれらのツールが構築されるのが速ければ速いほど、AnthropicのAI研究者や開発者の生活が楽になります。彼らはより速く出荷します。Claudeの過去2週間のリリースを追っていれば、彼らが地球上の他のどの組織よりも速く出荷していることが分かるでしょう。

つまり、これらすべてを組み合わせると、これまで以上に多くのコードを出荷する能力、モデルのトレーニングを容易にすること、モデルのデプロイとサービング提供を容易にすること、これらすべてを合わせると、Anthropicで自己改善が起こっていることが非常に明確になります。彼らがそれを認めるかどうかは別として。Anthropicはこの自律ループの構築に非常に早くから取り組んでいました。

これは2025年7月24日の、Anthropic自身がClaude Codeをどのように使用しているかについての記事です。「Claude Codeが新機能のコードを書き、テストを実行し、継続的に反復する自律ループ。彼らはClaudeに抽象的な問題を与え、自律的に作業させ、最終的な改良の前にソリューションをレビューします」。これが起こっているんです。

Sam AltmanとJacob Pachocki、OpenAIの研究責任者、そして明らかにSam AltmanはCEOですが、彼らはライブストリーム中にそれについて明示的に話しました。今それをお見せしましょう。「私たちは完全に間違っているかもしれません。以前にも目標を設定して惨めに失敗したことがあります。でも私たちが見ている状況では、来年の9月までにインターンレベルのAI研究アシスタントを持ち、2028年3月までに、GPT-4のローンチから丁度5年後だと思いますが、正当なAI研究者を持つことが妥当だと考えています。そしてこれが私たちの研究プログラムの中核的な推進力です。私たちの意図、私たちの目標は、2028年3月までに真の自動化されたAI研究者を持つことです」

知能爆発への道筋

これらすべては、今や悪名高い状況認識論文に戻ってきます。Leopold Aschenbrennerは、OpenAIを離れた後、この自己改善ループが私たちが思うよりも早く起こると基本的に言ってこれを書きました。

実際、彼はそれを示すグラフを持っていました。そして今私たちがどこにいるかをお見せします。これが私たち、この小さな人間です。そして進歩の大規模な指数関数的爆発の直前、私たちはその最下部に立っています。でもそれは起こっていて、加速するだけで、よりエキサイティングになるだけです。

そして私は未来についてこれ以上ないほど楽観的でいられます。でもより具体的には、これが知能爆発のグラフです。x軸にタイムラインがあります。y軸には有効計算量があります。つまり彼は、これにどれだけの計算量が投入されているかを測定しています。でも計算量と自己改善を同一視することもできます。

続けていくと、突然、この自動化されたAlec Radford、基本的に自動化されたAI研究者に到達すると、知能の絶対的な爆発が見られることになります。グラフが言うように、知能爆発です。そしてこれが超知能が起こる時です。そして私たちはまさにここにいます。

私たちはまさにこの地点にいます。そして、すべての主要なフロンティアラボから、再帰的に自己改善しているモデルを持っているという兆候が見られます。まだ人間からの多くの手助けが必要です。でもその反復ループは時間的に短くなっています。そして人間のAI研究者、人間のエンジニアがループから少しずつ、そして一気に取り除かれています。

Googleもこのゲームに参入しています。彼らはこれに非常に早くから取り組んでいました。これは2025年6月16日のものです。これがAlpha Evolveです。信じられないほどのコーディングモデルとアーキテクチャで、これらのモデルがオープンコーディングチャレンジや難しい科学的問題で本当に優れたものになるのを助けました。実際、Alpha EvolveはGoogleのシステム全体のアーキテクチャの一部を改善して、数十億ドルを節約する改善をアンロックすることができました。

実際、それはより速い行列乗算を発見しました。約50年ぶりに初めて、行列乗算をさらに速く行う方法を見つけ出すことができたんです。そして繰り返しになりますが、今やその後のすべてのAIモデルがより速くなります。それが再帰的自己改善の定義です。そして今、Andrej Karpathyの話に来ましょう。

この種の再帰的自己改善、この種の自律的AI研究を行うにはフロンティアAIラボが必要だと思ったら、それは間違いです。Andrej Karpathyは明らかに非常に特別な人間ですが、彼は何かをまとめてオープンソース化し、私を含む非常に多くの人々がすでにその上に構築しています。

これはauto researchと呼ばれています。彼が何だと言っているか教えましょう。「目標は、あなた自身の関与なしに、無期限に最速の研究進歩を遂げるようにエージェントを設計することです。エージェントはgitフィーチャーブランチ上で自律ループで動作し、より良い設定を見つけるとトレーニングスクリプトにgitコミットを蓄積します」

個人レベルでの自律研究

さて、これが何を意味するか分解しましょう。彼は基本的に、OpusやGPT-5.4のようなフロンティアモデルを使って、GPT-2レベルのモデルを完全にゼロから可能な限り速くトレーニングするための実験を考え出しています。そして彼は基本的にそれを方向に向けて、「よし、GPT-2トレーニングを最適化したい」と言います。そしてそのフロンティアモデルが実験を考え出し、実験を実行し、結果をレビューし、繰り返します。

新しい実験を考え出し、それらの新しい実験を実行し、結果を見て、継続的に実行します。そして彼は実際、一晩実行した後、地球上でこれらのモデルの1つをトレーニングする最速の時間を持つことができました。ちなみに、これで遊んでみたいなら、彼はそれをオープンソース化しています。これです。

GitHubのKarpathy/auto researchです。下にリンクを貼っておきます。そして私も同じことをやっていると言いましたよね。では、私が何をしてきたかお見せしましょう。明らかに、OpenClawについて永遠のように聞こえるかもしれませんが約8週間話しているのを聞いたことがあるでしょうし、私は狂ったようにそれを使ってきました。そして、ワークフローの一部を取り出して、小さなモデルでローカルに実行する方法を探してきました。

常にOpus 4.6やGPT-5.4のようなフロンティアモデルにすべてのトークンを費やしたくはありません。時には、小さなファインチューニングされたモデルにそれらをオフロードしたいんです。ちなみに、私はML(機械学習)のバックグラウンドを持っていませんが、これらの自律研究システムを作成する方法は知っています。実際、非常に簡単です。そして私が構築したのは、OpenClawに目標を与えることです。

それはフロンティアモデルで実験の方向性を考え出し、一晩中一連の実験を実行します。Qwen 2 7Bのようなオープンソースモデルを取り、OpenClawにすでにあるトレーニングデータを取り、これらのモデルをファインチューニングして、Opus 4.6のベースラインに対してテストします。そしてそれを一晩中やっています。常にファインチューニングしています。

Opusを上回るモデルを見つけたら、そのフロンティアモデルを私の小さなローカルモデルと交換できます。そしてうまくいかなければ、何が起こったかを見て、新しい実験を考え出し、ファインチューニングを調整し、新しい合成データを作成し、より良いデータの作成方法を教えてくれるかもしれませんし、ファインチューニングを再度実行し、新しいモデルを選択するかもしれません。OpenClawスタックの大部分が完全にローカルホストされるまで、これらすべてを次々と自律的に行います。

これの一部をここで見ることができます。これは私が行ってきたファインチューニング実験の一部です。そして繰り返しになりますが、MLのバックグラウンドなしで、私は単にモデルと一緒に作業してこれらの実験を設計して実行してもらっています。それがポイントなんです。人間はもはや専門知識を持っている必要はありません。これらのモデルの1つにあなたのために実行させるように指示できるだけでいいんです。

信じてもらえますか?私たちが今、再帰的自己改善の時代にいると信じてもらえますか?なぜなら私たちはそうだからです。私たちはその始まりにいます。でもフロンティアラボがそれをやっています。個人研究者がそれをやっています。MLのバックグラウンドを持たない私のような人々がそれをやっていて、Karpathyのauto researchに基づいて構築された100の異なるプロジェクトがあって、それをさらに発展させています。

本当にエキサイティングな時代です。これらのモデルはより良くなります。これらのエージェントはより良くなります。ハーネスはより良くなり、それはどんどん速くなっていきます。勢いが増しています。加速が増しています。そしてこの一部であることが本当に素晴らしい時代なんです。この動画を楽しんでいただけたなら、いいねとチャンネル登録をご検討ください。

そして次の動画でお会いしましょう。そしてこの動画をスポンサーしてくれたHigsfieldに特別な感謝を。すべてのリンクを下に貼っておきます。

コメント

タイトルとURLをコピーしました