自己進化するAIがついに登場——そしてオープンウェイト化へ

再帰的自己改善・RSI
この記事は約9分で読めます。

Minimax社が発表したM2.7は、自己進化の兆候を示す最初のモデルとして注目を集めている。このモデルはOpenAIのGPT-3.5 Codexが示したような自己改善能力を持ち、自律的な最適化ループを通じて性能を向上させることができる。特にエージェント型タスクやナレッジワークにおいて優れた性能を発揮し、クローズドソースモデルに匹敵するベンチマーク結果を記録している。自己進化システムは、測定可能なパフォーマンス指標に基づいて失敗を分析し、ハーネス自体を修正することで約30%の改善を達成した。オープンウェイトモデルとしてのリリースが予定されており、フロンティアモデルの80〜90%の性能を低コストで実現できる点が大きな魅力となっている。

Self-Evolving AI Is Here — And It's Open Weight
MiniMax M2.7 is the first model showing real signs of self-evolution — it analyzes its own failures, modifies its harnes...

自己学習AIの幕開け

AIエージェントは自分自身を訓練できるのでしょうか。実は、その初期の兆候をすでに目にし始めています。OpenAIがGPT-3.5 Codexをリリースした際、これが自分自身の作成に貢献した最初のモデルだと発表しました。Andrej Karpathy氏による「Auto Research」というプロジェクトもあります。このプロジェクトでは、エージェントが複数の異なる実験を実行し、改善につながった結果だけを保持していくんです。

しかし今、オープンソースプロジェクトでもこうした動きが見られるようになってきました。Minimaxは最近M2.7をリリースしましたが、これは自己進化の初期兆候を示す彼らの最初のモデルなんです。このモデルについてお話しして、自己進化が正確に何を意味するのかを説明したいと思います。というのも、これは2026年に頻繁に目にすることになるトピックだからです。

ただし、その前に一点だけ明確にしておきたいことがあります。M2.7はオープンソースモデルとしてリリースされているわけではありません。しかしMinimaxのエンジニアリング責任者によれば、M2.7のオープンウェイトとアップデート版が近日中に公開される予定だそうです。だからこそ、私はこれをオープンウェイトモデルと呼んでいるわけです。

さて、この自己進化と最適化ループを見る前に、まずはベンチマークを確認しましょう。後ほど、このモデルからの出力例もいくつかお見せします。

ベンチマーク性能の分析

ベンチマークについてお話ししましょう。このモデルは、主要なベンチマークの多くでクローズドソースモデルと同等の性能を示しています。ただし、他のモデルとの比較については、あまり注目しすぎない方がいいと思います。注目すべきなのは、このモデルを前回のバージョンと直接比較することです。

ここで実際に大きな改善が見られるんです。コーディングとエージェント型ユースケースのベンチマークにおいて、エージェント型ユースケースでは性能に大きな違いが見られます。これこそが、すべてのラボが向かっている方向なんです。現在、ナレッジワークについて多くの議論がなされていますが、これはまさに、同僚として輝きを発揮する領域だと思います。

非常に重要なベンチマークがあります。「GDP Evolve Artificial Analysis」と呼ばれるもので、これはOpenAIのGDP Evolveデータセットの彼らのバージョンです。このベンチマークは、モデルがドメインエキスパートとしてナレッジワークを行う能力を示しています。このベンチマークにおいて、現在Minimax M2.7は第4位に位置しています。つまり、もしこれが数週間以内にオープンウェイトモデルになれば、期待通りに実現すれば、ナレッジワークにおいて最も優れた性能を持つオープンウェイトモデルになるということです。

自己改善の仕組み

ナレッジワークにおいては、モデルが既に見たことのあるタスクだけでなく、実際の仕事の中で学習できることが重要です。そして、ここで自己改善のアイデアが登場するわけです。エージェントシステムの多くのケースでは、モデルはハーネスに囲まれています。ハーネスがモデルに価値あるアクションを実行させるんです。

ここに、この自己進化または自律最適化ループの非常に簡略化されたバージョンがあります。これを機能させるために最も重要なことの一つは、測定可能で定量化できるパフォーマンス指標を持つことです。これがモデルやエージェントが追跡するものになります。

最初のステップで実験を実行すると、モデルは失敗の軌跡を分析します。つまり、何が正確に間違っていたのかを分析するんです。それに基づいて、何を変更するかを計画します。これはハーネス自体への変更である可能性があります。修正されたコードで評価を実行し、結果を比較します。悪化したか、改善したかを確認するわけです。それに基づいて、これらの変更を保持するか、元に戻すかを決定します。そして、ステップ1にループバックします。

ここで指摘したい非常に重要なことは、このケースでは人間がシステムの方向性や目的を設定し、その後モデルがその特定の目的を改善するためにシステムのさまざまなハイパーパラメータを修正するということです。

遺伝的アルゴリズムや群最適化のような進化的アルゴリズムに精通している方にとっては、この概念は非常に馴染み深いものでしょう。最適化したい目的関数があります。システムはハイパーパラメータに変更を加え、目的関数を改善する最適化に到達しようとします。これはまさにAndrej Karpathy氏のAuto Researchが行っていることです。これはGPT-3.5 Codexが行ったことであり、MinimaxがMシリーズモデルで行っていることなんです。

実験結果と改善効果

これらの実験中、モデルは温度、頻度ペナルティ、存在ペナルティなどの推論パラメータを変更し、また、より具体的なワークフローガイドラインを設計することでハーネスを変更していました。たとえば、他のファイルでバグパターンを検索するといったことです。これにより、内部のEvolveセットで約30%の改善が得られました。これはかなり印象的です。

実際の例を示すために、彼らのブログ記事には、このRL(強化学習)チームの実験ワークフローの例があります。これはその再現のようなものです。このケースでは、研究者とエージェントが一緒に実験を計画します。その後、エージェントが基本的に引き継ぎます。このケースでは、データをパイプライン化し、コードを実行し、メトリクスをログに記録します。

そしてエージェントは結果を分析し、ダッシュボードを構築し、見つけた問題についてイシューを提出します。フェーズ4では、ここで人間がループに入ってきます。結果をレビューし、次のステップについて議論し、重要な決定を下します。その後、システムはループバックして反復します。これらすべては、M2.7が構築を支援したハーネスの上で実行されています。

2026年のトレンド予測

2026年には、すべての企業からこのようなトレンドが見られると思います。重要な意思決定に人間をループに含む自己改善システムを構築するようになるでしょう。しかし時間が経つにつれて、これらはより自律的になっていく可能性があります。

しかし、最も重要なことは、こうしたいわゆる自己改善システムにおいても、測定可能な成功基準または検証可能な報酬が必要だということです。

このすべての結果として、長期的なタスクを実行できる、エージェント型ユースケースに非常に強力なモデルが生まれました。それだけでなく、性能対コスト比の観点から、このモデルを同僚として使用したいナレッジワークにとって、非常に良い選択肢になりつつあると思います。

このモデルの素晴らしさは、フロンティアモデルの80〜90%の性能を、コストのほんの一部で得られることです。彼らは最近、かなり寛大なレート制限を持つ複数の異なるモデルへのアクセスを提供するトークンプランを導入しました。

実際に試してみる方法

このモデルを試してみたい場合、いくつかの場所があります。彼らには独自のMinimax Agentシステムがあり、これは基本的にモデルの周りの独自のハーネスです。現在M2.7が利用可能で、APIを通じてテストすることを強くお勧めします。Open Clawのようなシステムでもこれを使用できます。彼らにはMaxClawと呼ばれる独自バージョンもありますし、Open Clawの競合であるHermes Agentのような他のハーネスでも使用できます。

かなりの注目を集めていますので、後ほど動画で例をお見せします。こちらがMinimax Agentの一例です。ユーザーがテキスト説明を提供でき、Nano Banana画像モデルを使用して画像を生成するフルスタックアプリケーションを作成するよう依頼しました。このハーネス内で自己検証が可能なんです。

コードを書いて、コードを実行し、出力を見て、出力を検証し、そして反復します。必要だったので私のAPIキーを提供したところ、このWebインターフェースを生成してくれました。そしてアプリケーションを完全にテストし、すべてが機能することを確認しました。これはかなり素晴らしいです。

アプリは実際に動いていますが、出力を見ると、典型的なAIが生成したWebインターフェースです。夕暮れのサバンナにいる雄大なライオン、といった感じです。テキストプロンプトを提供し、リクエストを送信すると、結果が得られます。そして画像を選択して、画像を修正するための後続のプロンプトを提供できます。

異なるハーネスでの動作比較

Open ClawやHermesのような他のハーネスでこのモデルを実行したい場合は、独自のAPIキーが必要になります。実行コストが非常に安価なモデルで、ほとんどのタスクには十分です。プラットフォームからAPIキーを取得する必要があります。Hermesで設定してみようと思います。

APIキーを取得しました。ここで設定していきます。ここでモデルをMinimax M2.7に切り替えて、同じプロンプトを実行して、どのような出力が得られるか見てみます。これはまったく同じプロンプトです。

さて、以前と全く同じプロンプトを実行しました。これは基本的に同じM2.7モデルの周りの異なるハーネスです。こちらがHermes AgentとM2.7で作成されたインターフェースです。これはMinimax Agentで見たものとは非常に異なります。

重要なのは、エージェントの周りのハーネスが、得られる出力のタイプに大きく影響するということです。このケースで同じプロンプトを提供すれば、同じモデルを使用して類似の出力を生成します。このケースでは選択して、「continue refinement」をクリックできます。おそらくこれを修正するよう指示できると思いますが、後続のプロンプトを提供すれば、画像の修正を続けてくれます。

これらのモデルの周りに見られるエージェントハーネスを見てみると、これらは計画、構築、検証、そして反復のループであり、これらのラボが探求しているこの自己進化の概念と非常に似ています。

まとめ

私の意見では、M2.7は非常に有能なモデルです。特にコスト対性能比は本当に素晴らしいです。ぜひテストすることを強くお勧めします。特にオープンウェイトリリースと、この自己進化システムが私たちをどこに連れて行くのかについて、とても楽しみにしています。

とにかく、この動画が役に立ったことを願っています。ご視聴ありがとうございました。そしていつものように、次回またお会いしましょう。

コメント

タイトルとURLをコピーしました