マルチエージェントがより賢くなる：AIドリームチーム

9,747 文字

Multi-Agents Become Smarter: The AI Dream Team

Multi Agent MCP A2A RL Fine tuning Complex Reasoning GRPO DAPO VAPO MARL Swarm agents autonomous Reinforcement Learning ...

こんにちはコミュニティの皆さん、戻ってきてくれて嬉しいです。ついに私たちはマルチエージェントについて話し、マルチエージェントをより知的にする方法について議論します。皆さんは「モデルコンテキストプロトコル（MCP）や、A2A（エージェントツーエージェント）プロトコルについて、1週間以上も話していないじゃないか」と言っていましたね。そこで私は「マルチエージェントRFTに関する新しい論文があるから、これを検討して構築しましょう」と答えました。皆さんはすでにインターネット全体にMCPのサーバークライアントアーキテクチャを構築し、すべてを理解していますからね。そして今、皆さんはそれらをより知的にしたいと思っています。始めましょう。
皆さんは強化学習について知っていますね。私たちはここで1週間かけて見てきました。信頼領域ポリシー最適化（TRPO）、PO、DPO、VAPOなど、あらゆるアルゴリズムの修正について話してきました。私たちは強化学習のエキスパートになりました。前回の動画では、強化学習とテスト時のスケーリングについてお見せしました。
ただ、一つの事実を皆さんから隠そうとしていました。なぜなら、すぐに理解できなかった技術用語に遭遇したことを恥じていたからです。その用語が「RFT（Reinforcement Fine-tuning、強化微調整）」です。私がこの用語に最初に出会ったのは約3ヶ月前で、OpenAIが「強化微調整は、顧客がエキスパートモデルを作成できるようにするOpenAIの新しいモデルカスタマイズ技術だ」と述べていました。しかし、その時点で私は自分のモデルを構築していたため、OpenAIに支払って「アルファユーザー」と呼ばれる小さなグループの一員になる必要はありませんでした。私は常に「非アルファユーザー」でしたね。自分でものを作り、お金を払わなかったので、強化微調整へのアクセス権がありませんでした。
しかし今日、ついに「箱を破る時が来た」と思いました。「強化微調整とは何か」を知りたいと思い、OpenAIのGPT-4o（フルバージョン）に行き、深い調査をしました。17分後、28のソースにアクセスした後（インターネットソースが28個あったことを強調しておきたいですが）、4oは美しい深い調査結果を返してきました。
しかし見てください、この説明のスクリーンショットには、ほとんど情報がありません。「報酬モデルとして使用されることが多いが、正しい回答を見る代わりに、モデルはスコアまたは報酬のみを取得し、そのターンポリシーを調整する必要がある」という内容です。私は「詳細が欲しい、コードを理解したい、数学を理解したい、式を理解したい」と言いました。すると「微調整と呼ばれるため、モデルは通常最初から学習するわけではない」との回答でした。「それなら、RFTを微調整と呼ぶならば、なぜ強化微調整と呼ぶのか？報酬がないのか？」と聞くと「はい、より高い報酬システムがあります」という答えでした。
インターネットのソースを調べてみると、それらは本当に最善の意図を持った人々からのものでしたが、おそらく説明するための知識が不足していたのでしょう。「週に5,000ドル稼ぐ方法」のような内容の近くにあるインターネットソースを見つけることもありました。そこでは強化学習と強化微調整について説明していましたが、クオリティが分かりますよね。OpenAIから本当の研究記事がなかったため、4oによる完全な深い調査は失敗しました。私は「おやおや、次世代のAIはまさにこのようなくだらない情報で訓練されるのか」と思いました。インターネットからのソースがあるため、AIの4oが知らない場合、またはOpenAIが内部のOpenAIドキュメントを4oに提供しない場合（秘密を保持したいというのは理解できますが）、深い調査から返ってくるのはくだらない情報で、使えないものです。説明がない、インターネットのソースが期待するものではないからです。
これは予想外の展開となりました。お見せしたかったのはこれです。今日がOpenAIのアカウントをすべて削除する最後の日です。最小額の支払いも停止します。
他のシステムからの情報を見ると、「SFT、強化学習、そしてRFT」という説明があります。「コンセプト的には微調整として枠組みされているが、ポリシーが制約されており、実際には強化学習である」という説明もあります。「それでは一体何なのか？」と聞くと「暗黙的であり、監視付き微調整が多く、高度な強化学習では明示的である」とのことです。このようなインターネットソースからAIが学習しているとすれば、これが私が得る回答です。私はOpenAIのパフォーマンスに満足していませんでした。支払い顧客には提供しているのに、オープンソースコミュニティには提供していないのですから。
そこで検索を続け、ByteDance Researchによる「強化微調整による推論（Reasoning with Reinforced Fine-tuning）」を見つけました。2024年12月のものでした。日付からすると適切ですが、彼らが話しているのは「強化微調整（Reinforced Fine-tuning）」であり、私が探していたのは「強化微調整（Reinforcement Fine-tuning）」だったことに気づきました。ほぼ同じ時期に、ほぼ同じ言葉で発明されたものですが、私が探していたものではありませんでした。
OpenAIに行くと、研究プログラムがあり、開発者が利用できるように微調整プログラムを拡大しているとのことでした。しかし残念ながら、私はサービスに対して支払いをしていたにもかかわらず、幸運な一人ではありませんでした。知識の共有はありませんでした。
検索を続け、1時間以上かかりましたが、私の失敗から学んでください。最終的にGoogle Studioに行き、そこに簡単な説明がありました。「PO、DPOでは、最適化される新しいポリシーπ_θと前の反復からのポリシーπ_oldの間でKLダイバージェンスが計算されます。しかしRFTでは、最適化される新しいポリシーπ_θと初期の固定された訓練済み教師あり微調整の参照ポリシーπ_0の間で計算されます。」
たった一つの文で、すべての知識が腑に落ちました。テトリスのパズルのように、全てがぴったりとはまりました。この文を理解するのに1時間かかりましたが、Gemini 2.5 Proから得ることができました。これは無料です。なぜOpenAIにお金を払う必要があるのでしょうか？
AIリサーチをしているなら、Googleが提供する無料のリソースは、OpenAIに支払っているリソースよりも優れています。おそらくGoogleは検索エンジン自体がAIに対してOpenAIが使用しているものよりもはるかに優れているのでしょう。
素晴らしい説明でした。検証サマリーまで付いています。「POとTRPOでは、KLダイバージェンスが学習の安定性のために反復間のステップサイズを正則化します。RFTでは、KLダイバージェンスが知識保存と発散防止のために、調整プロセス全体を通じて元のモデルからの距離を正則化します。」すべてが明確になりました。AIの数学に慣れていない方のために、古き良きPOについての特別な動画があります。とてもシンプルで、期待値があり、アドバンテージを計算し、アドバンテージ項の期待値があります。これはポリシー改善項です。KLダイバージェンスは本質的に非対称で、π_oldとπ_θがあります。これだけです。理解できれば、これに基づくすべてのものを理解できます。
ついに私の盲点が消え、動画がようやく始まります。私は時間を投資し、唯一本当に確信が持てなかった用語についてようやく理解しました。何かを学ぶことを先延ばしにしないでください、それは後で問題になるでしょう。
ここで私の知識を更新する必要があります。事前訓練、継続的な事前訓練、教師あり微調整、そして強化学習には現在2つの部分があります。報酬関数があるため、これは強化学習の領域で動作すると完全に決定しました。DPOのような従来の強化学習とRFTのような強化微調整があります。RFTでは、π_0がアンカーポイントとして固定されます。従来の強化学習では、π_oldが毎反復で変化します。知っていればとても簡単です。
マルチエージェントに話を移しましょう。すぐに理解できるでしょう。教師あり微調整モデルからのπ_0は青い点です。これは教師あり微調整モデルのパフォーマンスです。特定のタスクのために言語モデルや視覚言語モデルを訓練し、このモデルはそのタスクに優れています。これをマルチエージェントシステムに導入すると、マルチエージェント学習によって教師あり微調整の知識が破壊されることを望みません。この知識は完全に保存されるべきです。
おそらくこのシステムを購入したか、数日または数週間訓練したので、システムを無傷に保ち、このコア、核の周りでわずかに知識を拡張または増加させたいと思います。従来の強化学習では、どこかからπ_oldから始めて、毎反復ごとに青い点が別の場所に移動し、最終的には遠くに移動します。
Llama 4に関しては、米国の与党のイデオロギーに合わせるよう、モデルを強化学習で調整する経営判断があったという考えがあります。モデルはその能力、推論、パフォーマンスにおいて移動し、現在知られているLlama 4になりました。
つまり、教師あり微調整された高度な専門モデルであるマルチエージェントがある場合、従来の強化学習でどこかに移動するのではなく、制御された学習を望みます。教師あり微調整モデルの完全な能力、知識、情報、データを保存したいのです。これでシンプルです。
強化微調整では、KLダイバージェンスが知識保存と発散防止のために、調整プロセス全体を通じて元のモデルπ_θとπ_0の間の距離を正則化します。どれだけ発散するかを定義できるイプシロン環境を離れないようにします。
簡単な例として、マルチエージェントシステムの典型的な問題を考えてみましょう。ユーザーが「来週火曜日に上海行きの航空券を予約したい」と言います。マルチエージェントシステムでは、最も簡単なケースでは、オーケストレーションエージェントまたは中央インテリジェントエージェント（ボスと呼びましょう）がタスクを分割し、複雑さを減らし、より単純なサブタスクに分けます。「このタスクには1、2、3、4のエージェントがいる」と言います。
カレンダーエージェント、位置エージェント、フライト予約エージェント、そしてプロフェッショナルならデバッグや反省エージェントを用意して、すべてが機能することを確認します。新しく始める場合は、強化学習またはマルチエージェント強化学習（MARL）を使用できます。しかし、購入したり訓練したりした高度に専門化されたエージェントがある場合、そのエージェントを生かし続けたいと思います。エージェントに学習を許可し、それは素晴らしいことですが、イプシロン環境内での学習を許可します。学習の最適化サイズを制限し、知識の領域内にとどまり、機能を忘れないようにします。これがマルチエージェントシステムに強化微調整を適用する現在の状態です。シンプルですよね。ループを閉じるためにたった一つの文が必要でした。
マルチエージェント強化微調整（MARF）という素晴らしい頭字語があります。依存関数を通じた非同期エージェント相互作用を捕捉する単純な形式主義があります。例えば、位置エージェントはカレンダーエージェントに依存しています。なぜなら、まずその時間にどこにいるかを知る必要があるからです。そして位置エージェントは「火曜日のこの時間には、ロンドン、パリ、その他の場所にいる」と言い、そこから他の場所に飛ぶことができます。
私の他の動画を見たことがあれば、マルチエージェント強化学習について話すときに部分観測可能マルコフ決定過程について話していることを知っているでしょう。各エージェントポリシーは、PO形式またはGRPO形式の更新でRFTを使用して微調整されます。KLライブラリ制約を元の言語モデル、つまり専門家エージェントモデルに適用し、言語品質を保ちながらタスク行動を改善します。
日付と時間のエージェントは、フライトエージェント、位置エージェント、その他のエージェントと調整する必要があります。MARFはエージェントの依存関係を尊重し、報酬を計算します。報酬は各エージェントのコンテキストとシステム内の先行エージェントのアクションに基づいています。
ここで複雑さが出てきます。これはまだ実験的な新しい論文であり、アクション・レベルで動作し、さらにトークン・レベルでも動作します。なぜマルチエージェント強化微調整がトークン・レベルで必要なのでしょうか？長いまたは構造化された出力を持つタスクには不可欠だからです。
MCPクライアントサーバーアーキテクチャやエージェント間通信プロトコルを持っている場合、一つのエージェントから長い出力、構成的な出力があります。言語スケールでの指示があり、外部データベースからのデータが必要な場合には外部ツールを使用します。
LLMベースのエージェントが完全な応答、段落、関数呼び出しを生成する場合、このエージェントの出力全体を単一の原子的アクションとして扱うことは、モデルが最後に一つの報酬だけを受け取ることを意味します。これは極端に疎な監視を作り出します。なぜなら、完全な応答には2つか3つの指示と関数呼び出し、ツール呼び出しなどがあるかもしれないからです。エージェントによって生成されたテキストのどの部分が成功に貢献し、どの部分が単なる失敗なのかを明確にする必要があります。
従来の強化学習信号では、アクションの終わりに定義された報酬を待つ必要があり、これを解決できません。そのため、この新しい研究の著者たちは、トークン・レベルの強化微調整を採用することにしました。これは極端な複雑さのレベルを追加することになります。彼らはツールキットにあるものを使用し、基本的にアクションはトークンであると言っています。計算的には、エージェントによって生成された各トークンが異なるエージェントとして扱われるようになります。
マルチAIエージェントシステムのインタラクティブなデバッグとステアリングについてもっと読みたい場合は、2025年3月のものをお勧めします。また、サブスクライバーとして、従来のマルチエージェント強化学習（MRL）について1年以上話してきたことをご存知でしょう。分散部分観測可能マルコフ決定過程があり、マルチエージェントデバイス適応サイバー防御にAIゲーム理論を適用したり、自己プレイ強化学習マルチエージェントシステムに強化学習のためのAIゲーム理論を使用したりしています。
制御機関のない群知能、つまり中央集権的な制御なしに自律的に行動するマルチエージェントエコシステムもあります。これは従来のMRRLとは異なり、中央集権的な制御なしに効率的に動作します。計算可視性の問題があり、リアルタイムで適応しますが、これについてはこの動画で話しています。
しかし、これは今日（2025年4月24日）の上海交通大学、上海革新研究所、香港中文大学、OPPO研究所による非常に実験的な新しいものです。まず、略語から始めましょう。大規模言語モデルマルチエージェントシステムはLLAMASと呼ばれますが、Meta AIのLlama 3、Llama 4モデルとは関係ないので注意してください。
マルチエージェント強化学習について話した後、この論文で新しいパラダイムとしてマルチエージェント強化微調整方法論が導入されています。動画の冒頭で強化微調整とは何かを解明し、これがマルチエージェント環境に実装されているだけなので、私たちには簡単です。
パラメータ共有は、特に伝統的なモデルでは、マルチエージェントシステムにおいて重要な考慮事項です。ここでは非同期アプローチがあり、エージェントは共有しています。大まかに理解するなら、すべてのエージェントに1つのベースモデルがあり、LoRAアダプタによる微調整に関する私のダースの動画を見たことがあれば、ベースモデルが1つあり、ベースモデルの上にLoRAアダプタを変更するだけです。フライト用のLoRAアダプタ、位置用のLoRAアダプタ、タイミング用のLoRAアダプタ、ダブルチェック用のLoRAアダプタがあります。タスク固有の世界については、完全に微調整されたLoRAアダプタ構造とベースモデルを継承しています。これにより、運用がより安価でシンプルになります。
MARFエージェントは非同期に行動し、依存関係を定義しますが、GoogleのADK、MCPモデルコンテキストプロトコルレイヤーと互換性のあるエージェント間通信、他のシステムとの互換性についてはどうでしょうか？非常に実験的なレベルで論文を見ると、彼らは各トークンをアクションとして扱い、方程式を修正する必要があります。これは少し複雑になるので、コード化できる数学的定式化を導出しています。
使用している方法論は一般化アドバンテージ推定器で、2018年のカリフォルニア大学バークレー校の古い制御ループ分析とポリシーグラデーント方法論に戻ります。OpenAIが設立される前のものでしょう。論文にはコードが公開されています。
私が説明したマルチエージェント強化微調整の完全なコードを見たい場合、抽象的な数学的速記表記でこれがすべてです。私がすでに説明したこと以外には何もありません。
訓練フェーズでは、実験において彼らは一つのアクティブエージェントだけで行っています。中央批評エージェント（ボス、マスターエージェント、コーディネーターなど）があり、複数のエージェントシステムのアクターがあります。これは最初の論文であり、非常に実験的なものなので、まずは一つのエージェントから始めています。
RFTとは何かをすべて説明し、確率を計算し、比率を計算し、エクリプスPO損失を計算します。古典的で特別なことはありませんが、本当に興味深いのは、この方法論を複数のエージェントに適用することです。
リポジトリを見ると、12時間前に更新されていますね。彼らの実験設定から別の方法で説明すると、彼らは数学に焦点を当て、報酬システムがあり、バイナリ報酬システムを使用しています。マルチエージェントシステムに対するバイナリ報酬システムは最適なソリューションではないかもしれませんが、3Bモデルを使用しています。これは高い複雑さの多段階推論には本当に適していませんが、小さいサイズの方が微調整、強化微調整が容易であることは理解できます。
LLAMASは一段階スタイルで数学問題を解決します。複数のエージェントがある場合、一段階のソリューションだけを追求するのは満足できませんが、彼らは次の実験、将来の実験でMARFの堅牢性を探索し、多段階MARFを提供し、数学的ベンチマークを拡張すると言っています。多段階MARFベンチマークがあれば、古典的なマルチエージェント強化学習と比較した品質が示されるでしょう。
コーディングに関しても、多くの方にとってコーディングパフォーマンスは不可欠です。コーディングパフォーマンス、多段階、またはエージェンティックなタスク全般にベンチマークを提供してくれれば、ユーザーとして開発プロセスのどこにいるかを感じることができます。大学の彼らは自分たちがどこにいるかを知っていますが、潜在的なクライアントと共有してほしいです。
さらに、今後の実験では2つ以上、おそらく4つのエージェント（1つのボスと3つの運用エージェント）、さらには6つのエージェントへの拡張を考えています。これは私が夢見ていることです。より大きく複雑なマルチエージェント、多段階MARFシナリオでエージェンティックなタスクを処理する可能性を探索することです。これは現在欠けていますが、最初の実験的なプロトタイプなので理解できます。
これを皆さんにお勧めすべきでしょうか？マルチエージェントシステムのダイハードなエキスパートで、数日間を費やしてこれを動作させ、探索し、さらに自分で開発したいと思うなら、ぜひ挑戦してください。他の運用システムと比較してこのシステムがどこにあるかを感じるためのベンチマークデータがある解決策に興味があるなら、数週間か数ヶ月待つことをお勧めします。
この動画を、著者たちの元の言葉で締めくくりたいと思います。「MARFは、複雑な指示を実行可能なサブタスクに効率的に分解し、それらを専門化されたエージェント間で配布することを可能にします。」航空券予約の例を示しましたが、マルチエージェントシステムでは、教師あり微調整されたエージェントがあり、一から訓練する必要はなく、仕事に本当に優れた高度に専門化されたエージェントを持っています。そしてRFTを使用します。
「これにより、異種のLLMベースのエージェントが、動的にグループで目標を共有し、戦略を交渉しながら、独自の知性を貢献することができます。」そして彼らは「個々のポリシーと集合的なシステムパフォーマンスの両方を最適化する本当の問題は、効率的な調整、適応性、通信プロトコルが必要です」と言っています。確立されたMARF枠組みがなく、統一された通信プロトコルが不足していると述べています。彼らは「GoogleによるMCPモバイルコンテキストプロトコル、エージェント間通信、AnthropicによるA2Aがありますが、標準に到達する必要があります」と言っています。
MCPは単にツール使用や外部データベース用であり、A2Aはエージェント間通信用ですが、その境界は流動的です。特定のアプリケーションでは、エージェントの非常に特定の限られた部分のMCPプロトコル、ツールをより知的にすればすべてエージェント間プロトコルになる可能性があります。エージェント間の相互接続プロトコル、ツール使用、高度な知性などの側面でやるべき仕事がたくさんあります。
GoogleはADK（エージェント開発キット）を継続的に開発しており、ユーザーは新しいオプション、可能性、機能を得ることができると言っています。このような新しいマルチエージェントのアイデアとどのように統合されるかが問題です。これは本当にホットなトピックですが、統一された効率的な通信パイプラインが不足しています。マルチエージェントシステムの作成者がこれを言うなら、特により知的なマルチAIエージェントシステムを求める場合、やるべき仕事がたくさんあると感じるでしょう。
今日はこれで終わりです。今日発表されたばかりのマルチエージェント強化微調整について簡単に紹介したかったのです。個人的には良い日でした。RFTが何であり、どこに属するのかを説明できるようになりました。手順シートを更新しました。強化学習スキームでシングルトークンをアクションとして扱う場合、この方法論の複雑さは本当に高いです。現在、多段階または2つ以上のエージェントシステムのベンチマークがありません。私の現在の推奨は、少し待って理解しようとすることです。主要な理論、主要な新しいアイデアを説明しました。これが本当に最終的なシステムかどうかは疑問です。もっとエレガントなソリューションがすぐに登場すると思います。いつものように、何が起きているか、AIが日々どのように変化しているかを見るのは魅力的です。もし興味深いと思われたら、ぜひチャンネル登録してください。