この動画では、Sun Yat-sen大学の研究チームが発表した革新的な多エージェントシステムに関する論文を詳細に解説している。従来の固定的なワークフローテンプレートから脱却し、セマンティック空間とトポロジー空間の2つの数学的空間で同時に学習・最適化を行う自己組織化階層型可変エージェントシステムの仕組みを紹介している。テキスト勾配降下法、バンディット最適化、トンプソンサンプリングなどの手法を組み合わせることで、エージェント間の協調パターンを記憶し、タスクに応じて最適なチーム編成を自動選択できる画期的なシステムの可能性と課題について論じている。

AIエージェントの進化:新たなセマンティックトポロジー
こんにちはコミュニティの皆さん。お会いできて嬉しいです。私たちのAIエージェントはさらに進化しました。セマンティックトポロジーの進化について話しましょう。ここにSun Yat-sen大学からの全く新しい論文があります。ゴール駆動型セマンティックトポロジー進化による自己組織化階層型可変エージェントについてです。何それ?と思うかもしれませんね。そうです、その通りです。
これがこれから話すことです。では大きな新しいアイデアとは何でしょうか?複数の数学的空間で学習する自己改善型多エージェントシステムがあります。最適化アルゴリズムです。つまり一方では、または一つの空間の下にセマンティクスがあります。これは各エージェントが何をすべきか、そのプロンプト、そのツール、その特定の役割を正確に示しています。そして包括的なトピックとしてトポロジーがあります。
これはエージェントが非常に特定の方法で接続されるべき最適化数学空間です。どのエージェントがどの他のエージェントに作業をルーティングするか、どのような順序で、どのような条件がトリガーされるかに依存し、私たちはこれらすべてを学習し、推論実行中にこれを適用できるシステムを構築する必要があります。絶対にクレイジーに聞こえますね。
見てみましょう。すぐに遭遇する多くの問題があります。なぜなら私たちの数学的空間にはもはやスムーズな多様体がないからです。プロンプトやグラフ配線を通してバックプロパゲーションを使用できません。いいえ。では何をしなければならないかというと、環境からのフィードバック、テストから、メトリックから、エラーメッセージから、メッセージ自体からフィードバックを受け取ります。
私たちがしなければならないのは、テキスト勾配が欲しい場合、これは平易な言語での更新、命令セットでの更新を意味し、これらの命令を使用して、相互接続された両方の空間で、複数エージェントのエージェント行動とグラフ構造、それらの間の接続の構築方法を更新することです。
進化するグラフは最終的にそれ自体が長期記憶にもなります。なぜなら私たちには自己学習型多エージェントシステムがあるからです。そして他に何か新しいことはあるでしょうか?美しいオーストリア、ヨーロッパの中心部では、秋が来ています。湖畔では外は美しく、新鮮でさわやか、寒くて素晴らしいです。しかし続けてこのことについて話しましょう。
システムの革新的特徴
この新しいところは何かというと、ここでは単一エージェントからルールと順序の共同進化があり、テンプレートもワークフローテンプレートもありません。これらの硬直した公式を排除したいのです。ここではテキスト勾配を勾配降下法の代用として使用しています。その理由は、私たちが離散的で微分不可能な数学的空間にいるからです。したがって私たちが知っているすべてが窓の外に出てしまいます。
さらに、ここでタスクごとに最小部分グラフを選択するトンプソン最適化による知識認識およびシナジー認識バンディットルーティングを持ちたいと思います。例を示します。もちろん、グラフ構造と自動エッジ重みをメモリとして扱い、特定の複雑さレベルでのタスクに対する特定の協力パターンで見つけたこの美しい構成を再利用する必要があります。
私たちが見ているのは、セマンティックトポロジー最適化のために統合し、構築し、接続しなければならない新しいキーコンポーネントは何かです。ここにあります。エージェント、アグリゲータ、環境、テキスト勾配パーサー、バンディットルーター、そしてグラフとエッジのメモリが必要です。
特定の機能を知りたい場合、エージェントは単にプロンプトとツールを持つLLMモジュールです。ローカル出力を生成します。アグリゲータは他でもありません。グラフ表現を同期ノードとして考えるなら、ここで最終答えを構成し、フィードバックを固定します。
環境はこれに慣れているでしょう。ここでテストを実行し、すべてのメトリックがここで豊富なフィードバックを提供します。ゴールデンデータセット、オラクルデータセット、敵対的指示学習などがあり、すべてが素晴らしいです。テキスト勾配パーサーは、フィードバックを複数エージェントとそれらの間のリンク、それらの間の接続の更新命令に変換します。
バンディットルーターについては、動画の最後で説明します。これに慣れていない場合、ここでは毎回マルチエージェント構造の小さな関連チームを選択し、ベイジアン知識認識構成で進み、すべてが保存され、どの協力が機能したかを見つけ出し、これらの有益な協力をどのように再利用できるか、また将来の部分問題ルーティング演習にもこれらを再利用します。
完全フローの詳細解説
これは面白そうだと思うかもしれませんが、幸い複雑すぎません。完全フローを段階的に見て、彼らが何を構築したか、主要アイデアは何かを見てみましょう。
小さく始めると、一般的なエージェントが一つだけあります。アグリゲータに接続されています。タスクが到着します。人間のタスク、コーディング問題、数学的質問、またはウェブタスクです。小さなチームを選択します。過去の成功に基づいて関連するエージェントをサンプリング、選択し、特定のタスクに適合し、複雑さレベルに応じて必要なチームエネルギーを考慮します。
エージェントはローカルで作業します。選択された各エージェントはプロンプト、ツール使用、MCPなどを使用し、結果を出力し、既に確立されたスタートアップグラフ構成を前提として、選択した後継者に指示を送信します。次にアグリゲートして評価し、テキスト勾配を作成します。そして学習が始まります。
LLMがフィードバックを実行可能な指示に変換し、それらを上流に伝播します。マルチエージェント構成で誰が何を変更すべきかを決定します。そして更新して繰り返します。セマンティック空間でプロンプトとツールすべてを更新し、ローカルリンク、トポロジー相互接続を追加します。
バンディット信念とエッジシナジー重みを更新し、メモリに保存します。グラフを修復します。これを後で示しますが、きれいなDAGを保つためです。新しいタスクで反復し、パフォーマンス指標が求めている精度レベルに達したと示すまで何度も実行します。
より精密な複雑性の説明
単純な説明だったと言うかもしれませんが、複雑さを少し増して、もう少し正確にできるでしょうか?もちろんです。シングルトンから始めます。一つの汎用エージェントとアグリゲータから始まります。タスクが到着します。美しいコーディングタスクです。ルーティング用の最小実行チームを構築します。
アクセスできるすべてのエージェントを起動するわけではありません。その場で小さな部分グラフから始めます。現在のノードごとに、バンディットで潜在的な後継者を選択します。過去のパフォーマンス、タスク適合性、シナジーが基準です。上位K個、上位5個をサンプリングし、調整された指示を渡します。
これが最初の実行、感覚を掴むための最初の試みです。エージェントは「いいえ」と言います。エージェントはローカル作業を行います。このネットワーク内の各エージェントは、アクセスできるプロンプトとツールを使用し、MCP APIなど何でも使って受け取った入力を処理し、出力と選択した後継者への短い指示を生成します。
アグリゲータと環境評価
アグリゲータがあります。アグリゲータはアクティブなエージェントの出力をここで収集し、最終答えを構成します。RAG(検索拡張生成)、その他のツール、複雑性ネットワークなど、知っているすべてがここに入ります。そして環境がこれらの特定の結果を評価します。
テストを実行できます。答えをチェックします。ベンチマーク、ツール結果の検査、失敗スコア、メトリックフィードバックなど、何でも返信として得られます。そして再び、これが中心点です。この特定のフィードバックを複雑さを考慮してテキスト勾配に変換します。
これはLLMが環境フィードバックを読み取り、アグリゲータで高レベル診断を生成し、この診断が上流に伝播されることを意味します。更新のため、二つの別々の数学的空間で作業していることを決定する必要があります。まず、再び単純化しましょう。セマンティクスだけを更新します。
各エージェントが、境界チェックパターンの追加や先行ウェブクローリングへの切り替え、計算機使用の厳格化など、新しいテキスト勾配に基づいてプロンプト、ツール設定、ツール使用、ツール最適化を更新します。
トポロジー構成の更新
そして本当に興味深いことが来ます。これがトポロジー構成を更新することです。各エージェントが小さな配線編集を提案します。テキスト勾配と観察された貢献によってガイドされたイプシロン環境を提供します。これを行えるようになるには、システムがエージェント、ツール、データベース、データリンク、ソルバー、Python環境などの接続をどのように更新できるかについて一般的な理解を持つ必要があります。
これには多くの人工知能が関わっています。システムがトポロジー構造の更新で、新しいスペシャリストエージェントを導入するか、何かの使用を停止するか、直接アグリゲータに接続するか、すべてがうまく機能している場合は何もしない(勝利システムだからこれで行こう)と決定します。
エッジシナジー重みは、どの協力が効果的だったかを記憶し、最良のものを選択するために、遭遇した特定のケースに基づいて更新されます。ここでベイジアンバンディットを使用しているため、ルーターの信念、バンディットペアエージェントパラメータを更新します。有用なエージェントに報酬を与え、有用でないものにペナルティを与え、タスク対応を調整し、古い証拠を減衰させます。後で式を示します。
これにより、継続的学習プロセスであるため、将来のチーム選択がより正確で安価になります。修復とブルーミングで、グラフ構造がDAG(有向非環グラフ)として維持され、行き止まり、サイクル、またはあらゆる肥大化を除去し、タスクエージェント全体でサイクルを再び繰り返します。
構造記憶としてのシステム
エージェントは再びプロンプトツール評価を通じて専門化し、配線は有用な経路に安定化します。システム全体の安定性を測定する手段があるかもしれません。ルーティングはより速く正確になり、何が起こっているかわかります。この構造をメモリに入れると言える部分的一時的解決に到達します。
構造をメモリとして – これが主要見出しです。これは、遭遇し発見した勝利、探索対活用、これらが今後のタスクのためのメモリパターンになることを意味します。美しいモデルGPT-4oを見てみましょう。あなたは間違いを犯しました。
自己組織化する成長するマルチエージェントシステムチームを考えてください。仕事をするために数人を選び、作業を実行し、テストを実行し、平易な言語で事後検討を行い、各人の役割カード(セマンティクス)を更新し、組織図の一部(トポロジー)を再描画し、どのペアリングが機能するかを記録してメモリに保存すると、小さな会社、会社の管理チームを持つことになります。
人間のグループパターン、人間のダイナミクスをマルチエージェントシステムの社会的世界モデルに実装しようとしていることがわかります。しかし社会的世界モデルについては、次回のビデオの一つで詳しく説明します。
何が起こっているかわかりますか?より良く、より緊密で、より速く、より効率的で、より安価なチームが形成されています。美しいですね。何を達成したでしょうか?一歩下がって言うと、構造記憶コンポーネントとして学習したものを保持するため、単なる反応システムではありません。固定ワークフローはありません。これは高度に適応的なワークフローです。
システムの利点と課題
新しい種類のタスクに対してマルチエージェント構成として自己再配線できます。多くの学習が関わっています。有利でないマルチエージェントシステムの境界条件または開始条件から始める場合、最適段階に到達するために多くのお金と時間を費やす必要があります。
しかし理論的には可能で、効率ルートはエージェントまたはLLMが持つ現在の知性レベルに応じて、現在のタスクに有望に見えるエージェントのみをルーティングします。事前訓練データでの複雑さを考慮した簡略化フローを再び、単一シート、単一モニターでこれを要約しようとします。
ルーティングでバンディット構造とトンプソンサンプリングをもう少し深く見ると、アルファとベータパラメータ、タスクへの知識グラフ距離があります。追加パラメータがあります。チームシナジー用の別のパラメータがあります。人間チームダイナミクスから来ています。
AIチームエージェントダイナミクスに類似のアイデアを統合しています。ルーティング信念アルファベータ報酬タスク対応減衰。これをすぐに示します。有効なDAGを強制し、プルーニングし、すべてが素晴らしいです。
定義と詳細説明
定義に来ましょう。後で説明すると言いました。今がその時です。アグリゲータとは何でしょうか?グラフ内の最終組み合わせ要素またはシンクノードです。何でしょうか?グラフを考えてください。ネット内の他のすべてのアクティブエージェントからの出力を収集し、最終答えを生成する有向非環グラフ内の特別なシンクノードです。
シンセシスノート、フォワードパス内の役割は簡単です。中間結果を保護し、競合を調整し、最終出力を構成し、ツールを使用します。RAGについて知っているすべてがここに統合されています。バリデータも統合されています。素晴らしいです。
しかし学習プロセス自体でも役割があります。小さなロボットシステムのように環境からフィードバックを取得し、私たちが操作しなければならないグローバルテキスト勾配を取得するからです。スムーズな勾配がなく、数学的空間でスムーズな表面で作業していないため、上流に伝播します。チェーンルールがあり、セマンティックとトポロジーの両方の数学的空間で更新します。
バンディットとトンプソンサンプリング
バンディットについて。前回ビデオでバンディットという言葉を使った時、多くの質問を受けました。バンディットとは何でしょうか?非常に簡潔に、私の理解では、バンディットは単にAI、意思決定者です。
ペイオフが不確実な複数のオプションの中から選択しなければならない意思決定者です。私たちは不確実です。統計学では環境からの結果、環境からのフィードバックから学習して、次回はより良くします。マルチアームバンディットでは選択肢があります。どのアームを活性化、押下、または押下するか、用語はレバーの多いスロットマシンから来ています。
各アームは異なって支払い、ほとんどの場合何もありません。この読んでいる特定の新しい論文では、アームは作業をルーティングしたり、活性化または非活性化したりできる候補後継エージェントです。もちろん、AIで確率的信念を使って作業するため、自動的にベイジアンバンディットに切り替わり、トンプソンサンプリングの式をすぐに示します。
これは私たちが知っていることです。これは教科書からです。これは標準なので単にコピーしました。ボーラ結果を観察する後験確率、今度は成功があります。マルチアームバンディットがあり、成功しています。アルファi事前確率にプラス1の成功を持つか、失敗がある場合はベータi事前確率に追加し、ベータi事後確率またはアルファi事後確率を持ちます。
モーメントが定義されています。これは平均または分散が定義されていることを意味し、トンプソンサンプリング用に特定の形式があります。期待値e ti または平均値の非常にシンプルな式を覚えてください。しかし分散、最もシンプルな統計的観点での不確実性の測定も必要で、これが正確な分散フォーマットです。
動画の最初に示した科学論文では、これらでは十分に複雑な数学項ではないと決定し、より多くの数学的減衰項と相互作用項を追加することにしました。元の論文を見てください。パフォーマンスを少し高くするための追加ハイパーパラメータがあります。しかし現時点では、これらの追加パラメータを無視します。論文でこれを見つけることをお伝えするだけです。
結果と性能評価
結果に来ましょう。コーディング、対話、長コンテキスト質問回答、数学、エージェント的ベンチマーク全体を見ると、5から10%の精度向上と、より良いリソース効率、反応ループ、オプティマイザーがあります。これを行うことができますが、一般的に非常に大まかなアイデアを提供すると、パフォーマンスで5から10%向上します。
しかしパフォーマンスを向上させるだけでなく、はるかに複雑なシステムです。注意深く、複雑性を導入しており、注意する必要があります。フィードバック品質が重要であることを指摘させてください。テキスト勾配はLLM診断に依存します。
15億の自由訓練可能パラメータを持つ小さなLLMを使用する場合、これは本当に推奨すべきものではありません。なぜなら、これは完全に不安定な更新手順になるからです。コストを削減できます。しかし、すべての部分グラフによるオーバーヘッドがまだあることも覚えておいてください。さらにグラフ管理は単純なグラフではありません。
そこに行ってグラフを構築するだけではなく、サイクルの発生を防ぎ、デッドリンクをプルーニングし、より多くの複雑性を追加した場合に発生するグラフ肥大化を避ける必要があります。特定のグラフ表面に複雑な修復ルールを導入する必要があります。したがって、ハイパーパラメータに対して本当に敏感になります。
注意深く、特定のグラフハイパーパラメータに対して選択する修復ルール、空の下で想像できるすべてがこのシステムのホーバーパラメータです。チューニングはシステムの安定性、速度、コスト、その他すべてに影響します。高度に合理的で、高度にドメイン固有で、高度に正確で、信頼できる外部知識グラフを使用する必要があると言いました。
何も起こらず、ハルシネーションもなく、完璧なシステムです。そうでなければ、高密度相互接続により、カスケード エラーが発生する可能性があり、スムーズな数学的微分可能多様体で作業していないため、LLMと知識グラフ最適性に依存するテキスト勾配降下について話しています。
この離散空間では正式な収束保証は全くありません。幸運なら動作するでしょう。最終的な考えについて。絶対に魅力的な論文です。素晴らしいアイデア。信じられない複雑性。このような方法は考えたことがありませんでした。これを学ぶのが大好きです。見てください。論文を見ることをお勧めします。しかし遭遇する可能性のある複雑性と限界に注意してください。
最終的な考察と展望
この新しい方法論は、一回限りの推論を再利用可能な組織成長構造に変えます。これが私の好きなところです。最初に複雑性の最小理解を持つ必要がある各特定タスクに対してエージェントの小さなチームを選択します。そして自然言語での環境の性質からのフィードバックから自律的に学習します。スムーズな多様体はなく、共進化します。これがここでの美しさです。セマンティックトポロジー空間で。
エージェントが何をするか、どのように接続されるか。しかし、最適最小構成と呼ぶものを見つけるためのそれらの組み合わせ最大値は、数学的に理解していない場合、非常に時間のかかる作業になる可能性があることを覚えておいてください。
結果は理論的には美しい、自己学習自律学習マルチエージェントシステムです。使用すればするほど、より専門化されます。実世界環境からのフィードバックが多いほど、より効率的になります。しかし考えてみてください。訓練プロセスは非常に面倒で、非常に時間集約的で、コスト集約的になる可能性があります。
しかしメモリに保存されています。他のシステムに転送可能です。より複雑な別のシステムのサブシステムになる可能性があります。絶対に魅力的だとわかります。論文を見てください。チャンネル登録してください。次回お会いしましょう。


コメント