物理学からスウォーム・エージェンティックAIへ:ノーコードで実現!

AIエージェント
この記事は約17分で読めます。

この動画は、物理学の粒子群最適化理論をAIのマルチエージェントシステムに応用した新しい研究「Swarm Agentic」について解説している。従来の数値計算ベースの最適化手法を、言語モデルによる記号的推論空間にマッピングすることで、専門知識なしでも複雑なマルチエージェントシステムを自動生成できる革新的なフレームワークが紹介されている。

From Physics to SwarmAgentic AI: No Code!
After multi-agent systems that humans have to design and build now the next step: autonomous SwarmAgentic systems, where...

スウォーム知能の新たな展開

こんにちはコミュニティの皆さん、お帰りなさい。今日はスウォーム知能、つまり自己最適化マルチエージェント構成における最新のAI研究について話しましょう。

なぜ今これが必要なのでしょうか。簡単です。複数の制約条件を持つ複雑な計画問題のようなオープンマインドな問題があるときです。これこそがスウォーム知能が必要な場面なのです。

従来であれば、マルチエージェントシステムを構築するか、マルチエージェントシステムアーキテクチャの優秀な設計者になる必要がありました。しかし今日、新しい論文によって新しいシステムが紹介されました。それは「Swarm Agentic:スウォーム知能による完全自動エージェントシステム生成」と呼ばれています。

これはドイツの同僚たちからの信じられない研究です。なんて美しいのでしょう。

この新しいSwarm Agenticメソッドを他のすべてのスウォーム知能ソリューションと比較すると、特徴的な機能があることがわかります。ゼロからのエージェント生成マルチエージェントシステムを持ち、理論物理学の粒子群最適化手法を使用しています。

粒子群最適化の理論的基盤

この手法について紹介しましょう。これは1995年11月の会議で発表され、2002年8月に出版されました。なんと、会議はオーストラリアのパースで開催されました。

これは理論物理学の範疇で、世代を超えて受け継がれてきたアイデアです。自己組織化メカニズムを持っており、これがPSOを複雑な探索空間での最適化に特に適したものにしています。

位置があり、探索空間での移動を更新する速度があります。そして理論物理学の美しい数学的公式があります。ここで速度と、時刻t+1での速度の時刻tでの速度への依存性、さらに追加要因を見ることができます。

これは物理学で観察されるもので、鳥の群れや魚の群泳のような自然現象です。これらのPSOモデルは、これらのプロセスに動的に適応し、完全なスウォームからの共有知識を組み込んで、新しい可能性のある方法の探索と、すでに知られている特徴の活用のバランスを取ります。

実装の現実と課題

私は「よし、計算してみよう」と言って、クラウド上の最高のアラームに接続し、すべてを起動し、すべての数値計算シミュレーションプログラムを活性化しました。

しかし、彼らが公開すると主張していたGitHubリポジトリをアップロードするのを忘れていました。今のところまだです。このビデオを見る頃には、すべてのデータが公開されていることを願いますが、まあ、しかし彼らは美しいことを約束してくれています。

複雑なAIの民主化です。もはやエージェントアーキテクチャの専門家である必要はありません。ただこのプログラムが必要なだけです。

実際の複雑なエージェントシステムの設計空間では、人間が決してマッピングできないほど広大で複雑なため、これは新しい超効率的なエージェント構成につながるでしょう。

彼らのマーケティングは優秀ですが、マーケティングを忘れて、これが何かを理解してください。これはAIを構築するAIのフレームワークなのです。

理論から実践への変換

理論質量の計算はどこにあるのでしょうか。変化速度の計算や、その他の計算は何でしょうか。答えは「何もない」です。

従来のPSOでは、複数の要素がありますが、失敗要素、個人最適値、そしてグローバル最適値があります。これはもちろん、完全なスウォームトポロジーの構成です。

では、これを自己回帰AIシステムにどうマッピングするのでしょうか。

解決策をお教えします。物理学や数学からの直接的な数値計算は一切ありません。新しいフレームワークは、ベクトルやテンソル空間での浮動小数点数を操作していません。そうではないのです。

私も泣きそうになります。信じてください、私も同じ気持ちです。美しいPSO方程式という理論物理学がありますが、このフレームワークのスウォーミングでは、これはアルゴリズム的に解くべき方程式ではありません。これは構造化されたLLM駆動ソートプロセスのレシピなのです。

つまり、数値空間での粒子の動力学を、記号空間でのアイデアの動力学に置き換えるということです。

実践例による理解

私にとってこれをマッピングする必要がありました。これが私自身のテストです。いくつかの実験を実行して、これが私が発見したことです。

ステップ1:初期提案 「この旅行計画タスクを解決するマルチエージェントチームを設計してください」と言います。

例えばGPT-4 Omniなどを使ったLLMは、「旅程を作成するプランナーエージェントと予約を処理するブッキングエージェントを作成することを提案します。プランナーはその出力をブッカーに渡します」と答えます。

ステップ2:パフォーマンスレビューと批評 2エージェントモデルを実行し、パフォーマンスレポートを取得します。もちろん、LLMが審査員です。

パフォーマンスレポートは成功率が11%だったと教えてくれます。重要なのは、LLMがなぜ失敗したかを正確に分析することです。

プロンプトは「システムの成功率は11%でしたが、実行トレースと推論トレースを提供します。この他のLLMの失敗の根本原因を分析してください」というものです。

LLMは批評を返して言います:「批評は、ブッキングエージェントが予算制約ではなく旅程のみを与えられたため失敗したということです。これはマルチエージェントシステムの協力構造の欠陥です。また、プランナーエージェントはユーザーの嗜好の競合を処理するポリシーを欠いています

PSO方程式の記号的マッピング

私の構成で最も重要な部分は、ブレインストーミングまたは正式には速度更新と呼ばれるものです。

システムは3つの異なるソースからインスピレーションを得て、特定された問題を修正する方法を考慮します。これらの3つの異なるソースが、PSO方程式の数学的要素です。

第1項:失敗認識要素 LLMは計算ではなく考えます:「エージェントの順序を変更するだけの最後の試行は失敗しました。本当の問題は情報の欠如です。エージェント間の情報パッケージを変更する必要があります」

第2項:個人最適 同じアイデアを取り、LLMは言います:「以前の私の設計を再検討すべきです。最高のパフォーマンスを示したシステムには、特定の制約チェッカーエージェントがありました。この概念を再び導入しましょう」

第3項:グローバル最適 スウォームで動作しているので、スウォームの知能が働きます:「完全なスウォームで最高のシステムには、元の制約に対する最終レビューを行う品質保証スペシャリストエージェントがありました」

物理学から記号推論への変換

理論物理学から知っている公式を、この新しい記号推論パターン空間にマッピングしなければなりませんでした。数学のベクトル空間から、解決策を見つけたい非常にオープンな記号推論パターン空間に移行します。

しかし、このマッピングでは、何が何に対応するかを理解する必要があります。

速度viは今や改善計画です。これは奇妙に聞こえますが、少し待ってください。これは完全なエージェントマルチエージェントシステムを変更する方法についての構造化されたテキスト指示セットです。

座標系の位置は、3次元空間またはn次元空間での現在のシステム構成、システムが現在いる状態です。しかし、ここでは現在のマルチエージェントシステムの完全なテキスト記述(PythonやJSONなど)があります。現在のスナップショットです。

スウォーム知能の核心メカニズム

位置と速度があれば、この学習要素も必要です。時間発展には2つのさらなる要素があります。

個人最適(π):これまでにこの粒子(マルチエージェントシステム)が見つけた最高の構成です。最高のパフォーマンスを記録した以前の実行の保存されたコピーです。

グローバル最適(G):完全なスウォームの任意の粒子によって見つけられた最高の構成です。これは完全なスウォームで最高スコアを持つシステムのコピー、最高のソリューションです。

三つの学習コンポーネント

定理によると、3つの項があります:

第1項:自分のミスから学ぶ これは失敗認識コンポーネントです。以前の計画となぜ問題を修正するのに失敗したかを分析し、実行と推論トレースを見て、推論トレースを調べて「ああ、ここでミスをしたと思う」と言い、LLMは新しい方向、追加する新しい要素を提案します。

第2項:個人最適ガイダンス これは概念的な減算です。記号推論パターンに変換すると、現在のシステムを以前の最高のバージョンと比較し、成功した過去のアイデアや機能、マルチエージェントシステムのトポロジーを再組み込む計画を生成します。

第3項:スウォーム知能 メッシュ通信があり、エージェント間のオープンな通信があり、グローバル最適があります。これはゴールドスタンダードです。概念的減算の数学的操作を行います。

数値空間やベクトル空間で動作するのではなく、LLMの記号推論パターン空間があります。「現在のシステムをスウォームチャンピオンシステムと比較し、チャンピオンの勝利戦略を採用し、最高の勝利戦略を私の現在のマルチエージェントシステム構成に組み込む計画を平易な英語で生成してください」と言います。

実践的な運用例

7日間のパリ旅行、予算2000ドルの例を示します。プランナーとフライトブッカーの2つのエージェントがあり、フライトブッカーがビジネスクラスを予約してホテル代が残らないという問題がすでに実行されています。

失敗項:「ホテルブッカーを追加するという前回の計画は、予算調整の問題を解決するより堅牢な戦略を提案してください」

LLMは内部知識と事前訓練データに基づいて考え、「問題はエージェントの数ではなく、相互作用の種類です。順次ワークフローが必要だと思います」という出力を返します。

個人最適項:「現在のシステムをあなたの個人最適と比較してください。個人最適システムはホテルブッカーの必要性を正しく識別しましたが、調整に失敗しました。改良を提案してください」

グローバル最適項:「このスウォームで予算を最も成功裏に管理するグローバル最適システムを分析してください。おそらく予算コントローラーエージェントが含まれています。この概念を私たちの現在のシステムの改善にどう適用できますか」

統合と実装

統合では、LLMが上記で生成された3つの計画A、B、Cを取り、タスクの理解、環境の理解、複雑さの理解を考慮して、最高のソリューションを提供する単一の最高で最も一貫した行動計画に統合します。

LLMがこのタスクで訓練されていなければ、LLMは惨めに失敗します。自由度と必要な事前訓練がすべて見えます。これはすべて推論に関することです。因果推論と論理に優れたLLMが必要です。

システムの動的進化

この最終的な構造化計画、これが速度です。奇妙に聞こえ、実際奇妙ですが、とにかく数学的公式を言語のアイデア空間に転送します。

次に、別のLLMがこの計画と現在のシステムを取り、実際にコードまたはシステム構成の書き換えを実行し、テストし、パフォーマンスを取得し、推論トレースを分析し、エラーが発生した場所を確認または仮定し、制御フローを最適化しようとします。

初期システム条件への感度があることを個人的に発見しました。

スウォームの並列進化

物理学の粒子が、時間とともに独自の構成動力学を持つ完全なエンドツーエンドマルチエージェントシステムとして再解釈されています。これは粒子ではありませんが、今日は寛大になりましょう。

どこかから始める必要があり、例が必要です。最初のt=0で、n=5つまり5つのシステムから始めます。LLMは旅行計画タスクのための初期開始システムを生成し、5つのLLMは異なる温度(低、中、高)と異なる構成、異なるハイパーパラメータを持つことができます。

粒子1:プランナーとブッカーの2エージェントシステム 粒子2:A、B、Cの3エージェント 粒子3:別の2つの異なるエージェント 粒子5:旅行専用に特別に訓練された単一のモノリシックエージェント

これは興味深いです。モノリシック単一エージェントのパフォーマンスが、同時に進化する複数の他の例があるスウォーム内で動作するマルチエージェントシステムの最適化と比較してどうなるかです。

パフォーマンス評価と学習

5つの粒子(マルチエージェントシステム)が並行して進化します。粒子2には3つのエージェントがあり、それを評価すると良いスコアを得ます。そのため、自己のパフォーマンスを反省し、スウォームの現在の最高リーダーとパフォーマンスを比較します。

LLM駆動の速度計算は、スウォームのチャンピオンを見て、「予算アナリストポリシーを改良し、粒子(チャンピオン)のブッカーエージェントからインスピレーションを得た検証ステップを追加する」という計画を生成するかもしれません。

エージェント間メッシュ通信で、誰もが誰とでも話し、粒子2は粒子1のパフォーマンスがはるかに良いことを見て、なぜかを分析し、マルチエージェント構成のトポロジーにブッカーと呼ばれる特定のエージェントがあることを検出します。

スウォーム知能の美しさ

各反復Tで何が起こるかを見てみましょう。完了したマルチエージェントシステムである各粒子Iがタスクを実行し、外部審査員(別のLLM)によって評価されます。

スコアが記録され、メッシュ構造のリーダーボードに掲載されるので、誰でも見ることができます。最高スコアの1つが勝者となり、スウォーム全体で見ることができます。

あらゆる粒子がこのパフォーマンスデータにアクセスでき、各粒子は自分のパフォーマンス、最高の自己反省、そして現在のチャンピオンが誰かを知っています。

各粒子(マルチエージェントシステム)は独自に進化していますが、常に他の粒子の肩越しに見て、チャンピオンを見て、お互いから学んでいます。透明なスコアがあり、美しいです。

高度なLLMの必要性

ただし、間違った実装をしないよう注意してください。3エージェントシステムで、スウォームのグローバル最適が7エージェントシステムで、7エージェントシステム用の特定の役割を持つバリデーターエージェントが1つあるとしても、バリデーターと呼ばれるエージェントをコピーし、他のエージェントとの関係でバリデーターの機能をコピーしてはいけません。これは失敗します。

あなたは7エージェントシステムではなく、3エージェントシステムです。コピー&ペーストはダメです。LLMはこれを戦略的に分析し、3エージェントシステム構成でこれを実装しなければなりません。

言語モデルの能力差

複雑さと推論能力と創造性が、LLMが発見できるフレームワークのソリューションの品質と洗練度を直接決定します。より高度なLLM、より良い異なる方法、より良い改善戦略、複数の方法。

大きなLLMが必要で、それが動作すると思っているなら、これらのビデオを見てください。すぐに理解できます。絶対にダメです。

診断のための3つの例を示します:

能力の低いLLM(古いGPT-3.5):「表面レベルの分析しかできません。予算が超過したため出力が間違っていたことにしか気づきません。それだけです。それ以上の知能はありません」

より高度なシステム(GPT-4やこのビデオを見ている場合は5):「はるかに深い根本原因分析を実行でき、『予算が超過したのは、ホテル予約エージェントとアクティビティ予約エージェントが共有リアルタイム予算追跡なしに独立して動作したからです』と言えるかもしれません」

創造的ソリューション生成

速度生成において、より創造的で戦略的なソリューションを計画フェーズで見てみましょう。LLMの環境理解、複雑さの理解、複雑なクエリに対する複雑なソリューションを考案する能力が最重要です。

能力の低いもの:「ホテルブッカーのプロンプトを変更して予算を覚えさせる」などの単純なローカル修正を提案するかもしれません。これは1回限りの1ステップパッチで、プロセス最適化のソリューションではありません。

高度なLLM:「予算コントローラーと呼ばれる新しいエージェント、新しい役割を発明できます。すべての予約エージェントがこのコントローラーに要求しなければならないと提案します。新しい協力パターン、特定の期間の並列から順次へのワークフローの再構築、より複雑なレベルでのポリシー変更」

なんて美しく、より詩的で、より幻覚的でしょうか。

パフォーマンス結果と検証

競合する目標の統合について、速度更新では、PSO方程式の第1項である失敗、個人最適、グローバル最適の3つの入力のバランスを取る必要があります。

能力の低いLLM:「アイデアをただまとめるだけです。矛盾する計画を作成したくありません。これをする知能がありません。どうすればよいかもわかりません。これについて訓練されていません」

高度なLLM:「より微妙な統合を理由づけ、『グローバル最適は複雑な7エージェントソリューションを提案しますが、私の個人最適は私が単純に4エージェントシステムであり、これがより堅牢であることを示しています。そのため、グローバル最適の7エージェントソリューションから最も重要な単一エージェント役割のみを適応させ、分析、抽出、最適化し、それを私のより単純で実証済みのアーキテクチャに統合します』」

推論の重要性

多くの人が私に「なぜ推論に焦点を当てるのか」と尋ねます。高度な推論は次世代AIの最も重要な要因です。ビジョン言語モデルの最も重要な要因です。なぜなら、すべての推論が言語モデルで起こっているからです。

ロボットビジョン言語アクションモデルがある場合、最も重要な要因は、ロボットシステムの言語モデルで起こっている推論です。

システムの転送可能性

GPT-4 miniによって発見された最高のエージェントシステムを他のLLMに転送する際のパフォーマンスデータを見ると、以前のすべての美しいモデルと今回のスウォーム・エージェンティックが見えます。

GPT-4 Omni、DeepSeekバージョン3を使用すると、他のモデルを上回ります。おめでとうございます。

しかし、私がほとんど見落としそうになった点が1つありました。Gemini 1.5 Starがあったからです。「これは何だ」と言って、ここで著者たちは天才的なことをしました。

「GPT-4 Omniを使わず、エージェントをGemini 1.5で訓練し、Gemini 1.5 Proでテストしましょう。次のレベルのGPT、次のレベルのEIシステムLLMを使って、GPT-4 miniの75から改善できるか見てみましょう」

はい、さらに改善できます。これに使用するLLMの品質に依存し、他に転送する場合は、モデルが良いほど結果が良いです。興味深いことです。

エージェント性能の段階的改善

品質保証スペシャリストエージェントがあり、成功率は5から30%と非常に低いことがわかります。検証ステップを導入すると、ジャンプが見えます。

予算確認が必要な検証ステップがあれば、もう1つのジャンプがあります。特定の理由で予算遵守を確保するために品質保証スペシャリストを更新すると、エージェントはどんどん良くなっていきます。

しかし、単一エージェントのパフォーマンスを改善するだけでなく、品質保証スペシャリストエージェントの単純なサブタスクのために、LLMの上にLLMの上にLLMを追加しています。

なぜこれが、これを内部で実行できるモンスターAIシステムによって実行できないのでしょうか。この質問への答えは、このビデオで見つけることができます。興味深いでしょう。

評価の課題と多様性

もちろん、スコアリング、実際のパフォーマンスでのグラウンディングについて話しました。客観関数が必要です。

これらすべてのソリューションを評価するために、グラウンドトゥルースアンカーが必要です。これが客観関数です。

高い意味的多様性を持つプロセスがあります。コントローラーエージェントが必要だと言われた場合、人間として私は他のコントローラーについて考えます。実際の会社の人間のコントローラーとその機能、会社のパフォーマンスの動的進化における他のプロセスとの相互作用を知っているからです。

しかし、存在しないLlama 4モデルに話しかけてコントローラーについて話すと、Llama 4は完全に他のアイデアを持つかもしれません。Gemini 2.5 Proははるかに異なる訓練データセットを持つかもしれません。

ビジネスロジック、財務最適化のみで訓練された専門AIシステムがあるかもしれません。彼らは完全に異なることを目指すでしょう。数学ではなく言語で動作しているため、言語学的意味的多様性があります。

言語は環境、知識、意味的用語の解釈に大きく依存します。これにより、可能なエージェントシステム、エージェントシステム操作、パフォーマンスデータの広大なスペクトラムが生まれます。

遺伝子プールのようなもので、数百、数千の世代にわたってこの遺伝的精度の順列があります。これは意味的多様性があるパターン空間での同様の進化です。

客観的評価システム

完全に制御されていないように聞こえます。解釈に開かれています。いいえ、いいえ、いいえ。客観関数があります。結果を評価します。

異なるタスクがありますが、旅行プランナーで進めましょう。これは簡単です。審査員は決定論的ルールベースのPythonスクリプトで、ルールのリストに対してチェックするだけです。

クエリを定義して言います:「月曜日にサンフランシスコで開始したい、火曜日にニューヨークに18時間の中継で行きたい、ホテル予算は20ドル、その後3日間マドリードに行き、4日間ローマの叔母を訪問し、その後ボートで戻りたい」

シンプルなルール:予算チェック、月曜日サンフランシスコチェック、火曜日ニューヨークチェック。スコアがあり、1から5のスケールで進むことができ、スコアを集計できます。美しいです。

創作タスクでは、はるかに不安定になります。GPT-4のようなより良いAIシステムが必要で、これは人間の批評のプロキシとして機能します。

結論と展望

著者たちの公式結論を示します:「Swarm Agenticモデルはスウォーム知能と自律エージェント進化を橋渡しし、スケーラブルな自己最適化エージェントシステムへの道を切り開きます」

スウォームにおけるエージェント間の並列学習進化のように遺伝子プールの学習のような複雑さを増加させ、個々のマルチエージェントオーケストレーターの完全な集団が、自分自身からだけでなく、お互いから、スウォームの集合知能から学ぶべきだと確立すれば、個人的にはAIが再び興味深くなり、完全に新しいシステムを発見できると思います。

この種のビデオに興味があるなら、ぜひ購読してください。

コメント

タイトルとURLをコピーしました