重みではなく言葉で最適化する自己学習型マルチエージェントRAGシステムHERA

従来の連続的なパラメータ空間での最適化から離れ、LLMの重みを更新せずにシステム外部のアーキテクチャやプロンプトを最適化する新しいアプローチが登場している。本動画で紹介されるHERAは、数値的な勾配ではなく自然言語による洞察を用いてマルチエージェントRAGシステムのトポロジーとプロンプトを動的に進化させる訓練不要の自己最適化フレームワークである。成功と失敗の軌跡を比較して得られるセマンティックな利点と欠点を経験ライブラリに蓄積し、クエリごとに最適なエージェント構成を動的に選択する。しかし、この手法はコアLLMの理解能力に強く依存しており、自然言語での解釈が不完全な場合、エラーが伝播してシステム全体の性能が損なわれるリスクがあることも指摘されている。

Words Instead of Weights? Self-Learning Multi-Agent RAG (HERA)

The authors: " ... we propose HERA, a hierarchical framework that jointly evolves multi-agent orchestration and role-spe...

RAGの最新動向とパラダイムシフト
HERAの核心的イノベーション
設計時最適化とランタイム最適化の融合
HERAのエージェント構成
数学的フレームワークの詳細
聖書の問題を例に
HERAの限界と課題

RAGの最新動向とパラダイムシフト

こんにちは、コミュニティの皆さん。今日はRAGの最新情報についてお話ししましょう。もちろんマルチエージェントについても扱いますが、ここで研究における本当のシフトに気づくことになります。私たちは連続的なパラメータ空間から離れつつあり、LLMの重み更新やテンソルの更新を見るような最適化から、すでに過去の動画でお見せしたように、ますますLLMの外部にある離散的なシステム空間へと移行しています。

アーキテクチャ、つまりエージェントネットワークのトポロジー、プロンプト最適化、そして完全なシステムのコード最適化です。これを覚えているでしょうか。これは私が作った可視化イメージで、中心にコアLLMがあり、その周りに標準的なRAGパイプラインからグラフRAG、データベースクラスタ、API基盤、形式的推論エンジン用のLeanまで、すべてを含むAIハーネス、つまりハーネス球があることを示しました。そして今、RAGの最新技術を手にすることになります。もちろんそれは自己最適化し、自己発展するマルチエージェントRAGシステムです。

もちろんですよ。つまり、他に何があるんでしょうか。いいえ。今日の論文では、訓練不要のシステム最適化のための設計図をいくつか提供することになります。訓練不要とは、LLMがまったく訓練されないことを意味します。重みは凍結されています。そして皆さんは、ちょっと待って、でも前回の動画でも訓練不要のシステム最適化を見せてくれたじゃないか、と言うかもしれません。メタハーネスやメモリ最適化を見たときのことです。

その通りです。では、複雑な推論やマルチエージェント協調について見てみましょう。今日導入するのは数値的な勾配ではなく、今日はセマンティックグラデーションというトピックを紹介します。もし皆さんが、セマンティックグラデーションって何だろうと思っているなら、実はスカラー報酬を使ってエージェントのポリシーを更新し、典型的な強化学習の最適化を行う代わりに、今回はエージェント、これをオーケストレーションエージェントと呼びましょう、を使って一般化し、さあ靴下をしっかり履いてください、自然言語の洞察を得るのです。

そして成功した軌跡と失敗した軌跡を比較し、これらの自然言語の洞察を取り出して、ある種のデータベース、あるいは経験ライブラリと呼びましょう、に保存して、将来のクエリを動的にルーティングします。つまり、ちょっと待ってください。純粋な数学的最適化定理から離れて、自然言語の洞察に基づく最適化アイデアを構築するということですか。

そして、人間の言語文をどのように解釈できるかという、完全にぼやけた解釈があります。そしてこれが今、私たちの最適化パラダイムとなっているのです。その通りです。ようこそ。これはバージニア工科大学からで、2026年4月1日付けで、進化するオーケストレーションとエージェントプロンプトを備えたマルチエージェントRAGシステム、羅針盤としての経験を持っています。

彼らはこのシステムをHERA、階層的進化型マルチエージェントRAGと呼んでいます。そして今、非常に特定のエージェントトポロジー、完全なトポロジーを報酬に導かれて最適化します。サンプリングと経験の蓄積ですが、今や数値的な報酬ではなく、自然言語の最適化理論になることを皆さんは知っています。

HERAの核心的イノベーション

では、今日の論文の核心的なイノベーションは何でしょうか。訓練フレーム、コアLLMの凍結された重み、動的に進化する階層的フレームワークがあり、これが2つのことを並行して処理します。マルチエージェントのオーケストレーショントポロジー、つまりどのようにトポロジーを構築するか、このオーケストレーションの首謀者がいる場合どうするか、そして個々のエージェントプロンプトです。つまり、プロンプトとコンテキストエンジニアリングを、期待値最大化のようなプロセス設計を使って行いたいということです。

これはアーティストが教えてくれるように、強化学習からのGRPO、グループ相対ポリシー最適化に触発されましたが、今、彼らは完全なポリシー最適化を、さらに詳細を提供しますが、エージェント自体のトポロジーレベルまで持ち上げました。したがって、与えられたクエリに対して、候補となるエージェント実行シーケンスのグループをサンプリングします。エージェントを並列と直列で持つか、他の条件があるか、そしてそれを実行し、F1スコア、トークン効率、エントロピーなど、何らかのメトリックによってこれらの軌跡の成功をランク付けします。

良いものと悪いもの、機能するもの、拒否される軌跡があれば、経験ライブラリを構築できます。前回の動画で自己学習メモリ構造について話したことを覚えていますか。経験ライブラリができた偶然の一致です。

このオーケストレーション全体が、与えられた特定のトポロジーに対するセマンティックな利点とセマンティックな欠点を生成します。つまり、今やポジティブな軌跡とネガティブな軌跡があります。これは美しいです。今、追加や統合、あるいは剪定のような操作を、このライブラリ内で実行できる操作の一つとして構築できます。

推論実行中、このライブラリは条件付き事前分布として機能し、オーケストレーターのトポロジーサンプリングにバイアスをかけます。さらに気づいていただきたいことがあります。ロール認識型プロンプト進化は、軌跡の失敗を引き起こしている性能の低いエージェントをターゲットにしています。なぜなら、お伝えしたように、特定の方法で特定の形でエージェントを組み合わせるトポロジーの一部は、実行の成功につながらないからです。

したがって、各エージェントには失敗した軌跡のバッファーがあり、美しいことに、良いものと悪いものがあります。対照的な分析を行って、操作ルールと行動原則という2つの軸に沿ってプロンプトの更新を生成できます。そして今、肝心なのは、凍結されたLLMを有利に使うということです。なぜなら、中央のLLMの知性が凍結されているからだと言うからです。

何も学習しません。知識を追加しません。その知識体系に容量を追加しません。したがって、ある種の暗黙的なクールバックライブラリ正則化があります。なぜでしょうか。LLMの、いわば知性が凍結されているからです。これは、元の標準的な中間点から遠く離れて発散しないことを意味します。

したがって、すべての更新されたポリシー、そしてポリシー更新の方法をお見せしますが、元のモデルの安定したサポートスキームの周りの特定の区間内に留まります。極端に遠くまで発散することはありません。つまり、凍結された中央のLLMによる暗黙的な正則化があるということです。では、もし私たちがこれを行わなければならず、グローバルAI企業がGoogleがGerman 4で美しく行い、Apache 2オープンライセンスまで付けたような新しいAIモデルを公開しないとしましょう。

しかし、IPOのパフォーマンスを少し恐れて新しいAI LLMを公開しないそれらの組織があるなら、エージェントの周りのハーネスを使って、さらにどのように最適化できるか見てみましょう。この損失ランドスケープは、凍結されたクローズドウェイトLLMがあれば、数学的な意味で微分不可能になります。なぜかというと、この外側の球体を見てください。スーパーコンピュータへのAPIコール、プロンプト構文、アーキテクチャルルーティング問題、異なるデータパイプライン、標準RAGパイプラインなどがあります。

これらすべてをデータベースクラスタアレイとどのように組み合わせるか、どのように抽出するか、どのように取得するか、どのようにリランクするか、これらすべて。外側の殻の最適化には非常に多くの可能性があることがわかります。では、これをやりましょう。前回の動画で、オープンコアベースの自動研究Clawを使ってAIが独自のメモリを設計することについてお話ししたとき、この新しい方法論をオムニメモリと呼びました。

ベンチマークスコアが低い場合、パイプラインがセマンティックな失敗を診断することを示しました。セマンティックな失敗は形式化できます。プロンプトの定式化が、正確な一致F1メトリックを破壊する冗長な出力を引き起こしました。このオムニメモリは、厳格な制約を強制するためにPythonコード、またはシステムコードを書き直します。そして、これは素晴らしいと言います。そして今、HERAで持っているものは、マルチホップ推論タスクが失敗した場合、システムは単に出力トークンの確率を下げるだけではありません。

実際にグラフ構造のネットワークの完全なトポロジー内の特定のエージェントノード、単一のノードが特定され、失敗を追跡し、おそらく自然言語ルールを定式化します。リトリーバーエージェントが失敗したのは、時間的制約を正しい方法で抽出しなかったためです。そして、凍結されたLLM、コアLLMの知性がエージェントプロンプトにパッチを当てて、この間違いが補償されるようにします。

両方のシステムがある場合に気づきますか。オムニメモリは設計時に動作します。科学者がここでPythonコードベースを書き、ベクトルデータベースを可能な限り最良の方法で構築する方法を見つけ出し、最適なハードコードされたプロンプトラッパーを確立します。

設計時最適化とランタイム最適化の融合

今お話ししているのはランタイムで動作し、デプロイされると、システムは数秒前、あるいはメモリアクセスがあれば数日前に失敗したことのエピソード記憶に基づいて、クエリごとにマルチエージェントシステムの独自の計算グラフを動的に変更します。

これは興味深いことです。設計時最適化とランタイム最適化があり、なぜ私がこれら2つの出版物を選び、最初にオムニメモリを見せ、今日HERAを見せているのか正確にわかるでしょう。この複雑さを組み合わせることができれば、つまりこれは両方の論文を超えています、これは私個人のもので、想像してみてください、これらを組み合わせることができて、エンタープライズAIエージェントを構築するとします。

まず、オムニメモリ自動研究パイプラインを使用して、最適なデータ取り込みチャンキング戦略を発見します。次に、ドメイン固有のデータ構造の特定のセットに最適なベクトルデータベース構成をAIシステムに見つけさせます。そして、基本システムプロンプトの最適な構成も見つけさせます。これらすべてをオフライン最適化と呼びましょう。

しかし、これを行い、オムニメモリを最適化したら、新しいエージェントやマルチエージェントシステムが、理論物理学や数学で問題があるというような通常のマルチホップユーザークエリに遭遇したときに、これらのコンポーネントをHEROオーケストレーターでラップします。

動的に並列推論パスをスピンアップし、セマンティック経験ライブラリをチェックします。おそらくすでに理論物理学で何かをしたことがあり、それについての知識があるので、オンライン適応でサブエージェントプロンプトを即座にパッチします。これが、オムニメモリとHERAを組み合わせる方法を私が想像する方法です。なぜなら、両方のシステムは、離散的なプログラムまたは離散的なプロンプトに対する知的な検索が今や新しいパラダイムであり、これがLLMリフレクションによって保護されていることを示しているからです。

残念ながらこれは真実です。これは、凍結されたLLMに行って、それを解凍し、コアLLMに新しい知識、新しいスキル、新しいアイデアを学習させるよりもはるかにサンプル効率が良いのです。複雑なAIシステムの教師あり微調整と強化学習フェーズに関して、複雑なシステムエンジニアリングとエージェントトポロジー最適化に関して何を持っているかに関わらず、LLMを凍結したままにして、外側の球体で検索させます。学習されたリフレクションではなく、これらのプログラム空間に対する知的な検索で最適なソリューションを見つけます。

AIを使用し、AIの知性を明示して自己学習AIコアシステムを持つほど洗練されていません。凍結されたLLMの周りの球体内のすべての可能性を検索するだけです。はい、これは可能です。はい、これは前進の道ですが、本当に新しい知的なLLM自体を生み出すほど洗練されていません。

したがって、私にとってこれは、コアLLM、コアインテリジェンスの周りの一種のアジャイルプロジェクトマネージャーのようなもので、LLMエージェントのチームを管理しているだけです。このアジャイルのアイデアに精通しているかわかりませんが、これはまさにHERAが私に見えるものです。これは論文HERAからの著者によるスクリーンショットです。そうです、4月1日だとわかっています、でも正直に誓います、これはスクリーンショットです。

HERAのエージェント構成

エージェントがあります。クエリデコンポーザーというエージェントがあり、私の複雑な理論物理学のクエリを5つの理解しやすいクエリに減らします。次にリトリーバーがあります。RAGについて話しています。データベース、インターネット、文書などを取得します。次にアンサージェネレーターがあります。次にクエリリライターがあります。

次にエビデンスセレクターエージェントがあります。次にリフレクトエージェントがあります。そしてコンテキストバリデーターエージェントがあります。そして、私たちが思いついたすべてを最終的に結論づけるエージェントがあります。このアイデアから、これがエージェントの混合またはスペクトルです。

複雑なクエリが来て、私のスーパーインテリジェンスオーケストレーターエージェントが、この人からのこの複雑なクエリに対して、今、異なるエージェントシーケンスを試してみると言います。最初にピンクのブタがいます。これはクエリリライターです。次にネズミがいます。ネズミはリトリーバーです。そして牛がいます。牛はクエリリライターです。これを試してみます。

そして別の構成があり、さらにエージェントを追加して、特定のメトリック、例えばF1を持っているかどうか見て、最良のパフォーマンスは何か、エージェントが導き出せる洞察は何かを見ます。これは純粋な試行錯誤だと思います。何らかの既存の知識があれば、特定の複雑さに対してこの構成が機能するかもしれない、または本当に複雑に絡み合った複雑さに対しては、牛、鶏などのエージェントが本当に必要かもしれないことがわかります。

数学的なレンズからこれを見ると、エージェントγの構造化された行動空間上で動作していることを理解することが重要です。オーケストレーターは、グローバル戦略のレベルでグループベースの最適化を実行します。

クエリQが与えられると、推測してください、候補エージェントシーケンスのグループをサンプリングします。各シーケンスは、対応するエージェントを呼び出すことによって実行され、特定の軌跡τを生成し、その後評価されて自然言語表現で報酬を得ます。すごいですね。

そしてオーケストレーターは、私の特定のジョブ全体でグループ全体にわたる相対的な成功または相対的な失敗の理由を明確にするよう促されます。お伝えしたように自然言語の洞察のセットを生成します。洞察は大文字のIで、このセマンティックな利点が、効果的な推論戦略、このシーケンスのようなエージェント相互作用、失敗モードについての構造化された知識をエンコードします。

計算できてバックプロパゲーションとすべてを持つ数値的な勾配を、Iが理解できて、これらの信号から複合的な自然言語文字列を本当に作る人間が解釈可能で構成可能な信号に効果的に置き換えています。ここでグラフの一番上を見せたばかりです。

そして、お伝えしたように、時間の経過とともに構築するか、数学や物理の分野で働いている場合はすでに持っているかもしれない経験ライブラリがあります。そして、お伝えしたように、トポロジーだけでなく、プロンプト、ロール認識型プロンプト進化のための2番目の最適化の時が来ます。DSPIなどでこれを知っているかもしれません。特定のノートがあり、生成されるプロンプトバリアントがあります。これは標準だと思います、これについて本当に話す必要はありません。

しかし、これが興味深いことがわかります。オーケストレーターAIには、スター構成、ツリー構成、複雑なグラフ相互作用トポロジーが可能で、私の特定のタスクに最適な構成を見つけるために、可能なすべての組み合わせを試しています。もう少し数学的な側面を知りたい場合は、アイデアのより形式的なフレーミングを持つことができます。

数学的フレームワークの詳細

しかし今は、主なアイデアを伝えたかっただけです。いいえ、これは複雑だと思わないでください。いいえ、全く複雑ではありません。正反対です、これは一歩後退です。数学に別れを告げ、自然な英語の定式化にこんにちはと言い、今ではすべてがAIの知性に依存しています。しかし、このフレームワークを数学的トポロジーにマッピングしたい場合は、そうしましょう。

デュアルレベル進化マルチエージェントフレームワーク。もちろんトポロジーとプロンプト最適化を行います。知識集約的タスクがあります。Qはクエリの分布を示します。Yは回答空間です。Dはサポート情報を提供するコーパスです。RAGシステムについて話しているので、システム全体をこのタプルとして定式化します。

何があるのか見てみましょう。中心的なオーケストレーターエージェントです。Nは特殊化されたエージェントのセットです。Eは経験ライブラリです。Sは状態空間です。Aは行動空間です。

セットnの各エージェントnは、ポリシーπ、プロンプト、シーケンス、軌跡τを持つタプルとして抽象化されます。行動空間には、注意深く、推論操作とツール呼び出しの両方が含まれます。

これは素晴らしいですが、エラー伝播の可能性が開かれます。注意してください。推論操作に問題がある場合、ツール呼び出しへのエラー伝播がある可能性があります。これが起こらないようにする必要があります。そしてもちろん、遷移ダイナミクスと軌跡に精通しています。

クエリQが与えられると、主要な知性であるオーケストレーターエージェントが、経験ライブラリを条件として、マルチエージェント相互作用トポロジーを生成します。うまくいけば、オーケストレーターが、この特定の理論物理学の問題に対して、前回うまくいった構成を知っていると言える構成があります。素晴らしい。

エージェントのサブセット、トポロジー、実行順序(シーケンシャルまたはパラレル)、すべての依存関係、必要なすべてのデータソース、すべての特定のデータパイプラインなどを指定します。エージェントは、この相互作用トポロジーに従って実行し、軌跡τを生成します。最終的な回答yは、システムの終端状態に基づいて、通常、軌跡に沿って集約された情報から合成されます。素晴らしいです。

目標は何でしたか。目標は、お伝えしたように、オーケストレーションポリシー、主要なオーケストレーターエージェントのπと、論文のスクリーンショットでブタと牛と鶏などで示したようなルール固有のプロンプトを共同で最適化することでしたが、基礎となるLLMを凍結したままにします。これが私のイメージのここにありました。コアLLMは凍結されており、周囲のコード最適化トポロジー最適化、マルチエージェント構成などのハーネスだけがあります。ポリシー最適化とも言えます。

これがポリシー最適化の数学です。ポリシー評価があり、次にライブラリに組み込まれるポリシー改善があります。これは自明だと思いますが、ここに持っているだけです。興味深い要素の1つ、注意を引きたいのは、著者が説明するトポロジー変異です。

何かがうまくいかない場合、秘密の武器があると言っています。プロンプト進化があり、これがエージェントレベルの動作を改善する場合、持続的な失敗に遭遇する可能性があります。この持続的な失敗は、プロンプト最適化も持っていて、トポロジーに構造的な欠陥があることを示しています。

おそらく、間違った並列または直列の組み合わせを使用しているか、エージェントが特定のタスクに完全に不適切であるか、何でもです。軌跡が一貫して失敗する場合、トポロジー変異を構築します。メトリックが10回ゼロに近い場合、システムはおっと、何かが起こっていると理解します。

そしてここで、失敗したエージェントnを代替エージェントに置き換えるか、追加のエージェントでトポロジーを拡張するかのいずれかによって、問題を引き起こしたエージェントを理解し、代替構造を探索し始めます。トポロジーを削減するか、何かを追加して、うまくいけば成功する候補トポロジーを生み出します。

興味深いアプローチですが、さて、この構築をすべて終えた後、結果は何でしょうか。著者は最後の2行で、HERAはQwen 3 14Bモデルまたは非常に古風なLlama 3のいずれかを使用することを確信できます。現代のAI研究ではLlama 3モデルの使用は止めてください、もう存在しません。そして、他のシンプルな高度なRAGシステムを上回ることを示します。

高度なRAGシステムを見て、いくつかのシステムが欠けていると言うかもしれません。まあ、これはアーティストがベンチマークに対して決定したセットです。終わり。でも理解できますよね。HERAは140億パラメータモデルで、他の古典的な高度なRAGシステムを本当に上回っています。

聖書の問題を例に

素晴らしいです。例を見せたいと思います。著者は、復活祭が近いので、ケースとしてこのような質問を出してきます。エルサレムの神殿で提示された聖書の人物の磔刑の正確な理由は知られているか、という問いです。すぐにクエリリライターがあり、これを質問に分割して、エルサレムの神殿で提示された聖書の人物の磔刑の原因は何か、これがナンバーワンです。磔刑の原因は正確に知られているか、これがナンバーワンです。

次にリトリーバーがあり、インターネットまたは聖書に行き、次にアンサージェネレーターがあり、すべてをまとめて結論エージェントにします。答えはノーです。聖書に少し精通している場合、何が起こっているのか本当に理解していないと言うでしょう。

これは興味深く、これがHERAの特徴の1つです。因果的マルチホップ質問がある場合、HERAはこれをポジティブなことでもある方法で処理します。因果的証拠の取得を不確実性に対する純粋な推論から明示的に分離します。これは美しいです。なぜなら、AIがステップバイステップで行わなければならないことの複雑さを減らすからです。

まず、AIシステムはターゲットエンティティを特定します。ローマカトリックであればこのターゲットエンティティをイエスと呼びましょう。磔刑と寄与要因、歴史、それについてのすべて、さまざまな教会による解釈などを説明する関連する歴史的および聖書的情報源をインターネットから取得します。

次に推論モジュールが取得した証拠を評価し、一貫性、論理、あいまいさや争われている解釈も考慮してチェックし、絶対的な正確な原因が明確に知られており、完全なコミュニティによって完全に合意されているかどうかを判断します。ここで直列依存関係を認識するワークフローを維持することにより、HERAはシステムの幻覚を最小化しようとします。

なぜなら、システムが単純な結論に至るのに十分なデータを持っていない可能性があり、したがってAIエージェントは結果を幻覚したり、ステップや条件を幻覚する傾向があるからです。したがって、最初のステップは、インターネットで見つかる論文に基づいた推論ホップですが、インターネットではローマカトリック教会に従った論文を見つけますが、教会による公式解釈に全く従っていない論文も見つけます。

多くの異なる解釈を見つけます。したがって、Iによる幻覚や複数の解釈を最小化することは簡単なタスクではなく、これは経験に基づいた純粋な取得タスクと、すべての取得があればリランキングをしたいかもしれず、論理チェックなどをしたいかもしれない適応的因果推論タスクとの間のHERAの機能的分化を明確に示す最良の例ではないと思います。

この分離により、HERAは原因と確実性が順次推論されなければならないマルチホップ質問をうまく堅牢に処理できるようになります。興味深い解釈ですが、システムの長所と短所がわかります。

HERAの限界と課題

個人的な注記として、今日提示した論文を超えて、HERAのパフォーマンスの上限は、中核にある凍結されたベースLLMの知性、特に複雑な推論に対するこのLLMの能力、文脈内学習に対するこのLLMの能力によって厳密に制約されていると思います。うまくいけば、事前訓練データにこの特定のケースのための明示的なドメイン知識があり、JSONのような構造化された出力への厳格な遵守があります。

これは、コアLLMがその構造化された操作で失敗した場合、誤解しないでください、中央のLLMの周りのこのハーネスは美しく構築されており、すべてですが、構造化された操作であり、LLMがこの実行で失敗すると、システム全体がHERAで苦しむことを意味します。LLMは3つの非常に複雑な役割を果たすように求められています。

第一に、オーケストレーターエージェントです。クエリを読み、過去の経験を見て、マルチエージェントトポロジカルワークフローの完璧に有効なJSONマップを出力します。第二に、リフレクターです。過去と現在の成功および失敗したエージェントのログを見て、経験に基づいて、過去のこのエージェントチームがなぜ失敗したのか、自然な英語で非常に正確な論理的説明を書かなければなりません。

すべてのデータが見つからない場合、理由を幻覚する傾向があり、経験ライブラリに純粋なゴミを保存し、経験ライブラリのすべてのレベルに伝播するエラーが発生します。第三に、エグゼキューターエージェントです。特殊化されたエージェント、リトリーバー、バリデーターは、より小さなLLMである可能性があります。

いいえ、しかし、この特定のドメイン、私の複雑さクエリのレベルに対して十分に賢くない場合、自分のプロンプトに従うのに十分賢くない場合、最終的な答えは間違っているでしょう。前回の動画でGemini 4の評価と推論トレースを聞いてみてください。ここで私が何を意味するかすぐに理解できます。

ベースLLM、凍結されたLLMが強力な指示追従能力を欠いている場合、HERAは完全なエージェントハーネス全体で複合エラー伝播を経験します。悪い計画は悪い実行につながり、これが悪いリフレクション、悪い理解につながり、経験ライブラリを完全に汚染します。

したがって、これは非常に美しい論文ですが、考えてみてください。エージェントの周りに構築するAIハーネス球の複雑さにすべて依存しています。自然言語解釈に1つの間違いがある場合、コード構造にではなく、数学的最適化にではなく、数値的報酬関数にではなく、何かがどのように定式化されているかの純粋な理解だけで、自然言語でのマルチエージェントシステムのトポロジカルパフォーマンスの内部が100%理解されていない場合。

LLMによるすべての行動は、トポロジーの非最適化につながり、したがって、数値的に、数学的に検証可能に、またはコード実行によって検証可能な報酬システムを持つのではなく、すべてがこの美しい人間の言語に依存します。バイオテクノロジーのことや純粋に理論物理学のことについて話す場合、自然言語、例えば英語でのLLMの理解は、コードや数値ソルバーほど完璧ではないかもしれません。

したがって、すべてを自然言語に変換し直す場合、数学的最適化をすべて忘れて、人間の言語でAIシステムですべてを解決し、AIがグラフトポロジーのさらなる最適化のためにすべてを完全に理解することを望むなら、少し注意が必要だと思います。これが事実であるとは絶対に確信していません。

皆さんはどう思いますか。ぜひお聞かせいただければ幸いです。それ以外では、次の動画でお会いできれば幸いです。