デュアルグラフモーフィング:クールなマルチモーダルAIエージェント(動画、音声)

AI研究
この記事は約14分で読めます。

本動画では、マルチモーダルAIエージェントシステムにおける革新的なグラフ構造アプローチを解説している。清華大学と中国人民大学による2つの研究論文を取り上げ、OmniGAが世界をグラフとして表現し、MirrorFlowがエージェントの論理をグラフとして表現する手法を紹介する。従来のLLMが抱える複雑なマルチモーダル情報処理の限界を克服するため、イベントグラフとエージェント実行グラフという二重のグラフ構造を活用する。この手法により、動画、音声、画像などの異種データを統合的に理解し、動的に拡張・収縮可能なエージェントシステムを構築できる。両論文の相乗効果により、AIアーキテクチャの未来像として、計算構造が世界のトポロジーに物理的に適応する「グラフ変換エンジン」の可能性が示されている。

Dual-Graph Morphing: Cool Multi-Modal AI Agents (Video, Audio)
All rights w/ authors:"MiroFlow: Towards High-Performance and Robust Open-Source AgentFramework for General Deep Researc...

マルチモーダルイベントグラフとマルチエージェント実行グラフの新時代

皆さん、こんにちは。また戻ってきていただいて本当に嬉しいです。今日はマルチモーダルイベントグラフとマルチエージェント実行グラフについてお話しします。そして私たちがどのようにそれらを使ってきたかについても触れていきます。なぜなら、時にはグラフこそが本当に必要なすべてだと思うからです。

もしあなたが私のYouTubeチャンネルのメンバーであれば、ここで1時間か2時間後に、過去2、3日間の最も重要な論文のリストを受け取ることができます。こちらに注目してください。この2つの論文が今日のこの特定の動画のコンテンツになっています。ですから、もしよろしければ、この2つの論文を事前に読んでから動画を視聴してください。これは素晴らしいアイデアだと思います。

私のYouTube動画では、ここで数学的なルーチンをもう少しわかりやすく簡単な言葉やシンプルなプロセスで説明しようと試みています。また、ここで2つか3つ、あるいは4つの論文を一緒に紹介することもあります。なぜなら、時々いくつかの論文が補完的であったり、似たようなアイデアを共有していたり、一貫した論理的アプローチを持っていることがあるからです。そういった論文をまとめて紹介したいのです。

たとえば、ここに2月26日のAIリサーチアシスタントの論文があります。あるいはここには投資チームにおけるAIエキスパートに関するものもあります。でも、これらは今日お話しする内容ではありません。もちろん、私のリンクには、事前に読むべき、または深く理解したいと本当に思う場合に重要となるすべてのPDFが用意されています。

次世代AIのための新しい手法とアプローチ

私は次世代のAIにおける新しい手法と新しいアプローチに本当に興味を持っています。次のモデル、あるいは今後登場するモデルから最高のものを引き出す方法です。今から本当に詳しく見ていく2つの研究があります。1つは清華大学によるもので、2つ目は中国人民大学によるものです。

すでにOmniGAでお見せしたように、オムニモーダルエージェント構造を目指しています。そしてMirrorFlowでは、深層リサーチという特定のタスクのためのエージェントフレームワークそのものを扱います。そしてこれらを組み合わせていくのです。著者たちがお互いのことを知っているわけではありませんが、両方の論文を並行して読むと、これは非常に興味深いものになると思います。

最初に本当に話をする論文はOmniGAです。オムニモーダルAIエージェントシステムについて話します。これは中国人民大学からのものです。ここにコード、デモ、データセット、リーダーボードがあります。すべてがあなたのために利用可能です。

そしてそれは簡単です。動画があり、音声ソースがあり、画像や他の音声ソースがあります。すべてを一緒にまとめたいのです。すべてを理解したいのです。すべてのイベント、すべての環境、起こっているすべての分析、シーン、グローバルな説明、音声分析、画像理解、オブジェクト、顔、すべての説明、そしてもちろんタイムラインです。

そのため、著者たちはすべてを高次元のグラフ構造に構造化するという美しいアイデアを持っています。初期イベントグラフがあります。それから、たとえばここでDeepSeekを使用します。オムニモーダル汎用AIアシスタンス拡張イベントグラフです。このグラフのアイデアが本当に今、ますます強くなってきていて、多くの人々がそれを使い始めています。そして私たちは純粋な大規模言語モデルに別れを告げているのです。

システム3 AIシステムとグラフ構造の重要性

これは私の前回の動画ですでに気づいたかもしれません。これがサムネイルで、ここでシステム3 AIシステムについてお話ししました。ここでLogic Graphの論文からのバックワードデック系と、プロセス検証GPOパイプラインを組み合わせるとどうなるか。これもまた、人間のボトルネックなしに、そして人間のフィードバックによる強化学習なしにスケールする自己改善エンジンです。

ですから、ここで見られるように、ますます多くの論文が本当にグラフ構造に焦点を当てています。ここで示したように、下部のいわば明るい青で示されているのがマルチモーダルイベントグラフです。画像、動画、音声ファイル、何でも持つことができます。そしてもちろん、2つ目の論文ではエージェント実行を扱います。お見せしますが、エージェント自体を数学的にグラフ内のノードとして理解できます。そして、まったく魅力的な新しい展開が起こっているのです。

これが清華大学による2つ目の論文です。特定のタスク、深層リサーチタスクのためのオープンソースエージェントフレームワークを目指しています。もちろんすべてのGitHubがあります。注目してください。ちなみに、これは1年以上続いているものです。これは確かバージョン3です。他の論文を読みたい場合は、もちろん参考文献で見つけることができます。

本当に機能するのでしょうか。まったくその通りです。ここにMirrorFlowがあり、Gala検証ベンチマークと比較されています。ManosやOpenAIのDeep Researchと比較しており、この濃い青の実線が深層リサーチタスクにおいて他のすべてを本当に上回っているのがわかります。素晴らしいですね。ここの論文で完全な説明を見つけることができます。

しかし、今日あなたと一緒に焦点を当てたいのは、非常に特定の視点だけです。特定の眼鏡をかけて、両方の論文におけるグラフの側面と、どのように美しい相乗効果があるかをお見せしたいのです。両方の論文を並行して読む場合は、彼らがグラフをどのように構築するか、どのような複雑性をグラフにマッピングするか、そしてその後グラフ上でどのようにAIを操作するかに注目してください。

これが両方の論文の魅力だと思います。では、何をするのでしょうか。簡単な例をお見せしましょう。複雑な殺人ミステリーを解こうとすることを想像してください。

従来のLLMの限界とグラフアプローチの必要性

現在の言語モデル、LLMがある場合、ここで1つの巨大なテキストのスクロールを読むことでミステリーを解こうとします。10分の動画があります。そして音声トランスクリプトがあり、さらなるデータを提供する3つの異なるウェブサイトがあります。

連続情報の純粋な密度が、もちろん私たちの小さなLLMを圧倒します。あるいはビジョンモデルを持っていても、それは本当に問題ではありません。私たちの技術はまだそこには達していません。なぜなら、このモデルは完全に時間的シーケンスを失ってしまい、接続を幻覚し始めるからです。接続が欠けているために、欠けている接続の橋を設計することによって、自身の推論トレースを治そうとするのです。

ですから、これは本当の幻覚ではありません。ただ絶望的なのです。私たちの小さなAIエージェントは何をすべきかわからないのです。だから、データと説明と関係の論理的で一貫したストリームを構築しようとしています。これが起こっているのです。そしてもちろん、タイムスタンプ4分12秒の時に誰が部屋にいたかを忘れてしまいます。古典的なAIモデルにとって、これは単純にあまりにも多すぎるのです。

今、エンジニアがこのミステリーを解決するためにエージェントやマルチエージェントシステムを構築する際のアイデアは、組み立てラインをハードコーディングすることです。あるいは、私の最後の動画の1つで、自律的なマルチエージェントシナリオについて話しました。人々は「なぜハードコーディングするのか。私たちは正確に何が欲しいかわかっている。エージェントA、エージェントB、エージェントCのストリームがあれば、それが必要なすべてだ」と言いました。でも、それなら素手で解決できます。このためにAIシステムは必要ありません。

ですから、人間がハードコーディングした組み立てラインA、B、Cがある場合、これは非常に限られたユースケースにのみ有効です。なぜなら、エージェントBがエージェントAに特定の手がかりを探すために動画からズームアウトするよう頼む必要がある場合、ハードコーディングされた組み立てラインは壊れ、このシステムはそのタスクで失敗するだけです。そして私たちはこれを望んでいません。

私たちはインテリジェントなマルチエージェント構成を望んでいます。そして、私が何百もの論文の中からこれら2つの特定の論文を選んだのは、それらが美しいものを持っているからだと思います。一方で問題空間を、他方で実行空間をグラフ構造に昇華させることによって、パイプラインを持っているのです。

OmniGAのイベントグラフアプローチ

最初の論文OmniGAは、ここでLLMに動画の生のフラットな転写を供給する代わりに、いわば事件板を構築します。この物語のすべてのエンティティ、橋、人物、音声キューをノードとしてマッピングし、すべての関係、たとえばオブジェクト間の時間的重複や空間的近接性をエッジとしてマッピングします。

ですから、かなり簡単です。まあ数学的には簡単ではありませんが、アイデアとしては、グラフ構造を構築することはかなり簡単です。そして、あなたの物語のこのイベントグラフは、音声、動画、画像などの水のようなマルチメディアストリームを、数学から知っているグラフ理論ツールを実行できる離散的な論理トポロジーに変換します。

2つ目の論文MirrorFlowもまた、組み立てラインの代わりに、今度はエージェント自身を構造化します。お話ししたように、エージェントを流動的なエージェントグラフとして見ることができます。どういう意味でしょうか。

メインエージェントがルートノードであり、物語の特定の手がかりを調査するために、リーフノードについて私たちが知っていることである特殊化されたサブエージェントを動的に生成できます。あるいは、メインエージェントがいくつかの発見を検証するためにループバックするように設計できます。サイクリックエッジがあります。そして、特定の条件が適用されるときに、リソースをまとめて引き出すことができます。

ですから、タスクのエントロピーと複雑さに応じて拡張および収縮できる単一のエージェントグラフ構造を構築したことがわかります。一文で言えば、OmniGAはここで世界をグラフとして表現し、MirrorFlowはここでロジックをグラフとして表現します。

なぜグラフがAIの未来である可能性があるのでしょうか。前回の動画の1つでお見せしました。ここにシステム1の思考、システム2の思考があり、システム3の思考をお見せしました。システム2と3はグラフ構造を必要とし、複雑な指示に従うために、教師あり微調整とTRPOのための明示的な推論グラフを直接埋め込むことをお見せしました。

データ生成と強化学習の課題

まず、ここでもデータ生成から始める必要があります。なぜなら、このモデルをトレーニングしたいからです。唯一持っているものは強化学習です。通常、複雑な推論軌跡のためにデータの壁にぶつかります。LLMにプロンプトを出して難しいマルチモーダルな質問を生成させることはできません。解決不可能な論理的飛躍を幻覚するだけで、それは純粋な混沌です。

しかし、今、世界をマッピングする明示的なグラフを構築することによって、OmniGAは生の動画のコンテンツから最終的な答えまで連続的な経路が存在することを保証します。グラフトラバーサルは、ここで論理的な解決可能性を保証します。無限に生成される高品質のDPO、PPO、SFTなどを使用します。

MirrorFlowはまた、マルチエージェントシステムにおける重要な失敗モードを強調しています。エージェントがサブエージェントに線形的に委任すると、高忠実度のコンテキストが失われます。しかし、ワークフローをプログラマブルなトポロジーとして定義すれば、ノイズの多いツール実行をサブグラフに分離できます。

つまり、「ツールが必要です。これをメイングラフでは行いません。サブグラフを生成するだけです」と言えるのです。ルートノードのグローバルコンテキストを保持し、それによってすべてのグラフ構造での壊滅的なエラー伝播を防ぎます。

美しいのは、グラフ実行によって選択的に計算を注入できることです。タスク内のノードviが高いエントロピーを持つ場合、エージェントグラフはこのノードを動的に拡張し、モンテカルロ木探索や生成検証サイクルといった既知の方法論を使用して、重い推論サブグラフにします。些細なノードでフロップスを無駄にすることはありません。

デュアルグラフの数学的基礎

このデュアルグラフの数学は美しく、主なアイデア、主な方法論、そして主なステップをお見せしたいと思います。純粋な数学に興味があるのではなく、デュアルグラフではなく、より強力な組み合わせグラフ構造を持つために、どのようにそれらをまとめるかに興味があるからです。

OmniGAの認識論的イベントグラフについてです。マルチホップタスクを構築するには、ここにマルチモーダルイベントグラフがあります。頂点があります。これらは、すでにお見せしたように、特定の空間的時間的ウィンドウから抽出された離散的なエンティティまたはイベントを表しています。そして、関係エッジは、クロスモーダルまたは時間的関係を表しています。美しいですね。

今、ここでグラフの拡張とイベント化が必要です。説明しましょう。もちろん強化学習のためのトレーニング軌跡をここで合成する必要があります。拡張フェーズがあります。著者がここで設計した推論モデルMは、初期グラフ上の探索ポリシーとして機能します。

ここで末端のリーフノードを検出し、ウェブ検索やGoogle検索など、持っているものを使って外部ツールを実行し、次のトップノードを取得し、それによってグラフをステップバイステップで拡張します。そして、BERTや文埋め込みから遡って知っているマスキング操作があり、今、マルチホップクエリを生成します。

アルゴリズムはイベント内のターゲットパスを選択し、中間ノードにマスキング操作を適用し、ここでファジーエンティティを作成します。これは単純に、わかりませんが、オブジェクト「シカゴ」を「音声で言及された都市」に置き換えることを意味します。そして、テスト時のエージェントの目的関数は、今やパス再構築問題になります。なぜなら、データによってポリシーを実行し、マスクノードを正常に解決し、初期感覚ノードV1からターゲットノードまでトラバースする必要があるからです。

MirrorFlowの実行エージェントグラフ

MirrorFlowの実行エージェントグラフはかなりシンプルです。ノードもありますが、ノードは今や自己完結型の決定プロセスのモックであることに注意してください。そして、エッジは今やメッセージパッシングインターフェースを表しています。

お話ししたように、本当に興味深いのはグラフに見られるメタモルフォーシスです。なぜなら、MirrorFlowは静的構成の制限をバイパスし、タスクの不確実性に基づいて実行時にグラフのトポロジーを変更できる実行ポリシーを持っているからです。

これは、中間ノードが高い不確実性を計算する場合、制御層がグラフのトポロジー拡張をトリガーすることを意味します。アンサンブル拡張としましょう。特定の頂点Kが並列サブグラフに分岐し、複数の並列ロールアウトを実行します。ツール呼び出しかもしれませんし、他のソルバーかもしれません。エッジは品質認識集約ノードにルートバックします。

もちろん、最後には検証ループが必要です。サイクリックトポロジーがあります。素晴らしいですね。スカラー報酬閾値に達するまで、またはここで閾値となる他のパラメータがあるまで、実行はサイクルを反復します。非常に興味深い、あるいは洞察を得ました。

構造的同型性という重要な概念

なぜなら、私たちが直面しているのは構造的同型性だからです。両方の論文を見ると、高度に複雑なマルチモーダル現実を成功裏に解決するために、エージェントの内部認知ルーティングは問題空間自体との機能的同型性を達成しなければならないと言えると思います。

考えてみてください。問題グラフに分岐する不確実性がある場合、実行グラフは動的にアンサンブルに分岐しなければなりません。そして、問題グラフが特定のフレームにズームインするような局所的な視覚的詳細を必要とする場合、実行グラフは今や、ノイズの多い高次元視覚テンソルをメインエージェントのグローバル意味コンテキストから分離する、アクティブ知覚ツールを厳密に装備したリーフノードに委任しなければなりません。

しかし、もちろん、私たちは微分トポロジーという制限に直面しています。両方の論文を読めば、明らかな将来の方向性はエージェントトポロジー学習です。しかし、実行が始まる前に、生のユーザープロンプトを受け取り、最適なエージェンシー行列を直接出力する超強化学習ポリシーをここでトレーニングできるでしょうか。いくつかの課題があります。

グラフネイティブメモリがあれば素晴らしいでしょう。なぜなら、現在ツールはエピソード的だからです。実行グラフがエピソード記憶として機能する永続的なグラフニューラルネットワークと結合されていれば、OmniGAスタイルのアクティブ知覚中に構築されたグラフイベントを潜在空間に継続的に埋め込むことができ、それによって今日のエージェントで使用している脆弱なテキストベースのスクラッチパッドを完全にバイパスできます。

ですから、これら2つの論文の相乗効果を理解することで、まったく新しいアイデアが開かれることがわかります。昔はLLMをシーケンスからシーケンスへの関数として扱っていましたが、計算のアーキテクチャが世界のトポロジーに合わせて物理的に変形するグラフからグラフへの変換エンジンとして扱い始めるのはどうでしょうか。これがこれら2つの論文の美しさだと思いますし、これが私がこれら2つの論文をお見せしたかった理由です。

オムニモーダルエージェント強化学習への未来

未来はオムニモーダルエージェント強化学習方法論です。そうかもしれません。この統合によって照らされた直接的な軌跡が、論理的ステップ、ツール使用、空間的時間的注意メカニズムの結合ポリシー空間上で動作するエージェント時代に向かって移動することは本当でしょうか。

たとえば、知覚やアクションを別個のAPIレイヤーとして扱う代わりに、将来のアーキテクチャは、流動的な動的実行グラフによって支配される、結果ベースの報酬モデルによって直接最適化されるアクショントークンとして、アクティブ知覚を形式化するでしょう。

これについてどう思いますか。これが未来だと思いますか。何か新しい情報が見つかったことを願っています。いいねを残していただけたら嬉しいですし、私のチャンネルのメンバーになってください。次の動画でお会いできることを願っています。

コメント

タイトルとURLをコピーしました