エージェント型AIにおける知能の探求(MIT、スタンフォード)

AIエージェント
この記事は約14分で読めます。

本動画は、2025年10月1日に公開された最新のAI研究論文を紹介するものである。主要テーマは、大規模言語モデル(LLM)およびビジョン言語モデル(VLM)における強化学習と検証可能報酬システムの改善である。4本のウォームアップ論文では、強化学習のスケーリング、多目的アライメント、リスクベース方策最適化、適応的カリキュラム方策最適化が取り上げられている。メイン論文では、スタンフォード大学らによるDeepSearchがモンテカルロ木探索を訓練ループに統合することで訓練プラトー問題を解決する手法を、MITらによるGraph RACが単一エージェント強化学習を用いた汎用的な知識グラフ検索拡張生成フレームワークを提示している。これらの研究は、より小規模なモデルでも高度な推論能力を実現する可能性を示唆している。

The Search for Intelligence in Agentic AI (MIT, Stanford)
All rights w/ authors:DEEPSEARCH: OVERCOME THE BOTTLENECK OF REINFORCEMENT LEARNING WITH VERIFIABLE REWARDS VIA MONTE CA...

こんにちは、コミュニティの皆さん。お帰りなさい。さて、皆さんはこう思うかもしれませんね。なんてつまらないタイトルなんだ、一体何をやっているんだって。でも実は、ここで最新のAI研究を発見していただくんです。私のチャンネルへようこそ。

さて、今日はウォームアップとして4本の全く新しい論文を取り上げます。ご覧のように、2025年10月1日に公開されたものです。さて、ここには共通点があります。それが何か分かりますか。そうです、LLMを学習させることについて、つまり私たちのLLMやVLM、そしてビデオジェネレーターをより賢くする方法についてなんです。

では、ウォームアップの論文を見ていきましょう。1論文につき1分です。まず「広範な探索によるスケーリング強化学習」です。皆さんは検証可能報酬による強化学習を覚えていますよね。これは私たちのLLMやVLMにおいて、より複雑な推論能力を解き放つための重要な要素です。

最近、Pro強化学習に関する論文がありましたが、今度はBro強化学習について学んでいきます。これは何かって思いますよね。前回のビデオで、パフォーマンスが何千、何万もの訓練ステップの後にプラトーに達して横ばいになり、それ以上何も得られなくなることをお見せしましたよね。計算時間を追加しても効果がない。なぜこれが起こっているのか、彼らは調査しています。

次の論文も、強化学習における検証可能報酬と非検証可能報酬にわたる多目的アライメントについてです。彼らは新しいフレームワークを持っていて、新しいプロセス報酬モデル、マルチアクションヘッドDPOアルゴリズムがあり、新しいベンチマークを示してくれています。これはNvidia、Databricks、そしてカリフォルニア大学サンディエゴ校によるものです。もちろん、今日1つから10の新しい方策最適化がなければ、このビデオではありませんよね。

ここにリスク方策最適化があります。検証可能報酬による強化学習を行う際には、必ずエントロピー崩壊があることをご存知ですよね。これがこの訓練方法論の主な問題です。AIのエントロピーが崩壊すると、モデルは過信状態になり、役に立たなくなり、探索が早期に減少し、単純に新しい知識の獲得に失敗してしまいます。

これで終わりです。これが推論能力を完全なパフォーマンスに制限してしまうのです。そして今、アイデアはこうです。リスクベースのアプローチを取り入れて、AIが複雑なリスク要因を分析するようにしましょう。これを混合バリューアットリスク統合で見たい場合は、こちらをどうぞ。しかしもちろん、別の方策最適化があると言いました。12のうちの1つです。

これは適応的カリキュラム方策最適化で、新しいクリッピングがあります。これはアドバンテージ認識適応クリッピングで、中国の北京法人によるものです。しかし、私たちが何について話しているかは自明だと思います。そうでなければ、ここにあります。ここにDAPO強化学習があります。

ここにGRPO、DAPO、VAPO強化学習があり、定期的に出てくる他の何十もの、あるいは何十もの新しい方策最適化があると思います。だから私はこれらすべてを見失いました。でも皆さんはこう言うかもしれません。ちょっと待って、ちょっと待ってください。では、4本のウォームアップ論文を全部読んで、メイン論文の準備ができたわけですね。

そして、こう言うんですね。何が素晴らしいか分かりますか。前回のビデオで発見した問題、小さな猫のようにあちこち飛び回る問題を解決できますか。概念マップで遭遇したこの問題を解決できますか。それは素晴らしいことでしょう。いいえ、マーズを改善するんです。さて、サプライズがあります。

新しい研究が入ってきました。新鮮な情報があります。そうです、絶対に。これは次のメイン論文の1つです。論文番号5、DeepSearch。これはスタンフォード大学、カリフォルニア大学バークレー校、東京大学、Amazon、AWS、Reichen、そしてワシントン大学によるものです。彼らは言います。検証可能報酬システムによる強化学習についてもっと研究しなければならないと。なぜなら、それはAIのための高度な推論スキルを開発する上で非常に重要な構成要素だからです。

そして、前回のビデオのような偶然の一致で、彼らは何千、何万もの最適化ステップの後に横ばいになる訓練プラトーがあることを発見しました。改善がありません。エントロピー崩壊があります。どうすればいいでしょうか。ご覧のとおり、全世界が現在10月1日にこのトピックを研究しています。では、取り組みましょう。

彼らは言います。検証可能報酬による強化学習のボトルネックを克服する。なんという偶然でしょう。古い友人であるモンテカルロ木探索アルゴリズムを使ってです。そして、主な問題は何かと言うかもしれません。ここで横ばいになっているんですよね。疎な深さ優先探索が起こっていて、それだけです。では、モデルは実際に何を学習しているのでしょうか。ここに急な曲線が見えます。推論の初期ステップだけです。しかし、推論トレースの後半で起こる経路の完全な複雑性は、全く学習されていないのです。

だから何千、何万もの最適化ステップの後、モデルは問題の開始部分に適応しますが、完全な長期的意思決定をマスターすることができません。では、これを解決しましょう。スタンフォードのアイデアはこうです。古い友人であるモンテカルロ探索を取って、訓練ループに直接注入し、解空間のより広い部分を体系的にマッピングするようモデルに強制するだけです。なぜなら、木があって、木は枝分かれするので、エントロピートレースに自動的に崩壊しないからです。

モデルを正しい推論経路だけでなく、誤った推論経路や部分的な推論経路も含めた膨大な配列にさらします。解空間全体を発見したいのです。これを学習したいのです。これがここでの主なトピックです。マイク探索バックプロパゲーションは、きめ細かい信用割り当てを提供します。これについては何十本もビデオがあります。そして、なんという偶然でしょう。ここに前回のビデオとの直接的なつながりがあります。より高いQ値で直接報酬を与えられるのです。前回のビデオで、横ばい状態の解決策がまさにQ学習であることを話したのを覚えていますか。

だからスタンフォードは、わずか1日後に同じアイデア、同じ解決策を持って登場したのです。だから、前回のビデオの1つを見てください。そこでは、概念ネットワークに対する量子場理論的アプローチからエントロピーについて、推論における相転移があることを示しました。あるいは、この論文を読まなければなりません。絶対に魅力的です。もし見たいなら、モンテカルロ探索がここにあります。慣れていない場合はこちら。そして適応的訓練サイクルがあります。もちろんバッファーもあります。

これが完全なフレームワークです。説明できますかって?はい、もちろんです。もう少し説明が必要ならここにあります。これはエントロピーによって導かれています。これです。エントロピックモデルに慣れていない場合は、気にしないでください。いいえ、Claude Entropyモデルのようなエントロピックモデルではなく。これがあなたのためのものです。そして反対側には、適応的訓練ループがあります。バッファーとハイブリッド戦略があるだけです。そしてもちろん、木の中で古いGRPO目的関数を使います。はい、もちろんモンテカルロ探索をします。

標準的なもので、新しいものは何もありません。訓練目的関数も、慣れていない場合はQ値クリッピングと訓練目的関数があります。私たちの3GPOのために美しいです。素晴らしい古い友人たち。組み合わせるだけです。試してみるだけです。スタンフォードが、学習能力、推論能力をここで改善しようとしているのが分かります。結果を見てみましょう。では、Aim 25を見てください。他のすべてのマイルストーンがあり、最後に小さな緑か黄色っぽい何かで35%です。

Aim 25で35%はあまり多くないと言うかもしれませんね。さて、聞いてください。15億、小さな小さなLLMです。悪くありません。15億パラメータで35%。これは全く悪くありません。より小さなLLM、VLM、ホイールにより多くの知能を詰め込むことを学んでいるのです。推論には絶対に素晴らしいです。分かりますか。そしてもちろん、数学的推論ベンチマークへの検証を行わなければならないため、オープンベンチマークではないので制限されています。そうですね、もちろん。

そして15億パラメータで、彼らは128台のH100クラスターを持っていました。いいですね。そして、もちろん別のものもあります。これもここにあります。さて、Graph RACに行きます。そして、ここでのより良い横ばい回避から理解したすべてを、強化学習を介してGraph RACシステムに統合します。そして、少し理解するのが難しい複雑さがついに来たと言うかもしれません。

ここにMIT物理学、カリフォルニア大学中央校、MIT AI、IBM研究があります。素晴らしいです。さて、知識グラフ検索拡張生成の次のステップです。彼らは言います。もう少し知能的にしましょう。はい、推論トレーサーを改善したいからです。では、どうぞ。

強化学習による効率的で転移可能なエージェント型知識グラフRAC。はい、非常に重要です。彼らは言います。実際のドメイン固有のケースから抽象化したいのです。医学、物理学、理論物理学、金融の1つのアプリケーションだけに限定されない、シンボリック空間で絶対に汎用的なものを構築できますか。

しっかりと準備してください。これは美しくなります。彼らは言います。知識グラフまたは優れた強化学習1つと知識グラフ検索拡張を取ります。はい、ここで利用します。さて、今、私たちがすることはクレイジーです。覚えていますか、複雑さがあって、レシピは複雑さを減らし、より低い複雑さの複数の小さな部品を作り、それらを連結するか合計するか何らかの方法で追加するというものでした。そして今、うーん、少し複雑すぎると言います。今、私たちは何をするか知っていますか。単一エージェントに戻ると言うんです。つまり、私はこの論文を読んで笑っていました。この論文を読まなければなりません。

もちろん、彼らはエンドツーエンドの強化学習で本当に素晴らしくやっています。そして驚くことに、MITがここにいて、すべてがある完全なGitHubリポジトリを提供してくれています。彼らが何をしているかまで説明しています。非常に奇妙ですが、非常に美しいです。なぜこれら2つの論文、4本のウォームアップ論文と2本のメイン論文なのか。なぜなら、現在、検証可能報酬による強化学習がホットトピックであることを示したいからです。そして両方ともこのトピックに取り組んでいます。

彼らは今、より多くのファインチューニングには行きませんが、体系的なマルチステップ推論とより広範な探索を実行するためにこれらのモデルを訓練する主要メカニズムを理解したいのです。だから彼らは今、思考の木のような新しい探索アルゴリズムを推論時だけでなく適用し、これを訓練時アルゴリズムに統合し、このモデルを構築し、この訓練抽象化の汎化を持ちたいのです。

プラグアンドプレイの推論エージェント。これは素晴らしいでしょう。再訓練なしで。これは夢でしょう。では、ここに切り替えましょう。数学について話していましたよね。今、知識グラフの構造化された美しい世界に行きます。絶対に決定論的で素晴らしいです。では、従来の知識グラフRACシステムから始めましょう。

複雑なマルチステージパイプラインがあります。1つのLLMがパスを計画し、別のものがここでSPARQLクエリを一般化し、最終的な答えの合成があり、ランカーがあります。完全なシステムを構築するのは信じられないほど大変です。そして、ジョンズ・ホプキンス大学とSalesforce AIがこのビデオで言っているのを見ると、より多くのエージェントを持つほど、それらのエージェントは集合的AIを劣化させます。しかし、コミュニケーションの問題があり、メッシュネットワーク上でネットワークの上下での情報伝播にエラーがあります。

人間と同じように、極端な量のエージェントを使わないでください。部屋に人の集団がいて、1人に秘密の文章を伝えます。5分後には、その文章は完全に変わっているでしょう。では、この新しいメカニズムを見てみましょう。さて、飛び込む前に、私たちがすでに持っているもの、すでに知っているものを見てみましょう。

左側には、古典的な知識グラフ検索拡張生成、知識グラフRAG言語モデル、知識グラフが見えます。4つの主要なサブタスクがあることを覚えていますか。知識グラフから事実をクエリする検索、次に取得した情報を処理する推論、論理的一貫性を検証するレビュー、本当に適合するか、一貫した論理構造を持っているかを確認します。そして第4に、最終的な答えの応答と統合です。

これです。これがここでの古典的な知識グラフRACシステムです。これについては何十本もビデオがありますが、今、サブタスクがここでプロンプトベースのタフ固有命令のコンテキスト内学習、またはファインチューンモデルで処理されると言います。慣れているすべてのものです。何が新しいのか。これです。マルチターンエージェントフレームワーク。ここでアクションセットに注意しなければなりません。

だから、古典的な知識グラフがあります。今、1つのエージェントだけです。ここで横断的混沌と話す小さなエージェントのグループではありません。そして今、これを最適化します。このエージェントをシンボリック空間の抽象化のために。簡単です。興味深いです。Knowledge Graph R1には2つのコンポーネントがあります。この小さな男である単一のLLMエージェントと、知識グラフ検索サーバーです。

これが今、私たちの環境を提供します。だからサーバーは、一連の検索アクションと共に知識グラフをホストし、LLMエージェントは、複数のターンにわたって短い推論とそれに続く検索アクションのサイクルを反復的に実行します。理解できますよね。素晴らしい。言ったように、本当の知能と専用アクション空間からの抽象化は、アクションセット自体にあります。

だから、エージェント型知識グラフRAGフレームワークがあります。素晴らしい。今、この単一エージェントのアクション空間で動作しています。4つのシンプルで普遍的に適用可能なアクションがあります。これらは美しいです。何をしているか見てください。エンティティがあります。このエンティティからどの関係が発生しますか。エンティティと関係。この関係の反対側にどのエンティティがありますか。ヘッド関係。

どの関係がこのエンティティを指していますか。そしてヘッドの関係エンティティ。この関係を指している先頭にどのエンティティがありますか。そして、これを知っています。これに慣れています。もちろん、これは私たちの知識グラフにあるヘッド、関係、テール構造のトリプレット構造を直接参照しているからです。

だから、これは直接的に、このトリプレット構造の抽象化です。だからエージェント学習ポリシーは、他のどの知識グラフにも即座に転送可能です。なぜなら、これは一般的な構造だからです。だから、ここで真のプラグアンドプレイ能力を可能にできます。これを見たい場合は、ここに例があります。

ここにスクリーンショットを示しました。ここに実行が見えます。セットアップがあり、生成があり、それから本当にアクションセットを通過します。ステップ1、ステップ2などがあります。または、私の簡単な例でこれを見たい場合、シカゴが位置する州の首都は何ですか。ここでは、テールを取得、関係を取得、テールエンティティを取得、テール関係を取得、クエリ、テールエンティティを取得、そしてエージェント出力が素晴らしいです。では、結果は何でしょうか。ちょっと待って、そんなに早くありません。ここで何か伝えなければならないことがあります。

美しいハイブリッド報酬関数があります。報酬関数は強化学習にとって最も重要な事実です。ターンレベルの報酬があります。これは答えの形式の妥当性、非常に妥当性、フォーマットです。素晴らしい。さらに、成功のためのグローバル報酬があります。だから最終的な答えの正確性、F1スコア、検索スコアのバイナリ報酬構造があります。そして、どのようにこれを行うか。古い友人GRPO、グループ相対的信用割り当て。だから、すべてが知られています。古いトレンドです。特に特別なものはなく、賢い方法で組み合わせ、抽象化を行うだけです。これがこの論文のイノベーションがあるところです。そして最後にこれらが結果です。既知の要因についてここで見ることができます。そしてここでKnowledge Graph 0.1、1ラン、3ラン、4つの異なる知識グラフがあります。ここでジャンプが見えます。だから平均してF1が66、68、64から67、70、74になります。

だからここで、この新しい方法論で最良のシナリオで期待できるパフォーマンスのジャンプが見えます。しかし、私が示したかったのは、ここでの新しいアイデア、シンプルなアイデアですが、知的な新しいアイデアです。そうです、突然、単一エージェントのマルチターム知識グラフRACフレームワークがあります。この中で、1つの小さなLLMがここで軽量の知識グラフサーバーにクエリを行い、強化学習を介してエンドツーエンドで最適化されます。

そんなにシンプルなアイデア。単一エージェント強化学習。すべての異なる知識グラフにわたって汎化可能。スキーマにとらわれないアクション空間とロバストな報酬構造。ハイパーパラメータを正しく設定すれば。だから、抽象化すると、知識グラフ検索のための新しいフレームワークがあり、明示的なシンボリック知識空間上でポリシーを学習します。

ここで4つのコマンドだけで、本当に素晴らしいです。そして、これは私に衝撃的なアイデアを与えてくれます。そして、どうか聞いてください。なぜなら、複雑なAIの未来は、1兆パラメータモデルや10兆パラメータモデルを構築してスケールアップすることではないかもしれないからです。でも知っていますか。おそらく、私が最後の2つの論文で示した構造化された探索アルゴリズムの体系的な精度で探索して学習するのに十分賢い、わずか100億の小さなLLMでできるかもしれません。楽しんでいただけたでしょうか。

これが今日のビデオです。エージェント型AIにおける知能の探求。これが2025年10月1日の研究の状況です。チャンネル登録して、次のビデオでお会いしましょう。

コメント

タイトルとURLをコピーしました