ACE エージェント型コンテキストエンジニアリング:自己学習AI(スタンフォード大学)

AI研究
この記事は約26分で読めます。

スタンフォード大学とUCバークレーによる最新のAI研究が、従来のファインチューニングや強化学習に代わる革新的な手法を提案している。ACE(エージェント型コンテキストエンジニアリング)と呼ばれるこの手法は、AIエージェントが実環境との相互作用を通じて自己学習し、報酬関数を必要とせずに性能を向上させることを可能にする。メタ・スーパーインテリジェンスの早期経験論文と組み合わせることで、AIは戦術的な試行錯誤から戦略的な知識を蓄積し、コンテキスト崩壊や簡潔性バイアスといった従来の課題を克服する。この二層学習システムは、実世界のフィードバックから自然言語の教訓を抽出し、プレイブックとして段階的に蓄積することで、長期的かつ複雑なタスクにおいて従来手法を大きく上回る成果を示している。

ACE Agentic Context Engineering: Self-Learning AI (Stanford)
The synergy between Early Experience and Agentic Context Engineering (ACE) creates a powerful, two-loop architecture for...

エージェント型コンテキストエンジニアリングの登場

皆さん、こんにちは。コミュニティの皆さん、お帰りなさい。今回はエージェント型コンテキストエンジニアリングについてお話しします。ディスカバーAIチャンネルへようこそ。全く新しい研究をご紹介します。さて、もしあなたがXでこれを見たら、スタンフォード大学とUCバークレーによる新しい研究があります。彼らはファインチューニングの終焉を宣言しています。また別のゲームチェンジャー的なブレイクスルーです。ファインチューニングよ、安らかに眠れ。

スタンフォードがそれを殺してしまいました。誰もが短くて明瞭なプロンプトに夢中になっていました。しかし今や、私たちは決して忘れることのない長く詳細なプレイブックを使うようになります。さて、あなたは私に聞くでしょう。ねえ、これは何なの? スタンフォード大学によるこの新しい研究とは何なのか? ファインチューニングが本当になくなるのか? まあ、そう急がないでください。もちろん、これはもう少し複雑なんです。では、ビデオを始めましょう。

従来の学習手法の限界

ここに教師あり学習やエキスパートデータのような事後学習の古典的な手法があります。これらはデータの希少性や失敗への露出不足により、汎化能力が制限されていました。一方、私たちの強化学習の方法論は、報酬がまばらな環境ではしばしば実行不可能です。

したがって、今では新しいトレンドがあります。私たちは言います。ねえ、特定のデータ構成において、教師ありファインチューニングと強化学習以外に何かないだろうか、と。そして、もしあなたが2つのAI研究論文を組み合わせれば、人工知能において何か新しいものが私たちに近づいている兆候があると思います。

私たちは、モデル自身の出力とモデルの相互作用を活用する、低オーバーヘッドの代替手段を探しています。なぜでしょうか? もし私が教師ありファインチューニングのトレーニングデータを持っていなくて、検証可能な報酬構造による強化学習のアライメントデータも持っていないなら、データとして何を持っているのか? モデルが内部で生成したデータを生成しなければならないということです。

AIの実環境学習

では、どうやってこれを行うのかという疑問が生じます。そして、推測してみてください。これは意味がありません。もしあなたがAIを孤立させて、AIが自分の内部知識について反省するだけなら、何も新しいことは起こりません。しかし、もしあなたがAIを実世界の環境に置き、AIにこの環境と大規模に相互作用させれば、AIは実世界のアプリケーションから学習するでしょう。

これは、変化する環境がある場合に特に美しいのです。非常に速く変化する環境、進化する環境、あるいは報酬機能のためのグラウンドプルーフが全くない環境がある場合です。このケースについて見てみましょう。

スタンフォード大学による論文があります。10月6日、サマノバシステムズ、UCバークレーです。エージェント型コンテキストエンジニアリング、AIからの進化するコンテキスト、自己改善言語モデルに関する美しい論文です。自己改善という言葉を見るたびに、わあ、これは面白そうだと思いますよね。しかし、コンテキストについて話しているので、視聴者の皆さんにはコンテキストを保持することをお勧めします。そして、お勧めするコンテキストはこれです。3日後の10月9日、メタ・スーパーインテリジェンスとフェアがあります。

ああ、スーパーインテリジェンスとフェアを同時に見るのは初めてです。誰がリーダーなのか? リーダーはスーパーインテリジェンスです。オハイオ州立大学で、彼らは早期経験を通じたエージェント学習を研究しています。この2つの論文を見ると、これらの論文のコンテキストがわかります。この早期経験を、私はEE論文、早期経験と呼びます。そしてここでACEは、もちろんエージェント型コンテキストエンジニアリングです。

ご存知のように、これは多かれ少なかれ、ACEのための完璧に最適化された入力である教師ありファインチューニングに関するものです。つまり、教師ありファインチューニングが死んだということではありません。私の解釈では、このシステムをさらに強力にするための完璧な入力生成器に過ぎません。では、見てみましょう。

報酬フリーパラダイムの誕生

まとめると、これらは報酬がまばらな環境において、報酬フリーパラダイムを導入することで、自己改善するLLMベースのAIシステムを前進させます。ついに、あなたは言うかもしれません。出力報酬なし、段階的報酬関数なし、報酬フリーです。これは実行フィードバックと自己生成データ構造を活用します。そして今、教師ありファインチューニングと強化学習を正確に橋渡しします。その真ん中とその上に組み合わされた何か新しいものがあります。見てみましょう。

これらの論文の技術用語は一対一のマッピングではないので、技術用語の議論に飛び込みたくはありません。ただ例を示したいだけです。核心原理を理解すれば、どれだけ簡単かをお見せしたいと思います。では、両方の論文を統合する簡単な例から始めましょう。

現在、実世界との接触を持つエージェントがあるAIエージェント構成を探しています。つまり、シミュレートされたものであっても、どんな環境とも直接相互作用することで、実世界の経験ループを持っています。これにより、事前に定義された報酬関数を必要とせずに、その動的なダイナミクスを理解します。これが美しさです。しかし、何かが必要です。お見せしましょう。

2つの論文があるので、この2つの論文を超えて行くと言いたいです。なぜなら、これは楽しいビデオであるべきで、少し挑戦的であるべきだからです。では、2層学習システムがあるとしましょう。レベル1は、AIが環境に触れたときの即座の結果についての豊富な低レベルの戦術的学習信号のストリームを生成します。

そして、ACEレベル2は、高レベルの戦略的知識ベース構造についてです。一般原則とロバストな戦略のためのプレイブックと呼びましょう。ほら、これら2つが美しく一緒になっているのがわかるでしょう。

自己強化サイクルの構築

もちろん、今やサイクルを構築できます。レベル2からの戦略的知恵は、レベル1での戦術的探索を時間とともにはるかに知的で効率的にします。そして、より良い探索はより良いデータ構造につながり、それが再びより良いプレイブックにつながります。自己強化の美しさが見えますね。始めましょう。

今、エージェントがいて、エージェントが環境と接触するなら、エージェントに何らかの知識を提供しなければなりません。つまり、少数のエキスパートデモンストレーションについて教師ありファインチューニングを行う必要があります。例えば、10個のトラジェクトリー、10個の人間のトラジェクトリーで、フライト予約の方法をシステムに示します。これらがエキスパートトラジェクトリーです。こんな感じに見えるかもしれません。

状態Z、これは検索フォームのあるホームページです。次にアクションがあります。出発地を入力します。サンフランシスコ、到着地JFK、日付です。次に新しい状態があります。フライトオプションのある結果ページが表示されます。次に別のアクションがあります。最安値のノンストップ便を選択します。次に別の状態、支払いページが表示されます。別のアクションがあります。クレジットカードを入力します。送信します。

そして、別の状態、確認ページが表示されます。成功です。これが、AIを現在アプローチしている環境に慣れさせるために、教師ありファインチューニングを開始するために必要なエキスパートトラジェクトリーの全てです。分布内タスクに対して約60%の成功率を達成するとしましょう。これが常に同じページで、常に同じパラメータで行く場合ですが、分布外に行くと40%に下がります。なぜなら、失敗やエッジケースへの露出が限られているからです。

早期経験による暗黙的世界モデリング

そして、ここでスーパーインテリジェンスによる最初の論文が登場します。彼らは私たちに言います。ねえ、私たちはここに発見した2つの主要な要素があります。まず、暗黙的世界モデリング戦略IWMを構築しなければなりません。そして、システムが自分自身で生成した洞察について自己反省するクリティークシステムを持っています。ご存知のように、これは特別なことではありません。

これは単に、自己提案されたトラジェクトリーセットを生成し、それについて反省するだけです。暗黙的世界モデル戦略IWMを行います。トラジェクトリーを生成するだけです。教師ありファインチューニングで初期化されたエージェントは、今や50個の部分的トラジェクトリーを展開します。なぜなら、第2の論文で必要とする長い時間軸を管理したいからです。

私たちのAIによる最初のアクションは、今や出発地サンフランシスコ、到着地JFK、日付を入力することです。素晴らしい。将来の状態、結果ページは有効です。予約ができました。素晴らしい。別のアクションはランダムな便を選択することかもしれません。そして将来の状態は、支払いページが売り切れでした。したがって、できません。エラーを受け取ります。

今、これらすべてのアクション、20、50、100のアクションで、AIは環境と接触してそれを試し、環境からフィードバックを得ます。エージェントは今、経験したペアについてファインチューニングを行います。

何があるかというと、現在の状態があります。次にAIがアクションを取り、将来の状態を予測しようとします。それからエラーがあるかないかを得ます。つまり、AIはここで環境のダイナミクスを暗黙的に学習しています。そしてこれがポリシーを基礎づけます。ランダムな選択がしばしばエラーにつながることを予測し、ここでの遷移を予測することで成功率を70%に改善します。例えば、まず空き状況を確認するというアクションです。ほら、AIが環境との相互作用を通じて学習しているのがわかります。

暗黙的世界モデリングは非常にシンプルです。エージェントファインチューニングの説明は、現在の状態、アクション、予測される将来の状態です。これは学習するために必要なものを正確に捉えています。ここでランダムな便を選択することが実世界の実験でしばしば売り切れエラー状態につながることを学習することで、エージェントはこの環境によるこのダイナミクスを内面化しています。

しかし、これはまさにIWMの目標です。最終目標を最適化しようとする前に、世界の因果構造についてAIがより良い感覚を持つ、基礎づけられたポリシーを構築することです。この最適化と継続的なファインチューニング、教師ありファインチューニングによって、実世界から学習するため、パフォーマンスは70%に増加するとしましょう。なぜなら、今や何が起こっているかについて現実的なアイデアを持っているからです。

自己反省による汎化可能なルールの生成

これらすべてを生成した後、それについて反省できます。売り切れの便を選択したエージェントトラジェクトリーがあるとしましょう。推測してください。エラー状態になります。そして、選択を再試行すると言います。ページが表示され、最初からやり直してくださいと言われます。環境からこのフィードバックを受けると、LLMによって生成された自己反省があり、これは最適ではなかったと言います。

選択が最初は空き状況を無視していました。では、AIが学んだ教訓は何でしょうか? エラーを避けるために選択する前に、フライトステータスAPIを照会します。または代替として、例えば私の地域で利用可能な便のみにフィルターを有効化します。この反省を持つことで、何を得るか知っていますか? わかりますか? もはや報酬関数で作業していません。

バイナリ報酬関数で作業していません。報酬スコアリングで作業していません。ここで直接的な自然言語の教訓を得ます。これは美しいもので、その上に構築していきます。このデータすべてがあれば、オリジナルのトラジェクトリーと私たちがここで生成したすべての反省について、拡張データでファインチューニングし、今やここで教訓を抽出します。

これ全体で意思決定を洗練させます。テストは、今やエッジケースのチェックを追加し、分布外の成功を高めています。見てください。これはここで単なる教訓ではなく、これはサンフランシスコからニューヨークへの便、またはサンフランシスコからどこかへ、サンフランシスコからシドニーへの便にのみ有効な一般的な教訓なのです。分布外の成功は65%まで上がります。

自己反省です。私が思うに、これは明確で、私たちが持っている自己反省が提供する対照的原理を抽出する監督の完璧なインスタンスです。エージェントは単にそのアクションが間違っていたと告げられるだけでなく、バイナリ報酬信号を持っているわけではありません。しかし今や、汎化可能なルール、この便を選択する前にフライトステータスAPIを照会するというルールがあります。

つまり、自己反省がなぜここで分布外の汎化を改善することが示されているのか、正確にわかります。しかし、何を得るか見てください。このシステムは今、純粋な試行錯誤で環境内で相互作用しながら学習しています。汎化可能なルールを得ます。そして推測してください。これがスタンフォード研究への入力になるでしょう。

コンテキスト崩壊の問題

さて、エージェント型コンテキストエンジニアリングとは何でしょうか? 今や、私たちはそこで問題を抱えています。なぜなら、過去にこれがあったときはいつでも問題があり、この問題をコンテキスト崩壊と呼んでいるからです。これは、反復的かつ一枚岩的に長く複雑なコンテキスト、システムプロンプト、または完全なエージェントメモリをここで書き換えるタスクを課されたLLMの現象です。

このAIには問題があります。なぜなら、ある時点で壊滅的に過度の要約を行うからです。完全な長く複雑なコンテキストをコピーしていません。しかし突然、AIは今が大規模な要約を行う時だと決定します。これにより、システムプロンプトにあった、またはエージェントのメモリにあった、すべての詳細な、特定の、蓄積された知識の急激で不可逆的な損失が引き起こされます。これは問題です。ほら、コンテキスト崩壊です。適応が見えます。

コンテキストのトークン数が増加し、そしてLLMが決定します。ねえ、短くしよう、圧縮しようと。少し構築されます。18,000トークンです。そして122トークンに落ちます。つまり、情報の約99%を失います。もしこれがリアルタイムのストリームであれば、精度が66から57に下がるのが見えます。

ユーザーとして、それがブラックボックスAIであれば、これが起こっていることに気づかないかもしれませんが、情報を失っています。これは受け入れられません。では、どうすればいいのでしょうか? これをスペースで見たい場合は、蓄積フェーズ、トリガーフェーズ、崩壊フェーズがあり、そしてAIは単に記憶喪失になります。

この崩壊したコンテンツで動作するエージェントは、事実上その以前の学習を忘れており、そのパフォーマンスは急落します。これはまさにここで、さようなら子供の知識、今忘れたところだと言うところです。この新しいスタンフォードの論文を行うなら、この問題を克服しなければなりません。ACEは今やこの問題を解決するために特別に設計されました。システム内で本質的かつ外部的にすべてのLLMの一枚岩的な書き換えを排除することによってです。

ACEによる段階的デルタ更新

代わりに行うことは、段階的なデルタ更新フェーズを持つことです。シンプルです。今や、リフレクターのような複数のオブジェクトがあると言います。すぐにこれをお見せしますが、要約としてここにあります。新しい経験を分析し、ここで洞察を抽出します。そして、クリエーターがこの洞察を受け取り、LLMに命令を与えません。ねえ、完全なプレイブックを今書き換えて、最後にリフレクターからのこの簡潔な洞察を追加してくれ、と。単なる連結があるからです。なぜなら、これはいつか失敗するからです。

今やプログラマティックな操作、決定論的な非LLMアクションがあります。セクションXYZに何かを追加するアクションです。そして今、コンテンツはリフレクターによって生成された簡潔な挿入物であり、非LLMアクションがこれに対する解決策です。ここで今、ACEを統合しています。プレイブックとして進化するコンテキストがあります。

ACEは、システムプロンプトまたは完全なメモリを進化するプレイブックとして扱い、環境との接触ごとに新しい戦略を蓄積します。これらのモジュラーロールを介して今や戦略を蓄積し、ジェネレーター、リフレクター、キュレーターを示しました。今や2つの主要な利点を持つシステムがあります。簡潔性バイアスとコンテキスト崩壊の両方を回避します。

コンテキスト崩壊については話しましたが、このバイアスとは一体何でしょうか? この簡潔性バイアスは、AI内部の自動化されたプロンプト洗練システムが、より短く、より一般的な指示に収束する傾向であり、貴重なドメイン固有の詳細を体系的に破棄します。あなたは言うかもしれません。信じられない、これはまた不可能です。はい、これはあなたのLLMの事前学習データにありました。

バイアスが起こる前の例を挙げます。このプロンプトがあります。バイアスの後は、このプロンプトです。すべての詳細が見えます。公式、総負債、株主資本、バランスシートにデータが欠落しています。線形回帰を使用して外挿しますが、免責事項を追加します。消えました。あなたは財務アナリストです。良い一日を。

私たちのオプティマイザー、私たちのLLMは、第2のプロンプトがより良いと誤って決定しました。なぜなら、それはより短く、ほとんどの単純な例で機能し、おそらく66%のパフォーマンスから57%のパフォーマンスに下がるだけですが、AIが実行するのははるかに簡単だからです。素晴らしい。私たちはこれを望みません。したがって、ACEがこれに対処しています。

完全なACEがあります。これはACEのフローチャートです。初期コンテキストがあります。これは基本的なプロンプトです。便を予約します。検索、選択、支払い。素晴らしい。そしてジェネレーターロールです。ジェネレーターは現在のコンテキストを使用してトラジェクトリーを生成します。サンフランシスコからロンドンへの予約を試みますが、私のような無効なクレジットカードのため失敗します。

次にリフレクターが入ってきて言います。ちょっと待って。失敗を今分析しなければなりません。何が起こったのか? エラーです。カードの形式が無効です。今や洞察を生成します。最初の論文との並行性が見えますか? 洞察は入力パターンを検証することです。

16桁でなければならず、スペースなし、スラッシュかダッシュのみか何であれ。次にクリエーターが入ってきて、オーケー、エラーがあることを理解しています。なぜエラーが起こったのかを理解しています。そして今、メモリに、システムプロンプトに、私の内部にデルタ更新を適用します。完全な書き換えなしでプレイブックに追加します。なぜなら、完全な書き換えでは崩壊が起こるからです。

したがって、戦略は今や、カード支払いを行う場合、ここにコードの断片を提供します。カードをチェックするregexです。カード情報をインターネットに送信する前に、この特定の形式でなければなりません。システムが環境との相互作用で学習すればするほど、プレイブックは段階的に大きくなります。

しかし、学習したすべての詳細を保持します。LLMの要約ではなく、私はこれをリストとして想像してください。売り切れの処理でリストに追加するだけです。単に+1日で再照会します。ほら、これらの段階的なデルタ更新は、聞こえるほど単純ですが、私たちがAIで抱えていた主要な問題を解決します。これがこの論文の重要なイノベーションでもあり、コンテキスト崩壊を防ぐためのものです。

なんとシンプルな方法論でしょう。しかし、AI自体はAI内でこれを行うことができません。したがって、すべての詳細がいつか失われる可能性がある完全なプロンプト書き換え中にクレジットカードを検証することを覚えておくようにLLMに尋ねる代わりに、これが正しい指示だと思うかもしれませんが、クリエーターは正確で構造化された永続的な知識の断片、プレイブックへのコードregexを追加します。素晴らしい、それだけです。

二つの論文の統合

さて、これら2つの論文を一緒に追加しましょう。これら2つの論文のコンテキストを構築しましょう。最初の論文は早期経験、教師ありファインチューニングについてでした。スタンフォードからの第2の論文はACEについてでした。そして今、内部ループを構築し、ACEで外部ループを構築できます。

予約システムとの環境に接触しているエージェントがいます。私は何も説明する必要はありません。AIが学習の基礎を始めるための10個の単純なエキスパートトレース、トラジェクトリーを提供するだけです。そして、このインターフェースで楽しんで学習してくださいと言います。

エージェントは、すべてのアクションを実行し、即座の結果を観察することで、現場での戦術的学習を実行します。これは一種の報酬ですが、このために報酬関数は必要ありません。なぜなら、実際の報酬があるからです。これにより、何が機能し、何が機能しないかという生データが生成されます。なぜなら、これをライブで見ているからです。

便を予約できるかできないか? そして外部ループのACEは、今生成したばかりのこの生データを反省して、今や戦略的な高レベルの原則を抽出します。つまり、少しの教師ありファインチューニングから始めて、環境との相互作用の実験の生データを取得する自己学習プロセスがあります。

そして今、第2の外部ループでACEを使用して、それを戦略的高レベル原則に、世界中のすべての他のフライトに適用できる自然言語での汎化に抽出します。原則はクリエーターによってプレイブックにコード化されます。とても簡単で、スタンフォードの論文だけでなく、両方の論文があります。

メタ・スーパーインテリジェンスの早期経験論文からの解決策は、自己探索から密な報酬フリーの監督を生成する方法です。世界モデルと、自己反省方法論による間違いから転移可能な教訓を抽出することです。もちろん、これはシステムの知性に依存します。GPT-5 highやGPT-5 pro、あるいは他のシステムを持っているかもしれませんが、知性に投資してください。これが不可欠です。なぜなら、これが今やACEへの入力となるからです。環境との相互作用から抽出された転移可能な教訓が、時間をかけて教訓を蓄積するための基盤になるからです。

構造化された進化するプレイブックで。メモリを見てください。これは壊滅的な忘却と簡潔性バイアスを回避します。とてもシンプルです。つまり、わずか2日前のメタからの洞察と5日前のスタンフォードからの洞察を組み合わせたのがわかります。

素敵じゃないですか? Xやどこかで単一の論文についての声明を見るときはいつでも、その論文をそれが属する環境の視点に置いてください。他のすべての論文のテーマ別クラスタリングを持ってください。1週間前か2週間前か2週間後かわかりませんが、何が世界で起こっているかを理解するためです。興味深いことに、これは純粋な米国の論文です。

スタンフォード、サマノバ、バークレー、メタ・スーパーインテリジェンス、フェア、オハイオ州立大学を知っていますが、彼らは皆、多かれ少なかれ同じトピックに取り組んでいます。相乗効果的な方法でこれを見ると、早期経験がACEが永続的な知恵、引用符付きで、構造化する生の実験データをどのように提供するか、私たちのエージェントのための自己改善の好循環を作り出すかがわかります。

最新のエージェント自己進化研究

これは理にかなっています。なぜなら、環境にアクセスできるからです。これは例えば私たちのフライト予約ウェブサイトです。ここでお見せしたのは、エージェントの自己進化における最新の研究です。エージェントは内部反省を通じて改善します。

予約ウェブサイトから、環境からの結果である外部状態に基づいて、自分自身のトラジェクトリーを批評します。教師ありファインチューニングの静的データと強化学習から得られる試行錯誤を橋渡しします。複雑性の観点からこれを見ることができます。なぜなら、今や反省はnがトラジェクトリーの長さである場合、ステップごとにnの次数で制限されており、徹底的な検索なしでパターンを推論するためにLLMの事前学習された能力を活用しているからです。

解空間が縮小されますが、これについては後のビデオで詳しく説明します。そして両方の論文が私たちに言います。ねえ、孤立したAを行えば約10%の改善が得られ、孤立したBを行えば複数ターンタスクで約10%の改善が得られます。そして、フライト予約から金融業務まで、何でも持っているものまで、実際のドメインにスケーラブルです。そして今、両方の論文、両方のコードを組み合わせて、両方の論文の相乗効果があれば全体的な合計がどうなるかを見なければなりません。

しかし、各単一論文の結果を見てみましょう。パフォーマンスデータを見てみましょう。エージェントは自分自身のアクションから相互作用データを収集し、暗黙的世界モデリングを介して将来の状態を監督に変換します。状態アクション状態のトリプレットでの教師ありファインチューニングがあり、ここでダイナミクス予測を基礎づけます。

早期経験での自己反省は、エキスパートトレースと比較した最適でないプロジェクターのLLM粒度批評であり、したがってここでポリシー洗練のための教訓を抽出します。これは、教師ありファインチューニングの限られた多様性、または長期の検証不可能な設定における非効率性に美しく対処します。なぜなら、報酬関数がない場合に何をするかということだからです。

著者は最初の論文でこれを行いました。8つの環境全体で美しい、美しい結果です。教師ありファインチューニングに対して約10%の成功率、約10%の分布外汎化をもたらします。50%少ないエキスパートデータでスケールし、フォローアップの強化学習ウォームアップスタートを最終成功ケースでプラス6.5%向上させます。素晴らしい。

ACE第2論文、ジェネレーター、リフレクター、クリエーター、これについて話しました。素晴らしい。トランスフォーマー層の重み更新なし、テンソル更新なしでドメイン固有のヒューリスティックを保持します。そして私はここでオフラインをブラインドします。これはプロンプト最適化を意味し、オンラインはメモリ適応モードを意味します。

利得は約10%です。DeepSeek v3で、GPT-4を1マッチングするエージェントで、プラス8.6%、ドメインタスク金融で6%です。そしてこれを見てください。GAPERのようなベースラインよりも86%低いレイテンシーです。ラベルなしの実行信号を使用します。

これは素晴らしいです。見てください。GAPERでreactメソドロジーがあり、今やACEで最新のreactメソドロジーがある場合、レイテンシーを見てください。マイナス82%です。

わあ、オフライン、オンライン両方のケースで、ここでオンラインではマイナス91%です。ロールアウトが大幅に削減されました。マイナス75%です。つまり、コストも下がります。とても素晴らしいです。しかし注意してください。ACEのためのデータが必要です。注意してください。これは単にそれを有効化すれば、すぐにそれらを与えるというわけではありません。

GAPを覚えておいてください。ここに特定のビデオがあります。強化学習の終焉、GAP新しい遺伝的AIです。これはMIT UCバークレーによるもので、試行錯誤から高レベルのルールを学習するために自然言語の反省を徹底的に組み込む遺伝的パレートプロンプトオプティマイザーでした。ご覧のように、常に試行錯誤です。システムは自己進化AIシステムを学習しなければなりません。

しかし今、これを見てください。ここでコンテキスト学習にすべてがあります。次にDSPI my proバージョン2から、そしてビデオをお見せしたGAP、そして新しい方法論ACEが2つのケースであります。最初はグラウンドトゥルースラベルがあり、グラウンドトゥルースラベルなしのACEがあります。ここではDeepSeek v3があります。

1がベースLLMオフラインです。美しい。好きなものを使うか、平均で行きましょう。オーケー、ベースの小さなDeepSeek v3.1と比較して69.1%です。コンテキスト学習はプラス0.5パーセントポイントのジャンプを提供します。My pro DSPIプラス1%、1.8パーセントポイントのジャンプです。GAプラス3%、グラウンドトゥルース付きACEプラス12%、グラウンドトゥルースなしでこれが本当に印象的なものですがプラス8%です。なぜなら環境との接触があるからです。

これはパフォーマンスにおいて本当に興味深いジャンプです。さて、これはアプリワールドエージェントベンチマークのための非常に特定のベンチマークです。これは正当な理由で著者によって選択されたと思います。つまり、あなたのドメインでのあなたの特定のユースケース、あなたのタスクの複雑さについて確認してください。

別の例を見たい場合は、さらに一歩進んで複雑さを増やしましょう。いいえ、同じトピックです。もう少し挑戦的なタスクをお見せしたいだけです。エージェントがここで初期化されています。教師ありファインチューニング、限られたエキスパートデモンストレーションのセットです。今やもう少し複雑なタスクのために20のトラジェクトリーです。

サンフランシスコからJFKまで、この時間枠で2人の大人のために往復便を予約してください。500ドル未満で。そしてもしかしたら窓側に座りたいかもしれません。あるいはどこでも。何をしているか理解していますね。複雑さを増やしているだけです。

スタートアップの例として、ここでエキスパートの人間のトラジェクトリーがあります。状態はこれらの設定でクエリを使用します。AIがアクションを取ります。別のアクション、価格でフィルターします。別のアクションと乗客情報、名前、支払いカード何でも予約ページです。アクション確認送信、素晴らしい。これがサンプルトラジェクトリーです。

そして今、全く同じことを行います。暗黙的世界モデリングがあります。エージェントはアクションを提案し、状態を予測するために観察された結果についてファインチューニングを行います。マルチインターナショナルタスクのロールアウトがあります。提案されたアクションは、サンフランシスコからロンドン・ヒースローへのAPIを照会し、次にロンドン・ヒースローからシドニーへの日付、何でも将来の状態または部分的な結果かもしれません。

問題があるからです。乗り継ぎ制約の利用不可があります。別のアクション、フランクフルト経由の代替ルートを想定します。将来の状態、オプションが更新されましたが、価格が予算を超えています。では、実環境との相互作用でAIがここで学んだことすべてについて今ファインチューニングします。

時点tでの状態、時点tでのアクション、時点t+1でのフォローアップ状態があるトリプレットでファインチューニングし、ダイナミクスを基礎づけます。私たちのAPIは無効な乗り継ぎに対してnullを返すか、価格が変動するかもしれません。何でもですが、トリプレットがあります。環境との実際の相互作用から今やトレーニングデータがあり、エージェントをファインチューニングできます。これは高度なデータ、強化されたデータです。

オーケー、そして不確実性の参加を可能にし、遷移をモデル化することで成功率を70%に改善します。ねえ、もしこの国際乗り継ぎの1つの区間が利用できない場合、プラス1日のバッファーで代替案を照会します。ホテルについて考えてください。理解しましたね。

そしてEには第2部があることを思い出してください。自己反省です。最適でないトラジェクトリーに対して、LLMは今やそれを人間のエキスパートエージェントトラジェクトリーと比較することで批評します。ビザチェックなしでマイル湖を選択すると、エラーになります。なぜなら予約が失敗したからです。例えばシドニーへの入国にビザが必要だったとしましょう。

この反省が行われ、オーケー、これは最適ではなかったとAIが言います。なぜなら、ここでビザの適格性を省略したからです。AIによって学習された教訓は、国際照会の場合、フライト選択を行う前に、特定の国コードでビザAPIを照会します。代替案、未指定の場合、仮定でユーザーのパスポートによってルートをフィルターします。

前進するパスA、または前進するパスBがあります。より多くのパスがあればあるほど、より多くのオプションがあり、ここで予約システムからより多くのフィードバックを得られます。はい、試行錯誤システムがありますが、非常に速く学習します。今や拡張データがあり、推論パスの教訓も抽出しながら、エージェントをこれらについてもファインチューニングできます。なぜなら、より多くの教訓があればあるほど、システムは現実の、または予約エージェントの因果関係をよりよく理解するからです。

さらに、分布外の汎化を促進します。ホテルを追加したいとしましょう。宿泊APIと予約を統合し、ここでより良いパフォーマンスに到達します。早期経験のトラジェクトリーは今や私たちのACE、第2ステップに情報を提供します。ねえ、ビザを確認することを忘れないでというような反省された教訓は、今やACEのプレイブックでのデルタ指示となり、正確な予測のためにここでその後のロールアウトを導きます。

これら2つの論文、これら2つの論文は非常に美しく一緒に機能します。時には、メタが論文を発表し、スタンフォードがわずか数日の間隔で論文を発表したことを著者が知らないのは本当に残念です。もし彼らが一緒に座って、さあ来いと言っていたら。しかし、ねえ、そうでなければ、あなたはこの美しいビデオを見ていなかったでしょう。

つまり、このデータを見れば、これらの洞察に基づいて構築する機会、チャンスが非常に美しいことがわかります。オーケー、早期経験は多様性をスケールし、マルチドメインのエッジに露出させます。はい、次のビデオはACEのグラフ表現についてです。素晴らしい。できました。

ACEは、モデルロールを介してプレイブックとして別のエージェントメモリを進化させます。崩壊と戦わなければなりません。したがって、複数のオブジェクトとエージェントによって段階的に戦略を蓄積し、したがって崩壊を回避できます。より多くの詳細、より多くの戦略の詳細を含む別の例でこれを見たい場合は、これです。そうでなければ、再び美しいループがあります。

早期経験は、複雑なロールアウトからの将来の状態というスケーラブルな監督を提供し、一方ACEはこれをマルチドメイン処理のための永続的な構造、汎化、デルタに組織化し、それによって外部ラベルや報酬関数なしで長期の不確実なタスクのための完全なAIシステムの自己改善を促進します。これは美しくないですか?

まとめ:コンテキスト適応という新しいパラダイム

つまり、これを理解すると、ACEは従来のモデルファインチューニングに対する柔軟で効率的な代替手段を提供すると言えます。今やコンテキストを適応させることは一般的にモデルの重みを更新するよりも安価だからです。特にブラックボックスがあり、許可されていない場合、またはあなたのGPT-5をファインチューニングするため、あるいはあなたのデータにGPT-5をファインチューニングするために膨大な金額を支払わなければならない場合はなおさらです。

楽しんでいただけたことを願います。

コメント

タイトルとURLをコピーしました