ACE エージェント型コンテキストエンジニアリング:自己学習AI(スタンフォード大学)

スタンフォード大学とUCバークレーによる最新のAI研究が、従来のファインチューニングや強化学習に代わる革新的な手法を提案している。ACE(エージェント型コンテキストエンジニアリング)と呼ばれるこの手法は、AIエージェントが実環境との相互作用を通じて自己学習し、報酬関数を必要とせずに性能を向上させることを可能にする。メタ・スーパーインテリジェンスの早期経験論文と組み合わせることで、AIは戦術的な試行錯誤から戦略的な知識を蓄積し、コンテキスト崩壊や簡潔性バイアスといった従来の課題を克服する。この二層学習システムは、実世界のフィードバックから自然言語の教訓を抽出し、プレイブックとして段階的に蓄積することで、長期的かつ複雑なタスクにおいて従来手法を大きく上回る成果を示している。

ACE Agentic Context Engineering: Self-Learning AI (Stanford)

The synergy between Early Experience and Agentic Context Engineering (ACE) creates a powerful, two-loop architecture for...

エージェント型コンテキストエンジニアリングの登場
従来の学習手法の限界
AIの実環境学習
報酬フリーパラダイムの誕生
自己強化サイクルの構築
早期経験による暗黙的世界モデリング
自己反省による汎化可能なルールの生成
コンテキスト崩壊の問題
ACEによる段階的デルタ更新
二つの論文の統合
最新のエージェント自己進化研究
まとめ:コンテキスト適応という新しいパラダイム

エージェント型コンテキストエンジニアリングの登場

皆さん、こんにちは。コミュニティの皆さん、お帰りなさい。今回はエージェント型コンテキストエンジニアリングについてお話しします。ディスカバーAIチャンネルへようこそ。全く新しい研究をご紹介します。さて、もしあなたがXでこれを見たら、スタンフォード大学とUCバークレーによる新しい研究があります。彼らはファインチューニングの終焉を宣言しています。また別のゲームチェンジャー的なブレイクスルーです。ファインチューニングよ、安らかに眠れ。

スタンフォードがそれを殺してしまいました。誰もが短くて明瞭なプロンプトに夢中になっていました。しかし今や、私たちは決して忘れることのない長く詳細なプレイブックを使うようになります。さて、あなたは私に聞くでしょう。ねえ、これは何なの? スタンフォード大学によるこの新しい研究とは何なのか? ファインチューニングが本当になくなるのか? まあ、そう急がないでください。もちろん、これはもう少し複雑なんです。では、ビデオを始めましょう。

従来の学習手法の限界

ここに教師あり学習やエキスパートデータのような事後学習の古典的な手法があります。これらはデータの希少性や失敗への露出不足により、汎化能力が制限されていました。一方、私たちの強化学習の方法論は、報酬がまばらな環境ではしばしば実行不可能です。

したがって、今では新しいトレンドがあります。私たちは言います。ねえ、特定のデータ構成において、教師ありファインチューニングと強化学習以外に何かないだろうか、と。そして、もしあなたが2つのAI研究論文を組み合わせれば、人工知能において何か新しいものが私たちに近づいている兆候があると思います。

私たちは、モデル自身の出力とモデルの相互作用を活用する、低オーバーヘッドの代替手段を探しています。なぜでしょうか? もし私が教師ありファインチューニングのトレーニングデータを持っていなくて、検証可能な報酬構造による強化学習のアライメントデータも持っていないなら、データとして何を持っているのか? モデルが内部で生成したデータを生成しなければならないということです。

AIの実環境学習

では、どうやってこれを行うのかという疑問が生じます。そして、推測してみてください。これは意味がありません。もしあなたがAIを孤立させて、AIが自分の内部知識について反省するだけなら、何も新しいことは起こりません。しかし、もしあなたがAIを実世界の環境に置き、AIにこの環境と大規模に相互作用させれば、AIは実世界のアプリケーションから学習するでしょう。

これは、変化する環境がある場合に特に美しいのです。非常に速く変化する環境、進化する環境、あるいは報酬機能のためのグラウンドプルーフが全くない環境がある場合です。このケースについて見てみましょう。

スタンフォード大学による論文があります。10月6日、サマノバシステムズ、UCバークレーです。エージェント型コンテキストエンジニアリング、AIからの進化するコンテキスト、自己改善言語モデルに関する美しい論文です。自己改善という言葉を見るたびに、わあ、これは面白そうだと思いますよね。しかし、コンテキストについて話しているので、視聴者の皆さんにはコンテキストを保持することをお勧めします。そして、お勧めするコンテキストはこれです。3日後の10月9日、メタ・スーパーインテリジェンスとフェアがあります。

ああ、スーパーインテリジェンスとフェアを同時に見るのは初めてです。誰がリーダーなのか? リーダーはスーパーインテリジェンスです。オハイオ州立大学で、彼らは早期経験を通じたエージェント学習を研究しています。この2つの論文を見ると、これらの論文のコンテキストがわかります。この早期経験を、私はEE論文、早期経験と呼びます。そしてここでACEは、もちろんエージェント型コンテキストエンジニアリングです。

ご存知のように、これは多かれ少なかれ、ACEのための完璧に最適化された入力である教師ありファインチューニングに関するものです。つまり、教師ありファインチューニングが死んだということではありません。私の解釈では、このシステムをさらに強力にするための完璧な入力生成器に過ぎません。では、見てみましょう。

報酬フリーパラダイムの誕生

まとめると、これらは報酬がまばらな環境において、報酬フリーパラダイムを導入することで、自己改善するLLMベースのAIシステムを前進させます。ついに、あなたは言うかもしれません。出力報酬なし、段階的報酬関数なし、報酬フリーです。これは実行フィードバックと自己生成データ構造を活用します。そして今、教師ありファインチューニングと強化学習を正確に橋渡しします。その真ん中とその上に組み合わされた何か新しいものがあります。見てみましょう。

これらの論文の技術用語は一対一のマッピングではないので、技術用語の議論に飛び込みたくはありません。ただ例を示したいだけです。核心原理を理解すれば、どれだけ簡単かをお見せしたいと思います。では、両方の論文を統合する簡単な例から始めましょう。

現在、実世界との接触を持つエージェントがあるAIエージェント構成を探しています。つまり、シミュレートされたものであっても、どんな環境とも直接相互作用することで、実世界の経験ループを持っています。これにより、事前に定義された報酬関数を必要とせずに、その動的なダイナミクスを理解します。これが美しさです。しかし、何かが必要です。お見せしましょう。

2つの論文があるので、この2つの論文を超えて行くと言いたいです。なぜなら、これは楽しいビデオであるべきで、少し挑戦的であるべきだからです。では、2層学習システムがあるとしましょう。レベル1は、AIが環境に触れたときの即座の結果についての豊富な低レベルの戦術的学習信号のストリームを生成します。

そして、ACEレベル2は、高レベルの戦略的知識ベース構造についてです。一般原則とロバストな戦略のためのプレイブックと呼びましょう。ほら、これら2つが美しく一緒になっているのがわかるでしょう。

自己強化サイクルの構築

もちろん、今やサイクルを構築できます。レベル2からの戦略的知恵は、レベル1での戦術的探索を時間とともにはるかに知的で効率的にします。そして、より良い探索はより良いデータ構造につながり、それが再びより良いプレイブックにつながります。自己強化の美しさが見えますね。始めましょう。

今、エージェントがいて、エージェントが環境と接触するなら、エージェントに何らかの知識を提供しなければなりません。つまり、少数のエキスパートデモンストレーションについて教師ありファインチューニングを行う必要があります。例えば、10個のトラジェクトリー、10個の人間のトラジェクトリーで、フライト予約の方法をシステムに示します。これらがエキスパートトラジェクトリーです。こんな感じに見えるかもしれません。

状態Z、これは検索フォームのあるホームページです。次にアクションがあります。出発地を入力します。サンフランシスコ、到着地JFK、日付です。次に新しい状態があります。フライトオプションのある結果ページが表示されます。次に別のアクションがあります。最安値のノンストップ便を選択します。次に別の状態、支払いページが表示されます。別のアクションがあります。クレジットカードを入力します。送信します。

そして、別の状態、確認ページが表示されます。成功です。これが、AIを現在アプローチしている環境に慣れさせるために、教師ありファインチューニングを開始するために必要なエキスパートトラジェクトリーの全てです。分布内タスクに対して約60%の成功率を達成するとしましょう。これが常に同じページで、常に同じパラメータで行く場合ですが、分布外に行くと40%に下がります。なぜなら、失敗やエッジケースへの露出が限られているからです。

早期経験による暗黙的世界モデリング

そして、ここでスーパーインテリジェンスによる最初の論文が登場します。彼らは私たちに言います。ねえ、私たちはここに発見した2つの主要な要素があります。まず、暗黙的世界モデリング戦略IWMを構築しなければなりません。そして、システムが自分自身で生成した洞察について自己反省するクリティークシステムを持っています。ご存知のように、これは特別なことではありません。

これは単に、自己提案されたトラジェクトリーセットを生成し、それについて反省するだけです。暗黙的世界モデル戦略IWMを行います。トラジェクトリーを生成するだけです。教師ありファインチューニングで初期化されたエージェントは、今や50個の部分的トラジェクトリーを展開します。なぜなら、第2の論文で必要とする長い時間軸を管理したいからです。

私たちのAIによる最初のアクションは、今や出発地サンフランシスコ、到着地JFK、日付を入力することです。素晴らしい。将来の状態、結果ページは有効です。予約ができました。素晴らしい。別のアクションはランダムな便を選択することかもしれません。そして将来の状態は、支払いページが売り切れでした。したがって、できません。エラーを受け取ります。

今、これらすべてのアクション、20、50、100のアクションで、AIは環境と接触してそれを試し、環境からフィードバックを得ます。エージェントは今、経験したペアについてファインチューニングを行います。

何があるかというと、現在の状態があります。次にAIがアクションを取り、将来の状態を予測しようとします。それからエラーがあるかないかを得ます。つまり、AIはここで環境のダイナミクスを暗黙的に学習しています。そしてこれがポリシーを基礎づけます。ランダムな選択がしばしばエラーにつながることを予測し、ここでの遷移を予測することで成功率を70%に改善します。例えば、まず空き状況を確認するというアクションです。ほら、AIが環境との相互作用を通じて学習しているのがわかります。

暗黙的世界モデリングは非常にシンプルです。エージェントファインチューニングの説明は、現在の状態、アクション、予測される将来の状態です。これは学習するために必要なものを正確に捉えています。ここでランダムな便を選択することが実世界の実験でしばしば売り切れエラー状態につながることを学習することで、エージェントはこの環境によるこのダイナミクスを内面化しています。

しかし、これはまさにIWMの目標です。最終目標を最適化しようとする前に、世界の因果構造についてAIがより良い感覚を持つ、基礎づけられたポリシーを構築することです。この最適化と継続的なファインチューニング、教師ありファインチューニングによって、実世界から学習するため、パフォーマンスは70%に増加するとしましょう。なぜなら、今や何が起こっているかについて現実的なアイデアを持っているからです。

自己反省による汎化可能なルールの生成

これらすべてを生成した後、それについて反省できます。売り切れの便を選択したエージェントトラジェクトリーがあるとしましょう。推測してください。エラー状態になります。そして、選択を再試行すると言います。ページが表示され、最初からやり直してくださいと言われます。環境からこのフィードバックを受けると、LLMによって生成された自己反省があり、これは最適ではなかったと言います。

選択が最初は空き状況を無視していました。では、AIが学んだ教訓は何でしょうか? エラーを避けるために選択する前に、フライトステータスAPIを照会します。または代替として、例えば私の地域で利用可能な便のみにフィルターを有効化します。この反省を持つことで、何を得るか知っていますか? わかりますか? もはや報酬関数で作業していません。

バイナリ報酬関数で作業していません。報酬スコアリングで作業していません。ここで直接的な自然言語の教訓を得ます。これは美しいもので、その上に構築していきます。このデータすべてがあれば、オリジナルのトラジェクトリーと私たちがここで生成したすべての反省について、拡張データでファインチューニングし、今やここで教訓を抽出します。

これ全体で意思決定を洗練させます。テストは、今やエッジケースのチェックを追加し、分布外の成功を高めています。見てください。これはここで単なる教訓ではなく、これはサンフランシスコからニューヨークへの便、またはサンフランシスコからどこかへ、サンフランシスコからシドニーへの便にのみ有効な一般的な教訓なのです。分布外の成功は65%まで上がります。

自己反省です。私が思うに、これは明確で、私たちが持っている自己反省が提供する対照的原理を抽出する監督の完璧なインスタンスです。エージェントは単にそのアクションが間違っていたと告げられるだけでなく、バイナリ報酬信号を持っているわけではありません。しかし今や、汎化可能なルール、この便を選択する前にフライトステータスAPIを照会するというルールがあります。

つまり、自己反省がなぜここで分布外の汎化を改善することが示されているのか、正確にわかります。しかし、何を得るか見てください。このシステムは今、純粋な試行錯誤で環境内で相互作用しながら学習しています。汎化可能なルールを得ます。そして推測してください。これがスタンフォード研究への入力になるでしょう。

コンテキスト崩壊の問題

さて、エージェント型コンテキストエンジニアリングとは何でしょうか? 今や、私たちはそこで問題を抱えています。なぜなら、過去にこれがあったときはいつでも問題があり、この問題をコンテキスト崩壊と呼んでいるからです。これは、反復的かつ一枚岩的に長く複雑なコンテキスト、システムプロンプト、または完全なエージェントメモリをここで書き換えるタスクを課されたLLMの現象です。

このAIには問題があります。なぜなら、ある時点で壊滅的に過度の要約を行うからです。完全な長く複雑なコンテキストをコピーしていません。しかし突然、AIは今が大規模な要約を行う時だと決定します。これにより、システムプロンプトにあった、またはエージェントのメモリにあった、すべての詳細な、特定の、蓄積された知識の急激で不可逆的な損失が引き起こされます。これは問題です。ほら、コンテキスト崩壊です。適応が見えます。

コンテキストのトークン数が増加し、そしてLLMが決定します。ねえ、短くしよう、圧縮しようと。少し構築されます。18,000トークンです。そして122トークンに落ちます。つまり、情報の約99%を失います。もしこれがリアルタイムのストリームであれば、精度が66から57に下がるのが見えます。

ユーザーとして、それがブラックボックスAIであれば、これが起こっていることに気づかないかもしれませんが、情報を失っています。これは受け入れられません。では、どうすればいいのでしょうか? これをスペースで見たい場合は、蓄積フェーズ、トリガーフェーズ、崩壊フェーズがあり、そしてAIは単に記憶喪失になります。

この崩壊したコンテンツで動作するエージェントは、事実上その以前の学習を忘れており、そのパフォーマンスは急落します。これはまさにここで、さようなら子供の知識、今忘れたところだと言うところです。この新しいスタンフォードの論文を行うなら、この問題を克服しなければなりません。ACEは今やこの問題を解決するために特別に設計されました。システム内で本質的かつ外部的にすべてのLLMの一枚岩的な書き換えを排除することによってです。

ACEによる段階的デルタ更新

代わりに行うことは、段階的なデルタ更新フェーズを持つことです。シンプルです。今や、リフレクターのような複数のオブジェクトがあると言います。すぐにこれをお見せしますが、要約としてここにあります。新しい経験を分析し、ここで洞察を抽出します。そして、クリエーターがこの洞察を受け取り、LLMに命令を与えません。ねえ、完全なプレイブックを今書き換えて、最後にリフレクターからのこの簡潔な洞察を追加してくれ、と。単なる連結があるからです。なぜなら、これはいつか失敗するからです。

今やプログラマティックな操作、決定論的な非LLMアクションがあります。セクションXYZに何かを追加するアクションです。そして今、コンテンツはリフレクターによって生成された簡潔な挿入物であり、非LLMアクションがこれに対する解決策です。ここで今、ACEを統合しています。プレイブックとして進化するコンテキストがあります。

ACEは、システムプロンプトまたは完全なメモリを進化するプレイブックとして扱い、環境との接触ごとに新しい戦略を蓄積します。これらのモジュラーロールを介して今や戦略を蓄積し、ジェネレーター、リフレクター、キュレーターを示しました。今や2つの主要な利点を持つシステムがあります。簡潔性バイアスとコンテキスト崩壊の両方を回避します。

コンテキスト崩壊については話しましたが、このバイアスとは一体何でしょうか? この簡潔性バイアスは、AI内部の自動化されたプロンプト洗練システムが、より短く、より一般的な指示に収束する傾向であり、貴重なドメイン固有の詳細を体系的に破棄します。あなたは言うかもしれません。信じられない、これはまた不可能です。はい、これはあなたのLLMの事前学習データにありました。

バイアスが起こる前の例を挙げます。このプロンプトがあります。バイアスの後は、このプロンプトです。すべての詳細が見えます。公式、総負債、株主資本、バランスシートにデータが欠落しています。線形回帰を使用して外挿しますが、免責事項を追加します。消えました。あなたは財務アナリストです。良い一日を。

私たちのオプティマイザー、私たちのLLMは、第2のプロンプトがより良いと誤って決定しました。なぜなら、それはより短く、ほとんどの単純な例で機能し、おそらく66%のパフォーマンスから57%のパフォーマンスに下がるだけですが、AIが実行するのははるかに簡単だからです。素晴らしい。私たちはこれを望みません。したがって、ACEがこれに対処しています。

完全なACEがあります。これはACEのフローチャートです。初期コンテキストがあります。これは基本的なプロンプトです。便を予約します。検索、選択、支払い。素晴らしい。そしてジェネレーターロールです。ジェネレーターは現在のコンテキストを使用してトラジェクトリーを生成します。サンフランシスコからロンドンへの予約を試みますが、私のような無効なクレジットカードのため失敗します。

次にリフレクターが入ってきて言います。ちょっと待って。失敗を今分析しなければなりません。何が起こったのか? エラーです。カードの形式が無効です。今や洞察を生成します。最初の論文との並行性が見えますか? 洞察は入力パターンを検証することです。

16桁でなければならず、スペースなし、スラッシュかダッシュのみか何であれ。次にクリエーターが入ってきて、オーケー、エラーがあることを理解しています。なぜエラーが起こったのかを理解しています。そして今、メモリに、システムプロンプトに、私の内部にデルタ更新を適用します。完全な書き換えなしでプレイブックに追加します。なぜなら、完全な書き換えでは崩壊が起こるからです。

したがって、戦略は今や、カード支払いを行う場合、ここにコードの断片を提供します。カードをチェックするregexです。カード情報をインターネットに送信する前に、この特定の形式でなければなりません。システムが環境との相互作用で学習すればするほど、プレイブックは段階的に大きくなります。

しかし、学習したすべての詳細を保持します。LLMの要約ではなく、私はこれをリストとして想像してください。売り切れの処理でリストに追加するだけです。単に+1日で再照会します。ほら、これらの段階的なデルタ更新は、聞こえるほど単純ですが、私たちがAIで抱えていた主要な問題を解決します。これがこの論文の重要なイノベーションでもあり、コンテキスト崩壊を防ぐためのものです。

なんとシンプルな方法論でしょう。しかし、AI自体はAI内でこれを行うことができません。したがって、すべての詳細がいつか失われる可能性がある完全なプロンプト書き換え中にクレジットカードを検証することを覚えておくようにLLMに尋ねる代わりに、これが正しい指示だと思うかもしれませんが、クリエーターは正確で構造化された永続的な知識の断片、プレイブックへのコードregexを追加します。素晴らしい、それだけです。

二つの論文の統合

さて、これら2つの論文を一緒に追加しましょう。これら2つの論文のコンテキストを構築しましょう。最初の論文は早期経験、教師ありファインチューニングについてでした。スタンフォードからの第2の論文はACEについてでした。そして今、内部ループを構築し、ACEで外部ループを構築できます。

予約システムとの環境に接触しているエージェントがいます。私は何も説明する必要はありません。AIが学習の基礎を始めるための10個の単純なエキスパートトレース、トラジェクトリーを提供するだけです。そして、このインターフェースで楽しんで学習してくださいと言います。

エージェントは、すべてのアクションを実行し、即座の結果を観察することで、現場での戦術的学習を実行します。これは一種の報酬ですが、このために報酬関数は必要ありません。なぜなら、実際の報酬があるからです。これにより、何が機能し、何が機能しないかという生データが生成されます。なぜなら、これをライブで見ているからです。

便を予約できるかできないか? そして外部ループのACEは、今生成したばかりのこの生データを反省して、今や戦略的な高レベルの原則を抽出します。つまり、少しの教師ありファインチューニングから始めて、環境との相互作用の実験の生データを取得する自己学習プロセスがあります。

そして今、第2の外部ループでACEを使用して、それを戦略的高レベル原則に、世界中のすべての他のフライトに適用できる自然言語での汎化に抽出します。原則はクリエーターによってプレイブックにコード化されます。とても簡単で、スタンフォードの論文だけでなく、両方の論文があります。

メタ・スーパーインテリジェンスの早期経験論文からの解決策は、自己探索から密な報酬フリーの監督を生成する方法です。世界モデルと、自己反省方法論による間違いから転移可能な教訓を抽出することです。もちろん、これはシステムの知性に依存します。GPT-5 highやGPT-5 pro、あるいは他のシステムを持っているかもしれませんが、知性に投資してください。これが不可欠です。なぜなら、これが今やACEへの入力となるからです。環境との相互作用から抽出された転移可能な教訓が、時間をかけて教訓を蓄積するための基盤になるからです。

構造化された進化するプレイブックで。メモリを見てください。これは壊滅的な忘却と簡潔性バイアスを回避します。とてもシンプルです。つまり、わずか2日前のメタからの洞察と5日前のスタンフォードからの洞察を組み合わせたのがわかります。

素敵じゃないですか? Xやどこかで単一の論文についての声明を見るときはいつでも、その論文をそれが属する環境の視点に置いてください。他のすべての論文のテーマ別クラスタリングを持ってください。1週間前か2週間前か2週間後かわかりませんが、何が世界で起こっているかを理解するためです。興味深いことに、これは純粋な米国の論文です。

スタンフォード、サマノバ、バークレー、メタ・スーパーインテリジェンス、フェア、オハイオ州立大学を知っていますが、彼らは皆、多かれ少なかれ同じトピックに取り組んでいます。相乗効果的な方法でこれを見ると、早期経験がACEが永続的な知恵、引用符付きで、構造化する生の実験データをどのように提供するか、私たちのエージェントのための自己改善の好循環を作り出すかがわかります。

まとめ:コンテキスト適応という新しいパラダイム

つまり、これを理解すると、ACEは従来のモデルファインチューニングに対する柔軟で効率的な代替手段を提供すると言えます。今やコンテキストを適応させることは一般的にモデルの重みを更新するよりも安価だからです。特にブラックボックスがあり、許可されていない場合、またはあなたのGPT-5をファインチューニングするため、あるいはあなたのデータにGPT-5をファインチューニングするために膨大な金額を支払わなければならない場合はなおさらです。

楽しんでいただけたことを願います。