AI が自身の思考をアウトソーシング(Stanford大学)

AIエージェント
この記事は約20分で読めます。

この動画はStanford大学が開発した新しいAI手法について解説するものである。この手法はテストタイム計画キャッシュと呼ばれ、AIエージェントの動作コストを50%削減できるという画期的な技術を紹介している。従来のコンテキストキャッシュやセマンティックキャッシュに加える第三のキャッシュ手法として、AIエージェントの計画フェーズで生成される推論プロセスを再利用することで大幅なコスト削減を実現する。

AI Just Outsourced It's Own Thinking (Stanford)
Ai systems, especially multi-agent systems outsource their complex planning phase with advanced thinking and complex rea...

Stanford大学による革新的なキャッシュ手法

こんにちは、コミュニティの皆さん。今日もお戻りいただき本当にありがとうございます。今日はStanford大学による新しい手法についてお話しします。そして彼らが私たちに教えてくれることは、コストを50%削減できるということです。誰かがこのようなことを私に言うときは、必ず耳を傾けることにしています。

私たちにはエージェントと古典的なワークフロー構造があります。そして私たちは「ほら、私たちには多くの美しいMCPプロトコルとエージェント間プロトコルがある。そして多くのインテリジェントツールがある。標準ツール、コーディングツール、認知ツール、想像できるあらゆるツールがある」と言い始めました。そのため、私たちのエージェントを少し小さくすることができます。なぜなら私たちは知性をツールにアウトソースしたからです。

そして、はい、1つのツールだけでなく、マルチツール構成とマルチエージェント構成があります。これは美しくなってきており、さらに良くなっています。しかし今は別の話になります。なぜなら今私たちはエージェントのコアについて話しているからです。これは大規模言語モデルです。あなたが何を操作しようとも、インテリジェントなAIエージェントを持っているなら、コアにはLLMか、おそらくビジョン言語モデルさえもあります。

大規模言語モデルの内部構造と新しいキャッシュアプローチ

同じ視点を持ちましょう。しかし今度は別のオブジェクトを見ています。今度は大規模言語モデルを見ており、エージェントのコアとしての大規模言語モデルも内部的には特定のワークフローを持っています。私たちは数年前に同じアイデアを持っていました。AIコミュニティの素晴らしい人々が「内部キャッシュ構造を最適化すれば、LLMをより速く、より良く、より安くできる」と言いました。

皆さんもご存知のように、今私たちにはコンテキストキャッシュとセマンティックキャッシュがあります。そして今日、昨日発表されたばかりですが、Stanford大学が私たちに「第三の主要なキャッシュがある」と教えてくれます。これは本当に興味深いことになるでしょう。

何が起こっているのか理解しましょう。私たちにはエージェントがあり、人間からのプロンプト、人間からのクエリがあります。そして私は「これとこれを私のためにやってください」と言います。そしてエージェント、つまりLLMがここで人間のプロンプトを書き換え始めます。

私の前回のビデオの一つで、IBMがここで開発した「質問理解ツール」というものをお見せしました。これは認知アーキテクチャ専用に使用されるツールです。シンプルに言うと、そのタスクは手元の問題を分解してその主要な構成要素を特定することです。

数学的問題について詳細にお見せしましたが、質問を理解するプロンプトには指示があり、非常にシンプルな質問に対してこのようなものが得られます。私たちはツールに慣れ親しんでおり、質問ツールと人間の質問を理解することに慣れ親しんでいます。素晴らしいことです。

AIの内部処理プロセスと計画フェーズ

次の段階では、AIの内部プロンプトまたはクエリ表現があります。AIは「私の与えられた事前学習知識と知識データと情報の表現で、これを処理できます」と言います。そして「素晴らしい、今あなたには複数のエージェントがあり、これができます」と言いました。

しかし私は「ちょっと待って。AIが私に、エージェントが私に、LLMが、エージェントが私に、今すべてのエージェントを起動する前に戦略的計画を持つよう訓練されているので、計画フェーズを開始しなければならないと言っています」と言いました。

そこで私は解決策を見つけるための戦略、解決策をどのように見つけるかの計画を設計します。私の前回のビデオで最新で最も複雑で最も美しいライブコードベンチマークプロを分析したときに、コードAIには今後の開発のために2つの選択肢があることがわかりました。

一つは、コード作成に最適化された内部計画推論能力を持ちたいと言うか、または複雑なコード質問に対する推論をツールにアウトソースすると言うかです。これは興味深いことです。なぜなら全く同じアイデアが今ここで起こっているからです。

これを見てください。ライブコードベンチマークでは3つの異なるタイプがありました。私の動画を見た方であれば、私が何について話しているかすぐにわかりますし、登録者の方はこの時点で微笑んでいるでしょう。

Stanford大学の新しいキャッシュ手法の詳細

Stanford大学は私たちに「第三のアイデアがある。私たちはテストタイム計算で計画と推論をキャッシュする」と教えてくれます。これは絶対に魅力的です。なぜかご存知ですか?Stanford大学はコストを50%削減し、ほぼ同じパフォーマンスを実現すると言っているからです。

これが興味深くなってきます。あなたがOpenAIまたはMicrosoftで、OpenAIモデルを運営している人だと想像してみてください。そして「コストを50%削減できます」と言うとします。大手グローバル企業がStanfordの話を聞いているのは分かります。

素晴らしい。これを見てみましょう。これは2025年6月17日に発表された研究です。Stanford大学コンピュータサイエンス学部と電気工学部による「テストタイム計画キャッシュを介したLLMエージェントのコスト効率的なサービング」についてです。私は完全に正確ではありませんでした。コストを46.62%削減できるのです。

これは素晴らしいことではありませんか?私たちが同じ船に乗っていることを確認するために、今私たちが興味を持っている計画フェーズは、実際には高度なマルチエージェント推論フェーズです。

LLMはここで決定します。これが私たちのオーケストレーションエージェントであり、マルチエージェントシステムのハブアンドスポークトポロジーを持つ場合、ボスエージェント内のLLMです。このLLMは「情報が入ってきています。戦略を考えるために計画用の情報を要求します」と決定します。

マルチエージェント推論システムの動作メカニズム

良き古きRAGです。私が前回のビデオの一つでカバーしたマルチエージェント推論RAGシステムです。そしてAIはいくつかの推論プロセスを開始します。「今見たデータを考慮すると、2つの可能な進路AとBとCがあると思います」と推論を行います。

そこで外の世界からさらなる情報を要求します。MCPプロトコルクライアントサーバーアーキテクチャに行き、「このツール、おそらく別のエージェントに接続されているこのツール、A、B、C、Dをやってもらい、推論を持ち帰ってもらう必要があります」と言います。

そしてデータが流れ戻り、AIは推論を続け、おそらくバージョンBに決定するでしょう。これは有効な解決策を考え出すために計画フェーズで起こります。計画なしには、AIは元のタスクの実行を開始することさえしません。なぜなら、どのように進めるべきかの計画を持つよう訓練されており、エネルギーを無駄にしない、時間を無駄にしない、私の神経を無駄にしないからです。

マルチエージェントシステム内のオーケストレーションエージェント内の、エージェントの特定の状態に対するこの特定の構成において、この計画フェーズでは、特定の時点で利用可能なすべてのデータと、私の人間のクエリで対処した複数の複雑さを考慮した、非常に特定の計画文書があることを絶対に確実にするためです。

推論シーケンスの再利用と仮説の構築

これを確実にするために、LLMが構築を始める推論シーケンスがあり、「これが私の進め方の計画です」と言うとします。今日、この特定の部分でいくつかのデータが不足している可能性があります。この部分をズームインすると、現在私たちの推論は多かれ少なかれ3つの異なる部分で構成されています。何であれ、問題ではありません。重要なのは、おそらく現在いくつかのデータが利用できないことです。

そこでAI、LLMは仮説の構築を始めます。「GPUの価格がわからない」と言い、「ゲーマー向け、コンシューマーGPU向けのNvidia GPUの将来の開発と価格の発展について考えてみよう」と考えます。

先週おそらくいくつかのデータが利用できませんでしたが、今週はデータが利用可能です。OpenAIが先週の後続の推論分析で行ったのと同じ仮説と外挿を使用できるでしょうか?それとも異なる計画演習があるのでしょうか?

計画のためにマルチエージェントRAGシステムで非常に綿密にプログラムされた推論シーケンスを再利用しようとする場合、ここには極めて敏感なトピックがあることがわかります。

第三のキャッシュ最適化:エージェンティックテストタイム計画キャッシュ

今、私たちには他のキャッシュ最適化と組み合わせることができる第三のキャッシュ最適化があるという美しい瞬間があります。それは今、興味深いことに、もちろんエージェントのインテリジェントなコアであるLLMで起こるエージェンティックテストタイム計画キャッシュです。

美しさは何でしょうか?AIは解決策を見つけるために再び計画を計算する必要がありません。なぜならキャッシュのどこかで、それを知っているからです。あなたがOpenAIによってモデル化され、Microsoftクラウドサーバーに座っていると想像してください。そして「シカゴからの小さな仲間とウィーンオーストリアからの他の仲間が同じ質問をしたことを覚えています。なんという偶然でしょう。そして計画を計算する必要はありません。計画を再利用するだけです。AIとして、私は再び考える必要はありません。他の誰かがほぼ同じ質問をしたので、何をすべきかわかっているからです」と言います。

あなたが今OpenAIやMicrosoftなら、「価格を同じレベルに保てば50%のコストを削減できるなら、50%多くの利益を上げることができる。これは美しい状況だ」と言うでしょう。

私たちがこれに興味を持つ理由がわかるでしょう。なぜなら問題は、私たちもプライベートなコンシューマベースでこれを使用できるかということだからです。

文献とキャッシュ技術の背景

しかし、AIが初めてで「ちょっと待って、コンテキストキャッシュをよりよく理解するための文献を教えてもらえますか?」と言うなら、はい、キーバリューキャッシュの再利用とプロンプトキャッシュがコンテキストキャッシュからの2つの主要なサブトピックです。

文献について、多くの視聴者と購読者、特に私の購読者が文献について尋ねるので、プロンプトキャッシュについてはこれがとても気に入っています。美しい説明も提供してくれるからです。効率的なキーバリューキャッシュの再利用を見ている場合、Santa Barbaraが美しい視覚化をここで行ったと言えるでしょう。

もう少し高度で、キャッシュ知識融合を使用したRAG向けのLLMサービングに行く場合、シカゴ大学も本当に興味深いです。ここでの簡単な説明が気に入っています。ここでデフォルト、以前の作業、そして最高品質の彼らのモデルが見えます。このキャッシュブレンドは本当に素晴らしいです。

セマンティックキャッシュについては、個人的に本当に気に入っている出版物は1つだけあると思います。UC Berkeley、Stanford大学、清華大学のものです。これはセマンティックキャッシュがセマンティックに類似した人間のプロンプトに対してキャッシュされたLLM生成応答を返し、OpenAIやMicrosoftが私たちのクエリを実行するための推論遅延とコストを削減することについてです。なぜなら他の10,000人がすでに尋ねたのと同じことを尋ねているからです。

Stanford大学の新しいアプローチの詳細分析

しかし、新しいものに焦点を当てましょう。これはStanford大学で、彼らは「私たちの主要な洞察は、計画段階で、LLM計算コストの大部分がしばしば繰り返され、しばしば修正され、そして将来のリクエストで本当に再利用されるかということです」と言っています。

彼らは「これを最適化できないでしょうか?これは美しいことではないでしょうか?」と言いました。エージェントが特定の構成内で特定の時間枠内で特定のデータ可用性で特定のワークフローの実行を完了する場合、Stanford大学は「エージェント実行ログから構造化計画テンプレートを抽出します。これは多かれ少なかれ私たちの推論経路になるでしょう」と言います。

そして、これは今絶対に魅力的で、これを読んで微笑まずにはいられませんでした。キーワード抽出を使用してクエリの最も重要なセマンティックターゲットを特定し、最も関連性の高い計画テンプレートを取得するためにキャッシュと照合します

突然、私たちはテンプレートを使用していた時代に戻りました。100年前にテンプレートを使用していたことを覚えていますか?LangChainが私の最初のテンプレート使用の1つでした。とても興味深いです。

そして彼らは「私たちのアプローチは、エージェンティックアプリケーションにとって最適ではないと判明したクエリベースのキャッシュルックアップを回避することで、セマンティックキャッシングとは異なります」と言います。なんと興味深い情報でしょう。

今度はキーワード抽出で行き、彼らは別の利益があると言います。それは隠れた利益ですが、財政的利益です。マルチエージェントシステムの推論テンプレートであるエージェントテンプレートが本当に完璧ではないために追加の計画が必要な場合、少し修正する必要があり、彼らは「OpenAIの巨大なLLM、4つまたは5つのモデルではなく、軽量な6億の自由に訓練可能なパラメータを使用して、キャッシュされた構造化計画テンプレートを少し修正に適応させます」と言います。

細かい部分だけですが、高価な言語モデルを使用するのではなく、微笑まずにはいられませんでした。この巨大なLLMに問題があり、優れたパフォーマンスを持っているが、小さくなればなるほど、軽量モデルになればなるほど、OpenAIやMicrosoft、その他がそれらのモデルを実行するのに安価になることを想像してください。

複雑性レベルと計画テンプレートの生成

軽量モデルは、異なる複雑性レベルを解決する能力で差別化されます。巨大なモデルは複雑性レベルA、B、Cに問題がなく、すべてを突破します。小さなLLMは、その推論と拡張能力において、より低い複雑レベルまたは中程度の複雑レベルに制限される可能性があります。

しかし、突然ここに高い複雑性レベルを理解する必要があるキャッシュされた構造化計画テンプレートがあり、それは巨大なモデルによって生成されたか、生成されたものであるなら、構造化計画テンプレートの生成に知性があるが、非常に小さなLLMでも解決して利用できるほど簡単に書かれているように、適切なバランスを取ることに本当に注意しなければなりません。

彼らは「これを評価しました。信じられないことに、平均46.62%のコストを削減し、最適精度の96.67%を維持します」と言います。一般的なLLMに対して2桁の絶対的な完璧性と専門性と精度を得ると、いつも驚かされます。ここにあります。

Stanford大学は「簡単です。人間のクエリがあり、キーワードがあります。そしてLLMはAIが私の愚かな人間のプロンプトから抽出したこの特定のキーワードを探し、『キャッシュを見て、計画のソリューションテンプレートを見つけられるかもしれません。そうすればMicrosoft上で少し実行している計画プロセスを開始する必要がありません』と言います」と言います。

キャッシュヒットとキャッシュミスのプロセス

キャッシュヒットがあるか、「はい、クラウドでテンプレートを見つけました。美しい、持っています」と言うなら、自動的により小さなLLM、より安いLLM、能力の低いLLMに切り替えますが、大丈夫です。テンプレートがあります。計画の立て方を一生懸命考える必要はありません。キャッシュからコピーするだけです。

そして、アクターLLMがあり、レスポンスがあり、レスポンスは小さなLLMによって評価される可能性があります。美しく、出力があり、タスクは解決されます。

しかし、キャッシュで人間のクエリに適合するキーワードまたはテンプレートを見つけられない状況がある場合、キャッシュミスがあります。Stanford大学は「問題ありません。今度は大物を開始しなければなりません。大規模で巨大なLLMです。今度は計画を自分で生成しなければなりません」と言います。

計画が生成され、アクターLLMがこれを見て、レスポンスを分析し、これは価値があるかどうか評価します。そうでなければループに入りますが、ある時点で「素晴らしい出力です。はい、検証します。はい、美しい実行成功率チェックができます」と言います。

そして、システムがやってきて「ちょっと待って。テストタイム計算の後、今あなたのログを見て、キャッシュヒットがまだなかった非常に複雑だったこの特定のクエリに対して、後で使用するための計画テンプレートを作成します」と言います。

計画テンプレートの精製と一般化

クエリ、計画、レスポンス、出力があります。美しい。私たちはフィルタリングし、この特定のクエリのキーワードを見つけます。ここでキーワードは「運転資本比率」で、テンプレートがあります。もちろん、このテンプレートを少しクリーンアップしなければなりません。なぜなら個人情報があったり、詳細に関する重要な情報があったり、関連のない詳細があったりする可能性があるからです。クリーンアップしなければならず、これはAIによって行われます。

美しい。そして、会社の名前や数値、収益数字などがある場合、これを排除し、非常に一般化されたテンプレート、キャッシュで見つけることができる関連キーワードを持つ計画テンプレートを空で生産しなければなりません。

Stanfordは「この計画テンプレートをクリーンアップすることが本当に必要でしょうか?マルチエージェントLLMの実行ログをそのまま与えるとどうなるでしょうか?」と言いました。そして、Llama 3.28Bのような小さな言語モデルがある場合、大きなモデルからの出力ログを理解できないことがわかりました。

まず長いコンテキスト形式を処理するのに苦労し、次にフィルタリングされていないエージェント実行ログは私たちの小さなLLMにとって単純に多すぎます。そのため、複雑さを減らし、利用可能なデータを減らし、トークンコンテキストウィンドウを減らし、下に下に下に下がって、そうすればLlama 3.28Bが次のタスク実行のためにこの美しい計画テンプレートを利用できるようになります。

キーワードベースの検索とコスト分析

個人的に興味深いと思ったのは、彼らが類似性キャッシュ検索を使用しなかったことです。これは私たちが期待することだからです。Googleの非常に古い時代、キーワードベースのキャッシュがあり、次にネットワークキャッシュなどがありました。キーワードベースのキャッシュ検索を後にすることを期待していましたが、Stanfordは「見てください。分析した結果、他のすべてのモデルには私たちのクエリベースよりも偽陽性または偽陰性率がありました」と言います。

興味深いことに、キーワードベースのキャッシュ検索が今やゲームのルールです。そのため、一般化のために適切なキーワードを見つけることに極めて注意しなければなりません。

美しいと思ったのは、彼らがリソースを提供してくれることです。「ファイナンスベンチマークまたは他のベンチマークで最悪のケースに行きましょう。総コストが4ドル何かだとしましょう。これがコストの100%です」と言います。

そして彼らは「OpenAIがコストを節約し、利益を増やすのをどれくらい手伝えるでしょうか?なぜならコンシューマーに価格の利益を与えることができるかわからないからです。おそらく彼らは単に『ああ、それは利益だ』と言うでしょう」と言います。

大規模プランナー言語モデルについて、キャッシュミスがあり、回答の実行ではなく、計画のための巨大な05システムという大物を開始しなければならない場合、全体コストの97%かかると言います。これは驚くべきことです。

そして、この計画を実際に実行するアクターLLMについては、100%のうち1.3%しか支払う必要がありません。「しかし、このキャッシュオーバーヘッドが必要でしょう?」と言うかもしれません。最悪の場合、多かれ少なかれ解決策を見つけられませんが、キャッシュでこの検索が必要です。これは約1%かかり、実際にはそこにないので、0.1%と、この新しく発見された手法のキャッシュ生成に1%かかり、キャッシュに統合されます。

ソリューションキャッシュコンテナの商業的可能性

解決策を見つける方法の計画、LLMまたはエージェントのため、そしてこのエージェントのコアとしてのLLMは、単純に支配的な部分です。これは最悪のケースです。平均を求めると94%ですが、大規模プランナーがここで最もコスト高な部分であることがわかります。これを削減できるなら、はい、これです。

そこで私は自分自身に考えました。これは今私自身の考えで、Stanfordのものではありませんが、いつそれらのソリューションキャッシュコンテナが企業によって販売されるのでしょうか?すべての異なる企業からすべての異なるドメインに最適化されたベクトル空間を購入できます。

しかし、進化の次のステップとして計画キャッシュテンプレートがある場合、これが私のソリューションキャッシュです。家でローカルで小さな言語モデルを実行し、家での特定の問題に対してこれが進むべき最良の計画だと教えてくれるクラウドベースのソリューションキャッシュへのアクセスに対してお金を払うだけと想像してください。

複雑な問題に対する美しく注意深いエージェンティックソリューションがすべてソリューションケース内にあり、クラウドのどこかにある巨大な企業AIシステムによって発見されました。美しい。

ローカルAIとクラウドベースソリューションの組み合わ

Retry

SA

fdEdit

しかし、これは興味深いアプローチです。家や会社のどこかで大規模言語モデルをローカルで実行する必要はありませんが、単一エージェントまたはマルチエージェントシステムのソリューション発見、計画プロセスを本当にアウトソースするなら、すでにソリューションを見つけて、この前進の道筋を検証済みであれば、それをソリューションキャッシュに入れるだけです。これは多かれ少なかれAIソリューションが発見されたWikipediaのようなものです。

そうすれば小さなLLMでも実行できます。これはOpenAIのコストを削減するだけでなく、家庭でプライベートに使用する私のようなコンシューマーのコストも削減するでしょう。なぜなら、ローカルで巨大なLLMのためのコンピュータインフラストラクチャにお金を払う必要がないからです。普通のラップトップやノートブックで行けます。ローカルで小さなLLMを持ち、より少ないエネルギーを使用し、マルチエージェントシステム構成がクエリのソリューションを見つけるためにどのように進めばよいかというソリューションキャッシュからの美しいアイデアが必要なだけです。

これは絶対に魅力的だと思います。そして、これは商業部門について話すときのビジネスコンサルタントモードのようなものだと思います。あなたは小さな会社で、どこかに小さなLLMを持ち、ビジネス問題に遭遇します。今なら4大コンサルタントの一つを呼ぶでしょうが、今度は「世界中のすべての会社から、世界中のすべてのドメインから、私のビジネスセクターも含めて、世界中のすべてのビジネスソリューションがあるソリューションキャッシュコンテナがどこかにあるなら、小さなLLMを接続し、私の小さな会社を知っている小さなLLMに、ここで進む方法を見つけるための正しい計画をソリューションキャッシュで探してもらうだけです」と考えます。

良い。このAIは本当にビジネスコンサルタントモデルとして機能できるでしょう。開かれる可能性について絶対に魅力的です。しかし、可能性について話すと、より低い複雑性レベルですでに何かを持っていたことを覚えていますか?

DeepSeekのR1モデルとの類似性

DeepSeekがDeepSeek R1の蒸留版を発表し、AQ132Bモデルを使用したときのことを覚えていますか?情報は、671億モデルのDeepSeek R1から単一LLMのすべての推論トレースを抽出し、それらの推論トレースが私たちの小さなQ132Bの入力だったということでした。

そのため、単一LLMの推論パターン、推論シーケンスからの追加知性を期待して蒸留しましたが、今度は同じことを行いますが、単一LLMだけでなく、単一エージェントまたはマルチエージェント構成システムがあると言います。

特定のタスクに対して、1つのLLMの単一の線形推論シーケンスを蒸留するのではなく、Stanford大学がマルチエージェント構成でこの特定の問題を解決するための完全なパスを抽出します。

これは一種の自己相似問題であることがわかります。単一LLMからマルチエージェントシステムへの次の複雑性レベルに、このアイデアを適用するだけです。これは絶対に魅力的だと思います。

検証されたソリューションの価値と信頼性

StanfordやOpenAI、Microsoftからこのキャッシュソリューションコンテナを購入するとしたら、これが本当に検証されたソリューションであり、でたらめではないことを求めるでしょう。「中西部のどこかまたはヨーロッパのどこかの特定の工業セクターの小さなビジネスとして、これが本当に機能することをチームが保証してくれ」と言うでしょう。

私の小さなLLMで美しいマルチエージェントソリューションと美しいツール使用を見つけ、Microsoftクラウドのどこかで私の問題に対する最良で正しい方法であることが証明されているなら、絶対に興味深いことです。

ユーザーインターフェース、人間機械インターフェース、ビジネスインターフェース、さらには推論能力も、今私の小さなLLMからクラウドのどこかにあるベストソリューションコンテナキャッシュにアウトソースされています。私は自分のLLMのキャッシュにそれらのものをロードするだけです。

絶対に魅力的な時代です。楽しんでいただけたことを願います。購読者の方なら、次のビデオが素晴らしいものになることをご存知でしょう。購読者でない方には、さようならと言い、多くの美しいビデオを見逃すことになります。

コメント

タイトルとURLをコピーしました