エージェント型AIにおける外部ファイルを用いたメモリと、モデル内部の重みを更新するパラメトリックメモリの決定的な違いを解説する。現在のMarkdownベースのメモリは真の記憶ではなく単なる参照表に過ぎず、未知の組み合わせに対する汎化能力に限界があることを、最新の論文に基づき数学的な視点から論じている。

エージェントメモリとパラメトリックメモリの複雑さ
コミュニティの皆さん、お帰りなさい。今日はエージェント的なメモリの複雑さと、パラメトリックメモリについてお話ししましょう。現在、私たちはあらゆるものをMarkdownファイルに保存していますよね。あらゆるスキル、あらゆる魂、あらゆる物事に対して大量の指示をMarkdownに書き込み、それを理解させようとしています。そして、これらを集約するチャネルがあり、何らかの知能がこれらから意味を汲み取らなければなりません。それらを統合し、新しい知識をLLM自身のパラメトリックメモリとどのように融合させるかを真に理解する必要があります。
Googleによるナノバナナの例を見ると、これは本来人工ニューラルネットワークであるべきものです。OpenAIの画像生成モデルに同じテキストプロンプトを入力してみると、よりニューラルネットワークらしい結果が得られます。GoogleとOpenAIの比較が見て取れますね。では、私たちは今何を、なぜ議論しているのでしょうか。
2026年4月30日、中国の香港中文大学と、杭州にある新しい大学の著者たちが興味深い論文を発表しました。彼らが言うには、現在のAIシステムのコンテキストを用いたエージェントメモリは、単なるメモに過ぎず、真の記憶ではないというのです。全く違うものだと。私はこの論文が大好きです。数年前、私はコアとなるLLMがあり、その周りにRAGのパイプラインやグラフRAG、データベースクラスター、スーパーコンピューターなどを含むエージェントのハーネス領域があるという話をしました。今、私たちはスキルのMarkdownやメモリのMarkdown、魂のMarkdownといった、あらゆるMarkdownファイルを作成しています。しかし、なぜその知能をLLM本体に戻さないのでしょうか。この公式論文の著者たちは、これら美しいMarkdownファイルやフレームワークは、単なるルックアップテーブルに過ぎず、エージェントシステムのためのメモリでは決してないと断言しています。メモリとルックアップの明確な区別、そして知能がどこにあるのかという点が非常に重要です。
一般化のギャップと凍結された初心者の問題
著者たちは、現在の手法には明確な限界があると主張しています。エージェントはスキル1のMarkdown、スキル2、スキル15といった具合に、エピソード的な記録をどんどん蓄積していくことができます。しかし、それら15のアイデアの新しい組み合わせに直面すると、やはり失敗してしまいます。なぜなら、それらの経験を内部の推論構造、つまりトランスフォーマー内部のテンソル重みに統合していないからです。これらは単にMarkdownファイルとして、アクティベーションのコンテキスト内学習で行われたに過ぎません。私たちはAIシステムの、全く異なる2つの計算レベルについて話をしているのです。
論文によれば、現在のエージェントメモリシステムは、いわば日記のようなものです。AIは何かを学び、それを書き留めますが、それは今すぐ実行できる内部化されたスキルではありません。そのLLMをオフにした瞬間、それは失われてしまい、全く身についていないのです。だからこそ著者たちは、これを真の記憶ではなくメモと呼んでいるのです。この明確な区別を目にしたのは初めてです。
さらに話は深まっていきます。第一に、この現状によって一般化のギャップが生じていると彼らは論じています。検索によって保存されたケースを復元することはできますが、概念の真に新しい組み合わせに対して、新しい合成規則を確実に推論することはできないのです。
第二に、凍結された初心者の問題があります。LLMのテンソル重みが決して変わらないのであれば、昨日、今日、明日とセッションを重ねても、エージェントがより専門的になることはありません。電源を切るたびにMarkdownファイルに保存しなければならず、単にテキストによるコンテキスト情報を追加し続けるだけです。これではすぐに情報が溢れかえってしまいます。
第三に、セキュリティの問題も指摘されています。一度きりのプロンプトインジェクションが、長期的な検索メモリに書き込まれて将来のセッションに戻ってくると、永続的な脅威になってしまうのです。
コンテキスト内学習と重みベース学習の数学的違い
著者たちは、私たちが注目すべき2つの根本的に異なる経路を示しています。一つはコンテキスト内学習によってコンテキストを変えること、もう一つは真に学習し、それによってテンソル重みの構造を変化させることです。現在のほとんどのエージェントメモリシステムは、コンテキストを変えることしかしません。プロンプト、RAGシステム、スクラッチパッド、ベクトルストア、プーリング出力、スキルファイルなどです。これらは非常に美しく有用ですが、あくまでエピソード的で検索に基づいています。しかし私たちが関心を持っているのは、エージェント自身、LLM自身による真のスキル蓄積や規則の学習です。論文では、経験はエージェントの外部領域に保存されるだけでなく、LLM自体のテンソル重みに統合されなければならないと主張しています。
ここには興味深い要素があります。私たちは独自の独占的なモデルを使っているため、コンテキストの変更のみでメモリシステムを構成しています。GPT-5.5をトレーニングし直すことはできませんからね。アメリカ銀行のような大企業なら可能かもしれませんが、普通のプログラマーやコーダーがOpenAIに行って、私の個人データでGPT-5.5を微調整してくれとは言えません。そのため、プロプライエタリなモデルとオープンモデルの間に差が生じます。AnthropicからOpenAIに至るまで、世界のグローバル企業がコンテキストのみを変更するMarkdownベースのメモリシステムを強力に推進している理由がわかります。一方でオープンモデルであれば、教師あり微調整や強化学習を行い、本当に重みに統合することができます。しかし、GPT-5.5などはオープンではありません。
ここから得られる教訓は、最新のデータや事実、ツールの出力、可逆的な監査可能性など、検索が得意なことには検索を利用するということです。しかし、それを学習と混同してはいけません。著者たちのこの主張は非常に明確で、私は好感を持っています。もしあなたが、時間の経過とともに向上し、自己学習、自己内省、自己改善を続けるエージェントを設計しているのであれば、メモリストアにある美しいMarkdownファイル群からモデルの重みへと、明示的な統合チャネルを追加すべきだと論文は示唆しています。トレーニングをテンソルと重みの構造自体に持ち込む必要があるのです。
合成的な汎化能力におけるサンプル複雑性の分離
では、どのようにそれを行うのでしょうか。定期的な微調整、LoRAアダプターを用いた低ランク適応、知識編集、自己蒸留、あるいは小規模なオープンモデルの使用、リハーサル、その他の継続学習スタイルのアップデートなど、多くの手法が利用可能です。著者たちは、現在のベンチマーク、特に再現率のベンチマークは、エージェントが古い情報を検索できるかどうかを測定するだけで、そこから学習したかどうかは測定していないと指摘しています。
彼らは新しいアイデアを提案しています。古いベンチマークはもはやエージェントには十分ではありません。必要なのは、時間の経過に伴う合成的な汎化能力のようなものです。つまり、多くのセッションを通じてエージェントに概念を個別に提示し、後でそれらの概念の新しい組み合わせに対して改善が見られるかどうかをテストするのです。これは現在のエージェントが行っている単なるメモリの呼び出しよりも、はるかに強力な学習のテストになります。
彼らは現在、2つのシステムを形式的に分離しています。一つは検索ベースのメモリで、保存されたデータと凍結されたモデル、例えば凍結されたGPT-5.5を使い、プロンプトベースのコンテキスト内学習で例を検索するものです。もう一方は、内部的なパラメトリック学習で、手元にあるQwen 3.6のような小規模でオープンなモデルを使い、実際にトレーニングやポストトレーニングを行うものです。同じデータを使いますが、オープンなLLM自身の更新された重みテンソルに統合され、学習されます。Markdownファイルの検索ベースメモリと、LLMのニューラルネットワークの深部にある真のパラメトリックメモリの違いです。
ここで疑問が生じます。エージェントが合成の例をN個見たとき、未知の組み合わせに対してうまく一般化するには、いくつの例が必要でしょうか。著者たちが導き出した主要な定理は、合成的なサンプル複雑性の分離です。これは非常に単純な話です。検索の場合、コンテキスト内学習のデータストアに明示的に含まれていない新しいペアは、凍結されたモデルのコンテキスト内能力に依存しますが、どのような仮定の下でも完璧には程遠い限界があります。
つまり、コンテキスト内学習で100や1000の組み合わせをプロンプトに明示的に書き込んだとしても、次に遭遇するタスクがプロンプトにない別の手法であった場合、失敗する可能性があるということです。凍結されたモデルが、これは他の例からのわずかな逸脱だと理解して解決できる可能性もわずかにありますが、一般的に、検索はコンテキスト内学習で例を一つずつカバーするため、高い合成的汎化を達成するには、実質的にすべての関連する可能な組み合わせのペアを網羅する必要があります。もし無限に組み合わせられる2つのセットがあるなら、コンテキストウィンドウのすべてを例だけで埋め尽くさなければ、パターン認識ができなくなってしまいます。
情報圧縮としての学習とスキルの内部化
パラメトリック学習の場合は話が全く異なります。論文ではモジュラ算術タスクの例が挙げられています。そのタスクでは、ラベル付きの例が一つあれば未知の定数を即座に特定でき、パラメトリックシステムは非常に少ないデータで広く一般化することができます。規則を理解するからです。一方で検索ベースのMarkdownファイルは、依然としてすべての合成例を明示的に保存する必要があります。なぜなら、コンテキスト内学習はアクティベーションに基づいているのに対し、パラメトリック学習やポストトレーニングは重みに基づいているからです。テンソルの中で、2つの異なる数学的演算が行われているのです。
100個のデジタル文書やMarkdownファイル、エージェントメモリ、RAGシステムにあるものを、何らかの統合チャネルを通じてニューラルネットワークにエンコードしなければなりません。パターン認識を伴うコンテキスト内学習で行くか、あるいは重みの更新を伴うポストトレーニング、つまり教師あり微調整や強化学習、蒸留などで行くかです。これらすべてのMarkdownファイルを、ニューラルネットワークのシナプスやパターン認識の発火システムという首尾一貫した表現にどのように落とし込むかは、実に魅力的なテーマです。
マルチホップ推論においても異なる限界値があり、当然ながらパラメトリックな知識に統合する方が優れています。詳細は論文にありますが、主要な洞察は、エピソードメモリであるMarkdownファイルと学習されたメモリは、互いに交換可能なものではないということです。Markdownファイルの検索は経験を保存し再現することはできますが、それ自体が真の合成的汎化に必要な抽象的な規則構造をニューラルネットワーク内に作り出すわけではありません。Markdownファイルだけでは、そこでの一般化は失敗するのです。
著者たちはこの主張を定理として強化し、LLMやエージェントが遭遇する合成的な新しいタスクにおいて、検索は重みベースの学習よりも高いサンプル複雑性の負担を負い、その負担は概念の数が増えるにつれて急激に増大すると述べています。
小規模なオープンモデルが大規模モデルを凌駕する可能性
私たちは今、再びエージェントのハーネスに頼るのではなく、知能をLLMの中心に戻そうとする状況にいます。パラメトリックな知識、つまり重みテンソルの更新によって、新しいパターンや規則を学習させたいのです。100や1000の例があれば、それを学習します。例えば代数を学べば、適切な継続トレーニングデータセットがあれば、ほぼすべての代数的な複雑さを解決できるようになります。コンテキスト内学習であれば、パターン認識のために可能な限りの例を提示しなければなりません。
要するに、スキルのMarkdownファイルは構造化された指示の羅列であり、非常に美しいものです。それをモデルのコンテキストに注入し、推論時に凍結されたGPTシステムなどの固定された関数によって解釈されます。エージェントの振る舞いは、入力とスキルファイルのコンテキストに基づいた、単なる出力関数に過ぎません。つまり、スキルはLLM内のテキスト条件として存在しているのであって、テンソル重みの内部化された計算として存在しているわけではありません。数学的には全く異なる空間にいるのです。スキルファイルは手順や意思決定ツリー、ツールの使用手順などをエンコードでき、有能さをシミュレートすることは可能です。
しかし、これが機能するのは、現代の巨大なLLMが非常に優れたパターン認識の実行者だからです。指示に非常にうまく従うことができます。しかし科学的に分析すれば、それはプログラムの解釈やコンパイラに近いものであり、ニューラルネットワークによるスキルの習得ではありません。
テンプレートも同様で、特定の表現クラスに縛られたケースベースのものです。しかしAIの真の学習は、抽象的な関数をエンコードし、それを未知のケース、例えばあらゆる代数のクラスに適用します。これは規則に基づいています。ニューラルネットワークにエンコードされた抽象化があるのです。テンプレートは特定の表現に基づいた個別のケースしか持ち得ません。
例えば100の概念やスキルがあり、それらを組み合わせたいとしましょう。スキル11とスキル35、スキル117を組み合わせる。システムがあらゆる組み合わせを理解できるようにしたい。しかし、1万通りのテキストの組み合わせをエージェントのコンテキストウィンドウに入れることはできません。スキルのMarkdownは多くの組み合わせを明示的にエンコードしなければ、未知のものに対して失敗します。これが著者たちの言うカバレッジ問題です。
結論としてのハイブリッドなアプローチ
著者たちは学習を、トランスフォーマーアーキテクチャ自体のテンソル重みへの情報圧縮であると定義しています。Markdownファイルは知識を低圧縮なテキスト形式で保存し、実行のたびに再解析が必要で、コンテキストウィンドウをすぐに占有してしまいます。一方で重みは、知識を高度に圧縮された形でニューラルネットワークに保存します。これにより、高速で柔軟な再利用が可能になります。スイッチを入れればそこにあるのです。これが経験圧縮スペクトラムと呼ばれるものです。
学習が必要になるのは、新しい組み合わせが登場するからです。重みの更新があれば、これまでに見たことのない2つのスキルを組み合わせて、隠れた規則を推論することが可能になります。コンテキスト内学習では明示されていないパターンを発見できるのです。効率が重要なら、トレーニングされたLLMの方が有利です。
ただし、はっきりさせておきたいのは、もしあなたの世界が完全に固定されており、新しい知識も現れず、すべてが列挙可能で変化がないのであれば、重みの学習は必要ありません。その場合はコンテキスト内学習ですべてのデータを提供すればよく、システムはすでにすべてのパターンの複雑さを学習済みだからです。しかし、そこを超えて新しさや、推論の複雑さにおける合成、モデルの堅牢性、あるいは複雑さが増大したときのスケーリングを求めるなら、テンプレートやMarkdownファイルだけでは不十分になり、重みベースの学習が必要不可欠になります。
動画の最後に、私のGPTシステムと少し議論した内容を紹介しましょう。私はGPTに、もしそうなら小規模なオープンソースのAIモデルの方が、継続的に微調整や学習ができるから優れているのではないか、変更できない独自の閉鎖的なGPTシステムはいらないのではないかと言ってみました。するとGPTは即座に、この論文は素晴らしいし未来だ、と答えましたが、私がGPTはもう必要ないのではないかと考えた瞬間、少し論調を変えてきました。
GPTは、大規模モデルもプレトレーニング中に当然多くの合成規則を暗黙的に学習していると言いました。GPT-5.5のような巨大なモデルでは、多くの規則がすでに学習済みであり、スキルのMarkdownファイルは単にニューラルネットワーク内で眠っているパターンを活性化させているだけなのだと。つまり、実際には単なるルックアップシステムではないという主張です。
しかし、私の考えが正しい領域もあると認めてくれました。特定の進化し続ける専門分野、例えば科学の世界では毎日1000以上の新しい論文が出ますが、これらはプレトレーニングではカバーしきれません。その場合、小規模なモデルで継続的に学習させれば、特定の構造を蓄積して非常に効率的になり、プロンプトしか使えない大規模なGPTを凌駕することさえあるというのです。なぜなら、一介のユーザーである私にはGPT-5.5の微調整は不可能だからです。
最終的な勝利のセットアップは、もちろん大規模なモデルと学習、そしてメモリ構造を組み合わせたものです。小規模なモデルを継続的に更新することで、プレトレーニングに含まれていない新しいドメイン固有の知識を蓄積する必要があるタスクにおいて、コンテキストベースのメモリだけに頼る大規模モデルを上回ることができる、というのが科学的に正しい定式化です。
例えば社内プロセスの処理において、大規模なLLMがスキルファイルに頼ってエッジケースに苦戦し、重みを変更できないために向上しない一方で、ローカルにある小規模なオープンソースモデルは実際のやり取りから微調整を行い、パターンをニューラルネットワーク自体に内部化できます。これにより、テキストベースの制限を超えて、より一貫性のある高速な処理が可能になります。
最後に一つ。教師あり微調整や強化学習には、数千、数万ページの膨大なトレーニングデータが必要ですが、それによって重みが更新され一般化が可能になります。コンテキスト内学習も多くの例を必要とし、組み合わせの問題が増えれば、すべての要素をプロンプトに書き込まなければなりませんが、運が悪ければプロンプトにない組み合わせで失敗します。これら2つの手法は同等ではありません。情報の内部的な表現方法、トランスフォーマーの層での計算方法が根本的に異なります。
常に小規模な学習済みモデルが大規模モデルより優れているわけではありません。しかし、学習を伴う小規模モデルは、学習した特定のドメイン内においてのみ、学習を行わない大規模モデルを超えることができます。GPTは依然として地球上のあらゆる人々にとって最高の汎用ツールですが、特定のドメインで深みを求めるなら、この新しい洞察を試してみる価値はあります。
皆さんも、お好みのAIシステムとこれらのトピックについて議論して楽しんでみてください。新しい洞察が得られることを願っています。それでは、次の動画でお会いしましょう。


コメント