AIのメモリウォール:コンピュートが6万倍成長したのにメモリがわずか100倍の理由(そして私の8つの解決原則)

AIシステムにおけるメモリ問題は、コンピュート性能が6万倍に向上する一方でメモリ性能は100倍にとどまるという「メモリウォール」によって深刻化している。AIシステムは本質的にステートレスな設計であるが、実用的な知能には状態の保持が不可欠である。現在のベンダーが提供するメモリ機能は、関連性判断の困難さ、永続性と精度のトレードオフ、単一コンテキストウィンドウの限界、ポータビリティの欠如、受動的蓄積の誤謬、そして異なる種類のメモリを混同するという6つの根本的課題に直面している。これらの課題を克服するためには、メモリをアーキテクチャとして設計し、ライフサイクルによる分離、クエリパターンに応じたストレージ、モード認識、ポータビリティ、キュレーションとしての圧縮、検証を伴う検索、そして構造化による複利効果という8つの原則に従う必要がある。個人ユーザーからエンタープライズシステムまで、これらの原則はフラクタルに適用可能であり、早期に適切なメモリ構造を構築することが長期的なAI活用における競争優位性をもたらすのである。

AI's Memory Wall: Why Compute Grew 60,000x But Memory Only 100x (PLUS My 8 Principles to Fix)

My site: Story:

AIシステムにおける深刻化するメモリ問題
メモリ問題を解決するための8つの原則

AIシステムにおける深刻化するメモリ問題

メモリはおそらくAIにおける最大の未解決問題であり、そしてこれはAIにおいて悪化の一途を辿っている唯一の問題の一つなんです。私たちが知能においてどんどん優れていくにつれて、相対的に見てメモリに関しては悪化しているわけです。実際、モデル製作者のコミュニティではこれに名前がついていて、メモリウォールと呼ばれています。

私たちはメモリシステムのハードウェアチップ機能を、それらのチップが推論を行ったり単語を計算したりLLM推論を実行したりする能力を改善しているのとほぼ同じ速さでは改善できていないんです。これによって私たちの知能能力とメモリ能力の間に広がるギャップが生まれているわけです。心配しないでください、ハードウェアレベルにそんなに長く留まるつもりはありませんから。

私が皆さんと一緒に見ていきたいのは、構築者として、AIのユーザーとして、AIシステムの設計者として私たちが目にする核心的な問題です。私たちが経験するメモリ問題の根本は何なのか。もし私たちがシステム設計レベルにいるなら、使用レベルにいるなら、あるいはChatGPTを使っているだけだとしても、なぜメモリ問題はこれほど粘着性が高くて解きほぐすのが難しいのか。なぜ市場でより良いソリューションを見ることができていないのか。私はこれには正当な理由があると思います。

そしてこれらの根本原因を見ていった後、どうやって解決し始めることができるでしょうか。ユーザーとしてどう考えればいいのか。構築者としてどう考えればいいのか。ですから、私は5つの根本原因を説明していき、それから視点を切り替えて解決策を構築するための8つの原則を説明していきます。なぜなら私は皆さんにこれを見終わって、実際により良いメモリシステムを設計できるという力を感じてほしいからです。

シリコンバレーの誰かがピッチを作って資金調達するのを待ち続けてほしくないんです。皆さん自身でここで自分のソリューションを設計できるんです。ですからこの会話全体を通じて心に留めておくべき重要なことは、AIシステムは設計上ステートレスですが、有用な知能には状態が必要だということです。つまり、すべての会話はステートレスで、ゼロから始まるということです。

モデルにはパラメトリック知識があります。これはモデルについて話すときの重みのことですね。でもエピソード記憶は持っていません。あなたに何が起こったかを覚えていないんです。申し訳ないですが、ChatGPTが今持っている10文か11文程度の、あるいは非常に情報欠損の多いメモリ、またはClaudeが今持っている会話を検索する能力は、それには十分ではありません。

毎回毎回コンテキストを再構築しなければならないんです。これは実はバグではありません。意図的なアーキテクチャなんです。ステートレスのための設計なんです。なぜならモデル製作者はモデルが次の問題、目の前の問題を解決するのに最大限有用であることを望んでいるからです。そして彼らは状態が重要だと前提できないんです。常に重要というわけではありませんから。

ですからメモリ機能の約束は、ベンダーが皆さんにとって有用な方法でシステムをステートフルにすることによって、これを魔法のように解決できるだろうというものです。しかしこれは全く新しい一連の問題を生み出します。なぜならステートフルネスは私たち全員にとって同じではないからです。何を覚えるべきなのか。それは受動的な蓄積なのか、能動的なキュレーションなのか。どれくらいの期間覚えるべきなのか。永続的に続くのか、陳腐化することはあるのか。30日後に消えるのか。いつ検索するのか。Claudeがやっているように関連性がある時に検索するのか。常に検索してコンテキストウィンドウでノイズになる可能性があるのか。どうやって更新するのか。

これはLLMにおける最大の問題の一つです。人々は自分のwikiを検索拡張生成システムに入れると私に言うんですが、私は「最後にwikiを更新したのはいつですか」と聞くんです。更新されていなければ、どうやって上書きするんですか。どうやってデータを追加するんですか。どうやってデータを変更するんですか。これらは実装の詳細ではありません。

これらは私たちが仕事をする際のメモリとは何か、そしてその目的についての根本的な質問なんです。メモリが重要なのは、私たち人間はステートレスなブレインストーミング、つまり過去のメモリをあまり使う必要のないワイルドなものと、非常にステートフルな作業の間を素早く流動的に交渉できるからです。LLMはそれが得意ではありません。

そのコンテキストをロードするのは今のところ非常に非常に難しいんです。では、なぜこれがこれほど持続しているのでしょうか。約束が実現するのが難しいということについては少し話しましたが、ベンダーにとってこれを難しくしている根本原因は何でしょうか。第一に、関連性の問題は最も手に負えない未解決問題の一つです。実際に何が関連しているかは、あなたが行っているタスクに基づいて変わるんです。

計画を立てているのか、実行しているのか。作業のフェーズです。ただ探索しているだけなのか、作業を洗練させているのか。関わっているスコープです、よね。個人的なものなのか、プロジェクトなのか。私はヘルスケア業界にいる人を知っています。そして彼らは非常に注意しなければなりません。なぜなら、もし彼らが健康アドバイスを求めたら、ChatGPT内のメモリ検索が仕事関係のものを引っ張ってきてしまうからです。そして彼らは同じコンテキスト内で仕事のことを引っ張ると、個人的な健康データが漏れるのではないかと恐れています。すべて健康データのように見えるでしょうから。ですからスコープが重要なんです。

前回話した時から何が変わったのか。これを私たちは状態デルタと呼びます。もし戻ってきて「これは新しいバージョンです」と言った時、本当に新しいバージョンだと理解しているのか、していないのか。検索拡張生成が依存するセマンティック類似性は、単なる代理指標です。

それは関連性の代理指標です。真の解決策ではありません。類似した文書を見つけることは、Xを決定した文書を見つける必要があるまでは機能します、それは非常に具体的です。あるいは今はクライアントAについてのすべてを無視してほしいけれど、クライアントB、C、Dには注意を払ってほしい。あるいは10月12日以降に決定したことだけに注意を払ってほしい。

これらはすべて私たち人間が理解して、手動で情報を検索する時に実行できることです。しかしセマンティック検索を使うAIは、それがその仕事に適したツールではないんです。関連性のための一般的なアルゴリズムは存在しません。AIが依存できる魔法の関連性解決策はないんです。

タスクコンテキストについて人間の判断を使う必要があります。そしてそれは特定のメモリタスクを達成するための非常に複雑なアーキテクチャを必要とするということです。単にRAGメモリシステムでより良い埋め込みを使うだけではないんです。そしてちなみに、これがこれらのようなワンストップショップのベンダーが実際の実装で苦労することが多い大きな理由の一つです。第二に、永続性と精度のトレードオフはメモリシステムにおける大きな問題です。

すべてを保存すると、検索が非常にノイジーになり、非常に高価になります。コンテキストウィンドウを詰め込むことになります。選択的に保存すると、後で必要になる情報を失うことになります。システムに何を保持するかを決めさせると、システムはしばしば求めていないものを最適化します。おそらく新しさを最適化するかもしれません。

おそらく頻度を最適化するかもしれません。実際の重要性ではなく統計的な顕著性を最適化するかもしれません。統計的顕著性が何かと疑問に思っているなら、ChatGPTやClaudeやGeminiが書いているものの中で間違ったことを強調しているという事実について議論しようとしたことはありますか。それが顕著性です。顕著性の欠陥なんです。

人間のメモリは実際、おかしなことに、忘却という技術を通じてこれが非常に得意です。私たちは感情的で重要性による重み付けを伴う信じられないほど情報欠損の多い圧縮を使っています。それで実際に人間のメモリについての研究が行われています。そして練習によって特定のことを思い出すのがどんどん上手になれることがわかっています。

でももし自分に起こったことを思い出さないことを選んだら、単にそれを失うだけなんです。そして興味深いのは、それが私たちにとってデータベースキーの問題のようだということです。コメントの中に神経科学者がいて、正当に私を批判するだろうことは認識しています。でも私の読んだことの理解では、メモリを検索するためにデータベースキーに相当するものを覚えていなければならないということです。

そしてそれができれば、メモリは再びアクセス可能になります。しかし人間における短期記憶というのは、言わば非常に情報欠損が多いんです。だから意図を持ってそれらを持続させることができなければ、データベースキーを失うんです。それらを覚えようと意図しなければ。そして根本的にこれが、幼少期の記憶が非常にアクセスしやすい理由なんです。

でも先週の木曜日に何が起こったか。座ってこう思うわけです、外食したっけ、しなかったっけ。どの日に映画に行ったっけ。ですよね。これはあなたが記憶に関する深刻な問題を抱えているからではありません。あなたの脳が必死に情報を圧縮してあなたにとって有用にしようとしていて、それらのデータベースキーを捨てたからなんです。

そして思い出そうと努力する時、文字通りメモリを取り戻すためにデータベースキーを検索しているんです。忘却は私たちにとって有用な技術です。それがそのポイントなんです。AIシステムにはそのようなものは一切ありません。蓄積するか削除するかのどちらかですが、減衰はしません。そして私が「映画に行ったっけ。ああ、そうだ、映画だった。あのキャラクターは誰だったっけ。ああ、今キーを回復していて取り戻せる」と言っている時に話しているのはそのことです。

メモリはメモリキーの中で情報欠損の多い近似値に減衰していますが、努力を注げば回復できるんです。それを取り戻すことができます。私たちはAIにそのようなものを何も持っていません。それは独特に人間的な技術であり、おかしなことですが、メモリについて話す時には忘却を技術として考えなければならないんです。

第三に、単一コンテキストウィンドウの仮定です。ベンダーはしばしばコンテキストウィンドウを大きくすることでメモリを解決しようとします。しかしボリュームは問題ではありません。構造が問題なんです。100万トークンのコンテキストウィンドウは、整理されていないコンテキストでいっぱいなら使用可能な100万トークンのコンテキストウィンドウではありません。それは厳密にキュレーションされた1万トークンよりも悪いです。

モデルはまだ何が重要かを見つけ、関連性を解析し、ノイズを無視しなければなりません。コンテキストウィンドウを拡張することで問題を解決したわけではありません。単に問題をより高価にしただけです。場合によってはかなり高価になります。呼び出しを行って予算を組まない人を知っています。そして彼らは「なぜAPIの請求が高いんだろう」と言うんです。私は「あなたのAPIの請求が高いのはコンテキストウィンドウを詰め込んでいて、それに対してクエリを投げているだけだからです」と言います。

うまく機能しないし、非常に高価でもあります。本当の解決策は、異なるライフサイクルと検索パターンを持つ複数のコンテキストストリームを必要とします。難しいんです。設計しなければなりません。それは単にAIと話すという心的モデルを壊します。だからワンサイズフィッツオールの解決策は存在しないんです。問題その4はポータビリティの問題です。

すべてのベンダーは独自のメモリレイヤーを構築します。なぜなら彼らはピッチデッキの中でメモリが堀だと考えているからです。わかります。ピッチデッキ上では意味があります。ChatGPTメモリ、Claudeリコール、Cursorメモリバンク。これらは本質的に相互運用可能ではありません。ユーザーは特定のシステムでメモリを構築するのに時間を投資します。

そしてモデル製作者はそれを気に入っています。なぜならそれがスイッチングコストを現実のものにして、ChatGPTが私について知っていることをClaudeに移植できず、メモリがロックインされてしまうからです。ここでの問題はコモンズの問題です。ベンダーとモデル製作者とツール構築者によるこの行動パターンは、ユーザーがメモリをツールに任せることを促し、適切なコンテキストライブラリを構築することを奨励しません。

そしてプロダクトデザインの観点からは理解できます。だって実際にプロダクトコンテキストライブラリを本当に構築するユーザーがどれだけいるでしょうか。でももしこれを再フレーミングして、ポータビリティがファーストクラスの問題だと言えば、ユーザーは本質的にマルチモデルであるべきなんです。私はそれがより関連性があると思います。そして消費者の観点からは、ChatGPTに8億人のユーザーがいるから気にしないかもしれません。

他のすべてを圧倒しています、など。一つは、それは完全には真実ではありません。なぜならGeminiは今5000万人に近づいていると思います、いや5億人です。でももう一つの理由は、ビジネスの観点からはマルチモデルでなければならないということです。シングルモデルであることは負債なんです。ですからビジネスメモリシステムを構築しているなら、ポータビリティの問題を解決しなければなりません。

そして問題は、特定のベンダーがそれを真にポータブルにするインセンティブを持っていないということです。彼らは自分たちに独自のものにしたいんです。そうすると同じボトルネックが発生しますが、今度はモデル製作者ほど資金が潤沢でないベンダーにいることになります。そして砂上の楼閣になるんです。

第五に、受動的蓄積の誤謬です。ほとんどのメモリ機能は、普通にAIを使えば何を覚えるべきかがわかると仮定しています。それがユーザーのデフォルトの心的モデルです。だからメモリ機能はその仮定を中心に構築されます。しかしこれは失敗します。なぜならシステムは好みと事実を区別できないからです。

プロジェクト固有のものと常緑のコンテキストを簡単に区別できません。それらが混同されるのをよく見ます。古い情報がいつ陳腐化したかを自動的に知ることができません。ChatGPTやClaudeやPerplexityが戻ってきて古いAIモデルについて今日アクティブであるかのように話すのを不思議に思ったことがあるなら、それは同じ問題です。古い情報がいつ陳腐化したかを判断できないんです。そして継続性を最適化します。

正確性を最適化しません。これは会話を続けることの問題です。有用なメモリは根本的に能動的なキュレーションを必要とします。何を保持し、何を更新し、何を捨てるかを決めなければなりません。そしてそれは仕事なんです。それでベンダーは受動的な解決策を約束します。なぜなら能動的なキュレーションはプロダクトとしてスケールしないと言われているからです。

私たちはその問題をより良くフレーミングすることから始めなければならないと思います。なぜなら受動的な蓄積もそれを解決しないことがわかっているからです。そしてこれは依然として大きな問題で、エンタープライズレベルで数十億ドルのコストがかかっており、個人的にも職業的にもユーザーにとって非常にフラストレーションがたまるものなんです。答えは答えがないとか、答えを偽装するということではありえません。

最後に、根本原因側の第六に、それから解決策に入ります。気分が良くなりますよ。メモリは実際には複数の問題です。そしてそれがこれが非常に難しい理由の一部なんです。その考えが伝わっているといいんですが、そうですよね。人々がAIメモリと言う時、実際に意味しているのは多くの好み、どのようにものごとをするのが好きかです。それは永続的なキーバリューかもしれません。事実を意味しているかもしれません。

特定のものやエンティティについて何が真実か。それは構造化できます、更新が必要かもしれません。知識を意味しているかもしれません、よね。ドメイン専門知識です。そしてそれはパラメトリックであり得ます、よね。重みに埋め込まれているかもしれませんが、そうでないかもしれません、その時どうするんですか。エピソード的であることもできます。だから会話的、時間的、一時的な知識であることもあります。手続き的であることもできます。

以前にこれを解決したことがあるか。ですよね。もしエピソード記憶が過去に議論したことだとすれば、手続き記憶は過去にこの問題をどう解決したかです。そしてそれらも異なるものです。だから手続き記憶には模範例があり、成功と失敗があります。すべてのメモリタイプは、ストレージの検索と更新パターンを扱うために異なるシステム設計を必要とします。

もしここで頭痛がしてきたと感じているなら、あなただけではありません。これが良い解決策がない理由です。そしてこれが次のセクションで解決のための原則をレイアウトしたい理由なんです。でもそれは問題について正直であることから始まります。この問題を一つの問題として扱うことは、本当の問題のどれも十分に解決できないことを保証します。

そしてそれがメモリがAIコミュニティで持続的な問題、実際にはますます悪化する問題である理由なんです。ベンダーは根本的にこれをインフラストラクチャの解決策として扱っていて、アーキテクチャの解決策としては扱っていません。だからより大きなウィンドウとより良い埋め込みとクロスチャット検索はスケールしますが、構造的には解決しません。

そしてユーザーは受動的な解決策を期待し続けています。率直に言って受動的な解決策を売り込まれているからです。ここには期待の問題があります。重要なことを覚えておいてというのは、機能すると期待できるものではありません。でも機能すると言われています。ですからもしメモリがアーキテクチャを必要とし、ユーザーが魔法を望んでいるなら、約束されているもの、提供されているもの、必要とされているものの間のギャップはかつてないほど大きくなっています。

メモリ問題を解決するための8つの原則

私たちにはチップレベルを超えて、システムの設計方法において独自のメモリウォールがあります。そして間違った問題を解決していたら、解決されることはないでしょう。ではこれらすべてを経て、メモリを正しく解決したいとしましょう。チャットを使っていて自宅でパワーユーザーで自分で何かを構築したい場合でも機能する原則を提供します。これは絶対にそのために機能しますから。あるいはより大規模なシステムを設計している場合でも機能します。なぜならメモリの原則はフラクタルだからです。問題が

フラクタルだからです。チャットで個人としてパワーユーザーである時と、エージェントシステムを設計している時に、同じ種類のメモリ問題があるんです。だから機能する原則があります。これは8つになります。落ち着いてください。楽しくなりますよ。第一に、メモリはアーキテクチャです。メモリはアーキテクチャです。機能ではありません。

ベンダーがこれを解決するのを待つことはできません。この考えは理解していただけると思います。ここであまり時間をかけません。すべてのツールはメモリ機能を持つでしょうが、ツールに任せると、彼らは異なるスライスを解決します。すべてのツールセット全体で機能する原則が必要です。そしてツールセット全体で機能するスタンドアロンとしてメモリをアーキテクトする必要があります。

原則その2、便利さではなくライフサイクルで分離すべきです。例えば、永続的であり得る個人的な好みを、一時的であり得るプロジェクトの事実から分離する必要があります。そしてそれらは一時的または会話的な状態であり得るセッション状態から分離されるべきです。異なるライフサイクル状態を混在させる、永続的なものと一時的なものと一時的なものを混在させると、メモリが壊れます。

規律はこれらをきれいに分けておくことにあります。そして繰り返しますが、これはチャットにいる場合でも機能します。エージェントシステムを設計している場合でも機能します。永続的な個人的好みがある場合、それは可能です。システムチャット更新のような非常に規律あるシステムと同じくらいシンプルで、ChatGPTのシステムルールとシステムプロンプトに入って、「これがあなたが私について知る必要があることです。これらが私の個人的な好みです」と言います。そしてモデル製作者はそれをより公開し始めています。なぜなら彼らはそれを望んでいるからです。でも適切な使い方を教えてくれません。そして私が人々が実際にその「自分について教えてください」をどう使っているかを観察すると、それは絶対に個人的な好みと一時的なものとプロジェクトの事実の混合です。なぜなら誰もより良い使い方を教えてくれなかったからです。

そしてエージェントシステムを設計している場合、より複雑になりますが、同じ関心の分離です。ここでの状況における永続的な事実は何か、プロジェクト固有の事実は何か、そしてセッション状態は何かを分離しなければなりません。原則その3、クエリパターンにストレージを合わせる必要があります。つまり複数のストアが必要になるということです。なぜなら異なる質問は異なる検索を必要とするからです。

私が提供したチャットの状況では、ChatGPTはシステムプロンプトのようなものであればメモリを検索でき、それをコンテキストウィンドウに呼び出すだけで超シンプルで、ほとんどの人にとってメモリとして考えることはないでしょうが、それがメモリなんです。エージェントシステムを設計している場合、それは例えば、私のスタイルは何か、これはある種の書き方のスタイルなのでキーバリューであり得ます、という違いを理解することです。

クライアントIDは何か、これは構造化データまたはリレーショナルデータであるべきです。どんな類似の仕事をしたか、これはセマンティックまたはベクトルストレージデータであり得ます。そして前回何をしたか、これはイベントログであるべきです。これらは4つの異なるタイプのデータですよね。キーバリューデータ、構造化データ、セマンティックデータ、イベントログがあります。

これらすべてを一つのストレージパターンで行おうとすると失敗します。そしてそれが人々が「データレイクがあってRAGになる予定です」と言う時、私が「なぜ。なぜRAGになるんですか。メモリの魔法の呪文のようにRAGという言葉が100回繰り返されるのを聞いたことがありますか。そんなふうには機能しません」と言う理由なんです。

ストレージをクエリパターンに合わせる必要があります。そうでなければ、単に非常に高価なデータダンプがあるだけです。原則その4、モード認識のあるコンテキストはボリュームを圧倒的に上回ります。だからより多くのコンテキストはより良いコンテキストではありません。計画の会話は幅を必要とします、代替案のためのスペースが必要です。比較対象のためのスペースが必要です。ブレインストーミングの会話は計画の会話に似ています。

範囲を広げられる必要があります。実行の会話。エージェント的状況における実行ワークフロー。それらは精度を必要とします。正確な制約が必要です。検索戦略はあなたのタスクタイプに合わせる必要があります。座ってただ自分に「よし、ブレインストーミングの会話をするぞ、そしてそれは信じられないほど正確になるだろう」と考えて、うまくいくことを望むだけではいけません。

これが私がプロンプティングについてこれほど多く話す理由です。効果的に、プロンプティングは何をしているのか。それはAIに適切なモードになれるようモード認識のあるコンテキストを与えているんです。そしてそれはチャットユーザーにとって超効果的です。でも推測してください。もしエージェントシステムを設計しているなら、これが実行環境であり、精度が重要で、精度で監査され評価されることをシステムが認識するように、モード認識をシステムにアーキテクトすることがあなたの責任なんです。

原則その5、ポータブルをファーストクラスオブジェクトとして構築する必要があります。ポータブルに構築し、プラットフォーム依存ではない必要があります。メモリレイヤーはベンダーの変更に耐える必要があります。ツールの変更に耐える必要があります。モデルの変更に耐える必要があります。もしChatGPTが価格を変更したら、もしClaudeが機能を追加したら、あなたのコンテキストライブラリは関係なく検索可能であるべきです。

そしてそれは今現在ほとんど誰も言えないことです。そしてそれをやっている人々は、エンタープライズレベルで非常に大規模なエージェントAIシステムを設計する傾向があります。でもこれは私たち全員が持ち歩くべき教訓です。ベストプラクティスだと思います。何か家に起こった場合に備えて、わからないですが何かが起こった時のために、ドアの隣に非常用バッグを置いておくようなものです。

別のAIとの生産的な会話をするために使える関連メモリを運ぶポータブルな何かを持っている必要があります。これに対する既製のソリューションがないことは完全に認めます。パワーユーザーでこれを正しく行うためにObsidianをメモ取りアプリとして設定する人々がいます。彼らはそれをAIに結びつけて、これを扱うポータブルでプラットフォーム非依存の方法になります。

Notionをこれに使う人々もいます。共通の特徴は、彼らがメモリが自分にとって正しく設定されることに執着していて、AIが正しく呼び出されるか正しく問い合わされて、重要なメモリの一部と関わらなければならないということです。それが私のスタイルは何かというキーバリューの部分であれ、一緒にどんな類似の仕事をしたかというセマンティック検索であれ。

良いデータ構造はそれを考慮します。原則その6、圧縮はキュレーションです。重要なことをAIが抽出することを期待して40ページをアップロードしないでください。人々がコンテキストウィンドウに過負荷をかけてレポートの分析を求める時、これをするのを見ます。圧縮作業をする必要があります。別のLLM呼び出しか、あなた自身の作業のどちらかで、要約を書き、重要な事実を特定し、制約を述べる必要があります。

ここに判断が存在します。そしてもしあなたがそれを委任しなければ、応答の精度とコンテキスト認識に満足するでしょう。メモリは私たち人間が仕事に触れる方法に結びついています。あなたの判断を増幅し拡大するためにAIを使う方法があります。40ページのデータから構造化された方法で情報を抽出するために正確なプロンプトを使うことができ、それから別の種類の作業でそのデータをどうするかを決めることができます。

しかし事実が正しいこと、制約が現実的であること、そしてそのデータで求めているAIにやってもらう精度作業が正しい精度作業であることを確認するのはあなたの責任のままです。圧縮における判断は人間の判断です。AIで増幅する人間の判断かもしれませんが、人間の判断のままです。原則その7、検索には検証が必要です。

だからセマンティック検索はよく想起しますが、具体的なことでは失敗します、よね。トピックとテーマはよく想起します。事実が正しくなければならない場所では、RAG検索のようなファジー検索技術と正確な検証を組み合わせる必要があります。2段階の検索呼び出しパスが必要です、よね。候補を想起して、それから何らかの基準真実に対して検証します。

これは特にポリシーがある状況や、財務的事実や検証が必要な法的事実がある場合に重要です。このようなことがまさに、過去2週間で大手コンサルティング会社に対してかなり目立つ罰金が科された理由です。罰金は50万ドル近くになったと思います。なぜなら彼らが準備した文書の中で裁判事例に関する事実を検証できず、それらを幻覚し、捕捉できなかったからです。検索が失敗しました。

検索が失敗しました。そしてLLMは会話を続けるように設計されているため、もっともらしい何かを挿入しただけで、誰も捕捉しませんでした。基準真実に対して検索を検証できる必要があります。さて、小さなタスクであれば、それはチャットの反対側にいる人間かもしれません、よね。単にやる必要があるステップです。

大規模なエージェントシステムであれば、全く同じフラクタル原則ですが、評価のためにAIエージェントを使って自動的な方法でそれをする必要があります。原則その8、メモリは構造を通じて複利的に増えます。だからランダムな蓄積は実際には複利的に増えません。単にノイズを作り出すだけです。単にものを追加するだけでは複利的に増えません。もし私たちが人生で経験するのと同じようにランダムにメモリを追加しただけで、情報欠損がなく、忘却能力がなければ、人として機能することができないでしょう。

忘却は私たちにとって技術です。忘却が私たちにとって技術であるのと同じように、構造化されたメモリはLLMシステムにとって技術なんです。だから常緑のコンテキストは一つの場所に行き、バージョンプロンプトは別の場所に行き、タグ付けされた模範例はまた別の場所に行きます。そして小規模では、はい、これをすることができます。人々はObsidianで、Notionで、個人として他のシステムでこれをやっています。

そしてはい、ビジネスとしてこれをスケールすることができます。同じ、同じ原則です。構造化されたメモリがあれば、各やり取りを劣化なしに構築させます。そうでなければ、単にランダムな蓄積があるだけです。そうでなければ、決して手をつけなかった文字起こしの山があって、「まあ、これはデータだ。記録している。おそらく良いことだろう」と言うことになります。

それは単にランダムな蓄積です。ノイズを作り出します。構造化されたメモリは持てません。これらが機能する原則です。ChatGPTを使うパワーユーザーであろうと、エージェントシステムを構築する開発者であろうと機能します。率直に言って、メモリ分野のベンダーを評価している場合の道しるべです。

これらはツール非依存の原則です。複雑さに応じてスケールするように設計されていて、メモリ問題を解決する鍵を与えるように設計されています。なぜなら現在のAIシステムで見られる脆弱性なしに、一貫したコンテキストを確実に持続させるからです。そしてこのビデオをまとめるにあたっての私からの挑戦は、根本原因を見てきました。

なぜメモリが難しい問題なのかを見てきました。このメモリ問題をどう解決するかについての8つの原則を見てきました。どうかメモリを真剣に受け止めてください。今それが重要な理由は、もし今メモリを解決すれば、エージェントAIのエッジを持つことになるからです。これらのシステムはより安価でより強力になっていきますが、魔法のようにメモリを解決してくれると仮定することはできません。

冒頭で言ったように、ここにはチップレベルの問題があります。それは非常に非常に難しい問題です。もし彼らが魔法のようにそれを解決しないなら、もしあなたがメモリの責任を取って、あなたにとって機能する方法でそれを自分で構築するなら、AIとの長期的な関わり全体で機能するメモリを得ることについて、周りの誰よりも早くタイマーを始めることになるんです。

なぜなら考え始めなければならないからです、私たちはAI革命の2年目にいます。10年後、15年後、20年後にAIシステムと仕事をしている時に、2年目まで遡るメモリを持っていたら素晴らしいと思いませんか。他のみんなはずっと後から始まったメモリを持つことになり、その規律、その加速、時間をかけた深い仕事を管理する能力を失うことになります。AIが適切なメモリ構造で可能になる能力を。

ですからここにはあなたが考えて、機能するメモリ構造を実装する瞬間があります。機会を失わないでください。これは複雑なものですが、それは私たち自身のニーズを扱うメモリシステムを構築するのは、それが個人的なニーズであれ職業的なニーズであれ、あなたと私と私たち全員にかかっています。

あなたならできると信じています。どうやっているかコメントに書き込んでください。私たち全員でクラウドソーシングすべきだと思いますから。