Googleが発表した2つの画期的な研究論文、TitansとMirasは、AIの最大の弱点である記憶の問題を解決する可能性を秘めている。従来のAIモデルは長い会話や大量のテキストを処理する際に初期の情報を忘れてしまうという根本的な制約を抱えていたが、Titansは人間の脳の記憶システムを模倣した新しいアーキテクチャを導入し、200万トークン以上のコンテキストを正確に記憶できる。一方、Mirasはすべての主要なAIアーキテクチャが本質的に同じ連想記憶を構築していることを明らかにし、より優れた記憶システムの設計を可能にする理論的枠組みを提供する。実験結果では、TitansがGPT-4を含む既存モデルを大幅に上回る性能を示し、特に長文理解タスクにおいて圧倒的な優位性を発揮した。この技術革新は、法律文書、医療記録、科学研究など、膨大なコンテキストを必要とする実用的なアプリケーションへの道を開き、人間レベルの知能を持つAGIの実現に向けた重要な一歩となる。

GoogleがAIの最大の弱点を解決
GoogleがAIの最大の弱点の一つを新しいブレークスルーで解決したかもしれません。これについて話していきましょう。GoogleはおそらくAIの最大の弱点、つまり記憶の問題を解決したのです。
すべてのAIユーザーが知っているように、ChatGPT、Claude、Geminiのすべてが時間的な問題を抱えています。そしてこれこそが、GoogleがTitansとMirasを導入した理由なのです。これらは2つの異なる研究論文で、AIが長期記憶を持つことを支援するものです。信じてください、これはゲームチェンジャーです。
皆さんはどうか分かりませんが、AIと長い会話をしていると、会話が長くなるほどAIが忘れる傾向があることをご存知でしょう。本全体を読ませようとすると、終わりに到達する頃には最初に何が起こったのか見失ってしまうのです。
これはTransformersと呼ばれる彼らが構築している技術のためです。基本的に、記憶しなければならないテキストが増えるほど、指数関数的に遅くなり、コストが高くなります。これは基本的に、今まで誰も修正できなかった根本的な制限だったのです。
TitansとMirasによる革命的な変化
Googleは、先ほど言ったように、すべてを変える2つの研究論文を発表しました。TitansとMirasです。Titansは、モデルに実際の長期記憶を与える真新しいAIアーキテクチャです。200万トークン以上のコンテキストについて話しているのです。それは複数の本全体が正確に記憶されるということです。
しかし、これは単により多くを保存することだけではありません。Titansは人間の脳の働き方をコピーしているのです。サプライズメトリックという種類のものがあり、予期しない重要な情報を優先し、退屈な日常的なものを無視します。まさにあなたの脳がするように。
さらに驚くべきことに、実行中に自分自身の記憶を学習し更新できるのです。これは他のAIにはできないことです。そしてMirasは、その下にある理論的なブレークスルーです。基本的に、すべての主要なAIアーキテクチャ、Transformers、RNN、Mambaなど、すべてが密かに同じことを異なる方法で行っていることを明らかにしています。
そしてこのフレームワークは、実際にはるかに優れた記憶システムを設計するための扉を開くのです。
人間の脳に触発されたアーキテクチャ
これがMACアーキテクチャです。この図は、Titansがその記憶をどのように組織化するかを示しています。そしてこれは、人間の脳が実際にどのように機能するかに直接触発されています。科学者たちは何十年も前から、人間が単に一つの記憶を持っているわけではないことを知っていました。
私たちは実際には、異なる仕事を処理する異なるタイプの記憶システムを持っています。そしてこれが、皆さんがここで見ることができるように、Titansが本質的にこの設計をコピーしている場所なのです。
ここにある3つの層を分解すると、かなり簡単に分解できます。上の層はコンテキスト記憶がある場所です。これは学習部分です。これが長期記憶モジュールです。記憶を保存するために単純なベクトル行列を使用していた以前のエアシステムとは異なり、基本的には数字の山にすぎないのですが、Titansははるかに強力な何かを使用しています。多層パーセプトロンです。
これは、より大きなニューラルネットワークの中にある小さなニューラルネットワークの専門用語です。これを基本的に、物事を記憶することに専念したミニ脳を持っていると考えてください。そしてこの長期記憶は、防犯カメラのように受動的に物事を記録するだけではありません。能動的に学習します。
何千語も離れているかもしれない物事の間のパターン、テーマ、つながりを見つけ出します。1ページ目でボブという名前のキャラクターに言及し、500ページ目で彼らを背の高い男と呼んだ場合、優れた長期記憶はそれらを同じ人物として結びつけることができます。
中間層はコアで、インコンテキスト学習部分です。これは本質的に、Transformersを有名にしたのと同じメカニズムです。これは正確な短期記憶に非常に優れています。たとえば、誰かが「私が最後に言った言葉は何でしたか」と尋ねた場合、これがそれを処理する部分です。それは直近のコンテキストを見て、今何が関連しているかを把握しています。
Titansのカバー部分は、これら2つの層がどのように連携するかです。長期記憶は過去のすべてを圧縮して要約し、その後要約レポートをアテンション層に渡します。アテンション層は、過去のこの要約を見る必要があるのか、それとも直近のコンテキストだけで十分なのかを決定できます。必要に応じて長期記憶を使用するか、無視するかの選択肢があるのです。
下の層は持続的な記憶です。これは固定された重み部分です。これはトレーニング中に焼き付けられ、変化しない知識です。これをあなたの本能や基礎的な知識と考えてください。文法を理解すること、火が熱いことを知っていること、犬と子犬が関連する概念であることを認識することなどです。この層は、他のすべてが構築される基礎的な知性を提供します。
魔法は、3つの層すべてが連携するときに起こります。持続的な記憶は基礎知識を提供します。長期記憶は起こったすべての重要なことを追跡します。そしてコアアテンションは直近に関連することに焦点を当てます。これは人間がするように、チームとして連携する3つの異なる記憶システムを持っているようなものです。そして、これがAGIに向けた重要なステップである理由がお分かりいただけ始めていると思います。
Mirasの理論的枠組み
さて、ここで科学的な観点から本当に興味深いことになります。Mirasはダウンロードして使用できる特定のAIモデルではありません。それは発見のようなものです。それは、すべてのシーケンスモデルがどのように機能するかについて何か深遠なことを明らかにする理論的枠組みです。
研究者たちが理解したことは以下の通りです。AIシーケンスモデリングにおけるすべての主要なブレークスルー、Transformers、RNN、Mambaなど、これらすべてが密かに同じことをしているのです。これらはすべて、連想記憶と呼ばれるものを構築する異なる方法にすぎません。
連想記憶は単に、入力を出力に、キーを値に、質問を答えに結びつけるシステムです。このように考えてみてください。100の異なる自動車メーカーがあり、すべてが自分たちの車は完全にユニークで革命的だと主張しているとします。それからエンジニアがやってきて、「実際には、すべての車は4つの車輪、エンジン、そしてステアリングメカニズムにすぎません。あなたたちは皆、単に異なるデザインで同じことをしているだけです」と言うのです。
それがMirasがAIに対して行うことです。すべてを統一するのです。Mirasは、4つの設計選択を通じて任意のシーケンスモデルを定義します。
1つ目は記憶アーキテクチャです。これは記憶の物理的構造です。情報をどこにどのように保存しますか。一部のモデルは、数字のリストのような単純なベクトルを使用します。一部は行列、数字のグリッドを使用します。
そしてTitansはディープニューラルネットワークを使用しており、これははるかに複雑で強力です。アーキテクチャは、どれだけの情報を保存でき、どれだけ柔軟に組織化できるかを決定します。
次にアテンショナルバイアスがあります。これはモデルが何に注意を払うかです。すべてのモデルには、最適化しようとしている内部目標があります。新しい情報が入ってくると、モデルは決定しなければなりません。これは重要か。これに焦点を当てるべきか。意図的なバイアスは優先順位を決定します。異なるモデルには異なるバイアスがあるため、同じ出力でモデルが異なる動作をするのです。
これは保持ゲームです。ここでは忘却メカニズムがあります。ほとんどの人が気づいていないことがあります。忘れることは実際には記憶することと同じくらい重要なのです。あなたの人生のすべての瞬間のすべての詳細を覚えていたら、あなたの脳は完全に圧倒されて役に立たなくなるでしょう。実際には物事をフィルタリングする必要があります。
保持ゲートは、何が保持され、何が捨てられるかを制御します。Mirasはこれを正則化として再定義します。基本的に、記憶が暴走してすべてを保持することを防ぐルールです。
そしてここに記憶アルゴリズムがあります。これは記憶が実際にどのように更新されるかです。新しいことを学んだとき、それを既存の記憶に組み込むための正確な数学的プロセスは何ですか。異なるアルゴリズムには、速度、精度、安定性の間で異なるトレードオフがあります。
Mirasからの画期的な洞察
Mirasからの画期的な洞察は以下の通りです。今までのほぼすべての成功したAIモデルは、アテンションと保持の両方に平均二乗誤差、MSEと呼ばれるものを使用してきました。MSEは基本的に、期待したものと得たものの間の距離を測定し、それを二乗します。これは機能しますが、問題があります。
具体的には、外れ値に非常に敏感です。1つの奇妙なデータポイントがすべてを狂わせる可能性があるのです。Mirasは代替案を探求する扉を開きます。このフレームワークを使用して、研究者たちは3つの新しいモデルを作成しました。
YAADは、MSEの代わりにHuber損失と呼ばれるものを使用し、これはエラーや外れ値に対してより堅牢になります。ドキュメントに1つの奇妙なタイプがあっても、YAはそれについてパニックになりません。
次にMonetaがあります。これはより厳格な数学的ルール、アテンションと忘却の両方のための一般化されたノルムを探求するだけです。そして、より規律ある数学がより良い安定性につながるかどうかを調査しています。
それからMemorialaがあり、これは記憶を確率分布のように振る舞うように強制します。これは、更新が常にバランスが取れて制御されていることを保証し、混沌とした記憶状態を防ぎます。
深層記憶の力
ここで深層記憶の力があります。このグラフは本当に興味深いです。このグラフはTitansが実際に機能する証拠であり、何か重要なことを明らかにしています。深さが非常に重要なのです。
皆さんが実際に見ているものを説明しましょう。X軸はシーケンスの長さを示しています。基本的に入力テキストがどれだけ長いか、Y軸はパープレキシティを示しています。パープレキシティは、モデルがどれだけ混乱しているか、驚いているかの尺度です。パープレキシティが低い方が良いです。それはモデルがテキストをよく理解し予測していることを意味します。
ハイパープレキシティは、モデルが苦労してより多くの間違いを犯していることを意味します。さて、異なる色の線を見てください。Mambaがあります。これは既存の人気モデルで、Titansの記憶システムの異なるバージョンと比較されています。
注目すべき重要なことは、長さが増加するとどうなるかです。Mambaの線は、シーケンスが長くなるにつれて上がります。つまり、長いテキストを扱う際により混乱し、より多くの間違いを犯すということです。これは理にかなっています。なぜなら、Mambaはすべてを固定サイズの記憶に圧縮するからです。したがって、より長いシーケンスは、より多くの情報が押しつぶされて失われることを意味します。
しかし、TitansのバリアントLLMMとMMを見てください。それらの線ははるかに低く平坦なままです。シーケンスの長さが劇的に増加しても、パフォーマンスを維持します。より長いコンテキストによって混乱していないのです。
研究者たちは、この実験を2つの異なるスケールで実行しました。3億6000万パラメータと7億6000万パラメータです。これはモデルサイズです。そして両方のスケールで、同じパターンが保持されます。より深い記憶アーキテクチャは、より長いシーケンスでより良いパフォーマンスを維持します。
深さが重要な理由
なぜ深さがこれほど役立つのでしょうか。このように考えてみてください。浅い記憶は、本について1つの文を書くことで要約しようとするようなものです。できますが、おそらくすべての詳細を失うことになるでしょう。
深い記憶は、キャラクター、プロット、テーマ、分析についてのすべてのセクションを含む完全な読書感想文を書くようなものです。すべてのニュアンスと詳細を捉えます。記憶ネットワークが深ければ深いほど、圧縮と理解がより洗練されたものになる可能性があります。
何が起こったかを記録するだけでなく、深層記憶はなぜそれが重要なのか、そしてそれが他のものとどのように関連しているかを捉えることができます。そしてこれは、長い文書を捉えるために真に不可欠です。
この実用的な意味合いは巨大です。本全体、法律文書、医療記録、コードベースを読んで理解できるAIが欲しい場合、深層記憶が必要です。現在持っている浅いアプローチは、常に壁にぶつかるでしょう。
Babylonでの圧倒的な性能
そしてここでも非常に興味深いものがあります。これはおそらく研究論文全体で最も印象的な結果の1つです。そして、TitansがBabylonと呼ばれるタスクで競合を完全に破壊していることを示しています。
Babylonが存在する理由は以下の通りです。それは事実を隠します。極めて長い文書全体に事実を隠し、それからそれらの事実を見つけて結びつけることを必要とする質問をします。文書は200万トークン以上の長さになる可能性があります。それは複数の本全体の量のテキストのようなものです。
そしてAIはそれをすべて読み、内部に埋め込まれた重要な事実を記憶し、それから質問に正確に答えなければなりません。シーケンスの長さが増加すると何が起こるか見てください。
GPT-4は、世界で最も強力で高価なAIモデルの1つですが、ずっと前にひどくクラッシュします。文書が長くなるにつれて、精度はまともなものから基本的に役に立たないものに低下します。そしてこれは小さなモデルではありません。GPT-4は巨大で、トレーニングに数十億ドルかかりました。
Mambaや他のベースラインもクラッシュします。彼らは長いコンテキストを処理できないのです。しかし、Titansを見ると、その線を見てください。他のすべてが失敗した極端なシーケンスの長さでも高いままです。Titansは非常に強力なパフォーマンスを維持します。
そして皆さん、覚えておいてください、重要なのはTitansがGPT-4よりもはるかに小さいということです。パラメータの一部しか持たず、計算コストの一部しかかからず、それでもすべてのタスクで巨大なマージンでGPT-4を打ち負かすのです。
実世界での重要性
では、なぜこれが実世界で重要なのでしょうか。長いコンテキストを本当に理解する必要があるAIが必要なすべての状況について考えてみてください。弁護士は、数百ページにわたる可能性のある契約書や訴訟文書を扱います。数百ページになる可能性があります。
医療記録では、患者の完全な医療履歴が数十年にわたる可能性があります。科学研究では、研究論文は以前の研究に基づいて構築されます。作業分野の完全なコンテキストを理解するには、膨大な量のテキストを処理する必要があります。
コーディングでは、大規模なコードベースがあります。パーソナルアシスタントでは、何ヶ月もAIとチャットしている場合、絶対にすべてを記憶してほしいのです。そしてこれが、Google研究者がこれについて非常に興奮している理由です。
これは単なる段階的な改善ではありません。これは以前は単に不可能だったアプリケーションへの扉を開いているのです。私は、このブレークスルーが、私たちのような記憶を持つ人間レベルのアーキテクチャに向かって進み始めるため、AGIに向けて非常に重要だと思います。


コメント