DeepSeekがLLMを劇的に強化:Engramの登場

DeepSeekが発表した「Engram」は、大規模言語モデルの根本的な非効率性を解決する革新的なアーキテクチャである。従来のLLMは繰り返し出現する固有名詞やフレーズを毎回再計算していたが、Engramは人間の脳のような高速メモリモジュールを導入することで、この無駄な処理を排除した。メモリとMixture of Expertsの最適バランスを数学的に導き出し、モデル容量の20〜25%をメモリに割り当てることで、知識タスクだけでなく推論・コーディング・数学の性能も大幅に向上させた。さらに、長文コンテキスト処理能力が飛躍的に改善し、100億パラメータのメモリ層をCPUにオフロードしても処理速度の低下はわずか2.8%という実用性も実証している。

DeepSeek Just Made LLMs Way More Powerful: Introducing ENGRAM

DeepSeek just introduced Engram, a new module that gives LLMs something they’ve been missing: instant memory lookup. Ins...

DeepSeekが提示する新しいAIの進化
性能比較と驚異的な結果
長文コンテキストでの革新的な性能

DeepSeekが提示する新しいAIの進化

DeepSeekが発表したものは、正直なところAIの脳の構築方法における最大級のアップグレードの一つかもしれません。というのも、これまで何年もの間、基本的な戦略はこうでした。より賢いAIが欲しければ、それをより大きくする。より多くのパラメータ、より多くのトレーニングデータ、より多くの計算資源。そしてそれは機能しました。しかし、壁にぶつかったのです。

これらのモデルは非常に巨大になり、実行するのが途方もなくコストがかかるようになりました。まるで質問に答えるためだけに都市全体に電力を供給しようとするようなものです。そこでAI界はMixture of Expertsと呼ばれるトリックを生み出しました。簡単に言えば、アイデアはこうです。すべての文に対して脳全体を使う代わりに、AIは一度に脳のいくつかの部分だけをオンにする。

つまり、モデルは巨大でありながら、毎秒大規模な計算を必要としないのです。これがスケーリングのための大きなチートコードでした。そしてほとんどの人がこれが未来だと考えていました。ところがDeepSeekは基本的にこう言っています。「わかった、いいね」でも、まだ何か重要なものが欠けていますよ、と。彼らが言っているのは、最高のAIモデルでさえ、人間が自然に持っているものをまだ本当には持っていないということです。

本物の記憶です。ChatGPTがあなたの名前を覚えているような記憶ではありません。もっと深いものを意味しています。馴染みのあるものを見て、毎回ゼロから考え直す代わりに、瞬時にそれを認識する能力です。なぜなら現時点では、最も高度なAIモデルでさえ、信じられないほど非効率的なことをしているからです。考えている最中に、モデル内部で同じ単純なことを何度も何度も学習し直しているのです。

そしてDeepSeekはそれが無駄だと言っています。こんな風に説明しましょう。あなたが文章を読んでいて、「アレクサンダー大王」と書いてあるとします。あなたの脳はそれが誰なのかをゼロから計算しません。「うーん、アレクサンダー、古代ギリシャ。よし、えっと」なんてことにはなりません。あなたは即座にわかります。それは保存されています。速いです。自動的です。さて、今日の言語モデルがどう動作するかと比較してみてください。

たとえトレーニング中に「アレクサンダー大王」を何百万回も見ていたとしても、文章の中でそれを見ると、内部でそれを再構築するのに驚くほどの労力を費やすのです。まるで、有名人について言及するたびに、その名前を初めて聞いたかのように振る舞い、手がかりからアイデンティティを再構築する必要がある友人がいるようなものです。

非効率的です。そしてこれは規模において巨大な問題になります。なぜならインターネットは繰り返しの内容でいっぱいだからです。名前、フレーズ、場所、表現、一般的な単語の組み合わせ、正直なところ記憶によって処理されるべきものであって、重い計算によって処理されるべきではないものです。そこでDeepSeekはEngramと呼ばれるものをリリースしました。そしてアイデアは基本的にこうです。もしAIモデルが一般的なパターンのための高速メモリモジュールを持っていたら、メインの脳は単純なことに時間を浪費するのをやめて、本当の思考に集中できるようになるのではないか。それだけです。

それが哲学全体です。さて、Engramがどのように機能するか、普通に説明しましょう。DeepSeekは現代のAIが引き継ぐ前の初期の頃から、言語予測の古い時代のものを見ました。Engramsです。これは一般的な短い単語パターン、2単語パターンや3単語パターンのような、ちょっと洒落た言い方にすぎません。

例えば、プリンセス・オブ・ウェールズ、ちなみに、ユナイテッド・ステーツ、ニューヨーク・シティのようなパターンです。延々と繰り返されるものです。彼らのアイデアは、AIに多くの層を通じて深い数学を実行させることでこれらのパターンを再計算させる代わりに、ショートカットメモリテーブルを構築するというものです。だからモデルが特定のパターンを見ると、それに対するメモリ埋め込みを即座に引き出すことができます。

脳が「ああ、そのフレーズは認識できる。これがその意味のかたまりだ」と言っているようなものです。そして彼らがこれを行う方法は実際に賢いです。なぜなら明らかに、可能なすべてのフレーズを直接保存することはできないからです。組み合わせが多すぎます。だから彼らはハッシュシステムを使用して、パターンを巨大な組織化された倉庫に入れるようなトリックを使います。こんな風に考えてください。

数十億のメモリスロットがあります。各フレーズパターンには棚番号が割り当てられ、AIがフレーズを見ると、即座にその棚に飛んで必要なものを引き出すことができます。だからこそ研究者たちはこれを定数時間O(1)ルックアップと呼んでいます。普通の言葉で言えば、メモリがどれだけ大きくなっても、ルックアップは速いままであることを意味します。それだけでも巨大です。

しかし、まだ問題があります。なぜならこのようなメモリシステムは時々間違ったものを引き出すことがあるからです。棚には似たようなパターンが近くに保存されているかもしれません。ノイズがあり得ます。そこでDeepSeekは2番目の重要な部品を追加しました。AIはメモリを盲目的に信頼しません。それをチェックします。モデル内部に小さな真実検出器を使います。

だからメモリが情報を持ってくると、メインのAIの脳は尋ねます。「これは私が現在話していることと一致するか、それとも衝突するか?」もし一致すれば、モデルはそれを受け入れます。一致しなければ、モデルはそれを抑制します。論文では、彼らはそれを文字通り、0から1の間の値を出力するゲートとして記述しています。だから普通の英語で言えば、メモリは強く注入されることも、基本的に無視されることもあります。

だからこのEngramメモリはモデルを乗っ取っているわけではありません。脳内のアシスタントのようにそれをサポートしているのです。さて、DeepSeekはこれをおもちゃのモデルに貼り付けて完成と呼んだわけではありません。彼らはそれを本格的なレベルまでスケールさせました。彼らはDeepSeek V3と同じトークナイザーシステムを使用し、128,000トークンという巨大な語彙サイズを持っています。そして2,620億トークンでトレーニングしました。

そしてその数字が狂気じみていると思えば、実際そうです。それは基本的に、人類のデジタル文明の巨大な塊をモデルに詰め込むようなものです。コアの脳は2,560の隠れサイズと32の注意ヘッドを持つ30層のトランスフォーマーです。そして彼らはそれを、すでにDeepSeekシステムの一部であるMixture of Expertsのトリックと組み合わせます。だから今、2つのものがあります。

異なる専門家のような、モデルが起動できるエキスパートと、高速メモリのようなEngramがあります。そしてDeepSeekが尋ねた大きな質問は、私たちのモデルのうちどれだけが専門家であるべきで、どれだけがメモリであるべきかということです。なぜなら両方ともスペースを取り、両方ともパラメータを取るからです。効率的な計算が必要な場合、両方を無限に最大化することはできません。

そこでDeepSeekはこれを実際の数学的問題として定式化しました。そして彼らが発見したことは極めて明快です。スイートスポットがあります。もしモデルに専門家だけでメモリがゼロを与えれば、単純なパターンを再構築するのに時間を浪費します。もしあまりにも多くのメモリと少ない専門家を与えれば、深い思考のための脳力を失います。

だからバランスがあります。そしてそのバランスは、彼らの実験に基づくと、モデルの予備容量の約20〜25%がメモリに行くべきだというものでした。つまり、すべてが専門家であるべきではありません。一部はメモリであるべきです。そしてそれが大きなアーキテクチャ上の要点です。では、実際にスケールさせたときに何が起こるかについて話しましょう。

性能比較と驚異的な結果

彼らは複数のモデルバージョンを比較します。270億の総パラメータを持つ純粋なMOEモデルがあります。そして、同じく267億の総パラメータを持つEngram 27Bを構築します。同じ計算バジェット、同じアーキテクチャのバックボーンですが、ルーティングされたエキスパートの数を72から55に減らし、解放されたパラメータをメモリに入れます。だからEngram 27Bにはメモリだけで57億パラメータが含まれています。そして彼らはEngram 40Bでさらにハードにスケールさせます。トークンあたりの計算は同じですが、メモリは185億パラメータに成長し、合計395億になります。だからこんな風に考えてください。彼らは脳をより難しく考えさせているわけではありません。脳にはるかに大きなメモリライブラリを与えているのです。そして彼らはそれをテストし、Engramが全面的に勝利します。

主要なベンチマークデータセットであるpileで、MOEモデルは2.091の損失スコアを得ます。Engram 27Bは1.960に下がります。そして、Engramバリアントは1.950を押します。そして、Engram 40Bは1.942を得ます。内部検証損失も大幅に下がります。ベースラインは1.768に位置します。そして、Engram 27Bはそれを1.634まで下げます。そして、Engramバリアントさえも1.622と1.610までさらに押し下げ続けます。そして、ベンチマークスコアは正直なところ彼らを驚かせる方法で上昇します。なぜなら確かに、メモリは知識タスクで助けになるはずですよね?トリビア、事実、すべてそういうもの。そしてええ、そうです。MMLUは57.4から60.4に上がります。中国語MMLUは57.9から61.9に跳ね上がります。CEOは58.0から62.7に上がります。しかし、ここが驚くべき部分です。

Engramは純粋な思考のように感じられるものも押し上げます。メモリがそれほど重要ではないだろうと思われるタスクの種類です。ARC challengeは70.1から73.8に上昇します。BBHは50.9から55.9に上がります。Drop F1は55.7から59.0に上昇します。コーディングも改善します。HumaniValは37.8から40.8に上がり、数学も上昇します。GSM8Kは58.4から60.6に上がるなどです。だから全体として、DeepSeekのメモリモジュールは推論、コーディング、そして数学を改善しています。そして最初は、それは逆に聞こえます。なぜならメモリモジュールと聞くと、それは単にモデルが事実を思い出すのを助けるだけだと思うからです。では、なぜ推論が改善するのでしょうか?しかしDeepSeekの説明は実際に多くの意味を成します。彼らは通常のトランスフォーマーでは、初期の層が基本的な再構築を行うのに大量の労力を浪費していると言います。

基本的に同じ繰り返しのエンティティとパターンを何度も何度も再構築しています。Engramはその退屈な低レベルの作業を取り除きます。つまり、モデルは有用な表現に早く到達するということです。そしてそれについて考える最良の方法は、文字通りより多くの層を追加することなく、モデルに余分な深さを与えるようなものだということです。

彼らは機構分析でこれを裏付けてさえいます。彼らはモデルがネットワークのより早い段階で予測準備ができるようになることを示します。そして彼らのCKA層類似性分析では、浅いEngram層がはるかに深い層のように振る舞うことを発見します。彼らが与える一例は、Engramのレイヤー5がベースラインのレイヤー12と一致するというものです。だからモデルはより速く深くなります。そしてそれが推論が改善する大きな理由です。なぜなら、もはや繰り返しのエンティティ再構築に初期の層を燃やしていないからです。

長文コンテキストでの革新的な性能

さて、Engramが途方もなく重要になるもう一つの部分は長いコンテキストです。事前トレーニングの後、彼らはYARNと呼ばれる方法を使用してコンテキストウィンドウを32,768トークンに拡張し、300億の長いコンテキストトークンで5,000ステップのトレーニングを行います。そして彼らは長いコンテキストベンチマークでEngramとMOEを比較し、Engramは狂ったように進みます。特に、巨大なドキュメント内に何かを隠し、モデルが実際にそれを見つけられるかどうかをテストする、needle in a haystackのようなタスクで。

Multiquery needle in a haystackは84.2から97.0に跳ね上がります。Variable trackingは77.0から89.0に上がります。だからEngramは単にモデルを一般的に賢くするだけではありません。長いコンテキストもより良く機能させます。なぜならEngramがローカルパターンメモリを処理すると、注意は小さな繰り返しのものに自分自身を浪費する代わりに、グローバルコンテキストに集中するためにより自由になるからです。

そして私たちは最後の狂気の部分、システム効率にたどり着きます。なぜなら人々は常に尋ねるからです。クールな研究だけど、でも実際に現実世界で実行できるのか?DeepSeekはEngramがインフラストラクチャの方法で設計されていることを示します。メモリルックアップは決定論的であるため、システムはモデルがそのメモリ層に到達する前に、どのメモリが必要になるかを知ることができます。

だから事前にそれをプリフェッチできます。彼らは1,000億パラメータの巨大なEngram層を挿入し、それを完全にCPUメモリにオフロードするテストを実行します。そしてスループットのヒットはわずかです。40億の密なモデルは1秒あたり9,031.62トークンから8,858.28に下がります。80億の密なモデルは6,315.52から6,140.02に下がります。だから最悪の場合でも、わずか約2.8%のペナルティです。それは基本的に、システムが適切に設計されている限り、途方もない量のメモリをボルトで取り付けても、推論をほとんど遅くしないことを証明します。そして最後に、彼らはメモリゲートがどのように振る舞うかを視覚化します。そしてそれはまさに期待される場所で起動します。エンティティ補完と、アレクサンダー大王やプリンセス・オブ・ウェールズのような一般的なフレーズで、中国語でも有名な歴史的表現で、これはモデルが本当のパターン認識システムのようにメモリを使用していることを意味します。

さて、今日はこれで終わりです。もしこのようにわかりやすい英語で説明されたAIのブレークスルーをもっと知りたければ、チャンネル登録して、いいねを押してください。次回お会いしましょう。