GoogleのTurboquantブレークスルーがAI最大の問題を解決した

Google・DeepMind・Alphabet
この記事は約9分で読めます。

Googleが発表した研究論文が株式市場を揺るがした。Turboquantと呼ばれる新アルゴリズムは、AIのメモリを3ビットまで圧縮し、メモリチップ関連株を急落させた。この技術は、AI業界が長年抱えてきた最大のボトルネック、つまりメモリ問題を解決する可能性を秘めている。KVキャッシュと呼ばれるAIの短期記憶を劇的に圧縮することで、会話の長さを6倍に延長し、推論速度を8倍向上させ、精度を一切犠牲にすることなくメモリ使用量を削減する。製品発表でもなく、決算発表でもなく、たった一本の研究論文が数十億ドル規模の半導体市場を動かしたという事実は、AI業界が力ずくのハードウェア増強から賢明な数学的手法へとシフトしつつあることを示している。

Googles Turboquant Breakthrough Just Solved AI’s Biggest Problem
🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

Googleの研究論文が株式市場を揺るがす

Googleが研究論文を発表しました。そしてそれが実際に株式市場を壊してしまったんです。では、それについて話しましょう。

数日前、Googleが研究論文を公開しました。その論文は新しいアルゴリズムを説明しています。AIメモリを3ビットまで圧縮する新しい方法です。そして翌朝、メモリチップ関連株が暴落しました。

Micron、Western Digital、SanDiskなど、すべてが下落しました。研究論文ですよ。製品発表でもなく、決算の未達でもなく、論文がたった一回の取引セッションで半導体市場から数十億ドルを吹き飛ばしたんです。

このアルゴリズムはTurboと呼ばれています。そしてこれがウォール街がパニックになった理由です。そしてこれは、AIを妨げている最大のボトルネックを解決する可能性があるんです。

Turboquantとは何か

この論文はTurboquantと呼ばれるものを説明しています。ウォール街がなぜパニックになったのかを理解するには、AI業界が何年も静かに悩まされてきた問題を理解する必要があります。

ほら、AIについて話すときに誰も語らないことがあるんです。ボトルネックはこれらのモデルがどれだけ賢いかではありません。メモリなんです。

具体的には、短期記憶です。あなたと話しているときに頭の中に保持しているものです。そしてそのメモリを理解してください。そのメモリは途方もなく高価なんです。AIシステムを実行する上で最大のコストです。長い会話でAIチャットボットが遅くなる理由がこれです。最高のモデルをノートパソコンで実行できない理由がこれなんです。

Googleが発見したこと

では、Googleは何を見つけたのでしょうか? そして、なぜメモリを圧縮するより良い方法が、ウォール街にチップ業界全体を見直させているのでしょうか?

ChatGPTやGeminiと会話するとき、モデルはこれまであなたが言ったすべてを覚えておかなければなりません。つまり、一語一句すべてではなく、最後のメッセージだけでなく、会話全体です。それをエンジニアたちがKVキャッシュと呼ぶものに保存しますが、これをAIのノートだと考えることができます。

何か言うたびに、それを書き留めます。応答するたびに、話題から外れないようにノート全体をめくります。

さて、問題はこうです。そのノートは非常に大きくなります。本当に大きくなります。そして決して成長を止めません。入力するすべての単語、タップして返すすべての単語で、ノートにはまた一ページが追加されます。

長い会話では数万ページになる可能性があります。そしてそれらのページすべてが、最も高価なタイプのコンピュータメモリ、つまりGPUメモリに保存されているんです。グラフィックカードが数千ドルもする理由と同じものです。

これが長い会話が遅くなる理由です。これが企業が何十億ドルもハードウェアに費やす理由です。高価なのは思考ではなく、記憶なんです。

圧縮の課題

圧縮は明らかな解決策のように見えますよね? ノートを縮小すればいい。そしてほとんどの人がすでに試してきました。しかし落とし穴があります。

古い圧縮方法は、本棚全体を再整理するために司書を雇うようなものです。司書は助けになります。より多くの本を収めることができます。しかし今度は司書のための机と、司書のメモのためのファイリングシステムも必要になります。

圧縮自体が余分な荷物を作り出し、スペースを食いつぶし、処理を遅くします。それが業界全体が陥っていた罠です。Turboが登場するまでは。

Turboの仕組み:ステージ1

TurboはGoogle ResearchのAmeir ZandeとVahab Moroyによって開発され、2段階で機能します。そして数式なしで両方を説明します。なぜなら核心となるアイデアは実際に美しくシンプルだからです。

誰かがあなたにレストランへの道順を教えるとします。東に3ブロック、それから北に4ブロック行くように言われます。それは正確に覚えておく必要がある2つの情報です。東に3、北に4。両方とも重要です。両方とも正確である必要があります。

しかし、まったく同じ道順を伝える別の方法があります。だいたい北東方向に合計5ブロック進む。同じ目的地です。同じレストランにたどり着きます。

しかし今、興味深いことが起こります。距離の部分、5ブロックは正確である必要があります。角度の部分については、同じレストランにたどり着きます。しかし今、興味深いことが起こります。距離の部分、5ブロックは正確である必要があります。

距離の部分、5ブロックは正確である必要があります。角度の部分については、この形式、つまり距離と方向に変換すると、方向が予測可能なパターンでまとまることがわかります。ランダムではありません。そして何かが予測可能であれば、はるかに強力に圧縮できます。

写真の90%が同じ3つの場所で撮影されたことに気づいたようなものです。毎回完全なGPS座標を保存する必要はありません。場所A、場所B、場所Cと言うだけでいいんです。

それが洞察です。パターンが重労働をしてくれるので、同じ情報がはるかに小さく保存されます。

ステージ2:スペルチェッカー

ステージ2はスペルチェッカーです。完璧な圧縮はありません。ステージ1は19.97ドルを20ドルに四捨五入するような、本当に小さな誤差を導入します。個別にはたいしたことではありません。

しかし、何千もの小さな四捨五入がすべて同じ方向に傾くと、蓄積する傾向があります。そこでステージ2は素早いエラーチェックを実行します。ステージ1が作った小さな間違いを見て、値ごとに1ビットの情報を使って修正します。文字通り、イエスかノー、プラスかマイナスだけです。

圧縮データのスペルチェックのようなものだと考えてください。すべてのずれを大きな問題になる前に捉えます。そして本質的にゼロの追加ストレージしか追加しません。

ここでの重要な洞察、これが巧妙な部分なのですが、TurboquantはAIノートのすべての数値を完璧に保存しようとはしないということです。AIが実際に使用するものだけを保存します。

顔やテキストなど、目が焦点を合わせる部分を保持し、背景をぼかすことで写真を圧縮するようなものです。気づくことはないでしょう。AIは違いを見分けられません。その答えは同一に出てきます。

驚異的な速度

そしてここがおそらく最も驚くべき部分です。古い圧縮方法はまずデータを研究する必要があります。スーツを作る前にあなたを採寸する仕立て屋のようなものです。大規模なデータセットには時間がかかります。古い方法はセットアップだけで約239秒かかります。

Turboは約0.0013秒かかります。

184,000倍速いんです。なぜか完璧にフィットする既製服のようなものです。採寸なし、調整なし。ただ機能するだけです。

実際の結果

では、これらの結果は実際に成り立つのでしょうか? はい、劇的に成り立ちます。

NvidiaのベストGPU、H100、誰もが取り合っているチップで、Turboquantは8倍の速度向上を実現します。メモリ使用量は少なくとも6倍減少し、3.5ビットの精度で精度の損失はゼロです。皆無です。AIの答えは同じように良いんです。

しかし本当に際立っているテストはこれです。研究者たちは104,000トークンのテキストの中に単一の特定の事実を埋め込みました。それは約300ページの埋め草です。そして圧縮されたモデルにそれを見つけるよう求めました。

そして毎回それを見つけたんです。完璧なスコアです。それはかなり良い圧縮ではありません。重要なものが何も失われない圧縮なんです。

チームは複数のオープンソースAIモデルと5つの主要なベンチマークスイート全体でこれを検証しました。質問応答、要約、コード生成のすべてのテストです。

Turboquantは実際に既存の方法を全面的に一致させるか、打ち負かしました。

なぜこれが重要なのか

では、なぜ気にする必要があるのでしょうか? たまにChatGPTを使うだけですか? なぜこれが重要なのでしょうか?

第一に、より長い会話ができるようになります。AIチャットボットが長い会話の前半で言ったことを忘れたように見えることがありますよね? それがメモリの壁です。

ノートが6分の1に縮小すれば、同じハードウェアで6倍長い会話を処理できます。本の長さの記憶から図書館全体の長さの記憶に移行することになります。メールアーカイブ全体、法的事件全体、コードベース全体を一度に送り込むことができます。

第二に、デバイス上のAIです。現在、最高のAIモデルは実行するために大規模なデータセンターを必要としています。しかしメモリ問題が縮小すれば、ハードウェア要件も縮小します。

Redditの誰かがすでにMac上でTurboを動作させており、35億パラメータのモデルを64kトークンのコンテキストウィンドウで実行しています。サーバールームが必要だったモデルが、すぐにノートパソコンやスマートフォンで実行できるようになるかもしれません。

市場への影響

そして第三に、これがお金の話です。AIが劇的に少ないメモリハードウェアを必要とするなら、メモリチップを販売する企業はより少ないチップを販売することになります。

そしてそれが、論文が公開された翌朝にMicron、Western Digital、SanDiskが下落した理由です。ウォール街は、メモリボトルネックがより多くのハードウェアを購入することで解決されるのではなく、より少ないハードウェアで済むことで解決される未来を織り込んでいます。

すべてのGoogle検索、すべてのAIアシスタント、すべての推奨システムの実行コストが下がります。

静かな革命

Turboquantについて最もクレイジーなことは、基調講演がなかったことです。派手な記者会見もありませんでした。製品発表もありませんでした。Googleのたった2人の研究者がブログと論文を投稿しただけでした。

彼らはトップAIカンファレンスの1つであるICLRでそれを発表し、それだけでした。株式市場は翌日すでに動いていました。

この論文が示しているのは単なる圧縮トリックではないからです。力ずくの終わりなんです。何年もの間、AI業界のすべての問題に対する答えは、より多くのハードウェアを購入することでした。より多くのチップ、より多くのメモリ、より多くの電力を購入する。

Turboquantは「代わりにただより賢い数学を使ったらどうか?」と言っています。そしてその論文は市場を動かすことに成功しました。製品ではなく、基調講演でもなく、シンプルな論文です。

AIがどのように物事に影響を与えることができるかを見るのは非常に興味深いです。

The Air Gridをご覧いただきありがとうございました。Andrew Blackでした。次回お会いしましょう。

コメント

タイトルとURLをコピーしました