AI分野における3Dコンピュータビジョンの構造的パラダイムシフトが起こった。Google DeepMind、MIT、コーネル大学が発表したZipMapという新技術は、従来のアテンションメカニズムにおける二次計算複雑性の壁を打ち破り、線形時間での3D再構成を実現する。この技術の核心は、トランスフォーマー内部に小さなMLPネットワークを埋め込み、推論中にそのパラメータを動的に訓練する「ファストウェイト」という概念である。従来は750フレームの処理でVRAMが爆発していたが、ZipMapは画像数に関係なく一定のメモリサイズで幾何学的情報を圧縮できる。これにより、自動運転車などのエッジデバイスでも高品質な3D環境モデルの構築が可能になり、AI業界における3D認識技術の新たな地平が開かれた。

3Dコンピュータビジョンにおけるパラダイムシフト
コミュニティの皆さん、こんにちは。また戻ってきてくれて本当に嬉しいです。今日は、つい先日公開されたばかりの新しいAI技術をお見せしたいと思います。これは「AIのための3Dビジュアルメモリ」と呼ばれるものです。今日、私たちは本当に構造的なパラダイムシフトを発見しようとしています。なぜなら、AIにおける3Dコンピュータビジョンのやり方が、今日完全に変わったからです。では、始めましょう。
皆さんは「ちょっと待って、私たちはもうできるよ」と言うでしょう。ここに入力画像がありますよね。10枚の画像があるかもしれませんし、もっと多いかもしれないし少ないかもしれません。そして、私たちにはモデルがあります。VGTやその他のモデルです。そうです、私たちはこれをどうやるか知っています。セルフアテンションメカニズムやグローバル・ローカルアテンションメカニズムを使って、画像間で構造情報を相互参照するんです。
しかしもちろん、私たちはここでアテンションメカニズムの二次の壁に縛られています。もちろん、これが最先端です。でも、ここで新しいアイデアが登場します。今日、私たちはこの二次の壁を突破します。なぜなら、750フレームの動画がある場合、アテンションマトリックスがあなたのシステムを爆発させ、すべてのVRAM制限を吹き飛ばし、処理に何百秒もかかってしまうからです。
従来手法の限界
ここに示されているのは、X軸に入力フレーム数、Y軸に実行時間があります。V2GTを見てください。入力フレーム数が増えるほど、信じられないほど上昇していきます。したがって、私たちは問題に直面するわけです。皆さんは「でも、線形モデルもあるでしょう」と言うかもしれません。このようなものです。これはRNNやローカルチャンキングを介してフレームを順次処理します。ボトルネックは解決され、二次計算複雑性もなくなります。
しかし、代償を払わなければなりません。より多くのエラーが蓄積されます。グローバルなコンテキストを忘れてしまい、数学的に再構成品質が低下します。ご覧のとおりです。これらが入力画像だとすると、ここで得られる3次元オブジェクトはこのように見えます。これは現実で期待するものではありません。
つまり、何があるのでしょうか。私たちには、完璧で美しい二次複雑性のグローバル幾何学的整合性手法がありますが、車のようなエッジデバイスでは実行できません。なぜなら、そのためのコンピューターインフラがないからです。あるいは、線形スケーラビリティを持つこちらの手法に進むこともできますが、これは単純に3次元オブジェクトの構築に失敗します。つまり、AかBか、どちらかです。
XiaomiのVLAモデルとの関連性
さて、私の最近の動画の一つを覚えていますか。「新しい自動運転AI解説」というものです。Xiaomiの電気自動車向けのビジョン言語アクションモデルに、ワールドモデルを統合したものでした。彼らは最新の研究で、お話ししたとおり、2つの動的アダプターを使用していました。
1つのアダプターは幾何学用で、もう1つは物理学のワールドモデル用でした。そして幾何学アダプターについてですが、覚えていますか、彼らもVGGGDを使用していました。しかし、これが今日変わります。なぜなら、もう二次複雑性に進む必要がないからです。今、私たちには新しい選択肢があります。
この動画で、Googleとパーデュー大学が2026年3月1日に発表した研究をお見せしたことを覚えていますか。彼らは車のようなエッジAIアーキテクチャ上でのビジョン言語アクションモデルを特性評価しました。彼らはNvidia OrinとBlackwellを見て、「うーん、ボトルネックがある。十分に速くない。なぜなら、エンドツーエンドのレイテンシの75%がアクション生成フェーズで消費されるからだ」と言いました。
彼らが7Bモデルを実行する場合、つまりGoogleですから、彼らはコンピューターリソースを持っているわけですが、最高のモデルは持っていません。なぜなら、複雑な現実世界環境での汎用的な有用性のためには、モデルには10から100億の自由に訓練可能なパラメータが必要だと言っています。しかし、これは現在のNvidiaインフラでは機能しません。Nvidiaは遅すぎます。
ZipMap: 新しい3Dメモリ技術
それで今、私たちには新しい技術があります。今、あなたの街のどこかに行くことができます。角にマクドナルドがあって、写真を撮ります。ここに画像があります。そして、撮った写真のすべての完全な幾何学を再構築したいとします。あなたの通りのグローバルな3D幾何学的オブジェクトは、もはやトークン間の二次通信を必要としません。
どうしてこれが可能なのか、と言うでしょう。もちろん、私たちにはトランスフォーマーアーキテクチャがあります。古典的なトランスフォーマーでは、トランスフォーマー層に重みテンソルがあります。これらは、大規模なGPUクラスター上で数週間の訓練を経て学習されたパラメータです。そして推論中、つまり実際にテストしているときには、これらは凍結され固定されています。これらはモデルの長期記憶を表しています。
そしてもちろん、アクティベーションがあります。これは一時的に流れるデータストリームです。画像がネットワークに入ると、凍結された重みと乗算されてアクティベーションが作成されます。アクティベーションはAIモデルの短期作業記憶です。データが通過するほんの一瞬しか存在しません。
しかし、このアクティベーションこそが文脈内学習が起こる場所であり、重みは教師あり微調整や強化学習が起こる場所です。古典的なトランスフォーマーがあって、750枚の画像を記憶したい場合、私はHD画像について話しているだけです。4Kや8Kについて話しているのではありません。
トランスフォーマーにおけるメモリの課題
750枚の画像分のアクティベーションをVRAM内で生かし続けなければなりません。これがキーバリューキャッシュです。そして、アテンション層で、すべての画像を他のすべての画像と相互に乗算しなければなりません。これがメモリが爆発する場所です。なぜなら、二次計算複雑性があるからです。
そして今、研究者たちは「アイデアがある」と決めました。凍結されたトランスフォーマーの各ブロック内に、小さな孤立した完全に空白のニューラルネットワークを配置します。何だと思いますか。それは私たちが知っている最もシンプルなネットワークです。MLPネットワークを使います。SwiGLU MLPです。まあいいでしょう。特定の活性化関数を持つMLPです。非線形のものです。
したがって、突然、3つのレベルのメモリがあります。数百万のテンソル構造、つまり重みを持つ古典的なトランスフォーマーがあります。次に、750枚の画像の視覚データであるアクティベーションがあります。そして、AIシステム内に小さな、トランスフォーマーではない単純なMLPがあります。これがホワイトボードです。この小さなMLPのパラメータが、私たちが「ファストウェイト」と呼ぶものです。
ファストウェイトの革新性
推論中、メイントランスフォーマーの重みが凍結されている間、この小さな内部MLPは実際に訓練されています。これが、皆さんにお見せしたい魔法、あるいは新しい革新、新しい技術です。これが研究です。Google DeepMind、MIT、コーネル大学があります。彼らは線形時間での3次元再構成を再定義しました。ステートフルでテストタイム訓練環境でです。彼らはこの方法論をZipMapと呼び、2026年3月初めに発表されました。
これは本当に革命ではありません。想像してみてください。ローマにいて、美しい写真を撮ります。さまざまな視点やさまざまな角度から見て、すべてを融合して3次元の幾何学的ワールドモデルにします。環境のですね。そして、線形計算複雑性でそれができるのです。
どのように計算が機能するのか、と言うかもしれません。どうやってこれをコーディングするのか。どんな数学的操作に遭遇するのか。
ZipMapの計算プロセス
ステップ1は、凍結された投影です。750枚の画像があり、トランスフォーマーのブロックがあります。凍結されたトランスフォーマー、スローウェイト、メイントランスフォーマーが画像を見て、アクティベーションに投影します。そして、それらのアクティベーションは単純なベクトルです。クエリ、キー、バリュー、標準的な手順です。
ステップ2は、その場での内部ネットワークの訓練です。トランスフォーマーはキーとバリューのアクティベーションを取り、それらを小さな内部MLPの訓練データセットとして使用します。仮想損失関数を計算します。これは本質的に、内部ネットワーク、つまりMLPに「ねえ、キーAを与えたら、バリューAを出力するようにパラメータ、つまりMLPパラメータだけを調整できるか」と尋ねているのです。
そして、これから説明する非常に特定のアルゴリズムを使用し、この小さなMLPモデルに対して実際の勾配降下更新を実行します。この小さなMLP内のマトリックスW1と3は、実際に物理的に更新され、フォワードパス中に値が変わります。したがって、突然、重みがあります。なぜなら、それらはこの第2の内部ニューラルネットワーク層のパラメータだからです。しかし、それらは高速であり、したがって、おそらくエッジデバイス上の古いNvidiaプラットフォームでも計算できるかもしれません。
ステップ3は簡単です。クエリです。小さなMLPのファストウェイトは、750枚の画像の幾何学を構造的なテンソル形式に圧縮することに成功しました。トランスフォーマーは今、クエリアクティベーションを取り、更新された内部MLPを標準入力として単純に通過させます。これは私たちが知っていることです。
実世界への応用
今、道路の真ん中に立つことができます。5度ごとに画像を撮ります。これらすべての美しい画像があります。そして今、線形計算複雑性で環境の3次元幾何学的オブジェクトを構築できます。
なぜこれがそれほど特別なのでしょうか。RNNでは同じ問題がありましたよね、DNAで。フレームからフレームに渡される隠れ状態はアクティベーションベクトルです。それは小さいですが、ベクトル数学は、忠実度を失わずに実環境の複雑な3次元情報をこのベクトルにどれだけパックできるかを制限します。
このZipMapでは、この新しい技術では、隠れ状態は単なるベクトルではありません。これに基づいて訓練されたニューラルネットワーク層の重みマトリックス全体です。したがって、単純なアクティベーションベクトルよりもはるかに多くの表現能力があります。
第2に、今コンテキスト、つまり本当に750枚の画像のコンテキストを、キーバリューキャッシュ上のアクティベーションの終わりのないリストに保存するのではなく、内部MLPネットワークの学習構造、重み構造に変えることによって、メモリサイズは層ごとに一定になります。もはや二次複雑性はありません。今は単純な複雑性です。
線形スケーラビリティの実現
つまり、5枚の画像を当てはめても7,500枚の画像を当てはめても、内部MLPは、もちろん適切なサイズを選択しなければなりませんが、まったく同じサイズのままです。ただ、より多くの回数更新されるだけです。これは本当に美しいです。
私たちは文字通り、メイントランスフォーマーネットワークのフォワードパスに、第2の動的に適応するニューラルネットワークを埋め込んでいます。これは、メインネットワークまたはトランスフォーマー層のアクティベーションが、内部MLPネットワークのファストウェイトの訓練データとして機能するということです。考えてみてください。これは機械学習プロセス内で起こっている機械学習です。
私たちは、互いに絡み合った2つの異なる複雑性のAIマシンを持っています。大好きです。
もちろん、これを見たい場合は、ここに完全なプロセスがあります。ファストウェイトMLPがあり、クエリヘッド、ポイントヘッド、またはデプスヘッドのいずれかで、ポイントクラウド、デプスマスなど、慣れ親しんだものすべてがあります。しかし、1つの詳細に注目してください。お話ししたとおり、これに戻ります。この投影は非常に特定のものを使用しているからです。ニュートン・シュルツ自動正規化手法と呼ばれています。
ニュートン・シュルツアルゴリズムの役割
なぜでしょうか。正規直交部分空間を構築しなければならないとだけお伝えします。したがって、単に生の勾配を取る代わりに、勾配の共分散行列の逆平方根を反復的に近似して、更新ベクトルを完全に、ここで自動正規化します。すべての更新が独自の直交部分空間を取得します。
自動正規化によって更新を行うことで、ネットワークは、ドアノブの幾何学的特徴と窓の幾何学的特徴が、重みマトリックスの自動直交部分空間を更新し、互いに上書きしないことを保証します。したがって、MLPは、重みマトリックスの多くの直交部分空間を持つ、非常に効率的で密にパックされた、ホログラフィックメモリ構造と呼ぶことができるものになります。
もちろん、このMLPのサイズをタスクに適したものに保つ必要があります。750枚の画像を撮るだけなら素晴らしいです。しかし、10,000枚の画像を撮って、街を何時間も歩き回る場合は、もちろんネットワークのサイズを適応させなければなりません。しかし、これはうまく機能します。
想像してみてください。ドリフトしている車です。すべての画像があり、ここに完全な構造があります。
技術の限界
この新しい技術の限界は何でしょうか。もちろん、限界があります。お話ししたとおり、TTTファストウェイトには固定パラメータ容量があります。特定のサイズしかありません。パラメータ容量は層ごとに6Dの2乗であることがわかりました。
したがって、もちろん、固定サイズのマトリックスは無限の情報を保持できません。したがって、757フレームの通りや部屋をマッピングするには完璧に機能しますが、都市の100,000フレームを与えると、壊滅的な重ね合わせが発生します。スペースは文字通り、新しい幾何学的オブジェクトを保存するための直交サブベクトルを使い果たします。したがって、タスクに応じて次元を選択してください。
そしてもちろん、生成的なテクスチャというものがあります。簡単に言うと、ZipMapはすべてのオブジェクトの幾何学的構造を美しく圧縮します。しかし、ペイントを失います。なぜなら、単一のTTDニュートン・シュルツステップでは、表面の複雑なマイクロテクスチャを実際に計算したり幻視したりすることはできないからです。
時々、窓に少し反射があったり、環境を通過する太陽光の反射があったりします。したがって、それらのマイクロテクスチャには、それらの詳細のための新しい技術が必要です。ペイントを失うようなものです。
まとめ: 新しい3Dメモリの意義
そこで要約です。私たちには新しい技術があります。これは単なる高速アルゴリズムではありません。ニューラルネットワークが3次元空間を表現し、それと協働する方法の完全に異なる再構成です。トークンを使用して、物理空間を重みテンソル自体に実際に刻み込みます。もはや言葉の連鎖や言語的な命令、言語構造を使用することはありません。
いいえ、再び、私たちは速くなければなりません。環境をニューラルネットワーク自体のテンソル構造に本当に統合しなければなりません。人間の言語、人間の言葉を介した翻訳はありません。何もありません。ただ作成し、スキャンし、構築するだけで、線形計算複雑性を持つ幾何学的ワールドモデルが得られます。
これを再構成すると、私たちが見つけた幾何学的整合性は、本質的に、マルチビューシステム内のデータ圧縮問題に他ならないと言えます。これは聞こえるほど単純ではありません。しかし、私たちのMLP内に十分に表現力のあるパラメータ空間があり、ニュートン・シュルツアルゴリズムを書くのに十分安定したオプティマイザがあれば、ネットワークは750枚の画像のマルチビューステレオマッチング問題を、単にキーバリューペアを記憶しようとすることによって、暗黙的に解決します。
従来手法との決定的な違い
おととい、私たちはどうやっていたでしょうか。複数の画像にわたってピクセルをマッチングさせることを想定していました。かなり組み合わせ的で、クロスアテンションマトリックスを二乗して対応する点を見つけていました。これは、画像Aと画像Bで同じドアノブを見つけることを意味し、これが750枚の画像を接続する方法でした。
そして今、私たちは発見しました。ピクセルを経由する必要はありません。これは完全に間違った方法です。これは長く、負担の大きい方法です。そして今日から、私たちには完全に新しい技術があります。
さあ、次世代AIのための新しい3Dメモリ構造です。これが、例えば自動運転車や自律誘導システムなどに迅速に統合されることを願っています。なぜなら、これにはいくつかの実世界への影響があるからです。環境の幾何学を正しく取得するワールドモデルがあれば、AI内のAI、美しいMLPのテンソル構造に高速にエンコードできます。
表面反射やすべての詳細については、いくつかの最適化を行う必要がありますが、それ以外では、なんと素晴らしい新技術でしょう。この動画を楽しんでいただけたことを願っています。いくつかの新しい情報がありました。コンピューターインフラがあれば、ぜひ自分で試してみてください。とにかく、この動画が有益だったことを願っています。


コメント