本動画は、Google DeepMindが2026年4月18日に公開した論文を起点に、従来のTransformerが抱える「トポロジー上の問題」と、次世代AIアーキテクチャの可能性を考察する内容である。従来のTransformerは固定された層数を順に通過するフィードフォワード構造であり、深い推論や状態追跡に構造的な限界を持つ。動画では、Mambaや再帰型Transformer、Deep Equilibrium Model、ニューラルODE、随伴法などの研究を横断しながら、離散的な層構造から連続的な力学系へ移行する「Topological Flat Transformer」という構想を提示している。AIの思考過程をトークン生成から切り離し、リーマン多様体上の連続的なベクトル場として扱うことで、長い推論を少ないメモリで実行できる可能性を論じる、かなり数学・物理寄りの次世代AI論である。

Googleが示唆する新しいTransformerアーキテクチャ
こんにちは、コミュニティの皆さん。また戻ってきてくれて本当にうれしいです。Googleが私たちにまったく新しい論文を出してくれたと思います。そして私は、彼らが新しいTransformerアーキテクチャを示唆しているのではないかと思っています。ですから、この話をしましょう。
まず古典的なTransformer、つまり古いパラダイムについて話します。そこから連続フロー力学へ進みます。これは次世代Transformerにとって、ある種のブレークスルーです。そして、この方法論には驚くべき利点が2つあることをお見せします。
これを見たい場合、こちらはOpenAIの新しい画像生成器によるものです。そしてこちらはGoogleのものです。これは私のNano Banana Proです。ほぼ同じプロンプトですが、視覚化はまったく異なります。そしてCanvaに行って、少し動的な表現を求めると、こういうものが得られます。
しかし主論文はこちらです。これはGoogle DeepMindによるもので、2026年4月18日です。そしてGoogleはここでこう言っています。彼らは古典的なTransformerアーキテクチャを発明した企業です。ですから、彼らが何かを言うなら、私たちは耳を傾けるべきだと思います。
論文のタイトルは、The topological trouble with transformersです。これは素晴らしい論文ですが、行間に多くの情報が含まれています。
皆さんがGPT-5.4やGPT-5.5、Opus 4.7、あるいは何であれ使っていることは分かっています。これらはすべて古典的なTransformerアーキテクチャに基づいています。では、もしGoogleが、ある特定の点において本当に驚異的な、完全に新しいアーキテクチャを発明したらどうでしょうか。
なぜなら、Transformerは拡張されていく文脈履歴を通じて、シーケンス内に構造をエンコードするからです。しかし、その純粋なフィードフォワード・アーキテクチャは、動的な状態追跡を根本的に制限します。
状態追跡とは、進化し相互作用する環境を反映する潜在変数を反復的に更新することです。そしてそれは本質的に、フィードフォワードネットワークが維持するのに苦労する逐次的依存関係を伴います。
これはその研究からの引用です。そしてこれはただちに緊急アップデートのようなものを示しています。彼らはこう言っているわけです。おっと、古典的なTransformerアーキテクチャのフィードフォワード構造で、何かが起きようとしているぞ、と。
再帰構造と止まっていた研究の流れ
私たちは再帰構造について話してきましたよね。2年前には、たしかGammaについて話しました。LSTMやXLSTMに基づくものについて話しました。1年前には、それがTransformer LLMより優れているのかについて話し、9か月前には、すでに再帰型Transformerについても話しました。
さて、block recurrent transformerの主論文を覚えていますか。これもまた、何とGoogleとGoogle Research、それからSwiss AI Labによるものです。これは2022年11月のものです。そして、この開発はどこかで止まってしまったように見えますよね。
彼らはまさにここで、block recurrent transformerについて話していました。そこではTransformer層がシーケンスに沿って再帰的な形で配置されています。そして、どうでしょうか。シーケンス長に対して線形計算量を持っていたのです。
彼らはすでに、MLPから再帰セルを開発していました。そしてここには出力トークン埋め込みがあります。しかしどういうわけか、この開発は止まってしまいました。そして今、突然Googleからこの論文が出てきたのです。
彼らはこう言っています。私たちは、再帰型および連続型Transformerアーキテクチャの分類体系を導入し、それらを再帰軸によって分類します、と。これはつまり、深さ対ステップ、そして入力トークン数と再帰ステップ数の比率によって分類するということです。
これで、彼らが何を見ているのかが正確に分かります。彼らは古典的なTransformerにおける異なる層の深さを見ているのです。
ここで皆さんはすぐに、ああ、Mambaか、と思うでしょう。いえ、それほど簡単ではありません。もちろん、2年前にはMamba AIとA6について話しました。個別化医療についても話しました。そして、DPOでアラインされたMamba A6も見つけました。さらに古典的なTransformerと組み合わせたオープンソースのMambaもありました。
これはハイブリッド構造でした。私たちはそれをJamba、つまりハイブリッドMamba-Transformerアーキテクチャと呼びました。しかしこれはすでに2年前の話です。では、今いったい何が起きているのでしょうか。
今、私たちは、たとえばMambaのような状態空間モデルは、シーケンスに沿った時間方向では再帰的である一方で、層をまたぐ深さ方向では依然としてフィードフォワードであることに気づきつつあるのだと思います。
そしてGoogle DeepMindのこの新しい論文を読むと、彼らはこれを変えたがっているように感じます。見ていきましょう。
彼らの論文は、これらのモデルが依然としてTransformerと同じトポロジー上の問題に苦しんでいることを明らかにしています。標準的なMambaやKey-Valueスタック、つまり私たちの層は、依然として直前の層の出力しか見ていません。そしてそれらは、言ってみれば依然として有向非巡回グラフにすぎません。
それらは、さらにトークンを生成することなしに、単一トークンの内部で思考を同期させることができません。これが私たちの古典的なChain of Thoughtです。
では、2026年のRFMがどうなり得るか、少し考えてみてください。おそらく私たちは、隠れ状態が同じパラメータを通って、論理的な停止点に到達するまで反復するような、垂直方向の再帰へ向かっているのかもしれません。そしてこのテーマに関する新しい論文もあります。
論理からトポロジーへ
これはまったくの偶然です。ちょうど2日前に、フランス・パリにあるHuawei LaGrange Centreからこの論文が出ました。これはデータセットのトポロジカル双対に関するものです。そしてこちらは、AlphaGeometryスタイルのデータに対する論理からトポロジーへのエンコーディングの試みです。
しかし、この論文の方法論はただただ美しいものでした。この論文で著者たちは、入力空間の変換のもとで、モデルの潜在空間にある構造的不変量を明らかにするよう設計された、logic-to-topology encodingを提案することで、表現上のボトルネックに取り組んでいると述べています。
皆さんは、ああ、それは知っているよ、と思うかもしれません。前回の動画で私はすでに、AI的思考のスペクトル・プリミティブについて話したものを示しました。私たちはスペクトル理論、多様体学習、関数解析を使いました。そして、これが現在のskill markdownファイルにある、人間が定義したスキルの終わりかもしれないと言いました。
しかし今、私たちはさらに一歩進みたいのです。トークンを思考プロセスそのものから切り離したいのです。なぜなら、現在のモデルでは、1トークンが1回のフォワードパスだからです。そしてモデルがさらに考える必要がある場合、私たちは強制的に、あの有名な、さあ一歩ずつ考えましょう、という出力をさせます。
これが外部化された再帰と呼ばれるものです。これは遅く、高価であり、もちろんコンテキストウィンドウによって制限されます。ですから、コンテキストウィンドウが100万であろうと200万であろうと関係ありません。そこが本質ではないのです。
もしGoogleがここで、新しい基盤モデル、アーキテクチャ上の新しいシフトを示唆しているのだとすれば、それは静的計算からの移行です。つまり、すべてのトークンが同じ量のギガフロップスを受け取る仕組みから、AIモデルが知的エネルギーを、多様体の曲率が最も高い場所に費やすような適応的再帰へ移行するということです。前回の動画を見てください。これはゲームチェンジャーになります。
2024年、2025年のMambaでは、時間方向に沿ったシーケンシャルな線形スケーリングがありました。論理は層数によって制限され、Chain of Thoughtが必要で、数学的基盤は線形代数でした。
しかし、この新しいアイデアは異なります。推論の深さにおける論理的スケーリングがあります。時間方向には逐次的であり、層方向には再帰的です。制限されるのは時間だけであり、まったく異なる形で深い思考が可能になります。そして、これに基づく完全に新しい数学的土台を構築しなければなりません。冒頭、そして前回の動画でお見せしたように、微分幾何学、トポロジー、ODEです。
フィードフォワードTransformerから再帰型基盤モデルへ
私はある感覚を持っています。何らかの形で、私たちはフィードフォワードTransformer、つまり古典的アーキテクチャから、再帰型基盤モデルへ移行していくのだと思います。
これはつまり、現在の古典的Transformerにある離散的な空間論理から、RFM、つまりRecurrent Foundation Modelにおける連続的な時間知能へ移行するということです。
考えてみてください。Transformerでは、すべての入力、すべてのトークンが固定された数のステーションを通過しなければなりません。たとえば96層あるとしましょう。タスクが簡単でも、依然として96層を通ります。そして、タスクが計算量理論のように不可能なほど複雑であっても、それでも96層しか与えられません。
つまり、AIモデルの深さが、適用できる論理の深さに対するハードキャップになっているのです。
RFM、つまり再帰型基盤モデルを使うと、状況は大きく変わります。トークンは、言ってみれば計算室に入ります。もちろん、それは再帰ブロック構造になるでしょうが、これについては2分後に詳しく話します。
モデルは問題の状態を分析します。そして、それが単純であれば、トークンは2回の反復後に退出できます。複雑であれば、そのトークンはこの数学空間、計算空間に留まり、同じ重み共有パラメータを、たとえば500回や700回反復します。
突然何が起きるか分かりますか。もはやTransformerの層の深さが事前定義されているわけではありません。代わりに再帰構造があります。もしかするとブロックは1つだけで、その単一ブロックを500回実行するだけかもしれません。
これが計算時間に何を意味するか分かりますか。これがメモリ、VRAMに何を意味するか分かりますか。
Transformerは一定深さの回路です。簡単に言いましょう。計算量理論では、TransformerはTC0、つまりしきい値回路ゼロに相当します。大規模な並列化はできますが、本質的に逐次的なタスクには苦戦します。内部でループすることはできません。できるとしてもトリックを使うだけです。
RFMは、状態を持つwhileループです。内部で条件分岐ロジックを本当に実装します。これについてはすぐに詳しく説明します。
コード例が欲しいなら、RFMには単純な1行があります。Transformerのように、層1に依存し、次に層2に依存し、そこから層95まで進み、最後に層96へ行くという依存関係はありません。そのすべてがもはや必要ありません。なぜでしょうか。
幾何学的視点から見るTransformer
ここで幾何学的な視点に移りましょう。Transformerでは、入力ベクトルH0が1つの層から次の層へと跳ね渡されます。各層は固有の変換です。ご存じのように、ベクトルを多様体上の新しい位置へ移動させる数学的関数です。少し回転させるかもしれません。何であれ、前回の動画でこれを見ました。
各層の重みは異なるため、ベクトルは、たとえすでに解を見つけていたとしても、本質的に前へ進むことを強制されます。
ここで、ある特定の多様体上のアトラクターへの流れを持つとすると、モデルは突然ベクトル場として定義されるようになります。つまり、離散構造から連続構造へ移るのです。入力は単に、その場に置かれた粒子です。
そしてモデルのスケールは、空のscaleファイルの中にあるわけではありません。モデルのスケールはジャンプにあるのではなく、固定点にあるのです。
これはつまり、少し粒子物理学や理論物理学のことを考えてくださいということです。粒子はいま、多様体の線に沿って流れ、アトラクターに到達するまで進みます。そしてアトラクターは、もちろん私たちの望ましい解です。
だから私はNano Banana Proにこれを作るよう頼んだのです。ここに古いステップ・バイ・ステップの96層があります。そこではすべての層を1つずつ通過しなければなりません。これはΔt = 1であることを思い出してください。つまり、これは一種のODEですが、非常に悪いソルバー、つまりEuler法を使っているようなものです。
これを変え、理論物理学から入っていくと、私たちは気づきます。熱力学でも、完全な流体力学でも気づきます。もし離散的Transformerから、Transformer内の連続フローレベル力学へ移行すれば、私たちはリーマン多様体上で操作することになります。
前回の動画でお見せしたような測地線があります。そして私たちのニューラルベクトル場は、いまや連続場です。そしてどうでしょうか。微分できます。したがってODEソルバーが必要になります。
これにはただちに2つの利点があります。ステップサイズ調整です。複雑性の外側にいるときには、本当に巨大なステップを取ることができます。しかし複雑性に近づくと、何百、何十もの精密なマイクロステップを取ることができます。
しかし、最も美しいのは、理論物理学に由来する随伴法です。逆時間でのバックプロパゲーションです。見ていきましょう。
静的計算からニューラルODEへ
これらはEulerステップだとお話ししましたよね。静的計算です。これは古いパラダイムです。これが現在の私たちの状況です。
そしておそらく、ニューラル常微分方程式ソルバーの方向を見ていくべきでしょう。少し数学をして楽しみましょう。
数学的には、残差接続を持つ標準的なTransformer層は離散ステップです。HのL+1は、HのLに、特定の層の固有重みと状態に依存する関数を加えたものになります。
モデルがL層を持つ場合、状態HはL回しか変換できません。さらに多く思考するためには、さらに多くのθ、つまりより多くのパラメータが必要になります。そしてそれはメモリ増加につながり、やがてメモリ爆発につながります。
ここで、連続RFMのアイデアです。L個の固有層のスタックを、単一の再帰ブロックに置き換えます。これは非常に大きなことです。Transformer内に96層はもうありません。この新しいアーキテクチャの主要部分として、1つのODE再帰ブロック構造があるのです。
しかし見てください。とても似ていますよね。ただし注意してください。今、私たちは新しい演算子、あるいは新しい関数を持っています。パラメータは一定です。
つまり、モデルはたとえばK回反復します。Kはパラメータブロック数よりもはるかに大きくできます。これが重み共有再帰システムと呼ばれるものです。
著者たちはこれをさらに進めて、層を連続時間変数Tとして扱います。すると突然、AIモデルの深さは積分時間になります。変換は、皆さんが知っている常微分方程式によって定義されます。ここに1つあります。
問題を解くには、状態をT=0から大文字のT、つまり到達したい時刻まで積分するだけです。皆さんは、これは簡単だ、と言うかもしれません。もちろんです。唯一遭遇し得る問題は、正確にいつ止めるべきかということです。
有限個の層がないため、いま私たちは収束基準を必要とします。たとえば、ΔH、つまり私たちの状態のノルムが、ある特定のパラメータεより小さくなるべきだ、というようにです。
The topological trouble with transformersの論文の著者、つまりGoogle DeepMindは、このトポロジー上の問題は、Transformerでは出口が層Nに固定されているために生じると述べています。しかしRFMでは、出口は動的です。
私たちはいま、離散システム、つまりEulerから、連続システム、つまりODEへ移行しているため、状態追跡が変わります。
モデルは隠れ状態のエントロピーへ進むかもしれません。アトラクター検出があります。状態変動の時間微分がゼロに等しくなる、またはゼロに近づくと、モデルはこの特定の多様体上の固定点に到達したことになります。これはこの動画の冒頭でお見せしたものです。
少し数学を知っているなら、内部のヤコビアンについて分かるでしょうし、これも示されています。著者たちは、再帰ブロック後のヤコビアン行列のスペクトル半径を用いて、システムが安定していることを保証します。つまり、爆発しない、消失しない、あるいは私たちが見たくない勾配挙動を起こさないということです。
ですから今、私たちは理論物理学から知っている数学的知識の領域にいます。もし数学を学んだことがあるなら分かるでしょう。そして今、私たちはこれを新しいTransformerアーキテクチャに適用しようとしています。
DeepMind論文の先を読む
私が、パリのHuawei Lab Centreから出た4月20日の美しい研究について話したことを覚えていますか。それは、フィードフォワードTransformerが動的ステップを追跡する際にステップ枯渇に苦しむことを証明しています。そして、そのアーキテクチャは表現をより深い層へ押し込むため、数学的にまったく非効率だと主張しています。
ですから、この論文はDeepMindの論文と意味的に一致していると言ってよいでしょう。
Google DeepMindはここで止まっています。解決策は教えてくれません。しかし、私たちはここに知的な集団として集まっています。そして私は理論物理学について少し知っています。皆さんは数学について少し知っています。ですから、続きを進めましょう。
Carnegie MellonとIntelによる2019年の論文、Deep Equilibrium Modelsを覚えていますか。彼らはすでに、Googleが数日前に止まった地点にとって、いま絶対に重要になるものを見ていました。
なぜなら彼らはすでに、既存の多くの深層シーケンスモデルの隠れ層が何らかの固定点へ収束するという観察に動機づけられていたからです。Carnegie Mellonの著者たちは、根探索によってこれらの平衡点を直接見つけるDeep Equilibrium Modelアプローチを提案しました。
そして彼らは、驚くべきことを述べています。このような方法論は、無限深度の重み共有フィードフォワードネットワークを実行することと同等である、と。ただし、暗黙微分を用いることで平衡点を通じて解析的にバックプロパゲーションできるという顕著な利点を持つ、と。
つまり、彼らはこのための数学を見つけたのです。そして私はこれが、無限深度の重み共有ネットワークに関する基礎論文だと思っています。2019年です。この新しいTransformerの登場によって、だいたいどこで止まってしまったのか分かりますよね。私たちは何年も前に、ここまで近づいていたのです。
いずれにせよ、私たちのDEQでは、ネットワークに層はありません。安定した固定点、つまりアトラクターを探します。そしてモデルが実際にこのアトラクターを見つけ、幻覚したり数学的に爆発したりしないことを保証するために、再帰ブロックのヤコビアン行列のスペクトル半径を厳密に制御しなければなりません。
ここでもまた、彼らが初めてこれを示したのだと思います。たぶん2019年です。もし私が間違っていて、2019年より前の出版物を見つけたら、ぜひコメントを残してください。そうでなければ、私は常にこれを基礎論文として参照します。
あるいは、連続ODEについては、負の実固有値を持つことです。彼らはこれを、フォワードパスとバックワードパスについて、美しい数学的形式で示しました。そしてここで逆ヤコビアンを正確に計算しています。
私たちはこの2019年の洞察を使い、Google DeepMindが数日前に止まった地点から先へ進めます。なぜなら、当然ですがGoogleはこれを知っています。そして彼らはすでに2019年に、典型的な深層ニューラルネットワークだけでなく、Deep Equilibrium Modelも構築していました。
そしてご存じのとおり、当時すでに彼らは、Deep Equilibrium Modelは解析的なバックワードパスのおかげで、従来のディープネットよりもはるかに少ないメモリで動作すると述べていました。
そして今、私は少し狂ったようにこう言います。2019年のこの知識を取り、Googleが新しい結果を示すところで止めたその地点から、さらに構築を続けようではないか、と。
Topological Flat Transformerという構想
短くまとめると、こちらが古典的Transformerアーキテクチャです。Eulerステップ、古いパラダイムです。離散的Transformerアーキテクチャがあり、深さは固定されています。フィードフォワードループに問題があります。深い推論を行うと、本当の問題を生み出す深度枯渇があります。そして静的計算で、多くのメモリを消費します。
ここでのアイデアは、単一の連続ODEブロックへ進むことです。私はこれをTopological Flat Transformerと呼んでいます。なぜなら、そう考えたからです。これは1つのブロックしか持たないのでフラットなTransformerですが、まったく新しいトポロジーを実装しています。
なぜなら私たちは今、理論物理学の観点から、連続流体力学によって操作しているからです。そして、このための数学はすでにあります。リーマン多様体上でどのように移動するかを正確に知っています。測地線を計算する方法を知っています。ニューラルベクトル場についてすべて知っています。そしてPythonライブラリにはODEソルバーがあります。
複雑性領域に入るときに、美しい適応ステップサイズがあることはすでにお話ししました。しかし本当に最も重要なのは、Googleのおかげで私が再発見したことです。私は頭の中で、そうだ、この方法論を覚えている、物理学では熱力学でいつもこれを使っていた、と思いました。
物理学には随伴法と呼ばれるものがあります。しかし私は、これをAI文献でも見たことがあると覚えていました。そしてこれが、メモリ爆発がゼロになるという利点です。見てみましょう。
2019年にも、皆さん覚えていると思いますが、University of TorontoによるNeural Ordinary Differential Equationsという論文がありました。そして覚えているでしょう。これは、私たちがこの多様体上をどのように移動するかを定義する対象です。
もはや古典的なEuler的な方法で、Transformerの層から次の層へ、クロスアテンションへ、マルチヘッドセルフアテンションへ、というように層から層へ移るのではありません。いま私たちは、そのために開発された連続数学を持っています。
そしてこれは、私が見る限り、2019年に最初期のものの1つでした。Transformerにおける隠れ層の離散的な列を指定する代わりに、著者たちは、ニューラルネットワークを使って隠れ状態の導関数をパラメータ化すると述べました。そしてこのネットワークの出力は、ブラックボックスの微分方程式ソルバーを用いて計算されます。
そして連続深度モデルは、これも2019年ですが、一定のメモリコストを持ちます。データセンターや巨大な計算センターの時代に、突然、一定メモリコストの方法論を見つけるところを想像してください。
勾配計算のために、もはやスーパーコンピューターは必要ありません。ただし、この話については後でもう少し詳しく述べます。
彼らは各入力に対して進化戦略を適応させ、数値精度と速度を明示的にトレードオフできます。そしてこの論文の著者たちは、連続適応型残差ネットワークと連続時間潜在変数モデルにおいて、これらの性質を実証すると述べています。
そして第2段落です。これが初めてのもので、私はGoogleのおかげでようやく見つけました。見たことがあるとは知っていたのですが、思い出せなかったのです。Gemini 3.1 Proのおかげですぐに見つかりました。
ここに随伴状態計算があります。私の知る限り、これは理論物理学のODE解法における随伴状態法を、AIモデルに適用した最初の公開方法論です。もし私が間違っていて、2019年以前の論文を知っている、あるいはそのような論文に取り組んでいたなら、リンクでもコメントでも送ってください。あなたの研究を参照できるようにしたいのです。私にとっては、これが最初でした。
随伴法と理論物理学からの移植
随伴法。これは、言ってみれば最も重要な新しいステップです。そう、私はずるをしています。理論物理学の知識に頼っているのです。なぜなら私たちは熱力学でこれを使っているからです。そして今、私は理論物理学のこのアイデアをAIに適用しています。
ですから、私は何か新しいものを発明しているわけではありません。彼らがここで行ったように、方法論を使い、それをこちらへ持ってきているだけです。
見て分かるように、随伴感度法を用いて勾配を計算するという基本的な考え方は、1962年に起こりました。これは理論物理学で起こったことです。そして2019年に、それをAIへ持ち込んだのです。
PDE制約最適化と随伴法に興味があるなら、これは非常におすすめできる論文です。2024年のものです。これはStanfordのものだと思いますが、完全には確信していません。リンクは説明欄に置いておきます。
ここには、随伴法の動機、すべての導出について、数学的に深い説明があります。制約と随伴方程式の関係、偏微分、PDE制約最適化問題、これらが美しく構造化された形で与えられています。私たちがここで必要とする時間依存問題、1階問題もあります。完全な計算も示されています。
さらに、制約と随伴方程式の関係、単純な閉形式の例、2階問題に対する随伴法もあります。これをYouTube動画で説明しきることはできないので、少なくとも私の学習に役立ったこの文書を皆さんに提供したいと思います。そして皆さんの役にも立つことを願っています。
これらが参考文献です。ご覧のように2003年のものもあります。コメント欄に残しておきます。ですから、少し深掘りして、随伴法とは正確には何なのか、なぜ機能するのか、どのように機能するのか、なぜ人工知能に適用すべきなのかをさらに理解したいなら、これが皆さんの学習に追加情報を提供してくれることを願っています。
本題に戻りましょう。
ヤコビアンのスペクトル半径と随伴法
随伴法は単純ではありません。少し楽しみながら遊んでみる必要があります。そこで、ヤコビアンのスペクトル半径と随伴法について話しましょう。
なぜなら、この2つこそ、研究者が次世代Transformerアーキテクチャを実行するために使うべき正確な数学的ツールだからです。この2つの要素を理解していれば、他の人たちに対して大きな優位性を持つことになります。
随伴感度法は1962年に物理学から生まれました。しかし私たちには別の問いがあります。プロセスの最初でパラメータを少し変えたら、最終結果はどれだけ変わるのか、という問いです。
そして皆さんは、これはAI、つまりバックプロパゲーションだけに有効だと思うかもしれません。違います。これは前世紀の理論物理学で私たちが抱えていた問題です。つまり、知識を再利用しているだけなのです。
ロケット科学の例を挙げたいと思います。あなたが航空宇宙エンジニアで、月の特定座標に到達するためのロケット打ち上げをシミュレーションしていると想像してください。
私たちの飛翔体の軌道は、重力、推力、空気抵抗などを組み合わせた複雑な微分方程式によって支配されています。美しいですね。
しかし、前回の動画でどこにたどり着いたか覚えていますか。私が定義したスキル、つまりモデル固有の起源スキルとは、潜在多様体上の高固有値の固有ベクトルです。このことを覚えておいてください。
ここで、ロケットが月面の目標をたとえば500キロ外したとしましょう。これはもちろん私たちの損失関数です。そしてこの損失を計算しなければなりません。
昔であれば、システム全体に1万個の設計パラメータがありました。地球、大気、風、雨、雷、近地球軌道などです。燃料混合、形状、その他何でもです。1万個の設計パラメータがあり、どの対象、どのパラメータを最適化すべきか分かりません。損失を修正するために、どのパラメータをどれだけ調整すべきか知る必要があります。
コンピューターシミュレーションを行って、1万個のパラメータをいじることもできます。しかし昔は、それを行う計算能力がありませんでした。
素朴な方法は有限差分でした。パラメータ1を、たとえば1%変えます。そして3日間の飛行シミュレーションを再実行します。次にパラメータ2を変え、そのシミュレーションを再実行します。ええ、退屈極まりないですね。
ロケットの影としての随伴状態
ここで、AI的な方法である時間を通じたバックプロパゲーションを理解できます。シミュレーションを1回実行しますが、この3日間の飛行のすべてのミリ秒におけるロケットの正確な座標、速度、圧力を、巨大なハードドライブやGPUメモリに保存します。そして巨大な履歴を通じて連鎖律で逆向きに進みます。これはメモリ爆発を引き起こします。しかし運がよく、メモリを買うための莫大なお金があるなら、解を見つけられるかもしれません。
あるいは、そしてこれが流体力学から来る美しい洞察ですが、随伴法を使います。
単に随伴状態、つまり数学的な影のロケットを作るのです。すべてのフォワード履歴、すべての細部を保存する代わりに、影のロケットを月面の墜落地点から開始し、物理法則を逆向きに実行して発射台へ戻します。
この影のロケットが時間をさかのぼって飛ぶにつれて、1万個すべてのパラメータの感度を同時に拾い上げます。利点は何でしょうか。メモリコストはほぼゼロです。計算コストは、たった1回の後方飛行です。
このロケットの例をニューラルODEに翻訳しましょう。変数を定義します。システムの状態、これはロケットの位置、あるいはAIの隠れ思考表現であり、H(t)です。
次に、システムのすべてのパラメータがあります。角度、ネットワークの重み、その他何でもです。そして先ほど言ったように、私たちはEulerステップでは進みません。今はベクトル場で操作しています。
ですから、物理法則、重力、あるいはニューラルネットワーク層があります。そして最終時刻Tで評価される損失関数があります。ロケットが月の間違った目標に墜落したときです。
随伴状態を非常に簡単に言うと、特定時刻Tにおける隠れ状態に対する損失の勾配として定義されます。つまり、打ち上げからちょうど212秒後にロケットが1ミリ左へ押されていたら、最終的な衝突位置はどれだけ変わっていたか、ということです。
ここで私たちが持つのは、後方随伴ODEです。そしてフォワード状態H(t)が微分方程式によって支配されるのと同じように、どうでしょうか。随伴状態A(t)も独自の微分方程式によって支配されます。それは、感度がどのように時間を逆向きに流れるかを規定するものです。そしてこれこそが、私たちが解かなければならない数値シミュレーションです。
しかしこれは簡単です。なぜなら、随伴方程式を時間を逆向きに解いていくとき、Transformerの重み、層の重みがベクトル場にどのように影響するかを、経路に沿って積分しながら連続的に計算し、バックプロパゲーションのための最終勾配を得るからです。
ODEソルバーは、どのPythonにもあります。SciPyなら、たとえば5/4次のRunge-Kutta法など、好きなものを使えばよいのです。このためにどの数学ツールを使うかに非常に敏感な人たちがいるのは知っています。ただ、SciPyには無料で使えるものが1つありますよ、と言いたいのです。美しいですね。
覚えておいてください。これは1980年のもので、1986年には、今AIにも使っているODEソルバーの数学的最適化がありました。なぜなら、ネットワークはいま連続ベクトル場だからです。もはや層と層の間のステップではありません。
ODEがもたらすトポロジー上の安全性
数学では、Picard–Lindelöfの定理があります。それは、よく振る舞うODEでは軌道が決して交差しないことを示します。私たちにはこれが必要です。なぜならODEを使うことで、どのAIにおける思考の流れも、滑らかで交差しない変形であることが数学的に保証されるからです。
私たちは微分同相写像について話しています。したがって、その時間区間の全体にわたって、論理は完全にもつれないまま保たれます。そしてこのトポロジー上の安全性は、離散層では保証できません。
つまり、連続体への切り替えは、純粋数学で過去200年間すでに調べられてきた微分同相写像からの利点をもたらします。信じられないほど賢い人々が、何百年も前にこれらすべての計算を行っていたのです。
したがってこれは、ODEがTopological Flat Transformer計算のための必須エンジンになることを意味します。
学生たちに見せるのが好きな別の例を挙げたいと思います。Formula 1カーにおける流体力学です。Formula 1では、空力最適化のために随伴法が広範に使われています。
彼らが何千、何万回も計算していると思うかもしれません。違います。システムがあります。これは特定の車の上を流れる気流です。有名な連続的Navier-Stokes ODEですね。損失は、たとえば抗力係数です。私たちはこれを非常に小さくしたいわけです。
そしてパラメータは、このFormula 1カーのボディワーク表面のあらゆるミリメートルの完全な3次元座標です。
抗力を減らすために、1万台の少しずつ異なる車をシミュレーションするわけではありません。彼らは、車の上を流れる空気のフォワードシミュレーションを1回実行し、その後、随伴場を計算します。
つまり、車の後方、後流の部分に随伴空気粒子を数学的に注入します。月面の墜落地点のようなものです。そしてそれらをフロントバンパーへ向けて逆向きに流します。ここでは負の時間に沿った発展を計算します。そのための数学はあります。
この逆向きに流れる随伴場が車体表面にぶつかるところが、抗力を生み出している正確な形状を完璧に浮かび上がらせます。つまり、1回の逆解法で、エンジニアたち、あるいは誰であれ、3Dメッシュ全体に対する勾配を得られるのです。
このように、私たちはこの方法論を機械学のような領域、Formula 1カーにも使っています。そして今、まったく同じアイデアを使って、次世代Transformerの力学、つまり微分方程式を解こうとしているのです。
AIにおけるO(1)メモリの奇跡
これには、信じられない追加の利点があります。それはAIにおけるオーダー1の奇跡、メモリの奇跡と呼ばれるものです。
Topological Flat Transformerに話を戻しましょう。もし5000ステップ考える標準的な深層学習モデルがあると、PyTorchは5000個すべての中間活性化テンソルをVRAMに保持しなければなりません。連鎖律が5000番目のステップを4999番目のステップへ、さらに4998番目のステップへとリンクできるようにするためです。考え方は分かりますよね。
ニューラルODEと随伴法を使うと、何が得られるでしょうか。
フォワードパスがあります。ODEソルバーが、思考プロセス、つまり多様体上の複雑性を、始点から終点まで計算します。そして中間ステップをすべて削除します。いいえ、私は狂っていません。なぜなら、最終的な思考だけを保持する理由があるからです。
次に損失計算があります。最終時刻TにおけるH、つまりシステムの状態を正解と比較します。そしてバックワードパスがあります。時刻Tにおける随伴状態Aを初期化します。つまり、ODEソルバーにニューラルネットワークを逆向きに実行するよう指示します。
そしてH(t)という隠れ状態と、A(t)という随伴状態を同時に再計算しながら、逆向きに進みます。
しかしここで驚いてください。システムはいま決定論的です。テンソル構造の完全な履歴を保存する必要はありません。単に数学的に時間を書き直し、それを計算できるのです。
私たちの連続ODEブロックを訓練するために必要なメモリは、オーダー1です。つまり一定です。これはデータセンターに対して含意を持ちます。
なぜなら、10ステップ推論するモデルを訓練する場合と、1万ステップ推論するモデルを訓練する場合で、まったく同じ量のGPUメモリしか必要としないからです。私たちはシステムの数学的知能を改善しただけなのです。
これが理論的には、私はここで動画を作っているだけで、これを実際に運用するための10億ドルを持っているわけではありませんが、2026年末から2027年のモデルに、勾配を保持するためだけにスーパーコンピューターを必要とせず、巨大な時間的拡張認知を実行させる可能性をもたらします。
どうでしょうか。私たちは、空力学の数学を使って、人工的思考のトポロジーを最適化しているのです。
そして私は、これらのODEが、思考プロセスを滑らかにし、動的にスケールさせ、完璧にもつれない状態にするために必要な、美しく厳密な物理学を与えてくれると思います。背後にはいくつかの数学的定理があります。そしてハードウェアを爆発させることなく、無限に深くできます。
では、どうやってこれを達成するのでしょうか。古典的Transformerの層における離散的なEulerステップ、離散層から、連続ベクトル場へ移行するのです。
時には解はとても単純になり得ます。想像力を少し進めてください。連続流体力学へ進み、Transformer計算をリーマン多様体上の連続力学系へ変換します。そこには多様体上の最適経路、つまり測地線があります。そして運が良ければ、何百年も前からある数学と理論物理学の完全な知識を使うことができます。
これは、私が試してみたOpenAI image 2.0の別の画像で、ここでお見せしたいものです。入力としてNano Banana Proの画像を与え、複雑性を高め、視覚的により密度の高いものにしてほしいと言いました。これがOpenAI image 2.0が提供したものです。雰囲気を感じてもらうためです。OpenAI imageもそれほど悪くないと思います。
トークン生成から幾何学的流体力学へ
しかし、この簡単な動画で私たちが達成したことをもう一度強調させてください。このアーキテクチャは、認知プロセスを、Googleによる古典的Transformerの自己回帰的トークン生成から切り離します。
離散的な統計的次トークン推論を、驚いてください、潜在空間内の決定論的な幾何学的流体力学へ置き換えるのです。そして最終的な表現の時点でのみ、確率分布を投影します。
私たちは本当に、これらすべての幻覚を取り除くことができるのでしょうか。どんなAIシステムの潜在空間においても、決定論的ODEソルバーによる幾何学的流体力学へ本当に前進できるのでしょうか。
この技術を適用し、1960年代以来、数学と理論物理学から得てきた洞察を適用し、結果の最終表現においてのみ確率分布を投影し、そこでのみ使うことで、AIシステム、とりわけ長い推論トレースにおける性能向上に何を意味するか想像できますか。
この動画を少しでも楽しんでもらえたならうれしいです。私はGoogle DeepMindやCarnegie Mellon Universityによる最新の発表を超えたところへ行きたかったのです。
複数の論文を横断的に読むなら、1本や2本の論文に自分を限定しないなら、心を開き、次世代AI Transformerをどのように構築し続けるかを想像しようとするなら、文献の中にも非常に多くの天才的なアイデアが見つかることを示したかったのです。そして時には、それらを組み合わせるだけで、素晴らしい新しいアイデアにたどり着けます。
次の動画でお会いできることを願っています。


コメント