DeepSeekが構築した新しいトポロジカルTransformer

DeepSeekが発表した新しいトポロジカルTransformerアーキテクチャに関する解説である。本研究は、従来のTransformerにおける残差接続(residual connection)の限界を克服し、情報の流れを最適化する画期的な手法を提案している。具体的には、1946年に数学者Birkhoffが発見した双確率行列の理論を応用し、多様体制約付きハイパーコネクション(Manifold-constrained Hyperconnection)という新たな層間接続メカニズムを構築した。この手法は、残差ストリームを単一レーンの高速道路から4レーンのスーパーハイウェイへと拡張し、各レイヤー間で情報を動的にルーティングしながらも、勾配の消失や爆発を防ぐ数学的制約を維持する。注目すべきは、この新アーキテクチャがGoogleが最近発表したメーターコントローラー付きTransformerと補完的な関係にあり、両者を組み合わせることでさらなる性能向上が期待できる点である。本研究は、70年以上前の数学理論が現代のAIアーキテクチャ最適化に応用される好例であり、2026年のAI基盤モデル開発における重要な方向性を示している。

DeepSeek build a New Topological Transformer

DeepSeek build a new topological transformer, that is beautifully compatible with the new Transformer architecture from ...

DeepSeekの新しいトポロジカルTransformer
残差ネットワークにおける恒等写像の重要性
ラムダによる接続の変化と勾配の挙動
ハイパーコネクションの導入と課題
多様体射影による恒等写像の復元
数学理論の応用とその歴史
DeepSeekの多様体制約ハイパーコネクション
次元圧縮と計算コストの最適化
学習可能なルーティングの本質
GoogleとDeepSeekの補完的な関係

DeepSeekの新しいトポロジカルTransformer

こんにちは、コミュニティの皆さん。お会いできて嬉しいです。DeepSeekから全く新しい研究成果が発表されました。彼らは私たちのAIのために新しいトポロジカルTransformerを構築しました。私のチャンネルDiscoveryへようこそ。最新の論文を見ていきましょう。ほんの数日前に、Googleも新しいTransformerを発明したという動画をお見せしましたが、何と彼らは互換性があるんです。

Googleの方は覚えていますか。メーターコントローラーがありましたね。レイヤー4の後で残差ストリームを取り出して、別のエンコーダー・デコーダー型の人工知能を追加するとお話ししました。さて、今度はDeepSeekがこの残差ストリームを取り出して、データ情報のハイウェイとしてこの残差ストリームを最適化しているんです。

これらのシステムは美しく互換性があります。皆さんが何を言おうとしているか分かっています。Transformerアーキテクチャにおける信号伝播理論から始めましょうと言いたいんですよね。では、Transformerの層はどのように接続されているのでしょうか。これについて深く掘り下げていきましょう。

残差ネットワークにおける恒等写像の重要性

読むべき論文があります。2016年の「深層残差ネットワークにおける恒等写像(Identity Mappings in Deep Residual Networks)」です。これはHeらによるもので、スキップ接続として知られる恒等写像を使用し、加算後に活性化を行うことについて書かれています。

2016年は、深層残差ネットワーク、つまりTransformerアーキテクチャに恒等写像が必要だと開発された時期でした。従来のネットワークでは何が起こるでしょうか。これは伝言ゲームです。中国のささやき、ドイツ語ではポストと呼ばれています。人1が人2に何かをささやき、人2が人3に何かをささやきます。

各人がほんの少しずつメッセージを修正していくことは分かっていますよね。でも人1000に到達する頃には、メッセージ自体は完全に意味不明になっています。完全なノイズです。情報は完全に失われてしまいます。つまりこれは乗算なんです。なぜなら、各レイヤーが信号を0.9倍すると、0.9の1000乗でゼロに到達してしまうからです。

信号が完全に消失してしまいます。これは私たちが望むものではありません。そこで、ここに残差接続、つまり恒等写像を構築します。人1が人2に、元のメッセージが入ったロックされたブリーフケースと、自分の解釈を書いた付箋を渡すと想像してください。人2はブリーフケースを開けずに人3に渡し、自分の付箋も追加します。そして人1000では、元のメッセージはまだブリーフケースの中で完璧な状態で保たれています。

処理は付箋、つまり残差関数f(x)で行われますが、コア信号は保護されています。これが残差接続であり、これがAIが機能する理由、Transformerが機能する理由です。数学的にはこれは単純な加算で、x + f(x)です。

小さな変更を加えても、元のxが情報の主要なキャリアとして残り、美しく純粋な信号が得られます。2016年の論文でHeらは、恒等写像が勾配のスーパーハイウェイを作ることを証明しました。この式を見てください。これが今日最も重要な式です。Transformerアーキテクチャの異なる層を積み重ねる場合、レイヤーℓ+1のX_{ℓ+1}は、前のレイヤーのX_ℓに新しい残差関数F(X_ℓ)を加えたものに等しくなります。

すべてのレイヤー、最後のレイヤー、出力レイヤーまで進むと、出力X_Lは単純にブリーフケースの情報プラス1000レイヤーからのすべての残差情報になります。出力は入力プラスすべての単一レイヤーからのすべての変更、すべての知性の合計だということが分かります。

この式を覚えておいてください。もちろんAIシステムを訓練する必要があります。訓練するときは、入力に関する損失関数の勾配を計算する必要があり、簡単なルールを失います。これは美しいのですが、このここの1が鍵だということに気づいてください。なぜなら、勾配を取ると、お話ししたように元のメッセージがまだそこにあるからです。

総和の重みがどんなに乱雑で混沌としていても、壊れていても、この1は常にそこにあります。これにより、勾配がTransformerの最後のレイヤーから最初のレイヤーまで消失することなく流れることが保証されます。元のメッセージの最小限の信号強度が保証されます。これです。これが最も重要な事実です。

ラムダによる接続の変化と勾配の挙動

さて、次のステップに進みましょう。ここで接続を変更して、最初のx_ℓにλという項を追加すると、シンプルです。λはこれからお見せするハイパーコネクションのような重みです。勾配はもちろんこうなります。興味深いU字構造が見られます。

λが1未満の場合、勾配は消失します。これは望ましくありません。λが1より大きい場合、勾配は爆発します。これは既に持っているものです。恒等写像はλを正確に1に保ちます。これが私たちの恒等写像残差ストリームです。美しいですね。

2025年3月にByteDanceがハイパーコネクションを発明し、公開したことをご存知でしょう。ハイパーコネクションのアイデアは、Transformerのような複数のレイヤーを持つネットワークが、このTransformerアーキテクチャのパフォーマンスを向上させるために、レイヤー間の接続の最適な強度と構成を自律的に学習できるかというものでした。彼らは新しいTransformerアーキテクチャを探していて、Transformerに関するGoogleの定義における残差接続の代替案を見つけられるかと考えました。

このハイパーコネクションのコアアイデアは、学習可能な深さ接続と幅接続を追加で提案することです。これはAIだから、訓練を開始すれば、これらの行列が学習してくれるでしょうと言うだけです。美しいのは、2016年の出版物をお見せできることです。ご覧のように、出力レイヤーに対してこのシンプルな構造があります。

ハイパーコネクションの導入と課題

もう一度言うと、1があって、残差関数があります。では、ハイパーコネクションとの違いは何でしょうか。お話ししたように、彼らはハイパー接続性を学習可能にしたいのです。数学でこれをどうやるか。もちろん、乗算に行列を追加するだけです。ほぼ同一の式を見てください。今度は学習可能な行列構造として、X_ℓに掛け合わせる行列H^{residual}があります。

この新しい構成、この新しいレイヤー接続性の学習がここで起こり、訓練における単純な逆伝播でこれを学習します。素晴らしいです。これが2016年、これが2025年、そしてDeepSeekによる新しい論文です。何だと思いますか。そうです、その通りです。この軌跡を続けていきます。しかし、ハイパーコネクションには問題がありました。なぜなら、このH^{residual}を学習可能にするとすぐに、恒等写像の原理を破ってしまったからです。

もちろんです。もはや本当の情報が入ったロックされたブリーフケースを渡しているわけではありません。学習可能な行列にブリーフケースを渡すかどうか、どのレイヤーに渡すかを決定させているのです。これは本当に望むものではありません。モデルが不適切に初期化された場合、H^{residual}が誤って信号を増幅し、より大きくしてしまい、信号が爆発して純粋なノイズになってしまう可能性があります。

勾配のハイウェイは壊れています。今や勾配のジェットコースターです。ではBonは、何ができるでしょうかと言いました。H^{residual}を見てみると、1という数字、恒等性、スキップ接続について話していたのを覚えていますか。これを見てください。このH^Cについて、異なるステップがあり、行の合計と列の合計があります。そして-7は1でも0でもありません。

0.83、0.83は1ではなく、-1は1ではなく、-135や-245や+264でもありません。残差ストリームの恒等写像原理を破ってしまったということから、私たちは非常に遠く離れています。これだけで進めば、問題に遭遇します。これがまさにDeepSeekが新しい論文、新しいMHC論文を書いた理由です。Mは多様体射影を表します。

多様体射影による恒等写像の復元

この多様体射影が何をするか分かりますか。そうです、正解です。ハイパー接続性の利点、複数のレーン、複数のストリームが欲しいのです。しかし覚えていますか、2016年からのここの信号伝播の法則をここで違反してしまいました。DeepSeekは今、H^{residual}を学習可能に保ち、レイヤー間の柔軟なルーティングを維持しながら、数学的にシステムの安定性のために恒等写像のように振る舞うよう強制する方法が必要でした。

恒等写像とはどういう意味でしょうか。高次元、4000次元空間で考えてみてください。シンプルです。純粋な代数です。入力信号の合計と出力信号の合計が1に等しい。では、これをどうやって達成できるでしょうか。代数から見ることもできますし、少しトポロジーから見ることもできます。両方の解決策があり、両方の解決策はシンプルな解釈に収束します。

単純に行列H^{residual}を、行の合計が1、列の合計が1になるよう強制します。H^Cではこれが起こっていないことをお見せしました。これを平面上に射影しています。非常に特定の多様体、私たちがBirkhoff多面体と呼ぶものに射影しています。解決策を見つけたのです。これがDeepSeekによる多様体H^Cのコアアイデアです。これだけです。他に何もありません。

私たちが今達成したのは、AIにおける信号伝播理論の特性を復元しながら、ハイパーコネクションの新しい複雑なルーティングを、この新しいTransformerのトポロジカルアーキテクチャで訓練フェーズ中に学習できるようにすることです。では、幾何学における多面体とは何かとお尋ねになるかもしれません。幾何学には平らな面を持つ形の階層があります。

多面体は単に任意の次元に対する一般化です。2次元では多角形があります。正方形、三角形です。3次元では多面体があります。立方体やピラミッドです。n次元では単に多面体と呼びます。4000次元でも12000次元でも関係ありません。多面体です。

この美しいBirkhoff多面体には、傑出した特徴があり、まさに私たちが探しているものです。ノルム保存という特徴があります。Birkhoff多面体内のすべての点は、1以下のスペクトルノルムを持ちます。物理的、数学的に勾配を爆発させることはできません。なぜなら1以下だからです。

これがBirkhoff多面体の美しさです。Birkhoff多面体内部の安全空間にあります。しかし今度は、この高複雑度トピックをBirkhoff多面体上に射影するマッピングメカニズムが必要で、解決策をお見せします。これは数学で長い間知られています。すべては1946年でした。ここにGarrett Birkhoffによる最初の出版物があります。American Mathematical SocietyのMathematical Reviewsのどこかにありました。

数学理論の応用とその歴史

素晴らしい。1946年にこの解決策が数学で見つかり、そして2026年になってようやくAIに適用しています。AIは数学が非常に長い間知っていたことを使っているだけだということが分かります。ではWikipediaから始めましょう。数学、特に確率論と組合せ論において、二重確率行列(double stochastic matrix)は、行と列が1になる非負の実数を持つ正方行列です。

Birkhoff多面体という驚きが分かりますか。n×n二重確率行列のクラスは、Birkhoff多面体として知られる凸多面体です。行列要素をデカルト座標として使用します。これは、n²次元ユークリッド空間の(n-1)²次元アフィン部分空間上にあり、行と列の合計が1であることを指定する2n-1個の独立した線形制約によって定義されます。素晴らしいと言うでしょう。もう少し知っているなら、Birkhoff-von Neumannの定理は、この多面体がすべてのn×n置換行列の集合の凸包であり、さらにBirkhoff多面体の頂点がまさに置換行列であると述べていることを知っています。頂点で。

平らな空間、内部空間、そして頂点があります。美しく定義しました。では、数学について話しましょうと言うなら、2023年10月のこの論文を強くお勧めします。これはBirkhoff多面体の幾何学に関する詳細な見解で、演算子ノルムから何から何まであります。本当に深く掘り下げたいなら、これが私が個人的にお勧めする論文です。ちょっと複雑に見えるかもしれませんね。シンプルな説明に戻れますかと言うかもしれません。もちろんです。

DeepSeekの多様体制約ハイパーコネクション

ここにDeepSeekの多様体制約ハイパーコネクションがあります。多様体制約が1に等しい必要がある理由が分かりました。そしてハイパーコネクションが何か分かりました。異なるレイヤー間の学習可能な接続性です。最もシンプルなケースは残差接続で、1で美しいです。それからハイパーコネクションがあり、そして多様体制約ハイパーコネクションがあります。

緑で1に等しいのが見えますね。ちょっと待って、この前処理と後処理の射影は何ですかと言うかもしれません。聞いてくれて嬉しいです。でもその前に、お話ししたように、彼らはここで特定のアルゴリズム、Sinkhorn アルゴリズムを利用しています。これは1967年からです。数学では本当にほぼ真新しいものです。1967年12月にこのアルゴリズムが発見され、2026年のDeepSeekの最新論文でこれを使用して、H^{residual}をBirkhoff多面体表面上にエントロピー的に射影しています。

この操作は、残差接続行列を、等しいという特定の条件を持つ二重確率行列によって構成される多様体内に効果的に制約します。美しくないですか。とても素敵なことです。でも、何が新しいか分かりますか。数学の観点から1976年、1946年以来知っていることを組み合わせているだけで、ようやく数学が人工知能に入ってきて、数学でずっと昔に発見されたことに基づいたマッピングがあるだけなんです。

学習可能なスキップ接続を持つ最適化されたTransformerですかと尋ねるかもしれません。もちろんです。でもスキップ接続以上のものです。スキップは何かを飛び越えることを意味するだけです。でもこれは、信号の連続的なリミキシングなんです。Transformerの学習可能なルート内部ルーティングですか。もちろんです。最も正確な考え方として、ネットワークがすべてのレイヤーでどの情報ストリームが最も重要かを動的に決定し、訓練データに応じてそれに従って再ルーティングできるようにします。

なぜなら考えてみてください。標準的なTransformerでは、シングルレーンしかない場合、残差ストリームは1車線道路です。情報、例えば車が、この道を下っていきます。すべてのブロック、アテンション、フィードフォワードネットワークで、一部の車がオフランプを降り、処理され、積荷を追加してメインストリーム、シングルレーンに戻ってマージします。制限は、すべてが1つのバケツに混ぜられることです。モデルは構文情報を意味情報から簡単に分離できません。なぜならすべてが同じレーンを走行するからです。

4車線があって、レーン1には特定のコンテンツのみ、レーン2には特定のコンテンツ、例えばトラックのみ、レーン3にはオートバイのみと想像してみてください。アイデアは分かりますよね。複雑さを減らし、速度と接続性を最適化できますか。はい、新しいTransformer多車線とインターチェンジで可能です。

DeepSeekは残差ストリームを4車線のスーパーハイウェイに拡張しています。すべてのレイヤー間にH^{residual}があり、大規模なインターチェンジが可能です。ミキシングができますが、行列H^{residual}が交通管制官です。レーン1の交通の80%はレーン1に留まるべきだが、20%はレーン3に移動すべきだと言います。トポロジカルな分離、意味的な分離、訓練データでAIに学習させたいものは何でも、内部学習プロセスが事前訓練の数日または数週間後に、これの完璧な組み合わせを見つけることを願っています。

多様体制約があるのは、コントローラーが二重確率的だからです。勾配爆発のように幻の車を魔法のように生み出したり、ハイウェイ上で車を消失させたりすることはできません。

勾配消失はありません。既存の交通量、つまり車を再ルーティングすることしかできません。美しいです。多面体表面上で動作しています。ちょっと待って、多面体表面上で動作する場合、これらの数学的空間の次元に問題がありますと言うかもしれません。その通りです。

次元圧縮と計算コストの最適化

考えてみてください。標準的なTransformerでは、残差ストリームは例えば4Kの次元を持ちます。この新しいものでは、4車線のスーパーハイウェイがあるため、残差ストリームはn×c、つまり4×4096に拡張されます。でもちょっと待って、Transformer自体、セルフアテンション、フィードフォワードネットワークには触れません。通信ネットワークにのみ触れます。ケーブルにのみ触れ、帯域幅を開き、再ルーティングしますが、アテンションとフィードフォワードネットワークには触れません。

これをしたくないのです。なぜなら、4倍のデータでアテンションを実行しなければならないと想像してください。最低でもどれだけ遅くなるか分かりません。だからどうするか。エンコーダー、デコーダーがあります。ダウンプロジェクトし、計算し、再びアッププロジェクトします。美しいです。これをオフランプと呼びましょう。これがH^{pre}です。モデルは大規模なインストリーム4ストリームスーパーハイウェイを見て、学習可能な行列、事前行列を使用して、4車線から1車線に戻る特定の情報を圧縮または選択します。サイズCの4Kの幾何学的圧縮があります。

例えば、レーン1、2、4から動詞の時制に関するすべての情報を収集すると類推できます。訓練データでこれを学習します。それからもちろんTransformerブロック自体があります。標準的なアテンション、フィードフォワードがこの圧縮されたCサイズのベクトルで実行されます。

これがTransformerの元の次元です。重要です。これにより、FLOPs、計算コストは古典的なモデルとほぼ同じに保たれます。新しいルーティングに対してのみ支払いますが、例えば4倍の計算には支払いません。それからもちろん、次のレイヤーに行くためにスーパーハイウェイに戻らなければなりません。これがH^{post}です。

サイズ4Kのフィードフォワードネットワークの出力は、このハイウェイに戻る必要があります。行列postがこのシングルハイウェイを4車線ハイウェイ、4倍の4Kにマッピングします。そして最後に、お話ししたように車線変更自体、スーパーハイウェイのこの新しいフレーミングで見たい場合、H^{residual}が工場が稼働している間、フィードフォワードとアテンションが稼働している間、メインハイウェイの交通は止まりませんでした。ルーティング行列を通過し、車線間で情報をシャッフルし、Birkhoff多様体でミキシングを制約して安定に保ちます。美しいです。

学習可能なルーティングの本質

凸基底上で動作しているので、これは本当に学習可能な内部ルーティングですかと言うかもしれません。理想的にはイエスです。完璧な世界では、行列はストリーム1に文法を、ストリーム2に事実を保ち、訓練データセットにあるものは何でも保つことを学習します。必要な場合、特定の訓練に応じてのみそれらをミックスします。

技術的には、むしろソフトルーティングです。ルーティングは二重確率行列を使用するからです。これは0と1の間の連続した数値であり、効果的に重み付き平均を実行します。これが凸結合です。本当に正確にしたいなら、いいえ、条件付きロジックや特定のパスAまたは特定のパスBを選ぶスイッチTransformerのようなハードルーティングではありません。

これはよりソフトなミキシングです。完璧ですか。いいえ、全く完璧ではありません。でも素晴らしいです。これは完璧への美しい近似です。これを絶対に確実にするために。この論文に対する批判はありません。1000層以上の繰り返されたソフトミキシングは、情報をぼかす傾向もあります。

1000色の絵の具を混ぜることを考えてみてください。最終的には何らかの茶色になるでしょう。でも肯定的な反応として議論することもできます。DeepSeekは、Birkhoff多面体に射影することでこれに対抗しています。彼らはミキシングが幾何学的に構造化されていることを保証します。本当に内部または表面上で動作しています。

アーティストたちは、これが安定していて、長時間にわたって特徴の崩壊を回避していることを示そうとしています。すべてがぼやけても。この通常のH^Cからすでにお見せしました。多様体H^Cがある場合、何を期待しますか。すべてが正確に1であることを期待します。

すべての行の合計とすべての列の合計が正確にここにあります。だからBirkhoff多面体があるのです。さて、実際には一部は1または1.1または0.41または1.51.5です。-259と比較すると、0.8888は1に非常に近いですと言わせてください。大幅な改善があります。これは素晴らしいです。もちろん、これをさらに改善する方法のアイデアがあります。

しかしDeepSeekのこの出版物を考えると、美しい近似です。標準的なTransformerについて話していて、次のように標準的なTransformerを最適化すると言えます。すべてのレイヤーを接続する通信バスを広げます。これは古典的なTransformerの残差ストリームで、nの係数で、持っているコンピューターインフラに応じて。

それから学習可能な多様体制約ルーター、H^{residual}を各レイヤー間に挿入します。これは学習される必要があります。だから訓練はかなり集中的です。それからもちろん、お話ししたように、ここでアテンションとフィードフォワードに対して異なる次元があるので、学習可能なアダプター、前処理と後処理の圧縮用の学習可能なアダプターも挿入して、広いバスを標準的なアテンションとフィードフォワードブロックに接続する必要があります。

かなり多くの学習アダプター、学習ルーター、学習圧縮と解凍があるので、そうです、推測した通り、新しいトポロジカルTransformerアーキテクチャの構築において本当に経験豊富なGoogleまたはDeepSeekである必要があります。でもこれを見てください。これは本当に古典的なGoogleTransformerのトポロジカル進化で、古典的なTransformerの純粋な深さよりもメモリの幅とルーティングの柔軟性を優先しています。

GoogleとDeepSeekの補完的な関係

これは本当に魅力的です。これが次の方法、Transformerの次の形式になるでしょうか。本当に気に入っています。そして、お話ししたように、なぜそれらが補完的なのか理解できました。ほんの数日前に、Googleが発明した新しいTransformer、メーターコントローラー付きの新しいアイデアをお見せしました。彼らはここの残差ストリーム、入力と出力をここで触れずに残しました。

そして今、DeepSeekがこの通信、この残差ストリームの構造を最適化しています。最初の4層で最適化します。それからGoogleメーターコントローラーがあり、レイヤー5からレイヤー8またはレイヤー12まで。その後、DeepSeekによるさらなる最適化が可能です。美しく連携します。なんて素晴らしいアイデアでしょう。

2026年の新しいAIアーキテクチャを本当に楽しみにしています。楽しんでいただけたら嬉しいです。少しでも面白かったら嬉しいです。新しい情報がありました。購読して、メンバーになっていただけると嬉しいです。