知能の新しい幾何学

AI研究
この記事は約12分で読めます。

人工知能の推論能力は学習されたルールではなく、有限次元のニューラルネットワーク空間に最大限の情報を詰め込むことで生じる幾何学的な副産物である。2026年2月に発表された新しい論文は、ニューラルネットワークが持つ次元数よりも遥かに多くの特徴量を表現する「スーパーポジション」現象に着目し、スペクトル解析という数学的手法を用いて特徴量の幾何学的構造を解明しようとする試みである。従来のコサイン類似度に代わる新しい数学的測度を提案し、小規模言語モデルの推論能力向上の可能性を示唆している。この研究は、知能の幾何学が単なる最適化された記憶形式ではなく、推論そのものを支える数学的必然性である可能性を提起する。

The New Geometry of Intelligence #ai
All rights w/ authors:"Spectral Superposition: A Theory of Feature Geometry"Georgi Ivanov 1 2, Narmeen Oozeer 3, Shivam ...

知能の幾何学的本質

こんにちは、コミュニティの皆さん。お帰りなさい。今日は人工知能の幾何学について少しお話ししなければなりません。人工知能の推論能力というのは、学習されたルールではなく、ニューラルネットワークの有限次元空間に最大限の情報を詰め込むことで生じる幾何学的な副産物なんです。私たちはこれをスーパーポジションと呼んでいます。

そして皆さんは「うーん、よく分からないな」と思うかもしれませんね。それは素晴らしいことです。なぜなら、これこそが今日の動画で皆さんにお見せしたいことだからです。

これは私の複数のAIシステムによって赤旗を立てられた新しい論文で、2026年2月2日に公開されました。筆頭著者はTIFAという方なのですが、有効な機関として確認されませんでした。ですから時々、もう少し深く掘り下げる必要があります。手動で著者が誰なのか検索しなければならないこともあります。そして分かったのは、これがステルスAIスタートアップだということです。もちろん、論文を書いたばかりの人は誰でもステルスAIスタートアップで働いているものです。

しかし、この論文のアイデアは本当に素晴らしいアイデアなんです。だからこそ私は、キャリアの始まりにいる誰かによる論文をここでお見せすることにしました。

スペクトルスーパーポジション理論

「Spectral Superposition: A Theory of Feature Geometry(スペクトルスーパーポジション:特徴量幾何学の理論)」というタイトルです。そこで私はどうにかして、これが本物の人間であるかを評価しなければなりませんでした。おお、GitHubリポジトリがありますね、素晴らしい。論文もあって、これが最初の論文です。

そして皆さんに言いたいのは、そう、全く問題ありません。なぜキャリアの始まりにいる誰かをここで取り上げてはいけないのでしょうか。2025年3月からこちらに論文があり、ハーバード大学ケンブリッジの数学部に提出された論文で、数学と統計学の分野で学士号を取得しただけですが、それでも構いません。

そして最初の論文は、ニューラルネットワークが次元数よりも多くの特徴量をスーパーポジションによって表現し、特徴量に表現空間を共有させることから始まっています。私が前回の動画でお見せしたように、現在の手法では活性化を疎な線形特徴量に分解しますが、その純粋な幾何学的構造は捨てられてしまうんです。

ニューラルネットワークが活性化空間における次元数よりも遥かに多くの特徴量を表現する現象、これはスーパーポジションとして知られており、皆さんもご存知のことです。しかしモデルが多くの特徴量を多くない次元数でエンコードする必要がある場合、小規模言語モデルの場合のように、各特徴量にそれぞれ独自の直交方向を与えることができません。

その代わりに、特徴量は表現空間を共有しなければならないのです。これが小規模言語モデルが、巨大なモデル、つまりクラウドベースのプロプライエタリモデルほど強力でも表現豊かでも論理的でもない理由の一つかもしれません。

では、これを変えることはできるでしょうか。小規模モデルをより知的にすることはできるでしょうか。

幾何学的表現の実例

著者たちはここで私たちに簡単な表現を示してくれます。モールの中に表現があって、彼らは「ここに赤いジャンケンがありますが、表と裏という特徴量もあります」と言っています。ですから、言ってみれば、シンプルな3次元空間に埋め込まれた2つの表現があって、これには5次元は必要ないということです。

これがニューラルネットワークの空間における構造的干渉の一例で、モデルが非常に限られた空間にこの知識を何とかして保存しなければならないため、概念が干渉を起こすのです。そして独立した活性化部分空間があり、スペクトルシグネチャがあり、幾何学を復元することができます。そしてここに2つのトポロジカルな物体があることが分かります。美しいですね。

これは機能しますが、これは最もシンプルな例に過ぎません。著者は私たちに、活性化空間における特徴量間の関係をスペクトル測度を使って捉えると言っています。すぐに説明しますが、特徴量をそれらが占める空間によって分類するということです。

ですから「ちょっと待って、フーリエ変換は理解しています」と言うかもしれませんね。私たちは数学理論における最適な表現を求めているわけで、これは理にかなっています。

なぜなら、こう考えてみてください。このジャンケンと表裏があって、これをエンコードしなければならない場合、あるいはもっと複雑なトピックをニューラルネットワークのパラメータ空間にエンコードしなければならない場合を想像してください。

グラム行列からスペクトル解析へ

通常、私たちにはグラム行列があります。これは内積によって与えられるエントリを持つ内積の行列です。そして今、著者は私たちに、もちろん列ベクトル間のノルムをクリアにすると言っています。

そして著者は、目標は私たちのWにおける特徴量のグローバルな対称性を表現する方法を見つけることだと言っています。つまり、ここで遭遇する特定の幾何学を尊重しながら、不変対不変という形で、これは数学を知っている方ならご存知の通り、まさにスペクトル解析が可能にしてくれることなんです。私たちは数学における古い友人を使ってこれを行います。

著者たちが主張し、これが今日この特定の論文をお見せしたいと思った興味深い部分なのですが、なぜなら本当にシンプルだけれどもエレガントなアイデアだからです。著者たちは、幾何学的構造が対称性制約を誘導すると主張しています。そしてこれらの対称性制約は、私たちの行列間の代数的関係として表現することができます。そしてこれらの関係は、スペクトルデータによって完全に捉えられるのです。

あまり馴染みがない方のために説明すると、数学におけるスペクトル解析とは、信号や演算子をその周波数成分、値、あるいはスペクトル密度に基づいて特徴づける技術を指します。複雑なデータをよりシンプルな基礎的な成分に分解するのです。信号処理でフーリエ変換を行う場合や、関数解析で線形演算子を分析する場合に気づくことが多いでしょう。そして正確に、最もシンプルなケースでは関数解析の線形演算子を扱います。

論文の後半で、著者は方向を逆転させます。そして、ニューラルネットワークの層にある重みテンソルの重み行列だけが与えられた場合、活性化空間のスペクトルから幾何学を復元しようとするのです。

そして皆さんは「なぜ、なぜこんなことをしているのか」と言うかもしれません。RAGやベクトル表現において、類似性、意味的類似性の尺度として持っているものはコサイン類似度だということを思い出してください。もし私が、数学的空間における類似した特徴量を見つけるために使える最良の数学的測度はコサイン類似度ではないと言ったらどうでしょうか。

まさにその通り。これが私たちがこれから取り組むことです。

フレーム演算子の導入

著者たちは、幾何学に基づく干渉の一般的にラベルフリーな記述を求めるならば、再ラベル化の下で不変であり、スペクトル情報を保持する活性化空間オブジェクトに移行しなければならないと言っています。

そのような正準的なオブジェクトがフレーム演算子で、ここで定義されています。インデックスの置換の下で変化しないグラム演算子とは対照的です。かなりシンプルなオブジェクトで、ここにフレーム演算子があります。

簡単なまとめをすると、フレーム演算子対グラム行列です。伝統的に私たちはここでグラム行列を研究しており、これは特徴量から特徴量への相関を教えてくれます。しかし、このグラム行列はインデックスに依存しています。特徴量のラベルを入れ替えると、グラム行列にも変化が生じます。

しかし何だと思いますか。もう少し高度な数学的オブジェクト、活性化空間におけるフレーム演算子のようなものを扱えば、何だと思いますか。私たちはこの演算子を不変になるように構築するのです。

ですから、この演算子が特徴量にどのようにラベルを付けるかに関係なく、潜在空間のグローバルな幾何学を捉えてくれることを願っています。そしてこれがまさに行ったことなのです。

スペクトルブリッジの構築

さて、美しいのは橋を架けることができるということです。橋関数、スペクトルブリッジです。抽象的な概念空間から活性化空間へと幾何学を持ち上げることができ、彼らは「もしEがある値に対するグラム行列のスペクトル射影子であれば、活性化空間における対応する射影子はまさにこれです」と言っています。

フーリエ変換について少し知っている方なら、これは本当に馴染み深いものです。ただ今回は、次世代の人工知能のためのいくつかの進歩のために、この数学理論を使っているのです。

このブリッジで何を達成するのでしょうか。活性化空間を直交部分空間に分解することを可能にするだけです。そして皆さんは、これがまさに私たちがここで求めているものであることをご存知です。各特定のグループの特徴量が、他の部分空間の特徴量に対して完全に直交しながら相互作用できる場所です。

言ってみれば、クリーンな数学的表現があるのです。

スペクトル局在化と定理

さて、著者たちは非常に特定の方法を取ります。定理1では、スペクトル局在化を仮定しています。これで行きましょう。著者たちは、訓練されたモデルが容量飽和で動作していることを経験的に観察または試みています。分数次元性の合計がランクに等しいということです。

これは、特徴量が空間を節約するために複数の幾何学的モードに自分自身を塗り広げることができないということを意味します。まさに1つのフレーム演算子の空間にコミットしなければならないのです。つまり、ベクトルになるということです。皆さんはこの公式を知っています。

そして定理3では、タイトフレームへの分解を使います。アイデアはシンプルで美しく、皆さんはすでにこれを知っています。少し違う言い回しになっているだけです。

特徴量が特定の空間に局在化すると、もちろんそれは遭遇する値に関連付けられた空間ですが、皆さんが馴染みのある特定の方法で自分自身を配置しなければなりません。しかしこれを見れば、これがタイトフレームの数学的定義であることが分かります。

これは正規直交基底を一般化したもので、特徴量がその特定の部分空間内で効果的に一般化された単位行列を形成することを意味します。

もしこれを達成できれば、これはニューラルネットワークの表現、ネットワークの表現のために使える結晶パターン、タイトフレーミングのようなものです。そして彼らは定理3でこう主張しているだけで、美しい数学がたくさんありますから、ぜひご自身でご覧ください。

高度な対称性構造

これは理論的に、私はここに挿入したいのですが、特徴量を高度に対称的な構成に強制する可能性があります。突然皆さんは「おや、これは可能な構成の組み合わせではなく、特徴量がここでシンプレックス、プラトン立体、あるいは他の群論の要素のような高度に対称的な構成で自分自身を表現している。代数でこの創発的なジョブを分類するためのものだ」と言います。

そして皆さんは「これは素敵な数学論文だけど、実際にどう使うのか」と言うかもしれません。

さて、私はすでに皆さんに、コサイン類似度を見るのをやめて、何か別のものを見始めることができるかもしれないと示唆しました。そしてこの何か別のものがスペクトル測度になります。ここに定義があります。

特定の特徴量について、そのエネルギーがfの値にどのように分布しているかを尋ねることもできます。これがまさにスペクトル測度の定義です。そしてもちろん、分数次元性を計算することができます。

これは、特徴量がこの特定の表現においてどれだけの空間を所有しているかを、純粋にスペクトル特性から意味します。ですから、これは単純に私たちがここで適用するスペクトル数学であり、この公式が私たちの新しいシステム表現でも機能することを願っています。

知能の統計学

著者たちがこの本当に素晴らしいプレプリントで示してくれるのは、知能の統計学のようなものを提供してくれるということです。

ニューラルネットワークが多くの概念、隠れ層の次元数よりも遥かに多くの特徴量を保存する圧力の下で、ある特定の構造、彼らがタイトフレームと呼ぶ新しい数学的構造を構築しなければならないことを示しました。この情報を全て保存し、ニューラルネットワークの内部推論プロセスでこれらの情報を利用可能にするためです。

これを結晶性潜在構造と呼びましょう。突然、私たちは自分自身に問いかけます。表現空間の内部で何が起こっているのか。ニューラルネットワークは実際にどのように知識エンコーディングを最適化しているのか。

小規模LLMに最適な構造表現を見つける手助けをするだけで、より知的にすることができるでしょうか。私たちが開始する必要がある相転移があるのでしょうか。そして突然、グロッキングとパフォーマンス相を思い出すように、今度は幾何学における正しい数学的表現を見つけたために、ここにパフォーマンスのジャンプがあるのです。

さて、ニューラルネットワークについて、著者たちは今、このニューラルネットワークの幾何学は偶然ではなく、ここで遭遇する容量飽和の数学的必然性のようなものだと言っています。

推論への含意

しかし皆さんご存知の通り、私たちはAI研究者です。結晶学的な数学定理には興味がありません。私たちが気にかけるのは推論であり、今日のこの論文と動画全体は、知能の幾何学が人工知能の推論にとってここでいかに重要かを皆さんにお見せするため、示すための1つの新しい種類のものに過ぎませんでした。

なぜなら、皆さんは自分自身にこう尋ねるかもしれないからです。この厳格な、言ってみれば結晶性の潜在数学的構造は、実際に私たちのAIモデルに何かをもたらすのか、それとも単に最適化されたストレージフォーマットに過ぎないのか。

誤解しないでください、最適化されたストレージフォーマットは素晴らしいでしょう。しかし問題は、今皆さんが見ているようにこの特定の質問を私が尋ねるとしたら、さらに先に進むことができるでしょうか。

それは単なるストレージフォーマットではなく、小規模言語モデルの推論能力を最適化できる知識の構造的表現を提供するのではないでしょうか。そして私はただ、パート1の終わりと言いたいだけです。

もし興味を持っていただけたなら、まさにこれに答える次の動画でお会いできることを願っています。

コメント

タイトルとURLをコピーしました