ブラックボックスの内部:いまAIの心を読む

AI研究
この記事は約32分で読めます。

2026年4月末に発表された最新研究をもとに、AIのブラックボックス内部で人間の概念がどのように表現されているかを解き明かす動画である。色は2次元のパラボロイド、曜日は1次元の円環、年は3次元のらせん構造といった具合に、LLMは概念を曲がった多次元マニフォールドとして4096次元空間に埋め込んでいる。スパースオートエンコーダーは局所的な接線チャートを織り合わせてアトラスを構築し、微分幾何学とイジングモデルを用いることで、これらの曲面構造を再構成できることが示される。さらに研究者は、事前学習データには明示的に含まれていなかった「科学的文脈における認識論的不確実性」のような高次の認知構造までもがマニフォールドとして発見されたことを報告している。AIの解釈可能性、安全性、知識編集の分野に根本的な再考を迫る内容である。

Inside The Black Box: Now Read the Mind of the AI
In this video we open the black box AI and understand, that with euclidean geometry we will not understand the computati...

ブラックボックスの中身を覗く新しい研究

皆さん、こんにちは。また戻ってきてくれて本当に嬉しいです。今日は人工知能のブラックボックスの中身を覗いてみましょう。というのも、ブラックボックスの中で何が起きているのかを、これまでよりずっとよく理解できるようになる、まったく新しい研究が出たからです。前回、量子AIや量子カーネルの優位性、そしてヒルベルト空間の話をしたときは少し複雑でしたが、今日はかなりシンプルな話になります。

2025年2月、MITの素晴らしい論文がこう教えてくれました。すべての言語モデルの特徴が一次元的・線形的というわけではない、と。つまり、LLMは活性化空間における特徴の一次元的な表現を操作することで計算を行っているのですが、研究者たちは、一部の言語モデルの表現が本質的に多次元的である可能性を探ったのです。

このMITの研究、ちょうど一年ちょっと前ですね。PCAを行うと、たとえば一週間の曜日が円状に配置されていたり、月や年もまた円状になっていたりすることが見つかりました。つまり、対称性、より高次元の対称性が見出されたわけです。しかし今日は当然、もう一歩先へ進みたいと思います。次のステップはシンプルです。

トランスフォーマーの中の高次元ベクトル空間

私たちが今いる数学的空間がどこなのかをはっきりさせておきましょう。古典的なトランスフォーマーアーキテクチャでは、トークンごとにモデルが処理を行います。たとえばTuesdayという単語を考えてみましょう。LLaMAモデルを思い浮かべるなら、ネットワークはこの単語に対して4096次元のベクトル表現を計算するわけです。このベクトルには、現在の文脈について、モデルが知っているすべてのことが重ね合わされた和として含まれています。

そして今、この状態ベクトルXを、Xと呼ぶことにしますが、何百万もの異なるプロンプトにわたって記録すると想像してみてください。そしてそこに、Monday、Tuesday、Wednesdayといった特定の用語について尋ねるのです。何に興味があるか、すぐにお分かりですよね。これらのすべての点を4000次元の空間にマッピングしたら、何が見えると期待できるでしょうか。

ランダムな雲のようなものは見えません。しかし直交した直線も見えません。何が見えるかというと、これが面白いのですが、この高次元空間の中に、滑らかで連続した一次元の環状の表現が見えるのです。4000次元のベクトル空間の中に存在する一次元の特徴、と考えてください。さらにブラックボックスを開いて見ていくと、年がどのように表現されているかが分かります。2025年、2026年といった年は、内部ではこの高次元空間の中で三次元のらせん構造によって表現され、計算されているのです。

つまり、AIが自身の計算のためにデータを準備する内部表現には、対称性があり、明確な構造があるわけです。ここにこそ、LLMというブラックボックスが実際にどのように機能し計算しているかを、さらに深く理解するための美しさがあります。物理学者の方や物理学に少し詳しい方なら、こう言うでしょう。LLMのハミルトニアンは、現実が連続的な対称性を含んでいることを学習したのだ、と。その結果として、データベクトル、再びXと呼びますが、これらは低次元の部分多様体上に存在するように制約されているのです。

概念の重ね合わせ:ミンコフスキー和の世界

しかし落とし穴があります。LLMは一度に一つのことだけを考えているわけではありません。ご承知のとおり、Xというベクトル表現は、複数のマニフォールドの加算的な混合になっています。たとえばcold Tuesdayという用語を考えてみましょう。状態ベクトルは、温度マニフォールド上の点と、曜日マニフォールド上の点とのベクトル和になるわけです。数学的に言えば、Xはこれらマニフォールドのミンコフスキー和の中に存在することになります。

そう、私たちはユークリッド空間を後にすることになるのです。ブラックボックスについてより深く理解したいのなら、より高次の数学的ベクトル空間に進まなければなりません。何百年も前から知られている空間ですが、最も単純な数学的な部屋、つまりユークリッド空間に別れを告げる必要があるのです。

なぜAIで進歩を続けられなかったのか。それは、私たちが単純にユークリッド的なツールを使って、非ユークリッド的な宇宙の中で起きていることを測定し、ブラックボックスの中で何が起きているのかを理解しようとしていたから、と言えます。しかし今こそそれを変えるときです。私たちは数学的なツールを持っているのですから、見ていきましょう。

スパースオートエンコーダーという道具

最初のツールはご存知のものです。ちょうど二日前、私はビデオでスパースオートエンコーダーをツールとして使うことをお見せしました。これは何かと言うと、根本的には辞書学習アルゴリズムです。4K次元の特定の状態ベクトルXを取り、特定の基底の上で再構成しようとするものです。この基底をDと呼びますが、これは過完備辞書なのです。Dというのは、三次元でもおなじみの、剛直でまっすぐな基底ベクトルの膨大な集合に他なりません。

このスパースオートエンコーダーにおけるベクトルXの表現の係数は、非常に疎な係数の集合になっています。つまり、ある特定のベクトルがあって、ある特定の基底のもとで非常に疎な係数を使って再構成したい、というわけです。そうすれば、この数学的空間の中にどのような特徴がエンコードされているかを正確に理解できます。

もちろんお分かりだと思いますが、曲がった面を記述しようとするとき、何が起こるか。地球の表面を例にとってみましょう。地球を地図にしたいとして、これは球体です。そして平らで剛直な平面を使う、つまりツールが多次元のマニフォールドではなく平らで剛直な平面である場合、ひどい歪みなしには単一の地球規模の地図でこれを行うことはできません。地図を見れば、特に極地方に行くと、幾何学的な歪みがあるのが実際に分かります。

そして、まさにこれと同じことが、私たちがAIで扱う4000次元のベクトル空間でも起きているのです。歪みなしにマニフォールドをマップするにはどうすればよいか。微分幾何学者ならご存知のように、もっと多くの数学的ツールがあって、それを使えるのです。アトラスを構築するわけですね。多くの重なり合う局所的なチャートで作られたアトラスです。アトラス、ああ、学校で習ったな、と思い出すかもしれません。何ページもあって、惑星上のさまざまな国の幾何学や地表が描かれていました。しかしアトラスは、純粋数学の微分幾何学における用語としても理解できます。

二つ目の方を扱います。局所チャートというものがあり、これには数学的な定義があります。そして重なり合う領域を持つアトラスを構築するという考えがある。信じられないかもしれませんが、私たちの数学的ツールであるスパースオートエンコーダーは、この上で数学的な最適化定理を適用すると、私たちのためにアトラスを構築してくれるのです。AIのブラックボックスの中で起きていることは、本当に魅力的です。

概念ごとに異なる幾何学的形状

これは2026年4月末の新しい研究です。特定のマニフォールドがあるとして、たとえばブラックボックスAIの中で色を記述したいとしましょう。すると色はパラボロイド、つまり放物面体であることが分かります。温度は線です。年齢も線です。地理は階層的な木構造です。先ほど申し上げたように、曜日は円、4000次元の中の一次元の円です。年は三次元のらせん構造になります。形式性は線、政治的バイアスもまた連続的なマニフォールドを持っています。

つまり、私たち人間が言語の中で曜日や年や年齢といった形で考えているものが、AIのブラックボックスの中ではそれぞれ異なる幾何学的表現を持っていることが分かったのです。しかしこれがAIによってどのようにエンコードされているかを理解した今、何を探せばよいかを正確に知っているわけです。

これが色です。4096次元の部屋の中の色。もちろん二つの主成分があり、明度の勾配と、もう一つは円周方向の成分です。色のパラボロイドへ行ってみるわけですね。ここにあります。そして今、単純なユークリッド空間ではなく数学的な接空間に入ると、私たちには局所チャートがあることが分かります。これらの局所チャートからアトラスを構築できるのです。これが、ブラックボックスの中で何が起きているかを理解するための高度な数学的ツールとして役立ちます。

辞書原子と概念

AI辞書原子について。数学を専攻しているわけではなく、博士号もないという方のために、いくつかの用語を説明しなくてはなりませんね。リラックスして、用語を見ていきましょう。

ちょっと面白くしてみましょう。あなたがLLMだとして、これまでのあなたの宇宙には何もない。真空状態です。何も訓練されていません。そして突然、誰かおかしな人間がやってきて、たとえば3兆語、インターネットのコピーや、ありとあらゆる人間のテキスト、Wikipediaのすべて、物理学の教科書すべて、世界中のすべての本を、あなたに与えるわけです。そしてLLMとしてのあなたには、たった一つの物理法則が課されます。事前学習データすべての確率分布に基づいて、次のトークンを予測すること。これがLLMとしてのあなたの仕事です。

ということは、何を意味するか。数学的に見ると、人間の言語を生成する根底にある不変性を発見しなければなりません。最も単純な例を取りましょう。リンゴという用語、あるいは消防車という用語、あるいは止まれの標識といった用語が、すべて隠れた統計的性質を共有していることを推論しなければならないのです。色や年齢でお見せしたように、その性質が周辺の単語の振る舞いを規定する。だって次の単語を予測しなければならないのですから。特定のキーワードの意味的な周辺環境を理解しなければなりません。簡単です。統計的な性質ですから、計算できます。問題ありません。

さて、用語があります。慣れておきましょう。隠れた統計的性質、これを私たちはコンセプトと呼んでいたものです。コンセプトとは何か。少し高度な複雑性を持つものです。たとえば赤色。これはコンセプトです。フランス語の文法もコンセプトです。皮肉、あるいは1945年、これらはすべて私たちが理解したいコンセプトであり、LLMとしてのあなたも計算しなければならないものです。

これらのコンセプトは真の潜在変数であることが分かります。多体問題、つまり人間のデータ生成プロセスにおける自由度として捉えるなら、何千もの、いや何百万もの抽象的な観念が人間の言語、人間のテキストに織り込まれています。そしてLLMとしてのあなたの仕事は、これらすべてのコンセプトを推論することなのです。なんてことでしょう。

重ね合わせの原理

しかし問題があります。LLMとしてのあなたは、トランスフォーマーアーキテクチャの隠れ層における隠れ空間、ベクトル空間しか持っていません。4000次元の状態空間しかないのです。そこにインターネットの人間のテキストから何百万もの抽象的な観念を発見しなければならない。

そこでこう言うわけです。よし、それなら重ね合わせの原理がある、と。LLMはそれらすべてのコンセプト、何百万ものコンセプトを4000次元の状態空間に埋め込むのです。これらは純粋状態ではありません。そこで私たちはLLMを開いて、これらの正確なコンセプトのリストを取り出します。なぜなら、小さなLLMが本当に何を学習したのかを理解したいからです。

すでに持っている測定装置を構築するか、あるいは取り出します。AIの専門家であれば、それはスパースオートエンコーダーです。モデルは数万のコンセプトを学習したと思われるので、私たちはスパースオートエンコーダーを設計します。古典的なものでいきましょう。65000の辞書原子、または過完備フレームベクトルを持つようにします。技術用語が残念ながら少し混在していますが、はっきりさせておきましょう。

辞書、原子という用語を使います。原子は単に行列Dの一行です。したがってそれ自体が数学的なベクトルであり、6万5000のこれらの要素はフレーム、フレームベクトルと呼べます。完全なフレームを構築するからです。しかし6万5000あって、私たちは4000次元の空間にいるので、私たちが操作する数学的空間の次元に対しては過完備フレームになります。したがって過完備フレームベクトルなのです。素晴らしい。これで用語が分かりました。

このスパースオートエンコーダーの仕事は、私たちの物理システム、たとえばLLMの密に絡み合った4096次元の状態ベクトルを取って、何をするかというと、それを膨らませるのです。それを65000次元の数学的空間にマップする。そこでは成分がついに分離するのに十分な部屋、十分な次元を持つことになります。

つまり、数学的計算において4000次元から65000次元へ移行する瞬間です。しかし65000次元の中なら、ああ、1万の人間のコンセプトをすべて見つけられるし、運が良ければ演算子の後にベクトルを置くようなものを構築できる空間が得られるかもしれません。残念ながら、私たちは運が良くないことが分かります。重ね合わせになるのですが、まあ気にしないでおきましょう。

復号化と再構成

スパースオートエンコーダーで何をやっているかというと、まず4Kから65000次元の空間に投影します。65536次元の空間に投影するのです。これは疎なコードです。意味は何か。簡単に言えば、6万5000の可能なコンセプトのうち、たった、たとえば30個や50個のコンセプトが今アクティブだ、と言うわけです。Monday、Tuesday、あるいは色、赤といった単語を考えるとき、です。

そして、もちろんこの非常に高次元の空間でそれを見つけたら、復号化しなければなりません。4000次元の空間に戻さなければなりません。デコーダーも辞書、同じくDです。注意してください。一部の人は用語を混同しますが、同じものです。これは数学的に皆さんが思い浮かべる射影行列です。まさに6万5000×4000次元の行列で、私たちが高次元空間で識別した50個のアクティブなコンセプトを取り、古典的な4000次元空間に投影し直して、ベクトルXの元の状態を再構成するのです。

ベクトルxの明確な構築を4000次元で得たかったわけですが、ここで美しく決定的な形で数学的にそれができるようになりました。これはつまり、私たちが今使っているツールであるスパースオートエンコーダーが、単位ノルムの辞書原子DIをスカラー活性化で重み付けした線形結合を取ることで、元の状態を再構築している、ということです。これが古典的な活性化です。

トランスフォーマーのプロンプトでの文脈内学習における推論トレースを持つ場合、私たちのZ_iがあって、これは単純にすべてのZ_i、D_iを内部のアクティブな次元にわたって合計したものです。そして数学的な形での状態ベクトルXの新しい表現が得られます。

しかし、6万5000次元の過完備フレームベクトル表現、つまり原子から来ているので、選択肢が非常に多くあり、最も適合するペアを選ぶ贅沢ができます。これらのシステムを構築する上で、複数の自由度があるわけです。

繰り返しますが、原子はデコーダー行列Dの単一の行であり、数学的に言えば単純に4000次元のベクトルとして、状態ベクトルXとまったく同じ場所、同じ部屋に存在します。それを構築しているのです。状態ではないので注意してください。なぜなら6万5000の原子が4000次元に詰め込まれているからです。直交する部分空間にはなりえません。したがって先ほど申し上げたように、過完備フレームベクトル表現になります。

しかしこの原子こそ、私たちが必要としているものです。原子は単にこの4000次元空間内のどこかを指す、任意の学習されたベクトルです。スパースオートエンコーダーは、たとえば原子番号10を少し足し、原子番号420を取り、原子1337を少し加えれば、LLMの状態ベクトルを完璧に再現できる、と学習したのです。そしてこれがまさに、私たちの人間の単語Tuesdayのベクトル表現になります。

純粋状態ではない、曲がったマニフォールド

ご覧のとおり、純粋状態ではありませんが、構築方法を理解できる何かを持っています。なぜならLLaMAモデルのエンコーディングの隠れベクトル表現の次元性は、4000次元空間にすぎないからです。

AIの古き良き時代には、原子420が、たとえばこの数学的表現において純粋状態であり、文字どおり時間の表現、つまり私たち人間が言語で使う時間という概念そのものになる、という希望がありました。しかし今分かるのは、これが今日の研究なのですが、具体的に時間という概念は、まっすぐな矢ではないということです。単純なベクトル表現ではなく、それ自体が曲がった対象なのです。一次元のマニフォールドなのです。

先ほどお見せしたように、曜日の例を取りましょう。これは一次元の円です。あるいは2025年や2026年という年の数字をエンコードしているなら、らせん表現です。これらは4000次元の数学的空間に織り込まれた、曲がった一次元のマニフォールドなのです。

そしておわかりいただけるように、単一のまっすぐな原子ではこれを表現できません。曲がった一次元のマニフォールドなのですから。曲がったより高次元のマニフォールドもいくつかお見せします。これらは部分空間ですが、直交する部分空間ではありません。

すべてが正規直交で、すべてが分離可能で、美しい数学的システムが手に入るという希望には、この単純な数学的表現に別れを告げることになります。

ですから今、AIブラックボックスにおいて時間という概念がどのように表現されているかを理解したいのなら、AIにおけるこの数学的表現は曲がった一次元のマニフォールドだと理解することになります。これがAIの見方であり、操作の仕方であり、計算の仕方なのです。私たちが、月曜日にこれをしなくちゃ、と言うときはいつも、です。

微分幾何学とイジングモデルの導入

これが私のNano Banana Proによる表現です。ブラックボックスがあって、その内部にAIが内部的にこれをどのように扱うかという表現として、トポロジカルな対象があります。先ほど申し上げたように、青い曜日のマニフォールドは一次元のループ、年のマニフォールドはどう年がエンコードされているかというと、黄色の三次元のらせん構造です。これがまさにAIの内部に保存されている数学的表現の姿です。これらのトポロジカルな対象を使って計算するわけです。

辞書と辞書原子があって、完璧な世界ならこれらが私たちが構築できるまっすぐな単位、ということになるはずでした。しかしらせん構造を見ると、まっすぐな線形の曲がっていない対象でらせんを再構成することはできません。したがって、トポロジー、微分幾何学という数学の領域に進み、数学からの知識をAIに持ち込むことになります。

これからは混合領域、相互作用について話します。粒子物理学、多体物理学から来た数学的ツール、イジングモデルを古典的な意味で使います。

接線方向に配置される原子たち

スパースオートエンコーダーの最適化ダイナミクスは、お話ししたとおり、何か美しいことをやっています。AIのブラックボックス内部の時間表現の曲がったマニフォールド全体を表現するのに原子420を使おうとする代わりに、スパースオートエンコーダーはたとえば30個の異なる原子を取り、曲線そのものに接するように配置するのです。

ある三次元の対象があって、これが曲線だとすれば、ピンクの矢印を30個取って、本当に1cmごとに配置するわけです。アイデアがつかめますね。これにより、まっすぐな線形のエラーという単純化を使って、この数学的構造を構築できるようになります。

これを数学的に正しい形で行うと、チャートが構築されます。接するチャートはアトラスを構築します。動画の冒頭でお話ししましたね。今戻ってきたわけです。なぜなら、スパースオートエンコーダーは、まっすぐな方向ベクトルを使ってグローバルに曲率を張ることができないため、自律的に、これがまた美しいのですが、アトラスを構築するからです。

スパースオートエンコーダーは、構築の中で近づくための数学的方法論を探していて、いわば微分トポロジーの方法論で平らなチャートからアトラスを構築するということを発見または開発するわけです。幾何学が局所的には線形だがグローバルには非線形、つまり三次元のらせんなので、ユークリッド空間で目指すような純粋に幾何学的な類似性を放棄し、より高次の数学的空間で操作し、トポロジーからの数学的知識をそこで使わなければなりません。

チャートの重なりとイジングモデル

ですから、私たちのチャート間のトポロジカルな交差を見ます。マニフォールドがあって、これが青い線、そしてピンクの小さな矢印があります。少し曲がっているかもしれませんが、メタ的に異なる数学的基底を使うかもしれませんが、忘れてください、気にしないで。アトラスを構築するためにどうするか。接平面を構築しなければなりません。これがあなたが見ている青いシートです。これらの青いシートはマニフォールドに接していて、トポロジーで局所チャートと呼ばれるものを構築するのです。

完全な数学理論があります。大学で数学や理論物理学を勉強する場合、これを学ぶのに最低でも一学期かかります。何か月もかけて学ぶツールです。美しさがあり、今のところは、ニューラルネットワークでこの微分幾何学のアトラス構築を行えるということを信じてください。これがブラックボックスAIにおけるニューラルネットワークが動作する仕組みについて、つい二日前に理解できるようになった方法なのです。

複数の分離されたシート、つまり局所チャートがあるわけですが、数学では問題があります。このオレンジに光るものが見えますか。あるいは二つのシートが合流する境界で、このオレンジの光があります。これは疑問の余地のあることではありません。少し重なりがあるかどうか、そして数学では重なりが必要で、重なりがあることを証明する。どうやって行うか。

これが著者たちの呼ぶ混合領域です。数学では重なり合う受容野と呼ばれるものです。物理学ではこれを知っています。物理学で構築してきたものです。これは私たちが知っているツールです。今、特定の方法で構築したスパースオートエンコーダーを使って、人工知能にこれを適用しているわけです。

完全に数学的に進むこともできますが、ここではメインのアイデアを見ていきます。65000のランダムな局所チャートを渡されたとします。アルゴリズムによってこの特定の空間に生成されたもので、ジグソーパズルをどう組み立てるかという取扱説明書はついていません。どのチャートがどのチャートの隣にあるのかは分かりません。完全な混沌です。

しかし先ほど申し上げたように、接するチャートのこれらシートのうち二つはマニフォールド上で重なります。だから特徴の活性化は共発火するのです。これらが二つのニューロンだと考えてください。両方とも、訓練されたデータがあれば発火します。同じデータで共発火するのです。これがまさに局所チャートが重なる場所です。

このトポロジカルな問題を物理的問題、純粋数学的物理問題に変換できます。多体物理学の問題です。何百年も前、理論物理学と数学でこの問題の解決策が見つかりました。今これを使うわけです。物理学、数学のあらゆるところを見て、解決策を見つけているのです。

グローバルマニフォールドの再構築

では、グローバルマニフォールド、青いものですが、これを再構築するには、遷移マップを分析する必要があります。単純にニューラルネットワークでどのチャートが重なるかを把握するのです。二つのチャートが重なれば、データセットを通して原子は共活性化し、ニューロンは特定の用語に対して発火します。そしてイジングモデルを当てはめる、これは単なるツールで、理論物理学で使うツールと考えてください。理論家は数学的に、局所トポロジカルチャート間のこれらゼロでない遷移マップを計算しているのです。

二つのマップ間のインターフェース上のこの小さなオレンジのもの。ここで私たちは数学、物理学のイジングモデルというツールを持っていて、これを美しく計算できますが、完全な数学的美しさで説明するには一日かかります。

ですから今、興味深いことに、私たちが使っているのはもはやユークリッド幾何学ではなく、トポロジー、理論物理学、数学から知っているすべてを使っています。辞書原子を構築し、明確に印された接ベクトル空間で操作して概念マニフォールドを定義する。ブラックボックスAIの推論トレースがどこにあるか、ブラックボックスAIが曜日や年といった用語、時間という概念、色という概念、その他あらゆるものをどう扱うか。この方法論で、何が起きているかを理解できるのです。

微分幾何学と統計力学の融合

ですから、ほんの少しの微分幾何学を使ったことになります。原子DIが局所座標チャートUIになり、合計してマニフォールドアトラスを形成する。さらに統計力学、物理学のほんの少しを使う。バイナリ活性化状態が、相互作用するイジング格子モデルの単一スピンになる。理論物理学で使うものです。ツールを使うだけで、アトラスを見つけ出すのです。

繰り返しますが、ここに局所シートがあって、もう一つシートがある。そして今、まっすぐなベクトル、ご覧いただいているピンクのベクトルでは操作できません。本当に興味深いことが起きるのは、チャートから構築したアトラスにこの重なり領域があるときです。これは数学的に自明ではない問題ですが、実行できます。

このNano Banana Proが私のために描いてくれた小さな黄色の嵐の領域、これが私たちのいわば局所マップ間の遷移マップの関数と呼ぶものです。青では再び概念マニフォールド、ピンクでは辞書原子またはD_i、そして局所座標チャートが一緒になっています。

先ほど申し上げたように、ニューラルネットワークはエレガントな数学的目利きではありません。残酷な最適化器であり、損失関数を最小化しようとしているだけです。トランスフォーマーで操作していることを思い出してください。状態ベクトルxが、たとえば1910年のチャートから1920年のチャートへ、概念マニフォールドの曲線に沿って移動するとき、ニューラルネットワークは原子A、つまりピンクのベクトルAから原子B、つまりこのピンクのベクトルBへ、きれいに切り替わるわけではありません。代わりに、重い冗長な重なりのゾーンに入るのです。ここで数学は自明ではないのですが、扱うことができます。よりスムーズにする方法を理解するためのツールと数学理論を持っています。

そして、その嵐の中から単一の辞書原子を引き抜いて、この原子はそれ自体で何を意味するのか、と尋ねれば、いい答えは得られません。なぜなら単一の原子は部分的な意味的な意味しか持っていないからです。AIのブラックボックスにマップされる人間の言語の意味的な複雑さを説明するためには、微分幾何学、数学的空間で小さな補助平面を構築するのです。それは非常に特定の意味的な意味しか持ちませんが、このベクトルは、何百ものシートが全体として曲線を支えるための足場の小さな一部にすぎません。

そしてこのMコンセプトマニフォールドはたとえば、曜日のための一次元の環なのです。これが数学的な操作が機能する仕組みであり、ブラックボックスAIが計算する仕組みです。

参考文献と研究の意義

私が使っていて推薦できる文献があります。2022年のCambridge part threeの微分幾何学です。著者の皆さん、ノートを取った方々に感謝します。リンクはここにあります。Berkeleyからのものですね。短くて明確で、正確です。他の本を購入することもできます、問題ありません。しかしただインターネットに行きたいなら、このリンクがあります。ベクトルバンドルや微分形式などを深く理解したい方に。非常にシンプルですが完全で、美しい数学的なものです。

すでに解決した今日の研究はこれです。Good Fireというところは知らないのですが、Harvard University、Stanford University、Northeastern Universityは知っています。GitHubページがあって、すべてはスパースオートエンコーダーが概念マニフォールドを捉えられるかについてのものです。

これは美しいことではないでしょうか。今、2026年5月、私たちはAIモデル、LLMのブラックボックスを開けて、本当にどのように計算し、操作し、確率遷移を計算しているか、そしてマニフォールドとは何か、私たちが操作するベクトルはどこにあるか、テンソルマニフォールド、テンソル乗算はどこにあるか、数学的空間でどんな対称性を持っているか、AIが何をしているのかについての数学的理解とこれがどう組み合わさるか、を理解しようとしています。

なぜなら、これは破られた約束だからです。先ほど申し上げたように、古き良き時代、AIの機械論的解釈可能性の分野が始まったとき、研究者たちは大規模で楽観的な仮定を立てました。一対一マッピング仮説です。初期の頃、SAA、つまりスパースオートエンコーダーを6万5000の原子、私たちの数学的ベクトル表現で訓練すれば、各原子が一つの人間の観念にぴったりロックオンしてくれることを願っていました。赤色とは何か、年の意味とは何か、と。一つの原子が一つの概念に対応する。これが希望でした。すべてが数学的に純粋で正確で、美しい状態だと。

先ほどお見せしたように、たとえば原子番号10、たとえばLLaMAモデルの第19層において、この事後オートエンコーダー表現で、まさに赤の概念であってほしい、と。しかし、これは真実ではありません。そんなに簡単ではないのです。なぜなら、この論文は今、原子と概念という言葉を何年も交換可能に使ってきたことが致命的な科学的誤りであることを証明しているからです。これがAIのブラックボックス内部で本当に起きていることではないのです。

色は概念ですが、色は単一の離散的な原子にはマップされません。色は連続的な物理的特性です。お見せしたように、Uと明度があり、LLMは色という概念を非常に特定の方法で、4096次元空間を曲がる二次元のパラボロイドマニフォールドとして表現するのです。これが色という概念であり、単一のまっすぐなベクトルではないのです。

接束と高次の認知構造の発見

ですから、人間の言語にあるあらゆる概念がブラックボックスの中で何であるかを学びます。事前学習データセットでモデルが訓練された場所、その後事後学習された概念。曲がったマニフォールドシステム全体です。これを微分幾何学の理解にマップすると、真実が分かります。私たちの辞書である行列Dは、6万5000の独立した概念のリストではなく、私がお見せしようとしてきたように、離散化された接束なのです。これもまた、純粋数学の用語で完全に定義された数学用語です。これがそれです。

離散化された接束。これは自明ではありません。ユークリッドではありません。物理学に詳しくなく数学に詳しくない方なら、人生でこれまで一度も見たことがないでしょう。しかしこれが計算する方法なのです。

今、原子そのものは意味の対象、推論そのものの対象ではないと認識します。原子は単に意味の局所的な微分、接線にすぎません。概念を理解するには、接線を積分して曲線を見つけなければなりません。リバースエンジニアリングして、AIブラックボックス内部で何が起きているかの真の理解にたどり着くわけです。

このイジングベースのパイプラインを後ろ向きに、6万5000次元のスパースオートエンコードされた辞書全体にわたって実行できます。これにより、私たちが発見したいすべてのマニフォールドを発見できます。色、時間、日付、年、味の意味、その他何でも。そして、そこにあることさえ知らなかったマニフォールドを発見します。

なぜなら、6万5000次元の空間で「知性」を構築するAIは、色、時間、年だけでなく、事前学習データセットで与えられたあらゆるものをエンコードしているからです。

パイプラインは一見ランダムな特徴の配列を取り、これを集合的に分析すると、たとえば私たちが科学的文脈における認識論的不確実性と考えるものの完全に新しい連続的なマニフォールドエンコーディングが明らかになりました。

これはつまり、高い確実性と正確な測定から、高い不確実性まで、連続的にスケーリングしている、ということです。AIが科学論文を読んでいるとき、私が読んでいるこの科学的文脈にどれだけの確実性があるか、どれだけの認識論的不確実性があるかを理解するための特定のマニフォールドがあるのです。そしてこの特性を記述するベクトルは、LLaMAモデルを使うなら、4000次元空間の連続的なマニフォールド上で動いています。

辞書ベクトルを個別に見ていたら、決して気づかなかったでしょう。すべてを統合しなければ、4次元ベクトル空間における高次の認知構造であることが分かりません。

そして今、これが面白くなってきます。少なくとも私の理解では、ちょっと待ってください、と言いたくなります。色や時間、日付や年、その他あらゆる基本的な単純なマニフォールドはすべて持っています。でもトランスフォーマー学習のための事前学習データセットでは実際にプログラムしていなかった何か。突然AIが、科学的文脈における不確実性のような何かを構築し始めたのが見えるのです。

つまり、より高次の認知構造が、このビデオで説明した数学的プロセスを実行することで数学的に発見されているわけです。突然現れていて、もともとの事前学習データセットの一部ではなかった、テキストの中の隠れたパターンだったのです。AIはこの隠れたパターンを発見し、これらは今、より高次の認知構造です。

ですから、いわば「知性の創発」があるわけですが、それはAGIや超知能を持っているということではありません。ただ数学的に、トポロジカルなインターフェースを持つ接空間近似のこのプロセスにおいて、AI自身の数学的空間に、私たち人間が高次の認知構造と呼ぶようなマニフォールドがあることが定義される、または見える、ということなのです。突然、不確実性という用語がAIの中のマニフォールド上で生きている。これは興味深いことです。しかしこれが私たちが持っているすべての知性なのです。

これは4月30日のこの論文からのスクリーンショットです。非同期パイプラインは、既知のマニフォールドを回復しています。温度、色、政治的バイアスといった三つの例が、明確な特徴コミュニティとして、確かに事前学習データにありました。温度があり、色があり、すべて美しい。しかしここで、PCAでいくのですが、気にしないでください、何かを発見しています。科学的データテーブルの平均と標準偏差、不確実性とエラーマージン、生医学研究の定量的測定。

突然、PCA分離で見ると、私たちが理解する用語を構築しているクラスターがあって、こう言うわけです。よし、より高次元の用語で、これをいわば科学的文脈における不確実性と呼べる、と。著者たちは、科学的文脈における認識論的不確実性の新しいマニフォールドエンコーディングを検出したと述べていて、既知の構造を超えた仮説生成のための有用性を示している、と説明しています。

4次元空間の中のマニフォールド

これは興味深いことです。この数学的理解で、なぜAIが突然「新しいマニフォールド」を発見しているのかを、本当に数学的に理解するのです。なぜならすべてがマニフォールドだからです。

つまり、この4次元空間において、人間ならできるかもしれません。私にできるかは分かりません。4次元空間があって、この4次元空間に私のビデオのサムネイルからのすべてのトポロジカル要素、3つか4つがそこに住んでいて、私たちが計算するシステムの状態ベクトルがこの特定のマニフォールド上にあるわけです。

すばらしい。この壮観な数学的機械、私たちの過完備フレーム、トポロジーからの区分線形アトラス構築、理論物理学からのイジングハミルトニアン、これらすべては、このビデオの一つの単一の究極の目的のために構築されているのです。この機械、このAIの心を読み、人間の知識、たとえばインターネットのコピーを事前学習データセットとして準備したものを、AIが自身の特徴空間の幾何学にどのように織り込むかを正確に理解すること、です。

そして今、私の前回のビデオの一つが量子AIについてだった理由が分かるでしょう。前回のビデオはヒルベルト空間についてでした。今、私たちはミンコフスキー空間にいます。人工知能の発展を続けたいのなら、次のモデル、知性の次のステップへ進みたいのなら、古典的なユークリッド理論にとどまることはできません。より知的な数学的定理に進まなければなりません。実際の物理システムからの理解を適用し、ニューラルネットワークがある種の物理システムであり、エントロピー、熱力学、スピングラスからのアイデアをこのシステムに適用して、新しい数学的現実を記述できる、と理解しなければなりません。

機械の心は、私が思うに、動的なミンコフスキー空間です。この近似、次の高度に曲がった幾何学の近似のためのものです。ベクトル、ベクトルマシン、ベクトルデータベースに別れを告げてください。何か別のものが現れるでしょう。私たちのプローブ、スパースオートエンコーダーはそれらを平らにすることはできません。局所化されたチャートのアトラスを織り合わせるしかないのです。お見せしたこのオレンジの絡み合いは、私たちが持っている生物学的ニューロンのグリッドに類似しています。

そして機械の中の心のソースを実際に読むには、多体物理学のツールを使わなければなりません。イジングモデルを使って、これらニューロンの相互作用する格子を、それらが最初から記述しようとしていた壮麗な連続的な幾何学にマップし直すのです。つまりAIのブラックボックスです。突然、AIシステムで実際に起きているすべての隠れた数学的手続きを発見することになります。

知識編集とサイバーセキュリティへの示唆

しかしそれはそんなに単純ではありません。私は単純化しすぎたからです。アトラスで構築されたネットワークが簡単な仕事ではないと認識すること。数学に詳しくなければ、簡単だと思うかもしれませんが、そうではないのです。そしてここでイジングモデルを使ってアトラスを再び糊付けし、その上で積分する。積分することが許されていることを証明しなければなりません。特定の境界条件を持つ必要があるなど。しかし最終的には、LLMの現実の真のマップを得ているのです。

機械の知識を書き換えたい場合、あるいは数学的に保証したい場合、つまりサイバーセキュリティで、AIが危険な概念や欺瞞、あなたがAIにやってほしくないことにアクセスできないようにしたい場合。AIの知識から特定の部分を削除したい研究分野全体があります。これまでは、それがどこかでベクトル表現だと考えていました。だから単にここからここまでベクトルを切り取れば、本当に興味のある危険なベクトルが本当に消える、本当に削除される、と願っていたわけです。

今、固定された特徴ベクトルを単純に削除することはできない、と分かっています。なぜなら今や、この数学的空間を本当に注意深く航行し、本当に潜在的に極めて慎重に反トポロジカルマニフォールドを抽出しなければならない、と理解しているからです。なぜならユークリッド的なベクトル表現ではないからです。ですからAI研究者は、もっとずっと知的に、ずっと巧妙にならなければなりません。

ですから、現在数学や物理学を勉強しているなら、素晴らしいことです。正しい道にいます。なぜなら次のアイデア、次の世代は、何かをコーディングする方法ではなく、それをどう考えるか、次の世代をどう発展させるか、ということだからです。したがって、それをどう考えるかについての深い深い理解と感覚が必要なのです。

LLMに適用される人間の論理がどのように、いわば、私がお見せしたトポロジカル要素の高次元幾何学に結晶化するかの設計図を見たわけです。物理学の異なる要素、異なる定理、異なるイジングモデル、異なる格子構造を適用して測定し、できれば時には制御することも見ました。しかしこれは大丈夫です。素晴らしいことです。なぜなら何かが失敗するたびに、改善しなければならないと理解するからです。数学的理解を改善し、AIのブラックボックスをこじ開けるツールの複雑さを改善しなければなりません。もはやユークリッドのツールではありません。非常に特定のツールセットでなければならないのです。

時間の概念と曲がった座標

要約の前にもう一度。ニューラルネットワークは、私たち人間が言語で表現する時間という概念をどう理解し、GPTシステムのために事前学習データを提供するか。時間はブラックボックス内でどう計算されているか。この高次の関係をエンコードするには、これは循環的な進行ですが、ネットワークは物理的に内部の座標系を包み込みます。曜日の座標ベクトルを再配置するのです。それらの間の距離行列が人間の論理を完璧に反映するように。一次元の円を形成したり、年をエンコードしたりするのです。三次元のらせん構造を形成します。

しかし本当に意味するのは、感覚を得てほしいのは、この特定のマニフォールドのトポロジーが、人間の言語における関係の論理である、ということです。なるほど、このブラックボックスAIは、たくさんの数学を美しく行っているわけです。

まとめと将来への展望

ビデオの終わりに、まだついてきてくださっている方、もしかしたら地球上にまだ一人だけ、この時間にまだついてきてくださっているかもしれませんね。要約を。

LLMの活性化ベクトル、長い思考連鎖の推論プロセスのためのベクトルですが、これは理論物理学の異なる枠組みで見ると、複数の重ね合わされた幾何学的マニフォールドからなる複合空間を移動する粒子です。これが私たちが操作している空間であり、AIの暗い空間に深く入り込むための解釈可能性ツール、要素、スパースオートエンコーダーには、これらのマニフォールドを直接捉える曲率がありません。

地球の表面、球体を覚えていますか。平らな平面しかなかったら機能しません。しかしそれを機能させるための数学定理を持っています。したがって代わりに、スパースオートエンコーダーは局所線形チャートのアトラスを動的に織り合わせるのです。理解しているのです。少しの数学が必要なだけで、その後AIをリバースエンジニアリングします。個々のチャートを調べるだけではいけません。それらを縫い合わせなければなりません。アトラスを計算的に縫い合わせ、最終的に機械の心のトポロジーを明らかにするのです。

そして今、目標を達成しました。今、人工的なAIの推論プロセスがどのように本当に計算されているか、その背後にある本当の数学が何かを理解しています。そしてすぐに、サイバーセキュリティが私たちが思っていたよりもずっとずっと制御するのが難しくなることが分かります。すべての専門家が言っていた、単純なベクトル抽出や、知識の一部を削除すること、ではないのです。ベクトル代数だけではできません。すべてが曲がった高次元のマニフォールドにエンコードされているからです。

ですから複雑さは完全に変わりましたが、ようやく、人工知能の機械の心の内部の働きを理解できる窓を持つことができました。

ビデオを楽しんでいただけたなら幸いです。新しい情報があったかもしれません。興味があれば、研究自体を読んでみてください。これはほんの導入です。研究自体は数学的にはるかに重いものになります。しかし少しのモチベーション、楽しさをお伝えしたかったのです。数学に飛び込もう、研究を読みたい、本当にこれを理解したい、と。そしてStanfordやHarvardの様々な研究者が現在何を考えているか、AIが実際にどう機能しているのか、を見ることができます。次のビデオでお会いしましょう。

コメント

タイトルとURLをコピーしました