AI思考の幾何学

本動画は、スタンフォード大学とハーバード大学の共同研究により明らかになったAIトランスフォーマーモデルの内部推論プロセスの幾何学的構造について解説する。研究チームは、LLMが各トークン生成時に選択しなかった代替パスを探索する「フォーキングパス」手法を開発し、AIの意思決定ポイントを特定することに成功した。この手法では、各トークン位置で複数の代替シーケンスを生成し、その結果分布から確信度を測定する。さらに注目すべきは、高次元空間におけるAIの内部表現が予想外に線形的な幾何学パターンを形成しているという発見である。これにより、計算コストの高いフォーキングパス手法の代わりに、単純な線形プローブを用いてAIの内部状態から将来の出力分布を予測できることが示された。この研究は、AIの思考プロセスの透明性を高める一方で、これらの幾何学的パターンを悪用した新たなセキュリティリスクの可能性も指摘している。

The Geometry of AI Thoughts

We've long treated LLMs as inscrutable black boxes. We see the final answer, but the intricate "thought process" leading...

AIトランスフォーマーの内部を覗く
LLMの信頼度メーターを構築する
分岐点の発見
研究論文の詳細
翻訳AIマシンのトレーニング
最も興味深い発見:線形性の発見
複雑性から生まれる幾何学的単純性
セキュリティへの影響

AIトランスフォーマーの内部を覗く

こんにちは、コミュニティの皆さん。今日はAIトランスフォーマーアーキテクチャの脳内を覗いて、ある種の幾何学について見ていきます。私のチャンネル「ディスカバリー」へようこそ。最新のAI研究論文を見ていきます。

さて、今日の質問は、AIトランスフォーマーモデルは内部でいつ、どこでどの解決パスを取るかを決定するのかということです。そして今、私たちは絶対に驚くべき新しい研究を手にしています。見ていきましょう。

スタンフォード大学の言語学部、物理学オブ・インテリジェンスグループ、エンティティ、ハーバード大学脳科学センター、そしてハーバード大学心理学部からの研究です。彼らはより脳科学的な、脳波のような視点からこれを見ているからです。つまり、これは興味深いフレーミングなのです。

これは私たちの通常のコンピュータサイエンスの視点ではありません。しかし、彼らは絶対に魅力的な何かを発見したと思います。学際的な研究です。ご存知のように、私たちにはLLM、つまり段階的に答えを提供する自己回帰システムがあります。それらは次のトークン予測を持っており、私たちはLLMが取った単一のパスしか見ていません。しかし、各単語で、それは異なる方向に進むことができたのです。

異なる解決策を見つけることができたかもしれません。「はい」の代わりに、「いいえ」だったかもしれません。では、もっと詳しく見てみましょう。私たちのAIがいつ本当に確信を持っているのか、それとも単に推測していたのかを知ることができるでしょうか。そして、AIが取らなかった道を見ることができるでしょうか。あるいは、特定の決定の確率を見ることができるでしょうか。例えば、49対51%だったとしたら、どうすればAIマシンによる本当にしっかりとした根拠のある決定であることを確認できるでしょうか。

シンプルです。テストをして、AIシステムによって予測された数千の未来を生成し、それを評価すればいいのです。では、やってみましょう。

LLMの信頼度メーターを構築する

つまり、私たちが構築しているのは、言ってみればLLMの信頼度メーターです。まず、軽量な不確実性モニターを作成します。ここでAIに基づいた非常にシンプルな線形プローブを構築します。これがLLMの隠れ状態を探索してダッシュボードとして機能します。これは、LMの推論が不安定な基盤にあるときにフラグを立てる、計算的に安価な手法です。

例えば、その自己信頼度が30%未満の場合です。出力トークンの確率が高く見えても、です。なぜなら、私たちはAIマインドの内部ソートプロセスに飛び込みたいからです。ニューラルテキスト生成におけるこの分岐パスについてはご存知でしょう。覚えていますか、2024年12月、ハーバード大学、ハーバード大学、エンティティ、シカゴ大学コンピュータサイエンス学部が美しい黄金律を確立し、フォーキングパスを確立しました。

それは何でしょうか。Bパスを生成するには、AIエクストームによって生成された単一の完全な思考連鎖応答を生成するプロンプトを与え、次にいくつかの分岐点を特定します。つまり、各トークン位置で、そして私たちは本当に各トークン位置を意味しています。XRにおいて、選択された次のトークンだけでなく、n個の高確率代替トークンWのセットも考慮します。

つまり、各トークンに対して、AIが選択できたが選択しなかった10個、20個、50個の代替トークンがあったとしましょう。そして今、私たちはそれらのパスを探索します。位置Tの各代替トークンWに対して、Wが続く新しいプレフィックスを作成します。この分岐プレフィックスから、s個の完全なシーケンス、10個、20個、50個、100個の完全な推論パスを生成します。これらは、AIによる完全に異なる予測、完全に異なる未来を定義します。

そして、結果を集約します。生成されたすべてのシーケンスの最終答えを抽出し、数千、数千のそれらがあります。そして、加重平均を計算します。これにより、時刻Tにおける出力結果分布Oが得られます。シンプルでしょう。しかし、これは極めて計算コストが高いのです。

では、簡単な例を取り上げて、基本的な例でこれを示したいと思います。ここでの答えは、最初に掛け算をすれば正解ですが、よくある間違いで、今日でも多くの人がここで最初に足し算をしてしまいます。

つまり、結果が20か30かという違いがあります。そして、AIが少し間違っていると考えましょう。AIは、「段階的に考えましょう。最初に足し算をします」と言い、線形シーケンスで進みます。10+5は15、2倍すると30になります。したがって、答えは30です。今、これが不正解であることを知っていますが、これを使って他にどんな未来が可能だったかを見てみましょう。

最初のステップは、分岐点を特定することです。いつ間違ったのでしょうか。モデルが「追加したい」という単語を選択した瞬間を見ます。そして、モデルは「最初の数学演算は掛け算が最初です」を選択しませんでした。つまり、自己回帰型大規模言語モデルによって書かれたテキストは、「段階的に考えましょう。最初にすることは」で、そして今、今が興味深い部分です。

なぜなら、今トランスフォーマー自体のレイヤーの活性化パターンを見て、ここからそれを抽出すると、特定のコードを持つトークン「addition」(足し算)が70%の確率を持ち、これがそれが取ったパスであることがわかりますが、25%のかなり無視できない確率を持つ二番目の場所「multiplication」(掛け算)もあります。そして、これがAIが取るべきだった本当に重要な代替パスであることを私たちは知っています。そうです。そして、同義語がわずか2%の確率であります。

これがまさに私たちが見つけたいことです。では、今私たちは何をするのでしょうか。モデルを新しいパスに強制します。

つまり、正しい代替単語「multiplication」を取り、このパスの分岐において、今度はモデルにそれを使用することを「強制」します。これで、新しい開始シーケンスが「段階的に考えましょう。最初にするのは掛け算です」となり、そしてAIは次のトークン予測で再び実行されます。新しい未来、AIによる新しい予測を生成しているのがわかるでしょう。

この新しい文をモデルに返して、思考を完成させるように依頼します。すると、今度は正しい答え20が得られることがわかるでしょう。そして、これを文中のすべての単語に対して行います。「段階的に考えましょう」などの元の文が23語ある場合、最も単純なケースで、各単語に対して200の未来のみを生成する場合、論理連鎖にそれほど深く入り込まないとすると、これは4,600の未来を生成することを意味します。

著者たちがこれを行ったのは、4,600の未来のうち半分が1つまたは2つに収束する特定の反映点があるかどうかを見つけたかったからです。これを見てみましょう。

分岐点の発見

今、もう少し複雑な数学的なものを想像してみてください。でもいいえ、私たちは考えられる最も単純な数学的操作にこだわります。では、どうすればいいでしょうか。どうやってここで、文の最初の単語「let’s」のところに到達するのでしょうか。ここでモデルは確信を持っていません。ここからの分岐を探索すると、答え20と30の間で50/50の分割が示されるかもしれません。決定を下すには早すぎることがわかります。

しかし、私が示したように「addition」という単語、つまり位置番号7で、これが重要な瞬間です。そして、モデルは今、一度に示します。私たちはモデルが「addition」を決定し、事実上100%の他のすべての未来が答え30で終わると言います。これが私たちの変曲点であることがわかります。そして、分岐を2番目に確率の高い単語「multiplication」に強制すると、100%の未来が20で終わっていたことが示されます。

つまり、「addition」か「multiplication」かのいずれかで、位置7でのこのトークンの選択が、AIモデルの予測の完全な未来を決定することがわかります。単純な質問に対してさえ、これは信じられないほど高価ですが、モデルの確実性の完璧な高解像度マップを提供してくれます。そして、これにより私たちは今、確信を持って言うことができます。「モデルは7番目の単語、7番目のトークンで間違えた。トークンと単語の同一性がある場合、それが掛け算ではなく足し算を選択したとき、これが後戻りできない地点だった」と。

今、活性化パターンを見ると、私たちは何をするつもりか推測できますね。私たちは、AIで推論がどこで起こるかを見つけるつもりです。今日のプライム論文へようこそ。

研究論文の詳細

これは、すでにお見せしたように、ハーバード大学言語学および他の機関の研究です。「言語モデルは取らなかった道を認識しているか:Bの確率、トークンレベルの不確実性と隠れ状態のダイナミクス」です。これは2025年11月6日のものです。彼らはまさにこれを考慮しています。代替パスとは何か。これは興味深いと思います。なぜなら、これらのパスを読み取ることができれば、AIが不正解を与えた場合、それはAIが正解があることを見つけられなかったからなのか、それとも正解は単に2番目の位置にあっただけで、何らかの条件の解釈のためにAIがそれを2番目の位置にランク付けすることを決定しただけなのか、それともAIは複雑さが高すぎて正解をまったく見つけることができず、このAIモデルの上位100予測に正解の予測がないのか、を理解できるからです。

つまり、これを知っていれば、プロプライエタリなAIシステムであっても、ブラックボックスを照らす本当の懐中電灯を手に入れることができるのです。では、何があるでしょうか。私たちの例で、すべての単語に対して、今度は一組のものがあります。もちろん、プロフェッショナルにやるなら、ここでオープンソースモデルから活性化パターンを読み取ります。

これは、言ってみればAIモデルの内部脳活動のスナップショットです。そして、これが生理学であることがわかります。これは純粋なコンピュータサイエンスではありません。しかし、異なるフレーミングの視点からこれを見るのは興味深いことです。つまり、AIの内部脳活動、まさにその瞬間のトランスフォーマーレイヤー、これは単なるベクトルです。問題ありません。例えば125次元か何かでしょう。

そして、真の結果があります。もちろん、答え30が55%、答え20が45%などです。そして、これをすべてのトークンに対して行うことができます。つまり、ここでこの、言ってみればパスの分岐と新しい活性化パターンの読み取りを構築する必要があり、そうすれば何があるか推測できますね。これが私たちの新しいAI予測マシンのトレーニングデータセットです。これを翻訳機と呼びましょう。

そして、それが何かというと、線形プローブです。そして、この線形マシンの唯一のタスクは、「私たちのAIモデルの活性化パターンが与えられたら、今度は真の結果を予測せよ」というものです。

翻訳AIマシンのトレーニング

私たちがすることは、活性化パターンを示し、この翻訳AIマシンのトレーニングプロセスにおいて、このマシンが推測を行います。私たちは答えキーから真の結果を示し、それがどれだけ間違っていたかを伝え、プローブは次回より良くなるように内部マッチをわずかに調整します。そして、これを何千回、何万回と繰り返し、AI翻訳マシンをトレーニングします。素晴らしい。

そして、あなたが言いたいことはわかっています。「これは単純すぎる。複雑なクロスマルチヘッドアテンショントランスフォーマーアーキテクチャの線形プローブだって? 冗談でしょう?」と。では、見てみましょう。

問題に戻ります。「10+5×2」。モデルは「ああ、段階的に見てみましょう。まずやることは」と書き始めます。これはご存知ですね。でも忘れないでください。これはマルチレイヤートランスフォームアーキテクチャで行っているのです。すべてのレイヤーを読み取る必要があります。

例えば、「do」という単語で止まり、新しい未来を生成しないとしましょう。私たちは今、モデルの脳に手を伸ばすだけです。この予測AIマシンは、トランスフォーマーのレイヤー12に行き、現在の活性化パターンを取得します。このモデルはどこにいるのか、このAIマシンの意思決定プロセスはどこにあるのか。

そして、このパターンベクトル、この現在の活性化パターンベクトルを、トレーニング済みの新しい翻訳AIマシン、線形プローブに供給します。

そして、このパターン認識とパターン予測演習でトレーニングされたので、翻訳機は即座にここで予測を吐き出します。答え30は55%、答え20は45%のようにです。つまり、私たちがしたことは、極めて複雑なトランスフォーマーマシンを取り、活性化パターンと確率分布でトレーニングされるように、ここで簡単な線形プローブAIマシンを構築しました。そして、この翻訳AIマシンが私たちのために仕事をしてくれることを期待します。そうすれば、各文に対して4,600の未来を生成する必要がなくなります。

したがって、翻訳マシンをトレーニングできるようにするために、一度それを行う必要があります。そして、トークン「addition」を持つ新しい活性化パターンを取得して翻訳機に供給すると、別の千の未来を計算する必要はありません。

それは即座に新しい予測、98%の確実性で30を吐き出します。いいですね。でも、これはこの研究の本当に興味深いところではありません。なぜなら、覚えていてください、これは予測だからです。私たちは、モデルの現在の内部心理状態、各特定のレイヤー、おそらくトランスフォームアーキテクチャのより高いレイヤーの活性化パターンから、このトランスフォーマーのすべての将来の結果の全体的な分布を直接予測しています。

そして今、あなたは言うかもしれません。「でもちょっと待って。この学習は、この特定のケース、この単純なタスク、この単純なトランスフォームアーキテクチャに本当に限定されています。そこでは、線形プローブAIマシンをここで学習できるようにするために、すでに千の未来を計算する必要がありました。そして今、私たちは新しいケースのためにこれらのデータを外挿し、内挿しています。

これはうまくいくはずでしょうか?」と。そして、私は自分自身に質問しました。「それは本当にそれほど線形なのだろうか、線形プローブでこのブルートフォース予測ができるのだろうか?」と。著者たちが私たちに与える驚くべき答えは、イエスです。

最も興味深い発見:線形性の発見

そして、これが研究の最も興味深い部分です。最初の部分には多くの作業が費やされました。

しかし、なぜこれが可能なのかを理解することは、絶対に魅力的です。そして、私が線形性について話すとき、私たちは高次元ベクトル空間にいることを理解してください。線形性は、これやこれやこれのような単純な光線ではありません。しかし、ノルムベクトル空間自体の特定の時空構造があります。そして、数学的複雑性はそれほど単純ではありません。この私の画像でこの制限をお見せできればと思います。

そして、これはAI思考プロセスの解釈における最も衝撃的で有用な発見の1つだと思います。多くの中核概念について、ハーバードの研究を読んでください、本当に興味深いです。モデルの内部脳空間、ハーバードの心理学部がこれを呼んだように、線形なのです。

そして、ご存知ですか? これは、約1週間前の私のこのビデオと美しく一致します。そこで私は、AIマシンでこの幾何学的記憶が発見されたことを、純粋なコンピュータサイエンスの観点から別の視点から示しました。そして、これは今、追加の支持する事実です。数学的証明ではありません。

単なるさらなるヒントです。言ってみれば、はい、私たちはここで幾何学的記憶構成に戻ってきました。つまり、モデルが描かれると、効率的に情報を整理することを学ぶということです。そして、単純な掛け算や足し算のような2つの対立する概念を保存する最も簡単な方法は、それらを単純な平らな分割線の反対側に置くことです。これを超平面と呼びましょう。

線形プローブAIマシンの唯一の仕事は、これらの間の分割線である角度を見つけることです。そして、この複雑さの一般的な数学問題について、このLLMを使用してこのドメインでそれを見つけたら、それを同じ複雑さの任意の新しい数学問題に適用できます。なぜなら、新しい問題の活性化パターンもその線の一方の側または他方の側に落ちるからです。

つまり、私たちは今、ある種の新しい一般化を達成しています。そして今、靴下をしっかり持ってください。創発的な幾何学的パターンに。

私はこれを幾何学への回帰と呼んでいます。興味深いことに、しかしはるかに壮大で、より深遠なスケールで。そして、ご存知のように、私たちは「これは単なるブラックボックスで、マッピングできなかった数十億の非線形演算を持つAIの内部ソートプロセスを理解するチャンスはない」と考えていました。そして今、この研究により、これを行う方法があります。

活性化空間を見て、研究の芸術家のようにそれを分析すると、内部世界、あるいはコンピュータサイエンスのフレーミングの観点から活性化空間と呼びましょう、それが幾何学的規則に従って動作していることがわかります。これは単純に美しい簡略化です。

真実性や感情、あるいはここでは最終的な答えについての不確実性のような単一の概念は、高度に依存関係のある多次元の絡み合った結び目構造には存在しません。それは単に高次元空間における方向として現れます。つまり、これ以上簡単にはできないでしょう。

線形性があります。興味があります。これらのアイデアでどこまで行けるのか、本当に興味があります。私が他のビデオですでに示したいくつかの概念をグループ化できることをご存知でしょう。そして、正しい推論に対応するすべての活性化が空間の1つの領域にクラスター化され、不正確な推論が別の領域にクラスター化される可能性があります。

そして、これらの領域が、これは今仮説ですが、線形分離可能である場合、つまり単純に、それらの間に単純な平面、超平面を引くことができるという意味です。そうすれば、私たちの仕事は本当にもっと簡単になるでしょう。しかし、ある種の逆説があることを覚えておいてください。

複雑性から生まれる幾何学的単純性

ここで、異なるレイヤーとマルチヘッドアテンション、エンドまたはクロスアテンションなどを持つトランスフォームアーキテクチャの複雑性が、どのようにしてこの思考プロセスで突然、マシン上の人間的な用語でこれを行うのか、どのようにしてこの単純な幾何学的パターンを作り出すのでしょうか。

私は、高度に織り込まれた高次元数学的メトリックまたはテンソル構造であり、見るのがクレイジーなものであると予想していました。そして今、幾何学的パターンがあります。

そして、これはある種のオープンな質問だと思います。エネルギー最適化問題において、特定の多様体で局所最小値または大域最小値を見つけることができる場合、これらの最小値における解が幾何学的形状であることがどのように起こるのでしょうか。これは絶対に魅力的だと思います。

したがって、ここで再び仮説のみです。私たちはLLMを再解釈する時代に入りつつあります。それはデジタル幾何学の一形態になりつつあります。AIがそのソートプロセスで使用している内部幾何学的パターンをより理解すればするほど、内部ソートプロセスは私たち人間が理解できるようにより開かれます。

私たちはもはや出力確率やロジットなどを見ているだけではありません。いいえ、私たちは今、AIマシンの内部ソートプロセスの基本的な幾何学的構造をマッピングしています。そして、この点で、この特定の研究も本当に興味深いと思いますし、これがあなたにそれを示したかった理由です。

しかし、もちろん、それはまた、特定のAIモデル、例えばLlamaモデルのような古いモデルについて理解し、モデルの推論パスが最も弱い点、モデルがまだ足し算か掛け算かの単語で決定していない場所を正確に理解できれば、そこに行って、トランスフォームアーキテクチャでこの特定のニューロン、またはこの特定のネットワークノードを識別でき、単純なベクトルを追加するだけで、完全なAIマシンの完全な推論を完全に異なる方向に動かすことができます。

そしておそらく、ここで意図されていなかった何らかの意図を持つレッドパスがあります。元のプログラマーによって。

セキュリティへの影響

つまり、これは大規模なセキュリティ問題を引き起こします。なぜなら、特定のモデル、特定のマシンについて、ベクトルを追加するだけでよい場所を正確に理解できれば、つまり、あなたは、これをどう表現するか、モデルに「ベクトルがあなたを待っている」と納得させることができます。クレイジーなことをコーディングする必要はありません。それは、AIが変更する内部ロジックに従うだけになります。

その完全な将来の予測プロセス。このAIによるすべての将来の決定は、誰かが定義できる完全に新しいエンドポイントに収束するようになります。絶対に魅力的な研究です。詳細をご覧ください。詳しく読んでください。あなたのコメントを見たいです。

とにかく、次のビデオでお会いできることを願っています。