Googleの次世代AI研究次トークン多様体を超えて

Googleが次世代AIモデルに向けて重要な発見を発表した。従来のトランスフォーマーアーキテクチャにおける線形表現仮説は、自然言語の流れには有効だが、推論タスクでは崩壊することが判明した。Google DeepMindとプリンストン大学の共同研究により、文脈構造がLLMの表現幾何学を再形成することが明らかになり、隠れ層における「straightening(直線化)」メカニズムが中間層で最も活発に機能することが示された。しかし、質疑応答のような推論タスクでは、モデルは線形外挿ではなく非線形多様体ジャンプを実行する。この発見は、現行のLLMが長期推論に本質的な限界を持つことを示唆しており、次世代トランスフォーマーアーキテクチャの設計に革新的な示唆を与えるものである。Googleの透明性の高い研究姿勢が、AI業界における次のブレークスルーを予感させる内容となっている。

Google is cooking: Beyond the 'Next-Token' Manifold

All rights w/ authors: Why Reasoning Fails to Plan: A Planning-Centric Analysis ofLong-Horizon Decision Making in LLM Ag...

Googleの新たな研究とトランスフォーマーの幾何学的アプローチ
MITの先行研究と神経文軌道の直線化
中間層における広範な直線化現象
線形射影としてのトランスフォーマーの数学的メカニズム
ディープニューラルネットワークにおける前処理の役割
内部予測メカニズムとしての単純な線形化
事前学習における固定概念の展開
特定のケースにおける直線化の失敗
残差ストリームと情報の蓄積メカニズム
連続性タスクにおける線形抽出仮説の限界
長期推論における現行モデルの限界
Googleの研究姿勢の透明性
新世代AIモデルへのパラダイムシフト

Googleの新たな研究とトランスフォーマーの幾何学的アプローチ

こんにちは、コミュニティの皆さん。戻ってきてくれて本当に嬉しいです。Googleが何かを準備しているように思えます。一緒に見ていきましょう。

まず、文脈内学習がどのように機能するかについての私たちの理解に関する簡単なアップデートです。これまでの考えは忘れてください。文脈内学習(ICL)はタスク構造を線形ベクトルに圧縮します。私たちは新しいことを学ばなければなりません。

こちらがGoogle DeepMindの研究です。2026年1月29日のものです。これはプリンストン神経科学研究所、プリンストン大学との共同研究でもあります。文脈構造がLLMの表現幾何学を再形成するという内容です。

ご覧の通り、Googleが次世代のトランスフォーマーモデルに向けて採用しているアプローチは幾何学に基づいています。まず、このタイトルを見てみる必要があります。

MITの先行研究と神経文軌道の直線化

これは2023年のMITによるもので、LLMが暗黙的に神経文軌道を直線化して自然言語の予測表現を構築することを学習するという研究でした。これは完全に忘れ去られていた画期的な研究でしたが、彼らが示したのは、通常の人間の文章における英単語のシーケンスの新しい軌道が、トランスフォーマーネットワークの層を通過するにつれて徐々により直線的になるかどうかをテストしたものです。

この洞察の背後にある鍵となるのは、より直線的な軌道が線形外挿を介したより単純な予測を容易にするはずだということです。そして、皆さんが何を言おうとしているか分かります。つまり、私たちは自己回帰モデル、次トークン予測モデルを持っているわけです。しかし、ここでの順序は、この特定のモデルの多次元表現空間で計算されます。計算された文の神経軌道という、なかなか奇妙な言葉遣いですね。

しかし、彼らが示したのは、これが単純化されるということです。トポロジー的な混乱のようなものではなく、より直線に近い形になります。どうやってこれを行ったのでしょうか。各文の各層について、隣接する単語を結ぶベクトル間の角度の平均として文の曲率を計算しました。単純な数学的公式です。素晴らしいですね。

中間層における広範な直線化現象

今日のGoogleによる研究の発見は、自然言語全般、またはロジックにおける単純なグリッドウォーク構造を持つ場合、トランスフォーマーアーキテクチャの中間層、第15層から第25層において広範な直線化が起こっているということです。

つまり、モデルはシーケンスを線形パス表現に積極的に解きほぐしており、長いコンテキストは人間の文章の直線化を強化します。ちょっと待ってください、と思われるかもしれません。トランスフォーマーアーキテクチャは次トークン予測アーキテクチャなので、出力はロジットのソフトマックスから導かれる確率分布です。

はい、その通りです。しかし、これらのロジットを生成する隠れ層の状態、活性化の幾何学的構造こそが、線形性制約の対象となるものを作り出すのです。

線形射影としてのトランスフォーマーの数学的メカニズム

少し深く掘り下げたい場合、Hを最終的な隠れ層の状態、活性化、すべてのトランスフォーマー層Lを通過したトークンとし、Wを埋め込み解除行列とします。ここでBは語彙サイズを表します。

次に何をするかお分かりですね。ロジットはこれら2つの要素間のドット積として計算されます。ドット積は線形射影です。ここには他に何もありません。そして、トランスフォーマーアーキテクチャで次に行うステップは、確率分布を計算するだけです。しかし、これはロジットのソフトマックス関数に過ぎないことをご存知でしょう。

ですから、確率分布に関するすべてがここにあることが分かります。もちろん、これはGoogleによって発明されたトランスフォーマーの単純なアーキテクチャです。しかし、ここで気づくのは、隠れ層の状態、活性化において線形性を持つように、すべてが機能しているということです。これが次のステップを予測する最も単純な形式であり、おそらく私たち全員にとって明確ではなかったのかもしれません。

ディープニューラルネットワークにおける前処理の役割

簡単にまとめると、最終的な読み出し層は線形であり、ディープニューラルネットワークなので、すべての層1からL-1は、いわば大規模な前処理装置として機能します。単一の目標を持って、高度に非線形で角度のある入力多様体を、超平面、つまり埋め込み解除行列によって線形分離可能な特定の状態に変換するのです。

これが、トランスフォーマーアーキテクチャにこれらの異なる層すべてがある理由です。非常に簡単な例を見てみましょう。シーケンシャルな軌道を調べます。トークン1からトークン3までのシーケンスがあり、層Lにおけるそれらの表現がX1からX3です。

このシーケンスが、トランスフォーマー、事前学習されたトランスフォーマーにとって予測可能なパターンに従う場合、そしてAIはパターンマッチングマシン以外の何物でもないことをご存知でしょう、そしてこのパターンはロジックや自然な人間の物語の流れにあり得ます。

モデルは、その内部数学的表現において、曲率を単純に最小化します。これはどういう意味でしょうか。これは、遷移ベクトル、つまりこれらの隠れ層の状態が共線的になることを意味します。つまり、任意の内部表現が活性化空間に速度ベクトルを作り出すということです。

そして、X1、X2、X3のシーケンスが与えられたときにX4を予測するために、この未来を定義する線に沿って単純に外挿するのです。これがX4の公式です。

内部予測メカニズムとしての単純な線形化

ですから、内部予測メカニズム、数学的予測メカニズムは単純な線形化であることが分かります。そして、この古典的なトランスフォーマーアーキテクチャの成功はこれだったのでしょうか、と思われるかもしれません。私たちと話すことができるモデルを欲しかっただけなのに。

モデルがシーケンスABCDを特定のベクトル空間でジグザグやスパイラルとして表現する場合、これには非常に複雑な特定の関数が必要になります。さあ、次のステップEを推測してください。

しかし、モデルがABCDをこの活性化空間で直線に変換すれば、Eを予測することは些細なことになります。同じ方向に進み続けるだけです。しかし、これは最大確率の位置が隠れ層の状態の線形方向によって決定されることを意味します。

ですから、この線形性が突然なぜそれほど重要なのかがお分かりいただけたと思います。

事前学習における固定概念の展開

事前学習について考えてみましょう。私たちにはすべての重みがあり、クエリ、キー、バリュー、MLPがあり、それらはいくつかの固定概念に対してこの展開を永続的に実行するように訓練されています。これが、典型的な標準的な線形表現仮説と呼ばれるものです。

では、今日のGoogleの論文における大きな質問です。文脈内学習について考えてみましょう。ここで重みのテンソル構造をまったく変更しません。モデルは、これまで見たことのない新しいデータに対して、これを即座に実行するのでしょうか。そして、この活性化空間構成の数学的依存関係は何でしょうか。

例を挙げてみましょう。プロンプトを出します。入力は1、2、4、8、16です。そして、AIの仕事は次のセグメントを考え出すことです。AIはどのようにこれを行うのでしょうか。

活性化ダイナミクスから分かっているのは、アテンションメカニズムがすべての前のトークンに注意を払うということです。Googleがこの研究で発見したのは、アテンション層が効果的にシーケンス1、2、4、8の内部表現を回転させシフトさせ、トランスフォーマーアーキテクチャのより深い層では、入力シーケンスが幾何級数的であるにもかかわらず、ベクトル空間において線形算術級数を形成するということです。

これはヒントです。これは次世代のAIをはるかに簡単にする何かです。

特定のケースにおける直線化の失敗

そして、皆さんが何を言おうとしているか分かります。ちょっと待って、と言うでしょう。でも、私は研究を見ました。Googleはこの新しい研究で、特定のケースで直線化が失敗することを発見しました。そして、これらの特定のケースは文脈内学習にとっても重要です。

それは私たちの短い質疑応答です。プロンプトは質問フランス、答えパリ、質問日本、答え東京です。これらの国の首都を探していることは正確に分かっています。これはどのように機能するのでしょうか。

質疑応答における遷移は直線ではないことが分かります。前のトークンの継続ではありません。もちろん、これを見てください。これは中断です。不連続性です。ですから、モデルは国から首都へジャンプするために、異なる幾何学的メカニズムを使用しています。これは非線形性です。

しかし、これについて考える別の方法があります。この線形表現仮説に対する最も強力な論拠は、今日のトランスフォーマーのアーキテクチャ概念です。なぜなら、トランスフォーマーは残差ストリームによって定義されているからです。

残差ストリームと情報の蓄積メカニズム

数学的に、残差ストリームの出力XLは、入力プラス更新の合計に過ぎないことが分かります。ここでこれらは高次元ベクトルまたはテンソルストリップとして表されています。つまり、これを頭に入れて、ほんの数週間前に、GoogleがここでExtreme文脈内シンボリックAIを行っていることを示したことを思い出してください。そして、メタコントローラーまたは残差ストリームの時間的抽象化を持つ、時間的抽象化を備えた新しいトランスフォーマーアーキテクチャをGoogleがすでに発明していることを示しました。

この新しい研究を読むと、新しい可能性が突然見えてきます。まったく新しい何かが出現していることが分かりますが、Googleによって言及されていません。記述されていません。これは読者が発見するために完全に委ねられています。そして、この実験を行い、これを読んで自分で発見できることを願っています。なぜなら、考えてみてください。

残差ストリームを見てみましょう。別のヒントを差し上げたいと思います。これはもちろん、情報が加算的に保存されることを意味します。ベクトル代数におけるAとBは線形累積です。そして、第5層から第30層まで概念を覚えておくためには、IMモデルは残差ストリームにベクトル方向を書き込み、その後の層によって破壊されないようにしなければなりません。

そして、私たちは、意味のある特徴が線形方向と整合する傾向がある、この特権的基底について話しました。そして、この新しい研究の洞察は、この線形性は流れに対してのみ有効であり、私たちの推論に対しては有効ではないということです。

突然、閾値が出現します。相転移があり、Googleが私たちに伝えています。聞いてください、新しいことを発見しました。この美しい線形性定理は、情報の自然で一貫した流れに対しては有効ですが、推論を開始した瞬間に崩壊することを発見しました。

連続性タスクにおける線形抽出仮説の限界

この線形抽出仮説は、人間の英語の自然言語フローや、ここでパターンを繰り返すインダクションヘッドのような、連続性に依存するタスクに対してのみ有効です。これが私たちの知っていることです。

このプレプリントは、モデルが推論を実行するとき、この直線化行列、隠れ層の状態のこの内部表現、この行列が崩壊することを初めて示しています。新しいメカニズムが出現し、新しい多様体が突然活性化します。そして、これを大きな笑顔で申し上げます。

推論タスクを解決するために、Googleは私たちに、モデルはもはや線に沿って外挿しないと伝えています。今、トランスフォーマーは非線形ジャンプを実行します。そしてもちろん、これは一種の多様体ホップから高次元回転へのものであることをご存知でしょう。

つまり、IMALは構造を線形化することができる、あるいは、プロンプトテンプレートを与えれば、このテンプレートの論理的で一貫した流れを構造レベルで線形化できますが、その内部推論は同じではありません。なぜなら、このテンプレートの内容に対して、複雑な非線形多様体操作を実行する可能性が高いからです。

つまり、感じられますか。何を意味するか感じられますか。構造を線形化します。テンプレート構造ですが、この構造に内容を埋め込むと、異なる数学的に複雑な非線形多様体ジャンプを実行します。

トポロジカルデータ分析を使うか、これは何年も前から知られていますが、あるいはこれらのトークンだけに対する固有次元推定を行って、推論多様体の新たな複雑性を理解するかです。

長期推論における現行モデルの限界

さて、現在のAIモデルは長期推論をサポートしていないことが判明しました。これは別のヒントでもあり、幾何学的にもこの多様体は長期推論をまったくサポートしていません。AIシステムの動作、AIポリシー、計画におけるAIの戦略を見ると、局所的な極小値または極大値に捕らわれ、長期推論を実行できません。

ですから、私たちは現在のAIモデルが長期推論を行うことができないことをますます理解しています。検証可能な報酬構造による新しい強化学習で最大限遊ぶことはできます。本質的にこれを行うことはできず、症状の解決策を見つけようとするか、新しいトランスフォームを設計することができます。

ここで別のヒントを差し上げたいと思います。これも2026年1月29日に公開されています。これはノートルダム大学、スタンフォード大学、エディンバラ大学、イェール大学、パデュー大学、オックスフォード大学によるものです。推論が計画に失敗する理由、LLMエージェントにおける長期意思決定の計画中心分析です。

これには否定的な響きがあると言わないでください。私たちは間違いから学びます。LLMエージェントが特定のトピックで失敗するのを見るたびに、モデルをどのように改善できるか、どうすればより良くできるかを理解するためにこれを見ます。だから、お願いします。

推論が失敗する理由というようなタイトルを見て、2026年2月2日のこのプレプリントのような数学的説明を提供している場合は、これに飛びついて、読んで、理解しようとしてください。なぜなら、彼らの分析は、現在のLLMにおける推論ベースのポリシーのコア失敗モードを明らかにしているからです。

そして大きな質問は、OpenAIによるGPT-6がこれを気にするのか、それとも同じことの繰り返しに過ぎないのかということです。

Googleの研究姿勢の透明性

そして、私が読んだすべての研究から申し上げますが、本当に研究について率直であるのはGoogleだけです。Googleは本当に結果を公開しています。Googleは研究の肯定的な側面と否定的な側面の両方を本当に公開しており、本当に透明性があります。

これは単に魅力的です。したがって、Googleは間違いなく一歩先を行っていると言えます。

さて、この論文は中心的な質問を提起しています。LLMベースのエージェントは長い期間にわたって本当に計画できるのか、それとも次のステップについて局所的に推論することしかできないのか。そして、この質問をすれば、答えが何であるかは正確に分かります。その答えはこの特定のステップにおける美しい数学的フレームワークにあります。