Google DeepMindの最新研究が、大規模言語モデルにおける文脈内学習(ICL)の根本的な問題を明らかにした。モデルは完璧な幾何学的表現を内部に構築できるものの、その表現を実際のタスク解決に活用することができないという「不活性な表現」問題である。2次元グリッド上でのランダムウォーク実験により、モデルがトポロジー構造を正確に学習していても、2ステップ先の予測などの単純なタスクで精度が20%以下に崩壊することが実証された。GPT-5クラスの推論モデルでさえ、長い思考連鎖を与えても同様の結果となり、現在の自己注意機構が線形構造以外の複雑な関係性を処理できないという限界が露呈している。この発見は、文脈学習に依存する現行のAI戦略が複雑な推論タスクにおいて根本的に欠陥を抱えていることを示唆しており、次世代の注意機構の開発が急務であることを浮き彫りにしている。

文脈内学習の衝撃的な限界
コミュニティの皆さん、こんにちは。戻ってきてくれて本当に嬉しいです。今日、Googleが私の文脈内学習に対する理解と使い方を完全に破壊してしまいました。皆さんご存知のICL、つまり文脈内学習です。トランスフォーマー層の自己注意機構においてクエリ・キー・バリューのフィラメントを持ち、そして文脈内学習のトポロジー構造を持つ、あのICLです。
そしてここに、Google DeepMind、ブラウン大学、ニューヨーク大学が2026年2月4日に発表した研究があります。論文のタイトルは、言語モデルが文脈内で学習した表現を使用するのに苦労していると伝えています。
ちょっと待ってください、と皆さん思うかもしれませんね。直近の3本の動画は最適な数学的表現についてだけを扱っていたはずです。そうなんです。それらの動画で、Googleが次トークン多様体を超えたことをお見せしました。知能の幾何学に注目しました。
グラム行列を超えた場合について見てきましたし、特に私の前回の動画では、AIが単なるパターンマッチングなのかどうかについて、最終的な証明、幾何学的な証明を得られることをお見せしました。そこでは圏論について触れ、まさにここで表現を使用しました。
そして今、これは単なる偶然なのですが、Googleがこれらすべての美しい新しい表現を発見した翌日、私が皆さんに紹介したそれらが存在はしているものの、不活性であるというのです。冗談でしょう、と思いました。するとGoogleは「聞いてください、これは簡単な実験です」と言いました。「2次元グリッドというトポロジーを与えます。ランダムウォーク生成があり、Inksidian Airなどの言葉があります。そしてあなたの仕事は、次の自己回帰トークンHを見つけることです」と。
つまり、2つの要素があることがわかります。トポロジーとシグナルです。しかしここでは、構造こそが唯一のシグナルなのです。
次トークン予測と世界モデリングの違い
Googleは「聞いてください、次トークン予測では、古典的な言語モデル、つまりモデルはシーケンスを見て次のステップを予測します」と言いました。
では、Inksidian Airの次のステップは何でしょうか。複数の可能性があります。したがって、ミニ世界モデリングや文脈内学習を提供したい場合は、システムにいくつかのパターン、いくつかのマッチング、いくつかの少数ショット例を示し、そうすればシステムがAIに実行させたいパターンを理解してくれることを期待するわけです。
それでは実際にやってみましょう。彼らはこれを適応的世界モデリング、または文脈内学習と呼んでいます。モデルはこの地図上のランダムウォークを見ますが、その後、「2ノード離れたステップ」のような新しいタスクを解決しなければなりません。
これには、学習した表現を展開する必要があり、単にパターンを延長するだけではありません。つまり、AIの内部に世界モデルを持たなければならないということです。なぜなら、AIは「2ノード離れたステップ」とは何を意味するのか、どの方向に、どの次元で、ということを理解しなければならないからです。
したがって例を提供します。「さあ、ここに行きましょう。ここに入力としてInkがあり、出力はCatです。InkはCatになります」既にお分かりですね。次に提供する文脈内学習の例は、ToyからJamです。ToyからJamです。
突然、データのトポロジーが最も重要なものになることがわかります。そして私が今ここで「次の入力はCityです。出力は何でしょうか」と尋ねたら、AIが「わかりました、City入力、Winkが私の出力です」と言うことを期待するわけです。
しかしご覧ください、AIは与えられた特定のシーケンスでここに行くのではなく、すべてのデータの背後にある世界モデル、トポロジーを理解し、世界がどのように構築されているかについて本質的な理解を持っているのです。ここでは、世界は2次元グリッドとして構築されています。
これ以上簡単なものはありません。そうですね、1次元の線でもよかったのですが、まあいいでしょう。この例は、与えられたパスを予測することと、世界の理解またはモデリングとの区別を視覚化しています。
そして今、Googleはこれが最も重要になると言っています。そしてGoogleは私たちに「最初に確認しなければならないのは、表現状態が本当に起こっているかどうかです」と伝えています。
表現の存在の数学的検証
もちろん、昨日お見せしたように、彼らは正規化されたエネルギーで進めます。ここで青色で、最小化があることがわかります。はい、美しいです。
同時に、距離相関を見ると、ほぼ85%でピークがあります。これは5×5グリッドトポロジーについて正確に示しています。まさに昨日の動画で詳しく説明したことです。なぜ我々は直積について話しているのか、ここで圏とは何か、対象とは何か、射とは何か、任意の関手に対する直積の最小化をいつ使用できるのか、そういったことです。
昨日は古典的なLLMを見て、直積エネルギーをお見せしました。それが本当に崩壊するなら、最小化がある場合、緑色で、正しい答えの確率が特定の最小化で突然100%まで上昇します。
つまり、タスクの論理、複雑性の内部表現を見つけたのです。そして今、AIは層20でここで完璧な幾何学的解釈を見つけることができ、すぐに結果を得ることができます。グロッキングも覚えていますね。
そして今日、これは本当に偶然なのですが、この論文がGoogleが同じことをした翌日に発表されたのです。ご覧ください、これが正規化された直積エネルギーです。最適化があります。トランスフォーマーアーキテクチャの隠れ層で完璧な内部表現を見つけます。そしてご覧の通り、パフォーマンスが上昇します。
これは文脈内学習のみに対して行われました。なんという偶然でしょう。しかし、なんと美しい偶然でしょうか。
Googleは「オレンジの線を見てください」と言います。モデルの内部残差ストリームが、5×5グリッドの幾何学を完璧に再構築しました。タスクを解決するための完璧な幾何学的パターンを見つけたのです。
つまり、表現はそこに存在します。もはや数学的ブラックボックスではありません。数学的最適化手順があり、昨日の動画で行ったように、それが数学的に検証可能であることを示すことができます。
DCは、もし馴染みがなければ、埋め込み空間での距離と、グリッド上のマンハッタン距離との相関を照合します。単純な2Dトポロジーを扱う場合です。これは「聞いてください、AIモデルは地図をエンコードしています」と伝えています。AIモデルはトポロジーの表現をエンコードすることに成功したのです。
そして私は「素晴らしい、美しい、これこそ私が求めていたすべてです」と思いました。
表現は存在するが使用できない
するとGoogleは「でも待ってください、もう一つの検証を行わなければなりません。もう一つの実験をしなければなりません。なぜなら、それがAIの内部に存在することを証明しただけだからです」と言いました。
今、主要な質問は、AIがこの内部表現をどうすればよいか理解しているかどうかです。
そして今、問題が生じます。目標は「この適応的世界モデリングをやってみましょう。これを異なるトポロジーで行いましょう。16の停留所を持つ1次元チェーンでやってみましょう。地下鉄の路線のようなものです」と言っています。16の駅を持っています。おそらく閉じたループです。
そしてこの16状態の路線について、青色で、最も高い精度、60%の精度が得られます。つまり、AIが私たちが何について話しているか理解する可能性があるということです。
1次元チェーンでは、これは単純です。単語間の関係は線形です。このチェーン上で前進または後退できます。
グリッド構造に進むと、2次元ブロックレイアウト、都市ブロックレイアウトがあります。これはマンハッタングリッドです。これは非常に単純なネットワークトポロジーです。
そして今度は単語で進みましょう。再び単語を使います。今度は北、南、東、西に隣接するものがあります。私たちは2次元だからです。
この地図をナビゲートするために、モデルは今や2次元の、いわば心的イメージ、X座標とY座標を維持しなければなりません。そうでなければ、特定のマンハッタン都市ブロック構造で進むことに失敗するでしょう。
そしてご覧ください、4×4グリッド2Dと5×5グリッド(赤色)という2次元トポロジーがあります。そしてご覧の通り、最初はかなり大幅に下降し、50%の精度を超えることはなく、その後40%未満になり、そして消えてしまうか、赤いものは20%未満になります。
「なんということだ、何が起こっているのか」と思うでしょうが、X軸を見てください。1ステップ、2ステップ、3ステップとあります。これは何でしょうか。
1ステップは単純です。XからX+1への論理があります。単語「apple」の位置を加えたら、次にどこに行きますか。トレーニングデータでは文字通り「apple」を見て、次は「car」なので、モデルはメモリからこれをコピー&ペーストするだけで解決できます。推論は必要ありません。
2ステップでは、既に少し複雑になります。なぜなら、トレーニングデータでは、モデルは「apple」が「dog」の隣にあることを見たことがないからです。「apple」が「car」の隣にあり、「car」が「dog」の隣にあるということだけを見ました。
つまり、AIの知能は今、「apple」から「car」へ、そして「car」から「dog」へと進むことです。「でもこれは超知能の時代、スーパーインテリジェンスの時代のAIにとって全く問題ないでしょう」と思うかもしれません。ただ念のためお伝えしますが、40%未満の精度なのです。
そしてもちろんこの3ステップ、私たちはグリッド上にいるので、複雑なベクトル演算子があります。東に2ブロック、北に1ブロック移動するとしましょう。これは既にAIシステムにとって非常に難しいです。なぜなら、これは隠れ状態でベクトル演算を実行する必要があるからです。
しかし、「apple」という単語があると言えば、人間にとっては簡単です。グリッドがあり0,0で、ターゲットは2,1にあります。モデルはグリッド全体のパスを暗黙的に計算するだけです。私たち人間は、すぐにそれを見ます。地図を読むことに慣れています。しかしAIにとって、これはほとんど解決できない複雑性であり、パフォーマンスは20%未満の精度です。
これは壊滅的な結果です。Googleは様々なオープンウェイトLLMについて伝えています。彼らは4Bから270億の訓練可能パラメータモデルまで、かなり多くをテストしました。オープンソース、すべてオープンウェイトLLMは、この特定のタスクに苦労しています。潜在表現において基礎となるグリッドトポロジーを正しい方法でエンコードしているにもかかわらず、です。
推論モデルでも解決できない問題
つまり、過去3本の動画で話したことすべてが起こっているのです。Googleは「それは機能している、証明できる」と伝えています。しかし、それがAIの内部に存在するというだけでは、AIがそれをどうすればよいか理解するという証明にはなりません。これは絶対に狂っているように聞こえますが、これが本当にこの解釈のようです。
つまり、基礎となる状態空間に対応する文脈内表現を適切に形成したLLMが、この世界モデリングタスクを解決するのに苦労する可能性があります。なぜなら、2つの理由しか考えられないからです。
1つ目は、Googleが伝えるには、言語モデルがフュージョン例からルールを適切に誘導できない、たとえトポロジーに関する完璧な情報があっても、ということです。
そして、これははるかに壊滅的ですが、文脈内で学習された表現は存在し、数学的に最適化されているが、世界モデルのタスクの文脈において大部分が不活性である、ということです。
これは、AIの内部にエンコードされている、AIにとって利用可能なこのトポロジー情報を、LLMが確実に使用できないことを意味します。
それはAIによって行われました。しかし、いくつかの少数ショット例に直面したとき、この文脈内学習を使用し、構築することに完全に失敗するのです。AIはこれをどう扱えばよいか知らないのです。
そしてGoogleは「あのですね、ここでより長いコンテキストも必要です。プロンプトエンジニアリングからコンテキストエンジニアリングへと移行しているのです」と言います。
それで何をするか。長いコンテキストで進みましょう。提供する情報のコンテキストに本当に依存しているなら、これらのために世界中のすべてのコンテキストを提供しましょう。そして彼らは実験でそれを行いました。結果は、文脈内学習から改善しないというものでした。
つまり、コンテキストについて何を考えていたとしても、Googleはそれを否定したのです。そしてここにデータがあります。長いコンテキストの適応的世界モデルを持つLlama 3 27Bで進みました。再び赤色で約20%が見えます。
これは本当にフラストレーションが溜まります。なぜなら、これは、研究が示していることを総合すると、そして結果が示すことは、文脈内で学習された表現が存在するという主張は素晴らしいが、それらは大部分が不活性であるため、あるいはAIがそれらを使用できないため、絶対に何の役にも立たないということだからです。単純な思考連鎖のライン上にないダウンストリームタスクを解決するために使用できないのです。
化学や金融や物理学のように2次元トポロジーを使用する場合、4次元や5次元のトポロジーで進む場合、より高次のトポロジーで進む場合、すべて崩壊します。
推論コストについて、「ちょっと待って、これはオープンソースモデルだけのことでしょう。巨大な推論モデルはどうなの。GPT-5モデルはどうなの」と思うかもしれません。そうです、ここには巨大なプロプライエタリモデルがあります。
そして長い思考連鎖を行います。美しい推論トレースがあります。最大5,000トークンとしましょう。つまり、LLMに考える時間を与えるのです。テスト時間計算です。複雑さを与えます。スペースを与えます。「5,000トークンを作成してください。しかしその後、正しい答えを提供してください」と。
さて、何だと思いますか。GPT-5システムでこれを持つことができます。総合的な精度は完全に崩壊します。モデルが単純な2次元グリッドで提示されると、最初は40%を超えることはなく、その後約20%になり、そして10%未満になりました。
推論モデルが解決策だと思っていたなら、判明したことは、これは論文からの引用ですが、文脈内学習では総合的精度が完全に崩壊するということです。
「素晴らしい、それでこの研究からの洞察は何なの」と思うかもしれません。正直なところ、この研究を2回読み、ここで皆さんに提示することに少し不満があります。
研究から得られた洞察
さて、グリッドについて何を学んだか。2ステップと3ステップの複雑性でのパフォーマンスは、精度がほぼゼロにすぐに崩壊します。
AIモデルは地図を持っています。完璧な数学的最小表現、データのトポロジーである本当に完璧な結晶構造を構築する能力を持っています。しかしこの愚かなAIは、このグリッド上で精神的に2つの停留所をホップすることができません。十分に知的ではないのです。十分に訓練されていません。AI内のパターン認識メカニズムがまだ定着していないのです。
だから、何らかの問題があります。そして彼らは、この適応的世界モデリングに関するAIの失敗モードをより詳しく見て、「なるほど、AIは地図を読み解きます。これは素晴らしいです。しかし関数f1(x)を適用すると、失敗します。精度は崩壊し、思考連鎖や推論があっても、2次元トポロジーでのすべてのパフォーマンスは最小限のままです」と伝えています。
彼らは「洞察は何か」と言います。観察を実行可能なロジックに変えるために文脈内学習に頼ることができないなら、「いくつかのデータでプロンプトするだけ」というAIと文脈内学習を使用する現在の戦略は、複雑な推論に関係することについては絶対に根本的に欠陥があるということです。これはそれ自体が壊滅的なメッセージです。
この美しい洞察の要約が必要なら、最後の段落を見てください。パラドックスは、活性化状態と隠れ層の表現が今や完璧な数学的表現、トポロジーの完璧な地図を形成している一方で、AI固有の計算、つまり自己注意機構、注意ヘッド自体が、その特定の地図を読んで単純な2ステップのジャンプを実行することができないということです。
したがって、活性化は私たちが望む方法で構造化されています。しかし今、次の問題に直面します。それらの活性化、それらの構成は機能的に不活性です。なぜなら、注意ヘッドがそれを使用して複雑性を解決できないからです。
そして自己注意機構について考えると、もちろん理解できます。自己注意は人間の文章、この文中のこの線形シーケンスの各単語、各トークンが互いに参照し合う線形構造のために構築されたのです。
ですから今、Googleがこれを提示するなら、次のAIモデルのためのより高い複雑性の注意ヘッドを、願わくばGoogleが既に解明していることを祈りましょう。そうでなければ、これは災害だと思います。
さて、ここで終わりましょう。これがパート1の終わりです。
もちろん、私は皆さんを落ち込んだ気持ちのままここで放置したりはしません。だからパート1とご覧いただけます。私はこれをどのように解決できるか、より詳細を読み始めたところです。しかしそうですね、これは独自の動画になると思います。
もし興味があれば。もしこの動画が面白いと感じていただけたなら。もし解決策に興味があれば。そして願わくば、明日のパート2で解決策を提示できればと思います。


コメント