AIの中にAI:時間的抽象化を伴う内部強化学習

*重要記事
この記事は約33分で読めます。

本動画は、Googleが開発した革新的なトランスフォーマーアーキテクチャについて解説するものである。従来のLLMが抱える「トークントラップ」と呼ばれる問題、すなわち長期推論タスクにおいて1トークンずつの予測に縛られることで探索空間が膨大になり学習が困難になる課題を克服するため、GoogleはAIの内部にさらに別のAIを組み込むという斬新なアプローチを提案した。このメタコントローラーと呼ばれる第二のAIシステムは、エンコーダーとしてGRU(ゲート付き回帰ユニット)、デコーダーとしてハイパーネットワークを持ち、ベースとなるGPTモデルの残差ストリーム内で動作する。二段階の学習プロセスを通じて、まず専門家の軌跡から潜在的なサブゴールを発見し、次に内部強化学習によってこれらのスキルを組み合わせて複雑なタスクを解決する方法を学習する。この手法により、従来の強化学習では解決不可能だった疎報酬タスクにおいて画期的な性能向上を実現し、トランスフォーマーの次世代アーキテクチャとして大きな可能性を示している。

AI Inside an AI: Internal RL w/ Temporal Abstraction
Google invented a new transformer architecture with an internal metacontroller. An AI inside an AI. No #agent, no #RAG, ...

Googleの革新的トランスフォーマー技術

こんにちは、コミュニティの皆さん。また戻ってきてくれて本当に嬉しいです。そう、Googleが人工知能のための新しいトランスフォーマーを発明したんです。そして私はその解決策をお伝えします。彼らはAIの内部にAIを入れたんです。

ということで、私のチャンネルDiscoveryへようこそ。最新の研究論文を見ていきましょう。今回はGoogleからの論文です。Googleは、ほぼすべてのAIモデルが動作する基盤となるトランスフォーマーアーキテクチャを発明し、特許を取得した企業です。

今回、ついにGoogleは詳細な数学的付録を提供してくれました。前回、トランスフォーマーが初めて登場した時のことを覚えていますか。私は何時間もかけて、その背後にある数学を本当に理解しようとしていました。しかし今回は、彼らがどのように計算しているのか、主なアイデアは何なのかを正確に示す詳細なノートがあります。

数学に興味がある方は、これが最適な方法です。まず付録を読んでから、メインの論文を読んでください。多くの洞察が開けるでしょう。しかしもちろん、私は皆さんにこれを理解してもらいたいと思っています。ですから、初回の読み取りから得た洞察をここにまとめようと思います。そして、この新しいトランスフォーマーの内部を皆さんに開示したいと思います。

LLMが直面する根本的な問題

一般的に、LLMを使う場合、現在直面している問題は何でしょうか。なぜGoogleは新しいトランスフォーマーを発明するのでしょうか。

私たちはLLMをどのように制御するかについて根本的な誤解を持っています。私たちは強化学習、つまり人間のフィードバックによる強化学習のためのPPOのようなものを使っています。しかし、私たちは依然としてモデルを扱っています。GPTのことを考えてみてください。単にトークンを出力する自己回帰モデルとしてのブラックボックスです。

私たちはモデルに解決策の宇宙を探索させますが、それを1トークンずつ行います。これは非常に退屈です。なぜなら、時々完全に失敗するからです。これが「トークントラップ」と呼ばれるものです。これは非常に広大な探索空間を作り出し、長期推論では勾配が単に消失してしまいます。

つまり、AIモデルは何も学習しないのです。だからこそ、長い推論トレースに対するこの強化学習は完全に失敗するのです。

Googleの新しいアプローチ

Googleはこれについて考え、何かを発明したようです。現在、ポストトレーニングの主要な手段として強化学習を使用することに大きな関心があります。そして期待は、この強化学習が、元の事前学習データや事後学習データに存在するものを超えて、私たちのAIマシンに新しい知的行動を発見させるということです。

これが私たちの夢です。私たちは、何兆、何兆、何京もの学習トークンから、いつか何らかの知性が出現することを期待しています。

この観点から、純粋な強化学習の数学的立場から見ると、自己教師あり事前学習は、部分的な観測可能性の下での模倣学習と見なすことができます。マルコフを思い出してください。ノイズが導入され、中間ステップが隠されるだけでなく、システム内の潜在変数も未知です。

この潜在変数は、タスク記述やエージェントの報酬、特に目標である可能性がありますが、AIマシンのメンタルステートのようなもう少し高い複雑性のものでもあります。このセットアップは、結果として得られるモデルに潜在変数推論能力を吹き込みます。これは文脈内学習のための少しテキストスピードのようなもので、わずかな例、1つ、2つ、3つ、4つの例をプロンプトに入れるだけで、AIやLLMを新しいタスク環境に非常に迅速に適応させることができます。そうすると、文脈内潜在変数推論能力に基づいて、モデルはジョブをどのように解決したいかのガイドラインを持つようになります。

内部に隠された時間的抽象化

私たちは現在、自己回帰的行動モデル、つまりGPTモデルが、内部活性化パターンに時間的抽象的な行動表現を暗黙的に学習しているという仮説を立てています。これは私たちが長い間抱いてきた希望です。もちろん、一度に次の1トークンだけを予測するようにトレーニングされ、その次の時点でまた次の1トークンだけを予測するようにトレーニングされているにもかかわらずです。

これらの時間ステップが互いに繰り返される様子がいかに退屈かがわかるでしょう。それでは、疑問は、私たちの事前学習されたAIモデルの内部に何か他のものがあるのでしょうか。ニューラルネットワークの内部活性化に、一時的に抽象的なアクションがあるのでしょうか。

さて、この仮説で行こうと言えば、Googleは行こうと言いました。これにより、AI内に内部ニューラルネットワークコントローラーを導入することになります。つまり、AI内にAIがあるのです。

このコントローラーは、ベースのLLMの内部活性化を操縦する役割を担っています。トランスフォーマーや大規模言語モデルの通常のアーキテクチャは十分にインテリジェントではないことがわかります。大規模な推論トピックのために、LLM全体をよりスマートで、インテリジェントで、見栄えの良いものにしたいのです。

長いシーケンスがある場合、私のエレベーターテストを見てください。エレベーターは0階から50階まで行きます。6分、8分後には、一部のモデルは何が解決策なのか、何を達成したいのかを完全に見失い、ループに入ってしまうことがわかります。

では、トランスフォーマーアーキテクチャ自体の内部動作に、つまりトランスフォーマー層自体にAIを配置したらどうでしょうか。そして、このAI内の小さなAIが、トランスフォーマー層自体内のデータプロセスを制御する知性になるのです。

メタコントローラーの仕組み

絶対に魅力的です。このアイデアの複雑さを持つことができるのはGoogleだけだと思います。

私たちは今、寄生的な時間的知性、あるいは共生的な時間的知性と呼びたいかもしれないものを、トランスフォーマー、つまりAIに挿入します。そしてGoogleは、この寄生的な時間的知性をメタコントローラーと呼びました。メタというのはFacebookとは関係ありません。これは単なるスーパーコントローラーで、Googleの古典的なトランスフォーマーの層に直接配置します。

ここに古典的なものがあります。T5を使いましょう。そして今、AI自体の内部プロセスを最適化するために、別の小さな黄金のAI、人工知能をここに配置します。これは想像するほど簡単でも単純でもありません。なぜなら、いくつかのことがあるからです。

純粋な数学的用語でこれを説明したくはありませんが、グラフィカルな用語で説明したいと思います。そして、私はNana Banana Proを使って、複雑さを視覚化する手助けをしてもらいました。

ここにあります。では、左側から始めましょう。ここにGPTシステムがあります。これは古典的なGPT-5.2または他のLLaMAモデルです。古典的なデコーダーオンリーのトランスフォーマーアーキテクチャがあり、Googleはここで8層などを使用しました。

トランスフォーマー内部の情報ハイウェイ、バックボーンは、もちろん私たちの残差ストリームです。Googleは、このGPTシステムのスタック内の特定の位置、第4層の後に決定しました。彼らは「今ここで残差ストリームを抽出する」と言います。抽出パイプがあり、そこにいくつかの知性を実行するAIシステムを配置し、次に残差ストリームをフローズン状態のGPTシステムのバックボーンにフィードバックします。

したがって、このAIでこのAIを学習できます。つまり、異なる時点で2つの別々の学習プロセスが進行しており、複雑さは線形ではありません。したがって、この画像で少し説明できることを願っています。

それでは、このメタコントローラーを見てみましょう。何をしているのでしょうか。

メタコントローラーの環境定義

まず、これを見たい場合は、学習できる環境を定義する必要があります。興味深いことに、私たちのフローズン状態のGPTは今や知性ではなく、第二のAIシステムにとっての環境になります。

フローズン状態のGPTバックボーンが今や環境になり、私たちはGPTシステム、デコーダーオンリーのトランスフォーマーから始め、その層をプロセッサーとしてではなく、残差ストリームコードとして見ます。

このストリームは、層を通過することで、モデルの信念状態を蓄積していきます。つまり、GPT-5.2の理解と、現在のタスクの理解です。すべての層を通過することで、私たちはますます、願わくばインテリジェントになっていきます。

GPT全体をフリーズします。それはアンプエージェントであることをやめ、GPTは今や環境になります。

第二に、インターセプションに注目してください。今、ここに閉ループがあります。GPT Mを第4層の後に半分にスライスし、閉じたフィードバックループを作成する新しいメータコントローラーをここに挿入します。

抽出があり、次にいくつかの数学的操作があり、時々新しい残差ストリーム、新しいベクトルをフィードバックします。これを残差ストリームに追加すると、残差ストリームの色が変わります。薄い青から何かマゼンタのようなものに変わります。これをステアリングベクトルと呼びます。

どうやって複雑な残差ストリームに戻ってくるベクトルの数学的操作を持つことができるのか、と思うかもしれません。これには数学的理論があります。

エンコーダー・デコーダー構造の詳細

メータコントロールの詳細を説明しましょう。これは重要です。なぜなら、これは単にGPTシステム内のGPTシステムではないからです。まあ、それは面白いでしょう。しかし、私たちは今、この挿入されたAIとして完全なエンコーダー・デコーダー構造を持っています。

これが、望むなら魔法が起こる場所です。エミッターコントロール自体はエンコーダー・デコーダーアーキテクチャですが、古典的なトランスフォーマーではありません。なぜでしょうか。

エンコーダーは古典的なトランスフォーマーエンコーダーではなく、非常に特定の理由のためにゲート付き回帰ユニットだからです。これについては1分で説明します。

なぜエンコーダーとしてGRU、ゲート付き回帰ユニットがあるのか疑問に思うかもしれません。なぜならトランスフォーマーを使用できないからです。トランスフォーマーには多かれ少なかれ固定されたコンテキストウィンドウがあります。しかし、私たちはこの問題を克服したいのです。

賢いアイデアが欲しいのです。そしてGRUはローリング隠れ状態を持ち、私たちはこの隠れ状態を利用します。さらに強力な単純化が必要な場合、これは今、外部ハードドライブとして機能し、タスクの全履歴を単一のベクトルに圧縮します。GPTのコンテキスト制限、512Kまたは100万トークン長には関係ありません。

ローリング隠れ状態があり、これが時間的解像度のためにこれを選んだ理由です。GRUは、微分可能なメモリセルとして機能する線形代数演算の特定の配置です。2つの主要なゲートと状態更新メカニズムで構成されており、比較的シンプルです。

リセットゲートがあります。このゲートは、過去の情報のうち、特定のレベルでの現在の計算に無関係なものがどれだけあるかを決定します。これにより、AIモデルは、もはや適用されない、無関係になったコンテキストを削除できます。情報ストリームを単純にカットします。

しかし、更新ゲートも必要です。この更新ゲートは、前のメモリのうちどれだけを持ち越すか、新しい情報のうちどれだけを書き込むかを決定します。これは更新ゲートメカニズムで処理する平衡です。

GRUは、まさにこのタイプの問題を解決するために数学的にバイアスがかかっています。この更新ゲートは、新しいアイデアで使用するものです。なぜなら、推測してください。

この更新ゲートは、たとえば次の予測で、複雑なタスク、長い推論タスクを解決する計画、戦略が変わっていないときに、50時間ステップの間閉じたままでいることを自然に学習します。なぜなら、いくつかのサブステップを実行するだけで、メモリを保持するためです。

そして突然、モデルは「わかった、行き詰まった。この戦略ではもう前に進めない」と気づきます。すると更新ゲートが開き、新しい感覚データや内部評価を受け取ります。システムは「わかった、新しい計画に切り替えなければならない。私の計画は機能していない。私の戦略は機能していない」と言います。

これにより、ゲートが開くと、スイッチング動作が作成されます。これにより、AI内の内部強化学習が機能できるようになります。そして、ちょっと靴下をしっかり履いていてください。

メインAIの古典的な主要強化学習メカニズムだけでなく、AI内部で、第二のAI上で、これら2つのAIシステム間に内部強化学習があります。ここで少し複雑になります。

潜在コアでのスイッチング

興味深いことに、このスイッチングは、私たちの潜在コアで起こっていることとまさに同じです。今、低次元の新しい数学的空間でスイッチを構築し、このスイッチはGRU内部のゲーティングメカニズムであり、特定の確率ベータを出力します。

ベータがゼロに等しいか近い場合、モデルは単に現在の計画を保持します。つまり、現在の潜在計画を保持します。これは行列であることを忘れないでください。これはベクトルです。これはテンソル構造です。特定の数学的表現で活性化されています。

ベータが1に近づくと、スイッチが起こります。「わかった、ここで50ステップ失敗した。解決策に近づかない。新しい計画が必要だ」と言います。そしてベータが1になると、切り替わります。そして今、AIはこの長い推論トピックで新しい計画演習について考え始めます。

そして最後に、もちろんあなたはこれを待っていました。デコーダーがあります。デコーダーは今やハイパーネットワークデコーダーです。この小さな潜在計画Z、私たちの戦略を取ります。

低次元の数学的空間で作業していたことを思い出してください。これはデコーダーです。したがって、膨大な空間に戻して解凍します。たとえば4,096次元の数学的空間にします。なぜなら、これがフローズン状態のGPTシステムの残差ストリームにフィードバックしなければならないベクトルが存在する場所だからです。

特に多くの数学的操作が行われていますが、優れたものを達成しました。突然、現在の戦略が機能していないとき、そしてAIが新しい戦略に切り替えるべきときに、AI内の内部AIをトレーニングする可能性が得られました。

つまり、これはAIの計画プロセスであり、長い推論トレースに最適化されていないことがわかります。金融で本当に複雑なトピック、材料科学、医学などがある場合、これが進むべき道です。

ハイパーネットワークデコーダーを使ってこれを4,096次元空間に解凍し、高次元の残差ストリームを物理的に操縦します。フローズン状態のGPT-5.2の残差ストリームにフィードバックされるベクトルがあります。

LoRAによる低ランクパラメータ化

Googleは美しいことに、「LoRAまたは低ランク適応メカニズムのようなものを行列乗算でここに持つことができるか」と言いました。彼らはここで低ランクパラメータ化手法を持っています。

システムに戻る完全な行列を出力する代わりに、デコーダーは今、LoRAとまったく同じ数学のように、2つの小さな行列AとBを出力します。私はLoRAについて詳しく説明する3つのビデオを持っています。今、ここでまったく同じ低ランクの数学的パラメータ化を行列AとBで適用します。

Googleは、彼らのコンピューターインフラストラクチャーでこれを実験できると教えてくれます。ランクは16という低さまで可能です。突然、決定が進行する小さな小さな16次元空間だけがあります。非常に明確に構造化された分離されたサブスペースがあり、これが文脈内学習にどのようにフィードバックされるかをお見せします。

そして、600次元のランキングをここで4,096次元空間に爆発させますが、今では、ステアリングベクトルが残差ストリームを動かすことができ、ベクトルを残差ストリームに追加するので、これもテンソル構造です。いくつかの特定の方向、色の変更やオブジェクトの位置の変更などの意味のあるサブゴールに対応するサブスペースで、高次元ノイズでモデルの脳全体をスクランブルするのではなく。

3つの方向に動くことができ、おそらくリンゴを握ることができるロボットだけがある場合、4,000次元のサブスペースを与えることは意味がありません。自由度が制限されている場合に操作するために。

したがって、ここで完璧なランクを見つけるために、この数学的サブスペースのなんて美しいアイデアでしょう、低ランクパラメータ化。

メタコントローラーのトレーニング方法

さて、このメタコントローラーがあり、主な質問は、どうやってこのシステムに知性を入れることができるのかということです。もちろん、トレーニングする必要があります。学習する必要があります。AI内のこの小さな小さな引用符のAIシステムを。

どうやってこれをトレーニングするのでしょうか。すぐに古典的な強化学習アルゴリズムをそれに投げつけるわけではありません。なぜなら、それはAI内のAIだからです。どうやってこれをやりたいのですか。

Googleは、これは天才的だと言いました。彼らは「分離しよう」と言いました。なぜなら、達成したいことがあるからです。この小さなメタコントローラー、画面の左側に見える黄金の要素に、2つのタスクを実行してもらいたいのです。

まず、学習におけるスキル獲得フェーズがあります。次に、10、20、30、100のスキルを学習したら、それらのスキルを直交サブスペースでどのように組み合わせるかを学習し、レゴブロックのようにスキルオーケストレーションを行うことを望んでいます。

1つのレゴブロックを別のブロックの上に置き、次にその隣に置いて、そこから美しいものを構築できます。しかし、最初にレゴブロック、スキルを持っている必要があります。そうすれば、それに線形多様体を構築し始めることができます。

それでは、これを行いましょう。トレーニングの最初の段階は、システムのスキルを発見する必要があります。この最初の学習で何をするのでしょうか。

たとえば、このメタコントローラー、この小さなAIに、3次元タスクなどを解決する専門家のビデオを見せます。しかし、ラベルは隠します。AIがビデオを見るだけです。

このメタコントローラーは、ステージ1のトレーニングで、残差ストリームを見て、繰り返しパターンに気づきます。AIはパターンマッチングマシン、パターン検出マシンです。これが得意です。

「わかった。たとえば、この50ステップの間、ストリームはこのように見える」または、迷路にいると考えると、「特定の迷路構造で50ステップ進めば、迷路の出口に到達できる」と言います。

もちろん、その特定のパターンを潜在コードにエンコードします。Z5などと呼びましょう。

メータコントローラーはパターンを識別し、パターンを潜在空間にエンコードし、特定の名前を付けます。今、単語の辞書でもトークンの辞書でもなく、特定の迷路での移動方法を解決するパターンである潜在コードの辞書があります。

そして、靴下をしっかり履いていてください。これは最終的な報酬ステップではありませんが、彼らは美しいことをします。

重みへのスキル固定化

まず、このメタコントローラーには、もちろん重みがあります。重みテンソルがあり、今、この語彙を持っている場合、ビデオ視聴などから学んだこのスキルを保存する必要があります。

重みは今、この特定のパターンをデコーダーに焼き付けています。これが私たちがデコーダーを持っている理由です。

最も単純なケースでは、MLPデコーダーがあります。入力、たとえばセット5が、出力「壁を避ける」、特定の迷路構造の壁に接続されています。この辞書の潜在コードに関連付けられた新しいステアリングベクトルがあります。

これは、通常のLLMで持っているものに非常に似ています。各単語または各トークンと数値番号4,216またはトークン識別子ではない辞書があります。

今、これをより高いレベル、アクションレベルで持っています。本当に注意する必要があります。私は正しく理解したと思いますが、初めてやっただけなので、確認してください。

このメータコントローラーには、デコーダーにMLP重みがあります。私の理解では、定義を保存しています。つまり、辞書自体です。これは、モデルが「赤いドアに行く」が本当に何を意味するかを知っている場所です。

これは、この小さなコントローラーの長期静的メモリです。次に、エンコーダーにGRU重み構造があります。ここで純粋なロジック、または少なくとも戦略、ポリシー、どのように続けるかを保存していると思います。

しかし、これはこのAIモデルが操作計画をいつ切り替えるかを知っている場所です。これはまだ長期静的メモリです。

そしてもちろん、潜在コアでは、GRU隠れ状態があります。これは、現在の計画、たとえば「赤いドアに行く」という戦略が保存されている場所です。これは、切り替えることができ、ベータ係数を持つ短期動的メモリです。

このメタコントローラーのMLP重み、GRU重み、隠れ状態には注意してください。正しい構成と理解を得るために。

コンテキストウィンドウを超えた記憶

GPTシステムに戻ります。通常のGPTがプロンプトを忘れた場合でも、たとえばコンテキストウィンドウから外れたとしても、メタコントローラーGRUは計画がある隠れ状態を維持します。

つまり、すべての単一の時間ステップで、メタコントローラーは計画を再注入します。または、計画を更新したり変更したりする必要があると判断した場合は計画を再注入できます。または、「計画に満足している」と言います。

これは、ペースメーカーまたは継続的なリマインダーシステムのように機能します。これに何らかの形で接続された外部メモリやメモリを持つエージェントは必要ありません。忘れてください。

私たちはトランスフォーマーの内部にいます。AIマシン自体の内部にいて、そこに新しいメモリレベルを配置します。GPTシステムに、GPT自身の注意メカニズムがそれを見失っていても、私の人間のタスクの目標を継続的に覚えさせます。

GPTが忘れて、「ちょっと待って。5,000ステップ後。私はどこにいるの。私のタスクは何だったの」と言っても、メタコントローラーのどこにいるかを正確に知っています。メタコントローラーはこの目標、この知性をたとえばGPT-5.2にフィードバックします。

スキルオーケストレーション段階

さて、スキルがあります。たとえば50または100のスキルを識別し、システムは何をすべきかを知っているとしましょう。このパターンをエンコードし、潜在コードを与えました。

これで、これに基づいて構築できます。レゴブロックのようなものです。今、100個のレゴブロックがあります。

今、エージェントを新しい見えない迷路に配置します。今、強化学習をオンにしますが、メタコントローラーのポリシーのみを更新します。エージェントは今、新しいはるかに複雑な前進パスを解決する必要があります。

今、それは学習します。「ここで、たとえばZ5、壁を避けるボタンを押して30ステップ保持すれば、迷路の出口に到達できる。なぜなら、これは本質的なステップだから。迷路の壁を突き破ることはできない」。

まさに、私が最後のビデオの1つでお見せしたものがわかります。これは、多くのAIが迷路パズルを解こうとするときに犯す間違いです。失敗している場合、単に壁を無視します。壁を通過することはできません。

彼らは壁を突き破り、環境条件を変更します。そうしないと、解決策に到達できないからです。ここでははるかにエレガントなソリューションです。

壁を避けるタイミングのロジックは、LLMの重みではなく、GRUの重みに永続的に保存されます。これがどれほどエレガントかわかりますか。

強化学習の探索は、GPTシステムの膨大なトークンスペースではなく、メタコントローラーの中間の小さな圧縮された潜在空間Zで行われています。

GPTシステムでは、たとえば語彙サイズが50,000あるとしましょう。探索ホライズンを50,000ステップからたとえば5つの決定に縮小しました。すごい、このトランスフォーマーはどれだけ速くなるでしょう。

複雑性クラスの飛躍

もちろん、複雑性レベルについて質問があります。すべてのモデルが特定の複雑性レベルのためにトレーニングされていることを思い出してください。

私のテストを見た場合、私はエレベーターを0から50に移動させています。一部のモデルは成功し、一部のモデルは失敗します。なぜでしょうか。トレーニングデータで、特定の複雑性レベルまでの特定のソリューションと特定の複雑なソリューションを学習したからです。

この新しいAI構成では疑問です。トランスフォーマー、古典的なGPTデコーダーオンリートランスフォーマーに加えて、この新しいメタコントローラー、この新しいトランスフォーマー構成があります。

今、次の複雑性クラスにジャンプできるでしょうか。この小さな追加AIが、私たちのマシンで知性の出現を可能にしているのでしょうか。

Googleによるこのプレプリントは、今、構成的汎化が行われていることを明示的に実証しています。これはどういう意味でしょうか。

トレーニングデータに低い複雑性があります。専門家がここで「赤いドアに行く」と「青いドアに行く」をデモンストレーションしているからです。これらは学習される2つの異なるスキルです。

そして、フェーズ2の内部強化学習がある場合、より高い線形複雑性を持つことができます。タスクが「赤いドアに行き、次に壁を避け、次に青いドアに行き、次にスタートに戻る」である場合、システムはトレーニングデータでシーケンスを見たことがなくても、これを理解できます。

新しい線形加法的構成があります。通常、「赤いドアに行く」と「青いドアに行く」の使い方しか知らないはずです。今、これを組み合わせることができ、「壁を避ける」またはZ5条件のような中間ステップさえ持つことができます。

これを追加し、新しい組み合わせフェーズで連結できます。しかし、ロボットがジャンプ操作を実行することを学習したことがない場合、エミッターコントローラーは潜在コードにジャンプコマンドを持つことは決してありません。

ニュートンの法則を理解しているという理由だけで、新しい運動の物理学を発明することはできません。「Zに別の自由度がある」と言います。

複雑性クラス3では、より多くの追加の組み合わせ自由度があります。これが3ステップの線形シーケンスでのみトレーニングされた線形シーケンスで、4、5、6、7ステップを追加した適応を持つことができます。

この高い複雑性は達成可能ですが、次の複雑性クラスにジャンプできるわけではありません。すべては事前トレーニングデータに依存します。

メディアコントローラーは、時間的にこの線形ブロック、これらのレゴブロックをシーケンスすることによって新しいソリューションを構築します。つまり、構成的学習方法論があります。これは、トランスフォームアーキテクチャのメインAI内に存在するエミッターコントローラーのトレーニングのための内部強化学習です。

新しい汎化能力

何が得られるのでしょうか。模倣学習からの汎化が得られます。これは美しいものであり、よりインテリジェントなAI、よりクレバーなAIシステム、より高性能なエージェントシステムに到達するのに役立ちますが、基本的なトランスフォーマーアーキテクチャについて話しています。

繰り返しますが、これは楽しかったです。少し違う形で見ることができます。Nana Banana Proでこれを正しくするために少し遊ばなければならなかったからです。ブロック番号付けは本当ではありませんが、気にしないでください。

ここにフローズン状態のGPT層、トランスフォーマー、デコーダーオンリートランスフォーマーがあります。残差ストリームのパイプに抽出します。エンコーダーがあります。ここにスイッチ、ベータがあります。開発された新しい計画があります。

必要な場合はフィードバックします。残差ストリームベクトルを追加するように切り替わります。ここでベクトルを追加することができる理由について説明する時点に来ました。これはGoogleの説明または数学的説明で少し隠されていますが、1分で説明します。

ベクトルを追加すると、長期推論トレースのためのはるかに強力な出力があります。Googleがトランスフォームアーキテクチャをどのように最適化しているか、非常に興味深いです。

AIの未来への影響

なぜこれがAIの未来にとって重要なのか、と思うかもしれません。推測してください。突然、システム2の推論が本当に簡単になります。推論が不可欠であることを証明します。

文脈内学習状態を一緒につなぐ能力。メタコントローラーが受動的なICL直感を能動的な目標指向の計画に変えるからです。

「ちょっと待って。何を意味するの。なぜ突然、文脈内学習に切り替えて活性化パターンを行うの」と思うかもしれません。考えてみてください。これはまさに私たちがやっていることです。

文脈内学習は、重みテンソルを変更するのではなく、活性化パターンを変更することによって機能します。この追加のメタコントローラーで今やっていることは、残差ストリームデータがある活性化パターンの次のステップです。

メタコントローラーは、事前トレーニング段階で学習された受動的なICL直感を取ります。この目標指向の計画フェーズに目標があったという理解のような隠れた状態があることを期待します。

今、それが出現することを期待するだけでなく、エンジニアになりたいのです。特定のタイミング間隔でこれを活性化し、この活性化を残差ストリームを介してGPTシステムのメイン残差ストリームにフィードバックすることを望んでいます。

何をしているかわかりますか。GPTのコンテキストウィンドウから逃れます。100万または1000万トークン長があるかどうかは関係ありません。なぜなら、GRUが独自の重み構造に戦略計画を保存するからです。

トレーニングプロセスがあったことを思い出してください。テンソル重みを更新しました。エージェントはプロンプトがフローズン状態のGPT-5.2のコンテキストウィンドウから外れても、決して目標を忘れません。

この第二のAIでは、複雑性レベルの解決ステップが潜在空間にエンコードされて保存されています。推論、数学、金融、その他のためのコンテキストウィンドウの制限は忘れてください。

トランスフォーマーに、独自の知性を持つ第二のメモリ要素があります。単なるメモリ要素ではありません。少し注意する必要があります。今、少し混乱する可能性があるからです。

効率性の向上

さらに効率性。Googleは、標準の強化学習が0%のパフォーマンスで横ばいになる疎報酬タスクで最先端の結果を達成していると教えてくれます。

ああ、再びエミッターコントローラー、それは何ですか。これについて考えてください。エンジンです。数学は忘れてください。主なものは何ですか。迷路を解決する方法のサブゴールのライブラリを構築します。

サブゴールの1つは、「迷路でここに何かに遭遇した。回避できるか。ジャンプする必要があるか。火なのか。水で火を消す必要があるか」です。目標、サブゴールが独自のニューラル重み構造内にエンコードされています。

「赤いドアに行く」ためのボタンと「壁を避ける」ためのボタンを作成します。内部強化学習、トレーニングプロセスは、単にAIにどのボタンをどのシーケンスで押すか、いつ、どのくらいの期間押し続けるか、まだ有効な特定の計画をどのくらいの期間受け入れるかを教えるプロセスです。

そして、AIの状態のフェーズ遷移がある場合。「わかった、私の計画は機能していない」と見ます。次に別のボタンを押します。

これがまさに私たちが作業している2つの異なる時間スケールです。ここで操作ケースでGPTの次のトークン予測があります。しかし、mコントローラーのより遅い同期、レベル2の同期が必要な場合。

これは、AIを合計から筋肉記憶を持つ熟練したエージェントに変換します。複雑なタスクのためのものです。メタコントローラーの重みに保存されているからです。

単純な繰り返しでは不十分な理由

「ちょっと待って、これを他の方法で行えないの。もっと簡単な方法はないの。50トークンごとに、システムに『赤いドアに行け。赤いドアに行け』と言えばいいのでは。GPTが目標を忘れたら、10マイクロ秒ごとに挿入すればいい」と思うかもしれません。

複雑な強化学習。まだお伝えしていない美しさは、このメタコントローラーが、迷路の複雑さを考えると、トレーニングフェーズで未知のサブゴール、複数の未知のサブゴールを見つけることもできるということです。

迷路の出口への有効なパスを見つける前に達成しなければならないサブゴールがいくつあるかを学習します。10、15のサブゴールを達成する必要があります。

これは、AI「赤いドアに行け」に叫ぶことができるものではありません。例を挙げましょう。今日私が食べるものを知っていますか。ラザニア問題です。

ゴールはサブゴールと同一ではありません。ロボットまたはLLMにラザニアを作るように頼むと想像してください。50秒ごとに「ラザニアを作れ」と叫ぶことができます。これはロボットの助けにはなりません。

特定の時間間隔、たとえば1分目に、ロボットは玉ねぎを刻む必要があります。「ラザニア」と叫び、ロボットに最終コマンドを挿入しても、玉ねぎを刻むためにナイフを持つ方法を知るのに役立ちません。

システムがこの特定の問題でトレーニングフェーズ、2ステップトレーニングフェーズで学習しなければならないサブゴールがあります。

しかし、ミニ10もあります。ロボットは今、パスタを茹でる必要があります。「ラザニアを作れ」、つまり報酬構造の最終コマンドを挿入するだけなら、生のパスタをオーブンに出力しようとするかもしれません。今、固定されているからです。「これは最終目標のようだ。ラザニアを作る」。

これが今、LLMで起こっていることです。たとえば、「赤いドアに行く」は最終報酬条件です。しかし、そこに到達するために、エージェントは最初に、赤いドアから離れて歩き、壁構造を迂回する必要があるかもしれません。

50ミリ秒ごとにプロンプト「赤に行く」を強制すると、エージェントは壁を通り抜けようとしたり、クラッシュしたり、どこかに立ち往生したりします。ナンセンスです。

これがこのmaコントローラーの美しさです。トレーニングデータから、特定のソリューションの成功した専門家の軌跡を分析します。靴下をしっかり履いていてください。

最終目標に到達するために効果的に意味する、すべての潜在的なサブゴールを今発見します。この壁を迂回するなどです。目標に到達するために必要なサブゴールの完全なシーケンスを学習します。

低次元空間での効率的探索

このサブゴール表現は、トークンスペースではなく、低次元の潜在空間にあります。これがそれを非常に美しく、簡単で、シンプルで、高速にするものです。

なぜかわかりますか。ソリューションスペースを大幅に削減したからです。もちろん、私たち人間も、迷路に壁があるのか、特定のパスが必要なのか、どのようにソリューションを見つけるか、この特定のAIシステムがどのようにソリューションを見つけることができるかはわかりません。

メタコントローラーは、教師なしの方法でそれらのサブソリューション、サブゴール、完全な目標を見つけました。人間は必要ありません。たとえば、迷路を解決する方法がすべての側面で詳しく説明されている10,000時間のYouTubeビデオを視聴するだけです。

テキストプロンプトと目標を繰り返すだけでは機能しないことがわかります。また、高次元ベクトル表現を本当に見つけることはできません。

ベースモデルGPT-5.2が論理パズルを推論するような複雑な操作を実行して失敗する場合、その内部状態、残差ストリームは英語ではありません。非常に特定の高次元ベクトル構成です。

美しさは、メタコントローラーのトレーニングで、メタコントローラーがこの特定の高い特定のベクトル構成で学習することを余儀なくされたため、この正確なベクトル構成を潜在コードとしてキャプチャできるようになり、このパターンが潜在コードで何を翻訳するかを引用符で正確に理解しています。

したがって、美しいメタコントローラー、絶対にゴージャスです。通常のAIシステムでお伝えしたように、疎報酬トラップがあります。最後に報酬を受け取ります。

エージェントが目標に到達するために100ステップを踏む必要があると想像してください。エージェントが99の正しいステップを踏んだとしても、最後の1つが間違ったステップである場合、報酬はゼロです。

何を修正すべきかわかりません。エラーはどこで起こったのでしょうか。100の異なる可能なソリューションがあります。

目標を繰り返すだけでは、モデルはシーケンスのどの特定の部分で失敗しているかを知る方法がありません。

しかし、ここでmaコントローラーを見てください。メタコントローラーは長いタイムラインを複数のチャンクに分割します。迷路に固執すると、チャンクAは今南に移動するかもしれません。チャンクBは今赤いドアに行くか、水を渡るか、火を消すかなどです。

このロボットが失敗した場合、montrollerの内部強化学習アルゴリズムは、数学的に絶対に「チャンクAは問題なかった。移動した。美しい。しかし、失敗したのはチャンクBだった」と判断できます。

これにより、時間的クレジット割り当てと呼ばれるものが可能になります。もちろん、2つの要素だけでなく、9100ステップがあります。正確にこれらのチャンクがあるため、どのチャンクで何かがおかしくなったかを本当に見つけることができます。それが起こった確率分布が見られます。

まとめ:サブゴールの自動発見

要約しましょう。私たちは人間でさえ、ソリューションパスをまだ知らないのでサブゴールを知りませんが、十分なトレーニングデータがあれば、人工知能のこの第二のAI脳、この知性は、それを見つけ出し、サブゴールを識別できます。

これがこの新しいトランスフォームアーキテクチャの本当の美しさだと思います。

どのように解決するかのプロンプトの完璧なシーケンスを知っていれば、AIは必要ありません。それを解決するためのスクリプトを書くだけです。

しかし、Googleはエミッターコントローラーを構築して、教師なしの方法でこの問題を解決するアルゴリズムを発見し、GPTシステムで効率的に実行します。これら2つの異なるAIシステムの組み合わせは本当に驚くべきものです。

なぜ重要なのでしょうか。もはや次のトークンを予測するだけではありません。人工知能のこの第二の人工知能により、マシンの幽霊を操縦しています。

残差ストリームのトランスフォーマー層アーキテクチャの内部計算のエンジニアリングを行っています。トランスフォーマーの内部推論プロセスを最適化しており、これは2026年以降に登場する新しいチップ設計世代に大きな影響を与える可能性があります。

GoogleはNvidiaに依存しない独自のTPUを持っていることを思い出してください。

内部コントローラーまたはメータコントローラーが、トレーニングプロセスで、時間的に疎にスイッチする一時的に抽象的なアクションの高次シーケンスを生成する方法、計画、戦略的アクションを発見することがわかりました。

これらの抽象的なアクションは、新しいタスク、見えないタスクのために利用可能な検索スペースのサイズを劇的に削減することによって効率的な探索を可能にし、ポリシーの有効時間ホライズンを削減することによってクレジット割り当てを簡素化します。

論文の紹介

これはなんて美しいのでしょうか。最後に、この研究をお見せすべきだと思います。ここにあります。Google、これはクリスマスプレゼントです。2024年12月24日。Googleのパラダイムス・オブ・インテリジェンスチーム。

これまで聞いたことがありませんでした。Google素晴らしいグループ、またはなんて美しいアイデアでしょう。タイトルは「自己回帰モデルにおける創発的時間的抽象化が新しい階層的強化学習を可能にする」です。

すべての洞察をお伝えしました。今そこに行けば、この論文を楽しむことができます。完全な構造と、なぜそれを行うのかを理解しました。なぜこの構造がすでにトランスフォーマーに実装されているのか、それは素晴らしいことです。

もちろん、見たい場合は、これはGoogleの元の論文からのスクリーンショットです。ここで完全に異なる視覚化を行っていることがわかります。これにはもう少し数学的背景が必要です。

完全に新しい場合は、ここでの強化学習がどのように内部的に計算されるかを理解するのに役立つ私のビデオを楽しんでいただけたと思います。

最終的な製品は何でしょうか。最終的な製品は、トークンレベルのアプローチでは解決できない疎報酬タスクを解決するために内部活性化を直接強化する新しい階層的強化学習方法論です。

文脈内学習との接続

楽しみたい場合、これを自分で探求したい場合は、ここにプロンプトがあります。時々自分自身に尋ねます。コミュニティとして、GPTシステムのLLMの事前トレーニングから、内部活性化パターンが隠されていることを期待しています。

Googleがこの論文で創発的時間的抽象化と呼んでいるものが隠されており、通常は使用しない、利用できないものです。しかし今、この第二のAI、これがまさに私たちが焦点を当てているものです。

LLMの内部活性化パターンにエンコードされた、さらなる洞察と問題またはサブ問題への解決策を提供する内部の、知性と呼びましょう、があることを期待しなければなりません。

このメジャーコントローラーAIのこの新しい2ステップトレーニングプロセスにより、活性化パターンのこのサブソリューションを新しい組み合わせソリューションシーケンスで利用できるようになりました。

この質問をGrokからClaudeまで、好きなLLMに入れてください。PDFを挿入して、何が得られるか見てください。これが私の理解です。

本当に楽しみたい場合は、第二の質問があります。これは、LLMの活性化を介した文脈内学習の接続ですか。

メタコントローラーは、一歩下がって考えると、新しい形式の自動発見文脈内学習パラダイムをシミュレートしているだけではありませんか。

楽しんでいただければと思います。とにかく、気に入った場合、新しい情報があった場合は、購読してみませんか。私のチャンネルのメンバーになるかもしれません。

とにかく、次のビデオでお会いできることを願っています。

コメント

タイトルとURLをコピーしました