本動画は、Transformerアーキテクチャにおけるインコンテキスト学習(ICL)の動作原理について、最新の数学的証明に基づいて解説するものである。2025年7月にGoogleが発表した研究と、同年12月にオックスフォード大学とサセックス大学が発表した研究論文を基に、ICLがファインチューニングと数学的に等価であることを明らかにする。従来、ICLは凍結された重みを持つモデルが文脈情報を活用して推論を行うプロセスと理解されてきたが、新たな研究では、注意機構が生成する文脈ベクトルが、実質的にMLPレイヤーの重み行列に対するランク1更新として機能することが証明された。この発見により、活性化パターンが一時的な仮想的重み更新として作用し、順伝播自体が学習ステップとなるという革新的な理解が提示される。非線形性やスキップ接続を含む現実的なTransformerアーキテクチャにおいても、この数学的等価性が成立することが示されており、AI研究における重要な理論的進展となっている。

インコンテキスト学習の新たな理解
皆さん、こんにちは。また戻ってきてくださって本当に嬉しいです。今回は全く新しい動画をお届けします。Transformerアーキテクチャのテンソル構造において、インコンテキスト学習が実際にどのように機能するのかという新しい説明を扱います。それでは早速本題に入りましょう。私のチャンネル「ディスカバリー」へようこそ。最新の研究論文を見ていきますが、Googleによる新しいTransformerアーキテクチャについての私の最新動画を思い出してください。
メーターコントローラーについて話しましたが、その多くが訓練中に発生するインコンテキスト学習の特性に依存していることをお伝えしました。多くの視聴者から質問をいただいたので、素晴らしい、それではインコンテキスト学習について深く掘り下げましょうということになりました。そしてこれが最も重要な論文の一つだったことを覚えていますか。
これは2025年7月のもので、もちろんGoogle Researchからのものです。他に誰がいるでしょうか。「訓練なしで学習するAI:インコンテキスト学習の暗黙のダイナミクス」という論文です。この論文を読めば、すぐにその内容が理解できます。最も明確な視点が得られるのは、第3章の「ICLの暗黙の学習ダイナミクス」を見たときです。本当にステップバイステップで丁寧に説明してくれており、インコンテキスト学習が実際に何であるかを美しく示しています。
興味深いことに、彼らはこれを簡略化して行っていますが、NXAで見られるように、スキップ接続を持つコンテキストブロックにも対応しています。つまり、スキップ接続をコンテキストブロックに統合しているのです。すでにここで簡略化されたバージョンを離れ、これを示しています。
私は考えました。学習プロセス自体の非線形性が含まれていないのであれば、これは本当にAI研究者として知っておくべきことなのだろうか。これは本当に今応用できる知識なのだろうかと。しかし、この出版物ですべてが変わりました。これはオックスフォード大学とサセックス大学による2025年12月12日の論文です。彼らは「インコンテキスト学習の暗黙のダイナミクスのシンプルな一般化」と言っています。
ここの2人の著者は、7月の結果を取り上げ、Transformerアーキテクチャの完全な複雑性に対して計算を実行しようと試みました。そして彼らはこれを成功させたのです。ここで任意のコンテキストブロックへの拡張、より正確なスキップ接続を持つ任意のブロックへの拡張、そしてスキップとレイヤー正規化を持つ任意のブロックへの一般化が見られます。これは非線形性を含むものです。
研究の意義と深い意味
もちろん、その意味は絶対的に重要です。それが何を意味するのか話しましょう。論文を見ることができます。数学のすべてを追うこともできます。しかし、より深い意味は何でしょうか。このブラックボックスAIが何をしているのかについての私たちの理解にとって、これは何を意味するのでしょうか。
実際のところ、インコンテキスト学習の背後にあるメカニズム、特にこの学習については、本当には存在していませんでした。多くのアプローチはありましたが、本当のところは違いました。つまり、トークンの活性化がTransformerアーキテクチャの異なる層における学習プロセスにどのように変換されるかという、正確な機械的マッピングが欠けていたのです。
これら2つのプレプリントは、推論と訓練プロセスの新しく美しい数学的統一を提供してくれます。そして彼らはインコンテキスト学習についての新しい洞察を持っています。これは単に事前学習された知識、つまりAIの知性を取り出すことだけではありません。彼らはICLがファインチューニングプロセス自体と数学的に等価であることを示しています。これをもっと詳しく見てみましょう。
両方の論文において、彼らはここで実証しています。特定の文脈、文脈Cと呼びましょう、そして人間のクエリXを処理するTransformerブロックは、まるでそれがクエリXのみを処理する標準的なフィードフォワードネットワークであるかのように振る舞います。しかし、ここに大きな「しかし」があります。その重みが新しい異なるデルタW行列で明示的に更新されているのです。
これが私たちのデルタ重みテンソルです。これを挿入すると、これは単にクエリのみを処理する標準的なフィードフォワードネットワークだと言えます。つまり、2つの異なる視点があり、それらが相互にリンクしている場所で、数学は同じであることを示しました。
理論への挑戦と理解
しかし私の脳はこれを受け入れることを拒否しました。なぜなら、彼らが言っているのは、これが事前学習されたLLMの凍結された重みと、インコンテキスト学習に必要な動的適応との間のギャップを効果的に橋渡しするということだからです。突然、橋ができました。これはどうして可能なのでしょうか。私は信じられません。
数学に飛び込んでみると、これは本当にTransformerブロックの完全な複雑性ではないことがわかりますが、彼らもGoogle同様、2025年7月にコンテキストブロックTWWのようなものを構築しました。このブロックは通常のものと同様に構成されています。ここにコンテキスト層があります。これは多かれ少なかれ自己注意機構です。そして私たちのニューラルネットワーク層がここにあります。これは標準的な密なMLPです。
素晴らしい。標準的な深層学習の視点では、このTransformで起こる情報処理は、活性化空間におけるすべての数学的操作です。ベクトルXは、Transformアーキテクチャのすべての異なる層を通過し、回転され、圧縮され、その他いろいろなことが行われます。
これら2つのプレプリントは、私たちが間違った数学的空間を見ていると主張しています。彼らは言います、「活性化についても重み空間を見るべきだ」と。そして私は思いました、「いや、これは互換性がない」と。しかし続けましょう。
注意機構は単に文脈ベクトルCを生成するだけでなく、MLPの処理ロジックを書き換える命令も生成します。そして正直に言うと、これは初めて私の脳が壊れて「いやいや、これはTransformの異なる層におけるICLとファインチューニングの相互接続について標準的に知られていることではない」と言った瞬間です。
どうしてこれが可能なのでしょうか。重みテンソルに触れずにMLPの処理ロジックを書き換える命令とは何でしょうか。これはどう機能するのでしょうか。そして彼らは本当に主張しています。インコンテキスト学習はMLP層の重みをファインチューニングすることと数学的に同一であると。
私の感覚は、これは本当なのだろうか、というものでした。なぜなら、私もここで作業しているからです。私には同期させる画像があります。はい。異なる層からの重みテンソル構造のグリッドがここにあります。凍結された層があります。素晴らしい。そしてICLがあります。文脈活性化を持つICLストリームがここにあります。
数学的等価性の証明
彼らは今、この文脈活性化が、暗黙的勾配ステップのためのランク1更新で凍結された重み構造を修正することと数学的に同一であると私に言いたいのです。正直に言って、これが等価だと言いたいのですか。わかりました、これを見てみましょう。今、面白くなってきました。
では、なぜ私がこんなに問題を抱えているのか。凍結されたニューラルネットワークがあると想像してください。素晴らしい。その動作を変更し、ファインチューニングを実行します。いいえ、典型的なファインチューニングアルゴリズムをここで実行します。訓練データがあり、多かれ少なかれ誤差逆伝播を実行します。そして重みテンソルの物理的な数値を更新します。これの更新があります。素晴らしい。
つまり、ここで本当にテンソルの重みに触れ、実際に修正します。これがICLと対照的なファインチューニングの美しさです。なぜならICLでは、モデルに特定の文脈シーケンスであるプロンプトをクエリと一緒に供給し、インコンテキスト学習のためのいくつかの短い例を提供するかもしれません。
注意機構はこの文脈を見て、関連情報を抽出し、そして単純に文脈ベクトルエイジコンテキストを構築し、自己注意からTransformerのMLP構造にそれを送る前に、クエリXに追加します。そして今、MLPはベクトル表現上のこの追加されたコンポーネントを見ます。MLPは元の入力Xを処理しますが、修正された仮想的重みを使用します。
つまり、文脈ベクトルは活性化空間におけるベクトル表現であるだけでなく、修正された仮想的重みを持つ重み空間にも回転されるということです。私はまだこのアイデアを理解するのに苦労しています。
実際にあるのはゴースト重み更新です。私はこの点を明確にしたいだけです。つまり、私たちのICLの文脈プロンプトは、その特定の順伝播にのみ存在する一時的な仮想的重みのセットを今作成するのです。これはクレイジーに聞こえるかもしれませんが、わかりました、これで行きましょう。
ICLの革新的な解釈
つまり、このAIモデル、そして私たちの定式化において絶対的に残酷になりましょう。このモデルはICLにおいて、その場でファインチューニングされたバージョンの自分自身を幻覚するのです。これは本当にGoogleとオックスフォードとサセックスなどによるこれら2つの論文の内容なのでしょうか。
答えはイエス、これがまさにそのポイントであることが判明します。そして私には質問があります。その質問の1つは、これはどうして可能なのかということです。活性化パターンは重みを修正しません。活性化パターンは全く異なるものです。これは層を流れるベクトルです。重みテンソルです。
重みテンソルを修正する場合、これはどう同一なのでしょうか。答えは論文によって与えられています。それが可能なのは、数学的に証明できるからです。私が考えようとする視覚的な説明ではなく、数学的に同一の数学的項を見つけることができると証明できるので、可能なのです。
これをやってみましょう。簡単です。本当に簡単です。しかし、私たち全員がこれを理解することが重要です。活性化空間において、古典的な視点があります。WをTransformerのMLP層の凍結された重みとしましょう。Xをあなたの人間のクエリ、または最後のトークンの埋め込みとしましょう。そしてAを注意層の出力としましょう。注意とA。これは多かれ少なかれ完全な文脈情報です。
それから標準的なTransformerです。そして今、ここで非線形性を一瞬無視しましょう。非線形性についてはすぐに戻ります。LMPへの入力は、クエリと注意出力の合計です。私の前回の動画で見せたように、残差ストリームを介して。つまり、これは単純です。
直感的に今考えると、入力Xが特定のベクトル8によってシフトされます。素晴らしい。これで終わりです。これが私たちの活性化空間ビューです。つまり、項W × Aは今、訂正を表すベクトルです。あるいは、私たちのRCLプロンプトに追加された文脈から取得された知識と言えます。
今、オーダーは多かれ少なかれ、この訂正が文脈入力からではなく重みから来るような行列W重みを見つけることができるか尋ねます。数学的には非常に簡単です。オーダーは、この方程式を満たしたいだけだと教えてくれます。
つまり、活性化空間ビューがここにあり、重み空間ビューがここにあり、これが同じになるようにしたいのです。はい、これだけです。W × Aはまさに私たちのデルタW × Xです。Xはここで人間のクエリであり、Aはこの追加の文脈の注意であり、Wは私たちの重みであり、デルタWは私たちの追加の重み構造です。
W重みについて解くために、Xと掛け合わせたときにこの特定のベクトルW × Aを生成する行列が必要です。分配法則です。つまり、今彼らは数学的に教えてくれます。オーダーは、訂正項W × Aが追加のベクトルAから来たのではなく、代わりに元のベクトルXに作用する追加の重みから来たと仮定できると言います。
なぜ彼らがこれを主張するのか理解できます。なぜなら、彼らは数学的フレームワークを構築し、多かれ少なかれ、すべての計算の最後にこれに到達すると言うからです。2つの異なる数学的空間からこの項とこの項に到達します。そして私たちはただ尋ねます、私たちのW × Aが私たちのデルタW × Xと等価になることは可能ですか。これを見つけることができますか。
これは注意からの内容から来るのではなく、仮想的重み構造で操作できる訂正項です。突然、ファインチューニングとインコンテキスト学習を接続する橋ができました。
もちろん、見せたように、ランク1ソリューションでこれを行うことができます。外積を使えば簡単です。数学的に言えば、入力に注意出力Aを加えることは、ここでランク1行列デルタを加えることによって重み行列Wを更新することと同一です。
理論的な深まり
注意層からの活性化パターンAは、ICLにおける重み更新デルタWのソースになります。つまり、ファインチューニングとICLの間に、一貫した数学的理論における美しい接続が今あります。なぜ著者がこの同一性を主張できるのか理解できます。数学的に言えば、それは同一だからです。
しかし物理学では、物理システムの2つの特性が異なると見なし、それを数学的に分析すると同一であることがわかるとき、私たちは物理システムの構築において間違いを犯したことを理解します。なぜなら、対称性を無視したか、同一性操作を無視したかのいずれかですが、完璧とは言えないものを構築したからです。
機能するものを構築しましたが、なぜそうなのか本当には理解していません。そして今、この数学的同一性により、インコンテキスト学習とファインチューニングの違いだと思っていたもの、コード化したものが、実際には多かれ少なかれ同一のものであることが判明したという感覚があります。
おそらく、私たちはTransformerアーキテクチャを間違った方法で構築しただけです。これらの項が同一であることを利用しませんでした。簡略化されたカーネル表現で操作したことはご存じでしょう。12月12日にここで見せた2番目のプレプリントの美しさは、2番目のオーダーがこれをさらに進め、現実的な非線形深層学習シナリオでも数学的に機能することを証明したことです。
2番目の論文は、最初の論文の結果を取り上げ、非線形深層学習で数学的に証明しているだけですが、私たちは理解し解決しようとしている同じ複雑性に留まっています。
懐疑論者、そしてこれは私ですが、最初に言いました。いや、でもレイヤー正規化がある、非線形活性化がある、スキップ接続があると。これが、2025年7月のGoogleによるこの出版物をあまり重要視しなかった理由です。単純な代数は非線形活性化を入力すると成り立たないと思ったからです。
しかし、このチームはちょうど2週間前にそれが成り立つことを証明しました。これは何かです。しかし彼らには2番目の洞察があります。更新デルタ重みがトークン位置に特有になるということです。非線形性を考慮すると、各単一トークン位置に対してデルタWを計算します。これで少し面白くなってきました。
重みは、自己回帰システムによって生成されるすべての単一トークンに対して効果的に異なります。モデルは一度だけファインチューニングされるのではありません。ICLにより、自己回帰Transformerアーキテクチャの次のトークン予測の生成のすべてのステップで、継続的に自分自身を精緻化しています。
したがって、学習、つまりニューラルネットワークの誤差逆伝播の学習プロセスと、推論、順伝播を2つの異なるものとして扱うのをやめることができます。この数学を理解すれば、順伝播自体が学習ステップであり、これは誤差逆伝播と数学的に等価であることがわかります。
したがって、どういうわけか、Transformerのアーキテクチャをさらに最適化できる可能性があります。より小さく、より強力にできるかもしれません。まだアーキテクチャを最適化していません。
視覚的理解への試み
私の画像でここに行くと、これは私の頭の中にあるだけですが、あなたがどんな画像を持っているにせよ、私はここに、わかりません、4,000次元の重み行列、テンソル構造があります。そして、これは凍結された重みに対する文脈、文脈活性化であるICLと等価であるべきだと言います。
そして今、これら2つの画像が同一であることを理解しなければなりません。つまり、この黄金の文脈活性化は、多かれ少なかれ、凍結された重みテンソル構造に適用するランク1パッチにすぎません。ICLは、テンソル構造上のランク1更新と数学的に等価であることが証明されています。わかりました、これで行きましょう。
さて、さらに質問があります。ですから、私が時々これらのことと格闘している様子がわかるでしょう。しかし、待ってください。Transformerの層におけるニューロンの活性化は重みテンソル更新ではありません。数学的には、活性化は凍結された重みテンソルから計算される異なるものです。活性化において、私たちは学習され、AIにエンコードされた何かを活性化するからです。
前回の動画を思い出してください。これがGoogleがこの新しいTransformerアーキテクチャを構築できた理由です。隠れ層に追加でエンコードされた何かがあったからです。しかし、ここで続けて言います。しかし、AIモデルをファインチューニングすることは本当に何か新しいことを学習することです。しかしICLでは、本当に何か新しいことを学習するわけではありません。
では、両方の学習方法論で達成する結果から、これはどう等価なのでしょうか。それらは私にとって等価ではありません。論文は、著者が操作的等価性ではなく、機能的等価性を主張しているだけであることを証明しています。
ここで言葉を修正しなければなりません。はい。そしてこのパラドックスを解決するために、静的知識である凍結された重みテンソルと動的知識である層における文脈活性化を区別し、後者がどのように前者を乗っ取るかを理解する必要があると思います。
これはまた、ご存じかどうかわかりませんが、高速重みの概念にも私たちを導きます。標準的な深層学習では、2種類のメモリがあります。低速重みは事前学習の数ヶ月間にわたって学習されます。そして活性化、つまりネットワークを通過するベクトルは、プロンプトの理解の現在の状態の現在の知覚にすぎません。
ここで提示されている主な洞察は、何らかの奇妙な方法で、ジェフリー・ヒントンやユルゲン・シュミットフーバーの高速重みと呼ばれる初期の理論と一致しています。Transformerでは、活性化が一時的なレート構造として機能するというものです。そして今まで、これを私の脳の中の画像として持つことは大丈夫でした。
しかし今、私たちはこれが真実であるという数学的証明を持っています。そしてこれには意味があります。例を挙げましょう。私はまだこれを理解しようとしています。プロンプトは本当にICL学習で何も起こっていません。この会話におけるプロンプトは、「単語blobはappleを意味し、単語gorpはredを意味します」という指示の後のAIシステムへのクエリです。
さて、blobは何色ですか。そしてモデルはgorpと答えます。試してみることができます。何かが起こりましたか。マルは本当に凍結された重みからこれを思い出しただけですか。いいえ、blobとappleの間のリンクは事前学習された重みに存在しなかったからです。これを知識としてエンコードしていませんでした。
つまり、モデルは文脈において新しい関連性を本当に学習しました。新しい知識を発見したのではありませんが、新しい画像Hの与えられた要素の新しい線形関連性です。
実践的な理解
注意層は文脈を見ます。blobは多かれ少なかれappleであるという定義を見ます。そして注意から特定のデルタAベクトルを作成します。ベクトルデルタAは今MLP構造にヒットします。文脈ベクトルデルタAは、blobがMLPにヒットするように、効果的に入力空間を回転させます。そしてそれはapple領域、apple処理領域に着地します。
ですから、Googleによる新しいAI Transformerに関する前回の動画で見たように、4,000次元空間の数学的人工空間における高次元のターゲット領域に直接着地するように、入力空間の回転があります。
論文は今証明しています。この証明は本当に痛いですが、わかりました。彼らは、入力のこの回転、これはW(x)とデルタaの操作ですが、処理行列であるデルタWを変更することと数学的に同一であることを証明しています。
つまり、入力をシフトすることで、注意層は凍結されたMLPを、まさにこのデータセットで1勾配ステップでファインチューニングされたかのように振る舞うことを強制するのです。本当にまとまってきています。ICLはこのようにファインチューニングです。
したがって、活性化は非常に短い時間の一時的な重み更新であると言えます。したがって、モデルは、パッチとして活性化ベクトルを使用して、自分自身の重みにパッチを当てることによって、一時的に新しいルールを学習しているだけです。
そして別の質問がありました。わかりました。活性化は非常に特定のタスクのために一時的に行われるベクトル回転です。わかりました。活性化はまた、私の特定のタスクの解決策を見つけるために適用する新たに学習されたランク1パッチである一時的な仮想的重み更新でもあります。
これは解釈ではありません。では、これの最初の部分を見てみましょう。はい、幾何学的に、あるベクトルを別のベクトルに加えると、方向の大きさが変わります。これを、答えを指すように高次元空間でクエリベクトルを回転させたりシフトしたりすることと考えることができます。これはショートカットです。
活性化は一時的な仮想的重み更新です。はい、これが今日のこれら2つの論文のコアな貢献です。彼らは数学的に、ステップ1からのベクトル回転を取り、重み行列表現に移動できることを証明しました。したがって、今、入力が回転したと言う代わりに、入力は同じままだが、重み行列表現がデルタWで新しい構成に変形したと言います。
私たちは、ランク1パッチだけで新たに学習しています。はい、プリファレンスは更新がランク1であることを本当に証明しました。外積を思い出してください。そしてこれは重要です。なぜならランク1行列は、この行列に対して行うことができる最も単純な修正だからです。脳全体を書き換えるわけではありません。
1つの入力パターンと1つの出力パターンの間のこの非常に特定のブリッジを作成するだけです。そしてこれが私たちが達成することです。はい、質問がある場合、ランク1行列デルタWとは何ですか。今、本当にICLが活性化を使用してランク1パッチを凍結された重み行列に注入することによってAIモデルを一時的にファインチューニングするプロセスであることがわかります。
これは重み空間で見たICLです。ICLが何であるか、そしてTransformerにおけるファインチューニングの理解にどのように接続されるかについての全く新しい解釈が今あります。ファインチューニングは行列全体、ランクnを更新します。高価で遅く、テンジェント構造のすべてを変更します。
ICLは耳のランク1のみを使用して更新します。したがって、非線形性のために現在のトークン位置に対して高速で一時的で超特定的です。これは各単一トークンに対して行われます。したがって、ランク1更新はこの一次元ブリッジです。モデルの物理学や文法の理解に報酬を与えません。
それが行うことは、本質的に高次元ベクトル空間、ニューラル空間を通して単一の直線を描き、ここでポイントAである入力を望ましい出力に接続することです。しかし数学的には見えます。まだ想像できません。画像を見つけていません。
もう1つの例、私はこれと格闘しています。活性化は凍結されたワイヤーを流れる電気パターンだと想像してください。はい。凍結されたワイヤーは待ってください、今フレーミングを変更します。ランク1は今、単一の孤立したルール変更を提示する2つのベクトルによって形成される行列です。
そして、電気または活性化が自発的にランク1ブリッジを形成するというこれら2つの論文の内側。回路、凍結されたワイヤー、重み構造を再配線します。この特定のトークンのプロンプトを解決するために、一瞬の間、レート構造を再配線します。
私の脳が時々壊れる理由がわかりますか。わかりました。わかりました。これは数学的に証明されています。この一瞬の再配線は、プロンプト例に対して1ステップのオンライン確率的勾配降下法、または昔ながらの方法を実行することと数学的に同一です。したがって、これら2つの世界間の接続が今あります。
数学が実際に絶対的に同一である場合、なぜICLをファインチューニングと呼ばないのでしょうか。まあ、この数学的証明にはまだ単純さがあります。ランク1制約、標準的なファインチューニングは通常、行列内のすべてのパラメータを更新します。フルランク行列があります。
ICLは、最も重要な更新であるランク1更新にこの最初のアプローチで制限されています。さらなるランク更新が本当にフルランク更新に収束するかどうかはわかりません。これについての数学的証明はまだ見ていません。想像はできますが証明はできません。
まとめと展望
しかし最も重要なことは、ランク1の単純さを今与えたことです。これは単純化された勾配設計です。注意機構によって定義された最も重要な直交部分空間に入ります。これは想像できます。単一ステップで複雑な多方向最適化を実行することはできません。
したがって、ここにあります。これがICLの新しい理解です。インコンテキスト学習は、靴下をしっかりつかんでください、順伝播で実行される効果的な過渡的ランク1オンライン確率的勾配降下法です。
この動画を楽しんでいただけたことを願っています。この動画を制作するのは本当に簡単ではありませんでした。なぜなら、私はまだこれと格闘しているからです。これは私の古い知識からの非常に大きな逸脱であり、これらの新しい画像とこれらの新しいアプローチとこの数学的視点からの証明を消化しようとしています。
この古い知識の一部が衝突し、私は自分の脳の中で何とか再接続して、ブラックボックスAIを本当に理解するための研究の最新情報を理解し、インコンテキスト学習とファインチューニングが数学的に言えば絶対的に類似したプロセスであることを本当に理解し、この新しい知識を考慮に入れて次世代のTransformerアーキテクチャをどのように最適化できるかを理解しなければなりません。
現時点では、わかりません。この動画を楽しんでいただき、楽しんで、いくつかの新しい情報を得られたことを願っています。とにかく、購読者になっていただけたら素晴らしいです。私のチャンネルをサポートしていただけるかもしれません。とにかく、次の動画でお会いできることを願っています。


コメント