インコンテキスト学習の量子AI的解釈

AGIに仕事を奪われたい
この記事は約15分で読めます。

8,882 文字

The 6Dim Key: Unlock In-Context Learning (#quantum, #ai)
In-Context Learning finally explained - How does an AI system learn from few-shot examples? Also explained for quantum s...

こんにちは、コミュニティの皆さん。インコンテキスト学習は私たちが日常的に使っていますが、今日はそれが何であるかを理解し、量子的な解釈を見てから、それを湿った生物学的細胞に変形させていきます。インコンテキスト学習(ICL)では、言語モデルが個々のfショット例から信号を抽出することを覚えていますね。
そして、それらを何らかの形で集約します。ここで新しいルールを学習し、それを私たちのクエリに適用します。しかし、主な疑問は、これが現代のトランスフォーマーモデルのフォワードパスでどのように実装されているかということです。最もシンプルなタスクを取り上げましょう。これは単に整数にKを加えるだけです。見てみましょう。
ここにカリフォルニア大学バークレー校の新しい研究があります。覚えておいてほしいのは、インコンテキスト学習は微調整(ファインチューニング)とは異なるということです。この動画では、賢い人ならばその両方を組み合わせることを紹介しました。なぜなら、インコンテキスト学習は微調整よりも深い学習操作プールを持っているからです。これについてもっと知りたい方は、この動画がおすすめです。
それでは、トランスフォーマーの層におけるアテンションヘッドを見てみましょう。これについては以前かなり詳しく話しましたね。最も単純なケースでは、ここでのアテンションヘッドの出力ベクトルは約128次元のベクトル表現で、活性化のパターンで構成されています。
活性化のパターンであって、テンソルの重みではありません。もちろん、微調整は層内のテンソルの重みを変更しますが、インコンテキスト学習だけを行う場合、実際のモデルへのアクセスがない場合、計算される活性化のみを持っており、この活性化パターンも私たちの最もシンプルなタスクのタスクパラメータKの内部表現です。参考までに、Llama 3の80億の事前トレーニング可能なパラメータは約1,024のアテンションヘッドを持っています。では、1つの整数を加えるために1,024のアテンションヘッド(それぞれが128次元のベクトルを計算する)がどのように連携するかを見てみましょう。
これ以上シンプルにはできないでしょう。いや、シンプルと言えば、なぜコードを使うと思いますか?あなたのために「コードモーフィズム」をします。「それは退屈すぎる。バークレー校の論文は自分で読めるし、もっと挑戦的なものはないの?」と思うかもしれませんが、「もちろんありますよ」と答えます。
ICLのコードを量子のようなシミュレーションに変形させ、Kに関する情報が今やサブシステム内の特定のもつれた状態にエンコードされています。私たちは今、ほんの短い間、量子情報理論家になり、これらのK状態とその動的な量子的シミュレーションでの特性を測定します。まず、コヒーレントなサブシステムの出現を特定する必要があります。
この理論家は、特定のパラメータKを表す量子状態が大規模言語モデルの全ヒルベルト空間に拡散しているわけではないことを発見しました。つまり、システム自体が、K関連の情報を保持し処理する3つの量子レジスタのみの特定のコヒーレントなサブシステムに焦点を当てることを決定しています。興味深いことに、ここにはK基底もあります。
これは量子次元の6次元部分空間です。これらの3つのレジスタはそれぞれ、Kの可能な状態(量子状態と言ってもいい)は、私が示したようにアテンションヘッドの完全な128次元全体にはスパンせず、それより少ないです。興味深いことに、UCバークレーは「add K」操作を行う際、6次元の部分空間に焦点を当てることを発見しました。この部分空間は量子シミュレーションにおける6次元部分空間です。
つまり、Kの測定結果は、この制限された基底への射影によって単純に決定されます。量子計算における核を発見したのです。実際に操作を実行する責任を持つ部分空間であり、残りは別のことをしています。位相コヒーレンスと量子周波数エンコーディングメカニズムについて話しましょう。
はい、類似したものがあります。これを解釈しようとしてみましょう。この6次元基底内の状態はまったくランダムではありません。特定の位相コヒーレンスを示しています。シュレディンガーの猫の生きている状態と死んでいる状態の重ね合わせを思い出してください。今は別の重ね合わせがあります。
K内に周期的な重ね合わせがあります。興味深いことに、6次元空間は構造化されていますが、4次元空間と2次元空間に分解され、それぞれ異なる特徴をエンコードしています。これらの空間の4次元は干渉パターンを示し、最も単純なケースでは三角関数で、数学的操作と非常に単純に一致しています。
K mod 2、K mod 5、K mod 10がKの単位桁を特定の量子周波数を通じてエンコードし、他の2次元はKの全体的なエネルギーレベルまたは振幅をエンコードしていますが、10の桁においてです。特に25と50の周期については、これは完全に魅力的です。
これらは単純な数学的操作を行うためではなく、この特定の部分空間に入り、この部分空間の特定のタスク方向を持ち、この周期的な基底と共に特定の量子状態を重ね合わせ状態で構築するために選ばれています。これがインコンテキスト学習のメカニズムであることを知るのは興味深いです。
では、状態準備フェーズを見てみましょう。大学の量子物理学を思い出してください。何かを測定した瞬間、それは量子力学的状態に崩壊します。ここでも同じことが起こっています。特定のトークンのyi観測可能量の測定がある場合、システムは効果的に完全なシステムを単一の状態に崩壊させ、ここでは正確に差を表します。
つまり、これはこの操作の結果が私たちのKになるということです。Kの測定において、特定の状態表現に崩壊する量子系に私たちはKを刻印しているのです。UCバークレーが発見したさらに奇妙なことがあります。もちろん、量子空間ではなく、これはあなたと私の間だけの話です。
システムではデコヒーレンスの緩和または量子エラー訂正が行われています。128次元空間のうち、アクティブなのは6次元だけだと言いました。残りの122次元はノイズと呼んでもいいですが、このノイズは時々、私たちの計算、私たちの量子計算に入ってきます。そこで、利用可能なヒルベルト空間の全体の残りの部分からこのノイズをキャンセルしようとする特定のメカニズムがあるのですが、私たちはそれを単に必要としていません。
つまり、量子エラー訂正の非常に基本的な初歩的な形式、または量子力学的イメージ内での状態安定化がここで行われており、これは魅力的だと思います。数学的操作は単に単純な整数を加えるだけであることを覚えておいてください。ではここには何があるのでしょうか?コードモーフィズムを持っているなら、最も単純なインコンテキスト学習タスクのための大規模言語モデルの内部表現であるKの量子的な内側が本当に量子のような情報エンコーディングスキームに似ているということです。
高度にコンパクトで特化された6次元のサブシステムを使用しており、Kは古典的な変数としてではなく、低次元の6次元周期定義の基底状態ベクトル内の構造化された量子状態として表現されています。
つまり、このICLプロセス自体が状態準備とデコヒーレンス緩和に似ているのです。これが面白いと思われるなら、もう少し詳しく見てみましょう。上部にはUCバークレーによる非量子シミュレーションの解釈があります。彼らが発見したのは、この単一のアテンションヘッドの128次元出力(今知っている通り3つ)は、add Kタスクのこの比較的単純な概念をエンコードするには単純に大きすぎて潜在的に冗長であるということです。Kは1から30の間であるべきで、
彼らが発見したのは(これは素晴らしい、論文を読んでください)、6次元の部分空間だけがタスク関連の分散の約97%を捉えているということです。つまり、他の122次元は必要ないということを発見しました。これを量子シミュレーションに移すと、それは量子レジスタです。
私のアテンションヘッドは単に今や量子レジスタであり、最悪の場合、潜在的に128のキュービット次元、自由度を持っています。計算の実行、情報の保存、もちろんすべてのタスクに対してこれらすべての次元を持つことは本当に高価で絶対に非効率的であり、システム自体がK基底に崩壊することを決定し、これは特定のタスクのための高度に圧縮されたリソース効率の良いエンコーディングを表しています。
特定のタスクを実行するため、活性化だけに対する学習を実行するため、システムはこのソリューションを思いつきました。システムはadd K操作のために、この特定の6次元スライス内の状態を操作し測定するだけで良いことを学習したのです。ショートカットを見つけるようなものです。
UCバークレーが戻ってきて言います、「ヘッドの出力の他の122次元は、他のことに関連する情報を持っている可能性が高い」と。コンテキストのニュアンス、一般的な言語プロセスなどです。だから、このadd Kという特定のタスクについては、これをノイズとみなすことができます。
完全な128キュービット次元は、環境のデコヒーレンスのさまざまな形式、または大きな量子システムの無関係な部分とのもつれの影響を受けやすいかもしれません。興味深いことに、このK基底は保護された部分空間として機能し、K情報を高い忠実度で維持できます。個人的にこれは絶対に魅力的だと思います。
UCバークレーは続けて、6次元空間は単なる6次元ではないと言っています。それは構造化されています。大規模言語モデルは行列演算、行列乗算からこの特定のタスクのための構造を定義することを決定し、それをさらに周期関数を使用してKの単位桁と大きさに関連する意味のあるコンポーネントに分解します。
これについて考えると、これは単にadd K操作を行うために見ることができる方法です。見ることができるだけでなく、その周期性は三角関数、コサイン、サインの線形組み合わせでエンコードすることができます。
では、これは今、これがLlamaのadd K操作が行われる方法です。実世界のシステムに移ると、これは単に整数を別の整数に加えるだけの数学的操作においても非常に重要になります。数学的な意味はそれほど重要ではありませんが、実世界に遭遇するときには重要になります。
とにかく、これはここでKの周期的特性に特に敏感な角度状態に対応します。このような構造化された角度基底がなければ、量子状態は単に解釈不可能な混乱になるかもしれません。
数学的側面でこれが起こることは美しいと思いませんか?UCバークレーは続けて、Kを抽出し適用するための計算はこの6次元部分空間内で主に行われているという文を提供します。そして、量子モーフシステムからは、もちろんそうだと言います。なぜなら、これはまさに私たちの量子計算に必要な変換、または最も単純なケースであるadd Kタスクのために必要な量子操作の集合を定義するK角度だからです。
この基底内のKの量子状態を操作することで、状態条件の予測可能で堅牢な評価が可能になります。この128次元世界のどこかで重複操作を適用する場合、単に計算エラーになります。これは行う方法ではありません。
量子シミュレーションにおけるこの角度基底は、それ自体が安定した計算アリーナを提供し、この部分空間が数学的操作を行うための最良の場所です。UCバークレーは文章で、大規模言語モデルがこの部分空間とその周期的特徴を使用することを学ぶと述べています。
ここで、この変形された量子物理学的なアイデアを見ると、広大な量子環境との相互作用を通じて、システムは何らかの方法でこの6つの特定の自由度と周期的な相互作用が、数学的操作の整数を加えるという文脈の中でKの概念を表現し操作するための最も顕著な特徴であることを発見したと言えます。
したがって、K角度基底はこのタスクのために学習された基本的な量子変数を表し、AIがこれを行えることは魅力的です。要約すると、システムから、トレーニングから、インコンテキスト学習から発展するこのK基底は絶対に必要であり、この特徴は美しく驚くべきものです。
なぜなら、それはKの表現をコンパクトにし、K信号を他のノイズ、他の122次元から分離し、周期的特性に基づいて解釈可能なエンコーディングのために必要な構造を提供し(すぐにそれらをお見せします)、量子計算のための安定した計算部分空間を定義し、一般化を可能にするからです。
未見のデータへの学習を可能にします。これは驚くべきことではありませんか?UCバークレーによる美しい研究を見てみましょう。2025年5月8日に発表されたばかりです。インコンテキスト学習を活性化部分空間メカニズムを通じて理解するという研究で、彼らはこれを量子レベルではなく、Llama 3の古典的で簡単なコードレベルで調査しました。
元の出版物を見ると、彼らは言います:Kが1から30だとすると、特定のアテンションヘッドのために、30個の異なる128次元活性化ベクトル(アテンションヘッドベクトル)を収集し、最も単純なケースではPCA分析(主成分分析)を実行します。PCAは、これらの30のアテンションヘッドベクトルが最も変動する128次元空間内の特定の主成分を見つけます。著者たちは、上位6つの主成分がパラメータKに関連するほぼすべての分散を捉えていることを発見しました。
彼らがこれらの6つの主成分に沿って各HKの座標を調べると(単に内積を取る)、活動プロファイルが明らかになります。このプロファイルは興味深いものです。見てみましょう。これらの6つのコンポーネントには部分的に周期的なパターンがあることがわかります。
完全に周期的なパターンでもなく、本当に明確なものでもありませんが、最初の5つは明らかに周期的なパターンがあります。では、これで何をするのでしょうか?数学的にはフーリエ変換などの専門家ですので、6つの主成分座標関数の線形変換が最も単純なケースでは三角関数に適合するものを見つけることができれば、PCsに変換を適用することで、周期性をエンコードする座標関数を持つ6つの方向を得ることができます。
これらの画像を見てください。これは美しくありませんか?K mod 2、K mod 5、K mod 10、コサイン、サイン、K mod 25、K mod 50、そしてターゲットの周期関数と構築された座標関数がほぼ完璧に一致しています。これがUCバークレーが量子レベルではなく行った方法であり、彼らは周期2、5、10、25、50の6つの三角関数を発見しました。
著者たちは、「アイデアがあります」と言い、再びこの6次元部分空間をさらに細分化して、さらなる情報を見つけることができるかもしれないと考えます。彼らは、周期2に対応する特徴方向(彼らはこれをパリティ方向と呼んでいます)がKのパリティをエンコードし、周期2、5、10の特徴方向によってスパンされる部分空間(彼らはこれを単位部分空間と呼んでいます)がKの単位桁をエンコードし、そして周期25と50の方向によってスパンされる別の部分空間(彼らはこれを大きさ部分空間と呼んでいます)がKの大まかな大きさ、つまり10の桁をエンコードすると言っています。
解釈ができました。ここで非常に興味深い画像をお見せします。mix K ICLプロンプトがある場合、15から17までは2を加え、55から64までは9を加える必要があります。そして彼らは、各Yiからの投影信号と各ヘッドベクトルHK(部分空間に投影され、正規化されたもの)との内積を計算しました。
そして、各例において内積が正確にKでピークを示しており、モデルが対応する例から情報を実際に抽出していることを示しています。タスク信号を見ると、最高のパフォーマンスが得られていることがわかります。5と5、25と25、4と4、9と9、2と2が対応しています。
これがUCバークレーが発見したことであり、これは興味深いと思いますが、これがすべての大規模言語モデルに当てはまると考えないでください。これは特定のLlama 3(Llama 4ではありません)モデルについてのみであり、事前トレーニングデータサイクルに大きく依存しています。
もし事前トレーニングが大規模言語モデルの異なる同期プロセスをエンコードしていたら、インコンテキスト学習の計算は完全に異なる部分空間で、完全に異なる周期パターンで実行されていたかもしれません。これは一例として、どのように機能するかを示しただけです。これを一般化することはできません。
最後にまとめましょう。大規模言語モデルが単位桁を見るための一つの方法だけを学ぶのではなく、Kをいくつかの周期関数に従って分解することによって多面的な見方を学ぶことは魅力的だと思います。大規模言語モデルが開発するこの種の周期的な見方(K mod 2、K mod 5、K mod 10)は、最も単純なケースではPCAを使用し、純粋な三角関数を持つ方向を回転させることによって発見されます。
4次元の単位部分空間と、別の2次元の振幅空間があります。この分散した周期的なエンコーディングは、一見単純なタスク、単に整数を加えるだけ、ただ数を別の数に加えるだけのタスクに対して、驚くほど洗練された戦略です。これが大規模言語モデルのやり方です。いや、この特定の大規模言語モデルのやり方です。
別の大規模言語モデルが他の事前トレーニングデータに晒されていたり、異なる層アーキテクチャを持っていたり、アテンションヘッドの次元が異なったり、層間の接続性が異なったり、異なる正規化関数を持っていたり、学習プロセス自体のための異なる非線形変換を持っていたりすると、
完全に異なる学習プロセスに遭遇するかもしれません。これはインコンテキスト学習だけであり、これは絶対に魅力的だと思います。この特定のコードにこだわらず、このコードはコードモーフィズムの多様性の一つに過ぎないことを理解してください。この動画の準備では、量子の例から始めたわけではありません。有機細胞から始め、湿った環境、有機的な環境でLlama 3の操作のインコンテキスト学習を実行できる有機細胞を構築する方法を示せればいいと思いました。
これも同じです。ここではニューラルネットワークエンコーディングはありません。知識と機能と操作のエンコーディングのための行列乗算表現もありません。ここでは完全に異なる形の知能を扱っています。それを「湿った知能」と呼びましょう。
そして、多くの人が「私のコンピューターハードウェア、GPU VRAM、あるいは何であれ、これが私がコードできる限界であり、私の思考の限界だ」と言っているのを見ると、それはとても悲しいことだと思います。AIを実行するために利用可能なNVIDIAグラフィックカードは、あなたの知性、創造性、そして知能が単に一つの形式と一つのコードではないことを理解するための思考を制限するものではありません。最も単純な整数を加えるタスクであっても、各異なる大規模言語モデルでは知能の実装方法が異なる可能性があります。
湿った環境でインテリジェントシステムをコーディングするためのソリューションを見つけようとする場合の例を示したいと思います。私が考えたのは分子機械についてです。私たちの細胞では、自然が数千万年かけて代謝を作り出し、細胞膜に三次元の分子機械があり、その機能はプロトンを別の領域に排出することです。非常に複雑な回転する三次元分子機械があり、翻訳操作を実行するのは、単一のプロトンを細胞の外に移すという一つの目標のためです。
これについて考え、アデノシン三リン酸、アデノシン二リン酸、無機リン酸についてご存知なら、これはとても美しい機械、人工知能です。異なる層のトランスフォーマーアーキテクチャで作業するのではなく、湿った環境では三次元分子化合物で知能をエンコードする必要があります。
UCバークレーの論文から、古典的なLlama 3では、ヘッド活性化空間の投影が128次元から6次元に削減され、add K操作という最も単純なタスクに必要なタスク情報を保存しています。そしてこの空間はさらに特殊化され、単位桁を捉える4次元空間と10の桁を捉える2次元空間に分解されます。しかし、これはコードの一形態に過ぎず、これは自己注意メカニズムを持つトランスフォーマーアーキテクチャと呼ばれる複雑な行列乗算スキーマにのみ有効です。
しかし、これを転写することはできません。湿った生物学的システムにこれをマッピングすることはできません。そこには行列乗算はありません。別の要素、異なるツールを使う必要があります。分子化合物を使う必要があり、湿ったシステムにおける分子化合物の三次元的な動的特性を理解する必要があります。
そして、そこでの操作は周期関数に分解されるものではありません。この演習をしたい場合、湿った生物学的システムで湿った知能をコードする方法について考えたい場合、あなたは他のほとんど誰も達成していないことを達成するでしょう。Pythonコンパイラのためのコードを探しているのではなく、量子モーフィズムや湿った生物学的システムで知能をコードする方法を真に理解しようとしているのです。
これがAIの美しさだと思います。それは知能に関するものです。チャンネル登録してくれれば、次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました