プラトンとAI：普遍的な表象とは？ 2/4 (5分1秒)

5,614 文字

https://www.youtube.com/watch?v=PrMSId6rD2s

今や私たちはニューラルモデルにおける表象についてよりよく理解できるようになりましたので、メインテーマであるプラトン的表象仮説に戻りましょう。この論文では、ニューラルネットワークモデルが学習する様々な表象が、ある種の普遍的な表象に収束するという仮説を提案しています。彼らはこれをプラトン的表象仮説と名付けました。
この論文は、異なるAIモデル間でデータが表現される方法に増加する類似性があると示唆しています。この類似性は、異なるモデルアーキテクチャ、異なる学習目標、さらには異なるデータモダリティにまで及びます。この仮説を理解するためには、これらの表象がどのように、そしてなぜ収束するのかを探る必要があります。そして最初のステップは当然、この収束を形式的に定義することです。
二つ以上の表象間の整列をどのように測定するのでしょうか。そのためには、この収束を測定するためのいくつかの表記法を導入する必要があります。論文の著者たちは、二つの異なる表象における最近傍集合を比較する手法を用いています。
同じデータを表現する二つの異なるモデルがあるとします。表象とは、各入力を表象の空間ベクトルに射影する関数fです。カーネルは、異なるデータポイント間の類似性を表象がどのように測定するかを特徴づける方法です。例えば、表象の空間ベクトルから二点を取り、それらの二点間の類似性を測る尺度となるスカラーを返します。
内積は、二点が直交している場合に0を返し、これらのベクトルの向きに応じて正または負の類似性を返すカーネルの良い例です。ここから、我々のカーネルkは二つの入力、つまり二つのデータポイントを取り、表象関数Fでそれらを変換し、これら二つの表象の内積を計算します。
カーネルができたところで、二つのカーネル間の整列を測定する指標を開発できます。我々の指標は二つのカーネルを取り、これら二つのカーネル間の類似性の測度となるスカラー値を返します。つまり、ある表象によって生成された距離の測定が、別の表象によって生成された測定とどの程度似ているかということです。
このような整列指標の例は多くありますが、著者たちが選んだものは最近傍に基づいています。基本的に、各データポイントについて、各表象空間における4つの最近傍を見つけ、それらの交差部分の大きさ、つまり共通の近傍の数を計算します。
具体例を見てみましょう。例えば猫の画像という入力を最初のモデルに通します。すると、最初のモデルによって誘導された表象空間で、我々の猫の画像の4つの最近傍を探します。これが先ほど見た関数fで、F1と名付け直しましょう。
次に、二番目のモデルF2で同じことを行い、同じ猫の画像についての表象を計算します。この二番目の表象についても4つの最近傍を探します。これら二つのカーネルの類似性を測定するために、二つの集合に共通する近傍の数を見ます。
例えば、最初のモデルの近傍のうち2つが二番目のモデルでも近傍である場合、交差は2/4となります。共通の近傍がない場合は類似性は0となります。近傍が完全に同じ場合は完璧な類似性である1となります。この例では2/4、つまり0.5の類似性となります。
著者たちはこの手法をミニバッチのデータに適用し、複数のデータポイントについて類似性を計算して平均類似性を得ます。この手法により、二つの表象を比較し、それらがどの程度似たような方法でデータポイントを整列させているかを見ることができます。類似性が高いほど、表象はより整列していると考えられます。
最近傍法によってこの収束をどのように測定するかを説明したところで、なぜこの収束が起こり得るのかを見てみましょう。大量のデータで訓練され、その後様々なタスクに使用される基盤モデル、これらの大規模モデルは、ますます避けて通れないものになっています。
本当に驚くべきことは、異なる基盤モデルでさえ、データの表現方法において似てき始めているということです。これらは多くのタスクを解決するために使用されており、そのためにはデータ表現に一定の普遍性が必要です。
この傾向が少数の基盤モデルへと向かっているとしても、必ずしもこれらのモデルが似たような表象を持つことを意味するわけではありません。しかし、それがまさにこの論文の重要な提案であり、実際に最近の複数の研究で観察されているのです。
これまでモデル間の整列を測定するためによく使用されてきた手法の一つは、モデルスティッチングと呼ばれます。この手法は、二つの異なるモデルの中間層を新しい調整層で結びつけることです。まるで二つのモデルを縫い合わせたかのようです。
このように縫い合わせたモデルがうまく機能する場合、それは二つのモデルの表象が互換性があり、したがって類似しているということを意味します。観察されているのは、ImageNetとPlace 365のような全く異なるデータセットで訓練されたモデルでも、このモデルスティッチング手法で非常に良い性能を発揮できるということです。つまり、それらの表象は非常に似ているのです。
また、このチャンネルでよく取り上げられているDINO v2のような自己教師あり学習手法が、正解を示して訓練する教師あり学習モデルと、調整層なしでもよく整列することが分かっています。
異なる言語やモダリティで訓練された言語モデルも、似たような方法でデータを表現します。例えば、英語で訓練されたエンコーダーはフランス語のデコーダーと整列させることができます。
また、ロゼッタニューロンのような発見もありました。これは異なる視覚モデルで同じように活性化するニューロンで、一種の普遍的な表象辞書を形成します。
これらの発見は、異なるデータや異なる訓練目標にもかかわらず、AIモデルはしばしば非常に似たような方法で表象を整列させることを示しており、ある種の普遍的な表象への収束という考えを強化しています。
AIモデルの整列はそれだけにとどまりません。モデルの規模と性能が大きくなるにつれて、さらに強くなっています。モデルが大きく性能が高いほど、他のモデルとより整列する傾向があります。
例えば、多くの画像分類モデルを比較すると、大規模モデル同士の方が、小規模モデル同士よりも表象の類似性が高くなります。モデルの規模が大きくなるにつれて、異なるモデル間でますます整列が進むと予測できます。
モデルの規模と整列には確かに関連がありますが、この整列とモデルの性能との間にも関連があるのでしょうか。ここで論文の著者たちが行った最初の実験に注目しましょう。
この最初の実験で、著者たちは画像についての事前学習済みの78のモデルを使用し、それらをVTABデータセットで評価しました。このデータセットは一般的な視覚表象を評価するためのもので、そのために異なるタスクを提案します。これらのモデルは異なるアーキテクチャ、異なる訓練目標、異なるデータセットを持っています。
その後、著者たちは性能によってこれらの異なるモデルをグループ化し、それらの間の整列を測定しました。結果については図2の左側に注目しましょう。X軸にはVTABにおける性能のグループを20%刻みで示しています。Y軸には整列スコアを示しています。
性能が向上するにつれて整列も増加することが観察されます。0%から60%の間ではあまり差がなく、整列は約0.05前後です。60%から100%の間では、直接0と0.4にそれぞれ上昇します。
図2の右側には、異なるモデルの表象の2D投影が示されており、点の色で性能が表されています。一つのクラスターが際立っており、それは青い点で構成されていることが分かります。この青は、これらのモデルがVTABで高い性能を達成したことを示しています。
他のモデルのクラスターはずっと広がっています。これは、性能の良いモデルは確かに非常に似た表象を持っているのに対し、性能の低いモデルはより多様な表象を持っているということを意味します。これらのモデルを可視化すると、性能の高いモデルは集まっているのに対し、他のモデルは分散していることが明確に分かります。
“Revisiting Model Stitching to Compare Neural Representations”という論文で、著者たちはアンナ・カレーニナにおけるトルストイを言い換えて、実証的な法則を述べています。「全ての良いモデルは似ている。全ての悪いモデルは、それぞれ独自の方法で悪い」。つまり、性能の高いモデルは全て似ているのに対し、悪いモデルはそれぞれ異なるということです。
それだけではありません。異なるアーキテクチャを持つモデルは必ずしも互換性のあるパラメータを持っているわけではありませんが、同じアーキテクチャを持つモデルは訓練中に非常に似たパラメータセットに収束することがよくあるという証拠があります。
これは、別々に訓練されたモデルを融合して、それらの能力を組み合わせることができることを意味します。では、異なるデータモダリティで訓練されたモデルについてはどうでしょうか。それらも収束するのでしょうか。答えは肯定的なようです。
単純な線形射影によって視覚モデルを言語モデルに結びつけることができ、視覚的な質疑応答や画像説明のようなタスクで良い性能を得られることが分かっています。逆方向も機能し、テキストの入力を視覚的な出力に整列させることもできます。
LAVAのような最近の視覚言語モデルは、いくつかの追加層を使って視覚的特徴を言語モデルに射影しており、非常に良い結果を出しています。言語モデルを視覚モデルと共同で訓練すると、別々に訓練する場合と比べて言語タスクでの性能も向上します。
別のアプローチとして、画像を言語モデルが処理できるコードに変換する方法があります。大規模言語モデル（LLM）は、テキストのみを使用して視覚的な表象を生成できるほど、ある程度の視覚的知識を持っていることが分かっています。
モデルがますますモダリティに依存しない世界の表象を学習しているかを確認するために、著者たちは異なる規模の視覚モデルと言語モデルを、より高性能なものとそうでないものとで比較しました。
言語モデルと視覚モデルの間の整列を測定するために、テキストと画像を含むマルチモーダルデータセットを使用しました。例えば、画像Xとその説明Yのペアを含むWikipediaデータセットです。
このようなデータセットを使用することで、著者たちはテキストのみで訓練された言語モデルと画像のみで訓練された視覚モデルの間の整列を、先ほど見た最近傍法を使って測定することができます。
図3はこの実験の結果を示しています。左側は異なるLLMの性能とDINO v2モデルとの整列の関係を示しています。X軸は異なるLLMの性能スコアを示し、Y軸はDINO v2との整列スコアを示しています。
LLMの性能とDINO v2視覚モデルとの整列の間に線形の関係が観察されます。つまり、LLMの性能が高いほど視覚モデルDINO v2との整列が強く、その逆も同様です。
しかしそれだけではありません。私たちのAIモデルは、生物学的な脳との驚くべき類似性を示し始めています。両方のシステムは同じ基本的な問題を解決しなければなりません。それは、画像、テキスト、音声データに隠された構造を抽出し理解することです。
物体の認識、形状の検出、画像の分類など、人間の視覚システムが進化の過程で解決することを学んできた課題は、私たちがモデルに学習させようとしているものとまさに同じです。研究によると、訓練データはこの整列に大きな役割を果たしています。
例えば、ビデオシーケンスの次の画像を予測するような自己教師あり学習でモデルを訓練した場合でも、結果的に私たちと同じような方法で視覚的な類似性を認識するようになります。基本的に、使用する媒体に根本的な違いがあるにもかかわらず、人間の脳とAIモデルは周囲の世界を理解するために似たような解決策に収束していくように見えます。
これらの観察は、AIだけでなく哲学的にも興味深いものです。実際、これらは心の哲学における機能主義と多重実現性テーゼの経験的証拠となり得るかもしれません。
機能主義は、心を情報処理システムとして捉え、思考を計算に比較する理論です。機能主義者にとって、彼らが精神状態と呼ぶものは、脳であれコンピュータのハードウェアやソフトウェアであれ、異なる媒体に結びつけることができます。
機能主義の議論の基礎は多重実現性テーゼです。このテーゼは、同じ特性が全く異なる性質を持つ複数のシステムで実装または実現され得ると主張します。この特性または機能は、情報科学の文脈では、生物学的な脳でもチューリングマシンのような普遍的計算機でも、異なる方法で実現できるというわけです。
もちろん、機能を単なるベクトル表象に還元することはおそらくできませんが、これらの観察は、非常に異なる媒体を持つシステムでも、同じ学習制約に従えば似たような表象に収束することを示しています。
モデルがより正確な現実の表象に収束するのであれば、この整列はサブタスクでのより良い性能として現れるはずです。図4を見てみましょう。この図は、LLMの整列が高いほど、数学的問題の推論や解決などのタスクでの性能が向上することを示しています。
X軸は常にDINO v2との整列スコアを示し、Y軸は左側でELWAGのスコア、右側でGMS 8kのスコアを示しています。両側とも、二つのタスクでの性能と整列の間に明確な関連を示しています。これは、整列がLLMのタスク群での性能を効果的に予測できるという証拠です。