
4,614 文字
機械学習モデルがなぜこのような表現に収束するのか理解するために、まずモデルの訓練方法を見てみましょう。機械学習モデルは訓練データの誤差を最小化し、過学習と呼ばれる訓練データへの過剰な適合を避けるように訓練されます。この式には3つの部分があります。F*は訓練中のモデルで、Lは最小化すべき誤差を表し、Rは正則化で訓練データへの過剰な適合を防ぎます。
基本的に、モデルが複雑になればなるほど、この式のこの部分から返される値が大きくなり、それによってペナルティが課されることになります。この動画の続きでは、この最適化プロセスの各要素が表現の収束にどのように関わっているかを見ていきます。
データポイントや訓練タスクはそれぞれ追加の制約を加えます。データ量とタスク数を増やすほど、これらの制約を満たすパラメータの可能な組み合わせは減少します。これをマルチタスクスケーリング仮説と呼びます。つまり、モデルが多くの異なるタスクを実行しなければならないほど、データを適切に表現する方法は少なくなります。もっと簡単に言えば、複数のタスクを同時に解決するためにより汎用的なモデルを訓練することで、可能な解の数が減ります。これは共変原理としても知られています。目標が簡単なほど可能な解は多く、逆に目標が難しいほど解は少なくなります。
データセットのサイズを大きくすると、経験誤差を最適化するモデルは汎化誤差も最適化するようになり、基礎となる生成プロセスの統計的構造をより良く捉えられるようになります。最近の多くの研究で、データセットのサイズとモデルのパフォーマンスの間にべき乗則の関係があることが示されています。これは興味深いことです。
現在、LLMは膨大な量のテキストで訓練され、ビジョンモデルは何十億もの画像で訓練されています。これは、これらのモデルがこれだけ多くのデータを吸収することで、経験誤差を最小化する非常に限られた解のセットに収束することを意味します。つまり、より多くのデータを与えるほど、モデルはより正確になり、その表現は非常に似たものに収束していきます。
データセットのサイズに加えて、モデルの訓練に使用される最適化目標はますますマルチタスク化しています。例えば、対照学習は類似サンプル間の距離を最小化し、マスクド自己エンコーダーは入力の全体的な部分を再構成しようとします。これらのマルチタスク目標は、表現により多くの制約を課すため、より限られた高品質な解空間へと導くため、単一タスクの目標よりも効果的です。
学習目標に最適な表現が存在すると想像してみましょう。十分なデータがあれば、モデルの容量を増やすこと、つまりより大きく最適化されたモデルを使用することで、この最適な表現により近づくことができるはずです。同じ訓練目標を持つより大きなモデルは、異なるアーキテクチャであってもこの最適な表現に収束する傾向があります。研究者たちはこれを容量仮説と呼んでいます。より大きなモデルは、より小さなモデルよりも共有表現に収束しやすいのです。
しかし、それだけではありません。2つのモデルが訓練データで同じ解に到達したとしても、それらが同じ内部表現を使用しているとは限りません。例えば、100万パラメータのモデルは、10億パラメータのモデルとは全く異なる方法で犬を検出する可能性があります。では、巨大なモデルが複雑すぎる表現を学習するのを何が防いでいるのでしょうか?
鍵となる要因の1つは単純性バイアスと呼ばれるものかもしれません。単純性バイアス仮説では、深層ネットワークはデータに対して単純な解を見つける傾向があり、モデルが大きくなるほどこのバイアスは強くなると言われています。このバイアスは二重降下とも呼ばれ、機械学習マスタークラスシリーズでさらに詳しく説明します。
したがって、モデルのサイズが大きくなるにつれて、より限られた、より単純な解空間に収束するはずです。この単純性バイアスは、深層学習で使用される明示的な正則化から来る可能性がありますが、外部の影響がなくても、深層ネットワークは自然にオッカムの剃刀の原理に従い、データに適合する単純な解を暗黙的に好みます。
要約すると、表現の収束は、モデルの容量の増加と単純な解を好む自然な傾向によって促進される可能性があります。これらの2つの要因は、人工知能モデルの表現の整列において重要な役割を果たしています。
音楽
タスクによる制約、データ量、モデルの増加する容量が表現の収束をもたらす可能性があることを見てきました。しかし、これらはどこに向かうのでしょうか?この収束の最終的な到達点は何なのでしょうか?
著者たちの中心的な仮説は、表現が私たちのすべての観察を生成する基礎となる現実の統計モデルに収束するということです。マルチタスクスケーリング仮説によると、このような表現は多くのタスク、特に現実に関連するタスクに自然に有用なはずです。さらに、自然の基本法則自体が単純であるという考えに従って、これらの表現は比較的単純なものかもしれません。
では、基礎となる現実の統計モデルとは何を意味するのでしょうか?理想的な世界を想像してみましょう。この理想世界では、未知の分布からサンプリングされた離散的なイベントの列Zがあります。各イベントは、ピクセル、音、単語などのさまざまな方法で観察することができます。
私たちはこれらのイベントを、決定論的で双方向的なHS関数を通じて観察します。つまり、各イベントZに対して1つの観察Xがあり、各観察Xに対して可能な1つのイベントZがあるということです。私たちのHS関数は、イベントを画像、音声データ、テキストなどの任意の測定空間での観察に変換します。
イベントZを特定の時点での世界の状態として、そしてXをその結果として生じる観察として考えてください。したがって、私たちのデータ、つまりこれらのイベントがいつどのように発生するかを知ることは、予測を行う上で非常に有用でしょう。これは、私たちの観察の原因となるイベントを説明する世界のモデルを持つようなものです。
この理想的なモデルは、世界が基本的なレベルでどのように機能するかを理解させてくれるでしょう。一部の対照学習手法は、この事象分布の特定の表現を取り戻すことができます。表現がどのように収束するかをよりよく理解するために、同時に発生する観察をモデル化する対照学習プロセスを検討してみましょう。
ある時間枠内で発生する2つの観察XaとXbがあると想像してください。それらが一緒に発生する確率は、それらの関係について私たちに手がかりを与えます。正のペアは時間的に近い観察であり、負のペアは任意の時点での観察です。対照学習アルゴリズムは、オッズ比(または単にODS比)とも呼ばれる確率比の対数を近似的に計算できるカーネルを使用して、表現FXを学習することで、ペアが正か負かを分類しようとします。
では、この有名なODS比とは何でしょうか?これは、異なるグループでイベントが発生する確率を比較する指標です。例えば、喫煙者が非喫煙者よりも肺疾患にかかりやすいかどうかを知りたい場合、オッズ比を使用します。喫煙者と非喫煙者の2つのグループがあると想像してください。喫煙者グループで30人が病気で70人が病気でなく、非喫煙者グループで10人が病気で90人が病気でない場合、オッズ比は次のように計算できます。喫煙者での病気になる確率(30/70)と非喫煙者での病気になる確率(10/90)を取り、これらの2つの値を除算します。
対照学習アルゴリズムは、観察のペアが正か負かを判断するために、同じ原理を使用します。したがって、私たちのカーネルの定義は次のようになります。カーネルはXaとXbの表現の内積を計算し、オッズ比の対数の近似を与えます。ペアが正である確率はXaとXbが同時に発生する確率と同じなので、分子と分母を共起確率で置き換えて次の等価性を与えることができます。
この式のログを使用する部分は、実際には点状相互情報量(英語ではPointwise Mutual Information、略してPMI)に関連しています。したがって、私たちのカーネルの最終的な定義は次のようになり、これはPMIに定数を加えたものと等しくなります。これは、私たちの対照学習アルゴリズムが統計的に関連のある観察のペアを検出することを学習することを意味します。
点状相互情報量(PMI)について簡単に説明しましょう。PMIは、2つのイベントの共起が、それらが独立に発生する確率と比較してどれほど驚くべきものかを測定します。したがって、その定義は次のようになります。この式で、P(Xa,Xb)は2つのイベントの結合確率であり、P(Xa)とP(Xb)はイベントの個別の確率です。
PMIは、XaとXbが一緒に発生する確率が、独立している場合に予想される確率と比べてどの程度高いか低いかを教えてくれます。PMIが正の場合、イベントは偶然よりも頻繁に一緒に発生することを意味します。負のPMIは、一緒に発生する頻度が偶然よりも少ないことを示します。ゼロに近いPMIは、それらが独立していることを意味します。
私たちの対照学習アルゴリズムは、この技術を使用してデータの効果的な表現を見つけます。十分なデータと適切な最適化があれば、観察の統計的構造を捉える表現に収束します。では、私たちの理想世界でのZについてはどうでしょうか?観察関数HSは双方向的であり、したがって確率を保存します。つまり、同じ原理がZにも適用されます。
すべてのモダリティに対して、表現はZのペアの特定の統計量を表す同じカーネルに収束することが観察できます。つまり、一部の表現学習アルゴリズムは単純なルールに従います:PMIに相当する類似度を持つ空間を見つけることです。この考えは、視覚や言語のクラスタリングでPMIを類似度尺度として使用した以前の研究と一致しています。
この収束が実際の世界のデータで実際に発生することを確認するために、色に関する興味深い事例研究を見てみましょう。研究者たちは、LLMで学習された色の間の距離が、人間の色の知覚と密接に対応することを発見しました。つまり、モデルは私たちと同じように色を表現するのです。さらに興味深いことに、この類似性は、モデルのサイズが大きくなり、テキストの共起をよりよくモデル化できるようになるにつれて増加します。
図8では、画像での共起に基づく色の表現も同様の結果を生み出すことが示されています。この図では、人間の知覚、SIARDを使用した画像での共起、SimCSEとRobertaを使用した言語でのモデルの共起から、異なる方法で類似の色の表現が得られることを示しています。モデルが言葉や画像にアクセスできるかどうかに関係なく、私たちと同じような方法で色を表現することを学びます。
要約すると、この研究は、単純なモデルが実世界の複雑なシステムの本質的な側面をどのように包含できるかを示しています。これは、モデルがどのような表現に収束するかを理解するための手がかりを与えてくれます。様々な領域とモダリティで性能を発揮し、基礎となる世界の統計的性質に根ざした統一モデルです。


コメント