
21,789 文字
皆さん、おはようございます。最初の講演者はDeepMindのヤサマン・バーリさんです。物理学と学習理論、そしてディープラーニングの交差点で素晴らしい研究をされてきた方で、ディープラーニングの仕組みを理解することに取り組んでこられました。本日は、ニューラルスケーリング則についてお話しいただきます。
ヤサマン・バーリ: 皆さん、聞こえますか? はい、ご親切な紹介をありがとうございます。また、素晴らしい講演者の方々が揃うこのワークショップでお話しする機会をいただき、感謝いたします。今日お話しするのは、スケーリング則を第一原理から理解しようとした、少し前の私たちの研究についてです。ただし、実験結果との整合性も重視しています。
これは私が非常に大切にしている視点です。では早速本題に入らせていただきます。機械学習には、訓練データの量やモデルのサイズ、利用可能な計算リソース、時間といった、基本的なスケーリングのツマミがたくさんあります。この講演の前半で取り組む問題は、こうした基本的なスケーリング変数の関数として、機械学習モデルの平均的な性能はどうなるのか、ということです。
確かに、この問題の一部の側面は、特に訓練データの量を増やすことでMLモデルがどのように改善するかという点に注目すると、古典的な学習理論の枠組みに収まります。しかし、新しい要素として、私たちはこれらの変数のいくつかを同時に理解し、実験との橋渡しをしたいと考えています。
なぜ今これを研究するのか?それは大規模モデルにおける実証的な観察、特にビジョンと言語の両方の分野での観察に動機づけられています。数年前のカプランとマッカンドリッシュによるこの論文は、実証的なレベルでこれを非常に明確に指摘しました。彼らは、これらの3つの基本変数の関数として、大規模言語モデルにおけるテスト損失のスケーリングを調べ、ここに示したようなべき指数を持つ、きれいで滑らかな傾向に従う傾向があることを発見しました。
これが今日の講演で主に取り上げる問題です。データの質やデータセットの多様性といった、他の重要なツマミについてはお話しする時間がありません。
スケーリング則のさらなる例を見てみましょう。今度は指標を変えて、精度に注目します。これはGPT-3の論文からのもので、文脈内学習のような問題において、モデルサイズを大きく変化させた時の性能の変化を本当によく示しています。ここでは、モデルサイズの関数として、幅広いベンチマークにわたるGPT-3の総合的な性能の振る舞いが見てとれます。
現在、最適なスケーリング方法を見つけようとする実証的な研究が多くあります。ここで「最適」とは、実践的な状況によって異なりますが、多くの場合、計算リソースの観点から最適という意味です。つまり、一定量の計算リソースにアクセスできる時に、それをデータ量やモデルサイズなどにどのように配分するのが最適かということです。
そして、実証研究の文献では、研究者たちはしばしば以下のような関数形を使用しています。訓練データ量DとパラメータサイズPという2つの変数だけを考えると、定数項にいくつかの主要なべき則項を加えた形になります。
もっと複雑な形式、データへのフィッティングもありますが、私たちはこれについて何か言えることがないか理解したいと考えています。
聴衆: すみません、計算量も式に入ってくるんでしょうか?
ヤサマン・バーリ: はい、多くの場合そうですね。まあ、計算量は、訓練するモデルによって、データ量とパラメータ数に関係してきます。なので、それを制約として代入して、最適な値を解くことができます。確かに、計算量は実践では見る主要な変数の1つですね。私がお話しするのは主に訓練データとモデルサイズについてですが、この設定では計算量を組み込むのは簡単です。
では、これをもう少し具体的な問いに分解してみましょう。これらの実証的な傾向について、何か言えることはあるでしょうか?例えば、データとモデルのスケーリングの指数は同じになることがあるのか、それとも常に異なるのでしょうか?つまり、問題はパラメータ効率よりもサンプル効率が良いのか、それともこれらの間に何か対称性があるのでしょうか?
全てのスケーリング領域は「同じ」なのか、それとも異なるものがあるのか、つまり分類法や分類のようなものはあるのでしょうか?「同じ」というのは、性能向上を駆動するものが同じ種類の、理論で見られるような、あるいはよりメカニズム的に明らかに同じような原因を持つという意味です。
あるいは、異なるよりメカニズム的な理由があるのでしょうか?そして、私は異なるスケーリング領域は異なる起源を持つと言おうと思います。また、例えば、実験的に観察可能な普遍的な振る舞いはあるのでしょうか?それとも問題全体が、「微視的な」─引用符付きで─「微視的な」詳細に依存しすぎているのでしょうか?
つまり、あなたの特定のセットアップについて、問題は訓練データの種類やモデルアーキテクチャなどに非常に依存しているので、この問題を理論的に扱うことは意味がないということでしょうか?単に指数を測定するだけ、あるいは関数形を測定するだけでよいのでしょうか。通常、理論を行うのは、問題のあらゆる側面が微視的な詳細に強く依存しているとは考えない場合です。もっと一般的な原理があるかもしれないと理解したいのです。
ひとつ注意点として、これは少し古い研究で理論を使用しているため、この講演の多くは画像を対象領域としています。しかし、LLMにも適用できる部分があります。話を進めながらそれを指摘するようにします。
始める前に、この研究を一緒に行った共同研究者たちに感謝の意を表したいと思います。DeepMindのイーサン・ダイヤーとジェフン・リー、そしてジャレッド・カプラン、ジョンズホプキンス大学のウトカルシュ・シャルマです。
私たちは皆、理論物理学のバックグラウンドを持っています。そのため、私たちが使用するツールやアイデアは、それによって制限されるか、あるいはそれに触発されています。この講演で、そして私が一般的に好む、アプローチは、問題をうまく扱える場所で単純な理論から始めることです。そして、理論がない部分では、実験的にいくつかのことを試すことができます。つまり、単純なところから始めて、複雑さを徐々に上げていくのです。
私たちはこれを、基本的により単純な設定を研究し、それから他の領域に一般化できるものを見つけることで行いました。私は、理論を行い、実験を行って確認し、それを理論にフィードバックするという、このような往復を好みます。
では、問題設定について数枚のスライドを見ていただきます。そして、その後はそれほど形式的な話はしません。
理論的な問題は、聴衆の中の一部の方々がご存じかもしれない古典的なものです。学習可能なパラメータθを持つモデルf_θを、分布pについて学習したいと考えています。これは古典的な教師あり学習です。この設定では、例えば画像を考えています。
そして、訓練データセットDがあります。何らかの経験損失があります。私はMSEを書き下しましたが、クロスエントロピーでもかまいません。そしてそれを最小化してパラメータθ_hatと学習済みモデルを得ます。母集団損失、つまり実際には知らない真の分布についてこの誤差を評価したいと考えています。
さらに、例えば最適化のための初期化で使用するかもしれないパラメータの初期条件θ_0や、訓練データセットの抽出など、問題の他の側面への依存性もあります。そのため、私たちはこれらの量についても平均を取ります。多くの研究が訓練セットの固定された抽出に焦点を当て、最悪ケースの境界を得るのとは異なります。
私たちは完全に平均化された量を考えたいと思います。そうすることで、データ量とモデルパラメータ数の関数として、この滑らかな損失が得られます。
では、異なるアーキテクチャを見てみましょう。例えば、バニラの全結合ネットワークを念頭に置いておくことができます。
しかし、必ずしも全結合である必要はありません。他のアーキテクチャについても議論できます。深さLがあります。そしてモデルの最も基本的な特徴として、深さと隠れ層の幅、つまりLとNがあり、固定サイズの入力があります。繰り返しになりますが、θは学習可能なパラメータの集合を指します。
そして、全部でPパラメータがあります。私は、異なるモデルタイプに適用可能なディープラーニング理論からのいくつかの結果に依存することになります。これは全結合層だけでなく、畳み込み層、残差層、そしてアテンション層にも適用できます。アテンションを含むモデルについての注意点については後で触れます。
しかし、モデルについての最も基本的な考え方として、パラメータ数Pは深さが増加することで、または幅が増加することで、あるいは何らかの結合したスケーリングで増加する可能性があります。そして私たちは、理想的には、これら全てをこのスケーリングの理解に組み込みたいと考えています。
繰り返しになりますが、私たちはこの完全に平均化された量を考えることになります。先ほど述べたように、パラメータ数は異なる方法で、あるいはこの結合スケーリングによって複数の方法で増加する可能性があります。そして、理論面での限界や、ディープラーニング理論で本当によく理解されていることの観点から、実際にはデータセットサイズと幅の関数として損失を研究することになります。
つまり、過剰パラメータ化や過少パラメータ化は、深さを固定したまま、ネットワークの隠れ層のサイズを変更することで生じることになります。そして、私たちが抽出できるのは、このような形のべき則項、あるいはべき則の形です。つまり、訓練データ量のスケーリングだけを見てそのスケーリングの指数を調べたり、幅やモデルサイズのスケーリングを見てその指数を抽出したりすることができます。
私は主にこれらの指数α_DとαWに焦点を当てることになります。時々、α_WとαPを互換的に使用することがありますが、これは幅またはパラメータを表しているためです。しかし、これらは異なる領域とそれらが取り得る値について、私たちが何かを言えるような2つの指数です。
聴衆: DとNの間の相互作用がこれ以上ないという仮定もテストしているのですか?
ヤサマン・バーリ: 残念ながら、理論面からは結合スケーリングにアクセスすることはできません。はい、それは限界ですね。理想的な取り扱いでは、DとNのスケーリングを一緒に扱うことに焦点を当てるでしょう。しかし、ディープラーニング理論側で知られていることについて言えば、そのような極限は難しいです。
あまり知られていません。
聴衆: 幅だけに焦点を当てることについてもお聞きしてもいいですか?理論面では、大きな幅で普遍的な関数近似器が得られることが分かっているので、幅は扱いやすいですよね。しかし、ディープラーニングと実践の観点からすると、幅だけを扱って深さを扱わないのはあまり面白くないように思えます。
ヤサマン・バーリ: それはいい質問ですね。普遍近似よりもう少し明確だと思います。なぜなら、学習される内容について、背景で理論に依存することになるからです。そして、これらの大きな幅の極限で学習されることについては、かなり多くのことが分かっています。
それは単なる普遍近似以上に具体的です。学習される関数形について知っていることがあります。カーネルやその他のものとの関係があり、それについてお話しします。つまり、単なる普遍近似よりも、制約の種類の観点からより具体的だと思います。
そして私たちも…まあ、私は…
聴衆: やはり疑問は残りますが、深さを無視するのは妥当なのでしょうか?
ヤサマン・バーリ: 理論面からは、私たちは…私は…だと思います…
聴衆: 分析に深さは出てきますよね?
ヤサマン・バーリ: はい、深さは含まれますが、スケーリングされません。
聴衆: はい、深さは無視されているわけではありません。単に無限に持っていかれないだけです。
ヤサマン・バーリ: しかし、例えば深さと幅を一緒にスケーリングし、訓練データが少なかったり、それとスケーリングしたりする他の興味深い極限があることは重要です。それらは理論的にアクセスするのが難しいだけです。
そのため、最後にいくつかの実験を行って、その効果を少し理解しようとしますが、理論的な手がかりはありません。
では、結果が何についてのものになるかを強調しておきましょう。それらはDのスケーリングまたは幅のスケーリングのどちらかを見ることになります。両方を一緒には見ません。これが、私が目指したい実証的な結果です。
これらの異なるプロットで何がプロットされているのかを説明させてください。これが、先ほど言及した分類法です。そしてこれらの2×2のブロックは、ここにある2×2のグリッドに対応する実験を表しています。分類法は、ある変数のスケーリングを見る場合─例えば訓練データ量、あるいはモデルサイズ─理論面で私たちがアクセスできる基本的に2つの領域があるということです。
訓練データ量が2つの変数のうち小さい方である─それがボトルネックとなる─か、訓練データ量が2つの変数のうち大きい方であるかのどちらかです。つまり、Dをスケーリングすると、DがNよりもずっと小さい領域から、この別の領域に移動します。その間にクロスオーバーがありますが、理論面からはそこにアクセスできません。
しかし、私たちは、どの変数がボトルネックでどの変数がボトルネックでないかに基づいて、これらの異なる領域に名前を付けました。その理由は後ほど説明します。ボトルネックとなる変数のスケーリングを研究する場合、それを解像度制限領域と呼びます。なぜなら、いくつかのデータ多様体と、後ほどお話しするいくつかのスペクトル特性との関係があるためです。
そして、より大きな変数をスケーリングする場合、それは単に異なる極限によって制御されます。そして実際には、観察される指数は単なる整数量です。問題のミクロな詳細にはそれほど影響されません。
聴衆: とても素朴な質問をしてもいいですか?実証的な結果について話すとき、それは実践的に興味深い学習タスクについてだと思うのですが、理論的な対応物は何なのですか?どのような学習タスクを見ているのですか?
ヤサマン・バーリ: これらの実験は全て画像分類です。ベンチマークタスクです。実際、これは異なるタスクを集約して、いくつかの領域で普遍的な指数を持つことを示すことの一部でした。
いくつかは持っていません。学習問題について…私たちがしたことの一部は、仮定を立てないということです…ある程度一般化しました。student-teacher設定を研究しています。つまり、教師データは異なるネットワークによって生成されます。しかし、それ以外には、データにおけるべき則と特定の量以外の強い仮定はありません。
つまり、非常に具体的なタスクによって指定されているわけではありません。しかし、アプローチとしては、分布の仮定は、特定のテンソル、行列、量の減衰や特性に含まれています。それが基本的にデータの仮定が隠れているところです。
聴衆: しかしやはり…申し訳ありませんが、フォローアップとして…何らかの形で、学習が単に扱いにくい問題があるという事実を避けているはずです。だから、学習のための何らかのプロキシがあるはずです。そのプロキシはどのようなものですか?
ヤサマン・バーリ: 問題を定義する数ステップ後には、もっと明確になるかもしれません。しかし、これはstudent-teacher設定の中にあります。つまり、教師ネットワークがあり…つまり実現可能で…データを生成します。そしてそれは、学習するモデルと同じ形式を持っています。その上で、データの特性に関するいくつかの仮定があり、それらはべき則に関連しています。
聴衆: これらの領域について、文字通り訓練例の数とモデルの幅を比較しているのですか?もしそうなら、訓練例をどのように定義しているのですか?それは単に、勾配を計算する入力-目標のペアのことですか?
ヤサマン・バーリ: はい、そうです。それはいい質問ですね。なぜなら、これは戻ってくることになります…この設定では、D ≈ N、つまりそれが小さな数か1である、というような比較ができます。しかし、より複雑なアーキテクチャの場合、この遷移がどこで起こるのか、どのくらい小さいものが小さく、どのくらい大きいものが大きいのかを言うのは難しいです。
そのため、それは後で触れることになります。
聴衆: ウメシュさんが指摘していた点は、例えば疑似ランダム関数を学習しようとした場合、これらの損失曲線は単に平坦になるだけで、決して下がらないということだと思います。そうすると、主張は、損失曲線がこのように見える実践的な学習問題の大きなクラスが存在するということですか?
ヤサマン・バーリ: はい。そしてそれは形式的に述べられているわけではありません。しかし、私たちが完全な理解を持っている設定がstudent-teacher設定であり、データ自体が教師モデルによって生成されているという事実があります。そして実現可能です。あなたは知っています…
聴衆: student-teacherで関数が働くのですか?誰かが入力を生成しているのですか?
ヤサマン・バーリ: はい。それだけです。
聴衆: まあ、そうすると、関数はそれほど機能しません。なぜなら、これを見ても、推論するのは依然として難しいからです。
司会: 定理の説明までいって、それでもまだ不明な点があれば…
ヤサマン・バーリ: はい、数枚のスライド後には答えがあると思います。しかし、それはランダムな関数ではありません。それには、後で出てくる構造的な特性があります。
しかし、理論的に一致させようとしている実験で観察したものに戻ると、基本的にこの2×2の分類があります。実際に指数が変化し、問題にかなり依存する領域があります。
ここに見えるのは異なるデータセットです。また、異なる種類のアーキテクチャもプロットされていますし、異なる損失も含まれています。それらは異なる指数を持っており、そして指数がこれらの異なる設定全体でかなり1に近い領域もあります。同様に、幅のスケーリングを見ると、2つの変数のうち幅が小さい方の領域から始めて、それがボトルネックとなり、私たちが分散制限と呼ぶこの別の領域に移行し、ある時点で指数が1に近くなります。
そしてこれらは異なる…異なる要因によって支配されています。これらの2つの異なる領域を駆動している要因は異なり、私たちはそれらに名前を付けようとしました。
このプロットについて質問はありますか?
聴衆: 解像度制限と分散制限の意味を説明していただけますか?
ヤサマン・バーリ: はい、これらの用語は…もう少し説明させていただきましょう。それは、この領域では、より高い解像度でデータ多様体をより良く解像しているようなものだという考えによって動機づけられました。つまり、Dがボトルネックとなる変数で、Dを増やすとき…Dはこのデータ多様体の解像を助けますが、ある時点でそこから得られるものは飽和し、異なる極限によって制御されるようになります。
そしてそれは、その極限への接近、つまりその周りの揺らぎによって制御されます。
聴衆: それは過学習のような現象なのでしょうか?
ヤサマン・バーリ: 私にはわかりません…必ずしも…過学習とは必ずしも結びついていないと思います。それはより、極限への接近を駆動するものについてです。
そして私たちは、この種の分類が存在するかどうかを知らなかったため、より単純な問題からの理解に基づいてこれらの名前を付けました。
このことについて他に質問はありますか?では、理論について、そしてディープラーニング理論から何を頼りにできるのかについて、もう少しお話ししましょう。これはかなり難しい問題だからです。 ヤサマン・バーリ: この分野の研究にあまり詳しくない方々のために一言申し上げますと、ここ数年、ニューラルネットワークの大きな幅の極限、つまりNが無限大またはかなり大きい場合を研究するディープラーニング理論において、多くの進展がありました。発見の1つは、これが本当にダイナミックな現象で、ニューラルネットワークを初期化しパラメータ化する方法に関連しているということです。
基本的に、この極限に近づくにつれて、モデルはパラメータに関して線形なモデルになっていきます。初期化時のニューラルネットワークから導出されたランダムな特徴を持つ線形モデルです。つまり、素晴らしい非線形なランダム特徴の集合がありますが、それでもパラメータに関して線形なモデルを持っているということです。
また、別の言い方をすると、カーネル回帰との関係があります…例えば二乗損失を使用する場合です。そしてこれらは、ニューラルネットワークアーキテクチャから導出された豊かな合成カーネルです。私が言及した関係のため、これは非常に…これは動的な現象です。
そしてそれは、この極限が何らかの時点で発動するような、実践で一般的な特定のスケーリングでニューラルネットワークをパラメータ化または初期化する方法に関連しています。この関係は、基本的に、例えば二乗損失を持つ場合、問題をかなり一般的に解析的に解くことができることを意味します。
例えば、これは連続時間版ですが、予測関数が得られるのは…この線形ODEを解くだけです。そしてそれは閉形式で行うことができます。ここにあるこのODEは、カーネルであるこの量Kを持っています。そしてそれを初期化時のランダムなニューラルネットワークから導出されるのでK0と呼んでいます。
とにかく、これは全体の研究分野の要約で、異なるカーネルを導出し研究することができ、それらはアーキテクチャに依存する再帰関係によって支配されています。そしてこの極限は、幅の自然な概念がある多くの異なるネットワークタイプに存在します…つまり全結合層、畳み込み層(これは畳み込みフィルタの数を指します)、残差ネットワーク、そしてアテンション層についても同様です。ただし、アテンションの場合は少し興味深いと思います。
なぜなら、アテンションにとってはこの極限はそれほど自然ではないと思うからです。同様の極限を得るためには、多数の異なるアテンションヘッドの極限を研究する必要があります。そのため、これらの他のアーキテクチャタイプとは少し異なる点があると思います。
聴衆: 初心者のために、これらを正確に解けることにはどのような意味があるのでしょうか?
ヤサマン・バーリ: 理論的なツールを使えば、予測関数の厳密な解を持つことができ、それを使って計算ができます。また、学習理論の多くの研究が例えばカーネル回帰を研究しているので、それとも関連します。
つまり、二乗損失を使用する場合、これは基本的にカーネル回帰です。そして、Kが何であるかも分かっています。それはアーキテクチャに依存し、そのための再帰関係を書き下すことができます。これは特定の解です。より一般的な問題は実際には、深層ニューラルネットワークに対する微分方程式の階層であり、それらを切り捨てる明確な方法はありません。
聴衆: ちょっと変な質問をしてもいいですか?これは昨日イリヤが言っていたこととどのように関係するのでしょうか?これらの最小化などが実際にできると仮定した場合、その極限はこの極限と何か関係があるのでしょうか?
ヤサマン・バーリ: どの最小化ですか?
聴衆: 最短プログラムを計算したり、コルモゴロフ複雑性を計算したりする場合です。ここでは閉形式の解を与えることができます。それは何か…関係があるのでしょうか?
ヤサマン・バーリ: 少し異なるかもしれません。
聴衆: これらのモデルが非常に最適以下であることは分かっています。
司会: また、これらの結果は学習ダイナミクスを利用しています。つまり、特定のステップサイズでSGDを行っていることが重要です。
そのため、これは本当にすべてにわたる議論ではありません。
聴衆: はい。そして私たちはそれが非常に [単純] であることを知っています。
ヤサマン・バーリ: 言えることの1つは、おそらく、最適以下であることは、アクセスできるデータの量に依存するかもしれないということです。例えば、これについてもう少し話そうと思いますが、特徴学習を持たないモデル…一般に、モデルは特徴学習を持っています。
そして特徴学習を、ここにあるこの量Kが本当に動的変数であることとして定義しようと思います。それはtに依存し、方程式の完全な集合を本当に解くために解かなければならない力学を支配するいくつかの方程式もあります。今、学習の異なる領域は異なる量の…異なる領域では、ネットワークがどれだけ深いか、どれだけ広いか、どれだけの訓練データがあるかに応じて、異なる量の特徴学習があるかもしれません。
そのため、これらもまた、おそらく、学習の異なる領域です。ここで要約しようとしているのは、これが基本的に、Nが他の側面、例えばデータ量に比べてかなり大きい場合に発動する厳密な解であるということです。ジェイコブが言及していた学習率に関する制約もあります。
しかし、これは最も…それが多くの場所で使用されてきたという意味で、最もよく知られているものの1つです。私は他の関連する場所についても話します。しかし、部分的に素晴らしい特徴は、これがかなり一般的な解であるということです。そのため、データの特性とカーネルの特性を分離したり、基本的にこの極限を研究することで、それらがどのように結びついているかを見ることができます。
他に質問はありますか?
実際、最後に、Kが固定されているモデルとKが動的に変化することが許されているモデルの性能を比較する実験的な研究からのプロットをお見せします。そして、例えば超低データ領域にいる場合、これらのモデルはかなり良好であることなどが分かります。
しかし、要点は、大きな幅で厳密であることが分かっているこのモデルを研究することから何を学べるかということです。それは必ずしも精密な予測を得ることではなく、この分類法を理解することです。それが [聞き取れない]。
では、次の数枚のスライドをもう少し早く進めましょう。私たちが完全に把握している領域をもう少し正確に説明するために…これはstudent-teacher領域です。これは学習理論や機械学習を研究する統計物理学的アプローチの中でも古典的な設定の一つです。私たちの設定では、教師モデルがいくつかのデータを生成し、D個のサンプルを持つ基礎となるデータ分布を生成します。そして学生モデルはこの訓練データセットから学習します。
私たちは、パラメータに関して線形で、任意のランダム特徴を使用する学生モデルと教師モデルの両方を仮定します。これは再び、前のスライドで言及したモデルのクラスです。つまり、固定されてランダムな特徴であるいくつかの特徴φがあります…ランダムなニューラルネットワークから導出されます。そしてそれらのランダム特徴からカーネルを構築することができます。
より具体的には、教師は以下の形式のモデルです。これらのFはランダム特徴です。Omega Mは一度だけランダムに描かれ、その後固定される教師の重みで、潜在的に無限の特徴の集合です。そして学生モデルは、教師の特徴のある部分集合を使用し、その上で線形モデルを学習することによって構築される特定のクラスです。
つまり、それは全てランダム特徴を持つ線形モデルのクラス内にあります。
司会: シャフィとスコットの以前の質問に関連して、一方向関数がどのように排除されたかを理解できるかもしれません…これが正しいかどうか教えてください。つまり、データは暗黙的に、ランダムな重みから始めて、何らかの小さな学習率の極限を使用して得られた無限幅のニューラルネットワークによって生成されたと仮定しているということですね。
ヤサマン・バーリ: その極限では、これらのランダム特徴に対して漸近的に線形であるため、本当に一方向関数を構築することはできません。つまり、もし無限幅のネットワークに対する最悪のケースがあれば、私たちは行き詰まってしまうでしょう。しかし、教師モデルは暗黙的にランダムな重みを持つものなので、これらの一方向関数は得られません。
これは悪いケースを排除する方法ですか?
ヤサマン・バーリ: そうかもしれません。確かに、重みは一種の…それらはランダムに引き出されます。特定の問題に対して微調整されているわけではありません。教師ネットワークは無限個の特徴または有限個の特徴を持つことができます。しかしそれはランダム特徴を持つ線形モデルです。
そしてこれらのランダム特徴に関連するカーネルについて、べき則の仮定があります。それが別の理由だと思います。
聴衆: なるほど。ありがとうございます。それでも、重みを [聞き取れない] できた場合、どのような関数を表現できるのかという疑問は残ります。そのような方法で何でも表現できるでしょうか?
ヤサマン・バーリ: 無限に大きい場合、私の理解が正しければ、普遍近似に頼ることができると思います。しかし、聴衆の中にもっと…知識をお持ちの方がいるかもしれません。
聴衆: はい、それは正しいと思います。
聴衆: ありがとうございます。
ヤサマン・バーリ: しかし、スペクトルに関するこの重要なべき則の仮定があります。そのべき則の仮定を持つことと、どのような関数のクラスが関連しているのか、私には…分かりません。
聴衆: [聞き取れない] Mは単なる任意の関数ですか?
ヤサマン・バーリ: それらは基本的に…はい、それらは基本的に…まあ、無限に…持つ場合の完全な基底であることを想定しています。
聴衆: 例えば、最悪のケースがあれば、これらの1つでさえも最悪のケース関数になりますね。
司会: MはODEの左側にあったその微分方程式の解だと思いますが?
ヤサマン・バーリ: いいえ、違います。
司会: あ、違いますか?申し訳ありません。
ヤサマン・バーリ: いいえ。それは単にニューラルネットワークの予測子でした。これらのFは、基底関数の集合だと言いましょう。そしておそらく、それらが何であるかについての制約の1つは、本質的にデータに関する分布の仮定です。これらのランダムな…これらの特徴関数からカーネルを構築するとき…これは何らかのカーネル関数です。
データ上でそこから構築するカーネル行列のこの固有値スペクトルを見ると、それがこのべき則の形に従うことを構築することができます。これは特定のクラスのFについては真で、他のものについては真ではありません。これが背景の仮定の理解に役立ちますか?
これが現実的なデータの特徴の1つで、モデルに組み込みたいと考えたものです。これがべき則であり、これが一般的な特性である場合、時には理論的な設定では、これのより病理的なバージョンを研究することがあります。
例えば、これらの固有値の縮退に対称性があるかもしれません。しかしこれらは…私たちが指摘したい点の1つは、これは一般的ではないということです。一般的に、これらの種類の量は素晴らしいべき則のスペクトルを持っています。そして次のスライドを先取りして、漸近的に持つ指数を1+α_Kと表示しました。
このことについて質問はありますか?例えば、これは画像の解像度を変更する実験です。そして問題を粗視化すると、それはより単純になり、このカーネル指数が変化します。
聴衆: これらの固有値、スペクトル、これらは異なるデータについてのものですか?異なるカーネルは何ですか?
ヤサマン・バーリ: 固定されたアーキテクチャ、または固定された…私は全結合ネットワークだと思います。しかしそれは単に粗視化、つまり画像のダウンサンプリング平均化です。それが問題の難しさを調整します。
聴衆: なるほど。そしてそれはスペクトルに見られるのですね?分かりました。
ヤサマン・バーリ: はい。そしてそれはスペクトルに反映されています。より難しい問題は…
プールサイズは小さな画像または粗視化された画像を意味します。そしてそれはより急な傾きを持ちます。
そしてより高い解像度では、浅い結果になります。では、このセクションを進めましょう。実験によって動機づけられたデータに関するこの仮説が与えられると…これは現実的にデータのいくつかの側面をモデル化しようとしています…そうすると、データのスケーリング指数は主要項でα_Kであり、幅のスケーリングもα_Kであることを導くことができます。
そしてこの設定では、指数α_Dとα_Wは実際に同じであることが分かります。それらは単にこの1つの量によって制御されています。これは…私たちはこれを双対性と呼び、数枚後の実験でこれに戻ってきます。しかし、この解像度制限領域を研究することで、少なくとも、このスケーリングがデータとモデルの両方に存在するべき則から生じることをよりよく理解することができます。
つまり、それは本当にデータを独立に、またはモデルを独立に語っているのではなく、単に現れるこの1つの量を語っているのです。
聴衆: タイプミスがあると思います。α_Dは…α_Dはデータのスケーリングですね。
ヤサマン・バーリ: α_D? これですか?いいえ。α_Dはα_Kであると言っているのです。
聴衆: ああ、それがおっしゃっていることですか?
ヤサマン・バーリ: はい。これが結果です。そしてα_W、この指数もα_Kに等しいです。
司会: λ_iが何であったか思い出すために、これは学生または教師についての仮定ですか?
ヤサマン・バーリ: 彼らは同じ特徴の集合を使用します。つまり、学生は潜在的により小さな特徴の集合の射影です。しかし特徴の全体のコレクションはこの形を持ち、この基底Fです。
時間の都合上、これらの他のセクションはスキップさせてください。それが私たちが解像度制限領域と呼んだものでした。私たちはまた、ボトルネックではない変数のスケーリングを研究する、この分散制限領域も研究しました。そして、有限サイズの共分散行列がその極限に近づく方法を見ることで、主要項の展開は指数1を持つものになります。
そしてそれを損失にどのように影響するかまで追跡すると、整数指数1を得ます。つまり、発見の1つの点は、これらの異なる領域では、異なるものによって制御されているということです。1つは非常にデータとモデルに依存しています。もう1つは、単に極限についての1/N、1/N^2などの展開によって制御されています。
このスライドもスキップさせてください。これは単にこの特定の設定のサニティチェックで、今度は、これらのstudent-teacherモデル…カーネルを見ています。これは最初にお見せした実験の特殊なケースなので、これ以上詳しくは触れません。しかし再び、私たちが目指している結果は、対角線上でこれらの指数が1であるということです。
そしてこのstudent-teacher設定で、それらはα_Kに直接関係していて等しいことが分かりました。それを私は双対性と呼んでいます。より一般的な設定…そこには一般化できる2つの側面があります。1つは、student-teacher設定を超えて、データを生成するよりジェネリックな種類の関数を持つことです。
もう1つは、線形モデルを超えて、特徴学習のこの重要な側面を含めることです。そしてそれについては最後にコメントします。これら2つの領域に関して、分散制限領域は…詳細には立ち入りませんが…より一般的な条件下で示すことができるものです。
つまり、この指数は1に等しいです。それは基本的に特徴学習と無関係なので、カーネル極限にあることには依存しません。そしてそれは、私が言及したように、これらの主要な有限幅の補正から生じます…無限幅ネットワークへの主要な有限幅の補正も理解されています。
そのため、これはより堅牢な種類の結果です。野生のニューラルネットワークの解像度制限領域については、特徴学習がある場合、予測子の一般的な形式が欠けています。つまり、それは単なる線形モデルではありません。そしてその代わりに、実験でテストできる仮説に頼ろうとします。
それに進む前に、これらの結果が実際に引き継がれる、かなり現実的な、あるいは私は多くの場合出てくると思う設定について一言触れさせてください。それは事前学習と微調整がある場合です。例えば、ImageNetで訓練された埋め込みがあり、それをCIFAR-10で微調整する場合を考えてみましょう。
これは私たちの理論の外の実験です。なぜなら、それはstudent-teacher設定ではないからです。正しいラベルを生成する教師はいません。そしてそれは学習された埋め込みも使用します。そして基本的に、私が先ほど指数について話した結果が堅牢であることが分かります。ここでもちろん、これらのαが1に、1に近いことが分かります。
しかし驚くべきことは、この領域では、データセットのスケーリングやモデルサイズのスケーリングを見るとき、指数が同じだということです。そして私が言及したこの双対性は、この事前学習微調整のセットアップでは成り立つ必要はありませんでした。それは私たちが実際に制御できる領域ではありません。しかしここで見られるように、α_PとαDはかなり近いことが分かります。
これらのプロットで何が起こっているのかをより強調するために、データセットサイズを変更すると、この曲線の一方の側にいます。そのため私たちは…これはデータセットサイズがボトルネック変数である領域です。そしてある時点で、問題が最適に正則化されていない場合、ダブルディセントに到達します。
そして後で、指数が分散制限スケーリングによって制御されるこの領域に移行します。つまり、私たちはダブルディセント曲線の2つの異なる側面を記述しているということです。
司会: ここで歴史的な質問をさせてください。私の理解が正しければ、これは一定量の計算リソースがある場合、常にNとDを同じレートでスケーリングすべきだということを示唆していますよね。そうですか?
ヤサマン・バーリ: そうですね…最適なスケーリングについて考えていますか?
司会: はい。なぜなら、この論文はChinchilla論文よりもかなり前に出ていて、OpenAIもこの論文の共著者でしたが、彼らはまだ間違ったスケーリング則を使用していました。そのため、これら3つの事実がどのように調和するのか理解しようとしているのです。
ヤサマン・バーリ: それはChinchilla則に魅力的なほど近いですね。しかし、私たちは…そのスケーリング則について決定的なことは言えないと思います。なぜなら、私たちは…私たちの結果は一度に1つの変数のスケーリングについてのものであり、結合スケーリングについてのものではないからです。そのため、固定された計算リソースが与えられたとき、DとPをスケーリングする最適な方法を解くためには、L(D,P)の完全な形式の両方にアクセスする必要があると思います。
しかし、この設定で指数が同じであることは興味深いですね。はい。
その質問をありがとうございます。では続けましょう。私が言及したように、これは理論の外の設定であることが驚きです…学習されたモデルがあります。実際の埋め込みがあります。それらは教師によって生成されたものではありません。しかし、これらの指数間の双対性を解像度制限領域で依然として観察することができます。
聴衆: 質問があります。student-teacherモデルでは、無限の極限で損失は0に向かいますよね?しかし、あなたが示している学習されたケースでは、分散のために損失は0にはなれません。ある時点で底を打つはずです。それは正しいですか?
ヤサマン・バーリ: これらの損失のどれですか?
聴衆: この曲線で右に行くと、損失は0に向かいますか?それともある時点で底を打ちますか?
ヤサマン・バーリ: 変数の1つが通常は有限なので、より大きな…例えば、このスケーリングを研究する場合…例えば、この分散制限領域では、これらのプロットの1つで漸近値を引いているのが分かります。それは変数の1つがまだ固定されているためです。そのため、それによって制限されています。
私には、おそらく5分、10分ありますか?
司会: はい。質問の時間を残すために、4分くらいでしょうか?
ヤサマン・バーリ: 4分ですね。では、時間の都合上…高いレベルで…そしてオフラインでもっと話すことができます…これらの結果のいくつかを一般化しようとする方法です。そこで私たちは試みました…野生で、私たちが…モデルが線形モデルとして振る舞わない場合、データ多様体の次元性の数値的な尺度にこれらの指数の一部を関連付けようとすることができます。
しかし、まとめるために、私たちが目指したかった実験に戻りましょう。私たちは実際に、これらのα=1の指数がどこから来るのかを説明しました。そして解像度制限設定では、これらの指数がなぜそれらの値を取るのかについて、いくつかの理解があります。
そしてα_Wとα_Dの間にはいくつかの関係があり、例えば事前学習と微調整で観察することができます。
おそらくもう少しの実験はスキップしましょう。私たちは実験を見て、タスクを変更しようとしました…例えば、ラベルに細かいから粗いまでの階層がある場合にタスクをスーパークラス化し、それが指数をどのように変更するかを見ました。
それは例えば指数を不変に保ち、プロットを上下にシフトするだけですが、入力を修正すると、指数にはるかに強い効果が見られます。そのため、おそらく1つの仮説は、ニューラルネットワークは主に入力データ多様体をモデル化し、分類タスクはそれほどモデル化しないということです。アーキテクチャを変更することも見ると…例えば、モデルの幅を変更すると…例えば深さを変更することと比べて、指数にはるかに大きな変更が見られます。
そしてこの種のことは理解可能であることが分かっています。それは、私が説明したこのカーネル極限に近づくモデルと関連しており、そこには特徴学習がありません。そして特徴学習がある場合、それらはよりサンプルまたはパラメータ効率的になります。
では、ディープラーニング理論から何が欠けているのでしょうか?私は、私たちがツールを使用して解析を行うことができた理由の多くが、ある極限で厳密なこの問題を解くことができるからだと言及しました。
しかし、私が言及したように、KがK0からの変化する本当の動的変数である、この側面が欠けています。そのため、完全な一般性でこの問題に取り組むのは難しく、特徴学習がある場合に一般化を非常に一般的な方法で研究できるとは思えません。
物理の言葉で言えば、聴衆の中に物理のバックグラウンドを持つ方が何人かいるので…このカーネル極限は一種の非相互作用問題または厳密に解ける問題のようなものです。それはガウス場理論や線形問題に関連しています。これらは全て、私たちが解くことができるものです。
そしてこれらの他の極限は強く相互作用しています。
人々は物理学の技術を使って、特徴学習があるかもしれないこれらの他の種類の極限を研究しようとしてきました。相関のある物理学からの技術で、例えばある分配関数を定義し、これを解くことができる自己無撄着な平均場理論を持とうとします。
しかし、完全な一般性で解くのは難しいです。そして特定のアーキテクチャや特定のタイプのデータに対して近似を行うとき、それを他の問題に一般化する方法が明確でないかもしれません。そのため、私はこの単純な設定を研究することからいくつかのことを得ることができると皆さんを説得できたことを願っています。
普遍的な振る舞いがある領域を理解することができます。事前学習と微調整に影響する双対性のいくつかの側面を理解することができます。しかし、例えば特徴学習を完全に理解するなど、全てのことを捉えることはできません。そしてこれは特徴学習の効果を示すプロットで、最適かどうかという質問に戻ります。このプロットは、これらのカーネルの1つと、訓練された有限サイズのニューラルネットワークの性能の差を示しています。
青い曲線と緑の曲線を比較すると、ニューラルネットワークの性能がカーネルよりも優れている特定のデータセットサイズ、臨界データセットサイズがあることが分かります。しかし非常に小さな訓練データサイズの領域では、カーネルの方が良好な場合があります。そのため、一方が他方を追い越す何らかのクロスオーバーポイントがあります。
これは要約スライドです。そして最初に尋ねた質問に戻ると、異なるスケーリング領域は異なる駆動要因によって支配されている、または異なる要因によって駆動されていると考えていただければと思います。そのため、異なるスケーリング領域の分類法を持つことができます。
多くの未解決の質問があり、それもスキップします。私は実際に創発と相転移について話したかったのですが、おそらくもう…
聴衆: [聞き取れない] 私たちは多くの質問をしました。
司会: はい、おそらく…
聴衆: 続けるべきです。
司会: 質問を受けましょうか?
聴衆: いいえ。
聴衆: 私たちは多くの質問をしました。
司会: ああ、多くの質問をしましたね。はい、続けてください。申し訳ありません。[聞き取れない]
ヤサマン・バーリ: でもこれについてもっと話すことはできます。
聴衆: いいえ、いいえ。一番話したいことを話してください。
ヤサマン・バーリ: そうですね、私が今カバーしたことの多くは、直接LLMを研究するものではありませんでした。より第一原理の理論と単純な設定を試みようとしていました。昨日の会話に関連する議論や…しかし私の訓練は凝縮系物理学でもあります。そのため、これらのことをその視点から見ることが好きです。
そしていくつかのコメントをしたかったのです。話を転換すると、私は損失について話しました。そしてそれは本当に分布内の問題であり、分布外の一般化や全てのことではありません。しかし今、このLLMの時代では、私たちは能力も見ています…精度などの異なる指標も見ています。
例えば、問題に対する精度については話しませんでした。スケーリング変数の関数として損失の非常に素晴らしい改善を観察するかもしれませんが、精度の関数としての性能を研究すると、それはかなり急峻かもしれません。BIG-benchと呼ばれる様々な機関にまたがるこの大きな取り組みからのいくつかの結果を強調したいと思います。
BIG-benchをご存知の方はどれくらいいますか?OK、多くの方がご存知ですね。では、それについて話す必要はないかもしれません。しかし、いくつかのスライドを見せて、その方法について…いくつかの結果を見たいと思いました。これは、能力に関する主張をより科学的に測定可能な量に変える素晴らしい取り組みだと思います。評価できる何かに。
興味深い多様なタスクをスケーラブルな方法で生成する方法について、興味深い質問が提起されていると思います。単なる人間によるタスクの注釈付けではなく、例えば、これらのタスクの多くは個人によってプログラム的に生成されています。そして、もし例えば…画像の人間による注釈付けは非常に自然かもしれませんが、より複雑な方法で科学的推論をテストしたい場合、高校の教科書を見て教科書から質問と回答を収集することができます。
しかし、手作業で行わずに、本当により深い科学的推論を探る多様なベンチマークのセットを生成することは難しく、課題があります。そのため、考えるべき興味深いことだと思います。この論文は、タスクが異なる振る舞いを持つ可能性があるという事実を強調しました。x軸上の何かの関数として線形に振る舞うものもあれば、「ブレークスルーの振る舞い」(引用符付き)を示すものもあります。そして規模が大きくなるにつれて悪化するものさえあります。
これは別の例です…実際にこれもBIG-benchのタスクですが、これは異なる論文からのもので、x軸上の何らかのスケーリング方法の関数として、モデルサイズかもしれませんが、他のスケーリング方法かもしれない、異なるタスクに対して創発的な振る舞いと呼ばれているものを示しています。
BIG-bench論文からの1つの注目点、しかしシェーファーらによるこの論文でより深く研究されているのは、これらの創発能力が単に指標を変更することにどのように依存しているかということです。正確な文字列一致のような非常に急峻な、または不連続な何かで測定すると、それはかなり急峻になる可能性があります。
指標を変更すると、BIG-benchで観察された多くのこれらの急峻な振る舞いは、単に指標を変更することで減少することが分かりました。そのため、振る舞いが実際に急峻なのはいつか、そして非解析性の源は何かについて、興味深い質問が提起されていると思います。それについていくつかのコメントをさせてください。
2種類の概念があると思います…おそらく物理学で出てくるものと自然に結びついているものです。時々、この文献では相転移との関係が主張されます、かなり非形式的なレベルではありますが。非解析性の起源が、熱力学的極限を扱うからであることを言及し、少し説明したいと思います。
例えば、物理学と統計力学では、解析的な関数の有限和である分配関数があります。そしていつも、系のサイズ、粒子数、状態数が最初に無限大に向かう熱力学的極限で作業します。そして、例えば臨界温度を通じた遷移のような、遷移を通じてチューニングするものを研究する前にそうします。
それがこれらの種の遷移における非解析性の源です。そして数値計算や実験でそれを慎重に確立するために、通常、有限サイズスケーリングを行います。つまり、系のサイズを変更することで、観察される変数、測定される変数がどのようにより急峻になっていくかを研究します。そのため、これらの観察をより厳密な基盤に置くためには、そのような形のことを行いたいと思います。基本的に、もし実際に存在するなら、非解析性の起源を特定しようとするのです。
それは指標によるものかもしれません。おそらく指標によるものではなく、実際に非解析的な他の変数があるかもしれません。しかし、これは理論が興味深い仕事ができる場所だと思います。なぜなら、正しい極限を取ることで、非解析的な振る舞いを得ることができるからです。それは、おそらく、鋭さについて、そして実際に鋭い振る舞いが現れているのか、あるいは単に実験で観察していない、または正しい量を測定していない緩やかな振る舞いなのかについてのコメントです。
そして、おそらく、この講演で私が取ったアプローチと、取ることができる他のアプローチを対比して締めくくりたいと思います。様々な科学全般にわたる創発をより一般的に定義するこの画期的な論文への言及が、多くの文献でなされています。そこでは、スケールが上がるにつれて、各段階で、質的に新しい振る舞いが現れる可能性があります。
それはまた、より微視的な種類の振る舞いから導出するのが容易ではない、新しい理論的な言語や新しい理論的な出発点を必要とします。例えば、固体物理学または多体物理学は粒子物理学から創発し、化学は多体物理学から創発します。そして続いていきます。そのため、私は…そして他の講演者が後でこれについて話すことを知っています…これは創発の適切な、有用な、または洞察に満ちた形式化された概念は何かを考える興味深い時期だと思います。そしてこの講演で私が取ったアプローチは、本当に理論を使用して第一原理的であろうとし、私たちが知っている理論を使用することと、いくつかの段階で帰納を試みることを組み合わせたものでした。つまり、答えについて推測を立て、それを実験でテストしようとしたのです。しかし、このLLMの現代において有用な予測的なことを言うために、異なる概念的または理論的な原始的なものから始める方が適切かもしれません。
そこで終わりにしたいと思います。[拍手]
司会: サーシャが準備している間に、1つ緊急の質問があれば…?
聴衆: 私は数年前に [聞き取れない] について研究していましたが、あまりフォローしていませんでした…


コメント