知能の数学的基礎 Yi Ma教授に聞く

人工知能の数学的基礎を探求する本対談では、知能を科学的に定式化する試みが語られる。香港大学のYi Ma教授は、知能の本質を「簡潔性」と「自己整合性」という二つの原理で説明し、深層学習の経験的成功を第一原理から導出する理論的枠組みを提示する。記憶形成がデータ圧縮であり、ノイズ除去が構造発見のプロセスであるという洞察から、トランスフォーマーなどの現代アーキテクチャを数学的に再構築するCRATEフレームワークが生まれた。知能とは最も困難な問題を解く能力ではなく、最も容易で本質的な構造を優先的に学習する能力であるという逆説的な理解が、AI研究の新たな地平を開く。

The Mathematical Foundations of Intelligence [Professor Yi Ma]

What if everything we think we know about AI understanding is wrong? Is compression the key to intelligence? Or is there...

知能を科学的に理解する10年の旅
簡潔性と自己整合性という二つの原理
圧縮と進化の関係
視覚理解と空間推論の本質
コーディングレートと低次元表現
最適化ランドスケープの美しさ
ダブルディセントと正則化
制御理論から学習へ、そして継続学習
CRATEアーキテクチャと第一原理設計
トークン統計トランスフォーマーとスケーラビリティ
予測と自己学習の未来

知能を科学的に理解する10年の旅

過去10年間、知能や人工知能についての疑問が人々の想像力を捉えてきました。私もその一人ですが、知能の理解を真に科学的あるいは数学的な問題として定式化できるかどうかを本当に理解するのに約10年かかりました。

おそらく私の意見と事実の両方を得られるでしょうし、知能とは何かについてのあなたの見方も変わるかもしれません。これは私にとっても非常に確実なプロセスでした。知能についての一般的な誤解をどのように明確にするか。この旅を通じて、過去10年間に私たちが実際に正しく行ってきたことについて、まったく新しい見解を得られるかもしれません。

人工知能の実践、私たちが実装してきたメカニズム、すべての大規模モデルや深層ネットワークの背後にあるすべてのメカニズム、それらの真の性質を理解し、したがってその限界を理解すること、そして知的な振る舞いや能力を持つシステムを真に構築するために何が必要かを理解することです。

私たちは今、より高度な形の知能を理解するために次に何が必要かに取り組める地点に達したと思います。圧縮と抽象化の違いは何か、記憶と理解の違いは何か。これらは将来、私たち全員が研究すべき大きな未解決問題だと思います。

簡潔性と自己整合性という二つの原理

通常はゲストに自己紹介をお願いするのですが、あなたの分野での地位を考えると、私から紹介するのが最適だと思います。Yi Ma氏は深層学習と人工知能の世界的第一人者です。

香港大学のコンピューティング・データサイエンス学部の初代学部長であり、香港大学データサイエンス研究所の所長でもあります。また、UC Berkeleyの客員教授でもあり、以前は電気工学およびコンピュータサイエンスの正教授を務めていました。

IEEE、ACM、SIAMのフェローであり、疎表現と低ランク構造に関する先駆的な研究は、現代のコンピュータビジョンと機械学習を根本的に形作ってきました。最近出版された著書「Learning Deep Representations of Data Distributions」は、簡潔性と自己整合性という二つの原理に基づいた知能の数学的理論を提案しています。

このフレームワークは、すべてのコンポーネントが経験的な推測ではなく第一原理から導出できるCRATEアーキテクチャとして知られるホワイトボックストランスフォーマーを生み出しました。Ma教授、あなたの本について教えてください。

約7、8年前、深層ネットワーク、深層学習が過去10年間の機械学習や人工知能の実践をかなり変えてきました。約8年前、Berkeleyに戻る機会があり、このトピックをより深く掘り下げ、より原理的なアプローチから理解しようとする機会を得ました。

したがって、この本は過去8年以上にわたって私と私のグループ、そして多くの同僚が深層ネットワークの背後にある原理を理解しようとして行った進歩をまとめたものです。その旅の中で、私たちはそれを超えて、おそらくより一般的なものを見つけたようです。それは知能、ある一定レベルの知能の背後にあるものです。

約2年前に香港大学に加わったとき、私たちの分野の急速な進歩を反映するために、いくつかのカリキュラムを設計または再設計する機会がありました。それで私の学生と同僚は、この知識体系を体系的に整理し、教科書として、また新しいコースとして反映する時期かもしれないと判断しました。今学期教えていますし、おそらく来学期Berkeleyでも提供される予定です。

これは実際に初めて、深層ネットワークをより原理的なアプローチで説明し、知能のいくつかの原理についても説明しようとするものです。

その原理が簡潔性と自己整合性なのですね。これらの原理が自然知能と人工知能を説明できるという野心的な考えですが、それはどういう意味ですか。

知能、人工的であれ自然的であれ、どんな形容詞を付けようと、非常に具体的でなければなりません。非常に多義的な言葉ですよね。知能そのものでさえ、異なるレベル、異なる段階を持つ可能性があります。ですから、科学的または数学的にその概念を明確にする時期が来ています。

そうすれば、各レベルでの知能、その背後にあるメカニズムについて研究し、議論できるようになります。異なる知能の段階にわたっても、より統一された原理があります。共通点もあれば違いもあります。だから今こそそれを行う時です。

動物や人間に共通する知能のレベルがあります。そのレベルの知能は、すべての生命に非常に共通していると私たちが考えるものです。それは記憶がどのように機能するか、外部世界についての知識をどのように学び、それを記憶の一部として記憶し、予測するために、世界に反応するために、生存のためのより良い決定を下すのを助けるために使用するかということです。これは非常に一般的です。

これが私たちが話している知能のレベルであり、本でも非常に扱っているものです。したがって、この知能のレベルでは、私たちの記憶がどのように機能するか。今日では記憶に対してワールドモデルという洒落た言葉もあります。

そして、そのような記憶、そのようなワールドモデルをどのように発展させ、それがどのように進化し、どのように使用するか、これが実際に私たちが話しているレベルです。私たちは実際に、この知能のレベルにおいて、記憶がどのように形成され、どのように機能するかについて、この二つの原理が信じられないほど重要であると信じています。

そして私たちはそれらが必要であると信じています。つまり、記憶や知識は、世界について予測可能なものを正確に発見しようとするものです。したがって、そのようなすべての情報は本質的に非常に低い自由度を持っています。私たちはこれを低次元構造と呼んでいます。

したがって、そのような知識を追求する方法は、データの最も単純な表現を見つけようとすることを通じて正確に行われます。したがって、圧縮、ノイズ除去、次元削減は、実際にはすべてそのような知識、そのような構造を追求するための異なる言葉に過ぎません。

したがって、それが「簡潔性」という言葉で捉えられているのです。物事を可能な限り単純に説明することを見つけるが、それ以上単純にしないということです。これはアインシュタインが科学を説明するために使った言葉です。実際、これは少なくともこのレベルでの知能がまさに同じことをしているのです。

文の後半の「それ以上単純にしない」は、まさに一貫性、整合性を意味します。記憶が実際に世界を再現し、シミュレートできるように、ちょうど適切に一貫していることを確認します。それ以上単純にしない。もし単純にしすぎたら、予測性の一部を失う可能性があります。

したがって、実際にこれら二つは共存していると私たちは信じており、簡潔性と一貫性または自己整合性は、実際に記憶がどのように機能するかについての二つの特徴なのです。

圧縮と進化の関係

私たちは関節で世界を切り分ける理解を持ちたいと思います。世界の重要な不変性を表現するものです。そして論点は、圧縮が理解に必要かもしれないということだと思います。私の懸念は、機械学習で行っていることは、進化の長い系統樹の現存する例を表現しているということです。

では、現在の表現を知ることがどの程度私たちを助けるのでしょうか。私たちはまた、それらがどのように進化し、将来どこに向かう可能性があるかを知る必要があるのでしょうか。

知識を獲得するプロセス、外部世界についての情報を得るプロセス、それが圧縮です。圧縮可能なもの、秩序を持つもの、秩序を持つ現象を見つけることです。変動を排除し、より良く世界を予測できる低次元構造を持つものです。

その意味で、その能力が知能の本質だと私たちは信じています。少なくとも私たちが話している共通の知能についてです。もちろん、より高いレベルの知能については後で話すことができます。

生命の歴史、生命がどのように発展してきたかを見ると、実際に私たちは理解するようになったと思います。物理世界を支配するメカニズム、法則を私たちは物理学と呼んでいます。しかし、生命の進化を支配するメカニズムは何でしょうか。それは知能だと思います。

あなたが言及したプロセスでさえ、進化を通じて、生命は進化します。まさに世界についてますます多くの知識を学び、DNAを通じてそれらを次世代に伝えるためにコード化します。それは圧縮であり、DNAを通じて世界について学んだ論理を圧縮するプロセスです。

しかし、それを更新するメカニズムは実際には非常に残酷で、非常に力ずくです。ランダムな突然変異と自然淘汰を通じて。はい、進化します。前進します。しかし、資源と時間の莫大なコストがかかり、また非常に予測不可能です。

鋭い方なら気づくかもしれませんが、現在の大規模モデルがどのように進化するかとの類似性があります。多くのグループが原理なしに試行錯誤し、幸運なものが生き残り、あらゆる場所で提唱され、非常に人気になり、実践を支配するようになります。

その意味で、類推ができると思います。学生が私に尋ねます、今日の人工知能はどの段階にあるのかと。自然界にはすでに類推があります。私たちは生命形態の非常に初期段階にあります。したがって、それは圧縮プロセスです。世界についての知識を獲得するプロセスでもあります。

しかし、もちろん後に、個々の動物が脳を発達させ、神経系を発達させ、視覚や触覚を含む感覚を発達させるようになります。そこで実際に、観察を圧縮し、知識を学び、世界の記憶を構築するために、非常に異なるメカニズムを使い始めます。

個体がその能力を持ち始めるのです。単にDNAから知識を受け継ぐだけでなく。これは異なる段階です。その部分の知識はもはや遺伝子にコード化されるのではなく、脳にもコード化されるのです。

そして実際、それが私たちが今日ほとんどの場合に話している知能のレベルです。動物に共通し、人間に共通する、脳機能についての話です。

そうですね、私たちは確かに、システムとしての知能が人工物を生み出すという声明に同意するでしょう。Shalayの例は道路建設ネットワークです。それは道路を生み出し、システムは適応性を持っています。なぜなら、以前にはなかった場所に新しいルートを作成できるからです。

そして、物を圧縮する方法は多くあるという問題があります。圧縮のいくつかの方法は、世界を深い抽象的なレベルで表現し、いくつかはそうではありません。

したがって、今日のLLMは、データを圧縮しているとしても、表面的に意味的な方法でのみ圧縮していると主張するかもしれません。

そして、知能は新しい知識の合成に関するものかもしれないという概念があります。新しい知識の獲得についてです。しかし、すでに持っている知識が深い抽象的なレベルで世界を表現している場合にのみ、それを行うことができます。

したがって、進化におけるランダムな突然変異ではなく、非常に構造化されています。なぜなら、プロセスは物理的に実体化されているからです。つまり、完全にランダムなことをするのではなく、それを作成したプロセスによって導かれるのです。

多様体仮説が思い浮かびます。これは、すべての自然データが何らかの低次元構造、低い固有次元を持つ構造上にあるという考えです。

もう一つ思い浮かぶのは、私は幾何学的深層学習のファンですが、これは世界の対称性と幾何学的構造を表す帰納的事前分布をシステムに組み込むべきだという考えです。そして、その原理はこの考えに深く埋め込まれていると思います。

視覚理解と空間推論の本質

まさにその通りです。私の人生全体を見ると、私は4冊の本を書いてきました。私の初期の関心はコンピュータビジョンの研究でした。最初の本はビジョンについてで、その研究から多視点幾何学を研究しました。

その研究から、4冊すべての本が実際には一つのテーマについてであることに気づきました。それはデータの構造についてです。特にそれらすべてに反映されています。最初の本はビジョンについてで、最後の章で、対称性が私たちの知覚において重要な役割を果たしていることに正確に気づきました。

私たちが物体を知覚するとき、自然に対称性を持ちます。人間として、私たちの記憶、ビジョンについて、ずっと前に認識していました。最近では、ビジョンは再現についてだと言います。絶対に違います。

多くの人が、複数の画像から3D全体を作成すると言います。点群、メッシュ、符号付き距離関数、NeRF、ガウシアンスプラッティング。シーンを作成します。複数の角度から見られます。これは3D理解ですか、それともSoraのようなビデオを作成して見栄えを良くするだけですか。絶対に違います。

これはワールドモデルの表現や理解ではありません。私たちの理解は、たくさんの点群やガウシアンを取得して異なる角度から見るよりもはるかに先を行っています。

何かを見たとき、私たちは興奮することに気づきましたか。なぜなら3Dを理解し、内容を理解し、すでに脳内で解析しているからです。しかし機械はそこに何があるのか全く分かりません。単なる点群の束です。深度マップです。

角度を変えると3Dが見えます。私たちはすでに自動的にこれは手だ、これは体だ、これはカップだ、これはリンゴだと認識します。私たちはそれを行います。脳で情報を埋めます。機械が3Dを再現できれば、それらすべてを理解していると思います。これは完全に間違っています。

多くの研究が、人々が見るために何かを作成することで3Dモデルを構築していると言っています。それは完全に目的から外れています。

私たちのビジョンを見てください。私たちのビジョンモデルには海馬があり、IDコードは高度に構造化されています。視点中心、物体中心、アロセントリック表現の関係を理解しています。神経科学者はこれを非常によく理解しています。科学者も非常によく理解しています。しかしコンピュータ科学者は違います。コンピュータビジョン科学者は違います。一部はそうですが。

例を挙げましょう。空間推論を行うために、約1年前にコーネルでテストを実施しました。すべてのトップマルチモーダルモデル、GPT、Geminiなどの巨大なモデルをテストしました。

研究のタイトルは「AIの目は大きく閉じている」というものでした。非常に単純なテストで、それらの言語モデルまたは大規模モデル、マルチモーダルで高度に訓練され、高度に商業化されたモデルに、画像が与えられたときに空間推論を理解しているかをテストしました。

何かの左側に何があるか、空間にいくつのオブジェクトがあるか、何かの後ろに何があるか、何かの上に何があるか。非常に単純な空間の質問です。それほど深い空間理解さえ必要ありません。

しかし、すべてのモデルは悲惨に失敗し、その大部分は実際にはランダムな推測よりも悪い結果でした。GeminiとGPTだけがランダムな推測よりわずかに上でしたが、人間の理解をはるかに下回っていました。

これがステータスです。3D理解が非常に困難であることを意味します。しかし人間はこれを努力なしに行います。右側のボトルを取ってくださいと簡単に指示できます。ショッピングセンターを見つけたい場合、ドアを通って右に曲がり、建物の外に出たら南に向かってくださいと言えます。

この簡単な文を通じて、すでに視点中心から物体中心、アロセントリックに切り替えています。このような高度に構造化された3Dモデルを持っていなければ、エンボディドAIやワールドモデルについて話すことは忘れてください。この非常に単純な空間参照、相互作用を行うことができません。

このワールドモデルは可視化するためのものではありません。私たちは相互作用し、操作し、影響を与えるために3Dモデルを構築します。ああ、これは見栄えがいい、この視点やあの視点から見られるというだけのために3Dモデルを構築しているのではありません。可視化するためだけに360度回転させるのではありません。

私たちはそんなことはしません。それが私たちの目的ではありません。残念ながら、そのような可視化に気を取られてしまいます。かっこよく見えますが、実際にロボティクス、ナビゲーション、ローカルモーション、操作など、あらゆる種類の作業をしている私たちにとって、使用法は非常に限られています。

無駄だとは必ずしも言いませんが、実際にはかなり限られています。

コーディングレートと低次元表現

コーディングレート式を導入すべきです。それについて質問がありました。そこにイプシロンがあります。それをどのように調整するか、それは何を意味するのかという問題があります。

また、LDR、つまり線形識別表現というこの概念についても触れるべきです。より広く、これらの帰納的事前分布について、宇宙の規則性をモデル化するために抽象化を行うとき、常に少し余りが残りますよね。どの程度これらのものを自然なものと考えることができるのでしょうか。

実際には非常に深い質問に触れています。実際、正直に言うと、それを理解するのに約30年かかりました。異なる測度、異なる体積を区別しようとする初期の段階で、損失のある符号化が必要であることが分かりました。

それは何かハック的なものではなく、実際には必要であることが判明しました。損失のある符号化を行うために、実際にノイズが非常に異なる役割を果たすことに最近気づき始めました。しかし、多くの人にとって非常に混乱し、困惑しています。

これは実際に私の学生が理解し始めたものです。おそらくそれについて論文を書くでしょう。少し説明できます。

拡散全体、ノイズ除去モデルについて考えてみてください。今非常に人気がありますよね。なぜデータにノイズを追加するのですか。全世界に。なぜなら、分布がどこにあるか分からないからです。

「すべての道はローマに通ず」という言葉を誰もが知っています。なぜすべての道がローマに通じるのか、考えたことがありますか。非常に単純です。歴史のある時点で、ローマが全地球に到達するために道を建設したからです。

それが拡散プロセスです。そして、ローマを知りたいなら、ノイズ除去を行います。同じ道を辿って戻れば、ローマがどこにあるか分かります。それが低次元構造です。それが知識があるところです。それがオアシスです。

したがって、ノイズを追加するのは非常に自然なプロセスです。ノイズをデータに追加することは、まさに道路を建設することであり、ノイズ除去は私たちをどこから来たかを思い出させてくれます。それが大きな傾きで、全地球に到達するためにノイズを追加する必要があります。

実際にはもう一つのノイズがあります。多様体について話すときでも、孤立したサンプルしかありません。多様体上にいくつの点がありますか。いくつの点を観察しますか。常に有限です。

しかし、なぜそれを連続体と呼ぶのですか。なぜ点を線、平面、表面として収集するのですか。いつそれを行うのですか。したがって、ノイズは多様体内で別の役割を果たします。

有限のサンプルがあっても、損失のある符号化を許可すれば、球をパッキングすると、物事が接続し始めます。ノイズは点をつなぐのを助けるために非常に重要です。

私たちは皆、パーコレーション現象を知っています。床に雨滴が見えます。二つの相しか見えません。一つの相はすべての点が孤立しています。もう一つの相はすべてが濡れます。中間は決して見ません。なぜなら、鋭い相転移があるからです。

球、点の密度が十分に高くなると、すべてを収集します。おそらくそれが私たちが到達する相転移です。接続された平面がすべてのデータをより簡潔に、より経済的に説明するためのより良い解決策であることに気づきます。

すべての点を記憶するコストと平面を記憶するコストが切り替わり始めます。抽象化はそれと関係があるかもしれません。分かりません。しかし圧縮の観点から、これはすでに、いつゼロ次元サンプルから低次元多様体を好むようになるか、また低次元多様体から世界の残りに到達する方法を説明できます。

したがって、このプロセスでさえ、ノイズがすでに異なる役割を果たしていることが分かります。このイプシロンがあります。ある時点で表面の周りに収集され、まだ何が起こるか理解しようとしています。

しかし、この大きな二つの相では、すでに知っています。イプシロンの役割は実際に異なる役割を果たします。そして、過去数年間、この問題についての私たちの理解、どのように圧縮するか、有限サンプルから低次元構造をどのように追求するか、この問題についての私たちの理解は本当に劇的に進歩しました。

正直に言うと、私は非常に満足しています。これは私が大学院生のときに困惑した質問です。私の初期の研究、損失のある符号化、損失のある圧縮についての研究でさえ、それについての私の困惑を反映しています。

最近、より統一された、理論的な方法だけでなく、アルゴリズム的な方法でさえ、それらのものを理解し始めたことに非常に興奮しています。

窓の外を見ると、私たちは非常に多くの詳細を無視します。道路の葉を見ません。その構造を見つけるだけです。だから、あなたのプレゼンテーションを見たとき、ノイズ除去、反復的なノイズ除去が圧縮の一形態であるとおっしゃったとき、非常に興味を持ちました。

2024年のICML、昨年ウィーンでのあなたの研究について言及したいと思います。Wangとの研究で、このテクニックを使用すると、損失面が劇的に異なり、非常に滑らかで、厳しい局所最小値などがないことを発見しました。その直感は何ですか。

最適化ランドスケープの美しさ

実際、それらの現象についての私たちの理解は、初期の頃にスパース性を研究したときに遡ります。データが非常に低次元のスパース表面、平面、低次元平面、あるいは低ランク行列上にあるとき、そこで非常に大きな教訓を学びました。

それらのスパース性や低次元性を評価する目的関数、それらの関数は高度に非線形で非凸です。しかし、凸最適化についての私たちの正統的な理解では、それらは常に難しいとされています。一般的なクラスはNP困難であり、多くの局所最小値があり、局所最小値に引っかかり、停滞した臨界点、平坦な表面があります。

基本的に最悪の状況は非常に悪い、悪夢です。しかし、それらの低次元構造、スパース構造の研究を通じて、それは実際に私の前著で取り上げられました。高次元データの低次元構造分析です。

私たちは実際に、多くの非凸問題、最適化問題が非凸ランドスケープを持っていても、それらの問題、またはそれらの測度が自然、非常に自然な資源から生じる場合、それらの構造は実際には非常に規則的で、対称性を持ち、ランドスケープは実際には非常に良好であることに気づきました。

線形最適化についての私たちの一般的な理解とは全く逆です。これは完全に180度の視点の反転です。実際、高次元が助けになることさえあります。次元が高いほど良いのです。私たちはこれを次元の祝福と呼んでいます。

したがって、それらの規則性、それらの対称性は、この目的関数のランドスケープが実際には美しいことを教えてくれます。まず第一に、それらは高度に規則的です。停滞はありません。平坦な表面はありません。局所最小値が多すぎることはありません。

局所最小値でさえ、すでに非常に明確な幾何学的または統計的意味を持っています。したがって、それらのランドスケープは、勾配降下法のような非常に単純なアルゴリズムで最適解を見つけるのに非常に適しています。

これはほぼ間接的に説明します。なぜ私たちがニューラルネットワークを訓練しているときでさえ、さらにそれ以上でも、非常に高次元空間で低次元分布を探索しているのに、どういうわけか勾配降下法は常にどこか良い場所に行き着くのか。

長時間実行できますが、どういうわけか常に行き着きます。それらのランドスケープを横断するのはそれほど難しくありません。まさにそれらの目的関数が高度に規則的だからです。

したがって、今、率歪み目的関数に戻ります。目的関数を見ると、それは恣意的なものではありません。全体から部分を引いた体積を数えています。それは非常に客観的なものです。

人々がランダムに考え出す損失関数のようなものではありません。この項を追加し、加重和、異なる重みを追加し、経験的なペナルティや経験的な、ある種のアドホックな項を使用します。

すべての項はデータの物理的体積を記述しています。したがって、それらは自然に生じる量であることを期待すべきです。そして私たちの教訓から、実際にそれらの目的関数は非常に良好なランドスケープを持つことに気づきました。

局所最小値でさえ、グローバル最小値だけでなく、正交部分空間を与える対応する解決策です。局所的なもの、グローバルに最適ではないものでさえ、類似の幾何学的構造を持っています。そして、それらの最小値の探索を遅くする他の奇妙な臨界点はありません。

これは実際に非常に興味深いです。この啓示により、知能がまさにそれらのものを活用し、利用していることを理解できます。

実際、知能について、過去10年間でますます理解するようになった際の大きな誤解があります。機械学習理論を研究していると、知能、特に自然界の知能は、最も困難な問題、最悪のケースを解決するように設計されていると信じる傾向があります。

私は実際に異なる意見です。知能はまさに、何が簡単で最初に取り組むべきか、何が学びやすいか、何が最初に学ぶのが自然かを特定する能力です。それが完了し、リソースが許可したときにのみ、ますます高度なタスクに取り組み始めます。

誰もが高度な数学を学ぶ必要があるわけではありません。動物は学びません。自然は、最小のエネルギー、最小の努力で最も多くの論理を学び、最もよく生き残るための最も簡単なものを見つけます。

再び、ここで簡潔性の原理が働いています。リソースの簡潔性の別のレベルが働いています。これに気づくと、知能を理解することは、本当に最も一般的なものを理解することだと気づきます。

低次元構造、最も簡単なもの、滑らかなもの、良好な分布、少数のサンプルで済むもの、より少数のサンプルで済むもの、そして定式化するのが非常に簡単なもの。実際、それが科学がどのように進歩するかです。

物理モデルの多く、ニュートンの法則は非常に単純です。単純なものを発見し、次第に一般相対性理論に到達し、次に量子力学に到達します。それらの方程式は後でより複雑になります。

これは同じプロセスです。私たちは最も一般的なものを最初に特定します。最も簡単なタスクを最初に特定します。したがって、多くの機械学習理論が最悪のケースのバウンドを導出しようとしていますが、おそらく二度考えるべきだと思います。

その特徴づけが大好きです。物理学における最小作用の原理に似ています。ある意味で、私たちは多くの異なる方向に多くのステップを踏むことで問題を解決します。少しのエントロピーをオープンにしておくと思います。純粋なヒルクライミングは行いません。

しかし、集団的に、私たちはこれらの踏み石を獲得し、非常に複雑な問題を解決する際のそのプロセスの全体です。しかし、あなたが提起した非常に興味深い点に触れたいと思います。

ダブルディセントと正則化

非常に大きな深層学習モデルがあると、ほとんど自己正則化する傾向があり、より良く学習することに気づきます。ダブルディセントの現象などがあります。それについて教えてください。

魅力的な質問です。実際、この質問は実際に初期の頃に戻る必要があります。深層学習を理解しようとしたとき、深層学習が現れたとき、理解しようとする多くの現象がありました。私もその一人です。それらの現象を理解しようとしました。

ドロップアウトについて何か良いことがあります。しきい値処理、異なるしきい値処理について何かあります。正規化について何かあります。そして、モデルが非常に大きく、パラメータが多いのに、どういうわけか深層ネットワークのコースは過学習する傾向がありません。どういうわけか、まだ汎化します。

もちろん、人々は気づき、伝統的な古典的なバイアス、バリアンストレードオフとは異なるある種のダブルディセントがあります。実際、それについていくつかの論文を書きました。正規化について、2019年後半頃に。

私は本当に学生に言いました。それらの孤立した現象を説明するのをやめるべきだと。私たちが見ている小さなピースだけを見ています。象を触る盲人のようです。それぞれが少しずつ言います。各理論が少しずつ説明しようとします。

全体的な説明があるはずだと思います。大きな全体像を得れば、それらすべては結果または含意に過ぎません。その時、深層ネットワークのプロセスが何かを最適化しているという概念に触れ始めました。

層ごとに、簡潔性、低次元性を促進する目的を最適化していることに気づきました。それに気づいたとき、私は非常に興奮しました。それで学生に言いました。これからは過学習について、なぜかについて論文を書くのをもうやめます。

なぜなら、ニューラルネットワークが圧縮しようとしている場合、演算子が体積を圧縮する特定の収縮写像を実現しようとしている場合、決して過学習しません。過パラメータ化しても、決して過学習しません。

簡単な例です。データが直線上にある場合、一次元曲線、何でも。この一次元線を二次元、三次元、あるいは百万次元に埋め込むことができます。しかし、演算子が常に層ごとに、各反復で、演算子が常にすべての方向で解を線に向かって収縮させているだけなら。

決して増やしません。線を何十億次元に埋め込んで過パラメータ化しても。何十億のパラメータがあっても。しかし集合的に、それらすべての何十億のパラメータは、解を収縮させ、ノイズ除去し、線に向かって圧縮しています。

冪乗法のようです。PCAのようです。冪乗法は、埋め込まれた次元に関係なく、最初の特異値を計算します。常に同じ速度で収束します。決して過学習しません。

したがって、本質的に圧縮により、演算子が圧縮またはノイズ除去を実行している場合、これはもう過学習しないことを意味します。正しく実行すれば、収束すれば、解は望む構造に収束します。

それは自然な質問を提起します。私たちはNYUのAndrew Wilsonにインタビューしていました。彼は暗黙のバイアスについていくつかの論文を持っています。対称性のハードバイアスとその間のすべての組み合わせのようなものです。

あなたの言っていることが本当なら、なぜ帰納的バイアスが全く必要なのでしょうか。少し削減して、本当に大きなモデルだけを持つことはできませんか。

いいえ、そうは思いません。これがポイントです。まさにそうです。初期の頃、人々は深層ネットワークを理解していませんでした。多くの経験的な試行錯誤があり、人々は帰納的バイアスというフレーズを使用する傾向がありました。

ある種の魔法のソースとして、ニューラルネットワークの設計に対して特定の方法を行う、またはニューラルネットワークをどのように訓練するかの失敗または成功を説明するためです。

正直に言うと、長い間、私は帰納的バイアスが何であるかを理解したことがありませんでした。おそらくある種の正則化です。一部の人々は、ネットワークについて、データについて何らかの構造を学習しています。

しかし今日、私の最近の研究では、少なくとも私が理解していることから、すべての帰納的バイアスは第一原理として定式化されるべきだと言いました。

少なくとも私たちができることから、例えば、最近のホワイトボックスクレートやトランスフォーマーライク、またはResNetライクアーキテクチャ、ResNetライクアーキテクチャ、または専門家の混合ライクアーキテクチャを含むすべての異なるネットワークアーキテクチャを推論できました。

唯一の帰納的バイアスは、追求しているデータ分布が低次元であると仮定することです。すでにフォームを得ることができます。各層の演算子の主なアーキテクチャまたはフォームをレッド構造、専門家の混合構造として。

そして、それらの演算子は層ごとに、まさにノイズ除去圧縮または対比を実行しています。追加の仮定を立てることができますか。はい、できます。

例えば、私の仕事がデータをそのまま圧縮するだけでなく、物体認識において、すべてのデータを作りたい、私の分類を平行移動環境にしたい、それは対称性です。アクション環境を許可したい、一緒に圧縮したい場合、何が得られますか。

まだ圧縮を通じて、圧縮演算子の構造として畳み込みを自然に得ることができます。したがって、畳み込みは私たちが課したものではありません。第一原理からの結果です。

いわゆる帰納的バイアスは、データを圧縮したいと仮定し、また圧縮が平行移動環境または回転環境を尊重することを望みます。それがそのタスクを達成するための圧縮演算子の特性です。

多くのことがあります。したがって、私たちは帰納的バイアスを組み込みたくありません。解決策を探している間に、私の理解では、帰納的バイアスは最初に行う非常に仮定であるべきです。

残りは演繹であるべきです。残りはもう帰納はないべきです。そうでなければ、試行錯誤をしています。帰納的に、基本的に理論を構築するとき、すでにすべての帰納的観察、実験、仮定を行っているべきです。

良い理論は、非常に少数の帰納的バイアスまたは仮定または公理から始まるべきです。そして残りは演繹的であるべきです。私はそれを第一原理と呼んでいます。

制御理論から学習へ、そして継続学習

私たちは簡潔性について話してきました。それは何を学ぶかについてです。自己整合性は学習方法についてです。制御理論から学習への旅を描くことができると思います。また、この方法論は継続学習問題に関していくつかの興味深い結果をもたらしていると思います。それを描きましょう。

圧縮、あるいは率歪みを追求してデータ分布を変換することでさえ、それは一方向です。データが十分であるかどうかの理論的保証はほとんどありません。

非常に少数のサンプルから始めるかもしれません。データが十分である方法はありません。リンゴには5つのタイプがあるかもしれませんが、4つのタイプしか見えないかもしれません。

しかしそのプロセスは続きます。持っているものを圧縮し、記憶に到達します。そのプロセス中に行き詰まらないという保証さえありません。十分な反復がないかもしれません。

したがって、得られる記憶は正確でないかもしれません。正しくないかもしれません。したがって、どのようにチェックするか、記憶をさらに発展させ、進化させ、改善するか、または記憶が実際に本物に予測できることを確認するか。これはワールドモデルであり、モデルは正確です。

実際にそれをデコードする必要があります。記憶形成をエンコーディングプロセスと考えることができます。そして記憶から、デコードしたい、今観察したものから次の秒に何が起こるかを予測したいです。

または夜に何が起こるかを夢見たいかもしれません。したがって、デコーディングは実際に記憶が正しいかどうかをチェックすることを可能にします。次のステップをどれだけ正確に予測できるか。

したがって、これは実際にすでにある種のオートエンコーディングフレームワークを形成しています。もちろん、観察と記憶の両方にアクセスできる場合、大規模データモデルを訓練するように、両端を制御できます。エンドツーエンドでオートエンコーディングを強制できます。人々はそれについて話すのが好きです。

しかし、自然な設定では、動物や人間の設定では、両端を制御することはできません。おそらく自分の脳を制御できます。脳の中にあるものを制御できます。

例えば、3D世界の予測が正しいかどうかを測定するためのアクセスは実際にはかなりありません。画像のフレームは長方形です。それを測定したことがありますか。測定する必要はありませんが、どういうわけか誰もがモデルが正しいと信じています。どうやってそれを行うのですか。

したがって、実際には自己修正プロセスがあります。実際、この考えは実はNorbert Wienerに遡ります。動物がどのように測定せずにエラーを修正できるか。猫は非常に正確に何かを捕まえることができます。

あるいは単一のミスでさえ、非常に明確に修正できます。したがって、どういうわけか彼らは、実際に物理的にエラーを測定せずに、世界と非常に一貫性のある、自己整合的なワールドモデルを構築できます。

したがって、これが実際に脳にループバックし、ループを閉じるという考えです。常に予測でき、予測と観察に基づいて、脳内での予測と観察の間にまだ違いがあるかどうかをチェックできます。

エラーがあれば、そのエラーを使用して修正します。結局、私の学生との研究により、もちろん観察は情報を失います。なぜノイズを導入するか、次元を失うか、情報を失います。

しかし、世界のデータの分布が十分に低次元である限り、これはまだ実行可能であることが判明しました。エンコーディングプロセス、観察プロセス、知覚プロセスがノイズであっても。

まさに、外部世界のデータの分布が十分な構造を持ち、高度に低次元であるとき、したがって脳が任意の違いを識別するのに十分な自由度を持っているとき。

これは実際に非常に興味深い啓示です。低次元性は単なる技術的仮定ではないことに気づくことです。この種の閉ループ学習が可能であるために実際に必要です。

ループを閉じることができれば、実際に常に観察し、常に予測できます。したがって、記憶を使用して常に予測し、修正できます。したがって、継続学習、さらには生涯学習さえサポートします。

私たちの記憶、ローマは一日にして成らず、記憶は決して一日で構築されません。常に改善し、常に修正します。これが知能のメカニズムです。したがって、このメカニズム自体はすでに汎化可能です。

したがって、知能の前に「汎用」という形容詞を追加する必要はありません。汎用知能と呼ぶ意味はありません。知能メカニズムを正しく実装すれば、それはすでに汎化可能です。

このメカニズムによって学習された知識は、いつの時点でも汎化可能ではないかもしれません。メカニズムは汎化可能です。これは非常に大きな混乱です。十分な知識を蓄積すれば、それが汎化可能だと思います。いいえ、そうではありません。決してそうではありません。

定義上、科学的であるということは反証可能であるということであり、それは限られているということを意味します。ある点またはある精度まで世界を説明できるだけです。常に改善の余地があります。

科学活動、記憶を修正する能力、新しい記憶を獲得する能力、それが汎化可能な能力です。それが知能です。初期の自然淘汰を通じて、フィードバック制御、フィードバック修正を通じて、試行錯誤の人類史を通じて、経験的知識を蓄積することを通じて、科学的発見を通じて、すべてこれを行っています。

それが知能の背後にある共通点です。ある点まで蓄積された記憶ではありません。したがって、世界全体を記憶すること、世界全体に持っている知識を管理しても、新しい環境、新しい状況で自分自身を見つけたとき、これまで見たことのない現象を観察したとき、もはや適用できなくなります。

したがって、それが十分な知識を蓄積することによって汎用知能を得ようとする限界です。

CRATEアーキテクチャと第一原理設計

あなたのCRATEシリーズのアーキテクチャについて話すべきです。CRATEはCoding Rate Reduction Transformerの略であり、非常に興味深い発見をしました。

例えば、マルチヘッド自己注意は、率符号化の勾配ステップとして導出できます。また、MLPはスパース化演算子として。そして、トランスフォーマーのようなものが原理的な方法で説明できるという話をしていました。

興味深いことがありますよね。私たちはそれらを設計さえしませんでした。私たちは多くの異なるものを経験的に試し、トランスフォーマーに偶然出会いました。しかし、そのようなものは実際に第一原理アプローチから生まれることができます。

過去10年間の進化を見ると、大規模モデルにとっても一種の自然淘汰プロセスです。初期のAlexNet、VGG、あるいはResNet、あるいはトランスフォーマーから。ところで、これは生存者の一つに過ぎません。自然淘汰と同じです。

人々は忘れています。AutoML、AutoNASと呼ばれる非常に人気のある領域があった時期がありました。人々はより良いアーキテクチャをランダムに探索する傾向がありました。どういうわけかなぜ少数だけが生き残るのですか。理由があるはずです。

彼らは特定の構造を捉えたに違いありません。何か正しいことをしたに違いありません。今の私たちの理解からすると、ResNetは実際に各層が最適化を行うべきであるという事実を捉えています。

共鳴はまさに反復的な最適化アーキテクチャを反映しています。そして、類似したものをクラスター化、圧縮し、異なるものを識別または分類し、異なるものを対比するという事実を正確に捉えています。

そして異なる専門家を開発したいです。私たちはそれらを専門家、クラスター、グループと呼びます。いずれにせよ。そしてトランスフォーマーも。データの相関、自己注意が何であるかを捉えましょう。

データの相関、共分散が何であるかを正確に計算します。それを使用して、物事をさらにスパース化し、さらに分類し、分布を組織化します。彼らは何かをしたに違いありません。どういうわけか何かに近いです。

ほとんど私たちの信念のようなものです。何か正しいことがあると信じるなら、第一原理からクレートを導出できるはずです。これまでに発見した法則について、非常に明確で統一された理解を持つべきです。

少なくとも、私たちはどうにかそれを行いました。これまでに発見した法則について、彼らが何をしてきたかについて、かなり統一された説明を提供します。

正直に言うと、初期の、おそらく最も初期の動機でさえ、私たちが何をしてきたかを説明し、理解しようとしましたが、それを理解すると、はるかに先に進むことができることに気づきました。

現在のアーキテクチャには改善の余地がたくさんあることに気づきました。劇的に単純化できるだけでなく、クレートの後の過去、昨年と今年、私のグループからの一連の研究を見ることができます。

本当に人々に示しています。実際に、原理で何が行われているかを理解すれば、劇的に単純化できます。圧縮だけを気にし、最終的な表現を気にしない場合、MLPレイヤーさえ捨てることができます。

または、注意ヘッドを作ることができます。何を最適化しているか知っているので、率歪み目的関数を最適化しているので、その目的関数の同等の変分形式を見つけることができます。最適化がはるかに簡単です。

私たちはTOSSと呼ぶものを最終的に得ます。共分散を計算する、自己注意ステップは次元で線形です。現在の注意が行っているような二次ではなくなります。

もちろん、文献を見ると、他の人々がManbaやRKのような線形複雑度を特定しようとした経験的な試みがありますが、再び試行錯誤を通じてです。しかし今、これは純粋に数学的な方法で導出します。

同じ目的関数の同等の変分形式を見つけるだけです。同じグローバル最適を持っていますが、最適化がはるかに簡単です。これは私たちが常に行うトリックです。200年以上のより良い最適化アルゴリズムの開発におけるすべてのトリックです。

すべてのアイデアが、現在のアーキテクチャの設計を改善するために、より良い演算子、降下演算子、または最適化アーキテクチャを設計するのに役立ちます。

率直に言って、私たちは本当にそこまで始めていません。加速技術、前処理、共役勾配など、さまざまなランドスケープを探索するものがたくさんあります。ランドスケープ、コスト目的関数のタイプをより良く理解すれば、何十億ものアイデアがあり、効率をさらに改善できます。

正直に言うと、私たちはそこまで始めていません。実際、それが私の学生の何人かを興奮させたものです。これを追求することに興奮しました。最適化の観点からどれだけ少ししか行っていないか、まだ改善の余地がどれだけあるか気づいて。何人かの学生は非常に興奮しています。

Nemanでは過去数年以内に、すでに2つまたは3つの異なる世代のアーキテクチャがあります。過去にはほとんど考えられませんでした。なぜなら、新世代は常に異なるグループから来るからです。ランダムなプロセスのようなものです。運が良ければ、何かを発見し、動作するかもしれません。十分に努力すれば、動作するものを得られます。

しかし、この原理的な最適化を通じて、最適なアーキテクチャへの収束進化があるかもしれないという魅力的な考えです。

そうすれば、探索はもはやランダムではなくなります。実際にガイドされます。初期の提案に戻るように。これは知的探索になります。ガイドされた探索です。問題の構造を理解しているので、今科学ができます。

もはや経験的な帰納的探索プロセスを行うだけではありません。

トークン統計トランスフォーマーとスケーラビリティ

なぜOpenAIは、より優れたアーキテクチャが今存在するにもかかわらず、まだトランスフォーマーを使用しているのですか。このトークン統計トランスフォーマーについて話すべきです。

あなたが言ったように、線形時間複雑度であり、原理的には、今使っているようなトランスフォーマーよりも劇的により良くスケールするものです。なぜ私たちはそれを使っていないのですか。

まあ、これをスケールアップしようとする試みがあります。実際、考えることもできます。もちろん、スケールしようとするとき、他の要因が入ってきます。スケーラビリティなどに関連するすべての設計に関連します。

実際、私たちは他のことも試しました。はるかにスケーラブルなものもあります。また、私たちが持っているすべてのリソースでスケールアップしようとしました。時々、企業については分かりません。私たちはリソースが非常に限られており、それらのアーキテクチャがスケールすることを検証するのさえ、おそらく数百枚のカードまでしかできません。それが限界です。

学術的なリソースで。うまくいけば、それが説得力を持つでしょう。しかし、最近行ったことの一つは、現在のDINOの実践を簡素化することです。

Metaが行ったことで、事前訓練された最先端のものです。誰もがワールドモデル、視覚的ワールドモデルについて話しています。それが一種の最高のモデルであり、Metaは視覚表現モデルを事前訓練するために多くのエンジニアリング努力を注ぎました。

それはまだ最高であり、何十億もの画像で訓練しており、対比学習を使用していますが、非常に注目すべきエンジニアリングの功績です。今、人々はそれを使用しています。

実際に私たちは、システムが劇的に簡素化できることを発見しました。目的、彼らが本当にしようとしていることを理解すれば。私たちはSynDINOと呼ばれる研究を行いました。DINOのバージョン1、バージョン2の簡素化版です。両方のバージョンを簡素化しました。

アーキテクチャは劇的に、何十ものハイパーパラメータを取り除き、アーキテクチャは10倍単純になり、パフォーマンスは向上します。数億のスケールまでスケールアップしました。

アップルツーアップルの比較では、劇的に訓練がはるかに簡単で、効率的で、すべてが説明可能です。これはMetaチームとGoogleチームからも真剣に注目を集めたと思います。

現在、彼らはそこにいます。Metaとgoogleが簡素化されたDINOについて何かをしようとしている真剣な努力があることを知っています。コードはあります。

はい、私たちは当時DINOの人々にインタビューしました。Ishan Misraのような人々と話しました。彼らが使用しているこの種の非対照的な自己教師あり学習について、潜在的な接線があります。また、教師なし全体と、それらの表現が下流タスクにどれほど有用かについてです。

おそらくそこに行くことができますが、Kevin Murphyにもうすぐインタビューすることを言うべきです。彼があなたの本を非常に注意深くレビューしたことを知っています。彼は私にあなたにこの質問をするよう頼みました。

彼は言いました。コード削減は素晴らしいが、データ空間における予測または再構成損失の対象でなければなりません。特に画像にとって特に奇妙に思えるトークン予測を超えてどのように進むのか。それがKevinが私にあなたに尋ねるよう頼んだことです。

予測と自己学習の未来

これは実際に素晴らしい質問です。率歪みでは、損失性は実際にイプシロンボールを通じてコード化されています。実際にサンプルがどのように互いに接続するかを捉えようとしています。

今、この損失のある符号化を通じてコーディング表現を最小化しているだけなら、エラーはある種イプシロン則によって制御されますが、強制されません。この損失符号化プロセスを通じてイプシロン則を尊重します。

今、本当に確実にするために、すべてがうまくいかない可能性があり、持っているサンプルの数にも依存することを覚えておいてください。選んだ画像が間違っているかもしれません。なぜなら、データがその密度を持っていないからです。したがって、パーコレートできないかもしれません。

したがって、学習した反復は非常に奇妙になる可能性があります。したがって、学習した内部の評判分布が実際に元の分布を特定の精度まで本物に反映していることを確実にするために、デコードする必要があります。

常にエンコーディング、デコーディングがあります。実際に私たちの脳は常にそれを行っています。予測的符号化などです。したがって、そのエンコーディング、デコーディング、予測、再構成にエラーが残っているかどうかを検証することは非常に重要です。

今、質問は、データ空間、元のトークン空間でそのエラーを測定する必要が本当にあるかです。以前の議論に戻ります。そのオプションがあれば、そうしてください。エンジニアリングをより単純にします。

しかし、人間のように自己学習するシステムを本当に持ちたい場合、二つの目やいくつかのセンサーで観察するだけです。そうすれば、感知プロセスが十分に正確であることを確認する方法を考え出す必要があります。

そうすれば、すべてを内部で行うことができます。予測して戻り、同じ感知チャネルを通じて予測したものと観察したものを観察し、比較できます。ローカルでそれを比較します。

理論的には、少なくとも理想的なケースでは、これが可能であることを証明します。エラーを最小化できます。エラーを修正すると、したがって内部表現がエラーになります。元のデータ空間のトークンのエラーは減少しますが、技術的条件下で、一般的な条件下では、まだ分かりません。

実際、データ分布が部分空間の混合であるとき、それが可能であることを厳密に証明する論文があります。部分空間の次元が知覚プロセスの容量と比較して十分に低い場合。

今、一般的な分布については、これが真実だと信じています。これは実際、自然データの動きの中で、予測されたワールドのすべての低次元ダイナミクス構造をどのように学習できるかということです。

したがって、将来、これを推論できると思いますが、エンドツーエンドは、そうするオプションがある場合、またはそのオプションがない場合に機能します。自律的にこれを行う方法を見つけなければなりません。

どの条件下で自律的にこれを行うことができ、エラーをほぼゼロに減らすことができるかです。

DINOについて話しましたが、別の例はViTです。今年スイスでLucas Bayerにインタビューしました。彼はViTを発明しました。私が正しく理解していれば、CRATEは今ViTに非常に近いですが、はるかに原理的です。説明可能です。

ViTをリーダーボードから外すのにどれくらい近づいていますか。

実際、多くの比較において、私たちはすでに非常に近いです。比較が難しいですが、アップルツーアップルで、パラメータが似ている場合、私たちは非常に同等です。

ところで、私たちは多くのエンジニアリング努力を注いだことはありません。概念を検証したいだけでした。実際、ViT、CRATEから出てきた一つのことは、私たちが見つけたのは、アーキテクチャ設計が原理的であるだけでなく、訓練を行うと、学習された内部構造が意味的に、統計的に、幾何学的に非常に意味があることです。

実際、各ヘッドは実際に似た構造を学習します。すべて基本的に各チャネル、各ヘッドが特定のタイプの視覚パターンの真の専門家になります。例えば、動物の足、動物の耳、動物の顔などです。

私たちはCRATEでそれを非常に明確に見ますが、ViTではそれを観察しません。もちろん、ViTが学習する可能性があります。これは実際に興味深いことです。初期の頃、人々は大規模モデルについて、冗長性があれば、内部で確実に物事を学習しますが、ネットワークのどの部分が正しいチャネル、正しい演算子を学習したかを言うのは非常に難しいです。

なぜなら、より冗長な構造に埋め込まれているからです。初期の頃、人々はこれをラッキーロッタリーまたはロックロッタリーチケットと呼びました。どこかにあります。それから人々はそれを蒸留しようとします。蒸留すべきだと正当化します。

実際に圧縮できるはずだと正当化します。人々はこのLoRAのようなものをします。すべての後処理です。それが必要であることを正当化します。そして、何人かの人々は、後処理の後、ネットワークが小さくなるだけでなく、パフォーマンスが向上することを発見します。

今、おそらくそれを行う必要はありません。少なくとも、アーキテクチャは設計された通りのことをします。そして、各コンポーネントが統計的に、幾何学的に非常に意味のあることをしていることを実際に説明できます。

十分なデータがある場合、最適化が完了している場合、訓練が成功している場合、それらの構造は自然に現れます。構造は設計された通りのことをします。

最後の質問です。多くのMLエンジニアと研究者がこのショーを見ています。これまで話してきたすべてを考えると、どのようにしてあなたの研究についてもっと知ることができ、どのようにしてこの種のアーキテクチャを構築し始めることができますか。

私たちのアクターのほとんどはGitHubでオープンソース化されています。CRATE、初期のResNetを含めて、概念的ではないかもしれませんが、あまり実用的ではありません。CRATE、そしてTOSSも、すべてのコードが利用可能です。

ところで、それらはある種の学術的実装です。スケールアップするリソースを持ったことはありません。ほとんどはGPT-2または画像net 21までスケールします。それが私たちが余裕のあることです。

Simply DINOは私たちが最もスケールしたものです。多くのリソースを使い果たし、それより少し高いですが、それでも産業規模とは全く比較になりません。しかし、MetaとGoogleが簡素化されたDINOについて何かをしていると信じています。コードはあります。

もちろん、方法論については、過去2年間に本を書く苦労をした理由の一つです。一連の論文がありますが、人々が全体像を得るために、より体系的な紹介を信じています。

本をまとめました。オープンソース化もしました。すべてのデータ、すべてのコードへのリンクを投稿します。コースも教えています。したがって、すべて、学生に新しいアーキテクチャ、メソッドのほとんどを実践してもらいます。

したがって、それらすべてのコードが公開され、利用可能になります。人々が方法論を学び、理論的な証拠の連鎖を理解し、経験的な証拠の連鎖さえ理解したい場合、良い入り口になるかもしれないと思います。

本はそれを行おうと試みています。私たちはすでに整理を始めています。まだ完了していませんが、第7章ですでにそれを行っています。第7章で理論を真剣に収集し始めています。

画像分類、画像セグメンテーション、事前訓練、さらにはGPT-2タイプのスケール言語モデルなどのすべての実世界のデータとタスクに。

Ma教授、本当に光栄でした。今日はご参加いただき、ありがとうございました。

こちらこそ、ありがとうございました。