
19,337 文字

午後のごあいさつ、皆さん、ようこそ。私はBry Craと申します。AMSの社長です。皆様をこのAMS Josiah Willard Gibbs講演会に歓迎できることを大変嬉しく思います。これらの講演会は、1923年に設立され、数学とその応用のいくつかの側面を一般の人々に示すことを目的としています。これらは、物理学、化学、数学に深い理論的貢献をした数学物理学者、Gibbsにちなんで名付けられています。私たち全員がやっていることですね。ええ、Gibbsは統計力学の創設者の1人です。彼はその用語とベクトル解析を生み出しました。彼の影響は非常に深遠で、2005年には米国切手にまで登場しました。これまでのGibbs講演の講師のリストは、G.H.Hardy、John von Neumann、Albert Einsteinなど、幅広い数学界の著名人の名簿です。ですから、今日、このリストにさらに1人加え、Josiah Gibbs講演会にYan Lun氏を紹介できることを嬉しく思います。Janは、ニューヨークのコラント数理科学研究所で、コンピューターサイエンス、データサイエンス、神経科学、電気・コンピューター工学のJacob T. Schwarz教授を務めており、分野の点ではGibbsと競り合っています。また、MetaのチーフAI科学者でもあります。彼は、特にコンピュータービジョンと深層学習において、多くの分野で知られています。そして、皆さんが常に使っているかもしれないものの開発者の一人でもあります。DJVU形式は、おそらく皆さんのコンピューターのどこかにあります。彼は数々の賞を受賞しており、すべてを列挙する時間はありませんので、ここでは省略しますが、2018年にチューリング賞を受賞したことを付け加えておきます。また、米国科学アカデミー、米国工学アカデミー、フランス科学アカデミーなど、多くのアカデミーの会員でもあります。それでは、Yan氏をご紹介いたします。[拍手]
さて、BryerがGibbs講演のすべての著名な講演者を列挙してくれたので、私は圧倒されています。そして、私はそれらの名前の役割を果たせるとは思いません。しかし、AIについてお話ししましょう。皆さんがAI、特に人間レベルのAIへの障害について話していることは明らかです。AIの研究開発コミュニティの多くの人は、今後10年程度で、人間の知能に最終的に到達する可能性のある設計図を持つ機械を構築できる可能性があると考えています。それがどれくらいの時間がかかるかについての推定は、非常に大きく異なります。最も楽観的な人々は、すでにそこに到達していると主張しています。多額の資金を集めている人々は、来年には実現すると主張していますが、私はそうは思いません。しかし、私は良いチャンスがあると信じています。ですから、私はAI研究が進むべき方向、そして障害についてお話しします。そのいくつかは、本当に数学的な障害です。
では、なぜ人間レベルの知能を持つAIシステムを構築する必要があるのでしょうか。それは、近い将来、私たち全員がAIアシスタントを携帯し、スマートグラスなどのさまざまなスマートデバイスを通じて、音声やその他の方法で対話できるようになるからです。現在、ディスプレイのないスマートグラスも存在しますが、まもなくディスプレイが搭載されるでしょう。現在でも存在しますが、商業化するには高価すぎます。これは、Metaの同僚が開発したOrionのデモです。ですから、未来は到来しており、私たちの全員が基本的にAIアシスタントを常に携帯するようになるというビジョンです。まるで、私たち全員が、優秀なCEOや政治家のように、スマートなバーチャルスタッフを従えて走り回っているようなものです。それが可能性のある絵です。しかし、問題は、まだその方法がわかっていないということです。そして、実際、現在の機械学習の状態は、人間や動物と比較して学習能力が劣っています。機械が特定のパフォーマンスレベルに達するまでに必要なサンプル数または試行回数に関して、非常に非効率的です。
過去、機械学習の支配的なパラダイムは教師あり学習でした。教師あり学習とは、システムに入力を与え、出力を生成するのを待ち、次に望む出力を伝え、望む出力とシステムが出力したものが異なる場合、システムは内部パラメーターを調整して、出力を望む出力に近づけます。入力出力関数を学習しているだけです。強化学習では、システムに正しい答えを伝えるのではなく、生成された答えが良いか悪いかだけを伝えます。この主な問題は、システムが基本的に複数の出力を生成し、「これは良いか」、「これは悪いか」、「これはより良いか」と尋ねる必要があることです。そして、それはさらに非効率的です。基本的にゲーム、またはコンピューターで非常に迅速にシミュレートできるものに対してのみ機能します。
したがって、ここ数年でAIに革命をもたらしたものの1つは、自己教師あり学習と呼ばれています。これは本当に素晴らしい働きをし、AIに革命をもたらしましたが、まだ非常に限られています。自己教師あり学習は、大規模言語モデルやチャットボットなどの基礎となっています。そして、すぐにその仕組みを説明します。しかし、実際、動物や人間は新しいタスクを非常に迅速に学習でき、世界の仕組みを理解することができます。彼らは推論し、計画を立て、常識を持っています。そして、行動は目的によって推進されています。単にテキストの次の単語を予測しているだけではありません。
では、チャットボットとLLMはどのように機能するのでしょうか。これについては2枚のスライドしかありませんので、それ以上は説明しません。自己回帰型の大規模言語モデルは、シーケンス内の次の単語、または記号のシーケンス内の次の記号を予測するように訓練されています。単語、DNA、音楽、タンパク質など、任意の離散記号にすることができます。記号のシーケンスを取り、それを大きなニューラルネットワークに供給します。ニューラルネットワークのアーキテクチャは、システムが出力にその入力を再現できるようなものです。これはオートエンコーダーと呼ばれています。入力を取得し、出力にその入力を再現するだけで良いとシステムに指示します。しかし、システムのアーキテクチャは、特定の変数を生成するために、システムはそのシーケンスの左側の変数のみを参照でき、予測する必要がある変数を参照することはできません。基本的に、これを行うことで、シーケンス内の次の記号を予測するように訓練しています。しかし、これは大規模シーケンスで並列的に実行されます。供給した入力シーケンスと生成された出力シーケンスの間の何らかの発散を測定し、予測関数内にあるすべてのパラメーターに関して、基本的に勾配ベースの最適化によってその発散尺度を最小化します。予測関数は、数十億または数百億のパラメーターを持つ可能性のある巨大なニューラルネットワークです。これは本当に高次元です。そのシステムを訓練したら、シーケンスを取得して実行すると、システムは次の記号を予測します。
では、ここで記号を参照するウィンドウが3つあるとしましょう。実際にはLLMでは数十万になる可能性がありますが、3つとしましょう。そのシステムに3つの単語を入力すると、次の単語が生成されます。もちろん、次の単語を正確に予測することはできません。生成されるのは、辞書内のすべての可能な単語に関する確率分布です。通常、LLMでは、単語を生成するように訓練するのではなく、サブワード単位のようなトークンを生成するように訓練します。典型的な可能なトークンの数は、約10万です。したがって、システムを使用する際には、プロンプトと呼ばれる単語のシーケンスを入力し、システムに次の単語を予測させ、それを入力にシフトします。これで、システムに次の単語を尋ねることができます。生成し、それを入力にシフトして、3番目の単語を生成し、それを入力にシフトします。それが基本的に自己回帰型の予測です。信号処理や統計学では非常に古い概念ですが、驚くほど効果があります。それらのニューラルネットワークを非常に大きくし、数十兆のトークンを持つデータセット、つまり数十兆のトークンを持つシーケンスで非常に大きな入力ウィンドウで訓練すると、驚くほど効果があります。これらのシステムは、言語や訓練している記号のシーケンスに関する多くの基礎的な構造を発見しているように見えますが、自己回帰型予測には大きな問題があります。この部屋にいる数学者なら、私よりもずっとうまく証明を書けるでしょうが、自己回帰型予測はある種の発散プロセスです。これらの記号は離散的であると想像すると、記号を生成するたびに、10万個の選択肢がある可能性があります。すべての可能なトークンのシーケンスを、分岐係数が10万の巨大なツリーと考えることができます。この巨大なツリーの中には、正しいとみなせるすべての回答に対応する小さなサブツリーがあります。プロンプトが質問であれば、答えは生成されたテキストに含まれています。そのサブツリーは、可能な記号シーケンスの巨大なツリーの小さなサブセットです。問題は、もちろん間違っていますが、記号を生成するたびに何らかの誤差確率があり、それらの誤差が独立していると仮定し、その確率がEであると仮定すると、n個の記号のシーケンスが正しい確率は(1-E)^nになります。Eが非常に小さくても、これは指数関数的に発散しなければならず、自己回帰型予測のコンテキストでは修正できません。私の予測では、自己回帰型LLMは数年後には消滅します。正気な人は誰もそれらを使用しません。だからこそ、LLMの解明などについて耳にしたことがあると思います。時にはナンセンスを生成することもありますが、それは本質的にこの自己回帰型予測によるものです。問題は、何を代わりに使用すべきかということです。そして、他のタイプの制限はありますか。
ですから、AIシステムを構築する方法に関する新しい概念が本当に欠けていると思います。より大きなデータセットで大規模言語モデルを訓練するだけでは、人間レベルのAIには決して到達しません。それは起こりません。その理由をすぐに説明しますが、気にしないでください。数学者や科学者を再現しようとするのではなく、猫ができることさえ再現できません。猫は物理的世界についての驚くべき理解を持っています。私はいつも猫と言いますが、ネズミでも構いません。そして、物理的世界を理解する点で、猫と同じくらいうまく機能するAIシステムを作成する方法がわかりません。イエネコは非常に複雑な行動を計画することができます。彼らは世界の因果モデルを持っています。彼らは自分の行動の結果がどうなるかを知っています。そして、人間は素晴らしいです。10歳の子供は、実際にはタスクを学習することなく、夕食のテーブルを片付け、食器洗い機に食器を入れることができます。10歳の子供にそうするように頼むと、初めてでも行います。ゼロショット学習と呼ばれます。なぜなら、10歳の子供は世界の良いメンタルモデルを持っており、物体を操作したときの挙動や、どのように挙動すべきかをある程度知っているからです。17歳の子供は20時間の練習で車を運転できるようになりますが、自動運転企業は数十万件の運転データを持っていますが、少なくともレベル5の自動運転車は、不正を働かない限り、まだ存在しません。
ですから、AIシステムは司法試験に合格し、数学の問題を解き、定理を証明することができますが、私のレベル5の自動運転車はどこにありますか。私の家庭用ロボットはどこにありますか。私たちは、現実世界、つまり物理的世界に対処できるシステムをまだ構築できません。物理的世界は言語よりもはるかに複雑であることが判明しました。それはマラビーのパラドックスと呼ばれています。人間にとって複雑なタスク、例えば積分の計算、微分方程式の解法、チェスや囲碁、都市の集合体を通る経路の計画などは、人間にとって難しいタスクです。コンピューターはこれらにおいて私たちよりもはるかに優れています。チェスや囲碁では私たちよりもはるかに優れているので、本当に人類は役に立たないのです。そして、それが意味するのは、人々が人間の知能を一般的な知能と呼ぶとき、それは完全なるナンセンスです。私たちはまったく一般的な知能を持っていないのです。非常に専門化しています。
ですから、テキストで訓練するだけでは、人間レベルのAIには到達しません。そして、興味深い計算を行うことができます。典型的な最新のLLMは、約2×10^13トークン(20兆)で訓練されており、各トークンは約3バイトです。つまり、6×10^13バイトになります。これを10^14バイトに丸めましょう。私たちがこれを読み通すには数万年の時間がかかります。それは基本的に、インターネット上で公開されているすべてのテキスト全体を構成しています。それは信じられないほどの量の訓練データのように見えますが、4歳の子供を考えてみましょう。4歳の子供は合計16,000時間起きており、これは30分のYouTubeのアップロードに相当します。それほど多くのデータではありません。私たちは200万本の視神経線維を持っています。各眼につき100万本が視覚皮質に繋がっています。各視神経線維は、おおよそ1バイト/秒の情報を運びます。少し少ないかもしれませんが、どうでも良いことです。計算を行うと、4年間で約10^14バイトになります。私たちが視覚、触覚、聴覚から得る物理的な世界、感覚的な情報には、これまでに人間によって生成されたすべてのテキストよりもはるかに多くの情報があります。ですから、再び、システムが世界を観察することで世界の仕組みを学習できない限り、人間レベルのAIには決して到達しません。テキストよりもはるかに多くの情報があります。心理学者はこれを研究しており、赤ちゃんは最初の数か月で主に観察によって現実世界についてのさまざまなことを学習します。なぜなら、赤ちゃんは最初の3〜4か月は、自分の手足を超えて世界で行動することはできません。そして、彼らは主に観察によって、世界についての膨大な量の背景知識を学習します。そして、それは、AIシステムが動物レベルまたは人間レベルの知能に到達するために絶対に再現しなければならない、自己教師あり学習の一種です。赤ちゃんは、物体の恒常性、つまりある物体が別の物体の後ろに隠れていても存在し続けるという概念、安定性、名前を知らない自然な物体のカテゴリ、そして直感的な物理学、重力、慣性、運動量保存などの概念を理解しています。赤ちゃんはこのようなことを9か月頃には学習します。6か月の子に、下左の小さなシナリオのように、空中で浮いているように見える物体のシナリオを示すと、6か月の子は特に驚かないでしょうが、10か月の子は、この女の子のように目を大きく見開いて本当に驚くでしょう。なぜなら、その頃には、支えられていない物体が落下するはずだと学習しているからです。そして、それは観察と、その年齢での多少の相互作用によって起こったことです。
人間レベルのAIに到達するには、これをAMI(MetaではAGIとは呼びません。なぜなら、人間の知能は一般的ではないからです。AMIはフランス語で「友人」を意味します)と呼んでいますが、観測や感覚入力から世界のモデル、メンタルモデルを学習するシステムが必要です。直感的な物理学や常識などを学習できるシステム、永続的なメモリを持つシステム、複雑な行動シーケンスを計画できるシステム、推論できるシステム、そして微調整ではなく、設計によって制御可能で安全なシステムが必要です。このようなシステムを構築できる方法は、これらのシステムによって実行される推論の種類を完全に変更することだけです。現在のLLMやさまざまなタイプのニューラルネットワークの種類の推論は、入力を入れ、ニューラルネットワークの固定数の層を通過させ、出力を生成することです。LLMは各トークンに対してこれを実行します。各トークンを生成するために費やされる計算量は固定されています。LLMに何かについてより多くの時間をかけるようにさせるコツは、より多くのトークンを生成するようにだますことです。それは思考の連鎖と呼ばれています。そして、これはここ数年のAIにおける大きな進歩として称賛されています。妥当なサイズのニューラルネットワークで計算できる関数タイプは、非常に限定的です。なぜなら、解決したいほとんどのタスクは多くの計算ステップを必要とし、いくつかのステップに削減することはできないからです。多くの計算タスクは本質的に逐次的なものであり、並列的ではありません。ですから、単純な質問に答えるよりも複雑な関数について考えるために、より多くの時間を費やす必要があるかもしれません。推論を実行するより良い方法は、最適化による推論です。基本的に、観測を行い、いくつかのニューラルネットワーク層を通過させ、次にスカラー出力を生成するコスト関数(これもニューラルネットワークです)を持ちます。測定するのは、入力と仮説された出力の間の適合性または非適合性の程度です。したがって、推論問題は最適化の問題になり、目的関数を最小化する出力を検索します。これを目的駆動型AIと呼んでいますが、これはまったく新しい概念ではありません。ほとんどの確率的推論システムは最適化を使用して推論を実行します。最適制御に取り組んでいる人が何人かいます。たとえば、モデル予測制御は最適化によって出力を生成します。後でこれに戻ります。ですから、このアイデアは本当に新しいものではありませんが、私たちはそれを忘れていました。そして、私は私たちがそれに立ち返る必要があると思います。私たちは、最適化によって推論を実行できるようなアーキテクチャを持つシステムを構築する必要があります。出力は出力ではなく、最適化する潜在変数です。これは、従来のAIでは非常に古典的です。ソリューションの空間の中からソリューションを検索するというアイデアは非常に伝統的ですが、単に忘れられています。このようにして解決できるタスクの種類は、心理学でシステム2と呼ばれるものとほぼ等価です。人間の行動には、行動を生成する2つのタイプがあります。1つはシステム1と呼ばれ、これは無意識のうちに実行するタスクの種類です。考えることなく行動することはできません。そして、システム2は、タスクに意識的な心をすべて費やす必要があり、それから行動のシーケンスを計画するときです。たとえば、何かを構築していて、そのタスクに慣れていない場合は、システム2を使用します。定理を証明するときは、間違いなくシステム2を使用します。この最適化による推論のプロセスを正式に表現する最良の方法は何か。それは基本的に、エネルギーベースモデルのアイデアに対応しています。エネルギーベースモデルは、入力Xと候補出力Yの間の非適合性の程度を測定するスカラー数を計算し、Yに関してこのエネルギーを最小化することによって推論を実行するモデルです。このエネルギー関数をF(Y)と呼びます。Eのようにエネルギーとは呼びません。なぜなら、それはF、つまり自由エネルギーのようなものだからです。ここでGibbsのことに近づいています。それが推論プロセスです。このタイプのスカラーエネルギー関数によって2つの変数の間の依存関係をモデル化することは、XからYへの関数を学習するよりもはるかに一般的です。その理由は、解決しようとしている問題が英語からフランス語への翻訳である場合、特定の英語の文をフランス語に翻訳する方法はたくさんあり、すべてかなり良い方法です。ですから、それらはすべて低いエネルギーを持っているはずです。それらの2つのものが翻訳タスクに対して互換性があることを示しています。しかし、正しい単一の出力がありません。基本的に、私はここで陰関数について話しています。変数間の依存関係を明示的な関数ではなく、陰関数で表します。これは非常に単純な概念ですが、ある種のコンピューター科学者にとっては驚くほど理解するのが難しいです。
では、これらのエネルギーベースモデルを、行動を計画できる可能性のあるインテリジェントシステムのコンテキストでどのように使用できるのでしょうか。これは、このエネルギー関数の内部構造のブロック図です。この図では、丸い形状は観測された変数または潜在変数を表し、一方の端が平らで他方の端が丸いモジュールは、単一の出力を生成する決定論的関数、つまりニューラルネットワークを表し、長方形は目的関数、つまりスカラー出力関数(つまり、入力を受け入れると低い値を生成し、受け入れないと高い値を生成する関数)を表します。ここでは、システムが実行したいタスクをどの程度達成しているかを測定する目的と、システムが愚かなこと、危険なこと、自己破壊的なこと、または周りの人間にとって危険なことをするのを防ぐガードレールのような目的の2つのタイプの目的を持つことができます。世界の状態を観測し、現在の世界の状態を表す表現を生成する知覚モジュールを通過させます。もちろん、世界の状態を完全に知覚しているわけではありません。ですから、メモリの内容と組み合わせる必要があるかもしれません。メモリには、世界の残りの状態に関するあなたの考えが含まれています。これら2つのものを組み合わせ、それらをワールドモデルに供給します。ワールドモデルがすべきことは、特定の行動シーケンスを実行した結果を予測することです。この予測された表現を目的関数に供給し、すべてのモジュールが微分可能であるため、すべてニューラルネットワークです。行動シーケンスを通じて勾配を逆伝播し、勾配降下などによって、目的関数を最小化する行動シーケンスを見つけることができます。それが計画です。これは、システムが最適化によって推論を実行できるプロセスですが、行動の結果を予測できるような世界のメンタルモデルが必要です。これは最適制御では非常に古典的な考え方であり、制御したいシステムまたは世界の何らかのモデルがあり、行動のシーケンスを入力し、予測できるということです。ロケットを宇宙ステーションに打ち上げたいとしましょう。ロケットの動的モデルがあり、制御シーケンスを仮定し、ロケットが最終的に到達する場所を予測できます。そして、ロケットが宇宙ステーションに近いか遠いかを測定するコスト関数があり、最適化によって、ロケットを宇宙ステーションに到達させる制御シーケンスを見つけることができます。非常に古典的です。モデル予測制御と呼ばれ、最適制御、ロボット工学のあらゆる場所で利用されており、60年代からロケットの軌道計画にも利用されています。
もちろん、世界は完全に決定論的ではありません。ですから、あなたのワールドモデルは潜在変数を必要とする可能性があります。潜在変数とは、その値がわからない変数であり、誰もその値を伝えてくれません。さまざまな値を取ることができ、複数の予測を生成する可能性があります。潜在変数は、世界についてわからないことすべて、または予測するために役立つものを表す可能性があります。それは良いことですが、解決済みの問題ではありません。実際に行いたいことは、階層的な計画です。私たち全員がこれを行い、動物もこれを行います。今日のAIシステムでは、階層的な計画を実行する方法を学習することはできません。すべてを手作業で構築することによって、階層的な計画を実行させることができますが、実際に階層的な計画を実行する方法を知るシステムはありません。たとえば、NYUのオフィスに座っていて、パリに行くことに決めたとしましょう。NYUのオフィスからパリまでの私の旅行全体を、ミリ秒単位の筋肉の制御で計画することはできません。それは、まずシーケンスが長すぎるからです。第二に、情報を持っていないからです。交通信号が赤か緑かについての完全な知識を持っていません。ですから、停止するか横断する必要があるかどうかを計画する必要があります。しかし、高いレベルでは、パリに行きたい場合は空港に行き、飛行機に乗る必要があるという高いレベルのメンタルモデルを持つことができます。さて、空港に行くというサブゴールがあります。どのように空港に行けば良いでしょうか。私はニューヨークにいます。だから、通りを降りてタクシーを拾うことができます。どのように通りを降りれば良いでしょうか。私は机に座っているので、立ち上がってエレベーターに行き、ボタンを押して、建物の外に出る必要があります。どのようにエレベーターに行けば良いでしょうか。椅子から立ち上がり、バッグを拾い上げ、ドアを開け、道を歩いてエレベーターに行き、途中で障害物を避ける必要があります。そして、階層を降りると、すべての情報があるため、ミリ秒単位の筋肉の制御を計画できるレベルに到達します。立ち上がってドアを開けることは、事前に計画できます。ですから、世界のモデル、階層的な世界のモデル、世界の抽象的な表現を学習するという問題は、私たちが長距離または短距離で予測を行うことを可能にします。そのため、計画を行うことができます。これを実行する方法、具体的にどのように機能させるかについてのアイデアを持っている人はいません。
これらのピースをすべて組み合わせて、AMIの認知アーキテクチャになります。ワールドモデル、さまざまな目的関数、コストを最小限にする行動を最適化するアクタ、短期記憶(脳では海馬)、知覚モジュール(脳の後部全体)、コンフィグレータから構成されます。これについては2年半前に長い論文を書き、オープンレビューに掲載しました。アーカイブには掲載されていませんが、この方向に進歩したい場合、AI研究が進むべき方向だと思います。これは、最近のLLMに関する興奮が起こる前でした。
既に、えー、存在していましたが、私はそれらが人間を超えるAIへの答えだと決して信じていませんでした。では、どのようにしてシステムに、ビデオのような感覚入力から世界のメンタルモデルを学習させるのでしょうか?
オート回帰予測というアイデア、以前説明したLLMが使用していたものと同様のものを、生成アーキテクチャを訓練するために使用できますか?ビデオで何が起こるかを予測する、例えばビデオの次の数フレームを予測する、といったことです。答えはノーです。うまくいきません。20年間この研究に取り組んできましたが、完全に失敗です。うまくいきません。離散記号を予測するためには機能します。なぜなら、予測における不確実性の処理が単純だからです。確率のベクトル、0から1の間の数字の束を生成し、それらの合計が1になります。それが不確実性を処理する方法です。問題は、高次元の連続空間でビデオフレームを予測する方法です。確率密度関数を意味のある方法で表現する方法が分かりません。
エネルギー関数として表現できます。物理学者はこれを行ってきましたが、ほとんどの場合、ほとんどのエネルギー関数形式では扱いにくいです。eのマイナスエネルギー関数を取り、それを正規化すると、正規化定数は扱いにくいです。したがって、生成モデルを使用してシステムを訓練してビデオを予測するというアイデアは機能しません。現在多くの人が取り組んでいますが、彼らが興味を持っているのは、ワールドモデルを学習することではなく、実際にビデオを生成することです。可愛いビデオを生成したいのであれば、もちろんそうすべきです。しかし、システムに世界の基礎となる物理を本当に理解させたいのであれば、それは敗北宣言です。
理由は、生成モデルが行うように、システムに単一の予測を行わせるように訓練すると、本質的にぼやけた予測しか得られないからです。システムは、起こりうるすべての未来の平均しか予測できないためです。そこで、私の解決策はJEPAと呼ばれるもので、Joint Embedding Predictive Architectureの略です。それがどのようなものかを示します。生成アーキテクチャとの違いがすぐに分かるわけではないので、より明確にしましょう。左側には生成アーキテクチャがあります。トレーニング中に最小化している関数は基本的に予測誤差です。Yを予測し、Xを観測し、Yを観測し、トレーニング中にYを予測するようにシステムを訓練します。これは教師あり学習に似ていますが、YはシーケンスであればXの一部です。自己教師あり学習です。離散的なYには機能しますが、連続的な高次元のYには機能しません。右側には、Joint Embedding Predictive Architectureがあります。ここで、XとYの両方がエンコーダを通過します。エンコーダが行うのは、XとYの両方の抽象的な表現を計算することです。エンコーダは異なる場合があります。そして、その表現空間で予測を行います。これは多くの点で解決がはるかに簡単な問題です。なぜなら、世界には完全に予測できない多くの詳細があるからです。JEPAアーキテクチャは、基本的に世界の抽象的な表現を見つけ出し、予測できないものはすべてその表現から排除します。エンコーダ関数を、ある種の不変性を持つ関数と考えてください。予測できないものに相当する入力Yの変動性は、表現空間で排除されます。
例えば、私のビデオがこの部屋のビデオであり、カメラを左側に向け、ゆっくりと回転させてここでカメラを止め、システムにビデオの次に何が起こるかを予測するように求めると、人が座席に座っていることは確かに予測できますが、誰もがどこに座っているか、誰もがどのように見えるか、地面の質感、または壁の上のものを予測することはできません。予測できないことがたくさんあります。十分な情報がないため、情報が不足しているものを予測しようとして膨大なリソースを浪費する代わりに、それらの詳細が排除された表現を学習することで、予測プロセスから排除します。これには技術的な困難があります。
結論として、私が主張していることが正しいのであれば、JEPAアーキテクチャの方が生成アーキテクチャよりもはるかに優れています。生成アーキテクチャは完全に放棄すべきです。誰もがGenAIについて話していますが、私は人々に生成AIを放棄するように言っています。それは私を非常に人気者にしてくれます。特に、GenAIシステムの構築に多大な努力を費やしている同僚の間では。実際、彼らの組織全体がGenAIと呼ばれています。潜在変数など、さまざまな種類のものがありますが、それらの詳細には触れません。しかし、それらをどのように訓練するかという問題があります。
基本的に、このようなシステムを訓練して依存関係を学習させることは、トレーニングサンプルでエネルギー関数が低い値を取るようにエネルギー関数を学習させることです。データがある点XYでは、エネルギーは低くなければなりません。しかし、他の場所ではエネルギーが高くなければなりません。XYは、ある種の多様体上に存在すると想像してください。エネルギー関数は、多様体上では0になり、多様体から離れるにつれて徐々に増加するようにしたいです。問題は、このようなシステムを訓練する方法を2つしか知らないことです。エネルギー関数が、多くの異なる形状を取ることができるようにパラメータ化されている場合、崩壊するという問題が発生する可能性があります。トレーニングサンプルの周りのエネルギーが低いことを確認し、他に何も行わない場合、完全に平坦なエネルギー関数になる可能性があります。これは崩壊と呼ばれます。崩壊を防ぐには2つの方法があります。1つは、コントラスティブサンプル(点滅する緑色の点)を生成し、それらのエネルギーを上げる方法です。観測されたサンプルのエネルギーを押し下げ、コントラスティブサンプルのエネルギーを押し上げる損失関数を考え出します。これらはコントラスティブな方法であり、高次元ではうまく機能しません。生成する必要があるコントラスティブサンプルの数が空間の次元に指数関数的に増加するためです。
もう1つの方法は、正則化された方法と呼ぶことができます。これらの方法は、本質的に、最小化すると低エネルギーを取ることができる空間の体積を最小化するような正則化関数を見つけることに基づいています。どのように行うかは少し神秘的に聞こえますが、実際には、応用数学の分野、例えばスパースコーディングでは、これを行っているものがたくさんあります。スパースコーディングでは、まさにこれを行います。潜在変数を指定すると、低エネルギー再構成エネルギーを取ることができる空間の体積を最小化します。これらの2つの方法、コントラスティブな方法と正則化された方法があります。崩壊するアーキテクチャと崩壊しないアーキテクチャにはさまざまな種類があります。これはギブス講義なので、ギブスに言及しなければなりません。エネルギー関数を確率分布に変換する方法です。ギブス・ボルツマン分布を使用します。指数関数マイナスエネルギーを取り、逆温度のような定数で掛け、それを領域全体でのこの積分で正規化します。すると、適切に正規化された確率分布、yがxを与えられたときの条件付き確率分布が得られます。確率的モデリングを本当に行うのであれば、エネルギーベースモデルを訓練する方法は、トレーニングセット上のその条件付き確率の負の対数を最小化することです。問題は、正規化項である分配関数が一般的に完全に扱いにくいことです。変分近似やモンテカルロ近似などの近似を使用する必要があります。機械学習コミュニティの多くは、物理学や統計学などからインスピレーションを得て、このことに多くの努力を費やしています。
図表を作成しましたが、ここで読むことは期待していません。これは、さまざまな古典的な方法であり、正則化されているか、コントラスティブであるかを示しています。コントラスティブな方法と正則化された方法は、自己教師ありの方法で画像の表現を学習するビジョンシステムを事前訓練するために非常に成功してきました。このアイデアは、1993年の私の論文、そして2000年代半ばに当時私の学生と一緒に書いた論文など、90年代初頭にまで遡ります。Googleからの最近の論文もあり、多くの人がコントラスティブな方法に取り組んできました。OpenAIがテキストの監視を使用して視覚的特徴を学習するために作成したCLIPというモデルを聞いたことがあるかもしれません。これもコントラスティブな方法ですが、次元に対してはあまりスケールしません。そのため、正則化された方法を好みます。そして、どのようにしてこれを機能させるかという問題があります。
これを機能させる1つの方法は、システムの崩壊を防ぐことです。崩壊によって何が生成されるのでしょうか?崩壊は予測誤差d(sy tilde)を最小化することになり、システムは喜んでxとyを完全に無視し、定数sxとxyを生成します。そして、予測問題は些細なものであり、予測誤差は常に0になります。しかし、あなたは何もしない崩壊モデルを持っています。これを防ぐ1つの方法、つまり正則化項は、エンコーダまたは2つのエンコーダからの情報量を最大化しようとすることです。情報量I(SX)とI(SY)の推定を行い、前にマイナス記号を付け、それを最小化します。これは課題です。なぜなら、情報量を最大化する方法を知っているが、最小化する方法を知っているからです。なぜなら、情報量の上限は持っているが、下限は持っていないからです。そこで、情報量についてのある種の仮定を行い、それが実際には情報量の上限であることを知って、それを押し上げ、指を交差させて、実際の情報量が実際に従うようにします。そして、うまくいきます。うまく説明はできませんが、人々がやった他のものよりも、より正当化されています。情報量の下限を考案できればいいのですが、正直なところ、それは不可能だと思います。なぜなら、複雑な依存関係がある可能性があり、その性質が分からないからです。そして、うまくいきません。情報量に微分可能な目的関数をどのように入れるかという基本的なアイデアは、エンコーダから出てくる表現が空間を満たすということです。このアイデアは、さまざまなコンテキストでほぼ同時に複数の人々によって提案されています。
基本的に2つの方法があります。コントラスティブな方法は、実際にはサンプルコントラスティブと呼ばれるべきです。多くのサンプルのエンコーダから出てくるベクトルの行列を取ります。コントラスティブな方法は、エンコーダから出てくるベクトルすべてを異ならせようとします。それらを正規化すると、それらは球の表面上に存在すると想像してください。基本的に、それらのベクトルを互いに押し離して、空間を満たします。あまりうまくいきません。これを行うには、多くの行が必要です。行数が少ない場合、直交方向を指すランダムベクトルを持つことは非常に簡単です。これを行うには多くの行が必要です。その逆は次元コントラスティブな方法です。その行列の列を取り、互いに異なるようにします。おそらく互いに直交するようにします。これは、次元に対して行数が少ない場合にのみ機能します。そうでなければ簡単すぎます。直交する必要がある少数の高次元ベクトルがあります。ランダムに取ると、ほぼ直交します。これらの2つのものにはある種の双対性があり、実際、これらの2つのものが互いに双対であるという論文があります。しかし、私は2番目のものを好みます。なぜなら、高次元の表現空間を扱うことができるからです。最初のものは本当にできません。そこで、私たちはVicregというものを考案しました。これはVariance Invariance Covariance Regularizationの略です。基本的なアイデアは、sx表現を取り、バッチのサンプルに対して各u変数の分散がヒンジ損失を使用して少なくとも1になることを主張するコスト関数を持つことです。そして、共分散行列の非対角項、つまりこの行列の転置を自身で掛けたもの、共分散行列の非対角項がゼロになるべく近くなることを主張する2番目のコストです。基本的に、個々の変数をデコリレートし、その表現行列の列を直交させようとしています。バークレーの他の研究者やNYUの私の同僚は、MMCRという方法で同様のアイデアを持っていました。そして、ある条件下では、この基準を非線形関数を通過した後に適用すると、実際に行っていることは、変数をペアワイズに独立にすることであり、単に相関しないだけではないということです。これは興味深いですが、まだ少し曖昧です。熟練した数学者にとって、多くの課題があると思います。
潜在変数については、時間がないのでスキップします。これもギブスに関係しているので、最後のスライドだけを示します。潜在変数がある場合に、変数の情報量を最小化したい場合、それをノイズにするのが良い方法です。この変数に対して単一の値を推論する代わりに、この変数に対する分布を推論します。その分布のエントロピーを最大化し、これを行う最良の方法は、変分自由エネルギーと呼ばれるものを書き出して最小化することです。ギブスもそれについて何か言及していました。時間がないので、これもスキップします。実際、このVicregテクニックを使用して、PDを解くのではなく、例えば、解のウィンドウを見るだけで特定のPDの係数を見つけることができます。基本的に、PDの空間時間解を取り、2つのウィンドウを取り、このVCR基準を使用して、2つの表現がウィンドウのペアに関係なく同一になるように強制することで、これらの2つのウィンドウの表現を生成するようにシステムを訓練します。システムが異なるウィンドウの解から共通して抽出できる唯一のものは、基本的にPDの表現、微分方程式そのものの係数です。時間がないので説明しませんが、さまざまな状況に適用すると、実際に機能します。詳細については、ここに座っているRand Bisrioに話を聞くことができます。彼がその論文の主要な著者の一人です。彼はいくつかの詳細を教えてくれるでしょう。重要な点は、このVicregを使用してPDの係数を学習すると、教師ありモードで訓練するよりも優れた予測が得られるということです。これは興味深いことです。Vicregの代替方法として、蒸留ベースの方法があります。これらはうまく機能するため使用していますが、VCR情報最大化技術よりも理論的に正当化されていないため、好きではありません。どのように機能するかの詳細には触れませんが、実際には勾配降下法によって最小化されていない関数を最小化しています。これはめちゃくちゃです。これに関するいくつかの理論的な論文があります。ここでは下に1つリストしましたが、線形エンコーダと予測子の場合にのみであり、本当に満足のいく方法ではありませんが、非常にうまく機能し、多くの人が自己教師ありの方法で画像の特徴を学習するために使用しています。
JEPAというテクニックがあり、詳細には説明する時間はありませんが、その後続のタスク(教師ありですが、ラベル付きサンプルをあまり必要としません)に使用できる画像の表現を学習する上で非常に優れた仕事をしています。そして、ビデオJEPAがあります。ビデオを取り、例えば常にその大きな部分をマスクします。そして、巨大なニューラルネット、JEPAアーキテクチャを訓練して、部分的にマスクされたものの表現から完全なビデオの内部表現を予測します。最終的に得られるのは、ビデオを表現する上で非常に優れた仕事をこなすシステムであり、その表現を、ビデオで起こっている行動を分類したり、そのようなことを行うシステムへの入力として使用できます。結果の表であなたを退屈させるつもりはありませんが、うまく機能します。このテクニックについて非常に興味深いのは、私たちがちょうど完成させ、提出しようとしている論文です。これらのシステムをテストし、予測誤差を測定すると、オブジェクトが消えたり、形が自然発生的に変化したりするような物理的に不可能なビデオを見せると、それは起こりえないと言います。私の予測誤差は急上昇します。これらのシステムは、非常に基本的な常識の形態を学習しています。以前話した赤ちゃんのようなものです。これは驚くべき結果です。なぜなら、システムは予測するように訓練されているわけではないからです。単に欠けている部分を埋めるためです。自己教師ありのエンコーダと予測子を使用して計画を行ってきました。ワールドモデルのアイデアについて話しましょう。世界の状態の写真があり、システムがロボットアームを制御できるとします。システムが、世界の最終状態が特定のターゲットのように見えるように行動することを望んでいます。テーブルの上に青色のチップがいくつかあり、最終的に青色のチップがすべてこの中央にある小さな正方形の中に入るようにロボットアームを動かしたいとしましょう。そこで、エンコーダ(事前学習済みエンコーダであるdynov2を使用)を訓練し、特定のアクションを取ったときに表現レベルで何が起こるかを予測するワールドモデルを訓練します。そのボードで青色のチップにどのような影響があるかを予測できますか?ランダムなデータ、ランダムなアクション、ランダムな青色のチップから訓練できるワールドモデルがあれば、特定の結果を得るためのアクションのシーケンスを計画するために使用できますか?鎖にカットします。さまざまな問題に適用してきましたが、多くのことを計画する上でかなりうまく機能します。ここでは、青色のチップの結果を示します。ここではビデオが表示されます。ロボットアームのアクションは見えませんが、実際にはアクションを実行しています。上には世界で何が起こっているか、下にはシステムが内部ワールドモデルで何が起こると予測しているかが表示されます。システムの内部的な考え方の画像を生成するために、別個のデコーダを訓練しました。もう一度再生してみましょう。ここでは下部に、ロボットが物事を押し回すと、構成が進行している様子が表示されます。そして、最終状態は正確には正方形ではありませんが、かなり近いです。これは、チップが互いに相互作用している非常に複雑な動的システムです。手作業で作成したモデルでは、計画を実行するためにこれを十分に正確にモデル化することはできません。現実世界での計画とナビゲーションについても同様の作業を行っていますが、時間がなくなっているのでスキップします。私の推奨事項は、生成モデルをJoint Embedding Architectureに、確率モデルをエネルギーベースモデルに、コントラスティブな方法を正則化された方法に、強化学習をモデル予測制御と計画に置き換えることです。
10年間言い続けていますが、もし人間レベルのAIに興味があれば、LLMに取り組んではいけません。もしあなたがAIの博士課程の学生であれば、絶対にLLMに取り組んではいけません。なぜなら、あなたは数万ものGPUを自由に使える巨大なチームと競争することになり、何も貢献できないからです。解決すべき問題、大規模なランモデル、マルチモーダル入力でどのように訓練するか、計画アルゴリズムです。最適制御、最適化を実行するさまざまな方法について、この部屋には多くの専門知識があると思います。計画に勾配ベースの方法を使用すると、あらゆる種類の局所的最小値の問題、非微分性などの問題が発生します。したがって、ADMのような方法、潜在変数を持つJEPA、非決定論的環境での計画、潜在変数の正則化、階層的計画などがあります。では、確率的学習から離れると、未知の領域に入り込み、そこで何をするのが適切なのかを特徴付けることは明確ではありません。コストモジュールの学習については話しませんでしたが、これも問題です。不正確なワールドモデルでの計画、ワールドモデルの調整方法です。これらの問題を今後10年または5年以内に解決できれば、真に知的なシステム、計画と推論が可能なシステムを構築する上で良い軌道に乗ることができると思います。これが機能するためには、プラットフォームがオープンソースである必要があると私は考えています。私はオープンソースAIの大きな支持者であり、私は本当にこれを信じています。しかし、もし私たちが成功すれば、AIは人間の知性の大きな増幅器となり、それは良いことしかありません。ありがとうございました。


コメント