本エピソードでは、ディープラーニングの父として知られるヤン・ルカンが登場し、彼の最新のスタートアップであるAdvanced Machine Intelligence(AMI)について語る。12年間在籍したMetaを離れ、世界モデルに焦点を当てた新たな挑戦を開始したルカンは、現在の大規模言語モデル(LLM)の限界と、JEPA(Joint Embedding Predictive Architecture)に基づく新しいアプローチの可能性を詳細に説明する。彼は、真の知能にはピクセルレベルの予測ではなく抽象表現空間での予測が必要であり、言語データだけでは人間レベルのAIには到達できないと主張する。また、物体の永続性や重力といった基本的な物理法則の学習、ゲームAIの進化、そしてAI安全性に関する楽観的な見方まで、幅広いトピックについて語る。ルカンの視点は、AGIの実現には犬レベルの知能を達成することが最も困難であり、そこに到達すれば人間レベルへの道筋は比較的明確になるというものである。

ヤン・ルカンとの対話:世界モデルと知能の未来
こんにちは、Information Bottleneckへようこそ。今回は私にとって少し不思議な感じがしますね。あなたとは5年近く知り合いで、一緒に密接に仕事をしてきましたが、ポッドキャストでインタビューするのは初めてです。普段の会話はもっと「ヤン、うまくいかないんだけど、どうすればいい?」みたいな感じですからね。
さて、視聴者の皆さんはもちろんご存知だと思いますが、改めてご紹介します。ヤン・ルカンはチューリング賞受賞者であり、ディープラーニングのゴッドファーザーの一人、畳み込みニューラルネットワークの発明者、Metaの基礎AI研究ラボの創設者であり、現在もチーフAIサイエンティストを務め、ニューヨーク大学の教授でもあります。ようこそお越しくださいました。光栄です。
はい、そしてあなたの近くにいられることも私にとって光栄です。私はお二人よりもこの業界に身を置いている時間も、研究をしている時間もずっと短いです。それなのに、ラーブと一緒にかなり定期的に論文を発表できていることは名誉なことですし、このポッドキャストをホストし始めることができたのはさらに光栄なことです。本当にあなたと座って話ができることを嬉しく思います。
素晴らしいですね。
そうですね、では新しいスタートアップについておめでとうございます。最近発表されましたよね。Metaで12年間過ごした後、世界モデルに焦点を当てた新しいスタートアップ、Advanced Machine Intelligenceを立ち上げられました。まず最初に、大企業から何もないところから始めることについて、反対側にいるというのはどんな気分ですか?
以前にも会社を共同設立したことがあります。今回ほど深く関わっていたわけではありませんが、仕組みは知っています。今回のユニークな点は、投資家側に、AIが大きなインパクトを持つという十分な期待があり、本質的に多額の資金を投資する準備ができているという新しい現象です。つまり、最初の数年間は本質的に研究に焦点を当てたスタートアップを作ることができるということです。これは以前には不可能でした。
以前、業界で研究を行える唯一の場所は、生き残りをかけて戦っていない大企業、基本的に市場で支配的な地位を持ち、長期的なプロジェクトに資金を提供する意思がある、十分に長期的な視野を持つ企業でした。歴史を振り返ると、私たちが記憶している大きな研究所、例えばベル研究所はAT&Tに属していましたが、これは基本的に米国の通信事業で独占状態にあったからです。IBMは大型コンピュータで本質的に独占状態にあり、優れた研究所を持っていました。Xeroxはコピー機で独占状態にあり、それがPARCに資金を提供することを可能にしました。ただし、そこで行われている研究から利益を得ることはできませんでしたが、それはAppleに利益をもたらしました。
そしてより最近では、Microsoft Research、Google Research、そしてMetaのFAIRがあります。業界は再び変化しています。FAIRは、基本的に非常にオープンであることで、AI研究のエコシステムに大きな影響を与えました。すべてを公開し、すべてをオープンソース化し、PyTorchのようなツールだけでなく、多くの人々が業界で使用してきた研究プロトタイプも提供しました。これにより、Googleのような他の研究所もよりオープンになり、他の研究所も以前よりもはるかに体系的に公開するようになりました。
しかし、過去数年間に起きていることは、これらの研究所の多くが口を閉ざし、より秘密主義的になっているということです。これは確かにそうです。つまり、OpenAIでは数年前からそうでしたし、今ではGoogleもより閉鎖的になっており、おそらくMetaさえもそうです。ですから、私が興味を持っているタイプのことは、Metaの内部よりも外部で行う時期が来たと言えます。
では、明確にしておくと、AMI、Advanced Machine Intelligenceは、研究をオープンに行う予定ですか?
はい、上流の研究についてはそうです。私の意見では、自分が行っていることを公開しない限り、それを本当に研究とは呼べません。なぜなら、そうしないと自分自身に簡単に騙されてしまうからです。
何か思いついて、それがスライスしたパン以来最高のものだと思うことがあります。しかし、実際にそれをコミュニティの他のメンバーに提出しなければ、単に妄想している可能性があります。私はこの現象を多くの企業研究所で何度も見てきました。内部のプロジェクトについて、他の人々が実際にはより良いことをしていることに気づかずに、ある種の内部的な誇大宣伝があるのです。
ですから、科学者に自分の研究を公開するように伝えれば、まず第一に、それは彼らにとって、方法論がより徹底的で結果がより信頼できる、より良い仕事をするインセンティブになります。研究がより信頼できるものになります。彼らにとって良いことは、研究プロジェクトに取り組むとき、製品に与える影響が数ヶ月後、数年後、あるいは数十年後になる可能性があるということです。
そして、人々に「私たちのために働いてください。自分が何に取り組んでいるかを言わないでください。5年後に影響を与える製品があるかもしれません」と言うことはできません。その間、彼らは本当に有用なことをするモチベーションを持つことができません。ですから、もし短期的な影響を持つことに取り組む傾向があることを伝えれば、そうなりますよね。本当にブレークスルーを望むなら、人々に公開させる必要があります。
他の方法ではできません。そして、これは現時点で業界の多くが忘れていることです。
AMIは、どのような製品を作る、あるいは製造する予定ですか?研究だけですか、それ以上ですか?
それ以上です。実際の製品です。しかし、世界モデルや計画などに関連するものです。そして基本的に、将来的にインテリジェントシステムの主要なサプライヤーの一つになるという野心があります。現在採用されているアーキテクチャ、つまりLLMやLLMベースのエージェントシステムは、言語に関してはまあまあ機能します。しかし、エージェントシステムは実際にはあまりうまく機能していません。人間の行動をクローンするために大量のデータを必要とし、それほど信頼性が高くありません。
ですから、私たちが適切な方法だと考えているのは、そして私は10年近く前からこう言っていますが、AIシステムが取る可能性のある行動や一連の行動の結果を予測できる世界モデルを持つことです。そして、システムは最適化によって、つまり、自分が設定したタスクを最適に達成する一連の行動を見つけることによって、行動の列または出力に到達します。それが計画です。
ですから、知能の本質的な部分は、自分の行動の結果を予測し、それを計画に使用できることだと思います。
これが私が長年取り組んできたことであり、これが私たちが取り組んでいることです。ここニューヨーク大学とMetaでの複数のプロジェクトの組み合わせで、私たちは急速な進歩を遂げてきました。そして今、それを実現する時が来たのです。
欠けている部分は何だと思いますか?そして、なぜこんなに時間がかかっていると思いますか?おっしゃったように、長年にわたって話してきたことですが、まだLLMより優れていませんよね?
世界モデルの課題と可能性
LLMとは違うものです。高次元で連続的でノイズの多いモダリティを扱うように設計されています。LLMはこれに完全に不向きです。本当に機能しません。LLMに画像や動画の良い表現を学習させようとすると、実際にはそれほど優れていません。
一般的に、AIシステムのビジョン機能は別々に訓練されています。LLM全体の一部ではありません。ですから、高次元で連続的でノイズの多いデータを扱いたい場合、生成モデルは使えません。データを離散的なシンボルにトークン化する生成モデルは確実に使えません。それは不可能です。
そして、これが単純にあまりうまく機能しないという経験的証拠がたくさんあります。うまく機能するのは、入力に関する多くの詳細、本質的にはノイズを含む予測不可能なすべての詳細を排除する抽象表現空間を学習し、その表現空間で予測を行うことです。これがJEPA、Joint Embedding Predictive Architectureのアイデアです。あなたも同じくらい詳しいと思いますが。
はい、私たちはこれに取り組みました。
ランデルも過去にポッドキャストに出演しましたね。
そうです、ポッドキャストでおそらく詳しく話したと思います。この周辺には多くのアイデアがあります。私の歴史についてお話しさせてください。私は長い間、おそらく20年近く、インテリジェントシステムを構築する適切な方法は、何らかの形の教師なし学習を通じてだと確信してきました。2000年代初頭、半ばに、進歩を遂げるための基礎として教師なし学習に取り組み始めました。それ以前は、これが進むべき道だとそれほど確信していませんでした。
基本的に、これは表現を学習するためにオートエンコーダを訓練するというアイデアでした。入力があり、それをエンコーダに通し、それの表現を見つけ、それからデコードします。そうすることで、表現が入力に関するすべての情報を含むことを保証します。その直感は間違っています。表現が入力に関するすべての情報を含むことを主張するのは悪い考えです。当時はそれを知りませんでした。
ですから、私たちが取り組んだのは、これを行うにはいくつかの方法があります。ジェフ・ヒントンは当時、制限付きボルツマンマシンに取り組んでいました。ヨシュア・ベンジオはデノイジングオートエンコーダに取り組んでおり、これは実際にNLPなどの異なる文脈で非常に成功しました。そして私はスパースオートエンコーダに取り組んでいました。
基本的に、オートエンコーダを訓練する場合、オートエンコーダが自明に恒等関数を学習しないように、表現を正則化する必要があります。これがInformation Bottleneckポッドキャストの話題です。これは情報ボトルネックに関するものです。表現の情報内容を制限するために、情報ボトルネックを作成する必要があります。私は高次元のスパース表現が実際に良い方法だと思っていました。
私の学生の何人かがこれで博士号を取得しました。現在AlphabetのチーフAIアーキテクトであり、DeepMindのCTOでもあるコーレイ・カヴクオールは、実際に私とこれで博士号を取得しました。マルコ・ランゼット、エレーヌ・バルなど、他にも何人かいます。
これがアイデアでした。そして、実際にアイデアを思いついた理由は、これらのものをオートエンコーダとして事前訓練することで、非常に深いニューラルネットを事前訓練したかったからです。私たちはこれが進むべき道だと思っていました。しかし実際に起こったことは、正規化やハイパーボリックタンジェントやシグモイドの代わりに整流などを実験し始めたことです。
それが結果的に、完全に教師ありで非常に深いネットワークを訓練することを可能にしました。
これはデータセットが大きくなり始めたのと同時期でした。ですから、教師あり学習がうまく機能することがわかりました。そこで、自己教師あり学習や教師なし学習のアイデア全体が脇に置かれました。そして2015年にResNetが登場し、非常に深いアーキテクチャを訓練する問題を完全に解決しました。
しかし、2015年に私は、どうすれば人間レベルのAIに向けて前進できるかについて再び考え始めました。これは本当にFAIRの当初の目標であり、私の人生の使命でした。そして、強化学習やそのタイプのアプローチはすべて、基本的にスケールしていないことに気づきました。強化学習はサンプルの観点から非常に非効率的です。これは進むべき道ではありませんでした。
そこで世界モデルのアイデアです。自分の行動の結果を予測し、計画できるシステム。私は2015年、2016年頃にこれで本格的に遊び始めました。2016年のNIPS(当時の名称)での私の基調講演は世界モデルに関するものでした。私はそれを主張していました。私の講演の中心は、これが私たちが取り組むべきことだというものでした。行動条件付き世界モデル。そして私の学生の何人かは、ビデオ予測などに取り組み始めました。2016年にビデオ予測に関する論文がいくつかありました。
そして私は以前と同じ間違いを犯し、現時点で誰もが犯している同じ間違いを犯しました。それは、ビデオ予測システムをピクセルレベルで予測するように訓練することです。
これは本当に不可能であり、ビデオフレームの空間上で有用な確率分布を実際に表現することはできません。
ですから、それらのものは機能しません。予測が非決定的であるため、潜在変数を持つモデルが必要であることを私は確実に知っていました。予測すべき変数について知らないすべてのものを表現するためです。
そこで、私たちは何年もこれを実験しました。現在FAIRの科学者であるマイケル・マシューという学生がいて、潜在変数を持つビデオ予測システムを開発しました。
そして、それは私たちが直面している問題をわずかに解決しました。つまり、今日多くの人々が採用している解決策は拡散モデルです。これは非決定的関数を本質的に訓練する方法です。あるいは、私が何十年も提唱してきたエネルギーベースモデルも、非決定的関数を訓練する別の方法です。
しかし、結局、私はこれがすべて、ピクセルレベルで予測できないという事実を回避する方法は、単にピクセルレベルで予測しないことだということを発見しました。表現で実行し、表現レベルで予測し、
予測できないすべての詳細を排除することです。
そして、初期の段階ではこれらの方法について実際に考えていませんでした。なぜなら、崩壊を防ぐという大きな問題があると思っていたからです。ランデルはこれについて話したと思いますが、例えば、観測変数Xがあり、変数Yを予測しようとしているが、すべての詳細を予測したくないとしましょう。そこで、XとYの両方をエンコーダに通します。
これで、XのSX表現、YのSY表現の両方ができました。XのSX表現からYの表現を予測する予測器を訓練できます。しかし、これ全体をエンドツーエンドで同時に訓練したい場合、システムが入力を無視して定数表現を生成する自明な解があります。そして、予測器の問題は今や自明です。ですから、システムを訓練する唯一の基準が予測誤差を最小化することである場合、それは機能しません。崩壊してしまいます。
私はこの問題について非常に長い間知っていました。なぜなら、ジョイント埋め込みアーキテクチャに取り組んでいて、私たちは90年代にシャムネットワークと呼んでいたからです。
シャムという言葉は、最近でもこれらのネットワークに使用されています。
そうです。つまり、概念はまだ最新のものです。XとYがあり、Xを何らかの劣化した、変換された、または破損したYのバージョンと考えてください。
XとYの両方をエンコーダに通し、システムに「XとYは本当に同じものの二つのビューだ。だから、計算する表現は同じであるべきだ」と伝えます。ニューラルネット、同じ重みを共有する二つのニューラルネットを訓練して、同じオブジェクトの微妙に異なるバージョンに対して同じ表現を生成させようとすると、崩壊します。有用なものを生成しません。
ですから、システムが入力からできるだけ多くの情報を抽出することを確認する方法を見つける必要があります。私たちが持っていた元のアイデア、これは1993年のシャムネットに関する論文からのものですが、コントラスト項を持つことでした。つまり、異なることがわかっている他のサンプルのペアがあり、システムを訓練して異なる表現を生成します。
ですから、同一または類似している二つの例を示したときに二つの表現を引き寄せ、異なる二つの例を示したときにそれらを反発させるコスト関数があります。そして、私たちがこのアイデアを思いついたのは、誰かが私たちのところに来て、タブレットに署名を描く誰かの署名をエンコードできるかと言ったからです。
80バイト未満でエンコードできますか?なぜなら、もし80バイト未満でエンコードできれば、クレジットカードの磁気テープに書き込むことができ、クレジットカードの署名ができるからです。そこで私たちはこのアイデアを思いつきました。私はニューラルネットを訓練して、
それぞれ1バイトで量子化される80個の変数を生成するというアイデアを思いつきました。
それからこれを訓練しました。
彼らは使いましたか?
それは非常にうまく機能し、彼らはビジネスの人々に見せましたが、その人々は「ああ、人々にただピンコードを入力させるだけです」と言いました。
テクノロジーをどのように統合できるかについてのレッスンがありますね。
そして、ヨーロッパにはスマートカードを使用している国があったので、これは最初から怪しいと思っていました。はるかに良い問題がありましたが、彼らは何らかの理由でスマートカードを使いたくなかったのです。とにかく、2000年代半ばにこの技術がありました。
私は二人の学生と一緒にこのアイデアを修正する作業をしました。私たちはこれらを訓練するための新しい目的関数を考案しました。これらは、人々が今ではコントラスト手法と呼ぶものの特殊なケースです。正例、負例があり、正例についてはシステムを訓練して低エネルギーを持たせ、負例についてはより高いエネルギーを持つように訓練します。ここでエネルギーは表現間の距離です。
私たちは2005年、2006年にCVPRで二つの論文を発表しました。ライア・ハッセルとスミット・チョプラによるものです。ライアは現在DeepMind Foundationの責任者で、DeepMindのFAIRのような部門のようなものです。スミットは実際に現在ニューヨーク大学の教員で、医療画像に取り組んでいます。
これはコミュニティでいくらかの関心を集め、これらのアイデアに関する作業を少し復活させましたが、それでもあまりうまく機能していませんでした。
これらのコントラスト手法は、例えば画像の表現を生成していましたが、比較的低次元でした。表現の共分散行列の固有値スペクトルのようなものを測定すると、200次元に収まり、それ以上は決してありませんでした。ImageNetなどで訓練しても、拡張を使用しても同じでした。
ですから、それはやや残念でした。うまくいきました。これに関する論文がたくさんあり、まあまあ機能しました。DeepMindからの一つの論文、SimCLRがあり、シャムネットに適用されたコントラスト訓練で適切なパフォーマンスを得られることを実証しました。しかし、約5年前、私のポスドクの一人であるステファン・デニがMetaで、最初は機能しないと思ったアイデアを試しました。それは本質的に、エンコーダから出てくる情報量の何らかの尺度を持ち、それを最大化しようとすることでした。
これが機能すると思わなかった理由は、ジェフ・ヒントンが1980年代に行っていた同様の実験をたくさん見ていたからです。情報を最大化しようとしているのですが、適切な情報内容の尺度がないため、情報を最大化することはできません。それは下限です。
何かを最大化したい場合は、それを計算できるか、または下限があってそれを押し上げることができる必要があります。そして、情報内容については上限しかありません。ですから、私はこれが完全に絶望的だといつも思っていました。そして、ステファンはある種の技術を思いついたのです。それはBarlow Twinsと呼ばれました。
バーローは、情報最大化のアイデアを考案した有名な理論神経科学者です。そして、それは機能しました。驚きでした。それで私は、これを推し進めなければならないと言いました。そこで、私の学生のアドリアン・バルデ、ジャンと共同指導したのですが、ジャンもニューヨーク大学に所属しています、VICRegという別の手法を考案しました。分散不変共分散正則化です。それはよりシンプルであることがわかり、さらにうまく機能しました。
それ以来、私たちは進歩を遂げ、ランデルは最近、推し進めて実用化できるアイデアについて彼と議論しました。それはSigRegと呼ばれ、システム全体はJEPAと呼ばれます。名前は彼が担当しました。
つまり、Latent Euclidean JEPAということですね?
はい。
SigRegは、エンコーダから出てくるベクトルの分布が等方性ガウシアンであることを確認することに関係しています。それがIとGです。つまり、この分野では本当にクールなことがたくさん起こっています。今後1、2年でさらに進歩があると思います。
これに関する多くの経験を積むことになるでしょうし、これは抽象表現を学習するモデルを訓練するための非常に有望な一連の技術だと思います。これが鍵だと思います。
データ、計算、そして知能への道
ここで欠けている部分は何だと思いますか?より多くの計算が役立つと思いますか、それともより良いアルゴリズムが必要だと思いますか?苦い教訓を信じていますか?
さらに、2022年以降のインターネットでのデータ品質の問題についてどう思いますか?私は人々がそれを低バックグラウンド鋼に例えるのを聞いたことがあります。LLMが登場する前のすべてのデータを低バックグラウンドトークンと呼ぶのです。
私はその問題を完全に回避していると思います。これが理由です。そして、私はこの議論を過去数年間公に使用してきました。LLMを訓練する場合、まともなパフォーマンスを得たいのであれば、基本的にインターネット上で自由に利用可能なすべてのテキスト、さらにいくつかの合成データ、ライセンスデータなどで訓練する必要があります。
ですから、1、2年前に遡る典型的なものは、30兆トークンで訓練されています。トークンは通常3バイトです。つまり、事前訓練のために10の14乗バイトです。今はファインチューニングについて話していません。10の14乗バイトです。そして、LLMがこれを実際に活用できるようにするには、多くのメモリストレージが必要です。なぜなら、基本的にこれらは孤立した事実だからです。
テキストには少し冗長性がありますが、その多くは単なる孤立した事実です。ですから、これらすべての事実を保存して吐き出すために、多くのメモリが必要なため、非常に大きなネットワークが必要です。
そして、私はこれをビデオと比較します。10の14乗バイト、ビデオの場合、秒あたり2メガバイトを数えると、それほど圧縮されていない比較的圧縮されたビデオ、少し圧縮されたビデオの場合、15,000時間のビデオを表します。10の14乗バイトの15,000時間のビデオには、インターネット上で利用可能なすべてのテキストと同じ量のデータがあります。
さて、15,000時間のビデオは絶対にわずかです。YouTubeのアップロードの30分です。4歳児が人生で見た視覚情報の量です。4年間の起きている時間全体は約16,000時間です。
多くの情報ではありません。現在、ビデオモデルがあります。VJEPAバージョン2が昨年の夏に出たばかりです。
それは1世紀分のビデオデータに相当するもので訓練されており、すべて公開データです。はるかに多くのデータですが、最大のLLMよりもはるかに少ないです。実際には、より多くのバイトであっても、より冗長なので、冗長なので有用性が低いと言えます。実際には、自己教師あり学習を使用する場合、冗長性が必要です。完全にランダムであれば、自己教師ありで何も実行できません。冗長性は学習できるものです。
ですから、ビデオのような実世界のデータには、テキストよりもはるかに豊かな構造があります。これにより、私はテキストだけで訓練することによって人間レベルのAIに到達することは絶対にないと主張するようになりました。決して起こりません。
世界モデルの理想と現実
つまり、AIが現実に基づいているべきか、それとも単なるシンボル操作の領域にあるべきかという哲学における大きな議論があります。世界モデルとグラウンディングについて話すとき、まだ理想化された世界モデルが何であるかを理解していない人がたくさんいると思います。例えば、私はスタートレックを見た影響を受けていて、あなたも少し見たことがあると思いますが、ホロデッキのことを考えています。私はいつもホロデッキが理想化された完璧な世界モデルのようだと思っていました。それがあまりにも遠くに行き過ぎるエピソードがたくさんあり、人々がそこから出てくるエピソードもありますよね。しかし、それは匂いや物理的な触覚のようなものさえシミュレートします。
では、そのようなものが理想化された世界モデルだと思いますか、それとも別のモデルや定義の方法があると思いますか?
これは素晴らしい質問です。
そして、素晴らしい理由は、これが本当に私が私たちがすべきだと思うことの核心に迫るからです。私がやっていることであり、他の誰もがいかに間違っていると思うかということです。
人々は、世界モデルが世界が行うすべての詳細を再現するものだと考えています。
彼らはそれをシミュレーターと考えています。
そうです。
そしてもちろん、ディープラーニングが流行っているので、シミュレーターとして何らかのディープラーニングシステムを使用するつもりです。多くの人々はビデオ生成にも焦点を当てています。それはある種のクールなことですよね。あなたはこれらのクールなビデオを制作し、わあ、人々は本当にそれらに感銘を受けます。
さて、ビデオ生成システムを訓練するとき、それが実際に世界の基礎となるダイナミクスの正確なモデルを持っているという保証は全くありませんし、それについて特に抽象的なことを学んだという保証もありません。
ですから、何らかの方法でモデルが現実のすべての詳細を再現する必要があるというアイデアは間違っており、有害です。
そして、その理由を説明します。シミュレーションの良い例は、計算流体力学、CFDです。これは常に使用されています。人々はそのためにスーパーコンピュータを使用します。飛行機の周りの空気の流れをシミュレートしたいとします。
空間を小さな立方体に切り分けます。
各立方体内には、その立方体の状態を表す小さなベクトルがあります。それは速度、密度または質量、
温度、そしておそらく他のいくつかのものです。そして、ナビエ・ストークス方程式を解きます。これは偏微分方程式です。空気の流れをシミュレートできます。問題は、これが実際には必ずしも方程式を非常に正確に解くわけではないということです。
乱流のようなカオス的な振る舞いがある場合、シミュレーションはおよそ正確なだけです。しかし、実際には、それはすでに基礎となる現象の抽象表現です。基礎となる現象は、互いにぶつかり合い、翼や飛行機にぶつかる空気の分子です。しかし、誰もシミュレーションを行うためにそのレベルに行くことはありません。
それは狂気でしょう。計算量が途方もなく、初期条件に依存するでしょう。つまり、私たちがこれをしない理由は様々です。そしておそらく、分子ではありません。おそらく、より低いレベルでは、粒子をシミュレートし、ファインマン図を行い、それらの粒子が使用しているすべての異なる経路をシミュレートする必要があります。なぜなら、それらは一つの経路を取らないからです。古典的ではありません。
量子です。
そうです。つまり、底辺では量子場の理論のようなものであり、おそらくすでにそれは現実の抽象表現です。ですから、現時点で私たちの間で起こっているすべてのことは、原理的には量子場の理論を通じて説明できます。私たちは、私たち全員を含む立方体内の宇宙の波動関数を測定するだけでよいのです。それでも十分ではありません。なぜなら、宇宙の反対側にもつれた粒子があるからです。ですから、それでは十分ではありません。しかし、議論のために想像してみましょう。
まず第一に、私たちはこの波動関数を測定できないでしょう。
そして第二に、これに費やす必要がある計算量は絶対に膨大です。地球のサイズほどの巨大な量子コンピュータのようなものになるでしょう。
ですから、そのレベルで何も説明する方法はありません。そして、私たちのシミュレーションがおそらく数ナノ秒は正確で、
その後、現実から発散するでしょう。それで、私たちは何をしますか?抽象化を発明します。私たちは粒子、原子、分子のような抽象化を発明します。生きている世界では、タンパク質、細胞小器官、細胞、器官、生物、
社会、生態系などです。
そして、基本的にこの階層のすべてのレベルは、その下のレベルに関する多くの詳細を無視します。そして、それによって私たちができることは、より長期的な、より信頼性の高い長期的な予測を行うことです。ですから、私たちは今、私たちの間のダイナミクスを基礎となる科学と心理学の観点から説明できます。
それは、粒子物理学よりもはるかに高いレベルの抽象化です。
そして、実際、私が言及したばかりの階層のすべてのレベルは、異なる科学の分野です。科学の分野は本質的に、予測を行い始める抽象化のレベルによって定義されます。使用することを許可する抽象化のレベルです。
実際、物理学者はこれを芸術にまで高めています。箱いっぱいのガスを与えたとすると、
原理的には、ガスのすべての分子をシミュレートできますが、誰もこれを行いません。しかし、非常に抽象的なレベルでは、PV = NRTと言えます。圧力×体積 = 粒子数×温度などなどです。
ですから、グローバルな新興現象レベルでは、圧力を上げると温度が上がるか、温度を上げると圧力が上がります。または、いくつかの粒子を外に出すと、圧力が下がるなどです。ですから、常に、物理学者がエントロピーと呼ぶすべての種類の詳細を無視することによって、何か複雑なものの現象論的モデルを構築します。
しかし、それは本当に体系的です。それが私たちが世界を理解する方法です。私たちは、私たちが知覚するすべての詳細を記憶したり、確実にそれを再構築したりしません。
ですから、世界モデルはシミュレーターである必要は全くありません。
まあ、シミュレーターですが、抽象表現空間にあり、シミュレートするのは現実の関連部分だけです。
もし私があなたに100年後に木星がどこにあるかを尋ねたら、私たちは木星に関する膨大な量の情報を持っています。しかし、木星に関するこの情報全体の中で、100年後に木星がどこにあるかを予測できるようにするには、正確に6つの数字、3つの位置と3つの速度が必要で、残りは重要ではありません。
合成データセットを信じていませんか?
いいえ、それは有用です。ゲームからのデータです。つまり、合成データ、ゲームから学ぶことは確かにたくさんあります。つまり、子供たちは遊びから膨大な量を学びます。これは基本的に世界のシミュレーションのようなものです。
しかし、自分を殺すことができない条件下で。しかし、私は少なくともビデオゲームについて心配しています。例えば、アニメーションを行うグリーンスクリーンの俳優は非常に、良く見えるように設計されています。アクションゲームのために、しばしば、
かっこいいと思います。しかし、これらはしばしば現実にあまり対応していません。ですから、少なくとも非常に短期的には、世界モデルの助けを借りて、または世界モデルを通じて訓練された物理システムが同様の癖を得る可能性があることを心配しています。
これはあなたが心配することですか?
いいえ、それはどのレベルで訓練するかによります。例えば、非常に正確なロボットシミュレーターを使用する場合、それはアームのダイナミクスを正確にシミュレートします。トルクを適用すると、特定の方法で移動します。
ダイナミクスがあり、問題ありません。さて、オブジェクトをつかんで操作するときに起こる摩擦をシミュレートすることは、正確に行うのは非常に困難です。
摩擦はシミュレートするのが非常に難しいのです。
ですから、これらのシミュレーターは操作に関しては特に正確ではありません。少し適応すれば、システムを訓練してそれを行うことができ、sim-to-realを行うことができます。ですから、それは機能する可能性があります。しかし、それは、つまり、ポイントははるかに重要です。例えば、世界について完全に基本的なことで、私たちが完全に当たり前だと思っていることがたくさんありますが、それを非常に抽象的なレベルで学ぶことができますが、言語に関連したものではありません。
例えば、そして私は以前にこの例を使用したことがあり、人々は私をからかいましたが、それは本当に真実です。私はこれらのオブジェクトをテーブルに持っています。
そして、テーブルを押すと、オブジェクトが一緒に動くという事実。
これは私たちが学んだことです。生まれつきではありません。オブジェクトを手放すとほとんどのオブジェクトが落ちるという事実、重力で。これは9ヶ月頃に学びます。
そして、人々が私をからかう理由は、LLMはこの種のことを理解していないと言ったからです。そして、彼らは今日でも絶対に理解していません。
しかし、質問をすると正しい答えを出すように訓練できます。テーブルにオブジェクトを置いて、テーブルを押したら、オブジェクトに何が起こりますか?オブジェクトは一緒に動くと答えます。しかし、それはそうするようにファインチューニングされているからです。ですから、それは基礎となるダイナミクスの真の理解というよりは、吐き出しに近いものです。
しかし、例えばSoraやLuma AIを見ると、
それらは世界の良い物理学を持っていますよね。完璧な物理学ではありませんが。
いくつかの物理学を持っています。
それをさらに推し進めることができると思いますか、それとも物理学を学ぶ一つの方法だと思いますか?
表現空間での学習と物体の永続性
実際、これらのモデルはすべて、表現空間で予測を行います。彼らは拡散トランスフォーマーを使用し、
ビデオスニペットの計算は抽象的なレベルで表現空間で行われます。
常に自己回帰的ではありません。時には並列で行われます。そして、これらの抽象表現を見栄えの良いビデオに変える第二の拡散モデルがあり、それはモード崩壊かもしれません。私たちは本当に分かりません。なぜなら、そのようなシステムの現実とのカバレッジを実際に測定できないからです。
しかし、前のポイントに戻ると、訓練できます。これは私たちにとって完全に明白な別の概念ですが、学んでいるとは想像すらしませんが、学んでいます。人は同時に二つの場所にいることはできません。
私たちはこれを学びます。なぜなら、非常に早い段階で物体の永続性を学ぶからです。オブジェクトが消えても、まだ存在するという事実。
私たちはピアジェです。以前に見たのと同じオブジェクトです。
どうすればAIシステムにこの概念を学習させることができるでしょうか?物体の永続性は、オブジェクトがスクリーンの後ろに行き、反対側に再び現れる多くのビデオを見せるだけです。または、スクリーンの後ろに行き、スクリーンがなくなり、オブジェクトがまだそこにあるビデオを見せます。
そして、4ヶ月の赤ちゃんにこのようなことが違反されるシナリオを見せると、彼らの目は非常に大きく開き、現実が内部モデルに違反したので、非常に驚きます。プラットフォーム上の小さな車を見せて、プラットフォームから押し出すと、空中に浮いているように見えるシナリオを見せるのと同じです。
9ヶ月、10ヶ月の赤ちゃんも本当に驚いたように見ます。6ヶ月の赤ちゃんはほとんど注意を払いません。なぜなら、彼らはまだ重力について学んでいないからです。
ですから、彼らはすべてのオブジェクトが落ちるはずだという概念を組み込むことができていません。
ですから、この種の学習が本当に重要なのです。そして、これを非常に抽象的なことから学ぶことができます。赤ちゃんが簡単な絵で物語を聞かされることで社会的相互作用について学ぶのと同じ方法です。それは世界のシミュレーション、抽象的なシミュレーションですが、彼らに特定の行動を学ばせます。
ですから、例えば、アドベンチャーゲーム、トップダウンの2Dアドベンチャーゲームから訓練するシステムを想像できます。
キャラクターに北に移動するように指示すると、別の部屋に行き、最初の部屋にはもういません。なぜなら、別の部屋に移動したからです。もちろん、アドベンチャーゲームでは、呼び出すことができるガンダルフもいて、彼は単に現れます。それは物理的ではありません。
しかし、宝箱から鍵を拾うと、鍵を持っていて、他の誰もそれを持つことができません。
そして、それをドアを開けるために使用できます。抽象的な環境でさえ学ぶ非常に基本的なことがたくさんあります。
はい。
そして、私はただ観察したいだけです。彼らがモデルを訓練しようとするこれらのアドベンチャーゲームのいくつか、あなたが知っているかもしれないものの一つはNetHackです。そして、NetHackは魅力的です。なぜなら、それは非常に難しいゲームだからです。チートなしでそのゲームで昇天することは、Wikiに行かずに20年かかります。
人々はまだそれをプレイからしていません。
そして、私の理解では、AIエージェント、私たちが持っている最高のエージェントモデル、あるいは世界モデルでさえ、哀れなものです。
はい。そうです。ですから、人々はNetHackの簡略化されたバージョンを考案してきました。
ミニハック。その通りです。ミニハック。彼らはAIのためにそれを簡略化しなければなりませんでした。
実際、私の同僚の何人かがこれに取り組んでいます。私の修士課程の学生の一人、ニューヨーク大学の話はご覧になりませんでしたが、マイケル・マシューも、先ほど言及しましたが、そこでいくつかの作業を行っています。さて、ここで興味深いのは、このような状況のタイプがあるということです。計画する必要がありますが、不確実性の存在下で計画する必要があります。
すべてのゲームやアドベンチャーゲーム特有の問題は、システムの状態の完全な可視性がないということです。事前にマップを知りません。
探索する必要があります。
などなど。これを行うたびに殺される可能性があります。しかし、アクションは本質的に離散的です。
はい。
ターンベースです。
ですから、その意味でチェスのようなものですが、チェスは完全に観測可能です。囲碁も完全に観測可能です。
ストラテゴはそうではありませんが。
ストラテゴはそうではありません。ポーカーもそうではありません。
ですから、もちろん不確実性があればより困難になります。しかし、それらは、取ることができるアクションの数が離散的で、基本的に木の探索を行う必要があるゲームです。もちろん、可能な状態の木は、移動の数で指数関数的に増加します。ですから、良い可能性が高い移動のみを生成し、基本的に他のものを生成したり、それらを選択したりしない方法が必要です。
そして、価値関数が必要です。これは、ゲームの終わりまで計画できないとしても、9手先まで計画しているだけだとしても、ポジションが良いか悪いか、勝利や解決につながるかどうかを評価する何らかの方法が必要だということを意味します。
ですから、この二つのコンポーネントが必要です。良い移動が何であるかを推測する何かと、
本質的に終端を評価する何かです。そして、これらの両方の機能がある場合、強化学習のようなものを使用して、またはデータがある場合は行動クローニングを使用して、これらの関数を訓練できます。つまり、この基本的なアイデアは、1964年のサミュエルのチェッカープレイヤーに遡ります。最近のものではありません。しかし、もちろん、その力はAlphaGoやAlpha Zeroなどで実証されました。
それは良いことですが、それは人間が不得意なドメインです。人間はチェスをするのがひどいです。囲碁をするのもそうです。機械は私たちよりもはるかに優れています。
なぜなら、木探索の速度と、木探索に必要なメモリのためです。
私たちは幅優先木探索を行うのに十分なメモリ容量を持っていません。だから私たちはそれが苦手なのです。AlphaGoが登場したとき、それ以前は、最高の人間のプレイヤーは、彼らが神と呼ぶ理想的なプレイヤーよりも2、3ストーンのハンディキャップくらい下だと思われていました。実際にはそうではありません。人間はひどいのです。世界最高のプレイヤーでさえ、殺すには8つか9つのストーンが必要です。
ゲームAIと人間の知能
まあ、私はゲームAIについてヤンと話す喜びを得られるとは信じられません。これについていくつかのフォローアップの質問があります。最初の質問は、人間がチェスがひどく下手だという話についてです。私は長年にわたるチェスAIの発展について少し知っています。
私は、これをモラヴェックのパラドックスと呼ばれていると聞いたことがあり、つまり、人間は何十億年、いや申し訳ありません、何百万年もの長い年月をかけて身体的移動のために進化してきたため、赤ちゃんや人間はこれが非常に得意ですが、チェスをプレイするために全く進化していないため、と説明されています。それが一つの質問です。
そして、関連する二番目の質問は、今日ビデオゲームをプレイする多くの人々、そして私もその一人ですが、少なくとも敵AIのような観点では、AIが20年で本当に改善していないように感じているということです。最高の例はまだ2000年代初頭のHalo 1やF.E.A.R.のようなものです。
では、研究所で行ってきた進歩が、生成AIのような意味ではなく、実際にゲーマーに実際の影響を与えるのはいつだと思いますか?
はい。私はゲーマーでしたが、中毒になったことはありませんが、私の家族はそれに浸っています。なぜなら、私には30代の3人の息子がいて、彼らの間でビデオゲームデザインスタジオを持っているからです。
ですから、私はその文化に組み込まれていました。しかし、はい、あなたは正しいです。そして、物理シミュレーターの精度にもかかわらず、多くのシミュレーションがアニメーション映画を作るスタジオで使用されていないのも事実です。なぜなら、彼らはコントロールを望んでいるからです。
彼らは必ずしも精度を望んでいるわけではありません。彼らはコントロールを望んでいます。そして、ゲームでも本当に同じことです。それは創造的な行為です。ストーリーの流れやNPCの振る舞い方などについて、ある程度のコントロールが欲しいのです。そして、現時点ではAIはコントロールを維持するのが難しいです。つまり、それは来るでしょうが、
クリエイターからの抵抗があります。しかし、
モラヴェックのパラドックスは非常に有効です。モラヴェックは、もし私が正しく覚えていれば、1988年にそれを定式化したと思います。
はい。
そして、彼は、私たちが人間に固有の知的タスクと考えるもの、例えば博士論文や積分を計算することなどをコンピュータでできるのに、どうして猫ができること、ロボットでできることのような、知的タスクとすら考えていない当たり前のことができないのか、と言いました。
はい。はい。
そして、47年後の今でも、それらをうまく行うことはできません。はい。
もちろん、今では模倣と少しの強化学習によってロボットを訓練し、シミュレーションを通じて訓練して、移動したり、障害物を避けたり、さまざまなことをしたりできます。しかし、それらは猫ほど発明的で創造的で、
機敏ではありません。
それは私たちがロボットを作れないからではありません。確実に作れます。ただ、猫やマウスができるすべてのこと、犬や猿は言うまでもなく、それらを行うのに十分なほど賢くすることができないだけです。ですから、AGIが1、2年で実現するというように誇張している人々がいます。完全に妄想です。ただの完全な妄想です。なぜなら、現実世界ははるかに複雑で、世界をトークン化してLLMを使用してどこにも到達できないからです。それは決して起こりません。
では、あなたのタイムラインは何ですか?
AGIを見るのはいつですか、それが何を意味するにせよ、または、
そして、オプティミストとペシミストの側のどちらにいますか?なぜなら、ゲイリー・マーカスなどの悲観論者、あるいは悲観論、ゲイリー・マーカスは悲観論者ではなく、批評家です。申し訳ありません。悲観論者は、ジョシュア・ベンジオでしょうか?そうです。これらすべてのものにどこに位置しますか?
最初の質問から答えます。まず第一に、一般的な知能というものはありません。この概念は全く意味がありません。なぜなら、それは本当に人間レベルの知能を指定するように設計されているからです。しかし、人間の知能は非常に特化しています。私たちは現実世界を本当にうまく扱えます。ナビゲートしたりなどなど。
私たちは他の人間を本当にうまく扱えます。なぜなら、私たちはこれを行うために進化したからです。そして、チェスは不得意です。ですから、私たちが他の多くの動物よりもはるかに不得意なタスクがたくさんあります。つまり、私たちは特化しているということです。私たちは自分たちが一般的だと思っていますが、それは単なる幻想です。なぜなら、私たちが理解できるすべての問題は、考えることができるものだからです。
そうです。
逆もまた然りです。
ですから、私たちは、私たちが想像できるすべての問題において一般的です。しかし、私たちが想像できない問題がたくさんあります。そして、これに関するいくつかの数学的議論がありますが、尋ねない限り、それに入らないかもしれません。しかし、この一般的な知能という概念は完全にでたらめです。人間レベルの知能について話すことはできます。つまり、人間が得意なすべての分野で人間と同じくらい優れている、または人間よりも優れている機械を持つことになるでしょうか?答えは、すでにいくつかのドメインで人間よりも優れた機械を持っているということです。
例えば、1500の言語を他の1500の言語にあらゆる方向に翻訳できる機械があります。人間はこれができません。そして、チェスや囲碁やその他さまざまなことにおいて、多くの例があります。しかし、すべてのドメインで人間と同じくらい優れた機械を持つことになるでしょうか?答えは絶対にイエスです。
いつかすべてのドメインで人間と同じくらい優れた機械を持つことになることは疑いようがありません。しかし、それはイベントではありません。非常に段階的になります。おそらく世界モデル、計画などに基づいて、今後数年間でいくつかの概念的な進歩を遂げるでしょう。
そして、もし幸運であれば、予期しない障害にぶつからなければ、おそらくこれは人間レベルのAIへの良い道につながるでしょう。
しかし、おそらく私たちはまだ多くの基本的な概念を欠いています。ですから、最も楽観的な見方は、おそらくこの良いモデルを学習し、
計画を行うことができ、連続的でノイズの多い複雑な信号を理解できるようになることです。
もし私たちが今後2年間でその方向に大きな進歩を遂げるなら、最も楽観的な見方は、5年から10年以内に人間の知能に近い、あるいは犬の知能に近いものを持つことになるということです。
しかし、それは最も楽観的です。過去にAIの歴史で何度も起こったように、まだ見えていない障害があり、それが実際に私たちが超えるためにいくつかの新しい概念的な新しいものを発明することを要求する可能性が非常に高いです。その場合、20年かかるかもしれません、もしかしたらもっとかかるかもしれません。
しかし、それが起こることに疑問の余地はありません。
現在のレベルから犬レベルの知能に到達することは、犬から人間のレベルに到達することと比較して、より簡単だと思いますか?
いいえ、犬のレベルに到達することが最も困難な部分だと思います。
犬のレベルに到達すれば、基本的にほとんどの材料が揃っています。
そうです。そして、霊長類から人間への欠けているものは、脳のサイズ以外に、おそらく言語です。しかし、言語は基本的にウェルニッケ野によって処理されます。これはここにある小さな脳の部分であり、ブローカ野もここにある小さな脳の部分です。これらの両方は、最後の100万年未満、おそらく200万年以内に進化しました。
それほど複雑ではない可能性があり、私たちはすでに言語を抽象表現にエンコードし、それから考えをテキストにデコードするのに非常にうまく機能するものを持っています。
ですから、おそらくそのためにLLMを使用するでしょう。ですから、LLMは私たちの脳のウェルニッケ野とブローカ野のようになります。私たちが今取り組んでいるのは前頭前皮質であり、そこが私たちの世界モデルが存在する場所です。
AI安全性とテクノロジーの影響
まあ、これは安全性と不安定化する潜在的な影響についてのいくつかの質問に入ります。ですから、私は少し面白いことから始めます。もし私たちが本当に犬レベルの知能に到達すれば、明日のAIは嗅覚において人間よりも大幅に優れたものになります。
そして、そのようなものは、今日のAIは言うまでもなく、明日のAIの不安定化する影響の氷山の一角にすぎません。つまり、サム・アルトマンがスーパー説得について話しているのがあります。AIがあなたを特定するからです。つまり、マルチターンを通じてあなたが誰であるかを理解し、あなたに向けて議論をカスタマイズするのが本当に得意になります。
AI精神病がありました。つまり、すべきではないことをするように言うお世辞を言うAIを信じた結果、恐ろしいことをした人々がいます。
ちなみに、私にも起こりました。
おお。それについても教えてください。何ですか?
ある日、数ヶ月前、私はニューヨーク大学にいて、昼食を取りに降りて行きました。警察官と警備員の一団に囲まれている男がいて、私が通り過ぎると、その男は私を認識して、「ああ、ルカンさん」と言いました。
そして、警察官が私を外に連れ出し、「彼と話したくないでしょう」と言いました。その男は中西部からバスでここに来ていたことがわかりました。
そして、彼は精神的に不安定でした。彼は、
刑務所に行っていました、などなど、
さまざまなことで。そして、彼は巨大なレンチ、ペッパースプレー、ナイフが入ったバッグを持っていました。それで、警備員は警戒し、基本的に警察を呼びました。
おお。
そして、警察は、この男は少し変だと気づきました。それで、彼らを連れ去って検査させ、最終的に彼は中西部に戻りました。
彼は私にとって脅威を感じませんでしたが、警察はそれほど確信していませんでした。
ですから、はい、それは起こります。高校生が私にメールを書いてきました。AIが世界を乗っ取り、私たち全員を殺すか、私たちの仕事を奪うと言った悲観論者によるすべてのものを読んだと言っていました。
それで、私は完全に落ち込んでいます。もう学校に行きません。そして、私は彼らに答えて、そういうものすべてを信じないでください、と言います。人類はまだこれらすべてをコントロールしています。
さて、強力なテクノロジーには良い結果と悪い副作用があることに疑いの余地はありません。時には予測されて十分に事前に修正されることもあり、時にはそれほどではないこともあります。それは常にトレードオフです。それは技術進歩の歴史です。
例えば車を取り上げましょう。車は時々クラッシュし、最初はブレーキがそれほど信頼できず、車がひっくり返り、シートベルトがなかったなどなどです。そして、最終的に業界は進歩し、シートベルトやクランプルゾーンや、
車が横滑りしたりひっくり返ったりしないように、自動制御システムを設置し始めました。
ですから、車は今、以前よりもはるかに安全です。さて、現在EUで販売されるすべての車で義務付けられているものが一つあります。それは実際にAIシステムで、窓の外を見ます。
AEBSと呼ばれています。自動緊急ブレーキシステムです。
基本的には市販のショットです。そして、それはフロントガラスを見て、すべてのオブジェクトを検出します。
そして、オブジェクトが近すぎることを検出すると、自動的にブレーキをかけます。または、ドライバーが回避できない衝突があることを検出した場合。
それはただ車を止めたり、横にずれたりします。そして、これに関する一つの統計は、これが正面衝突を40%削減すると読んだものです。それで、これはEUで販売されるすべての車で義務的な装備になりました。ローエンドであっても、命を救うからです。
ですから、これはAIが人々を殺しているのではなく、
命を救っているのです。
つまり、医療画像などについても同じことです。現時点でAIによって救われている多くの命があります。では、でも、あなたは、ジェフとヨシュアは正しいですよね。お二人は一緒にチューリング賞を受賞しましたが、それについて異なる意見を持っています。そして、ジェフは後悔していると言い、ヨシュアは安全性に取り組んでおり、あなたはそれを推し進めようとしています。それでは、危険すぎるようになるある種のレベルの知能に到達すると思いますか、私たちは安全性の側でもっと作業する必要があると言うでしょうか?
つまり、正しく行う必要があります。別の例を使います。ジェットエンジンです。私は、2エンジンの飛行機で世界の半分を完全に安全に飛べることが驚くべきことだと思います。そして、私は本当に、本当に世界の半分と言います。17時間のフライトです。そうです。
ニューヨークからシンガポールまで、エアバスA350で来ました。驚くべきことです。そして、ジェットエンジン、ターボファンを見ると、それは機能しないはずです。つまり、そこで起こる温度の種類に耐えられる金属はありません。そして、2,000回転、あるいはどれくらいの速度で回転する巨大なタービンのような努力、それにかかる力は本当に莫大で、何百トンもあるので、それは不可能であるはずです。
しかし、それらのものは信じられないほど信頼性が高いのです。ですから、私が言いたいのは、ターボジェットのようなものを構築することはできません。最初に構築するときは、安全ではありません。10分間動作してから爆発します。
そして、燃料効率が良くなく、信頼性がありません。しかし、エンジニアリング、材料などで進歩を遂げると、これを良くするための経済的動機が非常に大きいため、
最終的には今日見られるタイプの信頼性になります。AIについても同じことが当てはまります。私たちは、エージェンシーを持ち、計画でき、推論でき、世界モデルを持つなどのシステムを作り始めるでしょう。しかし、おそらく猫の脳の力を持つでしょう。これは人間の脳の約100分の1の大きさです。
そして、それらに明らかに危険な、あるいは何かを取るアクションを取ることを防ぐためのガードレールを設置します。非常に低いレベルでこれを行うことができます。例えば、家庭用ロボットがある場合、
スチュアート・ラッセルが使用した一つの例は、家庭用ロボットがあり、コーヒーを取ってくるように頼むと、誰かがコーヒーマシンの前に立っている場合、システムが目標を達成したい場合、コーヒーマシンにアクセスするために、コーヒーマシンの前の人を暗殺するか、叩き潰す必要があります。そして、明らかに、それが起こることは望んでいません。
世界モデルとAI安全性の本質
これはペーパークリップ最大化問題のようなものです。ばかげた例ですが、修正するのは非常に簡単です。家庭用ロボットなのだから、人から離れていて、邪魔な場合は移動してもらうよう頼むべきで、実際に傷つけたりしてはいけない、というガードレールを設置すればいいのです。
また、このような低レベルの条件をたくさん設定できます。例えば、家庭用ロボットが料理用ロボットで、大きなナイフを手に持ってキュウリを切っているとします。大きなナイフを手に持っていて周りに人がいるときは、腕を振り回してはいけない、といった具合です。
これはシステムが満たさなければならない低レベルの制約になり得ます。LLMを使えば、危険なことをしないようにファインチューニングできると言う人もいますが、常にジェイルブレイクできます。条件から逃れるようなプロンプトを常に見つけることができます。つまり、私たちがシステムにさせないようにしていることすべてから逃れられるのです。その通りです。
だからこそ、LLMを使うべきではないと言っているのです。先ほど話した目的駆動型のAIアーキテクチャを使うべきです。世界モデルを持ち、行動の結果を予測でき、タスクを達成するための一連の行動を見つけ出せるシステムです。同時に、追求されているどんな行動も、予測されている世界の状態も、誰も危険にさらさず、悪影響を及ぼさないことを保証する一連の制約に従うシステムです。
構造上、このシステムは本質的に安全です。すべてのガードレールがあり、タスクの目的を最小化し、ガードレールの制約を満たすことによって最適化によって出力を得るからです。これはファインチューニングではありません。構造上そうなっているのです。
LLMに対して、0から10だけを許可し、それ以外のすべての出力を禁止するような、出力空間を制約する技術があります。拡散モデルでもそのような技術があります。
そのような戦術は、現在存在する形で、そのようなモデルの有用性を大幅に向上させると思いますか。
確かに向上させますが、途方もなくコストがかかります。というのも、システムに出力の提案をたくさん生成させ、フィルターをかけて「これは良い、これはひどい」などと言わせ、ランク付けして、最も毒性の低い評価のものだけを出力する必要があるからです。非常に高コストです。
そのような高スコアの出力、低毒性の出力を生成するようにシステムを駆動する、ある種の目的駆動型の価値関数がない限り、コストがかかりすぎます。
Metaの組織構造と業界動向
少し技術的な話題から離れて、もう少し社会的な質問に移りたいと思います。Metaであなたの役割を引き継ごうとしているように見えるアレックス・ワンについて、どう思われますか。どのように展開していくと思いますか。
彼は全く私の役割を引き継いでいません。彼はMetaのAI関連のすべての研究開発と製品を統括しています。彼は研究者や科学者ではありません。どちらかというと、全体のオペレーションを監督する立場です。
Meta Super Intelligence Labという彼の組織内には、4つの部門があります。その一つがFAIR(Fundamental AI Research)で、長期的な研究を行っています。もう一つはTBD Labで、基本的にフロンティアモデルを構築しており、ほぼ完全にLLMに焦点を当てています。4番目の組織はAIインフラストラクチャで、ソフトウェアインフラとハードウェアは別の組織です。
そして最後の一つが製品です。フロンティアモデルを取り、人々が使えるチャットボットに変え、普及させ、WhatsAppなどに組み込む人々です。これら4つの部門があります。彼はそのすべてを監督しています。
複数のAI科学者がいます。FAIRにはAI科学者がいて、それが私です。私は本当に長期的な視点を持っていて、基本的にあと3週間でMetaを去ります。FAIRは現在、NYUの同僚であるロブ・ファーガスが率いています。ジョエル・ピノが数ヶ月前に去った後のことです。
FAIRは、伝統的に行ってきたよりも少し短期的なプロジェクトに取り組むよう推進されています。出版への重点が低くなり、LLMとフロンティアモデルについてTBD Labを支援することに重点を置いています。つまり、Metaは少しクローズドになりつつあります。
TBD Labにもチーフサイエンティストがいて、実際にLLMに焦点を当てています。他の組織はインフラと製品のようなものなので、応用研究があります。例えば、SAM(Segment Anything Model)に取り組んでいるグループは、実際には製品部門の一部です。かつてはFAIRにいましたが、比較的実用的で外部向けの仕事をしていたため、その部門に移されました。
Thinking MachinesやPhysical Intelligenceのような世界モデルに移行しようとしている他の企業について、何か意見はありますか。
Thinking Machinesが何をしているのか全く明らかではありません。もしかしたら、あなたの方が私より多くの情報を持っているかもしれませんが。
すみません、混同していたかもしれません。Physical Intelligenceですね。
SSI(Safe Superintelligence)と混同していますね。
SSIについては、投資家を含めて誰も何をしているのか知りません。少なくとも私が聞いた噂ではそうです。本当かどうかはわかりませんが、ちょっとしたジョークになっています。
Physical Intelligenceは、幾何学的に正確な動画の生成に焦点を当てています。つまり、持続的な幾何学があり、何かを見て振り返ってまた戻ってきたとき、以前と同じオブジェクトがあるような動画です。背後で変わったりしません。生成的なアプローチです。アイデア全体がピクセルを生成することです。
私は長い時間をかけて、それが悪いアイデアだと論じてきました。世界モデルを持つ他の企業もあります。良い企業の一つはWaveです。オックスフォードに拠点を置く企業で、完全に開示すると、私はアドバイザーです。
彼らは自動運転のための世界モデルを持っています。訓練方法は、基本的にVAEやVQ-VAEを訓練することで表現空間を訓練し、次にその抽象的な表現空間で時間的予測を行う予測器を訓練しています。彼らは半分正しく、半分間違っています。正しい部分は、表現空間で予測を行うことです。間違っている部分は、再構成以外の方法で表現空間を訓練する方法を見つけていないことです。私はそれが良くないと思います。
しかし、彼らのモデルは素晴らしいです。本当によく機能します。この種の仕事をしている人々の中で、彼らはかなり進んでいます。
Nvidiaには同様のことについて話している人々がいますし、Sandbox AQという企業もあります。CEOのジャック・ヒダリーは、大規模言語モデルではなく大規模量子モデルについて話しています。基本的に、連続的で高次元のノイズの多いデータを扱える予測モデルのことです。これも私が話してきたことです。
もちろん、Googleも世界モデルに取り組んでいて、主に生成的アプローチを使っています。Googleにはダニシャによる興味深い取り組みがありました。彼はDreamer v1、v2、v3、v4というモデルを構築しました。良い道を進んでいましたが、彼はGoogleを去って自分のスタートアップを立ち上げました。
あなたはシリコンバレーの文化について、LLMに焦点を当てていることを本当に批判されていました。これが、新しい会社をパリで始めた理由の一つですよね。このようなことがもっと多く見られるようになると思いますか、それとも少数の企業がヨーロッパにいるという非常にユニークなことだと思いますか。
私が始めている会社はグローバルです。パリにオフィスがありますが、グローバル企業です。ニューヨークにもオフィスがあります。他にもいくつかの場所にあります。
業界には興味深い現象があります。競争が非常に激しいため、誰もが他の人と同じことをしなければならないということです。もし接線方向に進み始めると、他の人とは異なる技術を使うことになるので、遅れをとる大きなリスクを負うことになります。基本的に、誰もが他の人に追いつこうとしているので、この群れ効果が生まれ、シリコンバレーに特有の一種の単一文化が生まれます。OpenAI、Meta、Google、Anthropic、誰もが基本的に同じことに取り組んでいます。
時々、少し前に起こったように、中国のDeepSeekのような別のグループが新しい方法を思いついて、みんなが驚きます。シリコンバレーの他の人々は愚かではなく、独創的なアイデアを思いつくことができるという意味です。
少し優越感コンプレックスがあります。でも、基本的にあなたは自分の塹壕の中にいて、できるだけ速く進まなければなりません。なぜなら、競合相手だと思っている他の人々に遅れをとる余裕がないからです。しかし、完全に意表を突くような、異なる技術セットを使用する何かに驚かされるリスクがあります。あるいは、異なる問題に取り組んでいるかもしれません。
私が興味を持っているのは完全に直交しています。なぜなら、JEPAのアイデアと世界モデル全体は、LLMでは簡単に扱えないデータを扱うためのものだからです。私たちが想定しているアプリケーションのタイプは、ビデオを含む連続的で高次元のノイズの多いデータの形で提供される業界での応用が山ほどあります。これは、LLMが基本的に存在しない領域で、人々が使おうとして完全に失敗している領域です。
シリコンバレーの表現では、「LLMピル」を飲んだと言います。超知能への道はLLMをスケールアップするだけだと。より多くの合成データで訓練し、より多くのデータをライセンスし、何千人もの人々を雇ってシステムを訓練し、RLに新しい調整を加えれば、超知能に到達できると。
これは完全に間違っていると思います。絶対に機能しません。そして、非常に長い思考連鎖を行い、システムに大量の異なるトークン出力を生成させ、ある種の評価関数を使って良いものを選択するという推論技術を少し加えます。基本的にはそういうことです。すべてのものがそのように機能します。これでは目標に到達しません。
その文化から逃れる必要があり、シリコンバレーのすべての企業内には、「これは絶対に機能しない。JEPAをやりたい」と考えている人々がいます。私は彼らを雇っています。
シリコンバレーの単一文化から逃れることは、物語の重要な部分だと思います。米国、中国、ヨーロッパ間の競争についてどう思いますか。会社を始めた今、他よりも魅力的な場所があると思いますか。
私たちは非常に逆説的な状況にいます。これまで、Metaを除いてすべてのアメリカ企業は、競争上の優位性だと考えているものを守るために、本当に秘密主義になっています。
対照的に、中国のプレイヤー、企業などは完全にオープンでした。現時点で最高のオープンソースシステムは中国製です。これにより、業界の多くがそれらを使用するようになっています。オープンソースシステムを使いたいからです。政治などについての質問に答えないようにファインチューニングされていることを知っているので、少し鼻をつまんでいますが、選択肢がありません。
確かに、多くの学術研究が現在、最高の中国モデルを使用しています。確かに、推論などに関するすべてのことです。これは本当に逆説的で、米国の業界の多くの人々はこれに本当に不満を持っています。彼らは本当に、中国製ではない真剣なオープンソースモデルを望んでいます。
Llama 4がそうなる可能性がありましたが、Llama 4はさまざまな理由で期待外れでした。おそらく、Metaでの新しい取り組みで修正されるか、Metaもクローズドになることにするかもしれません。はっきりしません。
Mistralがコード生成のためのモデルをリリースしましたね。それは本当にクールですよね。
そうです。彼らはオープン性を維持しています。彼らがやっていることは本当に興味深いです。
個人的動機と研究哲学
さて、もっと個人的な質問に移りましょう。あなたは65歳ですよね。チューリング賞を受賞し、クイーンエリザベス賞も受賞しました。基本的に引退することもできますよね。
できますね。それが妻の望みです。
では、なぜ今新しい会社を始めるのですか。何があなたを動かしているのですか。
私には使命があるからです。私は常に、人々をより賢くするか、より知識豊富にするか、機械の助けを借りて彼らをより賢くすると考えてきました。基本的に、世界の知能の量を増やすことは本質的に良いことです。
知能は本当に最も需要の高い商品です。確かに政府などでもそうです。しかし、人生のあらゆる側面で、私たちは人間として、惑星として、知能の限られた供給によって制限されています。だからこそ、私たちは人々を教育することなどに膨大なリソースを費やしているのです。
人類や、人間だけでなくより広く惑星に奉仕する知能の量を増やすことは、ドゥーマー(破滅論者)たちが言っていることにもかかわらず、本質的に良いことです。もちろん、危険はあり、それに対して保護しなければなりません。ジェットエンジンが安全で信頼できることを確認し、車が小さな衝突であなたを殺さないようにするのと同じです。
しかし、それは大丈夫です。それはエンジニアリングの問題です。それについて根本的な問題はありません。政治的な問題でもありますが、乗り越えられないものではありません。
これは興味深く良いことで、私が貢献できるなら、そうします。基本的に、機械学習に関連していないものも含めて、私のキャリア全体での研究プロジェクトとプロフェッショナルな活動は、すべて人々をより賢くすることに焦点を当ててきました。だから私は教授なのです。
また、AIや科学などについて公に多くコミュニケーションを取っている理由でもあります。ソーシャルネットワークで大きな存在感があります。人々は物事を知るべきだと思うからです。
また、機械知能についても同様です。機械は人間を支援し、彼らをより賢くすると思うからです。知的で自律的な機械を作ろうとすることと、人間を支援する機械を作ろうとすることの間に根本的な違いがあると考える人がいます。しかし、そうではありません。全く同じ技術です。
システムが知的であったり、人間が知的であったりすることが、支配したり乗っ取ったりしたいという意味ではありません。人間についてさえ真実ではありません。最も賢い人間が他者を支配したいわけではありません。私たちは国際政治の場面で毎日それを目にしています。
私たちの中で最も賢い人々が指導者になりたいわけではありません。おそらく、私たちが会った最も賢い人々の多くは、基本的に人類の他の部分とは何の関係も持ちたくない人々です。彼らはただ自分の問題に取り組みたいのです。
ハンナ・アーレントがvita contemplativa、つまり活動的な生活と観照的な生活について語っていることです。彼女の哲学的分析のように、早い段階で何に取り組むかという選択をすることです。
しかし、同時に夢想家や観照的でありながら、世界に大きな影響を与えることができます。科学的生産によってです。アインシュタインやニュートンのことを考えてみてください。ニュートンは基本的に誰にも会いたくありませんでした。有名な話です。
あるいはポール・ディラック。ポール・ディラックは実質的に自閉症的でした。
書いていないか、時間がない論文やアイデア、あるいは何か後悔していることはありますか。
ああ、たくさんあります。私のキャリア全体が、自分のアイデアを表現し、書き留めることに十分な時間を割かず、ほとんどがスクープ(先を越される)されてきた連続でした。
最も重要なものは何ですか。
それについては話したくありません。でも、バックプロパゲーションは良い例です。多層ネットワークを訓練するためのある種の初期バージョンのアルゴリズムを発表しました。今日では、それをターゲット伝播と呼ぶでしょう。
バックプロパゲーション全体を理解していました。ただ、デモ・ハートやジェフ・ヒントンよりも前に書かなかっただけです。彼らは親切にも、彼らの論文で私の以前の論文を引用してくれました。そういったことがいくつかありました。
現在のことも含めて、もっと最近のこともありますが、これについて後悔はありません。これが人生です。1991年にこれを発明したと言うつもりはありません。名前を言うべきかどうかわかりませんが、知っている人は知っています。
アイデアが出てくる方法は、比較的複雑です。誰かが完全に孤立してアイデアを思いつき、他の誰も同時に似たようなアイデアを思いつかないということは稀です。ほとんどの場合、それらは同時に現れますが、アイデアを持つことと、それを書き留めることの間にはさまざまな方法があります。
書き留めるだけでなく、説得力があり明確な方法で書き留めること、おもちゃの問題で機能させること、機能することを示す理論を作ること、実際のアプリケーションで機能させること、そしてそれから製品を作ること。この全体のチェーンがあります。
少し極端な考え方をする人々は、最初にアイデアを得た人だけがすべての功績を得るべきだと考えます。私はそれは間違っていると思います。このアイデアを実際に機能する状態にするために、本当に困難なステップがたくさんあります。
この世界モデルのアイデアは、1960年代にまで遡ります。最適制御の人々は、計画を行うために世界モデルを持っていました。それがNASAが軌道に行くためのロケットの軌道を計画した方法です。基本的に、ロケットをシミュレートし、最適化によって必要な場所にロケットを到達させるための制御法則を見つけ出すことです。
これは古いアイデアです。非常に古いアイデアです。この中である程度の訓練や適応ができるという事実は、最適制御ではシステム同定と呼ばれています。これも非常に古いアイデアです。70年代にまで遡ります。
NPCとも呼ばれるもので、システムを実行している間にモデルを適応させます。70年代のフランスの論文にまで遡ります。データからモデルを学習できるという事実、人々は1980年代からニューラルネットワークでこれに取り組んできました。
ヨガのような人だけでなく、最適制御から来て、ニューラルネットワークを一種の普遍関数近似器として使用できることに気づき、直接制御やフィードバック制御、計画のための世界モデルなどに使用できる人々の全体です。
1980年代と90年代のニューラルネットワークの多くのことと同様に、それは機能しましたが、業界を席巻するほどではありませんでした。コンピュータビジョン、音声認識についても同じです。当時、ニューラルネットワークを使用する試みがありましたが、2000年代後半に本当にうまく機能し始め、完全に席巻しました。2010年代初頭にビジョン、2010年代半ばにNLP、そしてロボティクスでは始まっています。
なぜこの時期に始まったと思いますか。
それは、それについて正しい考え方、正しいマインドセット、正しいアーキテクチャ、残差接続やReLUのような正しい機械学習技術、そして十分に強力なコンピュータとデータへのアクセスの組み合わせです。これらの惑星が整列したときにのみ、ブレークスルーが得られます。
それは概念的なブレークスルーのように見えますが、実際には実用的なものです。畳み込みニューラルネットワークについて話しましょう。70年代、あるいは60年代でさえ、局所接続を使用するというアイデア、局所特徴を抽出するための局所接続を持つニューラルネットワークを構築するというアイデアを持っていた多くの人々がいました。
局所特徴は画像処理での畳み込みのようなものだというアイデアは、60年代にまで遡ります。これらは新しい概念ではありません。データを使用してこのタイプの適応フィルタを学習できるという事実は、60年代初頭のパーセプトロンとアダラインにまで遡ります。しかし、それは1層だけです。
複数層を持つシステムを訓練できるという概念、誰もが60年代にこれを探していました。誰も見つけられませんでした。多くの人々が提案を行い、それは半分機能しましたが、どれも人々に「ああ、これは良い技術だ」と言わせるほど説得力がありませんでした。
採用された技術の一つは、多項式分類器と呼ばれるものでした。今ではこれをカーネル法に変えるでしょうが、基本的に手作りの特徴抽出器があり、その上で基本的に線形分類器に相当するものを訓練します。それは70年代、確かに80年代の一般的な実践でした。
勾配降下法を使用して複数の非線形ステップで構成されるシステムを訓練できるというアイデア、その基本概念は、最適制御のケリー・ブライソン・アルゴリズムにまで遡ります。これは1962年の主に線形なものでした。最適制御の人々は60年代にこれについて書きましたが、誰もパターン認識や自然言語処理を行うための機械学習にこれを使用できることに気づきませんでした。
それは、1985年のラメルハート、ヒントン、ウィリアムズの論文の後にのみ本当に起こりました。しかし、人々は数年前に全く同じアルゴリズムを提案していました。ポール・ウェルボスが順序導関数と呼んだものを提案しましたが、それはバックプロパゲーションであることが判明しました。しかし、それは最適制御における随伴状態法と同じです。
アイデアや技術が異なる分野で複数回再発明され、後になって人々が「ああ、実際には同じものだ。以前にこれについて知っていたが、この特定のことに使用できることに気づかなかった」と言うという事実。
盗作のすべての主張は、アイデアの完全な誤解です。
AIについて考えていないとき、何をしていますか。
ほとんど時間がない趣味がたくさんあります。セーリングが好きです。夏にセーリングに行きます。トリマランやカタマランのような多胴艇のセーリングが好きです。何隻かボートを持っています。
飛行装置を作るのが好きです。
現代のダ・ヴィンチですね。
飛行機とは呼びませんが、それらの多くは飛行機のようには見えませんが、飛びます。その具体的な創造的行為が好きです。
父は航空宇宙エンジニアで、航空宇宙産業で働く機械エンジニアでした。趣味として飛行機を作り、自分のラジコンシステムなどを作っていました。彼は私と弟をそれに引き込みました。Google Researchで働く弟、パリのフランスで働く弟、それが一種の家族活動になりました。
弟と私は今もこれをやっています。そして、COVIDの年に天体写真を始めました。いくつか望遠鏡を持っていて、空の写真を撮ります。電子工機を作ります。
10代の頃から音楽に興味がありました。ルネサンスやバロック音楽、ある種のフォーク音楽も演奏していました。木管楽器を演奏しましたが、電子音楽にも興味がありました。
私より少し年上のいとこは、志望の電子音楽家でした。アナログシンセサイザーを持っていて、私は電子工学を知っていたので、彼のためにそれらを改造していました。当時、私はまだ高校生でした。
今、自宅にはたくさんのシンセサイザーがあり、電子楽器を作っています。これらは管楽器です。吹いて、運指などがありますが、生成するのはシンセサイザーの制御信号です。
技術系の多くの人がセーリングに興味を持っていると聞きました。
驚くほど多くの人からその答えを聞きました。私も今、セーリングを始めようと思います。
セーリングについて教えましょう。それは世界モデルの話にとてもよく似ています。セイルボートを適切に制御し、できるだけ速く進ませるためには、多くのことを予測しなければなりません。
波の動きを予測し、波がボートにどのように影響するかを予測しなければなりません。突風が来るかどうか、ボートがヒール(傾く)し始めるかどうかなどです。基本的に、頭の中でCFD(数値流体力学)を実行しなければなりません。
セイルの周りの空気の流れを把握しなければなりません。迎角が高すぎると、後ろが乱流になり、揚力がはるかに低くなることを知っていなければなりません。セイルを調整することは、基本的に頭の中でCFDを実行する必要がありますが、抽象的なレベルで、ストークス方程式を解いているわけではありません。
本当に良い直感があるということですね。それが好きな点です。良い仕事をするために、この精神的な予測的世界モデルを構築しなければならないということです。
問題は、どれだけのサンプルが必要かということです。
おそらくたくさん必要ですが、数年の練習でそれに到達できます。
あなたはフランス人で、何十年もアメリカに住んでいます。まだフランス人だと感じますか。その視点は、世界やアメリカのテクノロジー文化に対するあなたの見方を形作っていますか。
必然的にそうです。育ちや文化から完全に逃れることはできません。フランス人でもありアメリカ人でもあると感じています。アメリカには37年間います。カナダにいたこともあるので、北米には38年間います。
私たちの子供たちはアメリカで育ちました。その点で、私はアメリカ人です。しかし、科学や社会のさまざまな側面について、おそらくフランスで育ったことの結果である見解を持っています。フランスにいるときはフランス人だと感じます。
興味深いのは、あなたに技術系で働く弟がいることを実際には知りませんでした。ヨシュア・ベンジオの弟も技術系で働いていて、彼がAIでセリーナとヴィーナス・ウィリアムズのような唯一の状況だと思っていましたが、あなたにも弟がいるのですね。
AI研究で、それが家族で受け継がれるのは一般的なのでしょうか。
わかりません。技術系ではありませんが、教授である姉もいます。弟は、Googleに移る前は教授でした。彼はAIや機械学習には取り組んでいません。取り組まないように気をつけています。彼は私の弟です。私より6歳年下です。
彼はオペレーションズリサーチと最適化に取り組んでいます。今では、それも機械学習に侵食されています。
もう一つ質問です。世界モデルが20年後に機能したら、夢は何ですか。私たちの生活はどのようになるでしょうか。
完全な世界征服です。冗談です。冗談です。リーヌス・トーバルズが言っていたからこの統計を言いました。Linuxでの目標は何かと聞かれて、世界征服だと言い、それが非常に面白いと思いました。実際に成功しました。
基本的に、世界のすべてのコンピュータは、近似的にLinuxを実行しています。実行していないデスクトップがいくつかと、いくつかのiPhoneがありますが、他のすべてはLinuxを実行しています。
本当に、人間の知能以上まで、知的システムを訓練し構築するためのレシピを推進し、人々や人類全般の日常生活を助けるAIシステムを構築することです。常に人間の知能を増幅させることです。彼らがボスになります。
これらのものが私たちを支配するようなことにはなりません。なぜなら、何かが知的だからといって支配したいわけではないからです。それらは二つの異なることです。人類では、進化によって他の人々に影響を与えるように配線されています。時には支配を通じて、時には威信を通じてです。
しかし、私たちは社会的な種であるため、進化によってこれを行うように配線されています。これらの種類の駆動を知的システムに組み込む理由はありません。彼ら自身でこれらの種類の駆動を発達させることもありません。
私はかなり楽観的です。
私もです。
私もです。
さて、観客からの最後の質問があります。始めましょう。
今日からAIのキャリアを始めるとしたら、どのようなスキルと研究方向に焦点を当てますか。
この質問は、若い学生や将来の学生の親からよく受けます。長い棚寿命を持つものを学ぶべきだと思います。技術が非常に急速に進化しているため、本当に速く学ぶ能力を持ちたいので、学ぶことを学ぶのに役立つものを学ぶべきです。
基本的に、それは基礎を学ぶことによって行われます。STEM、つまり科学、技術、工学、数学の文脈で、人文科学について話しているのではありません。哲学は学ぶべきですが。
これは、長い棚寿命を持つものを学ぶことによって行われます。冗談で言いますが、まず第一に、長い棚寿命を持つものは、コンピュータサイエンスではない傾向があります。
ここにコンピュータサイエンスの教授がいて、コンピュータサイエンスを学ぶことに反対して論じています。来ないでください。そして、私はひどい告白をしなければなりません。私は学部で電気工学を学びました。だから、私は本当のコンピュータ科学者ではありません。
しかし、あなたがすべきことは、数学、モデリング、現実と結びつけられる数学の基本的なことを学ぶことです。このようなものは、工学で学ぶ傾向があります。一部の学校では、それはコンピュータサイエンスと結びついていますが、電気工学、機械工学などの工学の分野です。
アメリカで微積分1、2、3を学ぶと、良い基礎が得られます。コンピュータサイエンスでは、微積分1だけで済ますことができますが、それでは十分ではありません。確率論や代数など、本当に基本的なすべてのものを学ぶことです。
電気工学を行う場合、制御理論や信号処理のようなもの、これらすべての方法、最適化、これらすべての方法はAIのようなものに本当に役立ちます。
物理学でも同様のことを学ぶことができます。物理学は、予測モデルを作ることができるように、現実について何を表現すべきかということです。それが知能の本当の意味です。
物理学のカリキュラムを通じて、必要なことのほとんどを学ぶことができると思います。しかし、明らかに、プログラミングやコンピュータの使用方法を学ぶために、十分なコンピュータサイエンスを学ぶ必要があります。
AIがプログラミングでより効率的になるのを助けてくれても、これを行う方法を知る必要があります。
バイブコーディングについてどう思いますか。
クールだと思います。面白い現象を引き起こします。書かれるコードの多くが一度だけ使用されることになります。コードを書くことが非常に安くなるからです。
AIアシスタントに、このグラフを作成するか、この研究を行うかを頼むことになります。少しシミュレータやアプレットが必要で、一度使用して捨ててしまいます。生成するのが非常に安いからです。
プログラマーがもう必要ないというアイデアは誤りです。ソフトウェアを生成するコストは、何十年も継続的に下がっています。それは、コストが下がる次のステップに過ぎませんが、コンピュータが有用でなくなるという意味ではありません。より有用になります。
もう一つ質問です。神経科学と機械学習の間の関連についてどう思いますか。AIが神経科学から借りるアイデアがたくさんあり、その逆もあります。例えば予測コーディングです。
神経科学から、特に生物学全般から得られるインスピレーションがたくさんあります。私は確かに神経科学の古典的な仕事に非常に影響を受けました。ヒューベルとウィーゼルの視覚皮質のアーキテクチャに関する仕事は、基本的に畳み込みニューラルネットワークにつながりました。
人工ニューラルネットワークでこれらのアイデアを使用した最初の人間ではありませんでした。60年代にこれを行おうとしていた人々がいました。80年代には、複数の層を持つ局所的に接続されたネットワークを構築している人々がいました。彼らはバックプロパゲーションでそれらを訓練する方法を持っていませんでした。
福島のコグニトロン、ネオコグニトロンがありました。それは多くの要素を持っていましたが、適切な学習アルゴリズムを持っていませんでした。コグニトロンの別の側面は、それが本当に視覚皮質のモデルであることを意図していたことです。
生物学のすべての癖を再現しようとしました。例えば、脳では正と負の重みを持っていません。正と負のニューロンを持っています。抑制性ニューロンから出てくるすべてのシナプスは負の重みを持ちます。非抑制性ニューロンから出てくるすべてのシナプスは正の重みを持ちます。
福島は彼のモデルにこれを実装しました。ニューロンがスパイクするという事実を実装しました。スパイキングニューロンモデルを持っていませんでしたが、負の数のスパイクを持つことはできません。だから、彼の関数は基本的に、飽和を持つReLUのような整流でした。
そして、彼はさまざまな仕事から、ある種の正規化があることを知っていました。そうしないと、バックプロパゲーションがなかったので、このネットワークでの活性化が制御不能になってしまうため、これを使用しなければなりませんでした。だから、除算正規化を行わなければなりませんでした。
これは実際に、NYUの神経科学センターの同僚であるデビッド・ヘーガーのような人々が推進してきた視覚皮質のいくつかの理論モデルに対応していることがわかります。
神経科学は非常にインスピレーションの源だと思います。最近では、世界モデルや計画などに関して、脳のマクロアーキテクチャのようなものがあります。これはどのように再現されるのでしょうか。
例えば、事実記憶のための脳に別個のモジュール、海馬がある理由は何でしょうか。今、特定のニューラルネットワークアーキテクチャで、別個のメモリモジュールがあるのを見ています。それは良いアイデアかもしれません。
私たちが新しいAI、ニューラルネットワークアーキテクチャ、深層学習アーキテクチャを思いつき、事後的に、実装した特性が実際に脳に存在することを発見することになると思います。
実際、今、私たちの科学で起こっていることの多くは、AIから神経科学へのフィードバックがたくさんあるということです。今日、人間の知覚の最良のモデルは、基本的に畳み込みニューラルネットワークです。
観客に対して、他に追加したいことや言いたいことはありますか。
多くのことをカバーしたと思います。誰の話を聞くか注意する必要があります。経済学について話すAI科学者の話を聞かないでください。AI関係者やビジネス関係者が、AIが全員を失業させると言っても、エコノミストに話してください。
基本的に、彼らの誰も、これに近いことを何も言っていません。技術革命が労働市場に与える影響は、何人かがキャリアを捧げてきたことです。彼らの誰も、大規模な失業を予測していません。放射線科医が全員失業するなどとは予測していません。
また、AIの実用的なアプリケーションを実際に展開することは、十分に信頼性が高く、すべてが超困難で非常に高価であることを理解してください。AIへの関心の以前の波では、人々が大きな希望を抱いていた技術が、いくつかのアプリケーションを除いて、過度に扱いにくく高価であることがわかりました。
1980年代には、エキスパートシステムへの大きな関心の波がありました。日本は、Lispや推論エンジンなどを実行するCPUを搭載したコンピュータである第五世代コンピュータプロジェクトという巨大なプロジェクトを開始しました。
80年代後半の最もホットな仕事は、知識エンジニアになることでした。専門家の隣に座って、専門家の知識をルールと事実に変えることです。そして、コンピュータが基本的に専門家が望むことを行えるようになります。これは手動の行動コーディングでした。
それは機能しましたが、経済的に意味があり、十分な信頼性のレベルで実行可能な少数の領域だけでした。しかし、それは人間レベルの知能への道ではありませんでした。
今日人々が持っている妄想、現在のAI主流のファッションが人間の知能に連れて行ってくれるという妄想は、私のキャリア中に既に3回起こっており、おそらくその前に5、6回起こっています。
パーセプトロンについて人々が言っていることを見るべきです。ニューヨーク・タイムズの記事がありました。人々は、10年以内に超知的な機械を持つことになると言っていました。60年代のマービン・ミンスキーは、10年以内に世界最高のチェスプレイヤーはコンピュータになると言いました。それよりも少し長くかかりました。
これは何度も何度も起こりました。1956年頃、ニューウェルとサイモンが一般問題解決器を作成したとき、非常に控えめに一般問題解決器と呼ばれていました。
彼らが本当にクールだと思ったことは、こう言いました。私たちの考え方は非常にシンプルです。問題を提起します。その問題に対する多くの異なる解決策があります。巡回セールスマン問題のように、解決策の潜在的な空間があります。階乗のn個の可能なパスがあり、最良のものを探すだけです。
彼らは、基本的にすべての問題をこの方法で定式化できると言いました。最良の解決策を探すために。良い解決策かどうかをチェックするプログラムを書くか、それに評価を与えることによって問題を目的として定式化できれば、そのスコアを最適化する解決策の空間を探索する検索アルゴリズムを持てば、AIを解決できます。
さて、彼らが当時知らなかったことは、複雑性理論のすべてです。興味深いすべての問題は指数的またはNP完全などです。だから、ヒューリスティックプログラミングを使用しなければなりません。すべての新しい問題に対してヒューリスティックを思いつくことです。
基本的に、一般問題解決器はそれほど一般的ではありませんでした。最新のアイデアがAGI、あるいは何と呼びたいものでもいいですが、それに連れて行ってくれるというこのアイデアは非常に危険で、多くの非常に賢い人々が過去70年間にわたって何度もこの罠に陥りました。
この分野は継続的または増分学習を解明すると思いますか。
もちろんです。それは技術的な問題ではありません。
破滅的忘却を考えていました。非常に多くのお金をかけて訓練した重みが上書きされてしまうからです。
そうです。だから、その一部だけを訓練します。私たちは既にSSL(Self-Supervised Learning)でこれを行っていますよね。ビデオなどのモデルを訓練します。VJEPA 2のようなものは、ビデオの本当に良い表現を生成します。
そして、特定のタスクのためにシステムを訓練したい場合、その上に小さなヘッドを訓練し、そのヘッドは継続的に学習できます。世界モデルでさえ、継続的に訓練できます。これは大きな課題だとは思いません。
実際、2005年、2006年にリャオ・サー、私、そして数人の同僚が、このアイデアを持つモバイルロボット用のビジョンベースのナビゲーションシステムを構築していました。カメラ画像からセマンティックセグメンテーションを行う畳み込みニューラルネットワークでした。
そのネットワークの上位層は、現在の環境に適応するようにその場で適応されました。だから、良い仕事をしました。ラベルは、基本的にステレオビジョンによって示される短距離の走行可能性から来ました。
これはできます。特にマルチモーダルの場合は。これを大きな課題だとは思いません。
お招きいただいてうれしかったです。
本当に楽しかったです。
どうもありがとうございました。
ありがとうございました。


コメント