
18,922 文字

現在の AI システムは多くの面で非常に愚かです。言語を非常に上手く操れるので、私たちはそれらが賢いと思い込んでいます。メタ社の副社長であるヤン・ルカン教授は、世界で最も強力な AI システムの一つの開発を監督しています。
「私の同僚と私が取り組んでいるのは、物理的世界を理解し、永続的な記憶を持ち、推論や計画ができる新しいタイプの AI システムの設計です。このシステムは感情を持つでしょう。恐怖や興奮、喜びなどを感じるのです。」
彼はコンピュータサイエンスの最高栄誉であるチューリング賞と、エリザベス女王 II 世工学賞を受賞しました。「テスラは今後5年以内にレベル5の自動運転を達成するとイーロン・マスクが言っていますが、彼は過去8年間ずっとそう言い続けています。この8年間、『来年実現する』と言い続けてきましたが、明らかにそうはなっていません。彼の言うことを信じるのをやめるべきでしょう。彼は一貫して間違っていたのです。彼は自分が正しいと思っていたが間違っていたのか、単に嘘をついていたのかのどちらかです。」
彼の研究は約40万の引用を集め、2015年のノーベル賞受賞者ジェフリー・ヒントンとの共著による「ディープラーニング」論文は科学史上最も頻繁に引用される論文の一つです。
「AI の発展を日々見て驚いていますか?」
「いいえ、実際は驚いていません。」
インタビュアーはマット・ケキ博士で、科学普及者であり元欧州連合のデジタル大使です。
「教授、お会いできて大変光栄です。最初の質問は、あなたの研究についてです。Google Scholar で50万回も引用されていますが、ジェフリー・ヒントンとのディープラーニングの研究が、なぜそれほどのゲームチェンジャーになったのでしょうか?」
「おそらく2015年にジェフ・ヒンとンと私が『ネイチャー』誌に発表した論文のことを言っているのでしょう。これは新しい研究ではなく、基本的には一種のマニフェストあるいはレビュー論文でした。広範な科学コミュニティや研究者たちに、うまく機能する新しい技術のセットがあることを伝え、それがうまく機能する分野のリストと、将来の方向性を示したものです。それは言わばディープラーニングの普及の公式な始まりを示すものでしたが、その論文自体には本当に新しい成果は含まれていませんでした。他の引用の多くは、1980年代と90年代に私が行った研究に関するものです。」
「その人気が始まった瞬間、歴史上最も人気のある研究の一つになったと気づいた瞬間を覚えていますか?」
「実は二つの波がありました。2回起こったのです。最初の波は80年代後半で、多層ニューラルネットワークを使って本当に良い結果が出始めた時でした。今ではディープラーニングと呼ばれているものです。当時は複雑な画像を認識することはできず、手書き文字のような単純な画像が中心でしたが、これは本当にうまく機能していました。当時、これらの結果が出始めたときは本当に興奮しました。これによって、パターン認識の方法が完全に変わり、最終的にはコンピュータビジョン、さらには AI 全般が変わるかもしれないと思ったからです。
80年代後半から90年代半ばにかけて一時的な熱狂がありましたが、90年代半ばになると関心が消えました。理由は、私たちが開発した技術がトレーニングに多くのデータを必要としたからです。インターネット以前だったので、いくつかの応用分野、例えば手書き認識や文字認識、音声認識などのための良いデータしか得られませんでした。また、当時は本当に高価なコンピュータが必要で、大きな投資が必要だったので、90年代半ばにはこの種の関心は消えてしまいました。
その後、2000年代後半に徐々に関心が復活し、2013年頃に完全に爆発しました。2013年が本当に重要な年で、研究界がディープラーニングが本当によく機能し、多くの異なる分野に適用できることを認識しました。それ以来、本当に急速に成長してきましたね。2015年はさらに大きな推進力となりました。」
「私たちは AI を人間の能力に近づけようとしています。怒りや不安のような人間の弱点も取り入れることになるでしょうか?そうなると思いますか?」
「いいえ、現在の AI システムは多くの面で非常に愚かです。言語を非常にうまく操れるので、私たちはそれらが賢いと思い込んでいますが、物理的世界を理解していませんし、我々が持つような永続的な記憶も持っていません。本当に推論することも計画を立てることもできません。これらは知的行動の本質的な特徴です。
私の同僚と私がフェアー(FAIR)とニューヨーク大学で取り組んでいるのは、依然としてディープラーニングに基づいていますが、物理的世界を理解し、永続的な記憶を持ち、推論や計画ができる新しいタイプの AI システムの設計です。私の意見では、このような設計図に基づいてシステムを構築することに成功すれば、これらのシステムは感情を持つでしょう。恐怖や興奮、喜びなどの感情を持つことになります。
基本的に、これらのシステムは私たちが設定した目標を達成するために機能します。目標を与え、それを達成するためにどのような行動を取ればよいかを考えます。もし事前にその目標が達成されると予測できれば、それは彼らを幸せにするでしょう。できないと予測すれば、それは彼らを幸せにはしないでしょう。ある意味で、彼らは取りうる行動の結果を予想できるので感情を持つことになります。
しかし、怒りや嫉妬などのような感情、あるいは意識などは、私たちが意図的にプログラムすることはありません。」
「意識は別物ですね。実際には何なのか分かっていません。定義も、本当に測定可能なもので何かが意識を持っているかどうかを判断できる尺度もありません。例えば動物を観察する場合でも。」
「おそらく私たちは皆、類人猿やサルが意識を持っていること、そしておそらく象や同様のタイプの動物も意識を持っていることに同意するでしょう。」
「ペンローズも私たちのインタビューでそう言っていましたね。あなたは彼に完全に同意するのですか?」
「そうですね、でも犬は意識を持っているのか、ネズミは意識を持っているのか、どこに境界線があるのか。良い定義がないので、本当には言えません。」
「年代について。あなたは『機械学習はひどい』と言いましたが、何か変わりましたか?」
「それは私たちが取り組んでいることです。私たちは、機械がヒトや動物と同じくらい効率的に学習できるような、新しい機械学習システムの構築方法に取り組んでいます。現在はそうなっていません。
機械学習がどのように進歩してきたかの歴史を少し説明できます。実際に機械学習には3つのパラダイムがあります。一つは教師あり学習と呼ばれる最も古典的なものです。教師あり学習システムをトレーニングする方法は、例えば画像を認識するためのシステムの場合、テーブルの写真を見せて、『これはテーブルです』と教えます。これは正解を教えるので「教師あり」と呼ばれます。システムが出力を計算し、「テーブル」以外の何かを出力した場合、その出力が望む出力に近づくように内部構造やパラメータを調整します。多くのテーブル、椅子、車、猫、犬などの例でこれを続けると、システムは最終的にトレーニングしたすべての画像を認識する方法を見つけるだけでなく、見たことのない似たような画像も認識できるようになります。これを汎化能力と呼びます。
動物や人間の学習方法に近いと考えられていた強化学習と呼ばれる別のパラダイムもあります。強化学習では、システムに正解を教えるのではなく、それが出した答えが良かったか悪かったかだけを伝えます。これはある程度、人間や動物の学習の一部を説明できます。自転車に乗ろうとして、乗り方が分からず、しばらくすると転んでしまう。何か悪いことをしたと分かるので、少し戦略を変える。最終的に自転車の乗り方を学びます。
強化学習は非常に非効率的であることが分かっています。チェスや囲碁、ポーカーなどをプレイするシステムを訓練するには非常にうまく機能します。システムに自分自身と何百万回もゲームをプレイさせて基本的に自己調整させることができるからです。しかし、実世界ではうまく機能しません。車を自動運転するように訓練したい場合、強化学習では何千回も衝突することになります。ロボットにものをつかむ方法を学習させるには、強化学習が解決策の一部になりますが、完全な答えではなく、十分ではありません。
自己教師あり学習と呼ばれる第三の学習形態があり、これが自然言語理解やチャットボットにおける最近の進歩を可能にしています。自己教師ありでは、特定のタスクを達成するようにシステムを訓練するのではなく、単に入力の構造を捉えるように訓練します。例えばテキストの場合、一部の単語を削除して破損させ、その後、欠けている単語を予測するように大きなニューラルネットを訓練します。特殊なケースとして、テキストの最後の単語が見えないようにして、システムに最後の単語を予測するよう訓練します。これが大規模言語モデルのトレーニング方法で、すべてのチャットボットはこのように訓練されています。技術的には少し異なりますが、基本原理はそれです。
これを自己教師あり学習と呼びます。タスクのためにシステムを訓練するのではなく、入力の内部依存関係を学習するように訓練します。その成功は驚くべきもので、非常にうまく機能します。最終的には言語を本当に理解し、教師あり学習や強化学習で適切に調整すれば質問を理解して答えることができるシステムが得られるのです。
これが業界の誰もが取り組んでいることです。」
「しかし、そのモデルは、システムが物理的世界を理解しようとする場合には機能しませんね?何かが足りないのでは?」
「そうです、物理的世界は言語よりもはるかに理解が難しいのです。言語は知性の頂点だと考えられていますが、人間だけが言語を操ることができるからです。しかし実は言語は単純です。離散的で、離散的なシンボルの連続だからです。辞書には有限個の単語しかありません。
次にどの単語が来るかを正確に予測するようにシステムを訓練することはできませんが、辞書内のすべての単語にスコアや確率を割り当てて、その位置に現れる可能性を示すことはできます。このように予測の不確実性を扱うことができます。
しかし、ビデオで何が起こるかを予測するようにシステムを訓練することはできません。これを試みた人は多く、私も20年間試みてきましたが、多くの人がこのアイデアを持っていました。もしビデオで何が起こるかを予測するようにシステムを訓練できれば、そのシステムは暗黙のうちに世界の基本構造を理解するだろうというものです。直感的な物理学、動物や赤ちゃんとしての私たちが学ぶすべてのものを理解するでしょう。」
「物理的な直感ですね。」
「そう、例えば、物体を持って手を離すと落ちることを知っています。基本的に重力が物体を地面に引き寄せていることを学んでいます。人間の赤ちゃんは約9ヶ月でこれを学びます。」
「今日の AI 開発の限界は、現実についての私たちの知識なのでしょうか?重力がどのように生まれたかも分からないし、量子世界が古典世界にどのように変換されるかも分からない。」
「いいえ、それは単純な問題です。猫や犬は数ヶ月で重力について学ぶことができます。猫は本当に上手で、複雑な行動を計画し、あらゆる種類のものに登ったり飛び降りたりできます。明らかに私たちが直感的物理学と呼ぶものを非常によく理解しています。
でも、私たちはまだコンピュータでこれを再現する方法を知りません。理由の一つは、これがAI研究者が「モラベクのパラドックス」と呼んでいるものの例だからです。モラベクはロボット工学者で、なぜコンピュータがチェスをプレイしたり数学パズルを解いたりできるのに、動物ができるような物体の操作や跳躍などの物理的なことができないのか、という疑問を提起しました。
離散的なオブジェクトやシンボルの空間はコンピュータによって簡単に操作されますが、実世界はまだ複雑すぎて、一方で機能する技術が他方では機能しないという、このパラドックスの別の例です。
これを視覚化する良い方法は、視覚や触覚などの感覚を通じて私たちに届く情報量が、言語を通じて得られる情報量と比較して絶大だということです。これが、法律試験に合格したり数学の問題を解いたり、良い文章を書いたりできるチャットボットがあるにもかかわらず、猫や犬ができるようなタスクを実行できる家庭用ロボットや、完全自律型レベル5の自動運転車を持っていない理由かもしれません。17歳の若者が約20時間の練習で運転できるようになるようなセルフトレーニングの自動運転車は確実にありません。
明らかに私たちは何か大きなものを見逃しています。見逃しているのは、視覚などの複雑な感覚入力を理解するようにシステムを訓練する方法です。これは、機械を人間や動物と同じくらい効率的に学習させたい場合に必要なことです。もし動物や人間の知能に似た知能を持つ機械、常識を持ち、おそらくいつか意識を持つような機械が欲しいのであれば、その問題を解決する必要があります。
非常に単純な計算を示しましょう。典型的な大規模言語モデルは約20兆トークン、つまり20,000億のトークンで訓練されます。トークンは大体、単語のようなものです。通常、トークンは3バイトで表現されます。つまり、20〜30兆トークン、それぞれ3バイトなので、これは約10の14乗バイト、1の後に14個のゼロがつく数字です。これはインターネット上で公開されているすべてのテキストの総量です。私たち一人一人がそれを読み通すには何十万年もかかるでしょう。それは膨大な情報量です。
しかし、これを生後4年間の視覚システムを通じて脳に届く情報量と比較すると、だいたい同じ量です。4年間で、幼い子どもは合計約16,000時間起きていて、視神経を通じて脳に届く情報量は約毎秒2メガバイトです。計算すると、これも約10の14乗バイトになります。
これが示すのは、テキストだけで訓練することによって人間レベルのAIに到達することは決してないということです。実世界を理解するシステムが必要で、その実世界を理解することが本当に難しいのです。」
「LinkedInとFacebookで、AIとエントロピーを結びつけていますね。その関連性は何ですか?ご説明いただけますか?」
「これは非常に理解が難しいものでしたので、簡単な言葉で言うと、コンピュータサイエンス、物理学、情報理論など多くの分野の根底にある大きな問題があります。それは情報をどのように定量化するかという問題です。メッセージにどれだけの情報が含まれているか。
私が何度も主張してきたのは、メッセージの情報量は絶対的な量ではないということです。それはそのメッセージを解釈する人に依存します。センサーやメッセージ、誰かが話す言語などから抽出できる情報量は、それをどう解釈できるかによって異なります。情報を絶対的な用語で測定できるという考えはおそらく間違っています。すべての情報測定は、その情報を解釈する特定の方法に関連しています。
これは非常に広範な影響を持ちます。絶対的に情報を測定する方法がないということは、物理学の多くの概念が本当に客観的な定義を持たないことを意味するからです。例えばエントロピーは物理系の状態に関する無知の尺度であり、それはもちろんシステムについてどれだけ知っているかに依存します。
私はこのアイデア、相対的なエントロピー、複雑性、情報内容の良い定義を見つけようとすることに取り憑かれてきました。」
「AIモデルをトレーニングするためのグローバルデータベースは使い果たされていると思いませんか?2000年には25%のデータがデジタル化されていましたが、今日ではすべてがデジタル化されています。」
「いいえ、デジタル化されていない大量のテキスト知識があります。おそらく先進国の多くではデジタル化されていますが、その多くは公開されていません。例えば、公開されていない医療データがたくさんあります。また、世界の多くの地域のデジタル形式ではアクセスできない、あるいはスキャンされた文書の形でしかないような文化的・歴史的データも多くあります。まだたくさんのデータがあると思います。」
「それは現実の性質についての質問ですか?例えば、人間の脳で物質が意識に変換される方法についてはまったく分かっていません。そのようなデータはありませんが、将来的には得られるかもしれません。」
「意識の問題に執着するべきではないと思います。世界がそれに執着しているだけです。正直に言って、それは少しニッピー現象だと思います。おそらく意識の良い定義を見つけられない理由は、私たちが正しい質問をしていないからでしょう。
例を挙げましょう。18世紀、17世紀に人々は網膜上の像について発見しました。光が目に入り、レンズを通過し、網膜上の像が逆さまに形成されるということを。当時の人々は完全に困惑していました。網膜上の像が逆さまに形成されているのに、私たちはどうやって世界を正しい向きで見ているのか?それは彼らにとってパズルでした。今では、その質問が無意味だと分かっています。あなたの脳がどのように画像を解釈するかを考える方法において、網膜上で画像がどの方向に形成されるかは無関係です。
意識もこれに少し似ていると思います。存在すると思われるけれど定義できず、指で触れることができないものなのです。」
「それが私たちを個人たらしめているのではないですか?」
「いいえ、明らかにそれは違います。私たち全員を互いに異なるものにしている多くの要素があります。私たちは異なる経験を持ち、異なることを学び、異なる環境で育ちます。脳の配線も少し異なります。
これは進化にとって必要なことです。すべての人間が個体として異なることを確実にすることは、私たちが社会的動物だからです。同じ部族の中で異なる人々が少し異なっていることには大きな利点があります。それは彼らが専門知識を組み合わせることができるからです。もし私たちの誰もが同じだったら、数の力はないでしょう。しかし、私たちが異なるからこそ、多様性があるからこそ、私たちはより強いのです。
これは進化の結果であり、脳の配線が少し異なる、異なる神経伝達物質やホルモンなどの調整が少し異なることによって行われます。これが私たちを異なるものにしています。」
「自由な推論、抽象的思考モデル、o1などについては、あなたの研究室からこのようなものを期待できますか?」
「観察から抽象的表現を作り出すという問題はディープラーニングの鍵です。ディープラーニングは表現を学ぶことが全てです。実際、ディープラーニングに関する主要な会議の一つは国際表現学習会議(International Conference on Learning Representations)と呼ばれ、私が吉野とともに共同創設したものです。これは、抽象的表現を学ぶという問題がAI全般、特にディープラーニングにとってどれほど中心的かを示しています。
システムに推論させたい場合、別の特性セットが必要です。基本的に、推論や計画の行為は、機械学習だけでなく1950年代からのAI全般において、問題の解決策を検索する方法を持つことから成り立っています。
例えば、都市のリストを与えられ、それらすべての都市を巡る最短の回路を求められたとします。あなたは考えて、近くの都市間を移動すれば総回路ができるだけ短くなるだろうと言うでしょう。都市のすべての順列、つまりあなたが都市を通る順序のすべてのセットである、可能なすべての回路の空間があります。これは膨大な空間です。GPSなどのアルゴリズムが経路を検索する方法は、可能なすべての経路の中から最短のものを検索することです。
すべての推論システムはこの検索のアイデアに基づいています。可能な解決策の空間の中で、あなたが望む目標に合致するものを検索します。
現在のシステム、現在のLLMがこれを行っている方法は非常に原始的です。これはトークン空間と呼ばれる出力の空間で行われています。基本的に、システムに多くの異なるトークンのシーケンスを多かれ少なかれランダムに生成させ、次に別のニューロネットワークにすべての仮説シーケンスの中から最も良く見えるものを探させます。それからそれを出力します。これは非常にコストがかかります。多くの出力を生成し、良いものを選ぶ必要があるからです。これは私たちの考え方ではありません。
もし私があなたに、例えば目の前の空中に浮かぶ立方体を想像してください、とお願いしたとします。その立方体を垂直軸の周りに90度回転させてください。90度回転させた立方体があります。その立方体を見て、回転させる前の元の立方体のように見えるかどうか教えてください。答えはイエスです。なぜなら、立方体を90度回転させても、それはまだ立方体で、同じ視点から見ているからです。」
「それは自由な推論の幻想ということですか?」
「あなたは精神状態の中で推論しているのです。出力行動状態で、物理的世界で、あるいはあなたの出力状態で推論しているのではありません。抽象的な空間で推論しているのです。
私たちには世界の心的モデルがあり、世界で何が起こるかを予測し、現実を操作し、私たちの行動の結果を事前に予測することができます。そして、立方体を90度回転させるなど、私たちの行動の結果を予測できれば、特定の目標に到達するように行動のシーケンスを計画することができます。
意識的にタスクを遂行するとき、私たちの心はそれに集中し、イケア家具を組み立てたり、木で何かを作ったり、基本的に私たちが毎日心を使うすべてのことを行うために、どのような行動順序が必要かを考えます。これらはこの種のタスクです。計画が必要で、ほとんどの場合、階層的に計画します。
例えば、あなたはいつかワルシャワに戻るでしょう。もしニューヨークからワルシャワに戻ることを今決めたとして、空港に行き飛行機に乗る必要があることは知っています。ここで、「空港に行く」というサブゴールができます。これが階層的計画です。最終目標に対するサブゴールを定義します。最終目標はワルシャワに行くこと、サブゴールは空港に行くことです。
ニューヨークにいるので、通りに出てタクシーで空港に向かいます。どうやって通りに出るのか?この建物から出てエレベーターに行き、エレベーターで下に降り、建物から出る必要があります。どうやってエレベーターに行くのか?立ち上がってドアに行き、ドアを開けるなどの行動が必要です。そして、最終的には計画する必要がないほど十分に近い目標に到達します。例えば椅子から立ち上がるのに計画は必要ありません。とても慣れているので、ただ実行できるのです。
この階層的計画を行う必要があるという考え、知的システムが階層的計画を行う必要があるという考えは極めて重要です。現在の機械でこれを行う方法はまだ分かっていません。これが今後数年間の大きな課題です。」
「だからあなたはダボスでロボット工学について多くの時間を費やしたのですね。ロボット工学の10年の到来について話されました。ロボット工学には終わりのない冬がありましたが、今回はなぜ違うのでしょうか?」
「ロボティクス…ロボットは今日多く使われていますが、比較的単純で非常に単純な方法で自動化できるタスクに使われています。」
「より良いセンサー、より良いシミュレーターなどですか?」
「センシングが難しくなる必要がないタスクですね。工場で車を塗装したり、部品を組み立てたりするような製造ロボットがあります。すべてが適切な場所にある限り、これらのロボットは基本的に単なるオートマタ(自動機械)です。
しかし、運転のような別のタスクを考えてみましょう。自動運転車はロボットであり、運転支援機能を持つ車もロボットです。私たちはまだ人間と同じくらい信頼性の高い自動運転車を持っていません。ウェイモやそのような会社はありますが、彼らは少しズルをしています。人間の感覚よりもはるかに洗練されたセンサーを使用しています。」
「イーロン・マスクはテスラが今後5年以内にレベル5の自動運転を達成すると言っていますが」
「彼は過去8年間ずっとそう言い続けています。過去8年間、『来年実現する』と言い続けてきましたが、明らかにそうはなっていません。この件に関して彼を信じるのをやめるべきでしょう。彼は一貫して間違っていました。彼は自分が正しいと思っていたが間違っていたのか、単に嘘をついていたのかのどちらかです。」
「それは彼がチームを鼓舞するための方法だと思います。年々達成不可能な目標に到達させようとしています。」
「しかし、エンジニアや科学者にとって、自分のキャリアをかけて解決しようとしている問題を、CEOから『来年解決する』と言われるのは非常に難しいことだと思います。」
「私たちの時代の最大の課題は、AIとロボティクスとセンサーを統合することだと思いますか?」
「物理的世界を理解し、永続的な記憶を持ち、推論や計画ができるAIシステムを構築できれば、現在のロボットよりもはるかに柔軟なロボットを動かすための基盤を持つことになります。
過去1〜2年の間に多くのロボティクス企業が設立されました。人型ロボットなどを構築しており、そのデモはすべて本当に印象的ですが、それらのロボットは非常に愚かです。人間ができることをすることができません。物理的能力がないからではなく、実世界に対処するのに十分に賢くないからです。
これらの企業の多くは、AIが今後3〜5年で急速に進歩するという事実に期待しています。そのため、大規模にロボットを販売し構築する準備ができたとき、AIが進歩しているので十分に賢くなっているでしょう。これは大きな賭けです。
今後3〜5年以内に起こるかどうかは言えませんが、今後10年以内により柔軟なロボットを可能にするAIで大きな進歩を遂げる可能性が非常に高いです。だから私は次の10年をロボティクスの10年と呼んでいます。」
「AI開発の進歩を日々夜ごと見て驚いていますか?」
「いいえ、実際は驚いていません。私を驚かせたのは、非常に不連続だったという事実です。1980年代と90年代に多くの進歩があり、その後何もなく、2000年代にも進歩がありましたが、それはほとんどの人が気づかないレーダーの下でした。
そしてその進歩が2013年頃に目に見えるようになると、分野全体が爆発し、多くの賢い人々が取り組み始め、多くの企業が投資を始めました。より多くの関心が集まりました。より多くの投資とより多くの賢い人々が取り組んでいるため、現在は進歩が加速しています。
しかし、1980年代以降の進歩がもっと連続的だったと思っていました。」
「今日、世界中が中国の新しいモデル、DeepSeekについて話しています。アメリカのものよりはるかに安価なオープンソースです。馬は小屋から出てしまったと思いませんか?」
「非常に明確に説明する必要があることがあります。研究や開発が公開されていて、それを作成するために使用される技術が論文やホワイトペーパー、レポートなどで公開されていて、コードがオープンソースである場合、全世界がそれから恩恵を受けます。それを作成した人や団体だけでなく。
作成した人や団体は名声を得ます。認知され、おそらく投資なども得るでしょうが、全世界がそれから恩恵を受けます。これがオープン研究とオープンソースソフトウェアの魔法です。
メタ、私自身、そしてより一般的にメタは、オープン研究とオープンソースのこのアイデアの非常に強力な支持者です。オープン研究とオープンソースを実践するエンティティが何かを生み出すたびに、オープンソースのコミュニティ全体もそれから恩恵を受けます。
これを競争のように表現する人もいますが、実際はそうではありません。むしろ協力です。問題は、この協力が世界的なものであるべきかということであり、私の答えはイエスです。世界中のあらゆる場所から良いアイデアが生まれているからです。
例えばLLaMA、メタが出した最初のLLM(実際には最初のLLMではありませんでしたが、それ以前にもLLMがありましたが、少しレーダーの下でした)は、私が10年前に創設したパリのFAIRで作られました。このパリのラボには100人以上の研究者がいて、パリのラボやモントリオールのラボから多くの良いものが生まれています。
研究コミュニティは本当に世界的なもので、誰もが貢献しています。良いアイデアを独占する団体はなく、だからこそオープンな協力が分野をより速く進歩させます。私たちがオープン研究とオープンソースの大きな支持者である理由は、他の科学者と通信するとき、分野全体がより速く進歩するからです。
業界の中には、以前はオープン研究を実践していたが閉鎖的になった人々もいます。OpenAIがそうですし、Anthropicは最初からオープンではありませんでした。すべてを秘密にしています。Googleはある程度オープンから、私たちの調整によってオープンになり、部分的に閉鎖的になりました。Geminiの背後にある技術のすべてを明かしていません。まだ多くのオープン研究を行っていますが、それはより基本的で長期的なものです。
多くの人々が基本的に世界の研究コミュニティの外に自分を置き、進歩に貢献していないのは悲しいことだと思います。過去10年間でAIの進歩がこれほど速かった理由は、オープン研究のおかげです。」
「誰もがそれを信じていますか?」
「絶対にそうです。これは事実であり、信念ではありません。私だけではありません。例を挙げましょう。
AIの産業のほぼ全体が、少なくとも研究開発段階では、PyTorchというシステムを構築するためのソフトウェアを使用しています。PyTorchはオープンソースで、最初はメタのFAIRの私の同僚によって作成され、その後、数年前にPyTorchの所有権がLinux Foundationに移されました。メタはもはやそれを所有していませんが、主要な貢献者ではありますが、もはやそれを制御していません。基本的に開発者のコミュニティによって管理されています。
業界全体がそれを使用しています。OpenAI、Anthropic、Microsoft、NVIDIA、すべてが含まれます。Googleは独自のものを持っていますが。学術界全体、研究界全体がPyTorchを使用しています。科学文献に掲載されるすべての論文のうち、約70%にPyTorchが言及されていると思います。
これは、AIの進歩が互いの作業の上に構築されていることを示しています。そして、そのようにして科学と技術の進歩を作るのです。」
「DeepSeekではなく、もしかしたらアメリカのゲートかスターゲートプロジェクトがすべてを変えるかもしれませんか?人類史上最大のプロジェクトだと思いませんか?」
「DeepSeekについてもう一つ言わせてください。それは良い仕事です。これに取り組んでいる人々は本当に良いアイデアを持っていました。本当に良い仕事をしました。これは中国から非常に革新的な良い仕事が出てくる初めてのことではありません。長い間これを知っていました。特にコンピュータビジョンなどの分野では。」
「進歩ですね」
「大規模言語モデルにおける中国からの貢献はより最近のものですが、コンピュータビジョンではそれは長い伝統です。一流のコンピュータビジョン会議を見ると、参加者の半分は中国人です。そこには非常に優れた科学者がおり、非常に賢い人々がいます。
米国も欧州も、世界のどの地域も良いアイデアを独占していません。DeepSeekのアイデアはおそらく数週間以内に再現され、おそらく米国、欧州、中東など、あらゆる場所のエンティティから出てくる将来のバージョンに統合されるでしょう。
今や世界の知識の一部です。これがオープンソースとオープン研究の美しさです。製品レベルでは競争ですが、基本的な方法のレベルでは競争ではなく、協力です。」
「スターゲートについて話しましょう」
「AIに関わるすべての企業が、数十億の人々が毎日AIアシスタントを使用したいという近い将来を見ています。私は今メガネをかけていますが、見えるかどうか分かりませんが、カメラが付いています。これはRay-Ban Metaです。メタによって作られています。
話しかけることができ、アシスタントがあります。AIに接続されていて、どんな質問でも聞くことができます。カメラから植物の種を認識するように頼むこともできます。私たちは、人々がスマートグラスを着用したり、スマートフォンやスマートデバイスを使用したりして、日常生活でAIアシスタントを常に使用する未来を見ています。それらは日常生活で彼らを助けるでしょう。
これは、数十億のユーザーがそれらのAIアシスタントを1日に複数回使用することを意味し、そのためには非常に大きな計算インフラストラクチャが必要です。LLMやAIシステムの実行は安くないからです。多くの計算パワーが必要です。
メタは今年、インフラに約60〜65億ドルを投資しています。主にAIのためです。Microsoftは800億ドルの投資を発表しています。そしてスターゲートは5,000億ドルですが、それは5年から10年にわたるもので、お金がどこから来るのかは分かりません。
それは同じ規模の投資であり、MicrosoftやMetaがすでに行っていることと実際には大きく異なりません。その大部分は推論のためです。数十億の人々にサービスを提供するためにAIアシスタントを実行するためです。大きなモデルを訓練するためではなく、それは実際には比較的安いです。
例えば過去数日間にDeepSeekの登場に対する金融市場の反応を見ると、『今や私たちはシステムをより安く訓練できるので、これらのコンピューターはもう必要ない』と言っていますが、それは単に誤りです。訓練はより効率的になるかもしれませんが」
「通常に戻るということですか」
「訓練は少し効率的になるでしょう。しかし結果として、より大きなモデルを訓練することになります。最終的に、インフラストラクチャとほとんどの投資は、モデルを訓練するためではなく、実際にモデルを実行するために行われます。それが投資の対象です。」
「視聴者からの質問があります。LLMの最も重要な部分であるトランスフォーマーアーキテクチャに代わるものを提案されていますが、JAA世界モデルはトランスフォーマーとどう違うのか、そして世界モデルが未来だと思う理由は何ですか?少し言及されましたが、主にJEPAに焦点が当てられていました。」
「JEPAと呼ばれるこのアーキテクチャがあります。これは実際にはマクロアーキテクチャと呼ばれるべきもので、Joint Embedding Predictive Architecture(結合埋め込み予測アーキテクチャ)の略です。これはトランスフォーマーの代替ではありません。JEPAの中にトランスフォーマーを持つことができます。
JEPAは、その中でさまざまなモジュールを配置するマクロアーキテクチャの一種です。これらのモジュールはトランスフォーマーかもしれませんし、他のものかもしれませんが、トランスフォーマーかもしれません。これは直交する概念です。対立するものではありません。
JEPAが代替するのは、共通の名前を持たないもの、基本的に現在のビジネスにおける大規模言語モデルの群れです。それらは自己回帰デコーダーのみのアーキテクチャと呼ばれています。あるいはトランスフォーマー、またはOpenAIはそれらをGPT(General Purpose Transformer)と呼んでいます。
GPTは特定のアーキテクチャであり、トランスフォーマーである必要はないのですが、先ほど説明した自己教師あり学習技術を使って訓練される特定のアーキテクチャです。シンボルのシーケンス、例えばテキスト、単語のシーケンスを取り、システムを訓練します。
システムは、特定の単語を予測するために、その左側にある単語だけを見ることができるように組織されています。これは因果的アーキテクチャと呼ばれています。テキストを与えて、そのテキストを入力に再現するようにシステムを訓練すると、基本的に暗黙のうちに、テキストの次の単語を予測するようにシステムを訓練することになります。
訓練が完了したら、そのシステムを使用して、自己回帰的に1つの単語を次々に生成することができます。これが大規模言語モデルです。
今、これを実世界に適用しようとしてみてください。ロボットに物事を計画したり、世界で何が起こるかを予測したりするようにトレーニングしたいです。それは機能しません。単語の代わりにビデオのフレームを取り、それらのフレームを単語のようなトークンに変換し、ビデオで何が起こるかを予測するようにシステムを訓練しようとしても、うまく機能しません。
その理由は、世界で起こることの多くは単純に予測できないからです。正確に予測できないことを表現することは、ビデオのような高次元空間では数学的に扱いにくい問題です。テキストのような離散空間では可能です。
テキストの後にどの単語が来るかを予測することはできませんが、すべての可能な単語の確率分布を予測することはできます。ビデオでこれを行う方法、すべての可能なビデオフレームの分布を表現する方法はわかりません。
したがって、テキストやDNAシーケンス、タンパク質に非常にうまく機能する技術は、ビデオや他の自然信号には機能しません。JEPAはこれに対する答えです。
主なアイデアは、入力空間で予測を行う代わりに、システムに入力の抽象的表現を学習させ、次にその表現空間で予測を行うようにトレーニングすることです。これが問題を定式化する方がはるかに良い方法であることが判明しています。
私たちが今いる部屋のビデオを撮って、カメラを1か所に向け、ゆっくりとカメラを回転させ、停止して、ビデオで次に何が起こるかをシステムに尋ねると、システムはカメラが回転し続けると予測するかもしれませんが、カメラが回転した後の視野に何が映るかの詳細をすべて予測することはできません。
そこには植物があるかもしれませんし、壁に絵があるかもしれませんし、人が座っているかもしれません。それらの人がどのように見えるか、植物の種類や床のテクスチャがどうなるかなどを予測することはできません。単に不可能です。
システムをこれらの予測を行うようにトレーニングすると、予測できないものを予測しようとして大量のリソースを費やし、失敗します。」
「ヤン・ルカン研究室の最大の成果は何ですか?」
「研究室はありません…それを特定するのは難しいです。私が知られているのは畳み込みニューラルネットワークと呼ばれる特定のアーキテクチャで、視覚皮質のアーキテクチャにインスパイアされ、画像、ビデオ、オーディオ、音声などの自然信号を扱うように設計されたものです。これらのシステムはあらゆる場所で使用されています。
車に運転支援システムがあれば、今ではEUで販売されるほとんどの車、すべての車にそれがあるはずです。少なくとも、前に障害物があるときに自動的に車をブレーキするシステムがなければなりません。」
「それはあなたの研究室の成果ですか?」
「それは畳み込みネットワークを使用しています。すべてのシステムがそうです。これは1988年からの私の発明です。かなり長い間遡ります。それが私が最も有名なことです。最初のアプリケーションは文字認識、手書き認識、郵便番号の読み取り、小切手の金額の読み取りなどでした。それは90年代初頭でした。
そして2010年頃から、これに対する非常に急速に成長するアプリケーションのセットがあります。電話に話しかけるとき、音声認識システム、これを行うニューラルネットの最初の数層は通常、畳み込みネットを使用しています。
植物の写真を撮って、そのアプリにその植物の種を尋ねたり、昆虫の種類を尋ねたり、鳥の歌を聞いてその種を教えてもらったりするようなアプリケーションがあれば、それは畳み込みネットワークを使用しています。」
「あなたはヨーロッパ人ですが、米国と中国のAIレースにおけるヨーロッパの位置はどこでしょうか?」
「ヨーロッパは非常に重要な役割を果たすと思います。ヨーロッパは最も困難なことを持っています。」
「規制の実装ですか?」
「EUにはその種の問題が確かにあります。例えば、私が現在かけているこのメガネは、カメラを通過する画像を解釈するというのがアプリケーションの1つです。ポーランド語のメニューを見ることができますし、あなたがポーランド語で話しかけたとしても、メニューの翻訳が将来的に提供されます。」
「将来のことですか?」
「今日そのメガネで利用可能です。メガネは利用可能ですが」
「ヨーロッパでは視覚機能が利用できないのでは?」
「視覚機能は規制の不確実性のために利用できません。規制がそれを違法にするかどうかさえ明確ではなく、ただ不明確なだけです。
しかし、ヨーロッパには大きな資産、大きな利点があります。その最初のものは才能です。プログラマー、物理学者、数学者、コンピュータ科学者、より一般的には技術者、物理学者など。世界中のどこで働いていても、AIの一流科学者の多くはヨーロッパから来ています。私はヨーロッパから来ました。」
「あなたはヨーロッパ人で、今でもパリに住んでいるのですか?」
「いいえ、ニューヨークに住んでいますが、パリでも多くの時間を過ごしています。」
「最後の質問です。ノーベル賞の記者会見を覚えています。ジェフリー・ヒントンに、時間を巻き戻せるなら、あなたはこれをしますか、あなたのAI開発の研究を振り返って何か後悔していることはありますかと質問しました。あなたにも同じ質問をしたいと思います。」
「ジェフがその質問にどう答えたかは知りませんが、何と答えたか推測できます。おそらく『ノー』だと思います。
まず私の答えから始めましょう。長い間、私は現在自己教師あり学習と呼ばれるものに興味がありませんでした。問題として誤って定式化されていると思っていたからです。実際、ジェフ・ヒントンとそのような議論を何年もしていました。私は教師あり学習を推進し、彼は「最終的に私たちは教師なし学習(今は自己教師あり学習の特定の形式)をどのように行うかを理解する必要がある」と言っていました。
私はこれについて2000年代半ばになってようやく考えを変えました。おそらく10年遅すぎたのでしょう。もっと早くその問題に興味を持つべきだったのでしょうが、90年代半ばから2000年代初頭の間、ニューラルネットとディープラーニングではあまり進展がありませんでした。世界全体がそれに全く興味を示さなかったからです。
私たちは他のことをする必要がありました。私は他のことに取り組みました。画像圧縮、DjVuというシステムに取り組みました。これはポーランド、より一般的には東ヨーロッパでかなり人気があると聞いています。
それが私が違うようにしたであろう一つのことだと思います。他の点では、物事が進んでいく方法にかなり満足しています。90年代後半に、ニューラルネットと機械学習に対するコミュニティの関心を維持することにもう少し強制的になるべきだったでしょう。そうすれば、いわゆるディープラーニングの冬はなかったでしょう。
おそらくジェフが答えたかもしれないのは、2年前に彼の考えが少し変わったということです。彼のキャリアの探求は脳の皮質の学習アルゴリズムを解明することでした。彼は常に、バックプロパゲーション(彼と私の両方が関わっていた、今日ニューラルネットをトレーニングするために使用される主要技術)は脳が使用しているものではないと考えていました。バックプロパゲーションは生物学的に妥当ではないためです。
そのため、彼は過去4年間、2年ごとに新しい機械学習の方法を考え出し続けていました。2年前、彼はあきらめて言いました。「おそらく脳はバックプロパゲーションを使用していないかもしれないが、バックプロパゲーションは本当にうまく機能する。おそらくそれが私たちが必要とするものであり、脳が使用するものよりも更に良く機能するかもしれない」。そしてそれが彼の啓示であり、基本的に引退しました。彼は勝利を宣言することができたのです。」
「最後の質問です。なぜあなたはニューヨーク大学から乳がん予測にAIを使用するポーランド系アメリカのスタートアップAxisを支援しているのですか?あなたは取締役会のアドバイザーですね?」
「まず第一に、ディープラーニングの医療応用は非常に有望です。マンモグラムからの乳がんなど、診断のためのディープラーニング手法の導入は既に行われています。
私には若い同僚がいて、彼は私たちの研究室でポスドクをしていて、今では医学部の放射線科の教授です。クリスト・ガスという非常に優秀な人物です。最近、彼は「機会が多すぎる。スタートアップを何人かの友人と共同設立しよう」と言いました。
彼らは私のところに来て、「アドバイザーになってくれませんか」と言いました。彼らの科学的な仕事が本当に良いものであることを知っていましたので、この会社は本当に有望だと思い、何ができるのか本当に知りたいと思いました。
広範囲なアプリケーションは基本的に、特に画像処理だけでなく、より一般的にディープラーニングを使用した診断です。実際、彼らは単に診断だけでなく、測定から直接治療へと進みたいと考えています。それが本当に有望で魅力的だと思ったからです。」
「教授、お時間をいただきありがとうございました。ここでお会いできて光栄です。」
「ありがとう、楽しかったです。」


コメント