なぜAIは独自の発見をできないのですか? – Yann LeCunと

AGIに仕事を奪われたい
この記事は約37分で読めます。

21,709 文字

Why Can't AI Make Its Own Discoveries? — With Yann LeCun
Yann LeCun is the chief AI scientist at Meta. He joins Big Technology Podcast to discuss the strengths and limitations o...

なぜ生成AIは世界の知識をすべて吸収したのに、独自の科学的発見をすることができず、物理的な世界を理解し始めたのでしょうか?メタのチーフAI科学者であり、チューリング賞受賞者であるヤン・ルカン氏と、この点について議論します。ビッグテクノロジーポッドキャストへようこそ。これは、冷静でニュアンスのある会話を行うための番組です。テクノロジーの世界とその先についてです。私はアレックス・カンスです。ヤン・ルカン氏、チーフAI科学者、チューリング賞受賞者、「AIのゴッドファーザー」として知られる方を、ビッグテクノロジーポッドキャストに迎えることができ、大変嬉しく思います。ヤン、またお会いできて嬉しいです。番組へようこそ。

ここにいることができて光栄です。科学的発見について、そしてなぜAIがこれまでにそれを生み出すことができなかったのかという質問から始めましょう。これは、ダワレス・パテルからの質問で、数ヶ月前に尋ねられました。生成AIは基本的に人間の知識の全コーパスを記憶しているのに、発見につながる新しいつながりを一つも作ることができなかったという事実をどう思いますか?たとえ中程度の知能の人間であっても、これだけのことを暗記していれば、「このことがこの症状を引き起こす、別のことがこの症状を引き起こす、ここに医学的治療法があるかもしれない」と気づくはずです。AIからも同じようなことを期待すべきではないでしょうか?

AIから、はい。大規模言語モデルから、いいえ。ご存知のように、AIアーキテクチャにはいくつかの種類があります。そして、AIについて話すとき、突然チャットボットを想像します。チャットボット、LLMは膨大な量の知識、純粋にテキストで訓練され、基本的に、訓練されたテキストの統計に適合する回答を、再生し、検索し、本質的に生成するように訓練されています。それらで何ができるかは驚くべきことであり、非常に便利です。疑問の余地はありません。また、それらは真実である事実を幻覚することも知られています。しかし、それらは最も純粋な形で、新しいものを発明することはできません。

過去週にLinkedInで、ハギングフェイスのトム・ウォルフが共有したこの見解を提示させてください。あなたがその議論に関わっていたことを知っています。非常に興味深いものです。彼は言います。「データセンターでアインシュタインを作るには、すべての答えを知っているシステムだけでなく、誰もが考えたことも、あるいは考えることをためらったこともない質問をすることができるシステムが必要です。すべての教科書、専門家、そして常識が反対を主張しているとき、「もしすべての人が間違っていたらどうなるか」を書くシステムが必要です。」LLMにそれを行うように教えることは可能でしょうか?

いいえ。現在の形では、いいえ。そして、それができるAIの形は、LLMではありません。LLMを一つの構成要素として使うかもしれません。LLMは、抽象的な考えを言語に変換するのに役立ちます。人間の脳では、それはここにある小さな脳領域、ブローカ野によって行われます。これくらいの大きさです。それが私たちのLLMです。しかし、私たちは言語で考えるわけではありません。私たちは状況の心的表象で考えます。私たちはあらゆるものについて心的モデルを持っています。私たちは話すことができなくても考えることができます。そしてそれはここで起こります。それは、真の知性が存在する場所です。そして、それは私たちが、少なくともLLMでは再現できていない部分です。

問題は、最終的に、単に既に存在する質問に答えるだけでなく、私たちが指定する問題に新しい解決策を与えることができるAIアーキテクチャ、AIシステムを持つことになるかどうかです。答えは、はい、最終的には。現在のLLMではそうではありません。そして次の質問は、それらが自分自身の質問をすることができるようになるかどうか、つまり、答えるべき良い質問が何かを見つけることができるようになるかどうかです。答えは、最終的にははいですが、そのような能力を持つ機械ができるようになるまでには、しばらく時間がかかります。人間の場合、私たちはすべての特徴を持っています。非常に優れた記憶力を持つ人、多くのものを検索し、多くの蓄積された知識を持つ人。問題解決能力のある人。彼らに問題を与えると、解決します。そして、数学や物理学などで高い点数を取得します。しかし、研究において最も難しいことは、実際には正しい質問をすることです。良い質問とは何か。それは単に問題を解決することではありません。それはまた、正しい質問をすること、つまり問題を正しい方法で枠組み化することです。そうすることで、新しい洞察を得ることができます。そしてその後、これを方程式や何か実際的なもの、モデルに変換する必要があります。それは、正しい質問をすることとは異なる規模かもしれません。また、方程式を解くこととは異なる規模でもあります。方程式を書く人は、必ずしもそれを解く人とは限りません。そして、100年前の教科書で似たような方程式が解かれたことを覚えている人もいます。これらは3つの異なるスキルです。LLMは検索には非常に優れていますが、新しい問題を解決すること、新しい問題に新しい解決策を見つけることには優れていません。既存の解決策を検索することはできますが、正しい質問をすることには全く優れていません。

初めてこれについて聞いている人のために、LLMは、ChatGPTに組み込まれているGPTモデルのようなものの背後にあるテクノロジーです。しかし、ヤン、聞いてみましょう。AI分野は、標準的なLLMから、推論し、段階的に進むことができるLLMへと移行したようです。この反直感的または異端的思考を、指示に疑問を呈する指示を推論モデルに吹き込むことによってプログラムできますか?

推論とは本当にどういう意味なのかを理解する必要があります。そして、明らかに誰もが、ある程度LLMに推論させようとしています。おそらく、それらが生成した回答が正しいかどうかを確認できるようにするためです。現在、人々がこの問題に取り組んでいる方法は、パラダイムを完全に変えることなく、現在のパラダイムを変更することによって行っています。LLMの上にいくつかのモジュールを追加して、ある種の原始的な推論機能を持たせることができます。それは本質的に、多くの推論システムが行っていることです。LLMに推論するように見せる方法の一つは、「思考の連鎖」です。基本的に、実際に必要なものよりも多くのトークンを生成するように指示します。その過程で、質問に答えることにより多くの計算を割り当てることを期待してです。そしてある程度は、驚くほど機能します。しかし、それは非常に限られています。実際には、本当の推論は得られません。少なくとも古典的なAIにおける推論は、多くのドメインで、潜在的な解決策の空間を検索することを含みます。解決すべき問題があり、問題が解決されたかどうかを特徴付けることができます。問題が解決されたかどうかを判断する方法があります。そして、制約を満たすか、または解決策として識別されたときに、解決策の空間を検索します。それが、想像できる推論の最も一般的な形です。LLMには、この検索メカニズムのためのメカニズムが全くありません。あるのは、それを上積みする必要があるということです。これを行う一つの方法は、LMにたくさんの、たくさんの、たくさんの回答のシーケンス、つまり回答を表すトークンのシーケンスを生成させ、別のシステムがどれが良いかを選ぶことです。これは、ある意味ランダムに、言語の文法を尊重しながら命令を生成し、それらのプログラムすべてが実際に機能するかどうかをチェックすることによってプログラムを書くようなものです。正しいコードを生成する良い方法ではありません。推論の良い方法でもありません。

そこで大きな問題は、人間や動物が推論するとき、トークン空間で行わないということです。言い換えれば、推論するとき、解決策を表すテキストを生成し、それをもう一つ生成し、それをもう一つ生成し、その中で良いものを選ぶ必要はありません。私たちは内部的に推論します。私たちは状況の心的モデルを持っており、それを頭の中で操作し、良い解決策を見つけます。テーブルを作るなど、一連の行動を計画する場合、私たちは行動のシーケンスを計画します。私たちはそれを頭の中で心的モデルとして持っています。私があなたに言うなら、これは言語とは関係ありません。例えば、「今、私たちの目の前に浮かんでいる立方体を想像してください。それを垂直軸に沿って90度回転させてください。」あなたはこれが起こる様子を想像することができ、それが立方体であることを容易に観察できます。90度回転させても、始めと同じ立方体のように見えます。なぜなら、あなたは立方体の心的モデルを持っているからです。そしてその推論はある抽象的な連続空間で行われ、テキストではありません。言語やその他のものとは関係ありません。人間は常にこれを行い、動物も常にこれを行います。そして、これは私たちが機械でまだ再現できないものです。

それは、思考の連鎖とそれが新しい洞察をほとんど生み出さないことについて話していることを思い出させます。DeepSEAが登場したとき、話題になった大きなスクリーンショットの一つは、誰かがDeepSEAに人間の状態に関する新しい洞察を求めたものでした。それを読むと、それはAIがやる非常に巧みなトリックの1つです。なぜなら、それは人間について、私たちが私たちの憎しみ、私たちの暴力的な面を競争ではなく協力に向け、それが私たちをより多く構築するのを助けるといった、非常に興味深い観察をすべて実行しているように見えるからです。そして、「これはサピエンスと他のいくつかの本を読んだだけのことだ」と思うのです。

ええ、その多くは再生です。会話の後半の部分を話した内容に近づけます。それは壁です。効果的に、標準的な大規模言語モデルのトレーニングは壁にぶつかっています。それ以前は、ある程度の量のデータと計算をモデルのトレーニングに投入すれば、予測可能なほど良くなるという、ある程度の予測可能なリターンがありました。話しているように、それは最終的には当てはまらなくなるとあなたは信じているようです。

壁と呼ぶかどうかはわかりませんが、確かにリターンが減少しているという意味です。つまり、それらのLLMを訓練するための自然言語データを使い果たしたということです。それらは既に10の13乗または10の14乗トークンのオーダーで訓練されています。それは非常に多く、それはインターネット全体であり、公開されているインターネット全体であり、そしていくつかの企業がライセンス供与した公開されていないコンテンツです。そして、人工データの生成や、より多くのデータを作成するための何千人もの人の雇用についての話があります。他の知識、博士号、教授たち。しかし実際には、それよりもさらに簡単かもしれません。なぜなら、ほとんどのシステムは基本的な論理を理解していないからです。ですから、ある程度、合成データ、つまりより多くの人を雇って、それらのシステムの知識背景にある穴を埋めることで、その方向への進歩は遅くなるでしょう。しかし、リターンは減少しています。データの生成コストは膨れ上がっており、リターンはそれほど高くありません。新しいパラダイムが必要です。核心において、検索や、良い解決策の検索、特定の目標に到達するための行動のシーケンスの計画、つまりエージェントシステムを本当に機能させるために必要な能力を持つシステムの新しい種類のアーキテクチャが必要です。誰もがエージェントシステムについて話していますが、基本的にシステムが既に訓練されているプランを再生する以外、どのように構築するのか誰も分かりません。

ですから、コンピュータサイエンスのすべてのものと同じように、限られたソリューションを設計することができます。AIの文脈では、膨大な量のデータに基づく学習や検索に基づくシステムを作成することができますが、実際には複雑なことです。複雑なことは、それらの問題を解決するように訓練されなくても、新しい問題を解決できるシステムを構築する方法です。私たちはこれを行うことができ、動物もこれを行うことができます。新しい状況に直面すると、私たちはそれを考え、目標を達成するための行動のシーケンス、行動方針を考え出すことができます。世界の仕組みについての一般的な知識以外、状況について多くを知る必要はありません。それはまさに、AIシステムで欠けているものです。

さて、ここで順番を大きく変える必要があります。なぜなら、あなたは私たちが話し合わなければならない非常に興味深いことをいくつか言いました。あなたは、基本的にLLMは大規模言語モデル、私たちをここまで連れてきてくれたもののリターンが減少する点に達したと述べました。そして、私たちは新しいパラダイムを必要としています。しかし、その新しいパラダイムはまだ存在していないようにも思えます。そして、あなたがその研究に取り組んでいることは知っています。次の新しいパラダイムがどのようなものになるのかについて話しましょう。しかし、本当にタイムラインの問題があると思いませんか?なぜなら、私はこの分野に投入された資金について考えているからです。昨年はOpenAIに66億ドル、数週間前にAnthropicに35億ドル、昨年は40億ドルを集めた後です。イーロン・マスクも、Grokの構築に別の小規模な財産を投入しています。これらはすべて、LLMを重視した企業です。もしかしたらOpenAIもそうです。しかし、彼らが得た66億ドルはChatGPTによるものです。この分野はどこへ向かうのでしょうか?もしその資金が、リターンが減少する点に達しており、進歩には新しいパラダイムが必要であるものへと投資されているとしたら、それは大きな問題のように聞こえます。

ええと、壁と呼ぶかどうかは分かりませんが、確かにリターンが減少しているということです。つまり、それらのLLMを訓練するための自然言語データを使い果たしたということです。それらは既に10の13乗または10の14乗トークンのオーダーで訓練されています。それは非常に多く、それはインターネット全体であり、公開されているインターネット全体であり、そしていくつかの企業がライセンス供与した公開されていないコンテンツです。そして、人工データの生成や、より多くのデータを作成するための何千人もの人の雇用についての話があります。他の知識、博士号、教授たち。しかし実際には、それよりもさらに簡単かもしれません。なぜなら、ほとんどのシステムは基本的な論理を理解していないからです。ですから、ある程度、合成データ、つまりより多くの人を雇って、それらのシステムの知識背景にある穴を埋めることで、その方向への進歩は遅くなるでしょう。しかし、リターンは減少しています。データの生成コストは膨れ上がっており、リターンはそれほど高くありません。新しいパラダイムが必要です。核心において、検索や、良い解決策の検索、特定の目標に到達するための行動のシーケンスの計画、つまりエージェントシステムを本当に機能させるために必要な能力を持つシステムの新しい種類のアーキテクチャが必要です。誰もがエージェントシステムについて話していますが、基本的にシステムが既に訓練されているプランを再生する以外、どのように構築するのか誰も分かりません。

ですから、コンピュータサイエンスのすべてのものと同じように、限られたソリューションを設計することができます。AIの文脈では、膨大な量のデータに基づく学習や検索に基づくシステムを作成することができますが、実際には複雑なことです。複雑なことは、それらの問題を解決するように訓練されなくても、新しい問題を解決できるシステムを構築する方法です。私たちはこれを行うことができ、動物もこれを行うことができます。新しい状況に直面すると、私たちはそれを考え、目標を達成するための行動のシーケンス、行動方針を考え出すことができます。世界の仕組みについての一般的な知識以外、状況について多くを知る必要はありません。それはまさに、AIシステムで欠けているものです。

つまり、私たちはLLMを単にスケールアップするだけで、人間のレベルのAIには到達できません。それは起こりません。それがあなたの見解ですか?絶対におこりません。そして、私のより冒険的な同僚たちから聞けることなら何でも、今後2年以内には絶対に起こりません。絶対にあり得ません。データセンターに天才の国ができるという考えは、完全なでたらめです。絶対にあり得ません。私たちが持つことになるのは、おそらく、十分に大量のデータで訓練されたシステムで、合理的な人が尋ねることができるどんな質問にも、それらのシステムを通じて答えが見つかるでしょう。それは、博士号を持った人が隣に座っているように感じるでしょう。しかし、隣にいるのは博士号を持った人ではありません。巨大な記憶力と検索能力を持つシステムです。新しい問題に対する解決策を発明できるシステムではありません。それが本当に博士号を持っている人です。これは、トム・Wが作成した投稿に関連しています。新しいものを発明することは、LLMからは得られない種類のスキルと能力を必要とします。

ですから、大きな問題は、今行われている投資は明日のために行われているのではなく、今後数年間にわたって行われているということです。少なくともメタ側の投資のほとんどは、推論のためのインフラストラクチャへの投資です。年末までに、それがメターの計画ですが、スマートグラス、スタンドアロンアプリなどを通じて、10億人のメタAIユーザーがいると想像してみましょう。それらの人々をサポートする必要があります。それは膨大な量の計算量です。そのため、インフラストラクチャに多額の投資が必要となり、それを数ヶ月または数年かけてスケールアップし、構築する必要があります。ですから、少なくともメタ、マイクロソフト、グーグル、そしておそらくアマゾンなどの企業では、資金の大部分がそこに費やされています。これは本質的に運用です。パラダイムシフトがなくても、10億人もの人が定期的にそれらを使用する市場が存在するでしょうか?おそらくはいです。たとえ新しいパラダイムの革命が3年以内に起こらなくても、このインフラストラクチャは使用されるでしょう。それはほとんど疑いの余地がありません。ですから、それは良い投資であり、データセンターなどを設置するには非常に時間がかかるため、今始めて、進歩が継続的であることを計画する必要があります。そうすることで、最終的に投資が正当化されます。しかし、そうしないと、非常に大きなリスクを負うことになります。資金を持っているならですが。しかし、あなたが言ったことに戻りましょう。今日のものはまだ深刻な欠陥があり、それが実際に使用されるかどうかについて疑問があります。メタは消費者への賭けを行っています。消費者はAIを使用したいと考えています。それは理にかなっています。OpenAIには4億人のChatGPTユーザーがいます。メタには30億から40億のユーザーがいます。基本的に、携帯電話を持っているなら30億人以上のユーザーがいます。Mのユーザーは6億人です。

ChatGPTよりも多いですが、それほど頻繁に使用されているわけではありません。ユーザーの集中度はそれほど高くありません。しかし、メタが10億人の消費者ユーザーを獲得できるという考えは、妥当だと思います。しかし、問題は、この投資の多くは、これが消費者向けアプリだけでなく、企業にとっても役立つという考えに基づいて行われたことです。そして、私たちが話してきたように、問題があります。それはまだ十分ではないのです。DeepResearchを見てみましょう。これはベネディクト・エヴァンズが持ち出したものです。DeepResearchは非常に優れていますが、95%の道筋しか提供されないかもしれません。そして、その5%は幻覚かもしれません。100ページの調査レポートがあるとしたら、その5%が間違っていて、それがどの5%なのかがわからないとしたら、それは問題です。同様に、今日の企業では、あらゆる企業が、生成AIやその他のタイプのAIをどのように役立てられるかを理解しようと努力しています。しかし、概念実証の10%または20%だけが、費用が高すぎるか、または信頼性がないために、本番環境に展開されます。これが頂点に達しようとしているのであれば、ここへ至るまで期待されていたものについて何が起こると予想しますか?

ですから、繰り返しますが、それはタイムラインの問題です。それらのシステムが、展開が容易になるほど十分に信頼性があり、インテリジェントになるのはいつでしょうか?しかし、あなたが説明している状況、つまり印象的なデモを超えて、実際に信頼性の高いシステムを展開することが、コンピュータやテクノロジー、特にAIの使用において問題となる傾向があるということです。これは新しいことではありません。それは基本的に、10年前の非常に印象的な自動運転のデモがなぜあったのに、レベル5の自動運転車がまだないのかと同じです。それは、いわば、自動車にとって最後の1マイルです。信頼性の最後の数パーセントで、システムが実際的になります。そして、それを既存のシステムにどのように統合するか、そしてユーザーをより効率的にするか、より信頼性高くするか、などです。それは難しいことです。そして、もし私たちが数年前に戻って、IBMワトソンで起こったことを見てみましょう。ワトソンは、IBMが推進し、ワトソンが医学について学び、あらゆる病院に展開することで、莫大な収益を生み出すものになるはずでした。それは基本的に完全な失敗であり、部品として売却されました。IBMにとって多くの費用がかかりました。CEOも含まれています。何が起こるかというと、実際にそれらのシステムを、信頼性が高く、実際に人々を助け、労働力の自然な保守主義を損なわない状況に展開することが、複雑になるということです。私たちは今、システムの展開の難しさと同じ過程を見ています。これは新しいことではありません。常に起こってきたことです。だからこそ、あなたの聴取者の中には、これについて覚えている人はあまりいないかもしれませんが、1980年代初頭にはAIに大きな関心が寄せられました。エキスパートシステムの頃です。そして、1980年代の最も人気のある仕事は知識エンジニアになることであり、あなたの仕事は専門家の隣に座り、専門家の知識をルールとファクトに変換し、それらを推論エンジンに供給することでした。推論エンジンは新しいファクトを導き出し、質問に答えることができるでしょう。大きな関心の波です。日本政府は第五世代コンピュータという大規模なプログラムを開始しました。ハードウェアはそれを処理するために設計される予定でした。そして、ほとんど失敗に終わりました。関心の波は90年代半ばに衰え、いくつかの企業は成功しましたが、基本的には、人間の知識をルールに還元することができ、経済的に実行可能なアプリケーションの狭い範囲に限られていました。しかし、社会全体や業界への広範囲にわたる影響はありませんでした。それがAIの歴史です。

つまり、信号は明確です。つまり、まだ、すべての装飾を施したLLMは、情報検索のために重要な役割を果たしています。ほとんどの企業は、すべての社内文書を知っているある種の社内専門家を持ちたいと考えています。そうすれば、従業員はどんな質問でもすることができます。メタにはMetateというものがあります。本当にクールで、非常に便利です。そして、私は現代のAI、現代の生成AIが役に立たないと言っているわけではありません。私は純粋に、このものが効果的に神レベルの能力を達成することを期待して、莫大な資金が投資されているという問題を提起しているのです。そして、私たち2人とも、リターンが減少する可能性があること、そしてあなたが言及したように、タイムラインのミスマッチが発生した場合に何が起こるかについて話しています。そして、これは私が尋ねる最後の質問です。なぜなら、私たちは他に多くのことを話し合わなければならないと思うからです。しかし、タイムラインのミスマッチについては、あなたと私が最初に話をしたのは9年前だということを考えています。今となっては信じられないことですが、9年前、あなたはAIの構造に関するアイデアを持っていましたが、会議に参加する席さえ得られませんでした。そして、最終的に、適切な量の計算能力が揃うと、そのアイデアが機能し始め、あなたのベンジョとヒントンと行った研究に基づいて、そしてその他多くの人々によって、AI分野全体が発展しました。しかし、効率のために、調べてみてください。しかし、専門家システムについて話していたような、過大宣伝された瞬間があった場合の、タイムラインのミスマッチについて話をしましょう。それは人々の期待通りにはならず、AI分野は「AIの冬」と呼ばれる状態に入ります。

反発があります。そうです。もし私たちが、タイムラインのミスマッチの瞬間を潜在的に迎えているとしたら、あなたは、投資額、これらのもののトレーニングにおける主な方法でリターンが減少する可能性があるという事実、そして私たちが追加する可能性があるという事実を考慮すると、再び冬が来ることを恐れますか?

市場は、株式市場は現在少し不況に見えます。今は、それが変数です。おそらく、私たちが話していることの3番目に重要な変数ですが、それは考慮に入れなければなりません。ええ、ええ、私は思います。確かに時期の問題がありますが、もう少し深く掘り下げてみましょう。以前言ったように、より多くのデータでトレーニングし、大規模言語モデルを拡張するだけで人間レベルのAIに到達できると考えるなら、それは間違いです。ですから、あなたが投資家で、人間レベルのAIや博士号レベルに到達できると言った会社に投資したとしたら、単に、より多くのデータでトレーニングし、いくつかのトリックを使うだけで、あなたのシャツを使うかどうか分かりませんが、それはおそらく良い考えではありませんでした。しかし、あらゆる知的な動物や人間が行うことができることであり、現在のシステムが行うことができないことを行うことができるシステムを作る方法についてのアイデアがあります。そして、私は物理的な世界を理解すること、持続的な記憶を持つこと、推論と計画を行うことができることを話しています。それらは、そこに存在する必要がある4つの特性であり、常識を習得できるシステム、テキストだけでなく、ビデオのような自然なセンサーから学習できるシステム、人間が生成したデータが必要です。それは大きな課題です。私は長年これについて話しており、これが課題であり、私たちが解決しなければならないことだと述べてきました。そして、私と私のグループ、または私と一緒に仕事をしている人々、そして私を聞いてきた人々は、この系統に沿って進歩を遂げています。例えば、ビデオでどのように世界が機能するかを理解するように訓練できるシステム、世界の物理的な世界がどのように機能するかについてのメンタルモデルを使用して、特定の目標に到達するための行動のシーケンスを計画できるシステムです。私たちは、この種のシステムの初期の結果を持っており、DeepMindの人々は同様のことを行っています。そして、様々な大学でこれに取り組んでいる人々がいます。ですから、問題は、新しいアーキテクチャで新しい能力を示す興味深い研究論文から、大規模なアーキテクチャ、つまり多くのアプリケーションに実用的であり、訓練されることなく新しい問題の解決策を見つけることができるアーキテクチャに、いつ移行するかということです。など。そして、それは今後3年以内には起こりませんが、3~5年以内には起こるかもしれません。それは、私たちが投資で見ているような急増に対応しています。ですから、それが最初の点です。次に重要なことは、1つの秘密の魔法の弾丸はなく、1つの会社や1つのグループの人々が発明して問題を解決するというわけではないということです。それは多くの異なるアイデア、多くの努力、それを基にするためのいくつかの原則であり、一部の人々は同意しないかもしれませんし、行き止まりになる方向に進むでしょう。ですから、AGIがない日とAGIがある日があるというようなイベントではありません。それは、時間が経つにつれて大きくなり、スケールされ、よりうまく機能する継続的な概念的なアイデアです。それは単一のエンティティから来るのではなく、世界中の研究コミュニティ全体から来るものであり、研究を共有する人々は、そうでない人よりも速く動きます。ですから、どこかのスタートアップに5人の人がAGIの秘密を発見していて、それに50億ドル投資すべきだと考えるなら、それは大きな間違いです。

ヤン、まず最初に、私たちの会話はいつも楽しいです。なぜなら、私たちは本当の答えを得始めるからです。そして、前回の会話からも、私は常にその会話を見返して、「よし、ヤンはこう言っている。他の人もこう言っている。これは基礎点に違いない」と言っていました。そして、それは修正されました。この会話でもそうしようと思っています。そして、今、あなたは私たちが会話の中で取り出す2つの興味深いスレッドを準備してくれました。1つは物理と現実世界の理解、もう1つはオープンソースです。では、休憩後すぐに続きましょう。

私たちはヤン・ルカンさんと再び一緒です。彼はメタのチーフAIサイエンティストであり、チューリング賞受賞者であり、私たちの番組に3度目も参加していただき、大変嬉しく思います。ヤンさん、物理についてお話ししたいと思います。ビッグテクノロジーポッドキャストの歴史の中で有名な瞬間があるのですが、リスナーには有名ですが、それ以上広がったかどうかは分かりません。あなたは私に、チャットGPTに、「両手で紙を水平に持ち、左手を離すとどうなるか」と書くように言いました。そして、私はそれを書き、チャットGPTは物理現象が起こり、紙が左手の方向に浮遊すると説得力のあるように書きました。そして、私はそれを大声で読み上げ、納得してしまいました。そして、あなたは「それはただ幻覚していただけだ」と言いました。それが起こったことです。聞いてください、2年経ちました。今日、私はチャットGPTにテストをしました。チャットGPTは、「左手を離すと、重力によって紙の左側が落ち、右側は右手で支えられているため、そのままになります。これにより、右手で支えている点が回転軸となり、紙が回転します」と言っています。今では正しく理解しています。レッスンを学びましたね。おそらく、この問題を解決するためにOpenAIに雇われた誰かがその質問と答えを与えられ、システムはその答えで微調整されたのだと思います。もちろん、そのような質問は無限に想像できます。そして、これが、大規模言語モデルのトレーニング後の処理が高価になる理由です。つまり、人々が尋ねる可能性のあるすべての質問の、90%、95%、またはどのような割合をカバーするために、どのようなスタイルの質問をどれだけの範囲で処理する必要があるのでしょうか。しかし、長いテールがあり、すべての可能な質問に答えるようにシステムをトレーニングすることはできません。なぜなら、本質的に無限の数の質問があるからです。そして、システムが答えられない質問の方が、答えられる質問よりもはるかに多く、トレーニングセットではすべての可能なトレーニング質問の集合を網羅することはできません。なぜなら、私たちの前回の会話では、あなたが、「紙を手で離すとどうなるか」のような行動は、テキストでは広く扱われていないため、モデルはそれを処理する方法が分からないと言っていました。テキストで扱われていない限り、モデルは現実世界のそのような固有の理解を持たない、ということですね。私はしばらくの間それを受け入れていました。それから、「AIビデオを生成してみよう」と言いました。そして、AIビデオで私が見た興味深いことの1つは、物理的な世界がどのように機能するかについての理解が、ある程度存在しているということです。9年前の最初のミーティングで、あなたは、「ペンをテーブルの上に垂直に置いて手を離すとどうなるか」とAIに尋ねると、起こりうる無数の変化があり、AIがそれを理解するのは非常に難しいと言っていました。それは、AIが本質的に物理を理解していないからです。しかし、Soraのようなものに行くと、「椅子に座って足を蹴っている男性のビデオを見せてください」と言うと、そのビデオが得られます。そして、その人は椅子に座って足を蹴り、足はソケットから落ちたりせず、関節で曲がります。3本足でもありません。3本足でもありません。それは、これらの大規模モデルの能力の向上を示唆していませんか?いいえ、なぜなら、ワイングラスをこぼすとワインが空中を浮遊したり、飛び散ったり、消えたりするなどの、ビデオ生成システムによって生成されたビデオがまだ存在するからです。ですから、特定の状況ごとに、その状況について常に多くのデータを収集し、モデルがそれを処理できるようにトレーニングすることはできますが、それは現実の根本的な理解ではありません。それは単に、ますます大量のデータによって理解の欠如を補っているだけです。子供たちは、驚くほど少量のデータで、重力のような単純な概念を理解します。実際、私が以前公に話した興味深い計算があります。典型的な大規模言語モデルは、30兆トークンでトレーニングされています。トークンは約3バイトなので、約0.9×10の14乗バイト、10の14乗トークンとしましょう。そのテキストを読むには、私たち全員で1日12時間、約40万年もかかるでしょう。問題ありません。さて、成人が目覚めている時間は合計で1万6000時間です。秒数を得るために3600を掛け、視覚皮質に視神経を通してどれだけのデータが入ってきたかという数字を計算することができます。視神経は2本あり、それぞれ約1メガバイト/秒で情報を伝達します。つまり、2メガバイト/秒×3600×1万6000で、約10の14乗バイトになります。つまり、4年間で、子供は最大のLLMと同じくらいのデータ量を視覚または触覚を通じて見てきました。そして、それは、テキストでトレーニングするだけでは人間レベルに到達できないことを明確に示しています。単に情報が豊富ではないのです。ちなみに、1万6000時間はそれほど多くのビデオではありません。YouTubeのアップロードで30分です。今では数ヶ月で簡単に取得できます。赤ちゃんは、10の13乗バイト程度のデータを見てきました。これもそれほど多くありません。その間に、赤ちゃんは、私たちが知っている直感的な物理学、つまり運動量保存則、重力、運動量保存則、物体が自発的に消滅しないという事実、隠しても存在し続けるという事実などを、基本的にすべて学びました。私たちが生まれて最初の数ヶ月で世界について学ぶことのすべてです。これが、機械で再現する必要があることです。つまり、世界の可能性と不可能なこと、あなたが取る行動の結果を理解するタイプの学習です。そして、特定の目標に到達するための行動のシーケンスを計画することができます。それが世界モデルのアイデアです。ビデオ生成システムに関する質問と関連しているのは、この問題にアプローチする正しい方法で、より良いビデオ生成システムをトレーニングすることです。そして、私の答えは、絶対に違います。世界の理解の問題は、ピクセルレベルでビデオを生成するという解決策を通るわけではありません。このコップの水を取ってこぼすと、水がテーブルの上でたどる正確な経路、どのような形になるか、どのような音を立てるかなどを完全に予測することはできません。しかし、ある程度の抽象化レベルでは、水がこぼれると予測できます。そして、おそらく私の電話を濡らすでしょう。ですから、私はすべての詳細を予測することはできませんが、ある程度の抽象化レベルでは予測できます。そして、それが本当に重要な概念だと思います。システムが世界を理解し、世界の仕組みを理解できるようにするには、そのような予測を行うことができる世界の抽象的な表現を学習できる必要があるということです。そして、それは、それらのアーキテクチャは生成型ではないことを意味します。あなたの解決策をすぐに知りたいのですが、デモがないと私たちの会話にならないので、画面に表示します。これは私がかなり誇りに思っているビデオです。椅子に座って足を蹴っている男がいて、足は体に付いたままです。私は「よし、これは本当に進歩している」と思いました。それから、「車が高層の中に突っ込む様子を見せてください」と言いました。2つの干し草の山があり、静止している車のボンネットから干し草の山が魔法のように現れます。そして、私は自分に「よし、ヤンはまた勝った」と言いました。いい車ですね。重要なのは、これらのシステムは、人々が尋ねるほとんどのビデオ、つまり人々が様々なことをしている人間のデータで大量に微調整されているということです。そのため、人間にとっては機能しますが、システムをトレーニングした人々が予期していなかった状況では機能しません。あなたは、現実の世界を理解するためには、モデルは生成型であることはできないと言いました。あなたはVJEPA、Jea、Jea、と呼んでいるもので取り組んでいます。Vはビデオ、Iは画像、Jeaはあらゆる種類のものです。テキストも。それが、機械が現実世界で何が起こっているかを抽象的に表現することを可能にする問題をどのように解決するかを説明してください。では、ここ数年でAI、特に自然言語理解、チャットボット、ある程度はコンピュータビジョンにおいて成功を収めているのは何でしょうか。それは自己教師あり学習です。自己教師あり学習とは何か。それは、画像、ビデオ、テキストなど、入力を取り、何らかの方法でそれを破損させ、大きなニューラルネットをトレーニングしてそれを再構成することです。基本的に、破損していないバージョン、歪んでいないバージョン、またはアクションを実行することによって生じる変換バージョンを復元します。例えば、テキストの場合、テキストの一部を取り、いくつかの単語を削除し、大きなニューラルネットをトレーニングして欠けている単語を予測します。画像から一部を削除し、大きなニューラルネットをトレーニングして完全な画像を復元します。ビデオから一部を削除し、それをトレーニングして欠けている部分を予測します。LLMはその特別なケースで、テキストを取り、システムにテキストを再現させるようにトレーニングします。テキストを破損する必要はありません。なぜなら、システムは、テキスト内の特定の単語やトークンを予測するために、その左側のトークンしか見ることができないように設計されているからです。つまり、システムは、現在と未来を見ることなく現在を予測できないという事実を、そのアーキテクチャにハードワイヤリングされています。つまり、過去だけを見ることができます。しかし、基本的に、入力とその出力を再現するようにシステムをトレーニングします。この種のアーキテクチャは因果的アーキテクチャと呼ばれ、それがLLM、つまり大規模言語モデルです。世界のすべてのチャットボットが基づいているものです。テキストの一部を取り、システムにテキストの一部を出力に再現させます。特定の単語を予測するには、その左側の単語だけを見ることができます。つまり、テキストを与えられたシステムは、そのテキストに続く単語を予測できます。予測された単語を入力にシフトし、2番目の単語を予測し、それを入力にシフトし、3番目の単語を予測します。これは自己回帰予測と呼ばれ、新しい概念ではありません。非常に古いです。自己教師あり学習は、特定のタスクを実行するようにシステムをトレーニングするものではありません。データの内部構造を捉えること以外は何もしません。人間によるラベル付けは必要ありません。これらを画像に適用してみましょう。画像を取り、チャンクをマスクします。パッチの束をマスクしたい場合は、それを行い、それを再構成するために大きなニューラルネットをトレーニングします。そして、システムによって学習された画像の内部表現を、画像認識、セグメンテーションなど、後続の下流タスクへの入力として使用します。ある程度は機能しますが、それほどではありません。Fairでこれを行う大きなプロジェクトがありました。Max Autoencoderと呼ばれ、私がこのアイデアを導き出した一般的なフレームワークであるAutoencoderの特別なケースです。それほどうまく機能しません。ビデオにも適用すると、私はほぼ20年間これに取り組んできました。ビデオを取り、ビデオの一部だけを表示し、ビデオの次に何が起こるかを予測するようにシステムをトレーニングします。テキストと同じアイデアですが、ビデオの場合です。それもあまりうまく機能しません。なぜテキストでは機能するのに、ビデオでは機能しないのでしょうか。答えは、テキストに続く単語を予測するのは簡単ですが、特定のテキストに続く単語を正確に予測することはできません。しかし、辞書内のすべての可能な単語、すべての可能なトークンの上の確率分布のようなものを生成できます。それは約10万個の可能なトークンだけです。つまり、10万個の異なる正の数で、合計が1になる大きなベクトルを生成します。では、ビデオ内のすべての可能なフレーム、または画像のすべての可能な欠損部分の確率分布を表すにはどうすればよいでしょうか。これは、高次元の連続空間で分布を表すことは数学的に扱いにくいという事実によって非常に困難です。これを行う方法がわかりません。そして、私は長い間ビデオに対してこれを行おうとしてきました。そのため、生成モデルを使用した自己教師あり学習のアイデアは、これまでのところ失敗しています。そのため、世界の仕組みを理解するシステムを得る方法として、ビデオ生成システムをトレーニングしようとすることはできません。では、代替案は何でしょうか。代替案は、生成型アーキテクチャではないものです。ジェパと呼ばれています。つまり、Joint Embedding Predictive Architectureです。そして、これは再構成を試みるよりもはるかにうまく機能することがわかっています。私たちは、画像の良い表現を学習することについて、長年にわたって実験的な結果を得ています。画像を取り、それを破損させ、その画像を再構成しようとするのではなく、元の完全な画像と破損したバージョンの両方を取得し、それらをニューラルネットに通します。それらのニューラルネットは、それらの2つの画像、最初のものと破損したものの表現を生成します。そして、別のニューラルネットワーク、予測器をトレーニングして、破損したものの表現から完全なものの表現を予測します。このタイプのシステムをうまくトレーニングすると、何も再構成するようにトレーニングされていません。単に表現を学習するようにトレーニングされています。そのため、表現レイヤー内で予測を行うことができます。そして、表現が、入力に関するできるだけ多くの情報を含むようにする必要があります。これは実際には難しい部分です。システムをトレーニングする難しい部分です。それはジェパ、Joint Embedding Predictive Architectureと呼ばれています。画像の良い表現を学習するシステムをトレーニングするには、これらの結合埋め込みアーキテクチャの方が、再構成によってトレーニングされる生成型のものよりもはるかにうまく機能します。そして、今、ビデオにも対応するバージョンがあります。ビデオを取り、大きなチャンクをマスクすることによって破損させます。完全なビデオと破損したビデオの両方を、同一のエンコーダに通します。そして同時に、部分的なビデオから完全なビデオの表現を予測する予測器をトレーニングします。ビデオの表現を学習するシステムに、例えばビデオでどのような行動が行われているか、ビデオは可能か不可能かなどを伝えようとすると、実際にうまく機能します。それは素晴らしいですね。ある意味では抽象的な思考を与えますよね。そして、この結合埋め込みトレーニングが、画像を再構成しようとするよりもはるかにうまく機能することを示す実験結果があります。これを行うためのいくつかの方法があります。Dino、VCRag、Vic、IAなど、蒸留法の1つです。そのため、この問題にアプローチするいくつかの異なる方法がありますが、それらの1つが、基本的にはジェパアーキテクチャをトレーニングする一般的な方法を与えるレシピにつながります。それは生成型ではありません。なぜなら、システムが入力の部分を再生しようとしているのではなく、入力の抽象的な表現を生成しようとしているからです。そして、それは、実際に予測できない詳細を無視することを可能にします。例えば、テーブルの上に垂直に置いたペンを、手を離すとどうなるか、どの方向に落ちるかは予測できません。しかし、ある抽象的なレベルでは、ペンが落ちるということができます。方向を表すことなくです。それがジェパのアイデアです。そして、私たちは、システムを持つことに良い結果を得始めています。例えば、VJシステムは多くの自然なビデオでトレーニングされており、オブジェクトが消えたり、形が変わったりするビデオなど、不可能なビデオを見せることができます。ゲームエンジンなどでこれを作成したり、ボールが転がり、スクリーンの後ろで転がり始め、スクリーンが降りてきてボールがもうない状況などを作成したりすることができます。そして、システムがビデオを見せたときの予測誤差を測定します。システムは予測するようにトレーニングされています。必ずしも時間内ではなく、ビデオの一貫性を予測するということです。そして、不可能なことが起こると、予測誤差は急上昇します。ですから、システムが物理的に可能か不可能かについてのアイデアを統合しているかどうかを検出できます。物理的に可能な自然なビデオでトレーニングされているだけです。それは本当に興味深いです。システムがかなり堅牢な常識を持っていることの最初のヒントです。はい。私たちは、これらのシステムのバージョンも持っており、その行動条件は、基本的に、時間tでの世界の状態のビデオチャンクまたは画像と、ロボットアームが動かされたりなど、行われている行動があり、その行動の結果を観察することができます。ですから、これを使ってジェパをトレーニングすると、モデルは基本的に、「時間tでの世界の状態はこれです。実行できるアクションはこれです。時間t+1での世界の状態を、この抽象的な表現空間で予測できます」と言うことができます。世界の仕組みを理解することです。そして、素晴らしいことは、システムが想像できる行動の結果を想像できることです。「最後に世界をこのような状態にしたい。そのための行動のシーケンスを見つけ出すことができますか」と尋ねると、実際にその結果を生み出す行動のシーケンスを検索することで、それを実際に見つけることができます。それが計画であり、推論であり、実際の推論であり、実際の計画です。時間切れなので、あなたをここで終わらせなければなりませんが、DeepSpeedについて、そしてオープンソースが独自のモデルを追い抜いたかどうかのあなたの反応を60秒で教えてもらえますか?そうでないと、あなたのチームに殺されてしまいます。追い抜いたというのは強い言葉だと思います。オープンソースの世界では進歩が速いことは確かですが、もちろん、独自のショップはオープンソースの世界の進歩から利益を得ています。彼らは誰でもアクセスできる情報にアクセスできます。ですから、明確なのは、大規模なショップが単独で生み出すことができない、オープンソースの世界からはるかに多くの興味深いアイデアが出てきているということです。良いアイデアの独占権を持つ人はいません。ですから、オープンソースの世界の魔法のような効率は、世界中から才能を募集するということです。DeepSpeedで私たちが見てきたことは、比較的自由で、LLMの次世代を生み出すための制約が少ない、比較的小さなチームを編成すれば、誰も考えつかなかった新しいアイデアを生み出すことができるということです。彼らは、どのように物事をやるかを少し再発明することができます。そして、それを世界と共有すれば、世界全体が進歩します。ですから、オープンソースの方が進歩が速いことは明らかです。そして、独自のワールドでは追いつくのが難しい、はるかに多くのイノベーションが起こる可能性があります。運用コストが安い、私たちが話しているパートナーは、「クライアントは何かをプロトタイプ化するときは独自のAPIを使用しますが、実際に製品を展開する際には、LlamaやOpenなど、オープンソースエンジンを使用します。なぜなら、安価で、より安全で、制御しやすく、オンプレミスで実行できるからです。多くの利点があります。私たちはまた、当初はオープンソースの取り組みが、例えば、中国を助けるなど、地政学的な理由から悪い考えだと心配していた一部の人々の考え方の大きな進化を見てきました。しかし、DeepSpeedは、中国は私たちを必要としないことを示しました。彼らは本当に良いアイデアを生み出すことができます。中国には本当に優秀な科学者がいることは誰もが知っています。あまり知られていないことの一つに、科学全体で最も引用されている論文は、10年前の2015年の深層学習に関する論文であり、北京から出てきました。その論文はResNetと呼ばれており、ニューラルネットの特定のアーキテクチャです。基本的に、深層学習システムの各段階は、アイデンティティ関数、つまり入力を出力にコピーするだけを混乱させます。そして、ニューラルネットは、このアイデンティティからのずれを計算します。これにより、非常に長い

深いニューラルネット、ご存知の通り、数十層、もしかしたら100層もあるものです。そして、その論文の筆頭著者は、当時スカミングと呼ばれていた、シング氏です。彼は当時、マイクロソフトリサーチ北京にいました。その後まもなく、その論文の発表後、彼はカリフォルニアのFAIRに入社しました。私が彼を雇いました。そして、FAIRで約8年間働きました。最近辞めて、今はMITの教授です。

ですから、本当に本当に優秀な科学者は世界中にいます。良いアイデアの独占権を持つ者は誰もいません。シリコンバレーが、良いアイデアの独占権を持っているわけではありません。

もう一つの例としては、最初のLlamaはパリから出てきました。パリに住むFAIRの小さなチーム、12人のメンバーから生まれたのです。

ですから、科学技術を急速に進歩させたいのであれば、世界中の多様なアイデア、背景、創造性を活用しなければなりません。そしてそれは、オープンソースによって可能になります。

ヤン、いつもお話できて嬉しいです。今回で4回目か5回目だと思います。9年前から、あなたはいつも、私を全ての誇大宣伝や騒音から解き放ち、何が起こっているのかを理解する手助けをしてくれました。きっと、私たちのリスナーや視聴者にとってもそうなるでしょう。

ですから、本当にありがとうございました。また近いうちにお会いしましょう。ありがとうございました。皆さん、ありがとうございました。視聴していただきありがとうございます。金曜日にまた戻ってきて、今週のニュースを詳しく解説します。それまで、ビッグテクノロジーポッドキャストでまたお会いしましょう。

コメント

タイトルとURLをコピーしました