ヤン・ルカン：人間の知能は汎用知能ではない // AI Inside 63

14,924 文字

Yann LeCun: Human Intelligence is not General Intelligence // AI Inside 63

Yann LeCun, Meta’s chief AI scientist and Turing Award winner, joins us to discuss the limits of today’s LLMs, why gener...

ジェイソン：AI Insideにヤン・ルカンさんをお迎えできることを嬉しく思います。メタのチーフAIサイエンティスト、チューリング賞受賞者、多くの人がAIの生みの親と呼ぶ方です。番組へようこそ、ヤンさん。お会いできて本当に嬉しいです。
ヤン：お招きいただきありがとうございます。
ジェイソン：AIの生みの親として紹介されるのは慣れましたか？「ああ、またか」という感じですか。
ヤン：聞こえないふりをして赤面しないようにしています。
ジェイソン：でも今ではそれを受け入れられますよね、事実なんですから。さて、この会話にはいろいろな方向性がありますね。あなたの仕事、メタの取り組み、そして現在のLLMの状況についても話し合うことになるでしょう。
最初に質問したいのは、私たちは現在、LLM世代と呼べるAIの時代にしっかりと足を踏み入れていて、そこからさらに何かが見えてきているという状況です。しかし、まだLLMの時代にどっぷりつかっている中で、あなたはLLMの限界についてかなり強い意見を持っています。一方では、OpenAIがLLM技術の成功を基盤に記録的な資金調達を行っています。一方では収穫逓減が見え、もう一方では企業が生成AIとLLMにすべてを賭けている状況です。彼らがあなたの見ている技術の限界を見ていないのか、あるいは見ていても別のアプローチをとっているのか、あなたの考えを聞かせてください。
ヤン：彼らも見ているかもしれませんね。LLMが有用であることは間違いありません。特にコーディング・アシスタントなどには役立ちます。そして将来的には、より一般的なAIアシスタントの仕事にも役立つでしょう。エージェントシステムという話もされていますが、まだ完全には信頼できません。
このような応用においての主な問題点は、AIやコンピュータ技術全般に繰り返し起きている問題なのですが、印象的なデモを見ることはできても、実際に人々が日常的に使用できるほど信頼性の高いシステムを展開するとなると、大きな隔たりがあります。もっと難しいのです。
10年前、私たちは田舎道や街中で自動運転する車のデモを見ていましたが、10分ほどで人間の介入が必要でした。確かに大きな進歩を遂げましたが、まだ人間と同じくらい信頼性の高い自動運転車を実現するには至っていません。Waymoなどが行っているように、ルールを調整するなら別ですが。
AIでは過去70年にわたって、新しいパラダイムが登場するたびに「これで人間レベルのAIが実現する」「10年以内に地球上で最も知的な存在は機械になるだろう」と主張する歴史が繰り返されてきました。そして毎回、それは間違っていました。新しいパラダイムには予想外の限界があったり、特定の問題には優れていても汎用知能の問題ではなかったりしたからです。
そういうわけで、AIの研究者、産業人、創業者の世代が次々と同じような主張をし、その度に間違ってきたのです。
LLMを否定したいわけではありません。非常に有用です。多くの投資が行われるべきですし、何十億人ものユーザーに対応するインフラへの投資も必要です。実際、お金の大部分はモデルの訓練ではなく、そのインフラに投じられています。しかし、他のコンピュータ技術と同様に、人間レベルの知能でなくても有用なのです。
人間レベルの知能を目指すなら、新しい技術を発明する必要があります。まだ人間の知能に匹敵するには程遠いのです。
ジェフ：ヤンさん、本当にここに来ていただいて感謝しています。私はこの番組や他の場所であなたの言葉をよく引用しているんです。あなたはAIにおけるリアリズムの声だと思います。他の場所で聞くような誇大宣伝をしていませんね。現在の状況についても非常に明確です。たしか、私たちは賢い猫や3歳児程度のレベルに達しつつあるとおっしゃっていましたね。
ヤン：それすらも達していません。
ジェフ：そうですね。また、LLMの限界に達したとも話されていました。次のパラダイム、次の飛躍があるはずです。それは現実をより良く理解することだとおっしゃっていましたね。次に研究がどこに向かうべきか、どこにリソースを投入すべきか、AIからより多くを引き出すにはどうすればいいかについてお話いただけますか？
ヤン：3年前、私は今後10年間でAI研究がどこに向かうべきかを説明した長い論文を書きました。これは世界がLLMについて知る前のことです。もちろん、私たちはその前から取り組んでいたので知っていましたが、その構想はLLMの成功によって変わっていません。
必要なのは、物理世界を理解する機械、推論と計画ができる機械、永続的な記憶を持つ機械です。そして、それらの機械は制御可能で安全でなければなりません。つまり、私たちが与える目標によって駆動され、私たちが与えたタスクを達成したり、質問に答えたりするだけでなければならないのです。そして、彼らが私たちの指示から逸脱することはできません。
その文書で説明したのは、その地点に到達する可能性のある一つの方法です。それは「世界モデル」と呼ばれる中心的な概念を中心としています。私たち全員が頭の中に世界モデルを持っています。動物も同様です。基本的に、世界で何が起こるかを予測できる心的モデルです。それは世界そのものによるものか、自分の取る可能性のある行動によるものかのどちらかです。
行動の結果を予測できれば、目標やタスクを設定したとき、特定の行動シーケンスがその目標を達成するかどうかを世界モデルを使って想像できます。これにより計画を立てることができるのです。
つまり、計画と推論は実際には、特定の行動シーケンスが設定したタスクを達成するかどうかを判断するために心的モデルを操作することなのです。これは心理学者が「システム2」と呼ぶものです。意識という言葉は使いたくありませんが、タスクを達成する方法について意図的に考えるプロセスです。
これを本当にどうやるのかはまだわかっていません。研究レベルではある程度進展していますが、この分野の最も興味深い研究の多くはロボット工学の文脈で行われています。ロボットを制御するには、腕にトルクを加えた効果を事前に知る必要があるからです。
実際、制御理論とロボット工学では、一連の行動の結果を想像し、最適化によってタスクを満たす行動シーケンスを検索するこのプロセスには名前があります。モデル予測制御（MPC）と呼ばれ、最適制御の古典的な方法です。
ロボット工学と制御理論における主な問題は、世界モデルがエンジニアによって書かれた一連の方程式であることです。ロボットアームやロケットなどを制御する場合、その力学方程式を書き下すことができます。
しかしAIシステムには、この世界モデルが経験や観察から学習される必要があります。これは動物や人間の赤ちゃんの心の中で起きていると思われるプロセスで、観察によって世界の仕組みを学んでいます。これを再現することが非常に複雑なのです。
これは自己教師あり学習（Self-supervised Learning）と呼ばれる非常にシンプルな原則に基づくことができます。この自己教師あり学習は、自然言語理解やLLMなどの分野で非常に成功しています。実際、これがLLMの基礎です。
テキストを取り、次の単語を予測するために大きなニューラルネットを訓練します。それがLLMの基本です。効率化のためのテクニックはありますが、基本は次の単語を予測するためのトレーニングです。そして使用するときは、次の単語を予測し、その予測された単語を視野に入れ、2番目の単語を予測し、それをシフトして3番目を選ぶのです。これが自己回帰的予測で、LLMの基礎となっています。そして、質問に正確に答えられるように人を雇ってファインチューニングすることにどれだけお金をかけられるかというのがポイントです。現在、多くのお金がそこに投入されています。
この自己教師あり学習の原則を使って、画像の表現を学習したり、ビデオで何が起こるかを予測するために使うことができると想像できます。コンピュータにビデオを見せ、次に何が起こるかを予測するために大きなニューラルネットを訓練すれば、システムがこれを学習し、予測を上手くできるようになれば、物理的世界の根底にある性質について多くを理解しているでしょう。
物体は特定の法則に従って動くと考えるでしょう。アニメーションのような物体はより予測不可能な方法で動くかもしれませんが、それでも制約を満たします。重力によって支えられていない物体が落ちるのを見ることはないでしょう。
人間の赤ちゃんは重力について学ぶのに9ヶ月かかります。これは長いプロセスです。若い動物はもっと早く学びますが、最終的に重力が何であるかについては同じ理解を持っていないでしょう。ただし、猫や犬は明らかにこれに非常に優れています。
このような訓練をどのように再現するか。単純なやり方は、テキストの代わりにビデオを取り、次にビデオで何が起こるかを予測するようにシステムを訓練することです。これは私が20年間取り組んできたことですが、実際には機能しません。
次のフレームを予測するように訓練しても、簡単すぎるため有用なことは学習しません。長期的な予測をしようとすると、ビデオで何が起こるかを本当に予測することができません。なぜなら、起こり得る多くの妥当なことがあるからです。
テキストの場合は辞書内の単語数が有限なので、非常にシンプルな問題です。シーケンスの後にどの単語が続くかを正確に予測することはできませんが、辞書内のすべての単語の確率分布を予測することはできます。それで十分です。予測の不確実性を表現できます。
しかし、ビデオではこれができません。すべての画像やビデオフレーム、あるいはビデオセグメントの集合に対する適切な確率分布の表現方法がわかりません。これは数学的に扱いにくい問題なのです。
つまり、大きなコンピュータがないという問題ではなく、本質的に扱いにくいのです。5、6年前までは、この問題に対する解決策がありませんでした。私も含めて誰も解決策を持っていなかったと思います。
私たちが考え出した解決策の一つは、この方法を変える種類のアーキテクチャです。ビデオで起こるすべてを予測する代わりに、ビデオの表現を学習するシステムを訓練し、その表現空間内で予測を行います。その表現は、予測不可能または解明できないビデオの多くの詳細を除去します。
このようなアーキテクチャはJEPA（Joint Embedding Predictive Architecture）と呼ばれています。後でもう少し詳しくお話しできますが、驚くべきことに、これは生成的ではありません。
みんなが生成AIについて話していますが、私の直感では、次世代のAIシステムは非生成モデルに基づくことになるでしょう。
ジェイソン：あなたのお話を聞いていて思ったのですが、現在のLLMの素晴らしさと「AGI（汎用人工知能）のすぐそこまで来ている」と主張する人たちについて考えると、その理由は人によって異なります。「すぐそこにある」と言う人もいれば、「既にここにある。これを見てください。すごいでしょう？」と言う人もいます。
ジェフ：「絶対に実現しない」と言う人もいます。
ジェイソン：そうですね。「絶対に実現しない」と言う人もいます。この番組ではこのトピックについて少し信じられないような気持ちで話すことが多いのですが、あなたが今おっしゃったことがそれを裏付けているように思います。あなたが話しているすべての側面をモデル化したり、本当に分析できるモデルをどうやって作るのでしょうか？
LLMは推論に焦点を当てていますが、人間の推論とは異なる種類の推論かもしれません。そして、物理的世界、計画立案、永続的な記憶など、あなたが話すすべてのコンポーネントがあります。そのように考えると、AGIが間近にあるわけではなく、AGIは非常に遠い理論であり、実現しないか、少なくともとても長い時間がかかるという確信が強まります。あなたの考えはいかがですか？
ヤン：まず、私の考えでは、将来的に人間が賢い分野すべてにおいて、少なくとも人間と同じくらい賢い機械が登場することは間違いありません。これは疑問の余地がありません。多くの人がこれについて大きな哲学的疑問を持っています。人間の本質は捉えがたく、それを計算に還元することは決してできないと信じている人もたくさんいます。
私はその点については懐疑的ではありません。将来的に私たちより知的な機械が登場することは間違いありません。既に狭い分野では私たちより賢くなっています。
次に、AGIとは本当に何を意味するのかという疑問があります。汎用知能とは何を意味するのでしょうか？人間の知能と同じくらい汎用的な知能を意味するのでしょうか？もしそうなら、その言葉を使うことはできますが、非常に誤解を招きます。なぜなら、人間の知能は全く汎用的ではないからです。非常に特化しています。
私たちは進化によって、生存のために価値のあるタスクのみを行うように形作られています。私たちは自分たちが汎用知能を持っていると考えていますが、全くそうではありません。私たちが把握できない問題はすべて、考えることさえできません。それが私たちに汎用知能があると信じさせていますが、絶対に汎用知能は持っていません。
だから、この言葉はナンセンスだと思います。非常に誤解を招きます。メタ内で人間レベルの知能という概念を指すために使用している言葉は、AMI（Advanced Machine Intelligence）です。これははるかに開かれた概念です。実際、私たちはそれを「ami」と発音します。フランス語で友人を意味する言葉です。しかし、人間レベルの知能と呼びましょう。
それが起こることは間違いありません。来年には起こりません。2年後にも起こりません。10年以内にある程度実現するかもしれません。そんなに遠くはないのです。現在取り組んでいることがすべて成功すれば、10年以内に目標に到達できるかどうかについて良い感触が得られるでしょう。
しかし、私たちが考えているよりも難しいことはほぼ確実です。おそらく考えているよりもはるかに難しいでしょう。なぜなら、AIの歴史を通じて、常に私たちが考えるよりも難しかったからです。
私は楽観的です。絶対に到達できないと言う悲観論者ではありません。現在行っていることがすべて無駄だと言う悲観論者でもありません。それは事実ではありません。非常に有用です。
量子コンピューティングや全く新しい原理が必要だと言う人々でもありません。いいえ、私はこれがディープラーニングに基づくものになると思います。基本的に、この基礎となる原理は長い間私たちと共にあると思います。
しかし、この分野内で発見し実装する必要のあるものについては、まだ達していません。いくつかの基本的な概念が欠けています。
最も説得力のある方法は、現在のシステムを見てみることです。インターネット上のどこかに回答がある質問に答えられるシステムがあります。法曹試験に合格できるシステムがあります。これは基本的に大部分が情報検索です。
テキストを短縮して理解を助けたり、私たちの文章を批評したり、コードを生成したりできるシステムがあります。コードの生成は実際には比較的単純です。構文が強固で、多くは単純だからです。
方程式を解いたり、問題を解決したりできるシステムがあります。ただし、それらの問題を解くように訓練されている限りです。ゼロからまったく新しい問題を見た場合、現在のシステムは解決策を見つけることができません。実際、最近の論文で、最新の数学オリンピックですべての最高のLLMをテストすると、基本的にゼロのパフォーマンスになることが示されました。訓練されていない新しい問題だからです。
私たちには言語を操作できるシステムがあり、それが私たちを騙します。賢い人が賢い方法で言語を操作できることに慣れているからです。しかし、私の家庭用ロボットはどこにありますか？レベル5の自動運転車はどこですか？猫ができることをするロボットはどこですか？猫ができることをするシミュレーションロボットですら。
問題はロボットを作れないことではありません。物理的能力を持つロボットを実際に作ることができます。しかし、十分に賢くする方法がわからないのです。
実世界に対処し、行動を生み出すシステムに対処することは、言語を理解するシステムに対処するよりもはるかに難しいのです。再び、先ほど言及した部分に関連していますが、言語は離散的です。強い構造を持っています。実世界は巨大な混乱であり、予測不可能です。決定論的ではありません。高次元で連続的です。すべての問題を抱えています。
まずは猫と同じくらい速く学ぶことができるものを作ってみましょう。
ジェフ：たくさん質問があるのですが、もう少しこの話題を続けさせてください。人間レベルの活動や思考がモデルであるべきなのでしょうか？それは制限になりませんか？アレックス・ローゼンバーグの『How History Gets Things Wrong』という素晴らしい本があります。彼は心の理論を否定し、私たちが経るような推論プロセスはないと主張しています。実際には、私たちの頭の中にはビデオテープがたくさんあり、状況に遭遇するとそれに最も近いビデオテープを見つけて再生し、それに基づいてイエスかノーかを決定するというLLMのようなことをしているのです。
これは人間の心のようにも聞こえます。しかし、人間の心のモデルは、推論や物事を比較検討するというものです。また、あなたも言うように、私たちは汎用的に知的ではありませんが、機械は私たちができないことをすることが考えられます。現在でも私たちができないことをしています。もっと多くのことができるようになるでしょう。
成功とその目標について考えるとき、そのモデルは何でしょうか？猫のレベルに達することは大きな勝利でしょう。しかし、あなたの大きな目標は何ですか？それは人間の知能なのか、それとも別のものなのでしょうか？
ヤン：それは人間や動物の知能と以下の点で似た種類の知能です。現在のAIシステムは、これまで直面したことのない新しい問題を解決するのが非常に困難です。
先ほど話した心的モデル、世界モデルがないため、行動の結果を想像することができません。そのような方法で推論しないのです。
LLMはそうではありません。なぜなら、できることは単語やトークンを生成することだけだからです。複雑な質問に単純な質問よりも多くの時間を費やさせるために、推論のステップを踏むように求めます。その結果、より多くのトークンを生成し、その質問に答えるためにより多くの計算を費やします。しかし、それはひどいトリックです。ハックです。人間が推論する方法ではありません。
LLMが行う別の例は、コードを書いたり質問に答えたりする場合です。LLMに多くのトークンシーケンスを生成させ、それから第二のニューラルネットがそれらを評価し、最良のものを選びます。これは多くの回答を生成し、批評がどの答えが最良かを教えてくれるようなものです。
このように動作するAIシステムは多く、特定の状況ではうまく機能します。チェスをするシステムは、あなたの手、相手の手、またあなたの手、相手の手というように、可能なすべての手順のツリーを生成します。そのツリーは指数関数的に成長するので、全体を生成することはできません。ツリーの一部だけを生成するスマートな方法が必要で、評価関数や価値関数と呼ばれるものが勝つ可能性が最も高い位置に至るツリーの最良の枝を選び出します。これらはすべて現在では訓練されています。基本的にはニューラルネットで、ツリーの良い枝を生成して選択します。
これは限られた形の推論です。なぜ限られているかというと、これは人間が下手な種類の推論なのです。おもちゃ屋で30ドルで買えるガジェットがチェスであなたに勝てるという事実は、人間がこの種の推論に全く向いていないことを示しています。本当に苦手なのです。記憶容量や計算速度などを持っていません。
しかし、私たちが本当に得意なこと、そして猫や犬やネズミが本当に得意なことは、実世界での行動を階層的に計画することです。
人間の領域で例を挙げると、動物のタスクにも似たものがありますが、猫が瓶を開けたり、ドアを開けるためにジャンプしたり、ドアの鍵を開けたりすることを学ぶのを見ます。彼らはこれをどうするか学び、食べ物を得るためなど、目標に到達するための一連の行動を計画する方法を学びます。リスもこれを行うのを見ます。このようなことを学ぶ方法についてはかなり賢いです。
これは機械で再現する方法がわからない種類の計画です。そしてそれは完全に内部的なものです。言語とは何の関係もありません。人間である私たちは、思考は言語に関連していると考えていますが、そうではありません。動物も考えることができます。話さない人々も考えることができます。
推論の種類があります。ほとんどの種類の推論は言語とは何の関係もありません。あなたの前に浮かぶ立方体を想像してくださいと言えば、おそらく立方体が水平で底が水平であると仮定したでしょう。横向きの立方体は想像しなかったでしょう。90度回転させると、それは立方体なので90度の対称性があり、最初と同じに見えることがわかります。この推論には言語は関与していません。それは状況の抽象的な表現であり、立方体を回転させるような想像上の行動を通じてそれらの表現を操作し、結果を想像するのです。
これにより、抽象的なレベルで実世界でタスクを達成することができます。立方体が何でできているか、どれだけ重いか、私たちの前に浮かんでいるかどうかは関係ありません。それらの詳細は重要ではなく、表現はそれらの詳細を気にしないほど十分に抽象的です。
私はニューヨークにいます。明日パリにいる計画を立てるとします。筋肉のミリ秒ごとの制御という基本的な行動の観点からパリへの旅行を計画することもできますが、それは不可能です。数時間の筋肉制御であり、持っていない情報に依存するからです。例えば、通りに出てタクシーを拾うことができますが、タクシーが来るまでどれくらい時間がかかるかわかりません。信号が赤か緑かもわかりません。
全旅程を計画することはできません。階層的な計画を立てる必要があります。明日パリにいるためには、まず空港に行き飛行機に乗る必要があると想像する必要があります。空港に行くためにはどうするか。ニューヨークにいるので、通りに出てタクシーを拾うことができます。通りに出るにはどうするか。エレベーターや階段を通って下りて、ボタンを押して、下りて、建物から出る。そしてエレベーターや階段に行くためのサークルが始まります。椅子から立ち上がるにはどうするのでしょうか？階段を登る方法や椅子から立ち上がる方法を言葉で説明できますか？できませんよね。これは実世界の低レベルの理解です。
私が今説明したすべての設定目標のある時点で、椅子から立ち上がることに慣れているので、本当に計画や思考をせずにタスクを達成できる状況に達します。
内部の世界モデルで行動の結果がどうなるかを想像し、このタスクを達成するために一連の行動を計画するというこのプロセスの複雑さ、それが今後数年間のAIにおける大きな課題です。まだそこには達していません。
ジェフ：一つ質問したいことがあります。すばらしい講義をありがとうございます、教授。これは本当に感謝していますが、メタの現在の戦略についても知りたいと思います。
メタがオープンソースや公開、何と呼ぶにせよ、そういう方向に進むことを決めたこと、LLAMAは素晴らしいツールです。教育者として私は感謝しています。以前はCUNYのエメリタスでしたが、現在はストーニーブルックにいます。LLAMAのおかげで大学がモデルを実行し、それから学び、何かを構築することができるのです。私がよく言っていることですが、LLAMAなどに関するメタの戦略、あなたの戦略は、業界の一部には邪魔者である一方、学術的あるいは起業家的なオープンな開発には大きな推進力となっていると思います。この戦略について、本人から直接お聞きしたいです。LLAMAをこのような形でオープンにした戦略は何ですか？
ヤン：正確に3つの企業にとっては邪魔者です。
ジェフ：そうですね、まさにそのとおり。
ヤン：そして何千もの企業には力を与えるものです。
純粋な倫理的観点から見れば、明らかに正しいことをしています。LLAMA、LLAMA 2の限定オープンソースとしてのリリースは、産業やスタートアップだけでなく、あなたも言及したように学術界におけるAIエコシステムを完全に活性化しました。学術界は基本的に企業と同じレベルの基盤モデルを訓練する手段を持っていません。そのため、AIの研究に貢献するためにはこのようなオープンソースプラットフォームに依存しています。
メタがこれらの基盤モデルをオープンソースでリリースする主な理由の一つは、イノベーション、より速いイノベーションを可能にすることです。問題は、ある会社が他社より3ヶ月先を行っているかどうかではありません。これが現在の実際の状況です。問題は、現在のAIシステムに私たちが構築したい製品を可能にする能力があるかどうかです。答えはノーです。
メタが最終的に構築したい製品は、AIアシスタント、あるいはおそらくAIアシスタントのコレクションで、常に私たちと一緒にいて、おそらくスマートグラスに存在し、会話ができるものです。レンズに情報を表示するかもしれません。そしてこれらのものが最大限に有用であるためには、人間レベルの知能を持つ必要があるでしょう。
人間レベルの知能に向かうことは、まず第一に、一つのイベントではないことを私たちは知っています。AGIを持たない日があり、その次の日にAGIを持つということはないのです。そのような形では起こらないでしょう。
ジェフ：もしそうなったら、私がお酒をおごります。
ヤン：むしろ私があなたにおごるべきでしょうね、そんなことは起こらないので。そのような形では起こらないのです。
では、実際の問いは、人間レベルの知能に向けてどうやって可能な限り早く進歩するかということです。そして、これは私たちが直面してきた最大の科学的・技術的課題の一つなので、世界中からの貢献が必要です。世界中のどこからでも良いアイデアが出てくる可能性があります。
最近のDeepSeekの例を見てみましょう。シリコンバレーの誰もが驚きましたが、オープンソースの世界にいる多くの私たちにとってはそれほど驚くことではありませんでした。それがオープンソースの全体的な考え方の検証なのです。
良いアイデアはどこからでも出てくる可能性があります。誰も良いアイデアを独占していません。信じられないほど誇張された優越感を持つ人々を除いては。
ジェフ：特定の誰かについて話しているわけではありませんよね？
ヤン：いいえ、特定の誰かではありません。そのような人々はこの国の特定の地域に高い濃度で存在します。
もちろん、彼らは自分たちが他の誰よりも優れているというこの考えを広める既得権益を持っています。しかし、これはまだ大きな科学的課題であり、誰もが貢献する必要があると思います。学術研究の文脈でこれを行う最善の方法は、研究を公開し、可能な限りコードをオープンソースで公開し、人々に貢献してもらうことです。
過去十数年間のAIの歴史は、人々がコードと科学的情報を共有したために進歩が速かったことを示しています。そして過去3年間で、テクノロジーから収益を生み出す必要があるため、この分野にいくつかのプレーヤーが現れ始めました。
メタでは、テクノロジー自体から収益を生み出すのではなく、広告から収益を生み出しています。その広告はテクノロジーの上に構築する製品の質に依存し、ソーシャルネットワークのネットワーク効果と人々やユーザーへの経路に依存しています。そのため、私たちのテクノロジーを配布することは商業的に害を与えません。実際、それは私たちの助けになります。
ジェイソン：そうですね、100％同意します。あなたの話を聞いていると、ウェアラブルとメガネについて言及されましたね。それは常に私の注目を引きます。昨年12月にGoogleのプロジェクト・アストラ・グラスを試す機会がありました。それ以来ずっと印象に残っており、10年、20年先のAIではなく、現在のAI時代のこの瞬間をさらに強調するという私の見解を確固たるものにしました。
世界を文脈化するための次のステップとして、私たちがすでに着用している可能性のあるハードウェアを身に着けながら行うことは素晴らしいことです。もしそれが通常のメガネのように見えるメガネであれば、突然この余分な文脈を持つことができます。
そして、現在の位置と私たちが向かっている可能性のある場所の間に私が引くことができた線は、着用者に経験が与える文脈だけでなく、あなたにとって、メタにとって、そしてこれらのシステムを作成している人々にとって、実世界での情報を取り入れるスマートグラスは、人間が物理的な世界でどのように生活し操作するかについての知識を引き出すための本当に良い情報源になり得るということです。それは正しい方向性でしょうか、それともパズルの一片、非常に小さな一片にすぎないのでしょうか？
ヤン：それは一片ではありますが、重要な一片です。常にあなたと共にいて、あなたが見るものを見、あなたが聞くものを聞くアシスタント（もちろん、あなたが許可した場合）というアイデア、それは間違いなく重要なビジョンです。実際、ビジョンは単一のアシスタントではなく、あなたの周りで働く知的な仮想アシスタントの全スタッフを持つことです。まるで私たち全員がボスになるようなものです。
機械が私たちより賢くなることで脅威を感じる人もいますが、私たちはそれによって力を与えられるべきです。彼らは私たちのために働くことになるのです。科学者や産業界のマネージャーとして、あなたより賢い学生やエンジニアや人々を雇うことが最善のことです。それが理想的な状況です。それによって脅威を感じるのではなく、力を与えられると感じるべきです。
そのため、私たちが思い描くべき未来は、日常生活を助けるスマートなアシスタントのコレクションです。おそらくあなたより賢いかもしれません。あなたがタスクを与え、彼らはそれを達成します。おそらくあなたよりも上手に。それは素晴らしいことです。
これは、オープンソースに関する前の質問に関連する別のポイントにつながります。その未来では、デジタル世界とのほとんどの相互作用がAIシステムによって仲介されることになります。
だからこそ、Googleは現在少し慌てています。彼らは誰も検索エンジンに行かなくなることを知っているからです。あなたはただAIアシスタントに話すだけになります。そのため、彼らはGoogle内でこれを実験しようとしています。
それはメガネを通じて行われるでしょう。彼らはおそらくそれを構築する必要があることを認識しています。私はこれを数年前に認識していたので、私たちは少し先行しています。しかし、それは本当に起こることです。常に私たちと一緒にいるAIを持ち、それが私たちのすべての情報食を仲介することになります。
これについて考えると、世界中のどこかの市民として、あなたの情報食が米国西海岸や中国のほんの一握りの企業によって構築されたAIアシスタントからもたらされることを望みません。まず第一に、あなた自身の言語を話す、それが
obscure（訳注：曖昧な）方言や地域言語であっても、AIアシスタントの高い多様性を望みます。第二に、あなたの文化、価値観、バイアス（何であれ）を理解するものが必要です。
そのため、プレスの高い多様性が必要なのと同じ理由で、そのようなアシスタントの高い多様性が必要です。ジャーナリズムの教授に話していることを認識しています。
ジェフ：アーメン。実際、私が称賛しているのは、インターネットと次のAIが大量メディアの構造を打ち壊し、メディアを再び人間レベルで開放することです。AIは私たちをより人間的にすることを願っています。
ヤン：私もそう願っています。
現在の技術でこれを達成する唯一の方法は、文化的多様性などを持つアシスタントを構築する人々が、強力なオープンソースの基盤モデルにアクセスできることです。彼らは独自のモデルをトレーニングするリソースを持っていないからです。
世界のすべての言語を話し、すべての価値システムを理解し、文化、政治的バイアスなど、想像できるすべてのバイアスを持つモデルが必要です。
そして、何千ものそのようなモデルが選択肢として存在し、世界中の小さな店舗によって構築されることになるでしょう。そして、それらはメタのような大企業や、おそらくそのような基盤モデルをトレーニングする国際コンソーシアムによってトレーニングされた基盤モデルの上に構築される必要があります。
私が見る市場の進化は、1990年代後半または2000年代初頭のインターネットのソフトウェアインフラストラクチャで起こったことと似ています。インターネットの初期には、サン・マイクロシステムズ、マイクロソフト、HP、IBM、そして他のいくつかがインターネットのハードウェアとソフトウェアインフラストラクチャを提供しようとしていました。彼ら独自のUNIXのバージョンやWindows NT、独自のウェブサーバー、独自のラックなどです。これらすべてがLinuxと汎用ハードウェアによって完全に排除されました。
それが排除された理由は、Linuxをプラットフォームソフトウェアとして実行することがより移植性が高く、より信頼性が高く、よりセキュリティが高く、より安価であるためです。Googleはこれを最初に行った企業の一つで、汎用ハードウェアとオープンソースのオペレーティングシステム上にインフラストラクチャを構築しました。もちろん、メタも全く同じことをしましたし、現在はマイクロソフトでさえもそうしています。
そのため、市場からの同様の圧力がそれらのAI財務モデルをオープンで無料にするでしょう。それはインターネットのインフラストラクチャのようなインフラストラクチャだからです。
ジェイソン：何年間教えていますか？
ヤン：22年です。22年間です。
ジェフ：あなたの分野での学生とその野望に、どのような違いを感じますか？
ヤン：わかりません。私にとっては判断するのが難しいです。なぜなら、過去十数年間、私は大学院生だけを教えてきたからです。PhD学生に大きな変化は感じていません。彼らが世界中から来ているという事実を除けば。
現在米国で起きている絶対に恐ろしいことがあります。研究資金が削減され、外国人学生へのビザが与えられないという脅威があります。もしそれが実施されるなら、米国の技術的リーダーシップを完全に破壊することになるでしょう。STEM（科学、技術、工学、数学）のほとんどのPhD学生は外国人です。そしてほとんどの工学分野の大学院レベルではさらに高くなります。ほとんどが外国人学生です。技術系企業の創業者やCEOのほとんどは外国生まれです。
ジェフ：フランスの大学はアメリカの研究者にそこへ行く機会を提供しています。もう一つ質問があります。猫を飼っていますか？
ヤン：飼っていませんが、一番下の息子が猫を飼っていて、時々その猫の世話をしています。
ジェフ：あなたのモデルがそれなのかと思いました。
ジェイソン：さて、ヤンさん、素晴らしい時間でした。予定よりも少し長く引き留めてしまったことを知っています。時間を作っていただき本当にありがとうございます。ジェフが言ったように「本人から」直接これを聞くことができて素晴らしかったです。あなたは私たちの会話でよく登場しますし、AI業界でのあなたの視点と長年の仕事を本当に感謝しています。ここに来ていただき、光栄でした。
ジェフ：あなたが会話にもたらす理性に感謝します。
ヤン：どうもありがとうございます。本当にあなたたちと話せて嬉しかったです。