GoogleのGemini共同リードであるオリオル・ヴィニャルスが、Google IO後にポッドキャストに出演し、マルチモーダルな世界モデルの可能性やAIエージェントの未来、強化学習の新たな領域、そして継続学習について深く語るインタビューである。

Gemini共同リードと語る世界モデルの未来
オリオル・ヴィニャルスは、ノーム・シャジールやジェフ・ディーンとともにGeminiの共同リードを務めています。彼は過去10年間のディープラーニングにおける多くのブレイクスルーを先導し、AI分野で素晴らしいキャリアを築いてきました。Google IOの直後に彼とじっくり話をすることができて、本当に楽しかったです。Google IOを追いかけている方ならご存知の通り、彼らはAIのあらゆる興味深い領域にわたって、一挙に多くの製品をリリースしました。そこでオリオルと私は、それらのすべてに触れました。マルチモーダルモデルがさらに進化するために何が必要なのか、そしてこれらの世界モデルを実際に使えるものにするための要素について話し合いました。また、メモリーの増強とその重要性、今後数年間でその進歩がどのように推論へとつながっていくのか、そしてオリオルが考える今後の道筋について語り合いました。さらに、現在の足場固めの状況、人々が何を構築しているのか、そして何が残るのかについても触れました。起業家や投資家が考えているトップクラスの疑問をすべて拾い上げ、それをオリオルにぶつけることができて、本当に充実した時間でした。この対話を皆さんに楽しんでいただけると思います。それでは、お待たせいたしました。彼の登場です。
オリオル、ポッドキャストに来てくれて本当にありがとうございます。
ここに来られて嬉しいです。ありがとう、ジェイコブ。
ええ、IOの翌日にあなたを迎えることができて、とても興奮しています。忙しい日々だったと思いますが、今日のこの時間を本当に楽しみにしていました。なぜなら、あなたはGoogleでの仕事を通じて、今日のモデルの最前線を最も直接的に形作っている一人だからです。そして、昨日IOで発表されたリリースでは、この分野で人々が考えている製品やモデルの行く末といった、ほぼすべてのテーマに触れていましたね。ですから、私たちの今日のゴールは、それらの発表の背景にある研究について深く話し合うことだと感じています。これがどこへ向かっているのか、強化学習やポストトレーニングの将来の道筋、そしてこの空間全体に対するあなたの見解を伺いたいです。まずは世界モデルから始めようと思います。昨日の発表の中で本当に印象的な部分でしたし、Googleが他の多くの競合と明確に一線を画している部分でもあると思うからです。昨日、Omniという信じられないほど素晴らしい世界モデルをリリースされましたが、デミス・ハサビスも世界モデルをAGIへの道筋としてよく語っています。面白いのは、他の研究ラボはコードや再帰的な自己改善に重点を置いているように見える点です。これが公平な特徴付けと言えるのか、そしてなぜあなたとGoogleのチームがこの世界モデルの領域にユニークに焦点を当ててきたのか、その理由を教えてください。
まず、コーディングや自己改善という視点は、少し異なるレイヤーの話だと思います。モデルが自らを再プログラミングして向上させることができると信じることは確かにできますし、それは私自身も現在とても積極的に取り組んでいるテーマです。しかし、彼らが向上させる対象であるモデルがマルチモーダルであり、私たちが世界モデルと呼ぶものに近い、あるいはそのものであるという点、そしてその定義自体が初期の頃から少し抽象的であったという背景があります。実はGeminiプログラムが始まるずっと前から、私たちは言語だけでなく、視覚的な世界の理解、つまりビデオなどのコンテキストの中で言葉を共同でモデリングすることに取り組んでいました。ですから、その部分はGeminiの、そしてそれ以前の私たちの研究の核となってきたと言えます。これを特徴付ける一つの方法として、言語には私たちが世界について書いてきた膨大な情報が集合的に含まれている、という点が挙げられます。これは明らかに大きな成果をもたらしました。私たちは、書かれた、そして現在も書かれつつあるすべての知識を、ある意味でこれらの重みに蒸留したのです。
それをすべてインターネット上に置いておいたことも、確かに都合が良かったですね。
はい、まさにその通りです。そして、これが今やユーザーの手元にあることで、明らかにフライホイール効果も生まれています。しかし同時に、ビデオや画像の中にも膨大な知識が存在しています。それはこれまでも緩やかに取り込まれてきましたが、おそらく大きな瞬間が訪れるはずです。私たちがトレーニングの混合データとして確かに使用しているすべてのビデオや画像を見たとしたら獲得できるであろうすべての知識をどのように抽出し、その知識が言語コンポーネントにどのような価値と効率性をもたらすことができるのか、という点です。私たちは一方から他方への建設的な転移学習を目にしていますし、汎化も確認していますが、ビデオや画像におけるいわゆるGPTの瞬間のようなものは、まだ完全には現れていないのではないかと考えています。
まだ到達していないという直感をお持ちの中で、ビデオや画像におけるそのGPTの瞬間とはどのようなものになるとお考えですか。
現在、私たちはすべてのモダリティをトレーニングし、それらをミックスしてレシピを改良し続けています。Omniはその進歩を確認するのに適した例で、ビデオや画像を入力するだけでなく、長いコンテキストの理解などにおいて素晴らしい能力を示しています。さらに今では、バイオを出力するだけでなく、言語を通じて非常に自然な方法でインタラクトしたり、編集したり、モデリングを組み合わせたりすることができ、まるで魔法のように感じられます。その進歩は間違いなく存在しますが、ディープラーニングの初期の夢、あるいは大規模言語モデルが登場するずっと前からの本来の夢としては、テキストなしですべての画像データだけでトレーニングを行い、それでもなお、そのモダリティや膨大なデータからすべての意味やニュアンスを抽出できるかという、高い挑戦があります。これまでに制作されたすべてのビデオや画像でトレーニングを行い、言語モデルが言語を使って到達しているのと同じレベルの理解に到達できるでしょうか。言語モデルの理解は、おそらく少し表面的一般的であり、デミス・ハサビスがよく話すような因果関係などのミッシングリンクがいくつか存在しますが、世界モデルでその瞬間をすでに目にしたかと言われれば、おそらくまだです。すべてをミックスした最も進んだマルチモーダルのレシピは手元にありますが、その純粋な転移こそが、過去10年以上にわたる機械学習の核心的な探求の一つであると思います。
話せる範囲で構わないのですが、これをさらに進化させるために解決すべき主要な問題は何なのか、あるいはあなたが現在取り組んでいる問題のタイプについて、リスナーにコンテキストを教えていただけますか。
解決空間を説明するのは難しいですが、すべてのビデオデータを観察または学習し、そこから重力の法則などを導き出すというアイデアは、よく使われる例です。画像だけに基づいて、世界がどのように機能しているかをどのように正確に描写できるかという問題です。そこでの課題は、明示的な言語の結びつきなしに、画像に見えるものと言語、あるいは私たちが時に概念と呼ぶものを結びつけることが非常にトリッキーである点です。そのため、結局のところ、画像やビデオと、ラベルや説明文などの何らかの言語との間に相関関係や接続があるデータセットを明示的に作成しようとすることになります。しかし当然ながら、世の中にあるすべてのメディアを明確に記述し、書き起こしているわけではないため、利用できるデータ量ははるかに少なくなってしまいます。ですから、言葉や目に見えるものに関連付ける単なる言語としてではなく、最も純粋な形でそれらの概念を抽出することは非常に強力であり、離散表現や表現学習に関する初期の研究がたくさんあります。これはまだかなり研究段階にあるものの一つだと言えます。そのため、今すぐスケールアップできるものではありませんが、もしこれが解放されれば、途方もなく大きな意味を持つことになるでしょう。それが本当に必要かどうか、その意見に同意するかどうかは別の問題ですが、実現すれば莫大なインパクトがあります。
AIエージェントと足場の自動化
世界モデルという言葉が何度も使われ、Omniも世界モデルとして位置づけられていましたが、これまでのビデオモデルの世代と比べて、Omniを世界モデルたらしめている違いは何でしょうか。
世界モデルの純粋な側面は、表現学習にあると思います。ビデオのようなモダリティ、つまり画像のシーケンスや単なる画像を取り込み、それを一連の概念や、その中にある動き、オブジェクトなどに圧縮する技術です。これは表現学習と呼ばれ、関連性の低いものを削ぎ落として非常にコンパクトな方法で世界をモデリングします。これが古典的なアプローチですが、私たちがOmniとインタラクトする際に感じたり目にしたりするものとは少し異なります。Omniで目にするのは、ビデオの挙動や、アニメーション化を求めた初期の画像から得られるビデオの種類を本当に変化させることができるという点です。すべての動きや、前進するといったアクションを明示的に要求すると、それが正確にシミュレートされるのを確認できます。つまり、世界モデル自体が世界のレンダラーとして機能しており、言語によってそれを変えることができるのです。そして、このオブジェクトは、遊ぶためのクールな製品であるだけでなく、シミュレーションの次元を有意義に加えることができます。これにより、世界で行動する前に予測を行うといった使い方が可能になります。もちろん、これらの3Dやビデオの世界モデルの明確な応用先は、自動運転車やロボティクスになります。
ロボティクスにおいて非常に重要であるように感じられます。誰もがシミュレーションデータ、テレオペレーションデータ、エゴセントリックなビデオデータの適切なブレンドを模索している段階だと思いますが、これらのシミュレーションが向上し続けるにつれて、それをデータミックスに投入することの魅力は増すばかりです。この研究は、皆さんが行っている広範なロボティクス研究と直接交差しているのでしょうか。また、ロボットのアクションをこれらのモデルに付加するために何が必要だとお考えですか。
そこには美しいつながりがあります。ロボットからキャプチャされたデータを得ることは、少しコストがかかり、時間がかかるものではありますが、私たちが投資しているそのデータがモデルに入り込むことで、世界モデル自体の能力を向上させることができます。そして、あなたが質問されたもう一つの方向、つまりシミュレーションが可能になり、物理世界のコストや時間的な遅延なしに、ロボットや様々な1D、3Dのグループなどがトレーニングできる膨大なシナリオを作成するという点です。後者をより良く機能させるためには、転移におけるあらゆる問題があり、まだ非常にオープンな課題ですが、これらのモデルが強力になればなるほど、取り組む価値が生まれる変曲点に達し、ロボティクスの加速を目にすることになるでしょう。ハードウェアの分野への膨大な投資が行われており、物事が加速し、活気づいているのを確かに目にしています。しかし、私の限られた知識から言えば、世界モデルが有用であるためには、人間が当然のように行っているオブジェクトを掴むといった動作の正確さ、ビジュアル、それが手にどのように感じられるかという、現在私たちがデータすら持っていないモダリティ、そして正確な力、物体がどのように動くかという点が、非常に正確である必要があります。そこにギャップがあり、そのためにはいくつかの創造性と研究、そして長年にわたるロボティクスへの多大な投資が依然として必要ですが、有望な段階にあります。正確なモーターコントロールのレベルではなく、プランニングや大まかな動作のレベルにおいて、これらのモデルがロボティクスの探求における進歩をどのように加速させるか、私たちは目にし始めることになるでしょう。
これらのモデルの大部分は、大量のビデオデータを消費することを通じて、物理学を暗黙的に学習しています。重力がその代表的な例として挙げられますが、モデルに非常に近い立場にいるあなたとして、世界モデルにおいてそれが完全に解決された問題になるのはいつ頃だと直感されていますか。
それは良い質問ですね。評価について考えさせられます。非常に優れたビデオをトレーニングした場合、それをどのように評価するかという問題です。
モデル内の物理学をどのように評価するのでしょうか。
ええ、良い質問です。問題は、言語を加えた瞬間に、その知識が重みの中に現れてしまうという点です。重みに関する基本的な質問をすれば、オンラインでその説明を読んだことがあるために答えることができてしまいます。したがって、世界モデルに存在するかもしれない、あるいは存在しないかもしれない重力の概念を何らかの形で結びつけ、それを納得のいく説明へとデコードする必要があります。最初は基本的な説明から始まり、後には方程式などを導き出すことができるようになるかもしれません。それが評価を構築する方法です。私の知る限り、私たちがこの観点から考えてきたわけではありませんが、トレーニング中に一度も見ることのない言語へと翻訳を試み、表現をアラインさせる教師なし機械翻訳に関する初期の研究がたくさんあります。話すことができる、あるいはデコードできる言語モデルがあり、概念レベルの理解を生み出すこれらの世界モデルがあり、その両方をアラインさせるというアイデアです。古い論文、私が覚えているのは2014年のステファン・ガウスらの論文ですが、それをデコードし始めて評価に変換することは一見単純なステップに見えますが、これらはアプリケーションの観点から意味を持つ必要があります。最終的には、世界モデルがあるとして、その表現から複雑なシステムにおける動きをデコード、あるいは誘導できるか、といった間接的な評価も考えられます。多くのアイデアがありますが、評価は常に非常に重要です。
昨日リリースされた他の機能、特にエージェントについて話を進めたいと思います。IOの一部として、Sparkにおいて非常に興味深い消費者向けエージェントをリリースされました。外部から見ると、2024年にProject Marinerで模索していたものや、他のコンピューターユースの研究の、本当に改良されたバージョンのように見えます。能力において本質的な段階的変化があったと感じられますが、それを可能にした研究のブレイクスルーと、これらのエージェントが現在できること・できないことについてお聞かせください。
アクション、つまりデジタルコンピューターの状態を操作し変更するというモダリティが非常に重要になることは分かっていました。モデルを進化させ、より良くしていくにつれて、モデルを非常に優れたものにした後、モデルの周囲にシステムを構築することに焦点を当て、システムとモデルを可能な限り共同で最適化していくというプロセスに気づき始めます。何が能力の差や向上を生み出すかと言えば、それは主に集中と、リリースのシーケンスに関するものです。また、ある意味で、次の段階の能力やモデルが次に何を行うかを夢見ることができるようになるためには、モデルの能力が特定のレベルに達する必要があります。
消費者向けの展開で非常に興味深いのは、人々がそれでやりたいことの幅が信じられないほど広いという点です。これまでのところ、そして時間が経つにつれてこれがどのように進化していくかを見るにつれ、モデルとシステムの組み合わせの作業は、人々が解決したい問題のサブカテゴリーに対してどれほど特化しているのか、あるいは非常に汎用的で、Sparkでやりたいほぼすべてのことに対して機能するシステムとモデルの組み合わせを最適化しているだけなのか、どちらでしょうか。
コントロール可能であり、すでに非常に有用であると感じられるものへと特化させていくシーケンスが常に存在します。Sparkを見れば、あなたのスケジュール管理や1日の整理を支援し、様々な問題にどのように取り組むべきかを考えるために必要な情報にアクセスできます。それは非常に豊かなコンテキストを持っているからです。したがって、深く関心のある対象の周囲に、少し狭くシステムを構築することは有用です。しかし、機械学習とディープラーニングの歴史を振り返ると、私たちが構築しているコンポーネントは常に汎用的です。そして、世界モデルの点にも通じる大きな仮説として、すべてを共同でトレーニングすることは、一つのドメインだけに狭く焦点を当てるよりも優れているに違いない、という考えがあります。モデリングの観点からもそれは非常に明確です。しかし、システムの観点から見ても、かなり汎用的なシステムがあり、それをどのように指示するか、あるいはどのようにインタラクトするかによって、ユーザーがこれをやりたい、しかし自分にはこれらすべての能力があるから、どれを使用すべきかをトレーニング時に判断する、という空間に置くことができます。必ずしもそのために構築するのではなく、汎用的なものを構築し、モデルのインテリジェンスのレイヤーとシステムの汎用性を通じて特化が起こるのです。それはすでにここに存在していると明確に言えますし、実践においては、制限を設けたり、より効率的にしたりするために特化させることが依然として理にかなう場合もありますが、特化から汎用への移行は、アーキテクチャのレベルですら起こり続けています。トランスフォーマーは元々機械翻訳のニューラルネットでしたが、今ではOmniからコンピューターの制御まで、あらゆることをこなしています。
継続学習とメモリーシステムの課題
あなたは長年にわたりビター・レッスンについて発言されてきました。現在の分野を見渡したときに、それが実行されていないと感じる場所、あるいは、スケールの拡大によって最終的には洗い流されてしまうであろう構造や巧妙な足場(スキャフォールディング)を目にする場所はありますか。
ええ、そう思います。私が刺激的だと感じており、すでにいくつかの研究が発表されている領域の一つは、私たちが現在モデルの周囲に複雑な足場をコーディングすることによって構築しているシステム、つまりマルチエージェントやサブエージェントへの委譲、非常に長期にわたる実行を行うシステム自体が、最終的にはモデル自身がその場で書き上げることができるコードの一片になるという点です。したがって、非常に汎用的なシステムを持つだけでなく、実際にはシステムが存在せず、モデルが要求された内容に応じて、最もトークン効率が高く、最高品質の出力を生み出す一連のサブエージェントや必要な足場を、問題のセットの周囲に自ら書き出すことができるようになるイメージです。まさにその通りです。過去1年半ほどの間に目にしたパラダイムシフトの一つとして、トークン空間で長時間推論を行うことができる推論モデルがありますが、最終的に重要になるのは、どれだけの時間推論すべきか、という点であり、ユーザーが求めていることの複雑さに基づいてそのレベルのインテリジェンスを加えることが、効率性を高めることになります。ですから、これらのシステムの周囲で行うことには、それをゼロから書くのか、あるいはエージェント側で適切なタスクのために適切な足場をスマートに作成する何らかの自動化が行われるのか、あるレベルの変化が訪れるでしょう。
誰もが長期実行型のエージェントの構築を実験していますが、何百ものステップにわたって安定させるためにあらゆる問題に直面しています。さらに高いエージェントの信頼性に到達するために何が必要だとお考えですか。
その質問に対する最も明白な回答は、モデルの周囲の足場を改善することです。ニューラルネットワークのトレーニング方法を考えると、タスクやモダリティの特定の分布、あるいは異なる言葉をビデオにどのように結びつけるかといったことについてトレーニングを行います。これらはすべて、これらの重みをどのように事前トレーニングまたはポストトレーニングするかに関わっています。もし、非常に長期にわたる実行が必要で、1.5におけるロングコンテキストのブレイクスルーで私たちが常に革新し推進してきたような、非常に長いコンテキストから学習する必要がある新しいタイプの作業やモダリティが存在するならば、モデルもユーザーや未来のユースケースを満たすために追いついていくことは明白です。それが研究者の挑戦であり、何が可能になるかを予測し、それに対して堅牢なシステムを構築するだけでなく、重みがその膨大なコンテキストや実行されるクレイジーな事柄に対して、プロンプトからの汎化だけに頼るのではなく、どのように適応していくかという点に焦点を当てることです。
誰もが解決しようとしているパターンとしてメモリーがありますが、これが最終的にどこで解決されるかについて直感はありますか。
メモリーは非常に魅力的です。初期の頃から、デミス・ハサビスが脳のメモリーシステムで博士号を取得していたことによるバイアスもあるかもしれませんが、メモリーについて考えるいくつかの方法があります。私が好むシンプルな方法は、現在行っていることや話していることのために非常に身近にあるワーキングメモリー(作業記憶)と、アクセス可能な検索システムのようなものであるエピソードメモリー(エピソード記憶)に分ける方法です。後者は正確さは劣るかもしれませんが、より長いコンテキスト、あるいは私たちが holistic に記憶しておきたいすべてのコンテキスト、蓄積されたすべての経験を持っています。メモリーには2つのレベルがあるだけでなく、コンピューターがキャッシュ、L1、L2などを持つように、これらのレベルについて考えることは有用です。モデルに関して言えば、トランスフォーマーなどの仕組みのおかげで、ワーキングメモリーを使用するための非常に強力なメカニズムがあり、何百、何万、何百万ものトークンを利用してそのメモリーを修正し、複雑な定理の証明やゴールドメダルレベルの数学など、素晴らしいことを行うことができます。私が多くのモメンタムを感じているのは、以前の異なるインタラクトの中で起こったこと、あるいはこのワーキングメモリーで記憶できるよりも長いインタラクトを通じて起こったことを、どのように定着させるかという点です。その知識をどのように保存するか。様々な実験を通じて、現在ではスキルと呼ばれることが多いですが、それはより一般的なものであり、エージェントであるため、コンピューター自体であるメモリーシステムへのアクセスを持っています。したがって、自分の考えをファイルに書き込み、それをディレクトリやフォルダに構造化し、同じユーザーとの複数のエピソード、あるいは非常に長いエピソードを通じてそれを行うことを考え始めることができます。現在、このメカニズムはかなり優れていますが、モデルの重み自体はまだこれに追いついていないと思います。この種の知識ベースを、基本的な検索メカニズムを備えた、変更や読み取りが可能なファイルシステムや何らかのストレージフォーマットに追加していく手法です。これはすでに非常に強力ですが、まだ未開拓の部分が多く残されています。私たちの多くはこれを一種の継続学習と呼んでいます。しかし、私がうまく機能してほしい、そして間違いなく今後さらに良く機能するようになるメカニズムは、このファイルシステムスタイルのようなノンパラメトリックなものです。重みの中にそれらを統合し直すよりも、これは実用的な観点からもはるかに便利です。なぜなら、実務においては一つのモデルを大規模にサービングしようとしているため、ユーザーごとに異なるメモリーを持つ異なるモデルをサービングしなければならないとしたら、非常に苦痛を伴うからです。したがって、実用的な観点からも、これらのモデルがインタラクトを通じてどのようにこの知識を蓄積していくかについて、より優れた評価や方法が登場することになるでしょう。それは、1年半ほど前に推論モデルを目にしたときと同じように、パラダイムシフトをもたらすものになると思います。
それは、誰もが独自の、それぞれ異なるファイルシステムを持つモデルを持つようになるということでしょうか。それとも、時間が経つにつれて、彼らが行ってきたことに基づいて重みの形が異なるモデルを持つようになるのでしょうか。
先ほど申し上げたように、重みが異なるというのはサービングの面で大きな挑戦になります。もしそれが最善の方法であるならば、より個人的な重みを持つことができるようなハードウェアデザインへの多大な投資もありますから、その方法を見つけ出すでしょう。しかし、少なくとも、あなた個人に特化した独自の知識ベースを持つことになるでしょう。LLMの空間において、過去数年間にわたってこれが実現されている多くの例をすでに目にしています。そしておそらく、特定のモデルのすべてのユーザーに共通する、アクセス可能で重みに触れることなくモデルの能力を豊かにし向上させることができる、もう一つの知識のレイヤーが存在するかもしれません。それは非常に興味深いことであり、そこに到達できれば素晴らしいことです。
継続学習は最近の話題であり、誰もがそれについて話しています。OpenAIなどの場所からスピンアウトした人々が、現在行っていることをスケールアップし続けることはできるし、そのスケーリングローが存在することを誰も否定していないけれど、本当の継続学習を達成するためには、コアとなるLLMを継続的に改善していく道筋とは異なる、ほぼ新しい研究の賭けが必要だと主張している興味深い例を目にします。そのダイナミクス全体をどのように捉えていますか。
私は初期の頃にGoogle Brainに在籍し、2016年にDeepMindに移籍しました。現時点において、次の3ヶ月の間に次のトレーニングランに入り込むような性質のものではない研究の問いを調査したいという挑戦と機会が存在します。しかし同時に、これはLLMsが進化している最前線から大きく切り離されるわけにはいきません。私たちはGeminiを改善し続けており、ほんの数ヶ月前のProをFlashが凌駕していくのを見るのは非常に魅力的であり、それは起こり続けています。そのため、研究の保護を維持しつつ、特定の研究を可能にしたり不可能にしたりする最前線の能力を維持することが重要です。それはもはや複数年の話ではなく、物事は急速に動いていますが、これら2つを組み合わせることこそが、これらの組織を構築するマジックです。私たち全員が異なる角度を持ち、このギャップをどのように埋めるかを理解し、機会を特定することができます。組織全体を完全に見渡すことは大きすぎて不可能ですが、いくつかの直感を持ち、正しいことだと感じられたときには、時に熱心にそれらのアイデアを取り入れることが求められます。それが、研究の観点からそのレベルの組織を定義するものです。ロボティクスへの投資から、LLMsの頂点、そしてすでに実現した、あるいはこれから実現するであろう研究まで、一連の流れを見ることができます。しかし、リソースは限られており、これは興味深いトレードオフであり、常に正解を得られるとは限りません。次の論文や現在のモデルに入り込むアイデアは何かというだけでなく、この組織全体をどのように編成するかという、非常に魅力的な異なる研究の側面であると思います。
研究の優先順位とイノベーションへの道
あなたのような役割にいる人間にとって、最も興味深い問いの一つだと感じられます。これらのモデルを使って現在進化させることができる非常に多くの事柄に興奮を感じずにはいられないでしょうし、明らかに多くのことが起こっています。OpenAIのような組織を見ても、AI側で取り組むべき多くの手が届きやすい成果の間で揺れ動き、現在はコードに本当に集中し、Claudeのコードに追いつかなければならないという、よりフォーカスする瞬間に至っています。一つのことに集中し全員がそこに向かって進むことと、すべてが非常に興味深いより広範な領域を持つことのトレードオフについて、どのようにお考えですか。
Googleはいくつかの理由からユニークな場所にいます。まず、現在Geminiにおいて文字通りすべてを支えているため、非常に多くの領域を持っています。しかし、組織の他の部分がLLM時代を完全に受け入れているというアドバンテージがあります。そのため、ある意味で彼らはモデルを受け取り、それを使って何かを行うことができます。しかし、それが最前線の能力を進化させる次の方法ではないと感じるならば、モデルを必要な場所へと導いてくれる非常に優れたグループが存在することに信頼を置くことができます。同時に、ハードウェアの調達からの安定性があり、収益の流れなどの面で非常にエンドツーエンドであるため、資本の投資も明確に存在します。したがって、センスを持って行われる必要がある特定の研究領域に対して、リスクテイクをもう少し推し進めることができるでしょう。フォーカスしていないわけではなく、Googleの組織のあり方によってスケーラブルであり、私たちが常に本質として行ってきたイノベーションに依然として投資することができます。私が所属してきたBrainとDeepMind、現在はGoogle DeepMindと呼ばれている2つの組織を振り返ると、異なる時期に両方に在籍していた経験から、イノベーションを維持することは私たちのDNAにあると思います。しかし同時に、Geminiが生み出したのは、フォーカスと統一する力であり、それは非常に魅力的なプロセスでした。私とジェフが長年知り合いであり、ただ楽しむために一緒に旅行に行くような関係であったことも非常に助けになりました。あの時期は非常に特別であり、Geminiの核心となるモデリングの取り組みが最前線の能力に非常にフォーカスし、それらのインプットとアウトプットを持つことは、フォーカスしつつも、依然として必要とされるかもしれない探索を活用するための非常に合理的な方法です。世界モデルが必要かどうかは、それを機能させることができれば、間違いなく必要とされるでしょう。機能しなければ、それはそれで構わないのかもしれませんが、賭けを適切に配置しておくことは良いことです。
モデルの側、あるいはGeminiモデルの今後の道筋についてですが、あなたは以前ポストトレーニングをまだ完全に未開拓の分野(グリーンフィールド)と呼ばれていました。現在、コーディングや数学における強化学習のポストトレーニングにおいて、信じられないほどの進歩が見られます。このポッドキャストを始める数時間前にも、新しい数学の問題が解決されたばかりです。誰もが模索していることであり、あなたの直感を伺いたいのですが、強化学習が本当に本格化する次のドメインの特性はどのようなものでしょうか。コーディングや数学の側では狂気的な指数関数的経路にいるように感じられますが、他のドメインを適合させる要素についてどうお考えですか。
良い質問ですね。モデルが多くをこなせるという点において、人は非常に謙虚でなければなりません。ですから、これが全く機能しないと言うのは非常に難しいです。生のプロンプティングや少しスマートなプロンプティング、適切なシステムの構築を行うだけで、少なくとも私がデジタルAGIと呼ぶようなデジタルの世界においては、非常に印象的な多くの素晴らしいことが実現しています。ですから、私がポストトレーニングをグリーンフィールドと呼んだとき、それは能力が受け入れられるレベルからほど遠いという意味ではなく、模倣学習や事前トレーニングにポストトレーニングを加えた他のいくつかの取り組みをメカニズムとして見たときに、今日のモデルが現在使用している比較的小さな量と比べて、ポストトレーニングにどれだけの計算資源が投資されてきたか、という点に関するものです。その理由は明確であり、解決が容易かどうかは分かりませんが、強化学習における囲碁のゲームのような非常に狭いドメインを例に取ると、いくつかの手を打ち、ゲームが進むにつれて、そのシナリオやゲームはユニークなものになります。そのような特定の構成は見たことがない状態になります。つまり、プレイするにつれて環境の複雑さが、トレーニングデータを実質的に無料で無限に生み出すのです。いくつかの手を打つことで新しい状況に置かれ、そこから学習することができ、プレイすればするほど、強化学習アルゴリズムに時間を投入すればするほど、より多くの知識を獲得できます。それがゲームの強化学習時代に目にしたものでしたが、LLMsにおいてはデータが限られており、無限の複雑さのソースが何であるかはそれほど明確ではありません。いくつかのアイデアはありますが、そのレシピを解き明かすことは、アルゴリズムの美しさという点においても大きな意味を持つでしょう。過去にこれがどのように機能したかを知っているだけに、それが現在の他のモデルでも機能するのを見ることは、はるかに満足のいくものになるはずです。それが今必要とされているのか、能力がそこにないのかと言われれば、それを判断するのは難しいです。しかし、どのような能力かという質問に対して、モデルが行うことで私にとって最も魅力的なのは、メタ能力と呼んでいるものです。それらは数学やコーディングではなく、知性の特性や属性のようなものであり、これらのモデルがそれをこなせるかという点です。実際に、経験から非常に効率的に継続的に学習する能力、かつてコンテキスト内学習やメタ学習と呼んでいたものがその一つです。これらは私が測定し、感じることができる能力ですが、例えばまだ超高精度というわけではありません。もちろん、指示に従う能力(インストラクション・フォロイング)は、究極の能力であると主張することができます。なぜなら、モデルにAIであることを求めたときに、その指示に従うか従わないかという話だからです。しかし、特定のドメインや垂直統合された領域に関するものではなく、知的な行動としての能力、つまり、プロのプレイヤーやゴールドメダリストである能力よりも、学習し適応する能力に焦点を当てることが、新しいリリースや私たちが手にするモデルを見るたびに、私を最も魅了する部分です。
それをテストするための定番の方法はありますか。
私はゲームが好きです。ですから、通常はコンテキスト内で新しいゲームを定義することがあります。これは非常に古典的な方法です。もちろん、そのゲームが重みの中に存在している場合、他の誰かがそのゲームをインターネット上に置いていた場合は問題になるので、注意が必要です。しかし、ある評価を覚えています。これは私がやっている方法そのものではありませんが。
それを話してもらうのは野暮かもしれませんね。このポッドキャストが世に出てしまうと、次のモデルがそのやり方を知ってしまうことになりますから。
問題ありません、おそらく。完全に書き起こされない限り、モデルを解き明かす必要がありますし、そうなるでしょう。ですから、それすら必要ないかもしれません。しかし、私はある評価が本当に好きです。これは非常に古い評価で、LLMsよりもはるかに前、おそらく2015年以前のものです。評価はシンプルで、Civilizationというゲームの取扱説明書を与え、それをプレイできるようにするというものです。私はそのようなスタイルの評価が好きです。これを異なる方法で作成することができます。しかし、これはモデルをテストするために私が好むテストの一つですが、特にゲームが私が今思いついたようなものである場合、彼らはそれほど得意ではありません。そこでの能力は二重であり、まず指示を理解し、そこから指示に従ってゲームをプレイできるかという点ですが、もう一つの側面として、ゲームをプレイするにつれて、より上手にプレイできるようになるかという点があります。実際にそれが起こるのを目にしているでしょうか。それは印象的ですが、やはり、現実には存在し得るものの、トレーニングデータには含まれていないような、分布から大きく外れたゲームの場合、モデルが合格するのは容易なテストではありません。他にもたくさんありますが、私はこれが本当に好きですし、ゲームを有用な方法で取り入れています。しかし、そのゲームについて一切トレーニングを行うわけではありません。囲碁のように囲碁だけをトレーニングするのとは逆です。しかし、能力の観点からこのような考え方をすることが好きです。
ゲームは検証可能なドメインの最初の典型的な例であり、現在はコーディングや数学でもそれが行われています。この分野における大きな未解決の疑問の一つは、強化学習における汎化がどれほど見られるかという点だと思います。これらのモデルは、強化学習を行っているドメインにおいては信じられないほど上手く山登り(ヒルクライム)をしますが、それがモデルの他の側面にどのように波及していくかについては、あなたの方がより優れた洞察をお持ちでしょう。ある意味で、これは私たちが話した最も一般的なビター・レッスン的な瞬間でもあります。特定のドメインのデータを見つけ、そのデータに対して強化学習を行い、その一つのことにおいてモデルを向上させるというプロセスです。これが現在の状況の公平な特徴付けと言えるでしょうか、そしてその汎化の兆候を目にされていますか。
深い推論を誘導するような、困難な問題のソースを熱心に探します。実際にそこから汎化が見られます。推論モデルは主にコーディングや数学を通じて推論しますが、例えば、私が最近米国に引っ越してきたので、引っ越しや税金などに関する多くの質問をしたところ、その推論は非常に優れており、そのような質問についてトレーニングされたと信じるのは難しいレベルです。ですから、私たちは確かに汎化を目にしていますし、深い推論や深いエージェントの挙動を誘導するデータを創造的に獲得しようとしています。私たちが目にしている最近の改善の一部は、それらのソースを見つけ出すことですが、検証可能性だけに制限されることは、やはり満足のいくものではありません。なぜなら、多くの場合、私がモデルにやってほしいことに対して、どれだけ時間があっても検証器(ベリファイア)を書くことはできないからです。しかし、解を作成することと解を評価することの間には非対称性が存在すると感じています。解を評価することが、解を作成することよりも確かにシンプルであるならば(これは例えば、解を作成するのは非常に困難であるが検証するのは容易であるNP困難問題に関するいくつかの議論に似ています)、モデル自体が判断できるようになるという希望を私に与えてくれます。コードの一片が美しいゲームや魅力的なゲームを作成しているかどうかを判断する完全な検証方法がなくても、モデル自身が判断できるという点です。これは非常に興味深い研究であり、実践においてもこれらのアイデアからすでに多くのインパクトが生まれています。これを行うほど、より多くのドメインでトレーニングできるようになります。問題は、それ自体が必要なのか、あるいは問題解決における知的なメタ能力を誘導するために、特定の数学やコーディングの問題に焦点を当てるだけで十分なのか、という点であり、私には分かりません。どちらの方向にも進む可能性があります。
どちらかの方向に直感はありますか。
私は、幅広い分布でトレーニングを行う必要があると信じたいです。それがモデルを助けるはずです。しかし、事前トレーニングを通じて得られる汎化の大きさは非常に強力です。ですから、人間の能力を超えるレベルの野心、あるいはこれらのモデルが達成できる上限がどこにあるかによって決まるのかもしれません。しかし最終的には、機械学習においては可能な限り分布内でトレーニングを行うことが望ましいと感じています。それが、研究者たちが今後数ヶ月から数年の間に解き明かすべき探求の一つです。
起業家への助言とAlphabetの戦略
創業者や会社を設立している多くのリスナーが考えていることの一つは、モデルのレイヤーで作業を行うべきなのか、あるいは純粋にその上にアプリケーションを構築すべきなのかという境界線を見極めることです。いくつかの企業はモデルの上で独自の強化学習を行い、解決できる特定のクラスの問題がある、あるいは最も顕著な例として、コーディングの空間にいるCursorのように、独自のベースモデルをトレーニングする必要があると主張するトレンドがあります。それがいつ理にかなうのか、あるいは理にかなわないのか、あなたの直感を教えてください。
私が人々に伝えるのは、評価とデータの価値であり、これら二つは互いに非常に深く結びついているという点です。そこには莫大な価値があります。したがって、初期の段階であるため、あるいは才能やリソースにアクセスできないために独自のモデルを構築しないとしても、自分がやろうとしていることの進捗をどのように評価するかを非常に慎重に考えることは、実際に非常に価値のあることになります。それは、私たちのような人間が採用したり監視したりするような標準的な評価になる可能性すらあります。そして、特にポストトレーニングに関して先ほど話したことや、数ヶ月に及ぶ囲碁のトレーニングを実行するのに十分なデータの希少性を考えると、データの価値は計り知れません。ですから、そこに機会があると言えます。この空間で構築を行っている人々の間には、多くのエネルギーがあることも知っています。同時に、モデルの能力が動き続け、私自身は投資のプロでもプロダクトの人間でもありませんが、自分が本当に信じている何かに焦点を当てるだけで、その空間を自由に扱い、理解し、ユーザーを獲得し、クリティカルマスに達する機会が生まれるかもしれません。それが大企業などが焦点を当てていないものであれば、他のことを一切行わないとしても、プロダクトを特化させることによって生み出される価値は非常に大きいと感じます。
確かに初期の頃にはプロダクトを特化させ、モデルの上に構築し、ある程度のスケールに達し、評価を学び、そして多くの企業が、それを使ってモデルをポストトレーニングすべきか、あるいは何かを行うべきかを模索し始めています。それに対するトレードオフは、これらのモデルが汎化し能力が向上していく中で、最大のラボが行っているような広範な事柄にわたるトレーニングを彼らが行うことは決してないという点です。そのため、状態を少しリードできたとしても、2〜3ヶ月ごとに常にそれをやり直さなければならないトレードオフのループにいることになりますね。
おそらくここでの視点として、これらのモデルが継続的に学習したり、非常に複雑な知識ベースを使用したりする能力が向上するにつれて、特定のアプリケーションのためにその知識ベースを構築することは、重みをトレーニングすることとは異なります。それはもう少し効率的です。しかし、そこに加えることができる多くの独自性が、現在のモデルとそれがどのようにインタラクトするかを慎重に考えてこなかった人々からあなたを保護することになり、その能力は向上していく一方です。ですから、その視点の方が、ゲームの初期のプレイヤーにとってもう少しスケーラブルかもしれません。
これまでお話ししてきた多くの研究の方向性において、非常に魅力的な道筋があることは明白ですが、ここから到達する方法が最も不確かに感じられる能力は何でしょうか。まだ研究の道筋が見えていないけれど、かなり重要であると考えるものはありますか。
かなりの数の能力において、研究の道筋は見えていると思います。私が長年にわたり、特に2016年にDeepMindに加入したときに最も魅了されたのは、メタ学習、あるいはモデルが学習する能力です。機械学習に取り組んでいる人間として、それは非常に美しい能力であり、そこには道筋があり、いくつかのベースラインが存在し、今後も向上し続けると感じています。しかし、もう一つ、道筋はあるかもしれないけれど、現時点でどれほど実用的か分からないと感じるものは、これらのモデルが真にイノベーションを起こすことができるかという点です。その部分は重要です。なぜなら、例えば機械学習において新しいアイデアを思いつき、それを実装し、コーディングが優れているので展開して実験を行うといったことを、多くの人々が取り組んでいます。私たちが現在持っているすべての知識を真に取り入れ、センスを持ってイノベーションを起こすことは、人間にとっても滅多にない非常に特別なことであり、正直なところ、時にはランダムなものです。この人がとても賢いからというわけではなく、1万人もの人々が挑戦しており、当然ながら正しかった一人を選び出して、それを称賛しているだけという側面もあります。ですから、自己改善などの特定の事柄において、その能力はおそらく非常に重要です。しかし、それを評価することすら明らかに困難であり、評価するのが難しいということは、山登り(ヒルクライム)をすることも難しいという意味になります。あらゆる側面において、しかし特に科学においてイノベーションを起こす能力は、さらなる進歩が必要とされる優れた領域だと思います。
Move 37は、以前の世界におけるその典型的な例でしたね。最近、これに最も近いと感じたものは何かありますか。私たちが録音を始める前にも、OpenAIが解決したばかりのこの組合せ幾何学の問題について話していました。
機械学習の内部に目を向けると、まさにそれがポイントです。モデルが生成した真に傑出したアイデアを私はまだ目にしていないと思いますが、非常に近いうちに目にすることになると確信しています。なぜなら、モデルがどのようにトレーニングされているかをモデル自身が理解しているという洞察や方法には、人間を超えていると感じる部分があるからです。メカニズムとして、これらのモデルは私たちが持っていない情報の帯域幅へのアクセスを持っています。ですから、その部分は印象的でした。しかし、アイデアのレベルにおいても、そのレベルの印象的な成果を見たいと思っています。機械学習は、私がより正確に評価できる明白な対象ですから。やるべきことはまだたくさんあります。
機械学習研究への真の洞察や、この再帰的な自己改善の世界に到達したとき、それが時間の経過とともにどのように見えるのか、どのように考えていますか。ビター・レッスンは依然として有効なのか、あるいはその世界に入ったときに何が起こるのか、お考えをお聞かせください。
特定の効率レベルが向上することは間違いありません。研究者やエンジニアがこれらのツールを使用して、自らの生産性を向上させるレベルが存在します。私たちはそれを多く目にしています。
最先端にいる人々と話すのは常に印象的ですが、誰もが異なれど、全般的に生産性がかなり大きなパーセンテージで向上していると話しますね。
ええ。ですから、それはすでに起こっており、明らかに非常に強力ですが、モデルをトレーニングする必要があり、エネルギーやハードウェアの制限が存在するため、このプロセスがどれだけ進み続けることができるかには、ある種の物理的な限界が存在するでしょう。ですから、より自動化され強化されるべき問題のタイプが、どれほど自律的に行われるようになるかを非常に楽しみにしています。しかし同時に、物事が起こるスピードには自然な限界があり、自然な上限も存在するでしょう。1年以上前、ある人が私に語ったことで、今まさに実感していることがあります。それは、モデルがあなたよりも優れた英語を書くようになった時点で、それはすでに十分すぎるほど優れており、それ以上優れている必要はないかもしれない、という気づきです。その能力を向上させることができ、天井が存在しない、あるいは天井がまだ遠くにあるとしても、私たちがその天井を見る必要すらないのかもしれません。システム全体のパフォーマンスはすでに非常に印象的であり、いくつかのケースにおいては明らかな上限やレートリミットが依然として根本的に存在しますが、モデルやそのトレーニング方法における物理的な限界、たとえレシピを正確に知っていて非常に迅速に反復し次世代のモデルをトレーニングできるとしても、いくつかの加速はあっても、本質的な限界は存在します。
クイックファイアとインフラストラクチャの強み
私はいつもインタビューの最後にクイックファイア・ラウンドを設けており、他で挟む時間のなかった広範な質問をすべて詰め込むようにしています。まず始めに、過去1年間でAIにおいて考えを変えたことは何ですか。
考えを変えたこと、ですね。幅広い分布でトレーニングを行うことがモデルを向上させると信じたい一方で、数学やコーディングのような非常に困難な狭いポイントに絞ってトレーニングを行うことが、この汎化を生み出すという点です。これがこれほど上手く機能するとは、私は完全には予測していませんでした。
デミス・ハサビスは、私たちがシンギュラリティの麓に founders しており、AGIは今後数年のうちに来る可能性があると言及していました。あなたも同様に感じていますか。
同様に感じていますし、さらに言えば、モデルやニューラルネット全般に非常に近い立場にいる人間として、7年前(LLMsで起こったすべての出来事の前の時期を指していますが)に、私たちが現在持っているモデルを使って実験を行っていたとしたら、私はこれをAGIだと宣言していたでしょうか。おそらくイエスと答えていたと思います。常に動き続ける定義ですが、その進歩は非常に印象的です。ですから、私たちがそれをより近くで目にしており、構築しているものに対してより野心的になることは良いことですが、AGIが何を意味するかについてわずか数年前に持っていたかもしれない異なる定義や期待に基づけば、ある意味でAGIはすでにここに存在していると言えます。私が言いたいのは、私が見たい形でここに存在しているわけではないけれど、非常に近づいているということです。そして、モデルが経験から真に学習する能力こそが、私の心の中で欠けているものだと思います。しかし、誰もが独自のテストやバイアスを持っており、モデルにどのような能力のギャップがまだ存在していると感じるかは人それぞれであり、私たちはそこに到達し、そしてまたゴールポストを動かして、別の理由を見出すことになるでしょう。
皆さんが持っている大きなアドバンテージの一つは、構築しているモデルに対して信じられないほど強気であり、独自のハードウェアを持っている点です。多くのリスナーが疑問に思っているであろう、裏にある話を伺いたいのですが、あなたが保有している計算資源の一部を取り、それをAnthropicに販売したことについて、Twitterなどで「モデルや研究にそれほど強気であるならば、なぜすべての計算資源を自社で保持しないのか」という言説がありました。その点に対するあなたの見解を教えてください。
自社内であっても、計算資源をどのように投資するか、つまり、計算資源はサービングに使用され、小さなモデル、さらに小さなモデルをトレーニングし、そして最前線のモデルをトレーニングしようと試みています。これはすべて、バランスを取るための微細な方程式です。そして一般的に、Alphabetを考える一つの方法として、収益や経済的インパクトを生み出すものが存在し、それを再投資することができるという点が挙げられます。ですから、今何をすべきかに強欲になり、これらすべての要素をただ一つにまとめて終わり、というわけではありません。私がよく考える戦略は、多角的(マルチプロング)なものです。テクノロジーの進歩に対して強気ではありますが、収益の流れなどを考慮し、ハードウェアは非常に重要な資産です。おそらく、それをすべて使用するのではなく、戦略的に使用して再投資を生み出すトレードオフが存在し、それが現在理にかなっていることだと思います。これらの背後にある計算は明らかに複雑ですので、その正確な合理性に立ち入ることはしませんが、一般的には、異なるレベルの投資とタイムラインを念頭に置くという戦略的な選択です。
あなたのポジションで非常に興味深いのは、独自の最先端半導体を持つ唯一の最前線モデルプロバイダーであるという点です。NVIDIAは他のラボと密接に連携していますが、同じ会社の下にいるわけではありません。そのコラボレーションは、非常にうまく機能しているときには実際どのような動きになるのでしょうか。
先ほど説明していたように、私はいくつかの瞬間を振り返ることがあります。それは初期の頃の話です。Googleの内部ですら、ディープラーニングをまだ証明しなければならない段階でした。2013年か2014年だったと思いますが、私、ジェフ・ヒントン、ジェフ・ディーン、そしてイリヤが一部屋に集まり、サーバーに何を搭載すべきか、当時は当然いくつかのCPUといくつかのGPUがあり、研究について知っていることに基づいてモデルがどこへ向かっているのかを推測しようとしていました。文字通りそのインパクトを与えることができますが、これは単なる投資であり、数ヶ月、あるいは数年経たなければデータセンターで具体化しないため、遅延された報酬が存在します。私はそのような環境に身を置いてきましたが、それは素晴らしいことだと思っていました。質問に答えるのは明らかに難しいですが、研究で何が起こるかを予測しようと試み、初期の頃はそれがさらに困難でした。しかし、本当に影響を与えることができる非常に特権的なポジションにいます。私たちは確かにそれを行っており、特にGoogleの存在そのものと言えるほど長年にわたりインフラについて深く考えてきたジェフとともにそれを行っています。これらのモデルがこの方向に向かっている、そしてこれらの投資には特定のレイテンシが存在するため、同じ屋根の下にいて私たちが目にしているものを見ることが本当に助けになります。非常にスクラッピーだった初期の頃にもそれを見てきましたし、それは起こり続け、より良くなっています。ある意味で不確実性が減少するため、仕事は容易になりますが、会社の運命などに深い影響を与える魅力的な選択であり続けています。
非常に魅力的な会話でした。あなたとはもっと長い時間話していられると感じますが、私たちのAGIへの道筋を遅らせるわけにはいきません。ですから、最後の言葉をあなたに委ねたいと思います。リスナーに共有したいこと、注目してほしい研究、IOにおける何かがあれば、どうぞ。
AIにおけるあらゆることにおいて、非常に魅力的な時代だと思います。ユーザーであるならば、モデルを使用してください。ビルダーであるならば、モデルを使用して構築してください。AIとの遠い関係すらないと考えていることであっても、何をするにしても、どうかこれらのモデルで遊んでみてください。それらは素晴らしく、今後さらに良くなる一方です。
素晴らしい。本当にありがとうございました。素晴らしい会話でした。私はジェコブ・エフロン、そしてこれはUnsupervised Learningでした。AIにおける最もスマートな人々と話し、モデルで何が起こっているのか、それがビジネスや世界にとって何を意味するのかについて、膨大な質問を投げかけるポッドキャストです。明確であることを願いますが、私はこれを本当に楽しんでいます。Redpointの投資家としての本業に加えた、夜間や週末のプロジェクトです。しかし、このような素晴らしいゲストを迎えることができるのは、このポッドキャストを購読し、友人に共有してくれる皆さんのおかげです。それが最終的にこの活動を支える原動力となっています。ですから、ぜひ購読をご検討ください。皆さんのサポートとご視聴に心から感謝いたします。それでは、次のエピソードでお会いしましょう。


コメント