この動画は、DeepMindのGenie 3チームの研究者であるJack Parker-HolderとShlomi Ferによるインタビューである。Genie 3は、テキストから完全に制御可能な3D世界を生成する画期的なAIモデルで、24フレーム/秒、720p解像度で数分間の一貫性を保つことができる。研究者らは、AGI(汎用人工知能)の実現に向けたエージェント訓練、ゲーム開発、教育、エンターテインメントなど幅広い応用可能性について語っている。また、V3やNano Bananaといった他のDeepMindプロジェクトとの技術的関連性、TPUを活用したハードウェア最適化、評価手法の課題、さらには哲学的なシミュレーション理論についても議論が展開される。

Genie 3チームへのインタビュー開始
ここでは、Genie 3チームのリーダー2人へのインタビューをお届けします。Genie 3は数週間前にリリースされたばかりですが、テキストから完全に制御可能な3D世界を生成する驚異的なモデルです。非常に精度が高く、ビデオゲーム、エージェント訓練、世界シミュレーションなど、多くの可能性を秘めています。
このインタビューでは、Genie 3の訓練に何が必要だったのか、彼らの計画、世界モデルの未来について話し合います。そしてもちろん、シミュレーション理論についても語ります。それではインタビューをどうぞ。
よろしくお願いします、Jack Schlomi、参加していただきありがとうございます。Jack Parker-HolderはDeepMindの研究科学者です。Schlomi Fer、正しく発音できていますか?ええ、だいたい合っています。DeepMindの研究ディレクターですね。本日は参加していただき、本当にありがとうございます。
今日はGenieについてお話しできることを楽しみにしています。
素晴らしいですね。お招きいただきありがとうございます。
ええ、絶対にそうです。では、最初にGenieを見たとき、私はかなり驚きました。完全に制御可能なテキストから世界モデルを生成するものを見たことがありませんでした。
Genieの長期的な目標について
まず、Genieの長期的な目標は何でしょうか?エージェント向けの研究ツールなのか、クリエイター向けなのか、一般的なシミュレーション向けなのか。あなたたちの包括的な目標は何ですか?
そうですね。私が考えているのは、テキストだけから世界を生成する能力です。これは基本的に、あなたが言及したすべてのことに使用できる基本的な能力のようなものです。
ある意味で、もし現実的で相互作用できる世界を作ることができ、その中を歩き回ることができ、私たちの世界にあるすべての物理現象をシミュレートできるとしたら、それに基づいて、エージェントの訓練、エージェントが世界で行動を取った場合に何が起こるかについての推論、エンターテインメントなど、非常に長いアプリケーションのリストに使用できます。基本的に、答えは考えられるほぼすべてのことです。
そうですね。すべてが含まれるということですね。最初にGenieファミリーのモデルを始めたとき、それが意図だったのでしょうか、それとも単に「この研究分野を探求して何が可能かを見てみよう」というものだったのでしょうか?
そうですね、Genieモデルの研究が最初に始まったのは約3年前でしたが、AGIとエージェント中心の角度に非常に焦点を当てていました。
私たちの何人かは、強化学習を使ったエージェントの自動カリキュラム学習に取り組んでいました。シミュレーションで自分の経験から学習できるエージェントです。基本的に、多様な範囲の異なる種類の世界とタスクを生成できるさまざまな環境を見つけようとしていました。通常は手続き的に生成された世界でした。
基本的に、私たちは、十分に豊かな環境を設計したり手動でコーディングしたりできない地点に到達していました。その中のすべてを解決したとしても、現実世界で多様なことができるエージェントを得ることはできませんでした。
これを行うためのさまざまな経路がありました。一つは、より豊かなシミュレーションを構築し続けることでした。もう一つは、かなりリアルになりうる実際のビデオゲームを使い始めることでした。しかし、その時点で言語モデルが非常に有用で効果的になってきているものとして本当に現れていました。
テキスト画像モデルもかなり良くなり始めていました。そして、完全な世界生成ができれば、基本的にエージェントの環境問題を解決し、他のどの方法よりもはるかに豊かなエージェントを得ることができるように思えました。
実際に、一般的なエージェントを得る最速の方法は、エージェント自体に取り組むのではなく、最初に環境モデルに取り組むことのようでした。それが最初の動機でした。その関心がなくなったわけではないと思います。
AGIに向けたエージェント訓練の重要性
私はますます確信を深めており、チームとしても、これが本当にエキサイティングな方向だと皆確信していると思いますが、興味深い研究を追求するとき、必ずしもそれが何に使われるかわからないものです。そして、インタラクティブな人間のようなユースケースのように、他にもいくつかのことが現れてきました。それらは昨年かそこらで非常に明白になってきました。実際、Genie 3でも、私たちが考えてもいなかったようなユースケースがたくさんあり、人々が私たちに尋ねてきて、非常にエキサイティングに聞こえるものもあります。
新しいことをするとき、元の意図よりもさらに興味深い可能性のある、意図しない結果を得ることがよくあると思います。
私の理解では、AGIに到達するためにスケールアップするには、おそらく人間がループの制限要因にならないような強化学習フィードバックループが必要です。そして、Genie 3とGenieファミリーのモデルが本当に活躍するのはそこです。
これらの環境を生成します。エージェントはその環境に入って探索し、学習することができます。環境はエージェントにどのような信号を与えているのでしょうか?私の理解不足をお許しください。出力はまだブラックボックスかもしれませんし、どのように生成されるかはブラックボックスです。
エージェントはこれらの世界から実際にどのような信号を取得できるのでしょうか?
今日、基本的に私たちは視覚領域でのみ動作しています。世界モデルの出力は、ピクセル観測だけです。視覚出力に焦点を当てたのは、この分野で多くの進歩があったからです。ビデオモデルがリアリズムで本当に多くの進歩を遂げているのを見ています。
Veloやその他のような、テキストを取って非常にリアルに見えるものを出力できるモデルがあります。そして、ビデオの中を歩き回って、生成された世界を実際に探索することが実際に可能なことを押し進めることができると思いました。
エージェントを訓練することに関してはまだ制限があると思いますが、視覚だけを使っても非常に遠くまで行くことができます。例えば、世界を見ることで、何かがどのくらい速く動いているかを知ることができます。エージェントは、ある地点から別の地点に行かなければならない場合、その道にある障害物が何かを理解できます。
ロボットに期待するような物理的な応答がなくても、そのような環境の能力の探索を開始し、多くのことができます。リアルな方法でシミュレートできる多くのモダリティの最初のものとして、私たちはそれに非常に興奮しています。
明確にするために、エージェントがGenie 3世界の環境内で訓練しているとき、それらは単にそれを見ているだけですか?画面で私たちが見るであろうピクセルを通してですか?
少し明確にします。現在、私たちはGenie 3を、潜在的なアプリケーションの一つがその中でエージェントを訓練することだと位置づけています。これは私たちが探索を始めたばかりのことです。
私たちは、エージェントを訓練するためにシミュレーションを使用したDeepMindや他の研究者による非常に長い一連の研究に基づいて構築しています。StarCraftやGo、AlphaGoから始まって、基本的にいくつかのゲームシミュレーションや環境を使用してゲームを解決するエージェントを訓練することができます。
これが、Google DeepMindでのシミュレーションへの投資につながった初期の種の一つのようなものです。今、私たちは、あなたが以前言ったように、人間をループから取り除くシミュレーションを構築しようとしていますが、エージェントを訓練するために実際に現実世界に出て行く必要性を取り除くことだと思います。なぜなら、例えば工場にロボットを配備するのは非常に高価だからです。
エージェント訓練における安全性とコスト効率
ロボットがこれまで探索したことのない新しい環境を扱うように訓練したいとしましょう。一つの方法は、単にその環境にロボットを置くことです。そうすれば間違いを犯すでしょう。しかし、現実の環境に配備される前に、このシミュレートされた環境で最初に実験し学習できれば、はるかに安価で安全かもしれません。これが簡単に言えば私たちが念頭に置いていることです。
そして、Jack、あなたは人間の相互作用というユースケースに少し驚いたと言いましたね。まず、あなたたちはゲーマーですか?ビデオゲームをプレイしますか?
私は実際に過去にたくさんの戦略ゲームをプレイしていました。私の背景は主に3Dエンジンのプログラミングです。それがどこから始まったかというと、ゲームの開発は主に趣味でした。しかし今日、私はあまりゲーマーではありません。
子供の頃、特にドライビングゲームをたくさんプレイしましたが、正直に言うと、かなり長い間やっていません。これはゲームとはかなり異なると思います。何時間もプレイするゲームとは異なる新しいタイプのものです。インタラクティブな世界生成です。
私は何時間もゲームをプレイして、すべてのサイドクエストやすべてのものを探索することを覚えています。明らかに私たちのモデルはそれを行うことができないので、それらのもののための明らかなドロップイン置換ではありません。
しかし、すでにそれと遊ぶことがどれほど楽しく魅力的であるかが驚くべきことだと思います。そして、多くの人々から同じような反応を見てきました。彼らは単にそれと相互作用することを楽しんでいます。
明らかに、仕事に非常に集中しているとき、コンテキストを得ていない他の人が、それを手にしたときにどれほど魅力的に感じるかを理解するのは困難です。私たちはかなり良いフィードバックを受けています。
人々はそれと遊ぶことを非常に興味深いと感じています。それもかなりエキサイティングなことだと思います。
ゲーム業界への影響と将来の展望
Jack、今日のビデオゲームのドロップイン置換ではありませんよね。標準的なビデオゲーム、20時間のゲームプレイ、多くの異なるレベル、多くのルール、単なるオープンワールドではなく、少なくともGenieでヒントを見始めており、最終的にそれに進化する可能性があります。それに成長する可能性があります。
最終的に従来のゲームを置き換えるのではなく、補完する地点に到達するための明確な道筋はありますか?そして、それはあなたが興奮することですか?
この点について、私たちはゲームを置き換える道として本当に考えているとは言いません。ものをプロトタイピングするための追加のツールとして、それはすでにその地点にあると思います。
例えば、「折り紙のトカゲになって、プラットフォーマースタイルでできたらいいのに」という人がいるとします。それを作るのに時間を費やす代わりに、10秒でそれを手に入れることができます。それはかなりクールですよね。すぐに物事を見ることができるからです。
私たちの初期テスターのコホートに、Julian Tagalasという人がいました。彼は私よりもAIとゲームの専門家だと思います。彼は本当に良いブログ投稿を書きました。彼がそれで遊んだ時間から、そして彼は午後楽しい時間を過ごしましたが、プロトタイピングのためにはすでにそこにあると言いました。あまり時間を投資したくないランダムなもののアイデアがあって、すぐにそれと相互作用を試すことができます。
既存のゲームを見て、それに向けて対象を絞ることに本当に絞り込むために、それは一つの道かもしれませんが、私たちにとっては、モデルのより一般的な能力に最も興味があります。そして、それで試すことができる新しいことがかなりたくさんあります。
ゲームをシミュレートしたり、具体的にはGenieが今日できることよりもはるかに多くのリクエストがあります。ゲームを見ると、あなたが言ったように、ロジックがあり、プロットがあり、いくつかのことがあります。私たちが今日持っているのは、基本的にテキストを取って、歩き回って環境と相互作用させることができる世界シミュレーターです。
それは確実に、後でさまざまな体験を構築するために使用できる潜在的なコンポーネントです。ゲームになることもできますし、教育的な設定で何かを探索することもできるかもしれません。この時点では、人々がそれをどのように使用するかを正確に知るにはまだ非常に早いと思います。
実際に、エンターテインメント業界のさまざまな会社と協力関係を結んでおり、それを探索しています。また、Jackが言及したように、そのようなシステムが何に役立つと思うかについてフィードバックをくれる研究者からも聞いています。
新しいメディアとしての可能性
魅力的な環境をシミュレートすることについて具体的に言うと、それらのシステムをそのために使用する方法を探索する多くの余地があると思います。例えば、歩き回るときにより興味深くするためには、他の方法では達成できないことにすでに使用できるというのが鍵だと思います。そして、私にとってこれが最もエキサイティングなことです。
すでに存在することをしようとするだけではなく、ある意味で新しいメディア、新しい体験を創造することです。例えば、映画でもゲームでもない何か、生成モデルを使ってのみできる何かです。
それは私が到達しようとしていたことをより良く表現する方法です。それがあるので嬉しいです。二人がいるから良いのです。
Streamが言ったことはすべてエージェントにも当てはまりますよね。あなたが以前に基本的に言っていたことは、実際に似たような質問です。エージェントの目標は何か、どのようなフィードバックを得るか、進歩の指標やこのような種類のことはあるか、人間が望むものと似ています。
そして、人間にとっての世界の豊かさも制限として、エージェントが人間の相互作用やこのような種類のことについて学習したい場合、モデル内でそれは改善する必要がある別の領域です。この新しいものを構築することで、実際にこれらのユースケースにとってより興味深いものにしますが、一つを対象にしているとは思いません。私たちは新しいものを構築しようとしています。
新技術の理解における落とし穴
Shlomiが説明している間に、多くの人が新しい技術が登場したときに陥る罠に私も陥ったことに気づきました。既存の技術の枠組みの中にそれを当てはめようとするのです。インターネットが最初に登場したとき、「雑誌をインターネットに載せよう」というような感じでした。実際には、おそらくもっと多くの新しいことができるはずです。
私も確実に、映画で何ができるか、ビデオで何ができるかを考える罠に陥りました。しかし、あなたの言う通り、私たちがまだ考えてもいない、完全に異なる、完全に新しい何かがあるかもしれません。それは非常にエキサイティングです。
少しの間、能力について話したいと思います。Genie 2からGenie 3は非常に大きな飛躍でした。これらの数字を訂正してください。私が書き留めたものです。
Genie 3は24フレーム/秒、720p、数分間の一貫性。どのようなハードウェア、レイテンシ、予算、バッチング技術がそれを可能にしたのでしょうか?Genie 3で独立してか、Genie 2と比較してかのどちらかで。
Genie 3の技術的進歩
Genie 3で私たちが試みたことの多くは、システムのすべての次元を次のレベルに押し上げることでした。解像度、メモリ、そして1秒間にできるアクションの数について考えることができます。私たちにはできるいくつかのアクションがあります。
それらの次元すべてを掛け合わせると、ほぼ100倍の改善のようなものです。これは、ある意味でこの飛躍を考える一つの方法です。少し定量化するために。
私たちの研究における非常に重要な要素は、品質とレイテンシをバランスさせようとすることでした。低レイテンシは挑戦であり、あなたが言ったように、ハードウェアの限界があり、それに対処しなければなりません。Googleがさまざまなモデルにわたって持っている最高クラスのハードウェアとアーキテクチャを本当に活用しています。
モデルをより効率的にするものについての複数年にわたる学習の上に構築することにも多くの投資をしています。すべての詳細に立ち入ることなく、異なるモダリティにわたって行われるすべてのこの作業を活用することが、システムの効率の面で本当に違いを生んだと言えます。
ところで、あなたたちがリリースしたデモを見ました。夜の巨大な川でのジェットスキーで、ジェットスキーが物にぶつかって、物理演算が信じられないほど見えました。
私がGenie 3を取り上げた私の動画の一つで指摘したことを覚えています。ジェットスキーが光の一つを通り過ぎているとき、ジェットスキーが通り過ぎるにつれて光が明らかに道を外れて動いていました。それは非常に些細なことでしたが、ビデオ全体と世界を非常にリアルに見せました。
そのようなものを最初に見たとき、どう思いましたか?最初の反応は何でしたか?
研究成果への驚きと感動
おそらくあなたと似ています。私たちは明らかに、非常に野心的な目標を自分たちに設定していました。年の初めにGenie 2とV2の後に来るものとして。Shlomiは明らかにV2の共同リーダーで、私はGenie 2を担当していました。私たちは何が可能だと思うかについて話していて、このようなモデルが達成可能だという感覚を持っていましたが、実際にそれを達成したときは非常に驚くべきことでした。
明らかに、プロジェクト中には多くの浮き沈みがあります。研究は直線ではありません。最後に到達して、かなり良く見えていることに満足します。そして突然、これらの新しいことを見続けて、「実際にこれは本当に良い」と思います。
明らかに他の人々もそれで遊ぶので、あなたが見るもののいくつかは、時々自分の仕事であることをほぼ忘れてしまいます。なぜなら、誰かが何かを作るのを見るからです。私にとって絵画の例は、モデルがそれをしたとは本当に信じがたいと感じたものの一つでした。
私たちはかなり一般的なことを目指しているので、本当に一つのアプリケーションを対象にするのではなく、新しい種類の基盤モデルとして見ています。私たちが直接訓練しなかった多くの能力を持っています。この単語「創発的」を過度に使いますが、それができることは非常に驚くべきことです。
私たちがそれができるとは知らなかった本当にクールなことを誰かが毎日のようにしていた数週間がありました。他にもたくさんありますが、後で話すことができるかもしれません。
V3について言及しましたね。Nano Bananaが約1週間前に出ました。V3と潜在的にNano Bananaの研究努力のうち、Genie 3でやっていたこととどの程度交差しましたか?その一部がそれに組み込まれているようなものですか?それとも単にそれから学習を取り入れて、それらの異なる研究トラックがどのように組み合わさるかをどう考えますか?
研究チーム間の協力とシナジー
話は、JackとわたしがどのようにFrench一緒に働き始めたかの話に少し戻ります。私は主にConver出身で、JackはGenieの本当に素晴らしい一連の研究から来ていました。ある時点で、私たちはボード全体で持っている学習を組み合えると非常に遠くまで行くことができることに気づきました。
チームは物理的にも組織的にもそれほど遠くありませんでした。それを組み合わせて次のレベルに押し上げることができると思いました。ある意味で、ビデオ生成と世界シミュレーションの間には多くの類似点があります。違いもあります。
どれが似ているべきか、何が異なるべきか、例えばVeloに使用したものとは異なるアプローチを探索すべきかを理解することは挑戦的でした。
間違いなく類似点があります。具体的にNano Bananaについて言及しましたが、これは私は本当にチームが私たちにこのばかげた名前を言わせるための策略だと感じています。しかし、それは確実に注目を集めました。
基本的なレベルでは確実に多くの類似点がありますが、結局のところ異なる製品です。しかし、それらすべてのシステムやモデルを統一するのは、ユーザーからのテキストのような非常にスパースな何かを取り、非常に精巧で創造的な何かを構築する能力だと思います。画像であっても、ビデオであっても、歩き回ることができる世界であっても。
それらすべてのことは本当に非常に創造的で、ある意味で私にとって、それを見るたびに非常に驚かされます。時々、私たちがそれに投入したすべての作業を忘れて、ただ驚かされるような感じです。モデルのようなシステムが、他の方法で生成するには非常に多くの作業が必要な、非常に壮観な何かを生成できるという事実について非常に驚くべきことがあるからです。
前に言及したように、3Dエンジンで作業していました。レンズフレアを現実的に見せるためだけに非常に多くの作業が必要です。今では、それがただ動作します。それは私にとって驚異的です。
GoogleのTPUによるカスタムハードウェアについて話したいと思います。TPUのようなカスタムシリコンを持つことは、Genie 3の訓練と実際の推論実行にとってどれほど不可欠でしたか?
カスタムハードウェアの重要性
前に言及したと思いますが、私たちが開発するすべてのモデルは基本的に最終的にGoogleのTPU上で動作しています。ハードウェアとソフトウェア間のこの良い同期と連携が、Googleに本当に良い利点を与えたと思います。基本的にスタック全体で最適化することができます。
それは非常に良いことで、モデルを迅速に出荷する能力にも変換されますが、このハードウェアを他の人々が利用できるようにし、彼らのモデルをTPU上で動作するように構築することを潜在的に可能にします。
GPUとTPUは最終的に同じことをしようとしていると思います。すべての技術的違いには立ち入りませんが、確実に独自のハードウェアとそれを構築するチームを持つことは、多くの最適化の方向性を開くものです。
このモデルを訓練しているとき、テキストベースのモデルを訓練している場合は、それと比較できる特定のベンチマークがありますが、世界モデルではどのようなベンチマークでテストするのでしょうか?訓練プロセス中に物事がうまくいっているかどうかをどのように知るのですか?製品が焼き上がっていて、あなたが思うように出来上がるかどうかを。そして最終的に、それが実際に配信されたとき、どのような種類のテストを実行しているのでしょうか?すべてただのバイブテストですか?
評価とベンチマークの課題
想像できるように、それは本当に多くのもののミックスです。テキスト対世界モデルの比較だけではありません。おそらく、既存のベンチマークがある確立された分野対何か新しいものの比較でもあります。何か完全に新しいことをしているときに何を期待すべきかは必ずしも明らかではありません。
明らかに、私たちは信頼できる定量的なものを得るために非常に懸命に働きました。ここでかなり良いアイデアを持っていると思いますし、いくつかのものを使用することができましたが、最終的に、モデルの異なる能力は異なる指標を必要とします。
グループとして、いくつかのことの長所と短所について議論し、必ずしも一つのリーダーボードを簡単に登ることができるとは限りません。チェスのELOのようなものとは違います。確実に複雑な状況ですが、最終的には理解できたと思います。
また、私たちがどのようにそれを使用するかにも本当に依存します。研究が早期であればあるほど、この場合に示唆されるように、私たちは必ずしも既存の能力を改善しようとしているのではなく、新しい能力も追加しています。
これらについては内部ベンチマークがありましたが、それらが可能な最良のものであるとか、ゴールドスタンダードであるということを意味しないことは確実に知っています。テキストモデル、LLMおよびビデオモデル、画像モデルでさえも、かなりの時間がかかりました。ビデオモデルが例えばLMLアリーナで第一級市民になったのはごく最近のことです。人間の好みに帰着するからです。
これらのモデルすべてについて、最終的にいくつかのタスクで測定することができますが、人々はそれをどのように使用するかを気にかけます。世界シミュレーターがユーザーとインターフェースするのはまだ早期であるため、指標を定義するのは少し困難です。
私たちが進むにつれて、より多くの人々がそれを使用できるようになるにつれて、彼らがそれをどのように使用するかについてより良い理解を持ち、さらなる開発を導くのにより有用な指標を作成することができるでしょう。
未来予測によるベンチマーク
ユーザーの好みだけに基づかない、より直接的なベンチマークを想像できますか、今日は可能でなくても?
未来を予測することが良いものだと思います。ある意味で、未来の数秒を予測することです。これは典型的なベンチマークです。ビデオモデルにも使用できます。
それを少し分解してください。未来を予測する。何を意味するか説明してください。
もちろんです。未来を予測することについて考えるとき、明日の株式市場を予測することを考えているわけではありません。それは有用でしょうが。もしかしたらそこに到達するかもしれません。
しかし、床にボールがあって、誰かがそれを蹴っている状況を想像してみてください。この秒で止めて、モデルに次に何が起こるかを推測させることができます。人として、ボールは蹴りの角度によって、おそらくどこに行って着地するかを想像できます。環境をシミュレートできる良いモデルはおそらく軌道を予測できるでしょう。
これは実際の世界で撮影している単なるビデオであり、次に何が起こるかと実際に比較することができます。これらのベンチマークは存在し、モデルが次のフレームセットをどれだけよく予測できるかを基本的に理解するのに有用です。
しかし、世界モデルの非常に重要な側面をカバーしていません。それは、ユーザーやエージェントからの入力を得ていないということです。歩き回ったり相互作用したりしたい場合、そこで通常評価において課題にぶつかります。それを評価する明らかな方法がないからです。
エージェントと環境の相互評価
もう一つの興味深い角度は、明らかに私たちは環境をエージェントの訓練と評価に有用になるように設計しましたが、エージェントを使って環境も評価することができます。エージェントは世界で目標を達成できますか?できるなら、世界は十分に一貫してそれを可能にするほど良いものでなければなりません。
エージェントに羽を取って床に落とすように言うこともできます。そうすると、それは浮いて下に降りますか?ボールを投げるように言ったり、コカ・コーラにメントスを入れて何が起こるかを見るように言ったりできます。
知的なエージェントがいれば、「世界はあなたが思ったように振る舞いましたか?」のようなことを尋ねることさえできるかもしれません。
エージェント環境が双対性であり、お互いに依存し、お互いを評価するような、この本当に双方向的なものは非常に強力である可能性があると思います。
メタレベルでは、これはあなたの以前の質問に戻ります。Nano Bananaのような他のチームを持つことで利益を得ますか?TPUを持つことで利益を得ますか?評価するエージェントを持つことで利益を得ますか?GDMでこのようなモデルを構築することの本当にクールなことは、あまりにもKool-Aid的にならずに言うと、モデルと統合できる他の素晴らしいことを持つ他のすべての素晴らしいチームを持つことです。明らかに私たちはこのすべてから利益を得ています。非常にエキサイティングだと思います。
シミュレーション理論についての考察
Shlom、数秒先を予測することに戻らなければなりません。これについて内部で話し合ったことは確実にありますよね?それを聞いてすぐに、シミュレーション理論について話しましょうと思います。
世界モデルが十分に未来を予測できるなら、それはその時点でシミュレーション理論の証明ではないでしょうか?
どれだけ深く入りたいかによりますが、未来を予測することは、物理学の理解に基づいて、未来が必ずしも決定論的ではないことを知っています。必ずしも単一の軌道があるわけではありませんが、マクロレベルでは、ボールの軌道について十分な理解と知識があれば、ニュートン力学は正しい答えを与えることができます。質量などすべてを知っていれば、実際に予測できます。
現象によると思います。時間の地平線によっても。今日すでに物理環境をシミュレートするシミュレーターがあります。ゲームをプレイすると、通常ゲームには力や速度を計算して予測を得る物理エンジンがあります。
いくつかの物理現象を予測することは、それ自体では必ずしも非常に強力ではないと思います。学習された世界シミュレーターの力は、それらが非常に多様であることだと思います。
特定の公式を超えることができることです。ボールが一方向または他方向に進むようなもの。例えば、流体シミュレーションは非常に複雑な現象としてよく言及されるものだと思います。流体の振る舞いを支配する方程式があり、ビデオモデルやGenieが流体を非常に洗練されたリアルな方法でシミュレートできることを時々見ることができます。
私たちが持っているサンプルの一つに、ハリケーンのような海辺を歩いている人がいて、非常にリアルに見えます。それのシミュレーターを作成したい場合、かなり困難でしょう。
エキサイティングなのは、そのようなことができ、例えば流体力学のような物理現象を明示的な計算なしでシミュレートすることを学習できるシミュレーターがあることです。モデルに十分な物理学を知らないので、望んでも教えることができません。
これは、ある意味で、シミュレーション理論のような結論に必ずしも導くとは思いませんが、以前に思っていたよりも少ない計算で現実のいくつかの側面をある忠実度でシミュレートすることが可能であることを意味します。私たちがシミュレーションの中に住んでいるかどうかは、私が思うことを喜んで言いますが、少し異なる質問です。
あなたが何を思うか知りたいです。この質問をされるたびに、より精巧で突飛なものにしています。しかし現在の私の考えは、まず知ることはできないと思います。ある意味で、私たちがシミュレーションの中に住んでいるとしても、この質問に答える実際の方法はないと思います。
興味深いことの一つは、私たちの現実をテストし実験を行う物理学者が、量子力学の限界を観察することです。それらをシミュレートできる機械があるとすれば、そのすべてをシミュレートするのにどれだけの計算が必要かという問題があります。
ある意味では、これは実際に議論に反するものだと思います。なぜなら、それらすべてのシミュレーションを作るために非常に精巧な機械が必要で、次のレベルの現実もそれを必要とするからです。基本的に私たちはシミュレーションの中に住んでいないと信じています。
Genie 3が流体力学をシミュレートできることを説明しているのは興味深いですが、実際には原子ごとに計算しているわけではありません。視聴者にとって信じられるものをレンダリングするのに十分な計算をしているだけです。そのため、それらの計算を行うのに怪物のような機械を必要としないかもしれません。
しかし、シミュレーションを取って実際に実験を試してみると、シミュレーションの限界にぶつかると思います。それを見るのはそれほど難しくないというのが私のポイントです。
ビデオモデルを例に取ることができます。非常にリアルです。私はV3で作業していたとき、時々Genieの出力について何を思うかを尋ねられました。GenieとVのような時々、これが生成されたとは信じられません。本当に驚異的なときがあります。
非常にリアルに見えますが、壊れるような方法で簡単にプロンプトできることが重要です。現時点での世界最高のモデルでさえ、いくつかの設定でまだ壊れる可能性があります。それが事実だと思います。
それは私たちのシミュレーションがまだ制限されていることを強調しています。どこまで押し進めることができるか、ある時点で実際に私たちの経験と同じくらいリアルになるかどうかという問題があります。その答えはありません。
Jack、あなたの考えを聞きたいです。私たちはシミュレーションの中にいますか?可能だと思いますか、それとも強く反対ですか?
これを避けたと思いました。通常あなたがこれを取ります。強い答えはありません。おそらくノーと言うでしょう。
あまりにも多くのことが起こっていて、一貫しているからです。どこでも非常に一貫しています。少なくとも一つの不具合がどこかにあると感じますが、それだったかもしれないいくつかのことを特定できるかもしれませんが、これらのモデルで作業したことがあるように、本当に良いです。
現実世界の複雑さを得て、明らかに少し間違って見えるほぼゼロのものを持つために。みんな小さな間違いをするものです。それが私の唯一の本当のことで、これがそれを証明すると感じます。しかし最終的に、Shaneが以前にポイントを作ったように、私たちは本当に知らないでしょう。
マトリックスからのデジャヴのような間違いかもしれません。あのシーンを覚えているなら、それはシミュレーションでの間違いではありませんでした。
シミュレーションの中に住んでいることについての最も説得力のある映画でさえ、いくつかの不具合があります。私はどこで、世界での不具合について陰謀論を持っている時について研究に多くの時間を費やしていません。もしかしたらいくつかあって、誰も注意を払わなかったかもしれませんが、私は知りません。
シミュレーションの話題から離れることを約束します。考え始めると話したくなるので難しいです。
Genieの次のバージョンがシミュレーションで開発されるという冗談があります。Genieが無限にそこから発展していくでしょう。
プロンプト可能な世界イベント
Genie 3が立ち上がって見たときに考えてもいなかった最も印象的なことの一つは、推論中にプロンプト可能な世界イベントの能力でした。それは推論中ですか?どのように動作するのですか?その交換中の実際のユーザーインターフェースはどのようなものですか?外からはデモしか得られなかったので、実際にはインターフェース的にどのようなものですか?推論中のプロンプト可能な世界イベントを達成するのに何が必要でしたか?
ここには2つのことがあると思います。ユーザーインターフェースに関して、実際には持っていませんでした。Genie 3はこの時点で製品ではありません。まだ研究プレビューのようなものです。この場合、テキストがそれらのもののためにモデルに送信される実際の方法は、輝くウィジェットや誰かがそれに話しかけるようなものではありませんでした。
研究者がそれに取り組んだように、誰かがコマンドをモデルに送信したというようなものでした。しかし、その仕組みに関しては、モデルが生成中にテキストプロンプトを受信しているだけです。そのプロンプトの前のフレームはそれを見ておらず、後のフレームは見ています。
興味深いです。本質的に、モデルはアクションに条件付けられた各フレームですが、時々テキストを持つでしょう。本質的に、因果的な性質を持ちます。イベントが発生し、その時点から世界に影響を与えることができます。
テキスト生成への類推として考えると、生成されている各トークン中に新しいテキストを挿入できるようなものでしょう。
そうです。ある意味で、テキスト生成モデルが次のトークンを予測しようとするように考えてください。Genieは一連の入力に基づいて次のフレームを予測しようとしています。ここで、ユーザーに「次に何が起こるか」を言うことを許可しているだけです。正確にいつかは言いません。
モデルはそれをある方法で解釈できます。考えてみると非常に興味深いです。何かが世界でどのように物質化されるべきかを正確に言わないからです。それは実際にかなりオープンです。モデルは決定できます。例えば、ラクダが視界に入ってくるように頼むと、左を見たときに見えるのか、それとも物質化するのか。少し過少指定されています。
正しいものを見つけ出すことがチャレンジの一部だと思います。評価やモデルを評価する方法、ベンチマークについて言及したとき、私たちはまだインターフェースさえも見つけ出そうとしています。モデルに何が入って何が出るか。これは私たちが持っていたアイデアの一つで、本当に探索したかったものです。世界と相互作用する他のアイデアもあります。歩き回るとき、単にそのように世界と物理的に相互作用するわけではないので、テキストはある意味でその代理だと思います。
競合する指示への対応
最初のプロンプトがあって世界を生成し、その後世界の生成中に競合するプロンプトを与える場合を考えてみましょう。簡単な例で、最初のプロンプトでボールが赤いとします。その後の生成プロンプトでボールが青いと言います。モデルはそれらの競合する指示をどのように処理しますか?
私の推測では、モデルはそれを実現しようとするでしょう。世界にすでにあったものを変更するようなイベントは正確には試していません。ドラゴンが現れるとか、鶏の衣装を着た人のようなものなど、世界に追加するようなものをもっと試しました。
しかし、川が赤や青に変わると言ったら、すでに少し茶色でした。ロンドンでした。カリブ海のように水晶のように透明になると言ったら、それは良いでしょう。それは単にそうするだけだと思います。与えられたテキストに従うでしょう。
もう一つのクールな例があります。明らかに、モデルは世界の説明としてテキストを取りますが、実際にビデオでもプロンプトできます。フレームでプロンプトできます。
チームの誰かがある世界のいくつかのフレームを与えて、実際にそれと一致しないテキストでプロンプトした例をソーシャルメディアに投稿しました。
モデルが何をするかという証拠があります。それを機能させようとします。最も自然な方法で、これら二つの世界を融合させます。実際にGenieモデルで遊んでいる人々を見ている部屋にいる例があると思います。
それを覚えています。
プロンプトは恐竜がいるジャングルについてのようなもので、振り返るとジャングルにいますが、戻って見ると部屋が見えます。モデルは単にテキストを世界で機能させます。
Shomiが以前に言っていたことだと思います。ちなみに、あなたのビデオフレームは部屋を示すかもしれませんが、このように融合させてくださいとは言いません。それは単にそれを行い、機能させます。
それがある意味でエキサイティングで魔法的な部分です。なぜなら、それが何をするかを本当に知らなかった何かを作っているからです。ドラゴンが運河に着陸し、ドスンと落ちて水を至る所に跳ねさせるようなものでも。
実際に起こったとき、「それは本当にクール。何をするかわからなかったけど、それは本当にクール」と思います。その機能を最もオープンエンドでエキサイティングな部分の一つとして強調するのは正しいと思います。
訓練データについて
共有できる範囲で、基礎となる訓練データはどのようなものですか?どのような形式ですか?すべてビデオゲームシミュレーションですか?映画ですか?共有できる範囲で、訓練がどのようなものか、その訓練データはどのようなものですか?
主に公開されているビデオデータセットで訓練しています。この時点で共有できるのはそれくらいです。
興味深いことは、モデルが世界について非常に多様なビデオモデルから本当に学習できることだと思います。これは、LLMがウェブ上のテキストや他のソースから次のトークンを予測することを学習し、そこから世界の動作、人々の表現方法、さらには考え方や問題解決方法について多くを推論できるのと少し似ているかもしれません。
ある意味で、それらのビデオデータソースから学習することで、モデルがこれらのインタラクティブ環境を作成するために非常に有用な表現を学習できることを見ています。これは非常に驚くべき結果だと思います。
汎化能力について
テキスト生成モデルは必ずしもデータセットの外側にそれほど汎化しないと言う人がたくさんいます。ビデオやテキストから世界モデルは、テキストモデルよりも効果的に汎化できると思いますか?
正直に言うと、それは本当にクールな研究質問です。それを定量化するのはかなり困難だと思います。
直感的に、言語モデルについてはそれほど専門家ではないので、それらができないことやできることについてあまり話したくありません。しかし、私たちの分野では、モデルがすでにできることの多くは以前に見たことがないものだということは確実です。それは作成している一般的に新しいものだと思います。
運河のドラゴンや折り紙のトカゲでさえ、かなり新しいアイデアだと思います。スキーと鹿があったものでも、これらのことは以前に本当に存在していなかったと思います。
V3チームの一員ではなかったので、これを少し客観的に言うことができます。明らかにShomiはプロジェクトのリーダーの一人でした。ビデオができることのいくつかは絶対に信じられないものです。
異なる動物のvlogビデオのようなもので、英語を話すことができないと思います。しかし、ものについて話していて、本当に驚くべきものです。それらを魔法的にするのは、完全に新しいものを作成できることです。
私は他の種類のモデルについて、新しいものを作成することについてではなく、すでに欲しいものをかなりうまくやることについてだと確信していません。これらのモデルからのより創造的な要素は、汎化できるという事実から来ているのかもしれません。
LMSがまだ始まったばかりだった数年前の議論を思い出します。次のトークンを予測しているだけで、実際に新しいことは学習せず、訓練データを繰り返しているだけだという議論がありました。
最終的に、私にとってのテストはそれが有用かどうかです。訓練データを繰り返しているかもしれないし、そうでないかもしれないと議論できます。訓練データの外側にあるテストを考え出そうとできますが、訓練データが大きければ大きいほど、明らかに非常に困難です。
しかし最終的に、モデルが有用であれば、それが私にとってのバーだと思います。ビデオモデルについては、それらが有用であることがわかります。人々は以前にできなかったことを作成しています。世界シミュレーションモデルやGenieでも、人々がそれを使用し、研究者が有用なことにそれを使用することを見ることを願っています。それが私にとっての成功でしょう。
合成データの活用
テキスト生成モデルでトレンドになっているもう一つのことは、合成データを使用することです。一つのモデルでデータを生成し、それを使って別のモデルを訓練し、実際により有能なモデルにスケールアップできるかどうかについて議論があります。Genie 3が世界を生成してGenie 4を訓練することを見ていますか?
再び素晴らしい質問です。この点について異なる角度があると思います。明らかに、私たちはGenie 3を使ってエージェントのための合成データを生成することに非常に焦点を当てています。
ある意味で、その初期設計は実際に時代を先取りしていました。それは常に他のAIモデルを訓練するための合成データ生成についてでした。
間接的に、以前に言ったことと組み合わせると、それらのAIモデルが将来のバージョンのGenieモデルを評価するために使用される場合、間接的に貢献したことになります。
Genie 3からGenie 4へのデータ生成の具体的な方法については、この時点ではあまり推測できません。
一般利用可能性への道筋
Genie 3は限定された研究プレビューで、少数の人々のコホートがそれを取得しています。より広範なアクセスやAPI、特に私のような人々、実際に私が使いたい、より広範なアクセスを解除する具体的なマイルストーンは何ですか?
確実により多くの人々にそれを持って来たいと思っています。研究プレビューですが、確実に探索しているものです。現時点では具体的なタイムラインはありません。もちろん、わかり次第共有します。
しかし、使用できないものを構築することが目標ではありません。私たちにとっての一般的なテーマは、人々が最終的に使用し、その上に構築できるものを構築したいということです。
具体的な日付やタイムラインについて話すことなく、安全性、スケーラビリティなど、一般利用可能性に向けてより傾く内部で見たい具体的なマイルストーンや成果はありますか?
確実にフィードバックを得る必要があります。それが私たちが小さなコホートから始めた理由です。一般的に、新しいアプリケーションや新しい能力セットがあるとき、できるだけ多様なコホートで、小さなコホートで最初にテストし、人々から何を思うか、リスクは何か、潜在的なアプリケーションは何かを聞きたいと思います。
拡大する前にそのフィードバックを処理できるようになることが、それの主要な部分です。
Jack、Shlomi、今日お話しいただき本当にありがとうございました。これは楽しいひとときでした、特にシミュレーション理論についてあなたたちとお話しできて。
そうですね。私を考えさせました。お時間をいただきありがとうございました。ありがとうございました。


コメント