Genie3:世界モデルの新たなフロンティア【ジャック・パーカー・ホルダー&シュロミ・フルクター】- 743

Google・DeepMind・Alphabet
この記事は約37分で読めます。

この動画では、Google DeepMindの研究者らがGenie3という革新的な世界モデルについて詳細に解説している。Genie3は、テキストプロンプトからリアルタイムでインタラクティブな3D環境を生成できる画期的なモデルで、従来のGenie1、Genie2から飛躍的に進歩し、解像度、持続時間、生成速度すべての面で約100倍の性能向上を実現した。特に注目すべきは、1分間の視覚的記憶を持ち、ユーザーの行動に即座に反応する能力である。研究者らは世界モデルの定義から始まり、技術的課題、実装方法、そして将来的な応用可能性まで幅広く議論している。

Genie 3: A New Frontier for World Models [Jack Parker-Holder and Shlomi Fruchter] - 743
Today, we're joined by Jack Parker-Holder and Shlomi Fruchter, researchers at Google DeepMind, to discuss the recent rel...

Google DeepMindの革新的世界モデル「Genie3」

わしらは本当にGenie3で全ての次元において限界まで押し進めようとしたんや。そやから、生成品質の面でもっと性能の高いモデルができてるし、解像度、インタラクションの持続時間、次のフレームがどんだけ早く生成できるかを見てみると、これら全ての次元を掛け合わせたら、約100倍の改善になってるんや。

みなさん、こんにちは。TwiML AIポッドキャストの別のエピソードへようこそ。わしがホストのサム・チェリントンや。今日はGoogle DeepMindの研究者、シュロミ・フルクターとジャック・パーカー・ホルダーに来てもろて、最近リリースされたGenie3モデルについて話すんや。これは印象的な世界モデルで、ちょうど1年前にアシュリー・エドワーズとの会話でこのポッドキャストで初めて紹介したもんなんや。

Genie3について掘り下げるのがめっちゃ楽しみやわ。ジャックとシュロミ、ポッドキャストへようこそ。ありがとうございます。呼んでくれてありがとう。ここに来られて嬉しいわ。

これはちょっと難しいインタビューになりそうやな。わしらは比較的最近Genieについて取り上げたけど、人がそのインタビューを聞いてるとか、Genieについて全然知らんってことを前提にしたくないんや。

そやから最初からちょっと始めて、このプロジェクトについて掘り下げて、どこから来たんか、なんで興奮するもんなんかを探っていくつもりや。まず掘り下げる前に、それぞれ自己紹介してもろて、機械学習研究への道のりのハイライトとか、何に一番興奮してるか、どんな研究してるかとか、そういうことをシェアしてもらいたいわ。ジャック、始めてくれる?

研究者たちの背景

ありがとうございます。そやから、あんまりゴマすりみたいにならんように言うと、わしの道のりは10年ほど前に金融で働いてて、仕事の後の夜に修士課程をパートタイムでやってたんや。実際2017年頃にはあんたのポッドキャストをよく聞いてて、その時機械学習研究に入ったんや。強化学習のための進化的手法をやってて、Google Brainの人らとも一緒に働いてたんや。ニューヨークにいてそこにオフィスがあったからな。

それでPhDをすることにして、オープンエンド学習に焦点を当てた。まだ強化学習やってて、それから世界モデルにちょっと手を出した。PhDを終える頃には、これらのアイデアの組み合わせが本当に強力で大きなことをやるもんやって確信が深まってた。

PhDの後、Google DeepMindに参加して、adaptive agentsっていうプロジェクトでちょっと働いた。これはXLand環境でのもんやった。その後、ほぼGenieを始めた感じや。そやからもう数年これをやってる。わしはopen-endednessチームにいて、他の分野もカバーしてるけど、Genieプロジェクトの一環として、世界モデルをオープンエンドネスへの道として使うっていうアイデアに焦点を当ててるんや。

素晴らしいわ。シュロミはどうや?

わしは実際、最初のプログラミング体験は10代の頃にゲームエンジンを開発してたことなんや。3Dエンジンで、エフェクトのシミュレーション、ライティングエフェクト、液体エフェクトなどを試すような世界から来てるんや。そやからこの分野ではもうしばらく働いてる。この視覚的な領域が本当に好きなんや。

それからGoogleに入って、Google duplexチームにいた。duplexプロジェクトでやったことは、視覚的なもんとは全然違って、主に電話で物事を片付けることやった。

duplexプロジェクトは、Google IO 2018で人が覚えてるかもしれんけど、人が「わー、これはAGIの瞬間や」って思ったやつや。でも多分そうじゃないと思うわ。でも確実に素晴らしかったし、具体的にはGoogleがあんたの代わりにレストランや美容院に電話して予約を取るプロジェクトやったな?

そうや。duplexを始めた時の目標は、実際に今日でも電話で人と話すボットを作れるか、相手が実際これが機械やって感じないようにできるかっていう問題やった。ある意味、電話でのチューリングテストをクリアできるかってことやな。

わしらが発見したんは、電話での完全に一般的な会話は達成できなかったし、LLMが出るまでは最近まで無理やったってことや。その時代はRNN、LSTMの時代で、絶対にtransformerじゃなかった。

基本的に、少なくとも特定のタスクについては多くのタスクを達成するもんを開発することができた。

そやからそれがわしの機械学習との最初の接触で、めっちゃ興味深かったわ。研究志向やったけど、実世界での展開もあった。結局15カ国で数億回の通話を行うまでスケールしたんや。

わー、すごいな。あんまり知られてないけど、主にGoogle マップを更新するために企業に電話してたからや。

わしも当然LLMで起こったことを追ってて、GPTから始まって、Google内部でもLaMDAやLambdaや他のモデルを非常に早い段階で使ってて、この技術をGoogle duplexに統合したんや。でもある時点で、わしの視覚的なルーツが再び働いて、画像拡散モデルでの革命が本当に魅力的やと感じたんや。これは大きなチャンスやと思った。本当に成熟のポイントに到達してるもんやった。

それ以来、動画モデルで働いてて、その一つの化身がgame engineやった。これはちょっとしたサイドプロジェクトで、わしらはめっちゃ興奮してた。数人の友達と一緒で、そのうちの一人は実際わしと一緒にDuplexにいて、duplexの創設者でもあった。一緒に基本的に、既存のゲームをリアルタイムで完全にニューラルネットワークでシミュレートすることが可能かっていう問題を投げかけた。

それからVe2やVe3でも働いてるけど、game engineの時期頃にジャックと話し始めた。Genieの一連の作品にはめっちゃ感銘を受けてて、もちろんそれについてもっと話せるわ。

世界モデルの概念

人がGenieを見て最も興奮することの一つは、この世界モデルっていう概念やな。ジャック、あんたにとってそれが何を意味するのか、世界モデルがより広いAIモデル、transformer ベースのモデルの軌道にどうフィットするか、どう考えてるか教えてくれる?

あんたにとって世界モデルっていうアイデアに全部何が含まれてるんや?

そうやな、それはある意味では答えるのが簡単やけど、異なる哲学の本一冊分にもなりそうな素晴らしい質問やな。

わしにとって、世界モデルの定義は実際最近ちょっと変わったと思う。でも1年前まで言ってたのは、世界モデルは本質的にMDPをモデル化する強化学習パラダイムからのモデルやってことや。そやから状態、行動を取って、次の状態を予測する。このアイデアはしばらく前からある。世界モデルは本質的にモデルベース強化学習のモデルなんや。

環境をモデル化してるんやな。90年代初期にJürgen Schmidhuberがリカレント世界モデルについての論文を出してたと思うし、その頃Rich SuttonのDyna論文も出てた。それがこの研究方向、モデルベース強化学習の出発点やった。

わしにとって本当に響いたのは2018年のHa Schmidhuberの作品で、わしがこの分野全般に興味を持ち始めた時期と同じや。強化学習タスクを見てて、その時はMuJoCoタスクみたいな小さなhalf cheetahとかそういうのがあった。

世界モデル論文を見て、基本的にはオフラインの例をいくつか使って、実際に環境をシミュレートできるって言ってた。次の状態を十分によく予測して、そのモデルでポリシーを訓練して、それを実環境に転移できる。ポリシーは実環境で訓練しない。

当然それはすごいクールやけど、彼らが持ってた設定は基本的に実環境からのデータを持ってたってことや。そやからこれができるのは本当にクールやけど、実環境で訓練して理論的には同じ結果を得ることもできたんや。でもそのデータを集める必要があった。

その通り。でもできたやろ?その能力があった。それが数年間世界モデルがいたパラダイムや。わしらが実際に環境を持ってて、ますます複雑な環境でこれが全くできることを示してたんや。

もしモデルベース強化学習をしたくなくて、世界モデルを使いたくなければ、分散RLアルゴリズムを使って多分本当に良い性能を別の方法で得ることができた。世界モデルアプローチにはまだ利点があった。多分サンプル効率が良かったけど、他に解決できないことを解決してるわけじゃなかった。

でもシュロミのtext-to-imageモデルについてのコメントにちょっと戻ると、わしらは両方とも異なる角度から同時にそれに興奮してたと思う。わしにとってそれはtext-to-imageがこんなにうまくできるなら、多分4年前にimageが出た時やと思うけど、じゃあ動画もいつかできて、動画の後は多分世界モデルができるやろうって言ってたんや。大きなデータセットで何でもシミュレートできるようになる。

そやからアイデアは基本的に同じ概念を取って、わしが世界モデルと見なすもの、つまり環境をシミュレートすることに適用できるか、そうすれば任意の環境をシミュレートできるってことや。

そやからわしらはこのfoundation world modelsっていうアイデアを思いついた。世界モデルやけど、単一の環境だけじゃなくて、任意の可能な環境や新しい環境のためのもの、foundation modelみたいなんや。

そやからこれがわしらが固執した厳しいラインで、foundation modelは一つのもの、行動が与えられて次の状態を予測する一つのものやっていう定義を取った。でも最近、他の種類のモデルも世界モデルと考えられるようになった。例えば動画モデル、text-to-videoとか。

最初はわしの世界モデルの見方には合わなかった。でも実際、異なる抽象化レベルでは合うと思う。そやから今はもうちょっと広い世界モデルの見方を持ってて、過去とある形の行動が与えられて未来をシミュレートし、世界のダイナミクスをシミュレートするモデルやと思ってる。

MDPの全ての遷移を明示的にモデル化してるわけじゃない。前に言ってたようなことやけど、多分ただ何らかの方法で世界のダイナミクスをシミュレートして、行動して介入できて、反実仮想情報を得られる。それがプランニングやシミュレーションでポリシーを学習することを可能にするんや。

世界モデルへの異なるアプローチ

あんたも世界モデルの考え方に同じような変化があった?

そうや、わしはもうちょっとシミュレーションから来てて、視覚的なことを考える。今日世界モデルって呼ばれてるもんは非常に視覚的に特化してると思う。これも現在世界モデルって呼ばれてるもんの制限の一つやと思う。

でもジャックが言及した世界モデル論文に戻ると、定義はかなり明確やったし、始点として、また固定するのに良い定義やと思う。この用語は確実に多くの方法で使われてるからな。

でも直感もちょっとあると思う。もちろんそれは形式化できるけど、少なくともわしの視点からは、動画モデルやけど画像モデルも見始めた時、テキストを書いて、テキストプロンプトを提供すると、ある種の世界がそのピクセルの後ろにあるような感じがするんや。

それが直感的な部分やと思う。もんが本当にリアルな画像や動画に見えるためには、モデルは多分何が起こってるか、世界がどう振る舞うか、ある程度の物理学の内部表現を持たなあかんのやろう。

それがある意味、素人向けに言うと、世界モデルの直感や。モデルは多分世界についてのある理解を持ってて、それが視覚的で、それが鍵やと思う。でも世界モデルは視覚的である必要はないし、ピクセルを生成するもんである必要もない。それがもっと広い意味や。

そやから文献でも、世界モデルは何かの潜在空間にあることもある。ただ意思決定に使えて、次に何が起こるかを予測できるもんであるべきや。RLの文脈で計画を実行して、基本的に環境でもっと最適に動作する方法を学習するんや。

でも再び視覚領域に戻ると、わしが思うに何が起こったかっていうと、基本的に視覚領域は拡散モデルが画像と動画に本当にうまく動作したから、本当にうまく機能した。音声でもそうや。それからこれらの分野の交差点がめっちゃ明白になった。それが今わしらがいる場所で、基本的に非常にリアルな環境を生成できるモデルがあって、この方向を押し進めようとしてるんや。

Genieプロジェクトの軌道

ジャック、あんたはGenie1と2でも働いた。プロジェクトの軌道について少し話してくれる?わしがGenie3について最も驚いてることの一つは、アシュリーとの会話を覚えてて、わしの頭の中では、この世界がリアルタイムでプレイ可能やと仮定してたけど、それは違って、フレーム間に20分かかるとか、正確には覚えてないけど。リアルタイムプレイ可能じゃない。

でも今、たった1年でフルタイムリアルタイムでプレイ可能になったこれを見てる。でもこれらのプロジェクトの反復間の機能的と研究的両方の大きなマイルストーンについて少し話してくれる?

そうやな。わしらは確実に以前の両作品でリアルタイムじゃないって強調しようとしてた。挑戦は、新しい研究を発表する時、「わしらの非リアルタイムブレイクスルーへようこそ」なんて言わへんやろ。なんでかって言うと、それは興奮させる最良の方法じゃないから。制限から始めたくない。

でも制限を中頃に置いて、クールな動画をたくさん持ってても、人はそんなに遠くまで読まんのやろ?

そやからその挑戦があった。でも20分よりはちょっと少なかった。数秒やったと思う。text-to-imageモデルを考えてみると、わしは保守的な側に完全に回転しすぎたんやと思う。バーを少し低く設定して、約束を少なくして期待を上回る方が良いから好きやねん。でも多分逆をやってしまった。

本質的にtext-imageモデルは、G3と同じような速度になるには20分の1秒で動作する必要があるやろう。そやからわしらがやり遂げたことは本当に remarkable やったと思う。

でも時間を少し戻すと、わしはリスナー全員にアシュリー・エドワーズ版も聞くことを強くお勧めする。本質的にGenie1はGenie3とはかなり異なる獣やった。この foundation world model のアイデアの本当に最初の概念実証やった。新しい世界を生成できるモデルやったんや。

単一ドメインについては、Harper の作品から始まって、dreamer、dreamer v2、dreamer v3みたいなもんがあって、ますます複雑な個別環境をモデル化し、エージェントがそれらを使って本当に複雑なタスクを解決できる素晴らしい行動を学習できることを示してた。それは単一ドメインの複雑性軸で本当に重要な作品やった。

一方でGenie1は基本的に、環境の複雑さ自体は気にしない、新しい環境と新しい世界を全く生成できるかって言ってたんや。

その挑戦はデータ側にあった。既存の環境から訓練するのとは違って、新しいもんを生成しようとする場合、ターゲット環境からの行動ラベルデータがないからな。

そやから基本的に行動ラベルのない未ラベル動画のデータセットを集めた。わしらは潜在行動を学習するっていうちょっと洗練されたアプローチを持ってた。

それについて本当に素晴らしかったのは、わしがキャリアで数回幸運やったけど、わしが興奮してやりたいことと、わしが知らんことについてほぼ完璧なスキルセットを持った人にぶつかる例やった。

アシュリー・エドワーズとの協力

アシュリーは多分5年以上潜在行動学習で働いてた。彼女は基本的にその方向を本当に開拓した人の一人やけど、異なる文脈やった。彼女は動画から行動を学習するために働いてた。動画を取って行動を抽出して、それらの動画からbehavior cloneや模倣学習をしたいんや。それをするために教師なし潜在行動を学習する必要がある。

一方でわしらは逆の種類の設定を持ってた。動画から行動を学習しようとする代わりに、動画から世界モデルを学習しようとした。そうすれば世界モデルを使ってポリシーを学習できる。そやから異なるフレーミングやった。

CVPRでplayable environmentsっていう論文があった。Menopasal らの作品で、似たようなことをやってた。わしがPhD論文を書いてる時に出た。インターネット動画からこれらの世界モデルをどうやってやるか、これをどう可能にするかって考えてて、その論文を見て、少なくとも一つの道やと思った。

基本的にアシュリーとチャットして、彼女は実際それは理にかなってる、絶対にこのアプローチで行けるし、彼女が以前試したより大きなスケールで潜在行動を働かせる本当に興奮する方法やろうって考えてた。

Gen1については、かなり新しいアイデアで、全くできるかやったけど、スコープが限られてた。実際二つのモデルを訓練してて、人もあんまり気づかんけど。一つは2Dプラットフォーマーゲームデータセットで訓練して、もう一つはRT1論文のロボティクスデータセットで訓練した。これは日常的なロボティクスアームやった。

どちらの場合でも、教師なしで行動空間を学習して、訓練データになかった新しい画像をモデルに与えることができた。多分text-imageモデルで生成されたもんか、あんたが撮った写真とかで、その時点から潜在行動を使って世界のようにプレイできる。

それは素晴らしく聞こえるけど、いくつか注意点があった。90pで非常に小さくて、劣化する前に多分数秒しか続かなかった。それに画面外に行った時は本当に新しいもんを生成しなかった。

わしらはこのマスクアプローチを使って、離れて移動した時にmode collapseする傾向があった。プラットフォーマーの例で右に移動すると、興奮する新しいコンテンツを生成するよりも、ただ平らなプラットフォームを続ける感じやった。人は実際それに気づいてたけど、わしらは確実にそれを認識してた。これが remotely 動作するのがクールやっていう程度やった。

それは本当に初期段階のプロジェクトやった。基本的にわしらがこれを始めた時、誰もこれが価値あることやとは思ってなかった。Google DeepMindみたいな場所にいて幸運やった。そこでは人がこういうもっと探索的なプロジェクトを奨励してくれるけど、重装備されたタイでァortじゃなかった。数人でかき集めてやってた感じや。

それがGenie1やった。わしらは実際それについて論文を書いて、去年の夏に出たICMLに提出した。そやから作業を終えて論文が出版されるまでのサイクルがあるから、とても最近に感じるんや。時間の地平線が短く感じる。

Genie2については、設定は基本的にGenie1論文が2024年2月3月頃に出た。わしらはしばらく結果を持ってて、もう将来の計画について考え始めて、実際それに取り組み始めてた。でもその頃、動画モデル一般で多くの進歩があって、text-to-imageが数年前に持ってたような瞬間があった。

そやからわしらにとって、Genieの次の段階ではもうちょっと大きなスケールに行けるし、多分動作するやろうってことが非常に明確になった。SoraやViDeoモデルが非常に効果的にスケールしてるのを見てたからな。

そやからわしらは2Dゲームから任意の3D世界データセットに行くことにした。360pまでスケールアップして、劣化する前に多分10-20秒続く環境を画像プロンプトから再び生成する能力があった。

そやから再びリアルタイムじゃなかったけど、各フレームに数秒待って数分間プレイできた。3D世界で動作した。その時もこれが完全に動作することは明らかじゃなかった。auto-regressiveな生成をやってて、10-20秒さえ続くかどうかまだ明確じゃなかった。そやからかなり興奮する結果やったと思う。

Genie2の改善点とGenie3への展開

Genie2はmode collapse問題を克服した?

ある程度そうや。Genie2は拡散モデルやったから、ちょっと異なる特性があったけど、まだ画像プロンプティングしかサポートしてなかった。そやから動画モデルほど表現力豊かじゃなかった。まだ動作する画像を選択する必要があって、いつも動作するわけじゃなかった。

自分自身の世界を生成できなかった。例えば明確なエージェントが適切な場所にいるような特定のフォーマットの画像を生成する必要があった。そこからシミュレートする。

一方でG3について多くの時間を話すことを望んでるのは、確実にそれができることや。

そやからGenie2の時は、この一般的なアプローチの良い兆候やったけど、リアルタイムじゃなかった。わしらはgame engineでそれを正しくやるのが本当にインパクトがあることを見てた。

視覚品質は良かったけど、まだテキスト入力を使ってなかった。表現力豊かじゃなかったし、同時に出たVe2みたいな最先端動画モデルの視覚品質にははるか及ばなかった。それはわしら全員にとって絶対に mind-blowing やった。

そやからそれがシュロミが入って本当に専門知識を持ってた場所やと思う。わしは人の専門知識を借りるのが好きで、その時点でそれらの分野の専門家がいることはかなり明確やった。

Game Engineの統合とGenie3の革新

これらの他のアプローチ、game engineみたいなもんをどうやってgenieの研究ラインに組み込んだか、ちょっと話してくれる?これについて考えさせてくれ。ジャッキー、あんたが良い点を言ってるのは、わしらはGenie1と2について話してきたけど、Genie3について、デモを見た時に何がすごく印象的かっていうのを本当に話してない。

多分あんたがそれもやってくれるやろう、シュロミ、それからあんたが取り組んできた他のプロジェクトが全体的な研究にどう影響したかについて話してくれる?

そうやな。基本的に、わしが思うにGenie3では、本当に全ての次元で限界まで押し進めようとしたんや。わしらがこれを次元として見るなら、ジャックがちょうど話した進歩があるやろ?

わしらは生成品質の面でより性能の高いモデルを持ってることがわかる。Genie1とGenie2はより一貫性のある世界を生成できるけど、まだ限界まで、より多くの一貫性を持った世界を基本的により多く生成できるけど、まだ限界がある。そやからわしらはこの軌道がどのくらい長く一貫性を保てるかを改善したい次元の一つやった。

そやからそれがわしらが改善したい次元の一つやったし、もちろん解像度もや。これら全部を見ると、解像度、インタラクションの持続時間、次のフレームがどのくらい速く生成できるか、これら全ての次元を掛け合わせると、非常に大きな、約100倍の改善になる。

生の計算として考えるだけでもそうや。わしらはこれが動作することは明らかじゃない、このプロジェクトにはリスクがあることが非常に明確やった。でもわしらはこれが挑戦する時やとも感じてた。

わしが思うに基本的に何が起こったかっていうと、わしらがVe2をローンチした後、本当によく受け入れられて、品質が本当に向上したと感じたけど、確実にリアルタイムでもインタラクティブでもなかった。

それからG2が出て、確実にこの異なる方向で envelope を押し進めた。わしらはただ「よし、これらの改善のベクトルを組み合わせて次のレベルに行こう」って言ったんや。それがUnity3が何についてかで、全ての世界の最良のもんを持ってこようとすることや。多分しゃれかもしれんけど。

技術的統合とアプローチ

これらの世界の最良のもんを組み合わせるって話す時、それはアイデアを組み合わせることか?アーキテクチャを組み合わせること?データセットを組み合わせること?それとも上記全ての組み合わせか?

まず、これは陳腐に聞こえるかもしれんけど、確実に人についてもや。わしらは異なるチームからの人がいて、彼らの経験と動機とエネルギーをこのプロジェクトに持ち込んでくれた。そやからそれが大きなことやったと思う。

技術的には、確実に共有される技術的挑戦がある。基本的にわしらは出力を生成する、最終的にピクセルで、テキストを入力として取って、一貫性を感じるもんを生成したい。

そやからVe2が生成する8秒の動画でも、まだ一貫性を感じたい。カメラが動き回ると、もんが一貫して見えるべきや。これが本当に実世界で撮られたような感じを得たい。

インタラクティブになった時も同じことが当てはまる。ユーザーの入力に基づいて次のフレームを生成できるようになりたい。でもこの一貫性はまだ本当に重要で、もしわしらがただ次のフレームを生成できるだけなら、実際game engineはある意味でそうやった。あまり長いコンテキストを持ってなくて、動作した理由は基本的にDoomのこのゲームの特定の特性を学習したからや。

そやからレベルがどう見えるかを覚えてた。わしらが望むようには本当に生成してなかった。そやからテキストからもんを生成できることが、画像モデルから動画モデルまでのこの研究ラインの核心的な能力と画期的な発見やったと思う。

テキストが圧縮された表現でもあり、概念を学習する非常に強力な方法でもあることが明らかやった。

そやからこれが本当にわしらが今回テキストから始めることが明らかやった理由や。世界を記述して、それにドロップして、ユーザーやエージェントがただそこを歩き回って探索できるようにしたい。

そやからそれがプロジェクトの類似点で、もちろんインフラ、ハードウェア、わしらは一般的にGoogle DeepMindで取るアプローチは、これらのモデルがどうスケールするかの核心的なメカニズムを理解しようとすることや。そやからそれらの概念は異なるモダリティで活用できるし、確実にレイテンシーとメモリなどの異なるトレードオフでも活用できる。

お気に入りの例とデモ

Genie3からお気に入りの例ある?

わしは本当にトカゲが好きや。写実的じゃないけど。ジャンプするトカゲ、折り紙のトカゲが本当に好きや。折り紙の川に当たった時に少し水が跳ねるのがいい。

もちろん水たまりも、この例の一部は基本的にチームメンバーがXに投稿してて、わしは実際それらが本当に好きで、人がモデルで遊んで、歩き回って、ユーザーが自分の靴を見下ろして、水たまりでそれらを見るっていうのがある。それはかなりリアルや。

それがジャック、あんたのお気に入りの例やと思う。

本当にクールな例がたくさんあって、異なる能力を示してると思う。でもわしが最も驚いたのは、わしらがinceptionサンプルって呼んでるやつや。基本的にこれを説明するのに1分かかると思うけど、本質的にわしらのモデルを動画でプロンプトできるんや。

これは本当に興奮する能力で、Ve3みたいな素晴らしい動画モデルで本当にクールな動画を生成して、実際その動画でGenie3をプロンプトして、そこから続けることができる。それはわしらが遊んでた本当に興奮することや。

でもチームの一人、Yakobが間違って正しいキャプションを入れなかった。そやから本質的に気づいたのは、キャプションやテキストプロンプトを動画の潜在変数と整合させなければ、実際モデルがそれを動作させるってことや。

そやから基本的に何が起こるかっていうと、動画プロンプトで世界に面してて、それから振り返ると、この他の種類の魔法の世界がそこにある。

彼が試したのは、実際人がモデルデモをプレイしてる動画でモデルをプロンプトすることやった。そやからわしらはGoogle DeepMindの何人かがライブデモをオフィスルームでプレイしてるソーシャルメディアにも投稿された動画があって、プロンプトはジャングルとT-Rexとかそんなんやった。

Genie3の生成中に、彼らが実際プレイしてたことを示すスクリーンがこのジャングルの世界に切り替わって、ラップトップもそうなる。Genie3はそれが両方を更新することを知ってて、わしはそれがかなり信じられんと思う。

でも振り返ると、外が実際プロンプト通りのジャングルやってことも事実や。ジャングルに入って振り返ると、彼らがいるオフィスが見える。彼らがプレイしてるのが見える。信じるには見る必要があるけど。

わしはそれがかなり信じられんほど、モデルが実際もんについてのある理解を持ってることを表してると思う。スクリーンを更新する時、両方をするべきやってことを理解してるから。それにオフィスにいて外に出て振り返ったら、彼らがいるべき何かの建物を見るべきやってことも理解してる。

そやからそれは本当にクールやと思う。プロジェクトの目標が必ずしもそれをできることじゃなかったけど、興味深い目標を追求すると、予期しないことが起こることがあると思う。それの本当に良い例やと思う。

わしは必ずしもデモじゃないけど、わしがとても興奮してる能力で、わしらが持ってるデモの一つやと思うのは、ホワイトボードにリンゴと木が生成されてるやつや。素晴らしいことは、これが本当にメモリの能力の一つを実証してると思うことで、それがわしにとってこれを世界モデルにするもん、実際世界にいる感じにするもんや。

ホワイトボードを見て、窓を見て、戻ってきて、そこにある。全く同じに見える。全部が所定の位置にあって、本当に強い。

わしが同じ理由で、ペイントローラーのやつがすごく印象的やと思う。多分全てのデモの中で最もシンプルな世界や。部屋にいて、誰かが壁をペイントしてるけど、これらのランダムなストロークでペイントされた壁からビューポートがパンアウェイして、それからパンバックすると、ストロークが完璧で、auto-regressiveモデルがそれを正確にキャプチャするのは、数フレーム前にペイントされたもんの完璧なメモリや。すごく印象的や。

わしらがそれを誰かが生成したのを見た時、チームの何人かの間でちょっと信じられんかった。モデルがそんなことができるって知らんかったから。オリジナルの視覚世界が維持されるだけじゃなくて、実際にそこで取った行動と、取った行動の結果も維持される。

それにそれがもっと職業的なもんにもモデルを使えることを示してるから、かなりクールや。使用事例として本当に考えてなかったことや。それは本当に本当に、わしはG3サンプルで素晴らしいセンスを持ってると思う。

モデルアーキテクチャと課題

モデル自体について少し話そう。一貫性、レイテンシが明らかに挑戦であることについて言及したと思う。生成される視覚の解像度や豊かさについて話したし、モデルが本質的にauto-regressiveであることについても言及した。transformerと拡散について少し話した。

これらの挑戦を克服するために、モデルアーキテクチャ、モデル、モデリングプロセスの側面をどう使ったかについて、どう考えるべきか?

そうやな。モデルの重要な側面の一つは、基本的にauto-regressiveであることや。この文脈では、次のフレームが、前に起こった全て、潜在的に長いシーケンスに基づいて生成されるってことや。

そやからモデルは前に起こったことを見て、この過去について推論して、次のフレームに関連する情報を決定しなあかん。鍵は、これが非常に迅速に起こらなあかんってことや。ユーザーからの次の行動が何になるかわからんから、1秒間に複数回起こらなあかん。

わしが思うにこれが本当にリアルタイムインタラクティブにするもんで、ただリアルタイムだけじゃなくて、リアルタイムインタラクティブや。ユーザーに反応する。そやからこの用語が本当にシステムとアーキテクチャの設計を導いたもんやと思う。

リアルタイムでありながらインタラクティブであること。基本的に全てはそのその設計決定に帰結する。興味深いことは、この非常に低いレイテンシを得て、前に起こったことを振り返ることができるために、基本的にわしらは正しいアーキテクチャを活用して選択し、非常に高品質なモデルだけでなく、実際に動作するもんを構築するために最高クラスのハードウェアも活用できるスケールを検討するようになった。

理論的なシステムや論文になるかもしれんもんに終わるだけじゃなくて、将来的により多くの人と共有できることを希望してるもん、シュロミが進んだのと同じ方向で。

わしが思うにチームとしてこれらの次元全てで野心的になるっていう目標を本当に設定しなあかんかった。最初からそれにコミットしなければ、一度に全部を達成するのは非常に困難やろう。それが本当の挑戦や。

モデルの本当の魔法は、メモリ、高解像度、世界の多様性、そしてリアルタイムであることができることや。これらの次元それぞれで、チームに本当に素晴らしい人がいた。

チームから、明らかに謝辞から見えるように、わしらがGenie シリーズで以前持ってたよりちょっと大きなチームや。わしはそれを継承された名前を持つほぼ新しいモデルと考えてる。

わしらは本当にこれらの異なる分野全てで素晴らしい人がいて、他の部分も認識しながら、個々のコンポーネントで本当に一生懸命働いた。人が一緒にできることを見るのは本当に信じられんかった。

でもそれぞれが挑戦やった。それらの部分のどれかが達成しやすかったってことはなかった。

一貫性という創発的特性

挑戦について話した時、一貫性について具体的に言及しなかったけど、ブログ投稿では一貫性を創発的特性として具体的に言及してて、必ずしも設計に向けたもんじゃないことを示唆してる。そうなんか?

一つの考え方は、わしらは確実にそれが目標やったし、その目標を達成するために設計したってことや。わしらがモデルに望むもんをリストした時、約1分のメモリが確実にその中にあった。それがわしらの目標やった。

でも重要なことは、世界の明示的な表現がないってことや。例えば、非常に明示的なメッシュを持ってそれがレンダリングされる3Dエンジンを実装するアプローチがたくさんある。どこでも行けるけど、多くの制限もあるけど、素晴らしい含意もある。

機械学習の世界により入ると、NeFとかGaussian splatsがあって、基本的に世界の幾何学のある表現を導き出して、それに基づいて歩き回ると全てがレンダリングされる。

これらは全て明示的な表現で、わしらはそれをしたくなかった。それらには多くの応用があるけど、制限もあると思う。動的環境を持つのがはるかに困難で、わしらはモデルが自分でそれを学習することを望んでた。それがもしあんたが望むなら、わしらが苦い教訓の良い生徒やって時や。

少なくともわしは、それらの多くのもんが、適切に学習するようにシステムを設計すれば、データだけから学習できると信じてる。

それはもちろん、全ての部分が本当に注意深く行われなあかんってことも意味する。モデルはデータにあるもんを学習するから。そやからそれができる本当に性能の高いモデルを持たなあかんけど、正しいもんを学習するように正しいデータで訓練もしなあかん。そやからそれらの他の方法を追加せずにそれを得るには、本当に多くのもんが一緒に来なあかん。

プロンプト可能性とエージェント機能

モデルの大きな特徴の一つは、プロンプト可能性や。テキストで始まって世界を生成する。ブログ投稿には世界での行動をプロンプトする例もある。それはgenieなんか、それともgenie環境内のエージェントについて話してるんか?

今日の区別と、全体的なエージェンティックインタラクションパラダイムがどこに向かうかの両方で、どう見てる?

わしが思うに、ちょっと詳しく説明すると、わしらがpromptable world eventsって呼んでるもん、あんたが言及してるのは多分それやと思う。この能力はエージェントに直接結びついてない。god modeとして考えることができる。世界で何でも変えたい、砂嵐が来るのを望む、箱をドロップしたい。わしらは空からオブジェクトをドロップしたり何でも変えるみたいなもんをたくさん試した。

基本的に世界で望む何でも変えることができる。でも世界イベントについてもあるけど、「赤いラックまで歩く」、「これまで歩く」みたいなのもあって、上、下、左、右タイプとは異なる。多分多分両方について話せる。世界イベントから続けて、それから他のもんに移ろう。

そうや、わしらはこのpromptable world eventsがあって、世界でただ変化を起こして、新しい情報を注入することを可能にする。それは基本的に最初に提供されるプロンプトを超えた世界のコントロールを可能にする。これは生成の時間の途中で一時的にプロンプトを注入するようなもんや。

それはかなり困難な、深い能力やと思う。プロンプトが意味をなさない場合があることが明らかじゃないから。例えば「ドアが開く」って言って、砂漠の真ん中にいる時、どのドアが開くべきなんや?モデルはわからん。

そやからわしらは時々モデルが試そうとするから変なもんを作ることがあるのを見る。でも理にかなう時は、しばしばそれが動作するのを見るし、本当に素晴らしいサンプルがある。空から現れてトンネルの真ん中に着地するドラゴンとかがある。

そやから確実にそれが本当にうまく動作するケースがあるし、非常に強力な能力や。

SEMAエージェントとの統合

今一時停止して、砂漠でドアが開くって言うみたいに考えることができる。砂漠での期待される次のフレームを生成して、それを継続生成でそのフレームを置き換えるフレームを生成するための入力フレームとして使うみたいな。

でもそれがより統合された、モデルアーキテクチャにより統合されたもんの雑なやり方みたいなもんも想像できる。それがどう行われるかについて少し話してくれる?

わしが思うに基本的にわしらが望んだのは、イベントを作成できることや。わしらが世界を歩き回ってまわりで物事が起こることを考えると、必ずしもわしらがするもんじゃない。エージェント中心的じゃない。

それが基本的にあんたが言及したエージェントが世界で行動する、多分どこかを歩くことと、動画で言及したもんの区別やと思う。これは外部モデル、シーマモデルによって行われた。わしらはそれについて話すことができると思う。とても興味深い。多分ジャックがもうちょっと教えてくれる。G2でも試されて動作したから本当にクールで、わしらはそれの上に構築した。

でもpromptable world eventsに戻ると、単一フレームに基づくだけじゃない能力や。世界で何かを見たいって言って、実際すぐには起こらないけど、左を見ると例えば人が見える。

わしらは斜面を滑り降りて、左を見るとGenie3のTシャツを着た人がいるみたいな例がある。世界にもんを物質化できるって意味やけど、あんたの前にただポップするって意味じゃない。理想的には統合されて世界で理にかなうもんになってほしい。何かをただドロップして非常に人工的に見えるのは簡単やから。実際統合されて本当にリアルに見えるようにしたい。

モデルは最終的に訓練データのように見えるもんを作りたがるし、それは最終的にリアルであるべきや。そやから何らかの追加の条件情報が、ビューの真ん中に何かをただドロップするのとは対照的に、次のフレーム生成プロセスに統合されてる。

すごく興味深い。モデルにそれをするように言ってるみたいで、「準備ができた時にやる」みたいな感じや。それは技術用語じゃないけど、自然に感じる方法でやる。

そやからジャック、SEMAエージェントについて少し話してくれる?

そうやな。わしが言ったように、プロジェクトの歴史に戻ると、これをエージェントのための環境として設計した。Google DeepMindでは明らかにエージェントで働いてる多くのプロジェクトがあって、3D世界に本当に焦点を当ててるのはSimmaエージェントや。

彼らは3Dシミュレーション環境で言語目標を達成できるエージェントを訓練しようとしてる。彼らは多分2024年2月頃からのアナウンスメントやブログ投稿があって、これについてどう考えてるかをちょっと示した。

今やってることは既存のゲームで訓練することや。そやから異なるゲーム世界でかなり多様なことができる本当に性能の高いエージェントを持ってるけど、最終的にはそれらのゲーム世界にしかアクセスできないことで制限されてる。

想像できる任意のゲーム世界や実世界では訓練できない。アクセスできる環境が有限のセットだけやから。これがGenieが解決しようとしてる正確な問題で、新しい環境を生成することや。

でもSimmaエージェントも驚くほど一般的やった。この小さなセットの世界で訓練されたにも関わらず、以前見たことのないGenieの環境の一つにドロップできる。

テキストを使ってGenie3環境や世界を作る。工場の床みたいなシーンを記述して、背景にフォークリフトトラックがあるって言って、この世界を生成する。それからSimmaエージェントに「フォークリフトトラックに行け」って言う。「もんを持ち上げることができるもんに行け」みたいなことさえ言える。

それからSimmaエージェントはその時点から、Genie生成世界を他の任意の環境のように扱う。それがモデルやってことを知らん。何も知らん。ただピクセルを見て、「この目標を達成するためにこのキーを押す」って言う。

Genieが見るのはキーを押すことだけで、Simエージェントが何をしようとしてるかは知らん。もし知ってたら、それを起こすかもしれんから。前進したいってことしか知らん。それから次のフレームをシミュレートして、Simエージェントは次のフレームを見て、「よし、前進し続ける」って言う。

これらが交互に前後に起こる。それから重要なのは、Simエージェントが間違った行動をしたら、目標を達成しないってことや。正しい行動をしたら、目標を達成する。そやからSimエージェントはこの経験から学習して、より頻繁に目標を達成できる。まだできないことがあるかもしれんけど、これらの世界で学習できる。

わしらは本質的に一つのエージェントが別のエージェントとインタラクションして、より具現化された世界で新しいスキルを教える兆候がある。以前にない規模で。

それからこれを締めくくるために、本当にクールなことは、これを世界イベントと統合することもできることや。街を歩くみたいな一見無害な環境でも、猫が飛び出すみたいなもんを注入したら、はるかに興味深くなるかもしれん。

そやから実際、環境側でそれをより興味深く挑戦的にするための追加のレバーがあるから、シンプルな環境でも全てのこれらの異なる種類のもんに対してロバストであることをエージェントに教えることができる。

制限と次のステップ

興味深い。ジャック、前にGenie1の制限について少し話してて、制限を先頭に持ってくることと、ページの下の方に置くことのバランス、実際G3ブログ投稿ではページの下の方にある。

制限について少しやってもらって、それからシュロミ、研究がどこに向かうか、次のステップについて話し始めてもらって、それからあんた、ジャック。

制限について話そう。わしらがリストしたこと全部は覚えてないけど、わしにとって際立つのは、他のエージェントのシミュレーションについて話したことや。世界内でマルチエージェントインタラクションはしない。

そうや。わしらはこれが現時点でかなり制限されてるって言及してる。最終的にモデルは次のフレームを予測してる。他のエージェントのある種の非常に基本的なシミュレーションはできる。彼らの道を歩いてて、歩いてる時に道に立つと、止まるかもしれん。車が運転してて、その前を歩くと、止まるかもしれん。

でもこれが非常に複雑なインタラクションやってことはない。そやからそれは確実に制限や。それに多分Bobaではもっと進歩してるもんかもしれん。そやからわしらが確実に持ってないもんや。

1分の制限も明らかにある。Genie1と2では1分は信じられんほど素晴らしく見えたやろうって言うのは面白い。でもわしらの分野のペースは絶対に狂ってると思う。そやからこれは将来恥ずかしいほど短く見えるもんやと確信してる。

今のところ、わしらは1分間の視覚的記憶があるって言ってる。個々のインタラクションやGenieのプレイは複数分にわたることができるって推測する。

そやからそれは本質的にコンテキスト長や。

そうや。それから重要な区別は、複数分間プレイできるし、前世代のこれらのモデルのように劣化したり非常にぼやけたりしないけど、メモリは約1分やってことや。

それから実世界の物理的精度も完璧じゃない。ロンドンのわしの正確な通りが欲しいって言っても、わしの通りを知らん。そやからそれが改善できる要素がある。

テキストで非常に抽象的な世界を記述すれば、ほぼ確実に的中する。特定の地理的位置を記述すれば、何らかの方法で望んでたもんじゃないって気づくかもしれん。そやからそれも制限やと思う。

シュロミ、制限について何か際立つもんはある?

ちょっと前にあんたが聞いたエージェントが行動を取れることについて似たような感じや。現在行動空間は比較的制限されてる。わしらはナビゲーションができるし、エージェントはナビゲートできる。ジャンプやドアを開けるみたいな行動があるけど、エージェントが取る行動の意味論としては比較的基本的や。

promptable world eventsは世界のコントロールを与えてくれるけど、必ずしもエージェント中心的な行動じゃない。そやからこれは確実にわしらが将来改善して拡張したいもんや。

でもそれは本当の制限で、特にエージェントが歩き回るだけじゃなくて、実際により複雑な行動を取れるようにするには非常に挑戦的やけど、例えばもんを拾ったり、コードを入力したり、異なるエージェントと話したりとか、世界で起こることは多くある。

これは非常に挑戦的な問題で、わしらは人として、非常に物理的な方法で世界で動作するから。手を使ったり、歩くために足を使ったり、ある種の具現化された存在を持ってる。これら全てを取り去って、ピクセルだけが残ると、実際どんな行動が起こるべきかを定義するのがはるかに困難になる。

ドアを開ける時、例えば、ただドアを開けるじゃない。ドアのノブを掴んで動かして、自分に向かって引く。一連のマイクロ行動が起こってる。この行動空間をどうモデル化するかは挑戦的な問題やけど、確実に制限であり、能力を拡張する機会やと思う。

今後の方向性と応用

次のステップを掘り下げると、あんたら両方ともこのエージェンティックな側面にかなり興奮してるっていう感覚がある。DeepMindから来てるから驚きじゃない。でもプロジェクトがどこに向かうかで、最も興奮してるもん、最も明らかなもん、あんたにとって最も現在のもんは何や?

わしにとって、あんたが作った、または誰かが作った世界に実際に足を踏み入れることができる能力、でも実際それを知覚して、見て、インタラクションできる。それは巨大やと思う。本当に多くのもんに応用できる。

エンターテインメントから、非常に明らかで、例えばインタラクティブなストリートビューみたいなもんまで。実世界にある程度固定されてるけど、どこか他の場所に連れて行ってくれる。

それは実際、わしがずっと前に働いてたスタートアップを思い出させる。わしらはサンフランシスコのダウンタウンに置かれたこの種のゲームを持ってた。当然、サンフランシスコのダウンタウン全体をモデル化しなあかんかったし、それは多くの作業やった。でもこのスタートアップの重要なアイデアは、実際実世界で起こるゲームを持つことやった。

実世界の場所でのインタラクションってことや。そやからそれは多くの中の一つの例で、人がリアルな場所に配置された現実的じゃないインタラクションを持つ他の本当に興味深い応用がある。

それは必ずしもエンターテインメントじゃなくて、例えば教育にもなり得る。人が自分が期待してなかったもんを達成してる自分を見るのを助けることにもなり得る。ビジョン、自分が何かを達成してるのを見ることについて非常に強いもんがあって、それがある種の心理学的視点やけど、非常に強力やと思う。

それは環境に入って歩き回れること、多分あんたの家に非常に似て見えるようにプロンプトできるパーソナライゼーションの側面もある。もしクモを怖がってるなら、多分あんたの家でクモの隣を歩いてる自分を見ることができて、それからあんたの脳が「よし、できる」って言うかもしれん。

わしの要点は、この技術がどこに向かうかわしらは必ずしも知らんってことで、それにとって非常に初期の日やってことや。そやからわしらは信頼できるテスターや学者にモデルと最初にインタラクションしてもらって、フィードバックを得たかった。時間をかけて能力と人が興奮してる応用についてもっと学ぶことを望んでる。

ジャック、あんたの次のステップは?

そうやな、もう言及された多くの興奮するアイデアがある。わしを本当に興奮させるのは、世界の人と一緒に視覚的にリアルで具現化された世界でインタラクションするようにエージェントを教えることや。

それはわしらの現在のエージェントにとって本当に欠けてる能力で、人間と一緒に物理世界でインタラクションすることや。GD3みたいなモデルがそれを可能にできると思う。

それを達成する他の方法は本当にないと思う。そやからそれは本当に興奮することで、特に世界イベントと一緒やと、他の方法ではデータを得られない多様なシナリオを本当に生成できる。

そやからこれはまだ旅路でかなり初期やけど、多くの使用事例を開くであろう大きなステップやと思う。

シュロミ、ジャック、G3とあんたらが取り組んでることについて更新してくれて、飛び込んでくれて本当にありがとう。掘り下げることができて本当に素晴らしかった。

素晴らしい。時間をくれて本当にありがとう。

そうや、ありがとう、サム。

よし。二人ともありがとう。

コメント

タイトルとURLをコピーしました