史上最高の世界モデル…（完全インタラクティブ）

GoogleのDeepMindが発表したGenie 3は、ユーザーが完全にコントロール可能な世界モデルであり、ビデオゲームのように操作できる没入型環境を生成する。従来の動画生成AIとは異なり、リアルタイムでインタラクションが可能で、720pの高品質映像を維持しながら長時間の一貫性を実現している。この技術は映画、テレビ、ゲーム業界を変革する可能性があり、GoogleはAGIへの重要なステップと位置づけている。

The Most Advanced World Model Ever... (fully interactive)

You can check out Junie by JetBrains here: The Matthew Berman Vibe Coding Playbook (free) 👇🏼 Hum...

Genie 3の登場とその革命性
スタイルからリアリズムまでの多様性
Genie 3の技術的進歩
技術的な実装と課題
一貫性の創発的能力
リアルタイムプロンプトイベント
Genie 2との比較
最終比較とリアリズムの向上
音響とさらなる改善点
技術的観点からの最終デモ

Genie 3の登場とその革命性

Googleがたった今、Genie 3を発表しましたわ。これはビデオゲームみたいに完全にコントロールできて、めっちゃ没入感のある世界モデルなんです。映画もテレビもビデオゲームも、全部変わってしまいますで。そしてGoogleによると、これはAGIに向けた大きな飛躍やそうです。

いくつかデモを見せて、その後詳しく説明しますわ。まずこれを見てください。

ファンシーな服を着たゴリラが建物の間を歩いてますね。画面上で実際に完全にコントロール可能やということが示されてるのが分かりますやろ。注目してほしいのは、すべてがどれだけ一貫してるかということです。一つ一つのフレームが前のフレームとユーザーからのコントロールに基づいて生成されてるんです。

左下の角に見えてるのが、実際に人々がこの環境をナビゲートするのに使ってる矢印キーなんです。本当に驚異的ですわ。

次に、これを見てください。マウンテンバイカーが丘を駆け抜けてるんですが、めっちゃリアルに見えます。これを見てください。ユーザーが前に進んだり、左に曲がったりしてコントロールしてるのが分かりますやろ。時には下を見たり、後ろを振り返ったり、右を見たりもできるんです。見てください。

すべてが絶対的に一貫してて、高品質の720pを維持してるんです。これについてはもう少し後で触れますが、これは私が今まで見た中で最も印象的なデモの一つですわ。

ここには小さなホタルが、小さな家と木々がある漫画っぽい森を飛んでるのがありますね。本当に絶対的に美しいです。

スタイルからリアリズムまでの多様性

非常にスタイライズされた見た目にもできるし、リアリズムも追求できるんです。これはまた別のやつです。嵐の下の熱帯の島に見えますね。波がバリアを越えて飛沫を上げてる。コンクリートも、道路も、木々の動きも、すべてが信じられないほどリアルで印象的です。

これは山のどこかでの美しいハイキングのように見えますね。ちょっとタホ湖みたいな感じです。完全に振り返ることもできるんです。反対側を見てください。めっちゃかっこいいですわ。

そしてこれでは、とても明るく照らされた川をジェットスキーで走ってる人のように見えます。見てください。本当に信じられないです。特に一つ、私の心を完全に吹き飛ばした部分を一時停止して見せますわ。

進んでるのを見てて、これを見てください。見ましたか？ライダーが通り抜けるときに、光が道を開けたんです。光がそこにあって、彼がそこを通り抜けると、光が実際に道を開けるんです。些細で微妙なディテールやけど、リアリズムにとってはめっちゃ重要なんです。

そしてこれを見てください。ジェットスキーのミラーには、実際に後ろにあるものの反射が見えてるんです。それだけやなくて、何かにぶつかったとき、実際に人がぶつかったみたいに見えるんです。ジェットスキーが少し後ろに動いて、その物体の物理的存在に反応してるんです。絶対的に美しいですわ。

Genie 3の技術的進歩

詳しく説明させてもらいますね。これがGenie 3です。Genie 2、Genie 1、Genieシリーズモデルの進化形なんです。これが彼らが世界モデルと呼んでるものです。これはVOではありません。VOは動画を生成するけどコントロールできないと考えてもらえます。Genieシリーズのモデルは完全にコントロール可能なんです。

「本日、前例のない多様性のインタラクティブ環境を生成できる汎用世界モデル、Genie 3を発表します」

世界モデルはめっちゃ多くのことに使えるんです。ロボットやエージェントの訓練に使えるし、ビデオゲームや映画、テレビ番組の制作にも使えます。そこには本当にたくさんの可能性があるんです。

世界モデルはまた、豊富なシミュレーション環境の無制限のカリキュラムでAIエージェントを訓練することを可能にするため、AGIへの道のりの重要なステップでもあります。

これはGoogleが作ってる本当に重要なポイントなんです。基本的に、エージェントがより良くなるため、学習するため、間違いを犯すため、成功するため、そして自分自身を改善し続けるために、エージェントに無制限の遊び場を提供できるようになったということを言ってるんです。これは最近よく話してるAlphaGoにとても似てるんです。基本的にAIやエージェントが自分自身と遊ぶことを可能にするんです。

人間をループから外すと、これらのモデルに投入できる計算量によってのみ制約されることになります。エージェントを環境に置いて、探索して遊ばせるだけで、常にフィードバックを与える場合よりもはるかに速く、はるかにスケーラブルに学習できるんです。

Genie 3は、リアルタイムでのインタラクションを可能にしながら、Genie 2と比較して一貫性とリアリズムも向上させた初の世界モデルです。Genie 2とGenie 3の比較をお見せしますが、進歩は本当に驚異的ですわ。

技術的な実装と課題

彼らが実際にどうやってこれをやったかですが、ブログからの技術的詳細を少し紹介しますね。各フレームの自己回帰生成中、モデルは時間とともに成長する以前に生成された軌跡を考慮しなければならないんです。

つまり、前のフレームだけを見るだけでは十分やないんです。前のフレームとその前に来たすべてのフレーム、そしてそれらがすべてお互いにどう関係してるかを考慮しなければならないんです。

例えば、世界モデルで子供がボールを投げる場合、ボールの軌跡を知らなければならないんです。前のフレームや前の数フレームだけを見てても、そのボールがどこに行くかをリアルに予測することはできないんです。

でも、その前に来たすべてのフレーム、子供の手からの放出、軌跡、ボールが発射されるときの勾配を見れば、物理を本当によく正確に再現できるんです。

例えば、ユーザーが1分後に場所を再訪してる場合、モデルは1分前からの関連情報を参照しなければならないんです。リアルタイムのインタラクティビティを実現するために、この計算は新しいユーザー入力が到着するたびに1秒間に複数回実行されなければならないんです。

これは確実に実行するのが非常に計算量的に高価なんです。森の中でのハイキング動画で見たように、湖を見て、振り返って、後ろにあるものを見て、また湖に戻ることができなければならないんです。リアリズムのためには、それが完全に一貫してなければならないんです。そしてこれは解決するのがとても困難な問題なんです。

一貫性の創発的能力

環境を自己回帰的に生成することは、不正確さが時間とともに蓄積される傾向があるため、一般的に動画全体を生成するよりも技術的に困難な問題なんです。そしてこれを聞いてください。Genie 3の一貫性は創発的能力なんです。

どういう意味かというと、より多くの訓練でスケールアップすることで、彼らが行うことができたすべての訓練からこの一貫性が出てくるのを見てるということです。これはモデルに事前プログラムされたものやないんです。モデルプラススケールの特性として単純に現れたものなんです。

GoogleはまたNeRFsやGaussian splattingと比較して、これらは一貫した制御可能な3D環境を可能にするが、明示的な3D表現の提供に依存してると言ってます。対照的に、Genie 3によって生成される世界は、世界の説明とユーザーによるアクションに基づいてフレームごとに作成されるため、はるかに動的で豊かなんです。

それだけやなくて、実行中にプロンプトを出すこともできるんです。道を歩いてて、突然雨を降らせたくなったら、単純に「雨を降らせて」と言えばいいんです。

リアルタイムプロンプトイベント

その例をお見せしましょう。これらはプロンプトイベントと呼ばれてます。これを見てください。運河を歩いてる人がいて、「鶏の着ぐるみを着た男がショットの左側から現れて走っていく」とプロンプトを出します。そこにジェットスキーに乗った男が現れます。ここに深紅のドラゴンです。

文字通り、リアルタイムでシーンに何でも追加できるんです。

Genie 2との比較

Genie 2とGenie 3の比較をお見せしましょう。Google DeepMindチームが成し遂げた進歩に心を吹き飛ばされることでしょう。左にGenie 2があります。この動画を覚えてるなら、本当に信じられないものでした。右にGenie 3があります。

はるかに一貫してて、はるかに詳細で、しかもはるかに長い生成ができてるのが分かります。左側はもう終わってるけど、右側はまだ続いてるんです。そしてより重要なのは、世界をはるかに深く探索できることです。ビデオゲームの未来を考えるとめっちゃワクワクしますわ。

これは別の比較です。左にGenie 2、右にGenie 3があります。品質の違いを見てください。左のGenie 2では、側壁のすべてのボタンがぼやけて、ある程度一緒に混ざり合ってて、確実に720pより低品質です。右では、すべてのボタンが個別化されてる。実際に見ることができて、はるかに高品質なんです。

ここで、左の人はドアを通り抜けて、その生成は終わりです。ここの右のGenie 3ではドアを通り抜けます。ここには完全な世界があって、その世界を探索し続けることができるんです。

これを見てください。椅子が視界の前を通り過ぎるとき、すべてが一貫してます。これは信じられないほど重要なんです。

最終比較とリアリズムの向上

最後の比較では、RPGのように見えるもの、光を持って地下牢を歩き回ってる人があります。右のやつは明らかに高品質で、より一貫してて、見た目が良くて、明らかにはるかに長いです。このキャラクターがジャンプしたとき、影が実際に広がって、リアルに見えました。壁や床全体の照明、本当に良く見えるんです。

一つのことは、彼らが一般向けの公開日やテスト日を発表してないということです。現在Googleの内部でのみ使用されてるんです。これは残念ですわ、なぜなら私は本当にこれを手に入れて遊び始めたいからです。

これは別の例です。小さなアライグマのキャラクターがこの村を回ってます。とても可愛くて、ある意味で子供っぽいですね。将来のピクサー映画、いや、ピクサーのビデオゲームと言うべきでしょうか。すべてが一貫してます。それが最も印象的な部分です。そして正直、品質も。本当に良いんです。

音響とさらなる改善点

一つ欠けてるように見えるのは音です。V3が音を出すことができることは知ってます。だから、キャラクターと環境の間のインタラクションへの反応として音がリアルタイムで生成されるのも時間の問題かもしれません。

これを見てください、どれだけリアルかを。スーツを着た男性が野原を歩いてます。背景にとてもリアルな宇宙船があるように見えます。そしてそれを見てください。本当に印象的です。

彼が歩いてるとき、すべての花が道を開けて動いてるのが見えます。その周りに確実にいくらかのぼかしがあるけど、それでもとても印象的です。宇宙船に近づくにつれて、宇宙船のサイズが大きくなってるのが見えます。彼はそれに近づいてるように見えます。

動画の終わりに向かって、花にちょっとしたぼかしの問題があるけど、それでも全体的にはとても、とてもかっこいいです。

技術的観点からの最終デモ

最後に、技術的観点から最も印象的なもののひとつかもしれないのが、この人が壁を青く塗ってるやつです。これを見てください。ペンキの層が重なるたびに、より一貫して見えるんです。動きにちょっとした不自然さが確実にあります。ここで問題を見つけました。その窓に何らかの反射が見えることを期待するところですが。

でもペンキ塗りに戻ります。ここで見えるのは、ペンキブラシが壁に触れてないと、何も塗られないということです。それから少し前に動くと、実際に壁にペンキを塗り始めるんです。下を見ると、そこに人がいます。めっちゃかっこいいですわ。

私はこれにめっちゃ感銘を受けました。試してみるのが待ちきれません。これがビデオゲームの未来やと思いますか？私にはそのように見えるんですが。