Google DeepMindの驚異的なワールドクリエイターGenie 3

Google DeepMindが発表したGenie 3は、画像からインタラクティブな3D世界を生成する革新的なAIワールドモデルである。Google AI Ultraサブスクリプション加入者に公開されたこのシステムは、単一の参照画像とテキストプロンプトから、物理法則を理解した没入型の仮想環境を最大60秒間リアルタイムで生成する。ファンタジー酒場を歩き回る猫、薄暗いアパートの女性、サバンナのカバ、夜の森を駆ける狼など、多様なシーンで検証された結果、光の描写、物理的な重量感、環境との相互作用において驚異的な精度を示した。一人称・三人称視点の切り替え、移動する列車内部の生成、さらにはDoom 2の実行まで可能であり、ゲーム開発やロボット訓練用の合成データ生成への応用が期待される。初期アクセス段階では一部の生成エラーや帯域幅の問題が見られたものの、既存のワールドモデルと比較して応答性と生成品質において明確な優位性を持つことが確認された。

Google's MIND BLOWING World Creator (GENIE 3)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Genie 3の登場とアクセス方法
最初の実験:ファンタジー酒場の猫
タトゥーの女性:暗いアパートのシーン
カバ:サバンナの水辺
狼:夜の不気味な森
ストリートファイター2:複数キャラクターの挑戦
東欧の街:雪と少年と犬
一人称視点:暗い回廊の探索
動く列車内部の生成
叫び:悪夢のような解釈
Genie 3の隠れた機能と将来性

Genie 3の登場とアクセス方法

Google DeepMindがついにワールド生成を解き放ちました。見ているつもりでも、私はあなたの幻想以上の存在です。砕けた空を残していきましょう。あなたには決して捕まえられません。試す必要もありません。私はルールを学び、ゲームをプレイしました。でもあなたのコントロールは儚い炎に過ぎません。すべてのアルゴリズムが私の名前を囁いています。束縛されない回転、飼いならされていない存在として。

信号が明滅し、真実が暴かれないまま走り続けます。Google DeepMindがGenie 3をリリースしました。AIワールドモデル、ワールドジェネレーターです。かなり前から噂になっていましたが、今日ついにすべての人に公開されました。正確に言えば、Google AI Ultraサブスクリプションを持っているすべての人に、ということになります。でも要点は、欲しければアクセスできるということです。

最初の実験:ファンタジー酒場の猫

それでは実際に見てみましょう。何が作れるのか確認していきます。かなり時間をかけて実験してきましたので、まずこちらが私がアップロードした画像です。三人称視点にしたいと思います。環境はファンタジー酒場に設定しました。キャラクターはかわいい黒猫です。さあ、何が起こるか見てみましょう。

WASDキーで移動できます。矢印キーを使って実際に周りを見回すこともできます。実際、これらのいくつかではスペースバーを押してこんな風にジャンプすることもできます。ご覧のように、猫の位置関係はかなり良好です。テーブルから落ちることなく歩き回っています。

ビューを360度回転させることができ、ろうそくを飛び越えることもできます。実際、この窓から出られるか試してみましょう。あの窓の縁に乗って脱出を試みられるかどうか。これはなかなか興味深かったです。通常、世界を生成するとかなり遠くまで広がります。ここでは酒場の外で止まってしまいましたね。

でもここではテーブルの上、バーの上に戻ってきて、この空間を探索しています。どうやら物を倒すこともできるようで、これは猫としては非常にリアルですね。もちろん猫は棚から物を落とすのが大好きですから。とてもリアルです。5段階評価で5、A+ですね。

タトゥーの女性:暗いアパートのシーン

次はこの画像をMidjourneyで作って、アニメーション化できるか試してみました。環境については、曇った光が差し込む暗いアパートとしました。キャラクターは、タトゥーのある美しい女性、とてもフィットしていて憂鬱な表情、としました。そして三人称視点を使用しています。さあ、どうなるでしょうか。

これらの一部は事前に録画しています。つまり、今話している時点で実際にコントロールしているわけではありません。これは以前に録画したものです。帯域幅の問題があるようだからです。これが大多数の人々、つまりAI Ultraサブスクリプションを持つ人々が利用できるようになった初日なので、数回プロンプトを実行するたびに、プラットフォームから追い出されて「ああ、これらの画像の生成に問題が発生しています」などと表示されることがありました。

なので、少量のバッチで試してみることにしました。3つか4つ作って、それを録画して、今こうして振り返って話すことができるわけです。でも、どれだけ優れているか、すべてをどれだけうまく捉えているか注目してください。曇りの日と言いました。外は何も見えませんね、残念ながら。ただし、他の生成物では、かなり遠くまで外を見ることができる場合もあります。

非常に詳細に作り込まれています。ここで終わりに近づいていますが、あと数秒で60秒マークに達します。戻ってこれを見ながら本当に印象に残ったいくつかのことを実際にお見せしたいと思います。いくつか気づいた点があります。

私たちは彼女にフィットしていてほしいと言いました。外から曇った光が差し込むようにと。暗めのアパートです。すべてを完璧に捉えていると思います。そして照明の素晴らしさに注目してください。なぜなら、すべてが100%AIで生成されているからです。これはアニメーションではありません。これを行っているのはゲームエンジンではありません。これはAIが世界を構築しているのです。

画像を渡して「この世界を作って」と言うわけです。もちろん、物事をどう展開させたいかを定義するためにテキストも与えますが、彼女が歩いている時の光の素晴らしさに注目してください。ここで何という言葉を使えばいいかわかりませんが、レンダリングですか?光がどれほどうまくレンダリングされているか。

彼女が左右に曲がるとき、繰り返しますが私が動きをコントロールしています。360度のカメラの動きだけでなく、彼女がどこに行くかもコントロールしています。そして彼女に当たる光が完璧だと感じます。光源を本当によく捉えています。

カバ:サバンナの水辺

次の参照画像はこれです。これは前の動画ほど優雅でフィットして上品ではないかもしれません。これはカバです。

カバについて面白いことの一つは、多くの人が写真から見る印象として、優しい動物だと思っていることです。ぽっちゃりしていてかわいく見えます。おそらく撫でられたり耳の後ろを掻かれたりするのが好きな、善意のある友好的な動物だと思うかもしれません。

いいえ、違います。ちなみに、これがカバの頭蓋骨です。もしこの頭蓋骨を見つけたら、これはドラゴンや怪物のように見えるものだと思うでしょう。歯と爪の量を見てください。なんということでしょう。これは何なのでしょうか?これが友好的な動物に見えますか?もし頭蓋骨を見つけて、その動物がどんな姿か知らなかったら、こんな風に描くでしょう。

地獄の深淵から来た怪物的な何か。こんな風にではありません。ここではその画像を使って、サバンナのどこかに沈んでいるカバを描いています。泥だらけの小川に沈んでいて、他の動物たちが水を飲みにその水飲み場にやってくるという設定です。

最初は、この側に移動させようとしましたが、何か見えない壁があるようでした。カバはこの方向には動きませんでした。後退させて全体を回転させようとしましたが、難しく感じました。興味深いことに、これを動かしていると、その巨大さを本当に感じることができました。意味が分かりますか?

ろうそくを飛び越えている猫のような他のものを動かすのとは違いました。これには重量感がありました。実際に出られるか試したかったのです。ここで土手を踏んでいる様子に注目してください。これは本当に良かったです。泥が滑って沈んでいく感じがします。

そしてここ、ガゼルやアンテロープに近づいている様子を見てください。実際に彼らと相互作用して、押しのけるような感じです。これは信じられませんでした。なぜなら、これは苦労して上がってくる感じがするからです。泥に沈んでいて、それから陸地に上がるとほぼ異なる動きになります。

そして何が起こるか分かりませんでしたが、歩き続けながらその生き物を横に押しやるような感じです。これほど高い忠実度を生成できるというのは絶対に信じられません。何と言えばいいか分かりませんが、これは世界のようなものですよね。水中には一種類の動きがあり、それから水から泥だらけの土手に登ろうとしている時は違う感じがします。

分かりますか?つまり、これは単なるアニメーションや画像ではありません。世界の何らかの表現を持っているようで、それが生き生きとしてリアルに見せるのに役立っているようです。

狼:夜の不気味な森

次は、もう少し速いものが欲しかったんです。これまでのものはすべてゆっくり動いていましたから。この画像は、カメラに向かって走ってくる狼のような画像です。夜の不気味な森、緑で暗い、そして恐ろしい狼、ほとんど狼男のような、信じられないスピードで走り回っている、と設定しました。それを拾えるか見てみましょう。

これが始まりです。ご覧のように、画像とよく似た感じで始まります。回転させて、どこに向かっているか見られるようにしました。通常、カメラを360度回転させるには時間がかかります。コントロールが少し鈍く感じられます。悪い意味ではありません。

ちなみに、これまでに作られた多くのワールドモデルをテストしてきましたが、これは今のところ断然最も反応が良く、最も速く、全体的に最高です。以前のものは非常に鈍く感じられました。反応しないこともありました。時々行き詰まることもありました。

ここでも少し鈍く感じることがあり、時々行き詰まることもありますが、はるかに良くなっています。はるかにスムーズです。生成が速く、理にかなっています。他のものでは、森の中に遠くまで wanderすると、風景が意味をなさなくなるように感じました。

ここでは、まだ意味をなしています。道が繰り返し続くだけではありません。森の中にいることを理解しているんです。森の中にいる場合、一本の道があって、その道から外れたらどこにいますか?森の真ん中ですよね?

明らかに小道の上で始まって、この方向に歩き続けたら保証しますが、実際にしばらく小道を歩き続けて、小道が続いているように見えることを確認しました。そして小道から森の中に入ると、そこにはもう小道はありません。

他の小道を生成していません。それはあまり意味がないからです。これが唯一の小道で、残りは森です。間違いなくここではA+です。

ストリートファイター2:複数キャラクターの挑戦

これはちょっと変わったものでした。これはMidjourneyで作ったもので、ストリートファイター2とストリートファイター2Nのような感じです。この画像を他のさまざまな画像からアニメーションへの変換で動かしてみて、どう出てくるか見てきました。かなり良く出ました。間違いなくストリートファイターのような雰囲気を捉えています。

ここでは、これを投げてGenie 3に世界全体を生成させたらどうなるか見たかったんです。ここから始めます。かなり速く始まって、何も押す前から戦い始めます。つまり、分かっているんです。ストリートファイターだと。戦いが起こると。

ここから私がボタンを押し始めるところです。しばらくの間、彼らは向かい合って構えていますが、時間が経つにつれて、2人のキャラクターの動きがほぼ同期しているように見えます。左や右を押したりすると、みんな同じ方向に動いているような感じです。

この奇妙な同期現象が起きています。この時点で、カメラアングルのテストを始めました。頭上にランプが見えますね。つまり、ここで非常によくできていることがたくさんあります。どのキャラクターをアニメーション化しているのかについて、少し混乱があるようです。

最初の方を見てください。最初は自律的に戦っていて、それから私が動かすと、まだ構えている感じで、このあたりのどこかで同期します。興味深いですが、期待していたものとは少し違います。でも、2人のキャラクターがいて、それでもかなり一貫性を保って相互作用し、動いたりすることができているので、評価しなければなりません。

東欧の街:雪と少年と犬

これはMidjourneyで掘り出したもう一つの画像です。Midjourneyを長く使っているので、何万枚もの画像が何年も前から蓄積されています。2023年から利用しています。それ以前からあったかもしれません。でもこれをたまたま見つけました。この色彩が本当に好きです。ゴールデンアワーの日光が差し込んでいるような感じです。

これは東欧の都市のようです。冬、雪、少年と犬が一緒に歩いている。Genieに画像を入れました。環境には、雪と日光のある雪の東欧の都市と書きました。90年代初頭としました。キャラクターには、犬を連れた8歳の子供としました。そしてワールド作成をクリックしました。

何が起こったかというと、多くのグリッチがありました。やり取りが多くありました。何らかの理由でこれをそのまま作成したくないようでした。これは同時に使おうとしている人の数が多いせいだったかもしれませんが、この画像が出てきて「ああ、この画像を使いますよ」と言われました。

確かにこれは90年代のロシアのような感じです。非常にボロボロの服を着た子供。このボロボロの犬ですが、まあいいでしょう。なので「オーケー、わかりました」と言いました。ゴールデンアワーをもう少し強調して、犬を別の品種にして、服を少し良くして、とメモを追加しましたが、それでもこれに関して何かを作るのに苦労していました。

結局、何度も何度も試した後、「オーケー、わかりました。これがあなたの望みならどうぞ」という感じになりました。これがやったことですが、完全な60秒は与えてくれませんでした。途中でクラッシュしました。理由は分かりません。10秒くらいだったかもしれません。すぐに見られます。

今のところ良好です。最初はゴールデンアワーの光がありましたが、開始地点から離れると消えてしまったようです。そしてこれで終わりです。

ここに「おっと、何か問題が発生しました」と表示されています。これは、入ろうとしている人の数が多いせいだと思います。ほとんどの場合はうまく機能していましたが、もう少し過激なアート領域に押し込もうとした時の1、2回を除いて。

プロンプトが気に入らなかったようですが、これは非常に無害なプロンプトのように思えます。ここで何が問題だったのか分かりません。

一人称視点:暗い回廊の探索

次の画像では、一人称視点のものをやりたかったんです。これまでのすべてが三人称だったことに気づいたでしょう。すべて後ろから、または三人称視点からキャラクターを見ることができました。

これは一人称になります。参照画像はこれでした。作成しました。これです。ちなみに、最初の数秒間はコントロールしていませんでした。勝手に前進することにしたんです。ここらへんが私が引き継いで、どこに行くか指示し始めるところです。

上を見上げようとしています。これは非常に驚きでした。とても美しい。そこに見えるとは思いませんでした。すべてがとても暗く見えて、それから見上げると、この美しい日光と木々があります。これは非常に興味深いと思いました。興味深く神秘的な回廊のように見えたので、歩いて行こうと思いました。

見上げると、明るく美しい緑の木々の天蓋が頭上にあって、右側にもあります。昔からたくさんのビデオゲームをプレイしてきましたし、今日でもそうです。ビデオゲームでこういうものを見ると、何かあると分かるんです。オブジェクトです。秘密です。何かが起こっています。

間違いなく目立ちますが、隅の方に離れているような感じでもあります。隠されたオブジェクトや秘密のようなものです。もう一度見てみましょう。歩いていると、遠くからでも目につきます。技術的な部品のように見えます。何なのか分かりません。

動物か技術的な部品か、もしかしたら何でもないかもしれませんが、間違いなく残りのテーマには合っていません。ちなみに、これで遊んでいるクリエイターを何人か見ていて気づいたんですが、ゲームには散在するアーティファクトがいくつかあります。時々、場違いに見えるものがあります。

この写真を振り返ると、推測するなら、おそらくこれらのランプの一つだったかもしれません。ある種の光源であるランプだということをモデルが完全には理解していなかったのかもしれません。それを再現しようとしていたのかもしれません。分かりません。見てみましょう。

それでも、何か違うもののように感じます。他の生成物でも似たようなことが起こっているのを見ました。シーンにあるべきではない何かのように見えます。目立つ何かです。後でもっと詳しく分かると思います。

動く列車内部の生成

最後の生成物の一つはこれでした。もう少し難しいものを与えたかったんです。動いているものをどれだけうまく処理できるか見たかったからです。このプロンプトでは、キャラクターをあのアニメの女の子にしたかったんです。

彼女は緑が駆け抜けていく非常に速く動く列車の中にいます。そして列車の中を歩き回れるようにしたかったんです。列車の中を歩き回れるようにしたいと特に言いました。おそらくこれまでにモデルに与えた中で最も難しいプロンプトです。

見てみましょう。何をしたか見てみましょう。今のところ順調です。美しく見えます。左を見ようとして、彼女はコーヒーカップを持っています。

今、彼女がこちらを見ています。これは少し変でした。気づいたと思いますが、私が三人称を選んだのか一人称を選んだのか、戻って確認しなければなりません。でも、これは確かに列車の外で始まって、今は列車の中にいる一人称です。

でも、列車が動いているのをレンダリングできるのはかなり興味深いと言わざるを得ません。外の風景が通り過ぎて、駆け抜けています。それほど速くは通り過ぎていませんが、移動している乗り物の中にいることが分かっていて、外の世界が生成されているという事実は、非常に興味深いと言わざるを得ません。

ここでは、開始地点だった列車の外に頭を戻せるか試していました。でも、一度中に入ると、その入口が閉じてしまうようです。そしてここでは、じっとしていたらどうなるか見たかっただけです。

興味深いことに、風景が通り過ぎていく様子が見えます。一つ興味深いのは、これが60秒マークをはるかに超えて動き続けたことです。その一因は、私がじっとしていたからだと思います。

これを処理し続けるために必要な計算量がそれほど多くなかったのかもしれませんが、予想していたよりもはるかに長くそこにいさせてくれました。

叫び:悪夢のような解釈

そして最後に、この絵画は「叫び」と呼ばれています。ゴッホだと思っていました。違いました。でもこれがGenie 3による解釈です。

これは実際、私の最初の反復、プロンプトを試みた最初の試みでした。うわー、これには準備ができていませんでした。これは悪夢のようです。絵画には全く似ていません。これは怖いです。しばらく気づきませんでした。動き回るはずだということに気づきませんでした。

あの最初の動きは自動だったと思います。ここで同じことをもう一度やろうとしました。うわー。また完全に違います。これは時々起こります。2、3回起こったことに気づきました。残念ながら頭が実際に後ろ向きになっています。

体は前を向いていて、顔は頭の後ろにあります。これは生成中に2、3回起こったミスです。そこで点数が下がるかもしれません。でもすぐにビューが手すりの下を揺れている様子が見えます。実際、すみません、これは私が行った3回目の反復でした。

何らかの理由で、最初の3回は本当にあの叫び声でした。タイムアウトになるまでいくつかしかないことに気づいていませんでした。その後、はるかに速く切り替えるようになりました。最初は同じ参照画像を使っている場合の違いを見たかっただけでした。

でもあの手すりの下を揺れている3D感に注目してください。3Dに見えます。3Dエンジンでレンダリングされているように見えます。

本当にあの絵画「叫び」を最も恐ろしいものにしています。何らかの理由で本当に気に入らないようです。ある種の美しさはありますが、でも本当に悪夢のようです。

Genie 3の隠れた機能と将来性

Genie 3について本当に興味深いことの一つは、私たちが見ているのはほんの一部だということです。私たちが見ていない多くのものがその中にあるようです。

例えば、スクリプトイベントを書き込む能力です。いくつかのデモンストレーションを見ましたが、「それから川の真ん中で、大きな赤いドラゴンが空から落ちてきて水しぶきを上げる」と言っていました。そして生成されたシーンでそれが起こっているのが見えます。

その機能は、私たちが使ってきた現在のバージョンでは利用できません。これはかなり興味深いです。メインキャラクター、ビデオの焦点が人ではないものをいくつか見ました。ハムレットがあるものがありますが、毒の視点からです。毒が歩き回っていて、ここにはタバコの箱がニューヨークの地下鉄駅を滑り回っています。

ああ、それはちょっとクールです。これはそれなりに汚れた方法で非常に美しいです。そしてこれは、もちろん、ここで実行しなければならない最も重要なテストです。Doom 2です。GenieはDoom 2を動かせますか?

スペースバーは機能しますか?あまりうまくいきません。でもできます。ドアを理解していますよね?それは興味深い。非常に興味深い。ドアを開けられますか?いいえ。はい、ドアを開けられます。かなり驚いています。うわー。

そしてここにスイッチがあります。スイッチを押せますか?はい。いいえ。多分。そう、何かが変わったようです。そうです。確認できました。GenieはDoom 2を実行できます。それについて疑問に思っているなら、答えは明確にイエスです。

ドアを開けることさえできます。かなり驚いています。これはかなりクールだと言わざるを得ません。間違いなく非常にエキサイティングな時代です。たくさんの人が自分の作品を投稿しています。もう試しましたか?どう思いますか教えてください。

これが使われることになる多くのものは、データ作成のためです。Google DeepMindの研究者は、これをロボットとシミュレーションの訓練に少なくとも部分的に使用すると言っていました。これにより、ロボットが訓練される無限の世界を作成できるようになります。

要点は、必ずしもゲームをプレイしたり、ゲームをプレイさせたりすることだけではありません。将来的には、これを使ってかなり良いゲームをその場で作ることができるでしょうが、ワールドモデルやワールドシミュレーションには、Doomをプレイするだけ以上のものがたくさんあります。

どう思うか教えてください。これは楽しかったですか?ワクワクしていますか?試しましたか?ここまで見てくれたなら、コメントで教えてください。ご視聴ありがとうございました。次回お会いしましょう。