Google DeepMindがGenie 3を公開…驚愕の世界生成AI

Google・DeepMind・Alphabet
この記事は約12分で読めます。

Google DeepMindが最先端のインタラクティブワールドモデルであるGenie 3を公開した。GPTがテキストを生成するように、Genie 3は完全な世界を生成する。テキストや画像プロンプトから没入型の3D環境を作成し、ユーザーはその中をリアルタイムで探索できる。Nano Banana ProとGeminiを組み合わせたこのプロトタイプは、世界のスケッチ作成、一人称・三人称視点での探索、既存世界のリミックスといった機能を提供する。レイテンシーや60秒の時間制限といった制約はあるものの、AI生成による対話的な仮想世界という新たな可能性を示している。

Google Deepmind just dropped Genie 3... (WOAH)
Google Deepmind just dropped Genie 3 and my jaw is ON THE FLOOR. Create full worlds to explore, generated in REAL-TIME!C...

Genie 3の登場

Google DeepMindがついにGenie 3を公開しました。これは最先端のインタラクティブワールドモデルの一つです。基本的に、GPTがテキストを生成するように、これは完全な世界を生成するんです。

さて、皆さんお気づきかもしれませんが、私はマットではありません。私の名前はアレックスです。マットのチャンネルのコンテンツのほぼすべてを私が運営しています。マットが少し体調を崩していたので、Genie 3のリリースを逃さないために私が代わりを務めることにしました。気に入っていただけると嬉しいです。

DeepMindはここに完全なブログを公開していますが、それは後で掘り下げることにします。まずはGenie 3を見ていきましょう。

レーストラックワールドの探索

最初にロードすると、こんな素敵な小さな画面が表示されます。彼らが作成してくれたテストワールドの中から選択することもできますし、自分で作ることもできます。実は最初にこの小さなレーストラックのワールドから始めたいと思います。これがすごくクールだと思ったんです。

ワールドをロードすると、約1分間それを探索する時間があり、その後シミュレーションが停止します。かなり制限されていますが、見てみましょう。

さあ、ここにいます。WDキーでキャラクターを操作できます。かなりラグいですね。運転するのがちょっと難しいんですが、矢印キーでカメラを回転させることができます。上部のバーを見ると、シミュレーションの残り時間を示すタイマーがあります。でも、これは本当に素晴らしいです。裏庭のレーストラックのように見える場所で、小さな青い車を運転しています。

これらすべてが完全にAIによって生成されていることを覚えておいてください。あ、壁にぶつかってしまいました。シミュレーションが終わりそうです。タイマーに達したのかもしれません。まだ続いています。オーケー、さあ、終わりました。はい、そこで停止します。

これが終わったら、実際に今作成したワールドの動画をダウンロードできます。これは実際かなりクールです。UIが消えます。ここに小さなGenie 3のウォーターマークがありますが、自分の作品を見せたいだけなら、録画する必要はありません。ここで動画をダウンロードできます。なかなかいいですね。

ここでプロンプトを再利用するオプションもあります。これはすべて裏庭のレーストラックと青いおもちゃの車です。かなりシンプルですね。これは彼らが作成したデモの一つにすぎません。自分で作ってみましょう。

宇宙探索ワールドの作成

これらすべては完全に編集可能です。作成できる環境と、作成できるキャラクターがあります。宇宙探索をしたかったんです。実際にChatGPTを開いて、環境のプロンプトとその環境に住むキャラクターを作成するよう依頼しました。

そして、これが考え出されたものです。宇宙に浮かぶ巨大なエイリアンの構造物、金属ではなく有機物。壁が脈打ち、廊下が呼吸し、光があなたの存在に反応します。探索するにつれて構造が微妙に再配置され、まるであなたを研究しているかのようです。

そしてキャラクターについては、プレイヤーキャラクターは深宇宙のファーストコンタクト用に設計された軽量の未来的な探査スーツを着た孤独な人間の探検家です。

下に、スタート画像が必要な場合は画像を追加できます。ここにはプロンプトをランダム化するサイコロがあります。三人称と一人称の間で選択することもできます。これについては一人称でやってみましょう。

Genieが最初にすることは、実際にワールドを生成する前に、ワールドのスケッチを作成することです。さあ、これが最初のスケッチです。ある種の生命の有機的な柱のようなものが見えます。側面にはおそらく胞子の卵のようなものがあります。Haloをプレイしたことがあれば、フラッドの世界を探索しているときのような感じで、壁に小さな袋がついているあの感じに似ています。何と呼ばれていたかよく覚えていませんが。

このページでは、スケッチに変更を加えることができます。環境の色を紫ではなくオレンジと赤に変更します。一人称視点のままにします。でもスケッチを修正して何が得られるか見てみましょう。

ここで見ることができるように、新しいスケッチを作成している間、前のスケッチのぼやけたバージョンが表示されます。あ、これです。完璧に色が変わりました。実際、2つのスケッチを行き来して見ると、構造は全く変わっていません。これは本当に印象的です。これはNano BananaやGPT画像の新しいバージョン、確か1.5だと思いますが、それをとても思い出させます。

そうですね、見てください。何も変わっていません。どれだけ素晴らしいですか。ワールドを作成しましょう。

宇宙ワールドの探索

さあ、ここにいます。小さな宇宙飛行士が歩き回っています。あ、実際には一人称があまりうまくいきませんでした。後ろの小さな腕から始まりました。腕がまだ後ろにあります。別の宇宙飛行士がいますね。

一人称で始まったようですが、実際にはこのキャラクターを操作しています。でもいいでしょう、ここで小さな宇宙飛行士として歩き回っています。これはかなりクールです。一人称だったらよかったんですが。少しラグがあるので移動が難しいです。あ、その小さなプラットフォームから落ちてしまいました。

スペースキーでジャンプできると表示されています。試してみましょう。ダメでした。スペースキーでジャンプは何も起こりませんでした。実際にはカメラを動かしているだけです。何も触っていません。

あ、これを見てください。歩いているうちに環境が変化しています。オレンジではなく青になりました。壁にこれらの小さな球体の袋のようなものが見えます。そして、このシミュレーションの時間がほぼ終わりそうです。

もう一人のキャラクターが私を追いかけているようにも見えます。ちょっと不気味ですね。一人称環境を得るためにもう一度試してみましょう。なぜ前回一人称が作成されなかったのかわかりません。

プロンプトはこうです。果てしない空の上に漂う、完全に密集した層状の雲でできた広大な浮遊世界。固体の雲のプラットフォームが、空中に浮かぶ橋、塔、都市を形成し、風とともにゆっくりと移動します。太陽光が劇的な光の筋となって雲を突き抜け、はるか下で遠くの嵐が鳴り響いています。

ここでは一人称にチェックが入っています。だから、そうなることを願っています。これの背後にある私のインスピレーションは、実際にはスカイウォードソードです。あのゲームをプレイしたことがあれば。まあまあのゲームだと思いますが、あのゲームの環境は本当にクールです。だから、そういうものを作成してくれることを願っていますが、見てみましょう。

雲の世界での探索

さあ、これがスケッチです。実際に両手を持つ一人称で表示されています。覚えているかもしれませんが、前回の生成ではこのような手がありましたが、横に小さなキャラクターもいて、結局それを操作することになりました。ここで何が起こるか見てみましょう。生成してみましょう。これは気に入りました。すごくクールに見えます。

さあ、ここにいます。今回は実際に一人称です。前回は誤って三人称を押してしまったのかもしれません。これは雪のように見えますね。ジャンプできます。ジャンプできます。見てください。スペースバーでジャンプ。すごい。ここを探索しなければなりません。少しラグいので、ちょっと難しいかもしれません。右下の矢印キーを押すと下を見る様子を見てください。

このジャンプはできないと思います。飛び降りたらどうなるでしょう。あ、ただ落ちるだけです。永遠に落ち続けるのでしょうか。そう、永遠に落ちていると思います。さあ、素晴らしい。

あ、どこかに着地しました。ずっと下に着地しました。クールです。オーケー、素敵です。時間切れです。

ワールドから飛び降りて、探索できる完全なサブワールドが下にあったというのは本当にクールです。素晴らしいです。唯一の不満は、これまでで最悪の状態だという意味ですが、操作しているときに本当にラグいことです。キャラクターを見回したり正しく操作したりするのが難しいです。あの崖から飛び降りるときは、実際にジャンプする前にスペースバーを1秒ほど前に押さなければなりませんでした。

でも、それを除けば、すごくクールです。これらは人工知能によって生成された完全な世界です。かなりクールですね。

Genieの技術的詳細

さあ、ブログに飛び込みましょう。Project Genie、無限のインタラクティブワールドを実験中。仕組みはこうです。

Project GenieはGenie 3、Nano Banana Pro、Geminiによって駆動されるプロトタイプウェブアプリです。これはとても納得できます。実際、GeminiとNano Bananaの両方がプロンプト処理とワールドの最初のスケッチ作成を担当し、承認されたらGenieモデルが引き継いで、歩き回ることができる環境を実際に作成するのだと推測します。これにより、ユーザーは私たちのワールドモデルの没入型体験を直接実験できます。

体験は3つのコア機能を中心にしています。

1つ目はワールドスケッチです。テキストと生成またはアップロードされた画像でプロンプトを出し、生きた拡張する環境を作成します。キャラクター、ワールドを作成し、どのように探索したいかを定義します。歩行から乗馬、飛行、運転、そしてそれ以上まで。ロケットや先ほどの車のようになれるようです。かなりクールですね。

より正確な制御のために、Nano Banana Proとワールドスケッチを統合しました。これにより、ワールドがどのように見えるかをプレビューし、飛び込む前に画像を修正してワールドを微調整できます。それがあの小さなスケッチ段階で、実際に私の推測は正しく、Nano Bananaによって駆動されています。

また、一人称や三人称など、キャラクターの視点を定義でき、シーンに入る前に体験する方法を制御できます。

2つ目はワールド探索です。あなたのワールドは探索を待っているナビゲート可能な環境です。移動すると、Project Genieはあなたが取る行動に基づいてリアルタイムで先の道を生成します。あのエイリアンワールドを歩いているとき、全体がオレンジだったのを覚えていますか。前進するにつれて、ワールドがオレンジから青に変わりました。ワールドを横断しながらカメラを調整することもできます。

3つ目はワールドリミックスです。既存のワールドをプロンプトの上に構築することで新しい解釈にリミックスします。ギャラリーのキュレートされたワールドやランダマイザーアイコンを探索してインスピレーションを得たり、その上に構築したりすることもできます。完了したら、ワールドと探索の動画をダウンロードできます。

次に、Genie 3の制限についていくつか説明しています。ワールドは完全に実物そっくりには見えないかもしれません。キャラクターは時々制御しにくくなることがあります。より高いレイテンシーを経験する可能性があり、先ほど話したように私は確かにそれを感じました。そして生成は60秒に制限されています。

8月に発表したもののいくつかがこのプロトタイプには含まれていないことも指摘しています。今この動画を画面に表示しますが、以前は生成中にプロンプトを出して世界を変更できたのですが、ここには含まれていません。

Project Genieにアクセスするには、Google AI Ultraサブスクライバーである必要があります。これがブログの終わりです。テストに戻って、画像をアップロードしたり、ランダム化したり、以前に構築されたワールドの上に構築したりしましょう。

リミックス機能のテスト

さて、ブログで気づいたかもしれないオプションの1つで、まだ紹介していないものにリミックスがあります。Genieのウェブサイトでは、すでに紹介したこの例を見ることができ、ここにリミックスと呼ばれる小さなボタンがあります。これはスケッチページに移動するだけで、好きなように修正できます。

これについては、車を赤に、草を紫にしましょう。修正をクリックします。さあ、何が起こるか見てみましょう。

さあ、ここにいます。これは私が説明したとおりに見えます。実際には依頼した以上のことをしていることに気づきました。これらの葉も一致するように変更しました。もう少し秋の色になったようです。緑で豊かではなく、オレンジになっています。

さあ、ここにいます。これは動画の前半で入ったのとまったく同じワールドです。私はまだこの小さな車の運転が下手ですが、これは赤い車と紫の草になりました。この辺りの葉はまだ緑であることに気づきました。理にかなっていますが、変わったのはちょっと奇妙でした。

あ、あの壁をすり抜けてしまいました。最初のスケッチ画像にあった葉は変わったようですが、周りの葉はまだ緑のままです。上を見上げてみましょう。秋の木のようなものもあれば、緑の木もあります。ちょっと面白いですね。両方を少しずつやったような感じですが、プロンプトをリミックスするとこうなります。変更して好きなようにできます。

画像アップロード機能

さて、次は画像作成を試してみましょう。マットの写真をNano Bananaにアップロードして、彼をレゴにするよう依頼しました。これが最終結果です。ダウンロードしてGenie 3に投げ込みましょう。

画像をアップロードすると、このように見えます。ここで確認できます。環境は、レゴシティとだけ言います。キャラクターはレゴの男です。何を作成するか見てみましょう。これは三人称のままにしておきます。何が起こるか見てみましょう。

ああ、これはちょっと恐ろしいです。振り返ると脚が逆になっているように見えます。オーケー、この角度から見ることにします。この窓からジャンプできますか。時間がなくなりそうです。

確かに窓を飛び越えられます。通りを車が走っています。ただそちらに向かって動いているだけではありません。実際に通りを走っているんです。これは本当にクールです。上を見たり、周りを見回したりできます。レゴシティ全体が見えます。通りを歩き回ることができます。とてもクールです。

ランダム化機能

最後に紹介したい機能はランダム化機能です。ここにある小さなサイコロブロックです。クリックすると、基本的に環境とキャラクターが与えられます。環境が常にキャラクターと一致するかどうか見たいので、これを数回クリックします。見つけましょう。

フォトリアリスティックな青いボールのある真っ白な風景。さて、これは彼らがこの例ページに表示している例の1つであることに気づきました。ここにあります。あ、イーグルもそうです。

オーケー、ランダム化すると、このページにある一般的な例が表示されるだけのようです。でもいつかランダムな環境とランダムなキャラクターになるように変更されるかもしれません。しかし今のところ、これらの例の環境とキャラクターの1つに移動するだけです。

今日の動画はこれで終わりです。この動画を楽しんで、チャンネルでもっと私を見たい場合は、下にコメントを残してください。チャンネル登録、動画への高評価など、よろしくお願いします。それでは次回お会いしましょう。

コメント

タイトルとURLをコピーしました