Genie 3:世界がプレイ可能になる(DeepMind)

Google・DeepMind・Alphabet
この記事は約11分で読めます。

Google DeepMindが発表したGenie 3は、単一の画像から完全にインタラクティブな3D世界を生成する革新的な技術である。ユーザーは自分の写真や任意の画像を起点として、その世界に入り込み、リアルタイムで行動し、環境を変更することができる。720p、24フレーム/秒での動作と世界記憶機能により、一貫性のある体験を提供する。主な目的はAIエージェントの訓練とロボット工学への応用だが、ゲーミフィケーションや娯楽分野での活用が期待される。

Genie 3: The World Becomes Playable (DeepMind)
Soon, anything will be playable. A photo becomes an interactive world, a selfie becomes a new game. Genie 3 from Google,...

Genie 3の登場と可能性

GPT-5の発表が予定されてる週やから、Google DeepMindのGenie 3の発表を見逃してまうかもしれへんな。手短に言うたら、これは世界をプレイ可能にしてくれるもんや。画像から始めて、それが君の写真の一枚でもええんやけど、その世界に入り込んで、プロンプトで変更していくことができるんや。入り込むっちゅうのは、動き回ったり、持続して残る行動を取ったり、基本的にその世界で好き放題できるっちゅうことやで。

私はGenie 3のプレゼンテーションに早期アクセスをもらって、開発者に質問することもできたんやけど、正直に言わせてもらうわ。Genie 3は、AIエージェントがシナリオを実行して、行動を取ることで自己改善できるように設計・マーケティングされてるんや。それが理論的な話やな。そして君らも同意してくれるかどうか教えてほしいんやけど、実際にはこれは現実と君の想像力を全部ゲーミフィケーションするのに、もっと使われることになると思うで。

このチャンネルを少しでもフォローしてくれてる人なら知ってるやろうけど、私はGenie 2のシニア研究者のTim RockshawにここでもPatreonでもインタビューしたことがあるんや。その時に学んだのは、Genie 2は「より多くの計算資源で優雅にスケールする」っちゅうことやった。実際にそうなったんや。そして今、720p、24フレーム/秒でのリアルタイム・インタラクションが実現してるで。

これが専門用語でよう分からんっちゅう人には、ボタンをクリックしたら、かなり高解像度で画面上で全く同じタイミングで物事が起こるっちゅうことや。さて、数分後に、130秒くらいやと思うんやけど、完全なイントロを見せるつもりや。このチャンネルにしては珍しいことで、普段はこんなに長いクリップは見せへんのやけど、これはGenie 3を本当にうまく紹介してくれてるからな。

開発者の思いと技術的な挑戦

まず最初に、私からちょっとした感想を言わせてもらうわ。Genie 3の主著者であるJack Parker Holderが私と他のジャーナリストたちに言うたのは、その背景にある目標は、単にゲームをするコンピューターやなくて、ロボットのような身体化されたAIにとっての「Move 37の瞬間」を持つことやったっちゅうことや。Move 37の瞬間っちゅうのは高いハードルで、AlphaGoのドキュメンタリーを見たことがある人なら分かるやろうけど、人間のデータを超えた斬新な突破口として考えてもらったらええ。

言い換えると、ロボットが置かれる無数のシナリオを考えると、ロボットを確実に訓練するのに十分なデータが単純にないんや。全ての世界をシミュレートできれば、そのロボットたちにとって斬新な突破口が得られるかもしれへん。基本的に、私たちが訓練することすらできなかったようなことを、彼らにやらせることができるようになるっちゅうことや。

プレゼンテーションでは、私はこんな質問で反論したんや。これらの世界が物理学的な不正確さに悩まされてるとしたら、そして実際にそうなんやけど、そんなエージェントがどうやって完全に信頼できるものになれるんか?って。両方の主著者がそれは本当の問題やと認めたんやけど、その後で私を考えさせるようなことを持ち出してきたんや。彼らが言うには、確かに信頼性は保証できひんけど、信頼性の欠如は実証できるっちゅうことやった。

考えてみてや。エージェントがシミュレーションで暴走したら、現実世界でも同じことをする可能性があるっちゅうことや。ある意味では、この二つのポイントは両方とも成り立つと思うで。Genie 3のようなシミュレーターで信頼性を保証することはできひんけど、信頼性の欠如を見つける手助けはできるっちゅうことやな。

現実的な用途と制限

とにかく、君らが考えてることは、そして私も絶対に考えてたことやけど、私たちは自分たちに正直になるべきやっちゅうことや。みんな自分の好きなゲーム、人生の出来事、有名人、その他何でもええから、そこから静止画をアップロードして、基本的にそれと相互作用して、飛び回って、壁にペンキを塗って、ただ馬鹿騒ぎしたいと思うやろう。そしてそれすらも、ちょっと大人しく表現してる方やと思うで。だからこそ、これは現在でもまだ研究プレビューっちゅうことで、手に入れることはできひんのやろうな。

Googleは一般リリースのタイミングについてはかなり曖昧で、日付のヒントすら教えてくれへんかった。でも、それで失望してるなら、私は十分年を取ってるから覚えてるんやけど、GoogleのImagine 1っちゅう基本的な画像生成器についても、同じような「一般リリースには向かない安全性の問題」っちゅう話があったんや。基本的に公開リリースには向かないものやった。でも今日現在、私たちにはImagine 4が公開されて、大幅に改善されて、APIでも利用できるから、開発者がアプリに組み込むこともできるようになってるんや。

翻訳すると、Genie 4は君が思ってるより早く遊べるようになるかもしれへんっちゅうことやで。

さて、あの素晴らしいメモリー機能はどうやろう?例えば壁にペンキを塗って、周りを見回して、戻ってきても、ペンキがまだそこにあるっちゅうやつや。ちょっと時間を取って言わせてもらうけど、Google、それはかなり印象的やで。よくやったな。

でも、これらの世界でのメモリーは時間単位やなくて分単位で測られるんや。だから、これらの世界の一つで友達を作って、一緒に家を建てて、現実世界とその現在の自己模擬から逃げるためにそこに住もうと思ってても、それはうまくいかへんで。現状では、次の日に家に戻る頃には、完全に再構築されてしまってるからな。

技術的な課題と未来への展望

そしてGoogleは私に他の4つの注意点を教えてくれたんや。これらは将来のシミュレーションについてかなり示唆に富んでると思うで。だから、それらを見ていこうや。

まず、ゲームで見つかるような最も一般的な行動、移動や飛び跳ねるようなことはできるんやけど、現在は複雑な行動はできひんのや。次に、これは文字通り今思いついたことやけど、ちょっと夢みたいなもんで、次の注意点は他のキャラクターと話せないっちゅうことや。

これは私だけかもしれへんけど、夢の中で他の人と話すか?絶対に複雑な会話はせえへんやろ。とにかく、彼らが私に言うたのは、複数の独立したエージェント間の複雑な相互作用を正確にモデル化することは、まだ進行中の研究課題やっちゅうことやった。

三つ目は、予想される通り、現実世界の場所の正確な表現は期待できひんっちゅうことや。これらの世界の純粋な想像的な範囲もまた、ある意味では彼らの弱点でもあって、生き生きとした忠実度は彼らの優先事項やないんや。これは彼らがくれた四つ目の注意点、テキストレンダリングにも繋がってくるで。高忠実度のテキストレンダリングは期待せん方がええ。プロンプトに追加すれば起こることもあるけど、環境に組み込まれてるわけやないからな。

おもしろいことに、GuardianかNew York Timesのジャーナリストが、これがOmniverseやUnreal Engineのような何かの代替になるかどうか実際に尋ねたと思うんや。Googleはそうは言わへんかったけど、現実世界の複雑さをハードコーディングすることは手に負えないと言うたんや。だからこそ、Genieシリーズのようなシミュレーションが必要かもしれへんっちゅうことや。

このチャンネルを見てるゲーム開発者もかなりおるから、これとUnreal Engineについての考えを聞かせてもらいたいで。そして私が付け加えたいのは、最近RobloxのTED talkで見たハイブリッドアプローチがあるっちゅうことや。その人の名前と肩書きは忘れてもうたけど、アイデアとしては、環境の新しい部分を直接コーディングするようにモデルにプロンプトできるっちゅうものやった。

6分間の完全な講演は説明欄にリンクを貼ってあるで。でも私には、これは少し予測可能やけど、スケーラビリティは低いかもしれへんと感じるんや。なぜなら、Genieシリーズでは、YouTubeから数十億時間の動画でスケールできるけど、ハードコーディングされたアセットではそうはいかへんからな。どちらのアプローチが勝つんやろう?実際のところ、私にも分からへん。

だから、君らの考えを教えてくれや。

デモンストレーション

さて、前置きはもう十分やろ。見ていく論文もないんや。エンバーゴが解除される午後3時にこの動画をリリースしようと思ってたんやけど、もしかしたら論文をくれるかもしれへんと思って。だから待ってみようと。でも、論文はなかったんや。だから、約束した約2分間のデモを、約束したよりちょっと遅れたけど、ここで紹介するで。

君らが見てるのは、ゲームや動画やない。世界や。これらのそれぞれは、世界モデルの新しいフロンティアであるGenie 3によって生成されたインタラクティブ環境やで。Genie 3では、自然言語を使って様々な世界を生成し、それらをインタラクティブに探索することができる。全て単一のテキストプロンプトでな。

世界で時間を過ごすのがどんな感じか見てみよう。Genie 3にはリアルタイム・インタラクティビティがあって、環境が君の動きや行動に反応するっちゅうことや。君は事前に構築されたシミュレーションを歩いてるんやない。ここで見てるもの全てが、君が探索する中でライブで生成されてるんや。

そしてGenie 3には世界メモリーがある。だからこのような環境が一貫性を保ってるんや。世界メモリーは君の行動にも引き継がれる。例えば、この壁にペンキを塗ってる時、私の行動は持続するんや。私は顔を逸らして世界の他の部分を生成することができるけど、振り返った時には、私が取った行動がまだそこにあるんや。

そしてGenie 3はプロンプト可能なイベントを可能にするから、その場で新しいイベントを君の世界に追加することができるんや。他の人や交通手段、あるいは全く予期しない何かのようなもんをな。

Genieを使って現実世界の物理学や動き、あらゆる種類のユニークな環境を探索することができるで。独特の地理、歴史的設定、架空の環境、さらには他のキャラクターを持つ世界を生成することができるんや。Genie 3が次世代のゲーミングとエンターテインメントにどう使われるか楽しみやで。

そしてそれはほんの始まりに過ぎへん。世界は身体化された研究、現実世界で働く前のロボットエージェントの訓練、災害への備えや緊急時訓練のための危険なシナリオのシミュレーションに役立つかもしれへん。世界モデルは学習、農業、製造業、その他の分野で新しい道筋を開くことができるんや。Genie 3の世界シミュレーションが世界中の研究にどのように利益をもたらすか楽しみやで。

今後の展望と影響

Genieのような技術が仕事に与える影響をゲームアウトしようとするのは、今のところ私には複雑すぎるわ。でも今日の動画のスポンサーである80,000 hoursを通じて応募できる現実世界の仕事があるんや。説明欄の私のリンクを親切に使ってくれたら、君らは彼らの求人ボードに行くことになって、それが見えるやろう。これらは全てAIに関連した実際の仕事やで。

まあ、大部分がAIに関連してると思うけど、どちらにしても、仕事は世界中から調達されてるんや。さて、なんでGenie 3を取り上げるんかって言う人もおるかもしれへんな。心配せんでも、Google DeepMindからのGemini Deepthinkeについても、メインチャンネルで十分に近いうちに触れるつもりやで。そしてそのツールの私の早期レビューはPatreonにあるで。

でも私には、人々が最初は自分のゲームが無限にプレイ可能であることを望むのは避けられないと感じるんや。GTA 7より大きなマップサイズを考えてみてや。期待が上がり続ける中で、彼らは自分のエンターテインメントがインタラクティブであることを望むやろう。例えば、NetflixにSquid Game US版に自分の顔を追加するようプロンプトするとかな。そしてそれは決して止まらへんやろう。その後は16KのVRになって、他のエージェント、いやボットと呼んでもええけど、それらと話せるようになるんや。

シミュレートされた世界の他のキャラクターはかなり知的になるやろう。おそらく壁にぶつかり続けるだけやなくなるで。君はソクラテスについて彼らとチャットすることができるんや。これらの無限の世界に落ち込まないよう足元を見る必要がある人もおるやろう。他の人は真っ先に飛び込むやろうな。でも解像度とメモリーの向上、そしてこれをAGIへの行進に組み込むというGoogleのコミットメントは注目に値すると思うで。

そうしたら、これらの世界は何らかの形で生まれることになるやろう。でも私にとっての問題は、完全に想像されたシミュレーションが道なのか、それとも私の賭けである、Nvidiaのアイザック・ラブのような、シミュレートされてるけどプログラム可能で反復可能な何かなのかっちゅうことや。十分近いうちに、現実世界だけやなく、多くの世界がクレイジーになろうとしてるで。

最後まで見てくれて本当にありがとう。今週、ほぼ確実にGPT-5について君らと一緒にカバーするのを楽しみにしてるで。素晴らしい

コメント

タイトルとURLをコピーしました