Dynamics Labが開発したMirageは、世界初のAIネイティブなユーザー生成コンテンツゲームエンジンである。従来のコーディングやスクリプトに頼らず、ニューラルネットワークがリアルタイムでゲーム世界を生成し、プレイヤーのテキスト入力に応じて環境を動的に変化させる革新的な技術だ。Google、NVIDIA、Microsoft、Amazonなどの経験豊富なエンジニアチームが開発し、GTAスタイルの都市カオスゲームとForza Horizonスタイルのコースタルドリフトゲームの2つのデモが公開されている。まだ初期段階の技術ながら、AIビデオやAI画像生成の急速な進歩を考えると、ゲーム業界に大きな変革をもたらす可能性を秘めている。

AIが現実を夢見るゲームエンジンMirageの登場
これはDynamics Labという会社が発表したもので、Mirageと呼ばれています。世界初のAIネイティブなユーザー生成コンテンツゲームエンジンです。ここで見ているすべての映像は、ニューラルネットによって生成されています。通常のビデオゲームのようなコードではありません。基本的に、あなたがプレイしている間に現実を夢見て生き生きとさせるニューラルネットワークなのです。
GTAスタイルの都市カオスゲームでも、Forza Horizonスタイルのコースタルドリフトゲームでも、ブログ投稿で述べているように、彼らはゲームの未来は専門デザイナーがレベルごとに一つずつ作り上げるものではないと信じています。誰でもリアルタイムで想像し、生成し、プレイできるものなのです。Google DeepMindなどからも、このような技術がどんどん出てきています。
Microsoftも独自のバージョンを持っていますが、Mirageはあまり知られていないチームによって構築されましたが、世界クラスのチームです。ブログ投稿で述べているように、MirageはGoogle、NVIDIA、Amazon、Apple、Microsoft、カーネギーメロン大学、カリフォルニア大学サンディエゴ校での経験を持つ、深い技術力と創造性に富んだAI研究者、エンジニア、デザイナーのチームによって作られました。
生成型世界モデルの最前線を推進
彼らは生成型世界モデルの境界を押し広げることに焦点を当てています。Mirageは世界初のリアルタイム生成エンジンで、最先端のAI世界モデルと彼らが説明するものを通じて、ライブUGCゲームプレイ、つまりユーザー生成コンテンツを可能にします。動的で、インタラクティブで、持続的なゲームプレイをサポートするよう構築されています。
自然言語、キーボード、またはコントローラー入力を通じて、世界全体を生成し、リアルタイムで修正できるようになります。実際に私がこれと相互作用する様子をすぐにご覧いただけます。ある時点で、雨を降らせるようにプロンプトに入力します。すると実際に雨が降り始めます。ゲーム世界で雨が降り始めるのです。
つまり、基本的に想像できるあらゆるコマンドを入力できるのです。そして、このニューラルネットワークがリアルタイムでゲーム内にそのものを作り出そうとします。繰り返しますが、これはスクリプトやコーディングに基づくものではありません。事前定義されたり、事前決定されたりしたものではありません。その場でできる限りの能力でそれを作り出そうとするのです。
革新的なライブ生成システム
自分で確認したい場合は、説明欄にリンクを残しておきます。現在、プレイ可能なデモが2つあります。1つは都市カオスGTAスタイル、もう1つはCoastal Drift、Forza Horizonスタイルのゲームです。これらの両方とも完全にその場で生成されます。スクリプト化された体験ではありません。プレイする各プレイヤーによってリアルタイムで形作られる、生きたプレイ可能なシミュレーションなのです。
彼らは自分たちの作品をGoogle DeepMindなどの最近の作品と比較しています。GoogleのAI DoomやGenieを見てきました。DeepMindのAI MinecraftやMicrosoftのAI Quake 2も見てきました。しかし、Mirageはいくつかの明確な利点を提供します。これは彼らが公表した情報によるものです。
これは研究プレビューですが、ゲームプレイ中のいつでもテキスト入力を通じてユーザー生成コンテンツを可能にし、以前の世界モデルベースのゲーム生成アプローチを大幅に超える重要な飛躍を示しています。より写実的なビジュアルを生み出し、初期システムのピクセル化されたブロック状スタイルを超えて、10分を超えるプレイ可能なシーケンスではるかに長いインタラクティブな体験をサポートします。
従来のゲーム制作の限界を突破
すぐにご覧いただけるように、私はこれらすべてを証明できます。彼らは確かにこの分野を前進させたようです。これは全く新しい技術であることを覚えておいてください。完璧に見えるわけではありません。完璧ではありません。まだ多くの制限がありますが、これは彼らが言うように、コーディングやスクリプト、レベルデザイナーなしでリアルタイムでゲームを生成する全く新しい方法の始まりなのです。
考えてみてください。従来のゲームでは、すべてが事前に作成されています。都市がレイアウトされ、ミッションがスクリプト化されています。体験できるものには限りがあります。Mirageは、プレイヤーがゲームをプレイしながら動的に新しい体験を作り出せることで、この境界を破っています。テキストプロンプト、キーボード入力を使って、プレイヤーは逃げるための路地を要求したり、車両を出現させたり、都市のスカイラインをその場で拡張したりできるかもしれません。
ゲームは即座に反応し、これらのユーザー生成要素を進行中のシミュレーションにシームレスに織り込みます。世界は単にインタラクティブなだけでなく、プレイヤーと共に進化しているのです。彼らは説明でマトリックス的という言葉は使いませんでしたが、きっと使いたかったでしょう。
インターネット規模のデータセットで訓練
もう一つ興味深い点は、これがインターネット規模のビデオデータセットで訓練されていることです。想像できるように、オンラインには人々がさまざまなビデオゲームをプレイしている動画が大量にあります。それらすべてがこのモデルの事前訓練に使用されています。
次に、いくつかの人間データで微調整されます。例えば、プレイヤーがゲームプレイを記録し、それをキーボードコマンドなどと同期させるといったものです。そのため、入力により反応しやすくなるよう微調整されています。
最終的な結果がMirageモデルです。理解すべきもう一つの重要なことは、これはクラウドで簡単に実行できるということです。基本的にリモートでストリーミングされるので、グラフィックカードなしでコンピューターで完全な3Dゲームをプレイできます。どこからでも即座にプレイできます。ダウンロードは必要ありません。
大規模言語モデルと拡散モデルの技術融合
ここでの技術は、大規模言語モデルと、画像や動画の生成に使用される拡散モデルの両方から借用しています。では、実際にこれを試してみましょう。
これがMirageです。都市カオスとコースタルドリフトがあります。都市カオスを試してみましょう。WASDでコントロールでき、矢印キーでカメラを操作できます。Shiftで走り、スペースで攻撃、エイムができ、ここにテキストプロンプトも入力できます。試してみましょう。
前に歩いて、右に曲がれるか見てみましょう。少しラグがある感じがします。遅延がありますが、それほど悪くありません。接続が少し遅いような感じですが、リアルタイムで私に反応しています。キャラクターを回転させることができます。カメラを動かすことができます。左に向いて、カメラも左にパンさせたいとしましょう。できます。ジャンプしたければジャンプできます。ジャンプ。ジャンプ。できました。走れるか見てみましょう。これが走りです。
ゲーム内でのリアルタイム相互作用
撃つこともできると思います。撃てないGTAゲームなんてありえませんからね。それができるか見てみましょう。雨が降っているようですね。攻撃する人を探してみましょう。人がいます。Fが発砲だったと思います。この場合はパンチですが、できました。
撃つことができました。明らかにこれは完璧ではありません。これは拡散モデルが動かしている一種のものです。すべてがスクリプト化された本当のゲームほど素晴らしくはありませんが、そのままで印象的です。ほぼリアルタイムで私に反応しているのが非常に興味深いです。
ビデオゲームのように見えています。これはビデオゲームなので、回転して撃つことなどができます。テキストプロンプトがどれくらいうまく機能するか確認してみましょう。いくつかのサンプルプロンプトが提供されています。まず「黄色いタクシーが現れる」から始めて、独自のカスタムプロンプトも試してみましょう。
見回してみると、黄色いタクシーがあります。ただ、これらと相互作用できるかどうかはわかりません。まだ運転はできないようですが、それが黄色いタクシーです。これはどうでしょう「雪が降る」。雪を降らせることができるでしょうか。いえ、リセットされました。別の都市を試してみましょう。
自然言語による環境制御
1つの場所にどれくらい留まれるかには制限があるようです。雪を降らせられるか見てみましょう。それを入力して、道路を渡っています。雪。通常、これらのものが反応し始めるまで数秒かかります。とても奇妙に見える人ですが、これらの拡散ゲームを見たことがなければ、完全にナンセンスに見えるかもしれません。
そうです、理解できますが、ここでポイントがあります。これは私たちが見てきた以前の反復よりもはるかに優れています。AIビデオやAI画像、AI音楽と同様に、今はひどいものです。1年後にはひどくなくなるかもしれません。完全に変わるかもしれません。そして、雪が降っているように見え始めています。
地面に雪があるようです。そのプロンプトは機能しているようです。確かに今は雪が降っているようです。これはまだゲーム素材としては十分ではありませんが、これらの技術がどれほど急速に進歩しているかは興味深いです。とにかく、レーシングゲームを試してみましょう。
レーシングゲームデモでの体験
これがCoastal Driftです。海の近くに行きたいとしましょう。さあ行きましょう。かなり良く見えています。かなり迅速に反応しています。少し動作が重いですが、それほど悪くありません。ボタンを押してから反応するまでにわずかな遅延がありますが、悪くありません。
ほぼプレイ可能だと言えるでしょう。まだそこまでは到達していませんが、ほぼプレイ可能です。これらのボタン入力にリアルタイムで反応しています。また、自分の画像をアップロードして、おそらくプレイするゲーム、プレイするシーナリーを作成してくれるようです。
それを試してみましょう。実際のゲームからこれを試してみましょう。そしてできました。車を以前に持っていた車に変更しました。しかし、その最初の開始フレームは、私たちが開始していた場所にかなり近いものでした。
環境変化の実験と制限
参考までに、これは少し違います。山々と緑地、道路があります。そしてこれがやっていることです。それほど悪くありません。世界プロンプトはどうでしょう「密集した都市を運転する」と言います。その環境を密集した都市に変更できるか見てみましょう。
数秒待ってみましょう。調整できます。これは私たちが運転しているトウモロコシ畑です。密集していますが、都市ではありません。これは終わりのないトウモロコシ畑です。トウモロコシのように見えるものです。「夜の都市」を試してみましょう。夜の都市に連れて行ってくれるでしょうか。
いえ、見える限りトウモロコシです。前方に開けた場所があるでしょうか。いえ、ただのトウモロコシです。これはどうでしょう。都市のような、都市的な何かのように見えます。興味深いです。その建物から私を遠ざけました。
いえ、建物はまだそこにあります。興味深いです。別の車があります。ボタンを押してから向きを変えるまでに遅延があるためです。明らかに制御するのは少し困難です。私がこのゲームが下手なのではありません。このゲームが下手なのです。
技術の将来性と現在の課題
しかし、1、2秒の遅延に対処でき、田舎の真ん中などにいるときは、はるかに反応が良くなります。しかし、ここでは、シーナリーがどれほど複雑かのために、はるかに多くの遅延が発生していると思います。壁に突っ込んだらどうなるでしょう。自然にそこから抜け出してくれます。
とにかく、これはプレイ可能なゲームにどんどん近づいています。繰り返しますが、まだたくさんのナンセンスが起こっています。どこにいるかを忘れがちです。そのため、どこにいるかの空間認識のようなものを理解する方法を見つける必要があります。
しかし、数年前にAIビデオがどこにあったか、そして今どこにあるか、画像や音楽がどこにあったかを考えると、彼らはこれらのことを理解するだろうと感じています。向きを変えると別の場所にいるという点で、まだ少し支離滅裂ですが、彼らはこれらのことを理解するだろうと感じています。
今後の展望と技術革新
とにかく、確認してみてください。自分で見て、どう思うか教えてください。これはプレビューのようですが、まもなく完全な論文と、おそらくより詳細やより多くのデモが出るでしょう。とんでもないものは期待しないでください。少し心を自由にしてください。これは非常に初期段階の技術です。
しかし、そうは言っても、この6から8ヶ月で、この方向でかなりの進歩を見てきました。そして、DeepMind自身がGoogleがこの方向に進む可能性があると示唆したことを覚えておいてください。彼はそれをほのめかしました。どこに向かうか見てみましょう。
とにかく、ここまで見てくださったなら、ご視聴いただき本当にありがとうございました。私の名前はWes Rothです。次の動画でお会いしましょう。


コメント