マイクロソフトのMUSEがAIでビデオゲーム映像を驚異的に生成

5,705 文字

Microsoft MUSE Produces STUNNING VideoGame Footage with Gen AI

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

マイクロソフトから、AIとゲーム開発の交差点に関する非常に興味深いニュースが今日ありました。これは私がとても好きな話題で、皆さんも興味を持つと思います。マイクロソフトのプロジェクトについてお話ししましょう。このプロジェクトは、AIがゲーム分野での人間の創造性をサポートし、強化する方法の境界を押し広げています。
最近、ゲーム開発の分野でAIの活用が増えてきています。ごく最近では、イーロン・マスクの会社xAIがAIゲーム開発スタジオの開発を始めていることがわかりました。
「xAIのアンブレラの下でAIゲーム開発スタジオを立ち上げています」
もちろん、Google DeepMindもニューラルネットとビデオゲームに関する多くの研究発表をしています。Doomに似たゲームを実行できるゲームエンジンですが、コードではなくニューラルネットで動作しています。基本的にリアルタイムでゲームをプレイできるのです。ニューラルネットは次に何が起こるかを想像します。前進ボタンを押すとどうなるか、発射ボタンを押すとどうなるかなどを想像するわけです。
Minecraftでも同様のことが起きていて、誰かがMinecraftをニューラルネット上で動作させました。そして今日、同様のものがマイクロソフトから登場しました。このプロジェクトは「World and Human Action Model」（WHAM）と呼ばれています。
WHAMは何をするのでしょうか？「Last Christmas」や「Careless Whisper」のような不朽の名曲を歌うのでしょうか？いいえ、そうではありません。WHAMはAIを使用してゲームプレイのアイデアを生成するために使用されます。これはビデオゲームのジェネレーティブAIモデルで、ゲームの視覚表現、コントローラーアクション、またはその両方を生成できます。
マイクロソフトはWHAMに対して「MUSE」という別のニックネームも持っています。MUSEもバンド名ですが、どちらのバンドにちなんで名付けられたにせよ、重要なのはマイクロソフトが信じられないほど貴重なデータセットにアクセスできたということです。このデータセットは、Ninja Theoryとのコラボレーションにより、特に彼らのゲーム「Bleeding Edge」から何年にもわたって記録されたゲームプレイの映像とコントローラーアクションのデータです。
このデータセットは彼らにとって宝の山でした。なぜなら、AIやニューラルネットにゲームプレイを理解し予測する究極のチュートリアルを提供したからです。彼らはゲームの視覚表現とコントローラーアクションのデータを持っており、モデルはゲームの視覚、コントローラーアクション、またはその両方を同時に予測することができます。
この貴重なデータを使用して、彼らはワールドモデルを構築しました。これはゲーム環境の仮想表現で、イベントがどのように展開するかを予測できます。ゲームエンジンについて話したように、Google DeepMindのDoomのニューラルネットでの複製では、コードを使うと基本的にすべてが決定論的になります。画面上で起こることはすべて人間によってコード化され、いわばスクリプト化されているのです。
古いファーストパーソンシューターゲームや古いDoomゲームでコントロールボタンを押すと何が起こるかを覚えていますか？今では左マウスボタンを使いますが、要点は、ボタンを押したときに何が起こるかを予測するようにニューラルネットを教える代わりに、AIは基本的にすべてのゲーム映像をトレーニングし、ゲームのルールや物理学のすべてのニュアンスを吸収しているということです。AIはそれを複製し、ゲームをプレイしているときにリアルタイムで何が起こるかを想像できるようになります。
例えば、WHAMの1つのモデル（16億パラメータ）は、数分間にわたって一貫性のある複雑なゲームプレイシーケンスを生成できます。これらのシーケンスはすべて、人間のゲームプレイの最初の10フレーム（約1秒）とプレイシーケンス全体のコントローラーアクションによってモデルをプロンプトすることで生成されます。MUSEはワールドモデルモードで使用され、初期プロンプトシーケンスからゲームがどのように進化するかを予測するために使用されます。生成されたゲームプレイシーケンスが実際のゲームに似ているほど、MUSEはそのゲームのダイナミクスをより正確に捉えており、何が起こるかをより正確にシミュレートできます。
この高度なモデルの開発は簡単なタスクではありませんでした。複雑で多様なゲームプレイシーケンスを生成するためのトレーニングのスケールアップは、重要な課題をもたらしました。例えば、これは実際の人間のゲームプレイの11秒のクリップです。キャラクターが3D空間で動き、ゲームのさまざまな物理学、視覚的要素、背景、ヘッドアップディスプレイなど、画面上で起こるすべてをシミュレートする必要があります。
10,000回のトレーニング更新後、生成されたゲームプレイはまだ粗い部分がありますが、生命の兆候が見え始めています。しかし、品質はすぐに劣化します。キャラクターが認識できるようになり、基本的な動きと幾何学が見えています。
100,000回のトレーニング更新後、モデルは時間とともに一貫性を持つようになりますが、まだゲームのダイナミクスの比較的頻度の低い側面（例えば飛行メカニック）をキャプチャしていません。キャラクターの認識や基本的な動きと幾何学はまだでき、時間とともに劣化しないことが分かります。
そして最後に、100万回のトレーニング更新後（10,000、100,000、100万と対数的な成長に注目）、元の人間のゲームプレイとの一致性が見え始めます。飛行メカニックも正確に捉えられています。100万回のトレーニング更新後、パワーセルとの正しい相互作用が見られ、MUSEは飛行メカニックを正確にモデル化できています。
この技術のもう一つの大きな部分は、クリエイターの支援です。マイクロソフトは「WHAMデモンストレーター」と呼ばれるものを開発するためにハッカソンを開催しました。マイクロソフトのブログ投稿では、これは「新しいインタラクションパラダイムとMUSEが解き放つ創造的な使用法を探求するために行われた」と述べています。
このWHAMデモンストレーターは、ユーザーがモデルの初期プロンプトとして視覚的要素をロードできるようにします。この例では、ゲーム「Bleeding Edge」のプロモーション画像を1枚使用し、MUSEを使用してその出発点からの複数の潜在的な続きを生成します。
この時点で、ユーザーはこれらの生成されたシーケンスを見ることができます。Midjourney、DALL-E、その他のAIツールと同様に、複数のバリエーションがあり、1つを選んで継続的に改善することができます。ここでは異なる生成結果が見られますが、特定の生成結果内でキャラクターを操作するためにゲームコントローラーを使用することもできます。
これはMUSEがクリエイティブプロセスの一部として反復を可能にする方法を示しています。WHAMデモンストレーターを通じて、マイクロソフトはMUSEのようなモデルを使用するためにゲームクリエイターが必要とする能力を特定しようとしています。彼らは3つの主要な能力に焦点を当てました。

一貫性：モデルがゲームのダイナミクスを尊重するゲームプレイシーケンスを生成する能力。例えば、キャラクターはコントローラーの操作と一貫して動き、壁を通り抜けず、一般的に基礎となるゲームの物理法則を反映します。
多様性：初期プロンプトから、ゲームプレイが進化する可能性のある幅広い方法をカバーするゲームプレイのバリエーションの範囲を生成するモデルの能力。
永続性：ユーザーの修正を生成されたゲームプレイシーケンスに組み込むモデルの能力。例えば、視覚要素やキャラクターのスキンをコピー＆ペーストすると、それが生成全体を通して持続します。

技術的には、MUSEはTransformerベースのモデルによって動作しています。Transformerは、2017年にGoogleによって作成された有名な論文「Attention is All You Need」で発表されたものであり、今日見ているAIの多くを可能にしました。この革命を引き起こしたのは、基本的に学習をスケールできるようにしたからです。以前は、例えばモデルが長いテキストを読んだり生成したりする場合、終わりに到達するまでに読んでいたことを忘れてしまうことがありました。コンテキスト、単語間のさまざまな接続を失ってしまうからです。
今、「モデルは私が話していたことを忘れた」と言えば、魅力的な人が製品をモデリングするような写真モデルではなく、AIモデルについて話していることが分かります。それは、私が以前に言ったすべての単語とそれらの間の接続のおかげです。Transformer以前のアーキテクチャでは、テキストが長くなりすぎると、単語間のそれらの小さな接続がどのように関連しているかを忘れてしまうという問題がありました。Transformerアーキテクチャはスケーラブルで、より多くのコンピューティングリソースを投入するだけで、より多くのデータを処理できるようになりました。
ここでもTransformerベースのモデルが使用されており、広範なゲームプレイデータでトレーニングされるにつれて、基本的にゲームを本のように読み、イベントの流れとアクションが結果にどのようにつながるかを理解することを学びます。
応用面では、もちろん多くの異なる応用があります。まず第一に、ゲーム開発において、MUSEを使用して新しいレベル、メカニクス、さらには完全なゲームコンセプトを迅速にプロトタイプ化することができます。大規模なスタジオのリソースを持たないインディー開発者にとって、これはAIデザイナーの全チームを自由に使えるようなものです。
マイクロソフトが話していたもう一つの大きなことは、「Recall」と呼ばれるものです。かなりのバッシングがあったので、それに関して何が起きているのか、まだ進めているのかはわかりませんが、アイデアはWindowsでのすべてのアクションを記録してレビューできるようにすることでした。公式の説明によれば、データはマシンにローカルに保存され、マイクロソフトと共有されたり、モデルのトレーニングに使用されたりすることはないとのことです。
もちろん、そのようなものはコンピューターを操作できるAIエージェントのトレーニングには信じられないほど役立ちます。MUSEとWHAMの背後にあるアイデアを応用して、コンピューターに自己操作を教えること、AIエージェントにコンピューターの操作を教えることが多くの行き先であり、マイクロソフトやその他の企業がそのデータをキャプチャしようとする試みがさらに出てくる可能性があります。
もちろん、多くの人々はこのようなことに不満を感じています。彼らはデータがAIのトレーニングに使用されることを望んでおらず、多くのプライバシーの問題があります。個人的には、これらの企業が何かが記録されているとき、されていないときの明確な説明を提供し、必要がないときに簡単にオフにする方法があることだけを気にしています。
興味深いことに、MUSEでは、マイクロソフトはユーザーが「Bleeding Edge」をプレイしているところを記録し、キーストロークと画面上の結果のアクションを記録しました。彼らはそのデータにアクセスできて幸運でした。マイクロソフトは多くのゲーム、Xboxなどを持っています。Google DeepMindはゲームエンジンを作り、Doomでも同じことをしましたが、高品質のラベル付きデータはそれほど多くありませんでした。そこで実際に多くのAIエージェントを設定して、Doomをプレイするストリームを作成し、24時間毎日ただ遊んでゲームの映像を作成しました。その間、キーストロークも使用して、ゲーム映像にキーストロークと結果のゲームプレイ映像が組み合わさるようにしました。強化学習を使ってDoomをプレイする方法を学ぶためにエージェントを構築しました。これは読むのに最も面白い論文の一つで、非常に興味深いものでした。
ポイントは、Recallでこれを見ていることです。コンピューターやウェブを操作できるものを開発するためには、アクションと結果を記録する必要があります。MUSEとWHAMでは、ゲームのイメージを生成し、特定のキーストロークがゲームエンジンでどのように実行されるかを予測できるモデルを作成するために、人々がゲームをプレイしているところを記録しています。Doomとゲームエンジンでは、小さなAIエージェントを作成してゲームをプレイさせることでこれを回避しましたが、それはより簡単なゲームでした。それが常に解決策とは限らないかもしれません。
もしマイクロソフトがRecall機能の名前を変更することを決めた場合、リブランドするために、名前を提案させてください。ユーザーのニーズに応じてコンピューターをナビゲートし、人々がコンピューターをどのように使用するかの知識に基づいているので、「Knowledge Oriented Responsive Navigator」、略して「KORN」と呼ぶことを提案します。シンプルで覚えやすいと思います。
KORNだけでなく、WHAMとMUSEについてもどう思いますか？これらのテクノロジーについて、またそのバンドについてどう思いますか？
ここまで視聴してくれてありがとうございます。私の名前はWes Offで、また次回お会いしましょう。