Google DeepMindの動画ゲームAGI?(VEO 3の真の理由)

Google・DeepMind・Alphabet
この記事は約16分で読めます。

この動画は、Google DeepMindのVEO 3モデルと動画ゲームAI開発の関連性について探求している。Jimmy ApplesとDemis Hassabisのやり取りから始まり、VEO 3の動画生成能力がいかにゲーム世界の創造に適用できるかを論じている。Unreal Engineを使った学習データ生成、Genie 2による3D世界生成、SIMAエージェントによるゲームプレイ学習など、Google DeepMindの様々なプロジェクトを紹介しながら、最終的にはAGI開発のためのシミュレーション環境構築という大きな目標に向かっていることを示している。

Google Deepmind's VIDEOGAME AGI? (the REAL reason for VEO 3)
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

VEO 3への注目とDemis Hassabisの意味深な発言

何かが起こっています。まず最初に、Twitterの有名な荒らしJimmy Applesが「俺のVEO 3動画でもう動画ゲームをプレイさせてくれよ。Googleは本当に素晴らしい仕事をした」と言っています。そして彼はGoogleチームのLogan Kilpatrickにプレイ可能な世界モデルについて質問したところ、誰も予想していなかったことにDemis Hassabisが参加してきて「それは素晴らしいことではないでしょうか」と言いました。これは何かの参照のように感じられます。

参照のように感じませんか。それは素晴らしいことではないでしょうか。これは参照です。つまり、Demisは『トロン・レガシー』への参照を行っているのです。しかし、ここで話していることを詳しく見てみましょう。まず最初に、VEO 3は本当に素晴らしく見えることに同意しなければなりません。特に、コマンドで自分だけの動画ゲーム世界を生成してプレイできるとしたら、ゲームを生成する能力は信じられないほど素晴らしいでしょう。

ところで、Unreal Engineが多くの異なるニューラルネットワークの学習に使用されており、この種のグラフィックスを生成することはほぼ公然の秘密です。例えば、Teslaはある時点で、道路を走行する車をシミュレートするためにUnreal Engineを使用し、その後、自動運転車の背後にあるAIであるニューラルネットワークをそのデータで学習させていたと噂されています。

AI動画生成におけるゲームエンジンの活用

OpenAIのSoraは、このようなグラフィックスを作成するために使用される3Dビデオゲームエンジンの一種であるUnreal Engineを使用していたと噂されています。おそらく、SoraはUnreal Engineからの出力の一部を使用して、彼らの動画モデルを学習させていたのでしょう。そして確実に言えることは、特定のプロンプトを入力すると何かを表示してくれるAI動画が大量にあり、それを見て「あれは動画ゲームだ」と思うことです。

動画ゲームがどのようなものかを知っており、それは実際の映像よりもはるかに動画ゲームのように見えると安全に言えるでしょう。そして確実に、AIモデルを学習させるための大量の合成データが必要であれば、動画ゲームや3Dエンジンのようなものを使用することは、それを取得するための素晴らしい場所になるでしょう。

Google DeepMindのゲームAIプロジェクト

Google DeepMindには、AIと動画ゲームを組み合わせた多くのプロジェクトがあります。私たちはGenie 2を取り上げました。これは、単一の画像からプレイ可能な3D世界の無限の多様性を作成できるAIモデルです。この種の大規模な基盤世界モデルにより、将来のエージェントが無限の数の仮想環境で学習し、評価されることが可能になるでしょう。

ところで、彼らがプレイ可能と言うとき、本当にプレイ可能という意味です。歩き回ったり、後ろに行ったり、前に行ったりすることができ、ジャンプもできます。そして、これは私たちが慣れ親しんだ動画ゲームではありません。これはコードではありません。これはリアルタイムでニューラルネットワークによって生成されています。画像を見て、その画像から動画ゲームのように相互作用できる世界を作成するのです。

これらの小さなアニメーションで、どのボタンが押されているかを見ることができます。つまり、左に行きたい場合は、もちろんWASDコントロールでAを押します。2Dプラットフォームサイドスクローラーのための類似したプロジェクトが他にもありました。つまり、マリオのように2D空間を走り、物を飛び越えるような場合、それもニューラルネットワークで学習された画像から作成することができます。

GameNGenによる革新的なゲーム生成

私の個人的なお気に入りの一つは、もちろんGameNGenです。これも再びニューラルネットワークです。ここにはコードはありません。何もコード化されていません。これはDoomではありませんが、非常に似ています。つまり、これはゲームエンジンです。リアルタイムでDoomのゲームをシミュレートするニューラルネットワーク、ニューラルモデルです。

これは、あなたの脳が夢を見て、あなたが日常業務をしている様子をシミュレートするようなものです。実際には起こっていません。キーを押しているときに、このニューラルネットワークが作成するビジュアルの一種です。発射キーを押すと、何が起こるはずかを知っており、そうした場合に画面上で何が起こるかをシミュレートします。

論文を正しく思い出すなら、これは一つのモデルによって3D空間で行われ、これは別のモデルによって行われます。数字は正確でなければならないからです。数字を夢見ることはできません。もう少し具体的でなければなりません。しかし、これはゲームエンジンであり、実際のDoomゲームとほぼ区別がつきません。

少なくとも、これらのプレイヤーでテストしていたときは、数秒間の間隔でのみテストしていました。明らかに、長時間プレイすると、いくつかのアーティファクトやグリッチ、いわゆる幻覚を見始めることになりますが、本当に注意深く見ない限り、違いを見分けることができない数秒間は持続することができます。

「あれは変だ」と思うかもしれません。Google DeepMindには、どういうわけかAIと重複する多くの動画ゲームプロジェクトがあります。まだ終わりに近づいてもいません。いや、それは言い過ぎでした。ほぼ終わりです。しかし、もう一つだけ。これはSIMAと呼ばれるものです。3D仮想環境のための汎用AIエージェントです。このものは、どうやらSatisfactoryやNo Man’s Skyのようなゲームをプレイすることを学習したようです。

SIMAエージェントによる人間的なゲームプレイ

そして何らかの奇妙な理由で、Goat Simulator 3も含まれていました。なぜかわかりません。ここで理解すべき本当に重要なことは、これはあなたが以前に見たことのある動画ゲームをプレイする他のAIエージェントとは大きく異なる可能性があるということです。なぜなら、ここでは人間が使用するコントロールを使用して、リアルタイムで一種の自分自身で学習してプレイしているからです。

つまり、私たちがするように視覚で画面を見ています。動画ゲームのメモリへの何らかのフックは使用していません。移動するためにWASDキーを押しています。周りを見回すためにマウスを使用しています。つまり、あなたと私がするのとまったく同じ方法でこのゲームと相互作用しているのです。そして興味深いことに、プレイヤーからの言葉によるコマンドを受けることで、これらのことを学習しています。

例えば、Minecraftで「木を集めに行け」と言うかもしれません。その時点で、AIエージェントは何をするでしょうか。そうです、木を殴りに行くでしょう。なぜなら、Minecraftで木を取得する方法は木を殴ることだからです。そして時間の経過とともに、ツールやオブジェクトの使用、建築、農業、戦闘、移動、運転、クラフトなどの異なる能力を分類し始めます。

目標は、基本的にあらゆるシミュレーション世界、あらゆる動画ゲームで様々な言葉によるコマンドに応答できるエージェントを構築することです。MinecraftからGTAからHell Divers 2まで、何でも持っていくことができ、物事との相互作用方法についてのこの一般的な理解を持っているでしょう。ところで、これはGenie Google DeepMindのAIから来ており、動画ゲームを夢見るだけです。

生成的インタラクティブ環境の提案

彼らは言っています。「私たちは生成的インタラクティブ環境を提案します。これは、単一のテキストまたは画像プロンプトからインタラクティブ環境を生成できる生成AIの新しいパラダイムです。では、なぜこれほど多くの注意とリソースが、これらの動画ゲーム世界の作成に向けられているのでしょうか。私たちにはすでに様々なゲームを作成するゲーム制作スタジオがあります。なぜ動画ゲームスタジオの代わりに、これらのニューラルネットワークにそれを行わせる必要があるのでしょうか。ところで、Googleだけではありません。

MicrosoftにはMuseと呼ばれる独自バージョンがあります。ゲームプレイアイデア創出のために設計された私たちの最初の生成AIモデルです。これは2025年初頭のことですが、ここでご覧いただけるように、実際のゲームからの様々な生成されたゲームプレイの例があります。しかし、このAIモデルはこのゲームがどのようにプレイされるかについて学習され、リアルタイムでそれを再現することができました。最後の小さな詳細に注目してください。

Demisが何かをほのめかしている間、Logan Kilpatrickは、再び、Google AI Studioのリード製品担当です。つまり、彼はAI分野でよく知られており、Google AIのインサイダーです。彼はポッドキャストを持っており、多くのポッドキャストに出演しており、私が正しく覚えているなら、実際に元OpenAIの人物だと思います。つまり、何が起こっているかを知っている人物です。

秘密のプロジェクトへの示唆

ここでご覧いただけるように、彼の口は閉じられています。見分けがつかない場合、これは唇にジッパーがかかっているような絵文字で、「何も言わない」という意味です。つまり、Googleはニューラルネットワークと動画ゲームに関連する他の何かを舞台裏で調理しているということです。では、なぜでしょうか。何の理由で。最終的な目標は何でしょうか。まあ、明らかな答えといくつかの明らかでない答えがあります。

Google Stadiaプロジェクトを覚えているかもしれません。動画ゲームをストリーミングするコンソールのようなものでした。それは2018年に閉鎖されました。アイデアは、ゲームがローカルコンソールで実行される代わりに、デバイスにストリーミングされるということでした。つまり、他の場所で生成されるが、リアルタイムでプレイするということです。

再び、それについてはあまり知りません。閉鎖されました。もう利用できません。しかし、正しく覚えているなら、それがその背後にある大きなアイデアでした。では、なぜこれが私たちが話していることに関連するのでしょうか。まあ、一つは、リアルタイムで動画ゲームをストリーミングできるニューラルネットワークを作成できるなら、それは動画ゲーム開発にとって多くの非常に素晴らしい道筋を開くことになります。

低コストゲーム開発の可能性

潜在的な利点は、本当に低い開発コストになる可能性があります。通常の動画ゲームでは、見るもの、相互作用するもの、起こることすべてがソフトウェアエンジニアによってスクリプト化されています。それが常にスクリプト化されているわけではないことは理解しています。ランダムイベントがありますが、それらのランダムイベントもまだ人間によってコード化されています。

その場でこれらのゲームを生成する何かを持つことができるなら、おそらく無限の量の世界。第一に、ゲームまたは体験あたりのコストは本当に急落するでしょう。ニューラルネットワークが起こっていることを発明するでしょう。それを想像するだけで、ゲーマーがリアルタイムでゲームをプレイするでしょう。それはまた、おそらく非ソフトウェア開発者がこれらのニューラルネットワークと協力してゲームを夢見始めることを可能にするでしょう。

描くことができないなら、良いAIアートを制作することができるのと同様に。または、音楽的才能がないなら、それでも素晴らしいAI音楽を制作することができます。VEO 3では、映画制作経験なしに素晴らしい動画を作ることができます。数年後には、コーディング経験なしにこれらのゲームを開発できるようになるかもしれないと考えるのはそれほど飛躍ではありません。

創造的なゲーム開発の未来

そして、私たちはそれらをコード化する必要さえないでしょう。これらのニューラルネットワークアプローチの一つを使用するでしょう。少しスケッチして、「これのように見せて」と言い、「このようなルールを作って」などと言って、世界と相互作用し始めるでしょう。Microsoftプロジェクトは、具体的にゲーム開発アイデア創出として、世界を素早くスケッチし、作成し、テストし、どのように機能するかを見ることができることについて話しています。

つまり、基本的により多くの機会、より多くの創造性、これらのゲームを作るためのより多くのアプローチなどです。つまり、私たちはゲーム開発を取り上げて、それを皆にとってより簡単にし、より速く、より良く、そしてより多くのものを作ることを可能にしているのです。そして、私たちはこれを見ることになると確信していますが、ゲームは実際にはこの種の技術の最終目的地でさえないと思います。

シミュレーションと世界モデルの真の目標

本当に最終的な目標は、シミュレーション世界モデルを実行できることだと思います。動画ゲームでは、多くのことがまだ決定論的です。すべてがコード化される代わりに、ニューラルネットワークによって実行されるもう少し創造的なGTA 5のようなものを作成できるなら、それぞれが独自の生きて呼吸するエコシステムを持つ数百万の世界を作成できるでしょう。

これらの世界は多くのデータを生成するでしょう。GTA世界では、例えば、車が街をどのように運転するかについてのデータを取得できます。自動運転車を学習させるために使用できるデータです。World of Warcraftの時代には、ある種の疫病がプレイヤー間で広がることを可能にするバグがありました。それはダンジョンに封じ込められるはずでしたが、一部のプレイヤーはそれをダンジョンから取り出す方法を見つけ、基本的に全World of Warcraftを病気にし、この疫病がすべてのプレイヤーに広がり、基本的に皆を殺しました。

興味深いことに、後にそのイベントはウイルス学の専門家によって研究されました。彼らは病気の広がりを研究し、その仮想世界でどのように発生したかを調べました。それは人々がどのように病気を広げるかについての実際のデータを彼らに与えました。Stanfordからの社会シミュラクラ論文を見たなら、それは小さな村と人々が情報をどのように伝達するか、異なる噂などが複数の人々にどのように広がるかをシミュレートしました。

政策シミュレーションと汎用エージェント

そのような社会シミュレーションは、特定の政策変更を展開する前に、それが潜在的にどのように裏目に出るか、または正しく機能するかをシミュレートするために企業によって使用される可能性があります。政府はそれを使用して、彼らが出している特定のインセンティブ、税制優遇措置をシミュレートすることができ、もちろん、SIMA論文のように、私たちはゲームをナビゲートするためのAIエージェントを学習させることができるでしょう。

異なる物理学、異なる障害物などを持つ無制限の環境を想像してください。これは、NvidiaのDr. Jim Fanが話したことです。彼は基本的に、最終的には、私たちが持つすべての異なる技術、すべてのロボティクスのためのこの一つのグローバル汎用エージェントを持つかもしれないと言いました。最終的には、それらはすべて同じモデルによって駆動されるかもしれません。

これは、フライトシミュレーターからGTAからMinecraftから水中の何かまで、基本的にあらゆる動画ゲームをプレイするように学習されるモデルです。それはすべてのそれらの世界間で非常によく汎化するでしょう。最終的に現実世界に出現し、ここで実際のロボティクスと相互作用できるようになったとき、それはいわば別の動画ゲームのようなものになるでしょう。すべての異なる現実にわたって汎化することができるでしょう。

3Dシミュレーション世界の無限の可能性

つまり、考えてみると、私たちは動画ゲーム世界と言いますが、実際には3Dシミュレーション世界と考えることができるこれらを構築するという考えです。現在の動画ゲームでするように、そのゲーム世界にあるすべての単一のことをコード化する必要がないなら、どれだけの利益を得ることができるかには終わりがないように見えます。すべてのビジュアルと物理学と起こるすべてのイベントが、私たちが具体的にこれやこれやこれをしなければならないと言わなくても、ニューラルネットワークによってその場で作成されるなら。

それは単に物理学がどのように機能するかを理解します。建物や車や歩行者がどのように機能するかを理解します。それはAIエージェントの学習、ロボットの学習、その世界内での様々な科学的シミュレーションの実行のための多くの機会を開くでしょう。そして、それこそがDemisがここでほのめかしていることだと思います。そのようなものが進行中であり、私たちはおそらくそのようなものをかなり早く見ることになるでしょう。

AGIとゲームの深い関係

そして最初は、少なくとも動画ゲームのように見えるでしょう。おそらくそれが機能になるでしょう。それはニューラルネットワークによって生成された動画ゲームをプレイすることを可能にするか、そのような線に沿った何かになるでしょう。そして、AGIとAI進歩の多くが動画ゲームの背後に構築されたことを考えるのは面白いことです。

Doomのような動画ゲーム。Doomは最初に主要な開発者の一人であるJohn Carmackによって作成されました。彼が今何をしているのか、そしてこれについて何を考えるのか疑問に思います。それがJohn Carmackです。彼は最近、Keen Technologiesで何をしようとしているかについて講演しました。ところで、私だけでしょうか、それとも彼はちょっと鍛えられましたか。私はそれがかなり鍛えられていると感じます。つまり、オタクの基準では、それは資格があると思います。とにかく、彼はAGIに取り組んでいます。

John Carmackの物理的ロボットアプローチ

彼がここで説明する新しいアプローチは、要するに、彼は物理的ロボットを取り、それらに動画ゲームをプレイさせるということのようです。ここで小さなセットアップを見ることができます。それは小さなロボットカメラです。これは一種のコントローラーです。つまり、Atariコントローラーとコントローラーを動かすことができるロボットのようなものです。

つまり、それは物理的なものです。物理的にゲームをコントロールしています。画面を見ています。そして目標は、異なるゲーム間で汎化させることです。例えば、Miss Pac-Manをプレイすることを学習すれば、それはTetrisやSpace Invadersなどの他のゲームをプレイするのに役立つはずです。つまり、AIの最も優秀な頭脳の一部は、このような方向に向かっています。

動画ゲーム、3Dシミュレーション世界、そしてAI。Demis Hassabisだけでなく、Chad Carmack、申し訳ありません、John Carmack、それが彼の名前です。John Carmackも。しかし、どのような場合でも、文明がある技術段階に達したとき、これらの3Dシミュレーション世界、これらのシミュレーションを実行し始めることが本当に重要になることは興味深いことです。ハードコード化されたものではなく、これらのニューラルネットワークで実行されるものです。

シミュレーションの現実と未来

小さな都市を走り回り、家に座っているすべての小さなプレイヤーが本当の人々のように感じ、重要だと感じるところです。彼らがシミュレーションに良いデータを提供するように、彼らが重要だと思わせたいのです。私は彼と全く同じシャツを着ていることに気づきました。とにかく、ポイントは、非常に早く、おそらく今後数十年で、これらのニューラルネットワークで構築されたある種のシミュレーションを見ることになるということです。

これが非常に価値があることは明らかであり、これが多くのこれらのことが向かっている方向のように見えます。そして、私たちがこのシミュレーションを構築するとき、それは多くの最初のものになるでしょうか、それとも連続的なチェーンの中のもう一つのものになるでしょうか。お楽しみに。私の名前はWes Rothです。次回までお会いしましょう。

コメント

タイトルとURLをコピーしました