DeepMindの最新AI技術であるGenie 3に関する世界独占デモを紹介した動画である。この技術は生成的インタラクティブ環境と呼ばれる新しいクラスのAIモデルで、従来のゲームエンジンやシミュレーター、生成動画モデルとは異なり、リアルタイムでインタラクティブな世界シミュレーションを可能にする。720pの高解像度で数分間持続する一貫性のある仮想環境を生成し、ロボティクス訓練や仮想現実の革新的な応用可能性を秘めている。

- DeepMindが見せた衝撃の技術
- 生成的インタラクティブ環境という新概念
- 従来技術との違い
- Genie 1からの進化
- Genie 2の登場
- Genie 3の衝撃
- エージェント訓練への応用
- アーキテクチャと制限事項
- 今後の展望と課題
- メモリとテキスト機能
- 開発チームとの対話
- 世界モデルの進化
- 技術的詳細と創発的特性
- 確率的システムと一貫性
- 世界モデルの評価と応用
- ロボティクスへの応用と未来展望
- オープンエンドネスと創造性
- 未来のエンターテインメントプラットフォーム
- 意識と具現化された知能
- マルチエージェントシステムと創発
- 知能の分散と協調
- 認知的境界と詳細レベル
- 計算制限と可変思考
- 統合モデル対専門モデル
- Sim-to-Realギャップの解決
DeepMindが見せた衝撃の技術
ちょっと見てや、この犬。めちゃくちゃすごいやんか。これ狂っとるわ。いったいどんなプロンプトでこれ作ったんや?今日は世界独占で、わしが思うに今まで見た中で一番ぶっ飛んだ技術について話すで。めちゃくちゃワクワクしとる。先週ロンドンでGoogle DeepMindが独占デモで見せてくれたもん、みんな信じられへんと思うわ。
この技術、次の兆ドルビジネスになるかもしれんし、バーチャルリアリティの決定的な使い道になるかもしれん。Google DeepMindは最近めちゃくちゃ調子ええから、Gemini Deep Thinkでさえコンテキストウィンドウの中で勝利の数を数えきれへんくらいや。説明したるわ。
生成的インタラクティブ環境という新概念
今日話すのは、生成的インタラクティブ環境と呼ばれる新しいクラスのAIモデルについてや。これは従来のゲームエンジンやシミュレーター、VO みたいな生成動画モデルとは違うけど、その三つ全部の特徴を持っとる。基本的にはインタラクティブな世界モデルで動画生成器なんや。ゲームコントローラーとか、なんでもコントローラーつなげることができる。
DeepMindは世界モデルを環境のダイナミクスをシミュレートできるシステムやって言うとる。一貫性は創発的なもんで、明示的なもんは何もない。このモデルは明示的な3D表現は作らん。確率的なニューラルネットワークなのに一貫性があるってのは、どうやって辻褄合わせとるんやろ?こっち見て、振り返って、また同じとこ見たら、ちゃんとそこにあるやんか。サブシンボリックで確率的なモデルが、明らかに一貫した世界の固定マップを作れるって、ちょっとおかしない?
従来技術との違い
1996年のQuakeエンジン覚えとる?あれは物理やルール、相互作用を明示的にプログラムする必要があった。でもこの新世代AIシステムは、動画データから直接リアルワールドのダイナミクスを学ぶんや。世界の中でエージェントをリアルタイムでコントロールできる。
生成的世界モデルへの動きは、手作りシミュレーターの限界から生まれたんや。一般エージェント訓練用に設計された最先端プラットフォームのXLANDでさえそうやった。カリキュラム学習による身体エージェント訓練の最前線やったけど、現実世界からはほど遠い感じやった。ほとんど漫画みたいやった。250億のタスクをモデル化できたけど、まだ手作りやった。特定ドメインのルールに制約されとって、不安定やった。
簡単なプロンプトで、エージェント訓練用のインタラクティブな世界を何でも生成できるって想像してみいや。
Genie 1からの進化
去年ICMLでAshley Edwardsにインタビューした時のことを思い出してくれ。これが最初のGenieバージョンで、30,000時間の2Dプラットフォーマーゲーム録画で訓練されとった。次のフレームを生成する時、遠くにあるオブジェクトは近くのオブジェクトより遅く動く。これはゲームでよく見られる効果で、奥行きをシミュレートできる。わしらが物の動きを観察する時もそうや。遠くのもんは遅く動いて見える。だからモデルがそれを学んだんや。物理世界をそんなに上手く理解できるなんて、こんなに早くそこまでできるとは思わんかった。
Genie 1の核心的革新は、生の映像を処理可能なトークンに変換する時空間動画トークナイザーと、ラベルデータなしで意味のあるコントロールを発見する潜在アクションモデル、そして未来の状態を予測する自己回帰ダイナミクスモデルやった。
潜在アクションモデル、つまり教師なしアクション学習が核心的革新やった。Genieはゲーム録画のフレーム間変化を分析するだけで、異なる環境で一貫した8つの離散アクションを発見した。つまりジャンプとか左移動の意味を、それらのアクションで明示的に訓練されることなく知っとったんや。これはわしにとってOMGな瞬間やった。
オフラインのゲームエピソードから訓練してそんなことがどうやって可能やったんや?もっと驚いたのは、2.5Dパララックスみたいな創発的能力があるように見えたことや。
Genie 2の登場
たった10ヶ月後、Genie 2が3D機能とほぼリアルタイム性能で登場した。視覚的忠実度がずっと高くなった。今度はUnreal Engineみたいにリアルな照明をシミュレートできる。煙、火、水、重力、リアルゲームで見るようなほぼ何でもや。
信頼できるメモリまでついとった。何かから目を逸らして、また見た時にちゃんと覚えとるんや。これがGigachad Jack Parker Holderや。Google DeepMindのオープンエンドネスチームの研究科学者で、なんとDemisとGenie 2について話しとる。
これはわしらのチームの誰かがカリフォルニアのどこかで撮った写真や。そしてGenieにこれをインタラクティブな世界に変換してもらう。この画像でモデルにプロンプトして、Genieがこれをゲームのような世界に変換して、そこで相互作用できるようになる。それ以降のピクセルはすべて生成AIモデルが作っとる。つまりAIがこのシーンを進めながら作り上げとるんや。その通りや。わしらのチームの誰かが実際にこれをプレイしとる。
Wキーを押して前に進んで、その時点から後のフレームはすべてAIが生成しとる。去年の同じ頃、ちなみに覚えとると思うけど、DeepMindのイスラエルチームがSchlomi FruttaによってDoomエンジンをシミュレートする拡散モデルを見せた。そのシステムはGameNGenと呼ばれとった。
Doomが電卓やトースターで動くってのは、もうミーム化しとるくらいや。でもここではニューラルネットワークがリアルタイムでフレームごとにDoomゲームを作り上げとる。体力が何かわかってるのを見てみいや。キャラクターを撃てるし、ドアを開けてマップを移動できる。時々少しグリッチがあったけど、これは信じられへん。
単一TPUで秒間25フレームでDoomをシミュレートできるんや。唯一の制限はDoomしかできんかったことや。
Genie 3の衝撃
で、先週わしらはロンドンに行って、JackとSchlomyがGenie 3のデモを見せてくれた。正直、見たもんが信じられんかった。解像度は今720pで、不信を一時停止させるのに十分な「まあまあ」の領域にしっかり入っとる。
リアルタイムや。コンテキストが切れるまで数分間続くリアルワールドのフォトリアリスティックな体験をシミュレートできる。SchlomyはVO3にべったり関わっとって、GenieアーキテクチャとVOの要素を組み合わせて、わしがVOのステロイド版としか表現できんもんを作り出したみたいや。
Genie 1と2と違って、入力は今度は画像やなくてテキストプロンプトになった。柔軟性の観点からええことやって彼らは主張しとるけど、リアルな場所の写真を撮ってそこから生成することはもうできへんということでもある。
Genie 3の主要機能の一つは、環境の多様性、長い時間軸、プロンプト可能な世界イベントや。世界イベントについて、このスキー場の例で説明したる。「Genie3 Tシャツを着た別のスキーヤーが現れる」とか「鹿が坂を駆け下りる」って入力すると、そこにあるで。世界で物事が起こるんや。
自動運転車みたいなもんをモデル化する時に、稀なイベントをシミュレートできるから非常に役立つかもしれんって言うとる。でもわしは、これって結局無限後退やないかって思った。シーンで起こりうる潜在的に無限の稀なことをプロンプトするプロセスをどうやって書くんや?
湖の周りを飛び回る例を見せてくれて、それはすごかった。でもわしは「鳥はどこや?プロンプトに鳥を入力できるんか?」って思った。
エージェント訓練への応用
チームは身体エージェントにとってのムーブ37な瞬間、つまりエージェントが新しいリアルワールド戦略を発見する瞬間がまだ来てへんと信じとる。彼らはGenie 3がそれを可能にする鍵やと見とる。
でもリアルワールドは常にわしらを驚かせる。リアルワールドはクリエイティブやからや。クリエイティビティってのは、起こりうることの木が新しい枝を伸ばし続けて、葉っぱがどんどん現れ続けることや。将来的には、システムをもっとオープンエンドにする外側のループがあるかもしれん。
でも今のところ、わしの意見では、Genie 3は他のすべてのAIと同じで、プロンプトで求められたものを正確に与えてくれるけど、自分自身ではクリエイティブやない。
現在、システムは単一エージェント体験しかサポートしてへんけど、これをマルチエージェントシステムに拡張できたらどれだけクールか想像してみいや。彼らはそれに取り組んどるらしい。
わし個人的には、インタラクティブエンターテインメントの新しいモダリティに一番興奮しとる。YouTube バージョン2を想像してみいや。DeepMindは主な使用例をロボティクスシミュレーション訓練として見とって、これが真のゲームチェンジャーやと考えとる。これは妥当に思える。人間の認知とか脳の奇跡ってのは、高コストな直接的物理体験なしに世界をシミュレートするように進化したことや。
これは基本的に同じアイデアやろ。コンピューターで可能なシナリオを何でもシミュレートできるなら、なんでリアルワールドで訓練する必要があるんや?ブラックミラーのエピソードみたいにな。
特定の言語タスクをするエージェント訓練にシミュレート環境を使う例をいくつか見せてくれた。Genie 2では20秒間一貫してれば満足やって言うとった。
でも今は、何か不正確なもんに気づいた時、それはめちゃくちゃ驚きや。重要なのは、今は平均的人間の予測地平線を超えて延びとって、グリッチを見つけるのがどんどん難しくなっとることや。
Genie 2は実際にはリアルタイムやなかったって言うとった。異なるアクションを取る間に数秒待つ必要があった。低解像度で、限られたメモリで、表面的にはめちゃくちゃ良かったけど、特にフォトリアリスティックには見えんかった。Genie 3はそのすべてを変えた。
アーキテクチャと制限事項
Genieは約10秒の生成をサポートしとった。Genie 2は約20秒。Genie 3は数分間インタラクティブ環境をシミュレートできる。今回は、アーキテクチャについてもうちょっと口が重かった。
インタビューでは能力に焦点を当てたいって言うとって、それは十分理解できる。これは潜在的に兆ドルビジネスやし、Zuckがトリュフハウンドみたいに嗅ぎ回ってくるからな。
わしの一番の心配は、Zuckがこれの風を受けたらすぐに小切手帳を取り出すことや。JackとSchlomiのところ真っ直ぐ行って「おい、1億ドルや。わしのところで働かへんか」って言うで。Zuckよ、真面目にやめとけ。この人らはここで神の仕事をしとるんや。彼らにやらせといたれや。自分で作りたかったら作ったらええやんか、Zuck。そっとしといたれ。
インタビューの最後に、もし今Unreal Engine学んどるなら、別のキャリアにピボットした方がええかもしれんって冗談言うたけど、Googleの人らはかなり現実的やった。これは違うタイプの技術で、長所短所があるって主張しとって、それは公正や。この技術がどれだけすごくても、まだニューラルネットワークやし、重要な制限がたくさんあることは強調しとかなあかん。
今後の展望と課題
確かに、この技術でインタラクティブモーショングラフィックスをどれだけ簡単に生成できるか想像してみいや。これはUnreal Engine バージョン5.6で力を入れとる分野や。うちのモーショングラフィックスデザイナー、クビにせなあかんかな?
Victoria、ユーザーはこれを使えるようになるんか?すぐにはあかん。これはまだ研究プロトタイプやし、明らかな安全性の懸念を考えると、テストプログラムを通じて段階的に公開していく予定や。
昨日の記者会見で一つ質問が出たんやけど、古代の戦闘を生成できるかって聞かれて、Schlomiはそういうデータでは訓練されてへんから、まだできひんって言うとった。つまり、特定の歴史的戦闘は確実にあかんということや。
まだいくつか制限があるように聞こえる。こんなシステムが完全に信頼できるようになることなんてあるんか?より良いモデルでは、どんどん正確になって、グリッチが少なくなって、さらなる改善が期待できるって言うとった。「これがモデルが最悪である最後の時や」って鬱陶しい表現があるけど、わしが言うたように、たくさんのプロンプト拡張を使ってエッジケースを生成できるけど、結局無限後退かもしれん。
起こりうるすべての稀なブラックスワンイベントをどうやって思いつくんや?
何のデータで訓練されたんや?これについてもかなり言いにくそうやった。YouTubeの全部とそれ以外にもたくさんで訓練されたと仮定するのが安全やろ。
このもんはどれくらいの計算が必要なんや?それを聞いたけど、ちょっと曖昧やった。TPUネットワークで動いてるって言うとったから、めちゃくちゃ大量の計算が必要やと推測しとる。でも、わしの前でデモされたのは言える。めちゃくちゃレスポンシブやった。プロンプト入れて、約3秒考えて、そしたらもう入れて、ちゃんと動く。
Genieがエージェント訓練に使えるって言うたように、クールなことも話してたけど、エージェント自体がGenie 3をより良く訓練するのに使えて、反復改善の好循環を作れるんや。世界を歩き回ってて、道路を渡ろうとする時、例えばドライバーの合図をチェックする。横断歩道がないかもしれんし、いつ止まるべきかを知る必要がある。
彼らが減速してるのが見える、それが行くタイミングや。他のエージェントもそんな風にシミュレートされるべきや。Gen 3や他の類似モデルは、少なくとも訓練ループやデータキュレーション、評価での人間フィードバックなしには不可能やろ。
メモリとテキスト機能
Prolificは人間データプラットフォームで、今日このビデオをスポンサーしてくれとる。わしはEnzoや。Prolificで働いてて、データとAIのVPや。AIデータ研究などすべてをサポートしとる。知らん人のために言うと、Prolificは学術研究者から、AI業界の小さなプレーヤーから大きなプレーヤーまで、すべてと働く人間データプラットフォームや。prolific.comにアクセスしてくれ。
これが黒板でG3メモリテストをやってるデモや。リンゴとカップがあって、それから外に出て、窓の外を見ると数台の車が見える。このテストの目的は、大言語モデルと似たような概念で、そんなに長いコンテキストウィンドウを持ってるから、数分前であっても生成したすべてのもんをまだ覚えとるってことや。黒板がここにあって、見上げると、そこにある。覚えとった。「gen3メモリテスト」って。
このモデルはテキストなんかでもV3より良いことに気づいた。インタラクティブにして、これだけ洗練されたもんにするためにモデルをダメにすると思うやろうけど、動画生成モデルとしても、いろんなことをやるのにV3よりほぼ良いように見える。
開発チームとの対話
わしはSchlomi Fer。Google DeepMindの研究ディレクターや。Veoの共同リーダーで、Googleで約11年働いとる。最近は拡散モデルのいろんなモダリティ、画像、動画に取り組んでて、今取り組んどることについてもっと話すで。
わしはJack Parker Holder。Google DeepMindのオープンエンドネスチームの研究科学者や。元々はオープンエンド学習とオープンエンドネスに取り組んでて、最近は世界モデルに取り組んどる。
ここはロンドンのGoogle DeepMindで、みんながわしに何かをデモしてくれたんやけど、これまで見た中で一番印象に残ったと思う。パラダイムチェンジな瞬間やと思う。Schlomi、この新しいバージョンのGenieについて教えてくれへんか?
世界モデルの進化
そうや。Genieはわしらの最も能力の高い世界モデルや。世界モデルってのは、基本的に環境がどう進化するか、そしてエージェントの異なるアクションがこの環境にどう影響するかを予測できるモデルのことや。
Genie 3では、世界モデルの能力を新しいフロンティアまで押し上げることができた。つまり高解像度、ずっと長い時間軸、より良い一貫性、そしてそのすべてがリアルタイムで、基本的にエージェントでも人でも、システムと相互作用する者が、生成がリアルタイムで起こる間に歩き回って、ナビゲートして、影響を与えることができる。
Genie 3は馬鹿げとるほどすごいな。完全に別次元や。でもGenie 2の文脈で説明しとこか。Genie 2って何やったんや?
ええ質問やな。Genie 2は、基礎世界モデルって当時呼んどった、かなり新しい分野での2年間の研究の集大成みたいなもんやった。
過去には、世界モデルは単一の環境をモデル化しとった。2018年のDavid HaとJürgen Schmidhuberによる代表的な世界モデル論文は、主要な環境であるカーレーシング環境をモデル化しとって、その一つの環境だけをモデル化できた。その一つの世界で任意のアクションが与えられた時の次の状態を予測できた。
GoogleのDeepMindのDagarによるDreamerシリーズでも、Atariゲームや他の環境でも同じようなもんを見てきたけど、新しい世界を作れるもんは誰も作ったことがなかった。Genie 1の本当の新しさは、初めて完全に新しい、以前は存在しなかった世界をプロンプトで作成できるモデルを持ったことやった。
でもそうは言うても、かなり初歩的やった。低解像度で、数秒しか遊べへんかった。エージェントは欲しい長期的行動を学習できんかったし、多様性もまだかなり制約されとって、何らかの画像プロンプトが必要やった。
Genie 2では、それを次のレベルまで押し上げた。ずっと大きな3D環境の分布で訓練した。90pから360pに移行した。今見とるもんに近づいたけど、まだ表面をひっかいとるくらいやった。わしらが見てきた他の手法のようにこのアプローチがスケールできるかわからんかったからや。
研究の観点から本当にテストしたかった。でも今年は本当に次のレベルに持っていきたかった。それがわしらがやったと思うことや。
そうや。そして今は720pや。インタラクティブや。Genie 2はインタラクティブやなかった。十分速くなかった。
スティーブ・ジョブズがタッチスクリーンには何か魔法があるって言うたやろ?何か魔法があるんや。そしてもちろん、インタラクティブになった時に魔法が起こる。見せてくれたデモのいくつかは狂っとった。
フォトリアリスティックで、VOの融合みたいなもんで、リアルワールドを理解して、インタラクティブなリアルワールドの基礎モデルを構築できるんや。それは驚異的で、見せてくれた例について教えてくれへんか。
VOや、もっと一般的に動画モデルについて言うたことは正しいと思う。ある意味では世界モデルとして考えることができるけど、実際に完全にインタラクティブにナビゲートしたり相互作用したりすることはできへん。それがGenie 3で解決しようとしとる動画モデルの制限の一つやと思う。
見た例では、Genie 3が体験を生成して、フレームごとに見るもんを生成するから、それを使うユーザーやエージェントが、非常に低遅延で基本的に行きたい場所をコントロールして、環境を探索して、動画モデルのように事前定義されてへん新しい軌道を作ることができる。
例えば見た例では、この動画のキャラクターやエージェントが歩き回って、たぶん前に行ったことがある場所に戻ったりして、すべてが一貫しとる。これはモデルの非常に注目すべき性質や能力やと思う。非常に長い軌道に沿って環境の一貫性を保つ能力や。
技術的詳細と創発的特性
そうや。Genie 2でもある種のオブジェクト永続性と一貫性があったけど、今持っとるもんには全然及ばん。それについてはすぐ戻るけど。
Genie 3のアーキテクチャについてはあまり言えへん。でもGenie 2には時空間変換器、つまりViTとかなり似た概念的なST変換器があって、潜在アクションモデルがあった。つまり非インタラクティブデータからでも、ある低濃度のアクション空間を推論できて、それらがダイナミクスモデルに入力された。
アーキテクチャについて言える興味深いことは、問題やセットアップのインタラクティブな性質のために、モデルが自己回帰的やないってことや。つまりモデルがフレームごとに生成して、以前に起こったすべてのことを参照せなあかん。
例えば、講堂や他の環境を歩き回っとって、既に行ったことがある場所を再訪する場合、モデルは振り返って、この情報が次のフレームで起こることと一貫しとる必要があることを理解せなあかん。
興味深い点は、ここではすべてが創発的やってことや。一貫性は創発的や。明示的なもんは何もない。モデルは明示的な3D表現を作らへん。NeRFsやGaussian splattingみたいな他の手法と違って。その創発的能力は非常に興味深くて、わしらにとって驚きやった。
そうや。Genie 2でもパララックスみたいな創発的能力があって、ある種の照明をモデル化できたりしたけど、これはもう頭がおかしくなるくらいや。去年のDoomシミュレーションにも関わっとったな。
そうや。それも頭がおかしくなるほどや。わしらみんな1993年にDoomをプレイした。John Carmackの最高傑作の一つやった。今はサブシンボリックなニューラルネットワークモデルがあるって言うとる。世界の明示的なモデルはない。ドアがどこにあるか、湖がどこにあるか、マップがどこにあるかわからん。この空間を通るサンプルとか軌跡を取って、ピクセル空間でゲームを生成するだけや。
これは本当に、Doomや他のゲームを明らかにプレイしてきたし、十代の頃にゲームエンジン開発にも少し取り組んだことがある。このプロジェクトで本当に気に入っとることは、実際に一貫した3D環境を生成するモデルを動かせるようになったことや。ゲームエンジンみたいに、Doomシミュレーションで、GPUやTPUで動く。過去には同じハードウェアでゲームエンジンを動かしとった。
本当に興味深いことで、わしにとってこの輪が閉じた感じや。特にGameNGenの場合、リアルタイムインタラクティブな側面を押し進めようとした。
基本的に、拡散モデルがゲーム環境を端から端まで明示的なもん、コード、何もなしにシミュレートできるか、実際にピクセルを生成してユーザーからの入力を受け取る以外は何もなしに、って言うたんや。うまくいくかわからんかった。この種の研究では試してみて、うまくいかんで、それから突然何かが起こって、うまくいくのがわかる。それは非常にやりがいのある瞬間や。
この場合、人々が見た時の、わしが思うに受け入れられ方が少し驚きやった。リアルタイムインタラクティブ能力について何かがあって、「おお、実際にこの環境、たぶん生成された環境に歩いて入って、実際に体験できるんや」って想像力をかき立てるんや。それは一つの瞬間やった。
後で考えてみると、シミュレーションのリアルタイム性にワクワクしとった。それをより高品質で、より汎用的なシミュレーションに持っていきたかった。
確率的システムと一貫性
Jack、100万ドルの質問の一つは、言語モデルでも、この温度パラメーターで確率的にサンプリングされとるってことや。ここでも同じや。Genie 2では、ダイナミクスモデルがこのマスクされたGiTを使って、反復的に実行されとった。
確率的なニューラルネットワークなのに一貫性があるって、どうやって辻褄を合わせとるんや?こっち見て、振り返って、また同じとこ見ると、そのもんが戻っとる。サブシンボリックで確率的なモデルが、明らかに一貫した世界の固定マップを与えてくれるって、ちょっと変やない?
本当にええ質問や。たぶん言語モデルと似とって、世界について一貫しとってほしい基本的なことがあるんやと思う。言語モデルでも、確率的モデルやって言うたように、コンテキストで事実として述べられたことがあったら、たぶんまだ正しく思い出すやろ。一方で新しいことは、変更する自由度がより多いかもしれん。
だからGenie生成世界みたいな世界では、動き回ったら、たぶん新しいもんにはある程度の確率性があるやろうけど、一度見られたら、その時点から一貫しとるべきや。モデルがこの確率性をいつ使うかを知っとるからで、これは訓練するスケールからの創発的特性や。
世界モデルの評価と応用
創発の議論は保留しとこう。この前David Krakauerとの会話について話したけど、そこには行かんとこうか。もう一つ本当に興味深いことは、David Haが2018年にSchmidhuberと世界モデルのことを言うたって話で、プレゼンテーションで世界モデルを本質的に何かのダイナミクスをシミュレートできるもんとして定義したな。
世界モデルがシステムのダイナミクスをシミュレートするなら、例えばそれをどうやって測定できるんや?
世界モデルの品質を正確に測定するのは非常に難しいと思うし、特に視覚的生成については、画像モデルや一般的な生成モデルでは、品質を測定するのが非常に難しい。かなり主観的やからや。
LLMについては実際により良い状況にある。まずもちろんパープレキシティがある。次のトークン予測問題やけど、後で実際に気にするタスクでどう動作するかを気にする。例えば、様々なタスクでの下流性能を測定する。
でも世界モデルについて、今日は主に視覚的側面に焦点を当てとるけど、世界は視覚以上のもんやってことを強調するのが重要や。でもGenieでは、世界の視覚的相互作用に多くが捉えられるから、それにもっと焦点を当てとる。
モデルがどれだけうまくやっとるかを測定することは、コンテキストと後でどう使いたいかに本当に依存する。モデルを評価する時はそれを念頭に置かなあかん。
特に重要やと思う一つの特定の応用があって、それは実際にAIエージェントをシミュレーション環境で訓練して相互作用させることや。
シミュレーション背景からもっと来とるけど、シミュレーション環境でエージェントを訓練することは元々の背景やなかった。でも過去数年間で、DeepMindの長い間それを探索しとる他の人々との相互作用を通じて、そこにどれだけの可能性があるかをどんどん実感するようになった。
本当に考えてみると、AIは物理的実験を行う能力によって制限されるやろ。新しい薬や新しい治療法を開発したいと想像してみいや。道の各ステップが数ヶ月かかる場合、リアルワールドで本当にそれはできへん。何かを組み立てる方法を学びたい場合も同じで、リアルワールドでロボットを訓練せなあかんかったら、非常に長い時間がかかるかもしれん。
だからリアルワールドのシミュレーションが本当に鍵で、それがG3でもうちょっと押し進めたいと思うことや。
ロボティクスへの応用と未来展望
非常にワクワクする。最近あるスタートアップと話して、ロボティクスをやっとる人がポリシーをダウンロードできるモデルプラットフォームがある未来を描いてくれた。工場におって、この特定のことをするポリシーが必要や、みたいな。
でもちろん、リアルワールドデータを得るのは非常に希少で困難やから、マーケットプレイスがあって、みんなが自分のポリシーを訓練して、市場で他の人に売るって想像しとった。これは少し違うビジョンや。
今は世界基礎モデルがあって、基本的にこの状況で、この特定のことをするロボットポリシーが必要やって言える。だからジョブをスピンオフできる。ポリシーを作成して、出発や。それで大体合っとる?
それがわしらが持っとるビジョンやと思う。ロボティクスでは特に、かなり制約された設定でロボットを展開することに多くの焦点が当てられとる。例えば、非常にステージングされた誰かのアパートや。ポッドキャスト収録と同じくらいステージングされて、すべてのサポートスタッフがこのロボットが一つの目標を達成するのを見守っとる。
制御の観点からは非常に印象的かもしれんけど、置かれとる世界の確率性という点では非常に限られとる。シミュレーション環境を見ると、物理を正確にモデル化するかもしれんけど、天気や他のエージェント、動物みたいなもんは確実にモデル化せえへん。
一方、Genie 3みたいなモデルは、物理を超えて実際に他のエージェントの行動まで拡張する世界知識を持っとるから、最初に見せた世界イベントの例で示したように、実際にプロンプトできる。実際に別のエージェントが前を横切るとか、鹿の群れがスキー場を駆け下りるとかをプロンプトできる。
これらが、ロボットがリアルワールドで大規模に展開されるために必要な種類のもんやと思う。リアルワールドは基本的に人々や他のエージェントによって居住されとって、これは汎用世界モデルでの訓練から得られるもんで、安全な方法でもこのデータをスケーラブルに得るための他のアプローチはないと思う。
安全性は重要な要素で、実際にリアルワールドでエージェントを展開することなく、現実的な方法でもんをシミュレートできるからや。
それは非常に重要な詳細やった。プロンプトイベントを入れることができて、スキー場を滑り降りる人がおって、そこにGemini Tシャツを着た男がおるって例をくれた。
ここで考えとることは、もしこれらのロボットポリシーを訓練するなら、たぶんある種のカリキュラム学習と多様性が必要やろうってことや。シンプルな環境から始めて、それからGemini Tシャツの男を加えて、それから車が来るかもしれんし、現実にはある種のメタプロセスがあって、複雑さの勾配を作って、環境を多様化するかもしれん。Ken Stanleyの論文、POETの論文でそんなことをやっとるのが好きや。でもそれはかなり合理的な直感か?
Genie 3みたいな世界モデルが実際にAI研究でどう使われるかを正確に言うのはまだ早いと思う。方向的にしか言えんと思う。他の生成モデルでも見とることやけど、実際にそこにあることを発見する能力があって、相互作用開発を通じて創発するのを見る。
例えば、数日前に、写真に何かテキストを書いて、それをVOに提供すると、テキストを読んで空間的指示にも従うってことを共有した。これは必ずしもモデルを明示的に訓練してやらせたことやないけど、できるんや。
ここでも同じで、探索しとるGenie 3の能力はまだ新しいもんを発見しとって、それは既にプレビューを共有してフィードバックをくれた外部テスターを含めて、より多くのテスターやコミュニティとのエンゲージメントを通じて期待しとることや。
それらのモデルがどう有用になるかをより良く見ることができて、それはしばらく時間がかかることを期待しとる。最良の応用を理解しようとしながら。
オープンエンドネスと創造性
オープンエンドネスの大ファンやし、確かに今モデルをプロンプトする時、かなり一般的やと、かなり単純な答えを得る傾向がある。コンピューターグラフィックスをやっとる多くの人が画像モデルをプロンプトする時、めちゃくちゃ具体的で、意図的に分布の尻尾に持っていって、新しくて興味深いもんを得る。
リアルワールドは常に新しくて興味深いアーティファクトのシーケンスを生成する。ランダムなNPCがスクリーンに歩いてきて、車が通り過ぎるとか。わしの直感では、Genie 3でどれだけ良くても、かなり特定のシーンを得る傾向があって、ランダムな飛行機が飛んできたり、ランダムなことが起こったりはしない。
それは本当にええ直感や。モデルは与えられたテキストプロンプトに非常に整合しとるのは確実にそうや。だからシーンを記述するテキストプロンプトの品質に多くの重点が置かれる。
でもわしはそれを制限やとは見ん。強みやと見る。まず、本当にクールな世界を作るのに、まだ多くの人間的スケールが関わっとるってことや。見せた例のいくつかで、これらのモデルで素晴らしいことができる非常に才能ある人々がおる。そこに実際に多くの付加価値があって、実際に既にクリエイティブな人間を新しい方法で増幅できるツールなんや。
わしは最善やないし、これを本当にうまくやれる人を見ると、それは本当に印象的や。でも反対側から、エージェントの観点からも、エージェント用の環境設計について話しとって、POETに言及したけど、それはわしにとってPOETとWorld Modelsが最終的に衝突コースにある二つの論文やった。
基本的にそれがわしが研究キャリアを始めた理由や。POETは環境符号化が8次元ベクトルやったから根本的に制限されとったと思う。興味深さの概念も本当になかった。
最近のJeffとのインタビューで、彼は明らかにこの問題が基礎モデルでほぼ解決されたって話した。これらの基礎モデルは、人間の知識の肩に立つことで何が興味深いかを定義できるだけやなく、Omni Epicみたいなもんで世界の生成を導くこともできる。
その場合はコードを通じて行われる。でもここではテキストも基盤としてある。理論的には、言語を使うこれらの種のオープンエンドアルゴリズムは、実際にこの種の興味深さの概念を持って、エージェントがその空間を通じてタスクを導く非常に強い場所になり得る。
これが根本的なことやと思う。確かに今のクリエイティブモデルでは、変に逆説的やけど、何か興味深いことをやらせるのに以前より多くのスキルが必要や。
YouTubeでサムネイルを作る人の平均的なクリエイティブプロセスは、コンテンツモデルを使って、アップスケーラーを使って、それから別の画像生成モデルを使うかもしれん。起こる操作の巨大な構成ツリーがあって、これらのモデルの生成を制約する構造の多くがまだわしらの世界の抽象的理解から来とるから、非常に高度なスキルが必要や。
これはKenneth Stanleyが言うとったことの一種で、対称性や様々な異なるルールみたいなもんによって制約された世界の理解があって、それからそれらのもんを使ってモデルにヒントを与える、プロンプトでモデルを制約するって言うとった。
モデルは人間がプロンプトする必要なしに、それをできるようになることはあるんか?
興味深いのは、最終的に人間が興味深いと思うもん、見る価値があるとか、調査したり研究したりする価値があると思うもんは、最終的に人々によって定義されるってことや。例えば動画生成の場合、人々は行って、わしらが目の前に置いたツールを使って新しいもんを生成する方法を見つける。
例えば、ガラスでできた果物を切るASMR動画を作る人がおる。これはリアルワールドではできへんことや。新しさは基本的にプロンプトから来る。それが言うとることやと思う。
世界モデルの場合でも似たような場所にまだおると思う。歩いたり体験したりしたい世界の記述を提供せなあかんけど、いくつかの要素は創発したり、提供するプロンプトから推論されたりする。
非常に短いプロンプトを書けるかもしれんけど、世界はずっと豊かさを持つ。その豊かさがどこから来るんかって疑問があって、モデルがこの豊かさを体験に持ち込む能力のレベルが違うと思うけど、時間が経つにつれて、どんどん高くなって、ユーザーが提供する少ない情報で実際に非常に豊かな動画や体験を生成できるようになる。
進化する答えやと言いたい。時間が経つにつれて、モデルへのより多くの入力、種を提供する人と考えることができて、その種からもっと精巧な記述を生成して、最終的に体験を生成できるようになることを期待しとる。
一歩のプロセスやなくて、一連のクリエイティブステップのようなもんで、それぞれが人やAIモデルによってできて、一緒に何か新しいもんを生成するってふうに考えん。
未来のエンターテインメントプラットフォーム
そしてそれがTwitterで起こっとることや。クリエイティブプロセスは生成して識別して生成して識別するってもんで、うまくいくプロンプトをすべてミーム的に共有する。だからこれらのモデルの空間を探索する美しいクリエイティブアーティファクトの素晴らしいコレクションを作ったんや。それは美しいし、未来について考えとる。
たぶんこれについて推測できへんやろうけど、これは次のYouTubeになり得る。新しい形のバーチャルリアリティになり得る。哲学には体験マシンってもんがあって、このより良い人生のマトリックスシミュレーションに自分をプラグインして、実生活より良いから誰も体験マシンから出たがらない。
でもわしらはそんなもんを共同創造できるやろ?電話やVRヘッドセットにあって、これらの世界と世界間のポータルを作って、終わりのないシミュレーションになるやろう。
それはええ質問や。数歩戻ると、生成モデルが本当に能力を持つようになる前のこの分野で本当にインスパイアリングな思考実験の一つは、PickBreederみたいなもんやった。その場合は非常にシンプルなアイデアで、基本的に画像を進化させるだけやった。
多くの人が期待してへんかったと思うような、驚くほどクリエイティブなもんがその実験から創発した。時間が経つにつれてユーザー好みを進化させるだけで、美しい画像が創発した。
ソーシャルメディアプラットフォームでプロンプトを共有したり、人々がアイデアを生成して、それが異なる方法で創発したり、異なる方向に行ったりする現代の類推を確実に見とる。人々がスタンダップを生成するVOの例みたいに、突然その分野でワクワクするコンテンツがたくさんある。
Genie 3でやったことは、この種の創造性が起こり得る別の形、別のプラットフォームやモデルのタイプを作ったことで、予期しないワクワクすることにもつながり得るってのは確実に言える。
でもこの時点で、それが正確に何になるかについてあまり推測できん。面白いはずやし、人間はたぶんクールなことをするやろうって言う以外は。
意識と具現化された知能
この前Kennethと、彼は神経進化の大ファンやから、進化自体を表すアルゴリズム、興味深いコレクションを探索する方法として進化を作ることに傾いとるかどうか議論した。
わしにとって、PickBreederは教師ありの人間模倣学習の一種やった。わしらが持つ制約と認知の反映みたいなもんやった。わしは少し外在主義的に傾いとる。だから意味論の多くは、世界との具現化された物理的相互作用についてで、たぶん浸透によってわしらの脳に表現されるんやと思う。
その立場はあるか?純粋なニューラルネットワークが世界をシミュレートすることで、同じように世界を理解できると思うか?
たぶん最初に没入や、この種のモデルを実際に没入に使う可能性について話そうか。これはまだ非常に遠いと思う。視覚的側面がかなり主要やって前に言うたけど、ピクセルを生成しとって、3では音声も追加したけど、わしらの具現化された存在はそれよりずっと多い。
時々それが失われることがあると思う。最終的にわしらは人として多くを感じて、歩き回る。他の感覚もある。今どこにおるかって感覚もある。そしてもちろん、ロボットにも適用される物理的相互作用も。
だから今おるところと、具現化されたエージェントにすべての情報を提供できる世界の本当の完全シミュレーションを構築するところとの間には、まだ大きなギャップがある。
そこには確実にギャップがある。それは興味深いけど、わしらがまだその点で非常に遠いことを示しとる。でもJackが言うたように、この種の体験を構築して、人々が一緒に体験を構築して、一緒に世界を探索しようとするのを見る。それはわしらにとって非常に興味深い方向や。
マルチエージェントシステムと創発
多くのことを話すことがある。一つの重要なステップは、このマルチエージェントシミュレーションのことやろな。かなりの人が、特にDavid Krakauerがこれについて話した。創発的知能の多くは、様々なトリックを通じて時間をかけて情報を蓄積できるシステムがある時の粗視化についてや。
最終的に神経系と文化と言語を発達させて、それによってDNA進化速度っていうハードウェアを超えて情報を蓄積できるようになった。だから光速での進化や。Max Bennettが『知能の簡潔な歴史』でそれについて話した。脳と文化の進化の多くが、直接的物理体験を必要とせずに情報を伝播することについてやった。だからわしらは暗黙的にシミュレーションを共有できる。
これらのマルチエージェントシミュレーションの構築を始める時、個々のエージェントの寿命にほとんど関係なく、システムが情報を蓄積して、シンプルなシステムではできないエージェンシーとダイナミクスの形を発達させるような似たようなことが創発するかもしれんと思うか?
本当にええ質問や。今のGenie 3の観点から見る方法は、マルチエージェント世界やけど、単一エージェント設定でしかコントロールできないってことや。世界についてのマルチエージェント性の多くは、周りのシミュレーションに焼き付けられとる。コントロール可能なエージェントというより、世界の追加キャラクターみたいなもんや。
世界イベントで、欲しければコントロールできる。実際に他のエージェントが何をしとるかコントロールできるけど、そうでなければ常に重みに暗黙的に含まれとる。見るのは、ある種の自然な行動や。群衆を歩けば、人々が道をあけてくれる。
運転世界を作れば、運転する時に他の車が賢明に動く。実際の質問に戻ると、システムが自分自身から自己起動して、システム内の異なるエージェント間で学習することを学ぶって言うとる。
今の見方では、モデルの人間行動の知識が自己中心的エージェントに蒸留されるってことや。これは他のシミュレーションツールでは本当に得られなかった非常に強力なもんや。他のエージェントがわしらがするように動き回るなら、心の理論みたいなもんを学ぶ方法になるかもしれんと思う。
例えば、世界を歩き回ってて道路を渡ろうとする時、横断歩道がないかもしれんし、例えばドライバーの合図をチェックする。いつ止まるべきかを知る必要がある。彼らが減速してるのがわかる。それが行く時や。他のエージェントもそんなふうにシミュレートされるべきや。
実際に、リアルワールドに展開されることの安全リスクがあって、自分の経験から学習しとるエージェントでやるのはたぶん賢明やない。この種のモデルで考えとることは、エージェントが心の理論、人間のような他のエージェント内でどう動作するかってこの種の社会的合図を本当に学習できるけど、モデル自体がエージェントが経験を集めることから学習し返すってことやない。それは将来のステップかもしれんけど、この研究ではまだ考慮してへん。
知能の分散と協調
興味深い。Schlomy、それについてどう思う?確かにわしらはツール、セックスとGPS、コンピューター、計算機、いろんな異なるもんを使う。豊かなマルチエージェントシステムを構築したら、あるいは今の人間とLLMを見ても、そのシステムでの知能の座をどこにあると思うか?
いろんなタイプの知能があって、知能を理解して構築することを進歩させる中で、知能の異なる次元に沿って異なるタスクを達成できる、最初は別々のモデルを構築することになると思う。前に言うたように、世界を生成してシミュレートすることは、人ができることやないと思う。わしらは世界モデルを持っとるって人は言うけど、確実にVOやGenie 3と同じ世界モデルや能力は持ってへん。本当にシミュレートできへん。
一連の出来事を話してもらっても、ピクセルは出力せえへん。環境で何かが起こったら、もっと低いレベルの詳細で何が起こるかを想像して、それに応じて計画できるけど。
だから、それらのモデルがどう動作するかと完全に並行してるとは言えんけど、数年前にテキストから動画を生成できるようになるって来て言われたら、「意味がわからん。数年で起こるとは思わん」って言うたやろうけど、起こった。
自動運転車みたいに、人が思ったより早く起こると思われてたけど、思ったより早くは起こらんかった他のもんもある。だから異なるタイプの知能が異なる方法で進歩したと思う。
本当に興味があるのは、これらのタイプの知能がどう一緒に働けるかを見ることや。例えば、以前に可能やったより異なるレベルで世界をシミュレートできるモデルと、世界について違う、たぶんそれほど視覚的やない方法で推論できるGeminiみたいな他のモデルがあって、それらを一緒に持ってきた時、何が起こるか。
実演したGeminiエージェントがGenieと相互作用する例では、それらは完全に別々に訓練された二つの別のモデルやけど、一緒にされた時、たぶん新しいことを達成できる。それについて本当にワクワクしとる。
認知的境界と詳細レベル
720pで、Genie 3がこれらの没入的なもんを作っとったってのもある。動画編集者として知っとるように、没入的って言葉を意図的に使ったのは、それがちょっとした錯覚やからや。
消費者の予測地平線を超えたクリエイティブアーティファクトを作ろうとして、それから彼らが不信を一時停止する。ある意味では、観察者として認知的に境界があるんや。世界を巨視的に見る。椅子は見るけど、粒子は見えへん。だから世界は異なるレベルで記述を持てる。
Genie 3と相互作用する時、レベルを横断してるみたいに見えるか?何かにズームインしたら、異なる記述を持つのか、それとも何らかの方法で制限されとるのか?それについてどう考えとる?
見せた例のいくつかで、湖のそばでドローンをコントロールしとるやつがあって、木があって、非常に美しい景色がある。そのやつでは、視線を異なる領域に集中させた時、確実により詳細に注目することに気づく。
だからモデルは時々すべての詳細が必要やないことを学んどるんやと思う。実際にエージェントの焦点に努力を集中すべきや。
これはわしらがこのモデルで重視しとることから少し来とると思う。エージェント中心の、自己中心的な、しばしば三人称もできるけど、本当に世界のあなたの視点みたいに感じるモデルを持つこと。
VOの動画みたいなもんとは対照的で、それらはずっと映画的な品質でより多い。動画全体が非常に高品質やけど、G3ではしばしば世界での自分の個人的な視点のように感じる。これは非常に異なる体験やと思う。異なる詳細レベルもある。
もっと抽象的な表現みたいなもんについては、正直まだ探索しとるところや。でも確実に少し異なる感じがある。特に得ることが多い一人称視点を体験する時には。
それについてどう考えとる?これらの不可解なモデルがどう動作するかを知るのは非常に難しいけど、世界を複数の解像度レベルでシミュレートしとるって直感するか?
本当に興味深い質問で考え方や。動画モデルや例えば流体力学や現実の他の側面のシミュレーションを初めて見た時、実際にシミュレーション全体を実行するのと比べて、そんなに少ない時間や計算でどうやってそれが可能なのかって思った。
だからモデルのまず驚くべき側面やと思う。でもいくつかの制限も伴う。モデルが基本的に見た目が良くて、合理的にリアルに見えるようにシミュレートする方法を見つけるってことを見とると思う。
動画モデルでも見とるけど、良くなるにつれて、その種の近似もさらに良くなる。そして、動画モデルとの違いについて考える良い機会かもしれん。
環境をインタラクティブにシミュレートするとずっと難しくなる。例えば、何かの表面に水をこぼす誰かの動画を生成したい場合、モデルが動画モデルなら、試してみて動画全体を端から端まで生成できる。過去と未来を同時に修正できて、最終的にリアルに見えるかもしれん動画を得る。
でもGenie 3では、インタラクティブモデルやから、それを制御するユーザーやエージェントが介入することを決められる。異なる角度から見ることもできるし、フレームごとに因果的な方法でシミュレーション全体を作らなあかん。それがモデルにとって問題をずっと難しくする。
基本的に過去を変更できへん。リアルワールドみたいに、過去が起こったら変更できへん。そこでより良い物理的シミュレーションを見ることを期待しとるけど、それもずっと挑戦的にする。
現実の異なるレベル、例えばズームインして分子を見るとかって質問は、リアルワールドで実際に起こる計算の量を強調しとると思う。もし完全にシミュレートしなあかんかったら、たぶん不可能やろうけど、モデルはある程度までそれを近似する方法を見つけて、観察者であるわしらには合理的に見える。
計算制限と可変思考
別の興味深いことは、わしらは思考ってもんをやってて、ニューラルネットワークが大まかに計算的に制限されとることを知っとることや。一定時間内に一定量の計算をするように訓練できるってことで、たくさんのことはできるけど、例えばルービックキューブを解く誰かをシミュレートした場合、何らかの理由でそれをやるのに十分な計算がないかもしれん。
特定のタイプのことをやるために、それについてもっと考えることができる可変計算バージョンを作る機会はあるか?
本当に興味深い質問や。チームの何人かもこれについて話しとった。例えば、将来モデル内でコードを書くことができるようになりたい場合、その特定の時点で、たぶん異なるアプローチが必要やろ。
非常に良いコードを書けるモデルが今はかなり広く利用可能やと思う。例えば、IMOで金メダルを獲得できるモデルもある。たぶん最終的にシミュレーション内でそれができるようになりたいやろ。それが次のレベルかもしれん。物理的タスクと思考ベースのタスクのこれら二つの異なるタスクを融合できる具現化されたエージェントを本当に開発できるようになることや。
ある時点で、たぶんその隙間を埋める必要があるやろ。でも今は、視覚的品質ともっと物理的シミュレーションにずっと焦点を当てとると思う。数学やコードタイプの問題より、それらは通常もっと思考スタイルのモデルを持つ。
でも確実に興味深い質問やと思う。モデルは確実にその中に物理的知識を持っとるけど、モデル自体がそれを記述できるかわからん。たぶん重みのどこかに暗黙的に持っとるだけや。
だから別のエージェントは実際にモデルから物理的世界について学習できるかもしれんけど、モデルは必ずしもそれを知らんし、教えることもできんけど、重みのどこかに暗黙的に持っとる。
興味深い二重性の一種がある。エージェント環境のことに戻るけど、わしらの信念では、今は異なる強みに焦点を当てることができるモデルを持つのがナイスなセットアップで、未来をシミュレートすることと現在を理解して思考することや。
統合モデル対専門モデル
その哲学についてSchlomyはどうや?ある意味では、言語モデルよりもさらに高解像度なもんを構築した。だから原理的には、言語モデルができるすべてのことが、今Jackが言うたように、こんなモデルから創発し得る。
だから哲学的には、すべてをやる巨大なモデルを構築するのか?
わしは通常これを実用的な観点から考えとる。すべてをやる一つのモデルを持つべきやって純粋主義的なアプローチは確実にある。でも現代機械学習の挑戦の多くは、実際に構築することから来ると思う。それらのもんを構築して、訓練して、推論を実行するための多くのエンジニアリングとソフトウェア、ハードウェア設計がある。
実際にそれらのシステムを設計しようとする時、多くの制約があって、それらの制約が基本的にモデルにやってもらいたいことを優先せなあかん方法を課す。
特にGenie 3では、リアルタイム能力を持ってきとる時、リアルタイムは基本的に非常に高速でフレームを生成せなあかんってことで、相互作用する人やエージェントが実際にこれは移動できてモデルの応答性を感じられるように、毎秒複数回や。
それがモデルにいくつかの制約を設ける。実際にどれくらいの容量があるかに。だからわしらが議論したすべての知能の側面を包含する一つのモデルを持てるかって質問については、わしらが持つ要求のセットに帰着すると思う。
リアルタイム相互作用を気にしないなら、たぶんそれができるかもしれん。実行するのにどれくらい高価かみたいなもんを気にしないなら。でも最終的に、理論的演習として終わるだけやないモデルを構築しようとしとる。実際に人が使えるようにして、実際のアプリケーションを進歩させるために持ってきたいと思っとる。そこでそれらの決定をせなあかんし、最終的に強調したい能力のタイプを選ぶ。
Sim-to-Realギャップの解決
非常にクール。20秒の答えで、Jack。Sim-to-Realギャップはあるか?
それをどう定義するかによる。現在Sim-to-Realは実際にはちょっと混同された用語やと思う。人が現在やっとるのはもっとSim-to-Labや。本当に現実のSim-to-Realは、Genie 3みたいなフォトリアリスティックな世界シミュレーションツールでしか本当に達成できんと思う。
だからこれは実際にそれを解決する方向への大きなステップやと思うか?リアルワールド物理を持つが他に現実的なもんは何もない非常に制約されたラボのような状況やなくて、人や他のエージェントが一般的に動き回る実際のリアルワールドに入るための唯一の方法やと思う。
素晴らしい。これは絶対的な光栄やった。来てくれてありがとう。家におる人たちのために、もしUnreal Engineで開発しとるなら、転職する時かもしれんな。ともかく、乾杯。


コメント