Genie3:無限の世界モデル、シュロミ・フルクターとジャック・パーカー・ホルダーとの対話

Google・DeepMind・Alphabet
この記事は約38分で読めます。

この動画は、Google DeepMindが開発したGenie3という革新的な世界モデルについて詳しく解説している。Genie3は、テキストプロンプトから瞬時にインタラクティブな3D環境を生成できるリアルタイム世界モデルであり、従来のゲームエンジンを必要とせずニューラルネットワークだけで全ピクセルを予測する。研究者らは、この技術がAIエージェントの訓練環境として活用でき、教育や娯楽分野での応用可能性があると説明する。さらに、この技術は汎用人工知能(AGI)への重要なステップとして位置づけられ、シミュレーション環境でのエージェント学習や現実世界での計画立案に革命をもたらす可能性があるとしている。

Genie 3: An infinite world model with Shlomi Fruchter and Jack Parker-Holder
In this episode, Professor Hannah Fry speaks with Jack Parker-Holder and Shlomi Fruchter about Genie 3, a general-purpos...

Genie3の革新的アプローチ

どんな大きな発明でも、その前提となった技術はほぼ全部、その発明を念頭に置いて作られたわけやないっちゅう、ええ言葉があるんやけどな。将来、こういう環境でエージェントを放し飼いにして、何の目標も指定せんまま自由にさせる時代が来ると思う?

人間ってのはな、何がおもろいかを決める存在やと思うねん。数学全体の進歩でさえ、人が「次は何が面白いか、何がつまらんか」を決めて導いてきたっちゅう例もあるしな。問題が難しいっちゅうだけで、それがおもろいってわけやないやろ。

シミュレーションは絶対に必要やし、現実世界のシミュレーターを他の方法で作るのは無理やと強く信じてるねん。この2つを組み合わせたら、俺のAGIのビジョンにとって大きな一歩やと思うわ。

Google DeepMindポッドキャストへようこそ。私はハナ・フライ教授です。最新の動画生成モデルが世界中を驚かせましたね。現実とほぼ区別のつかない模倣を作り出しました。

でも動画の限界は、視聴者であって参加者やないっちゅうことやな。人間が現実世界を体験する方法とは違う。俺らは行ったことのない環境でもナビゲートできるし、何に遭遇するかの予想もできる。あらゆる方向に無制限に探索して、途中で出会ったものと相互作用できるねん。

これがこの技術の次の大きなフロンティアや。完璧な場面の記録を生成するだけやなく、俺らが実際に足を踏み入れられる世界の動的シミュレーションを構築することやな。

Genie3の技術的特徴

ここでGenie3の登場や。これは前例のない多様なインタラクティブ環境を生成できるプロトタイプの世界モデルや。もうAGIへの足がかりやって言われてるで。

今日は2人の開発者に来てもらった。研究ディレクターのシュロミ・フルクターと研究科学者のジャック・パーカー・ホルダーや。ようこそ!

Genie3を一言で説明してもらえるか?

テキストプロンプトから多様で視覚的におもろい世界をリアルタイムで作れるインタラクティブ世界モデルやな。

ゲームエンジンも構造もコードも一切ない。ユーザーの入力と過去のデータに反応して、すべてのピクセルを予測するニューラルネットワークだけや。基本的に何の時間もかけずに作れるものの柔軟性と多様性が前例ないレベルやねん。

世界を構築するために部屋にアーティストの軍団を座らせる必要がないってことやな。

そうや。想像できるどんな世界でも作れるっちゅうのがポイントやな。ゲームエンジンじゃできひんことや。

デモを見せてもらえるか?

いくつかあるで。最初のやつは気に入ってもらえると思う。基本的に猫を演じるやつや。茶トラ猫やな。そんなに上手やないけど。今動かしてみるわ。猫でいることをプロンプトで指定したんや。

これが入力に反応してるんやな?

そうそう。モデルは入力のシーケンスに基づいて次に何が起こるかをリアルタイムで予測しようとしてるねん。

見た目だけやと、普通にビデオゲームをロードしたのと変わらんように見えるけど、何が違うん?

テキストからの生成とインタラクション

大きな違いはテキストから生成されてることやな。すべてのピクセルがモデルから生成されて、ピクセルを予測してるだけや。

この3D環境で見える細部も、V-oで見るようなものに似てるな。相互作用してるって知らんかったら、どう違うん?

V-oで動画を作る時は、プロンプトを提供して、モデルが最初から最後まで8秒の動画全体をどう作るかを考えるねん。完成したら、カメラの動きを変更できひんし、8秒以上探索することも絶対にできん。

画像でプロンプトできるん?テキストだけか?

画像と動画でもプロンプトできることがわかったで。この特定のケースでは絵画も使えることがわかった。

例えば、エドワード・ホッパーの「ナイトホークス」や。1942年の非常に有名な絵やな。基本的にGenie3に絵の中を歩いてもらうよう頼んだんや。

この絵は夜の街角の鮮明なイメージで、ガラス越しにバーにもたれかかる男女と、カウンターの向こうでドリンクを提供する人が見える。豊かな緑色、下の舗装、光の落ち方が本当に印象的やな。

この空間をナビゲートして振り返ると、これは本当に異常や。両側に何があるかを想像したみたいやな。男女の後ろを回れる?そうや、頭の後ろが見えるで。

元の絵のすべての次元があるみたいやな。振り返って通りの残りも見てみよう。遠くに街灯が道路に沿って点々と見える。他の店や施設の上にも看板があって遠くまで続いてる。今振り返ってるで。

元の絵のイメージを見返すように選択したんやな。これは本当にすごいな。すべて一貫してる。完全に一貫してるで。

ジェットスキーのデモと物理の理解

他にもある?

ジェットスキーをいくつかの島の周りで操縦するやつがあるで。元のプロンプトを教えて。

「カウアイ島の周りの水域をジェットスキーで航海」や。夢みたいやな。

水には上がれるランプがいろいろあるで。よし、やってみよう。

ジェットスキーに乗る人のPOVやな。フレーム内に両手が見えて、お互いに一貫してるのも付け加えとこう。水は美しく静かで、背景に島々が見える。

太陽は空の低い位置にあって、水面への光の反射も見える。ここでランプを上がろうとしてるな。たぶん遅すぎるかも。下りでどうなるかわからんけど。

おお、水に当たる時に水しぶきが上がる!後ろを振り返ると、本物のジェットスキーから予想される通り水に航跡がある。

物理を理解してる要素が見えるか?

間違いなくそうやな。創発的特性と呼ぶようなものがあって、一般的な訓練でいろんなものを見ることで、新しいシナリオに遭遇した時に煙の動きや水の流れを理解するねん。100%正確やないかもしれんけど、場面にいる感覚を感じるのに十分な精度はある。

人間として、明らかにおかしい部分は見つけられん。ジャックが言うように確実に制限はあるけど、一方で俺は過去にゲームエンジンで働いたことがあって、レンズフレアや水のシミュレーションなど、こういう効果を独立して作るのにめっちゃ頑張ったもんや。ここでは基本的にそれを最初からできるモデルがある。もちろん制限はあるけどな。

応用分野と教育への活用

努力せんでもできるし、他の方法やと不可能に近いこともできる。世界で他の動物や人をシミュレートするとかな。将来的に世界で他のエージェントと相互作用できるのも本当にワクワクすることや。

どの方向に押してもこの完全にインタラクティブな環境が一貫してるのは本当に異常やな。これらのデモは概念実証みたいなもんやけど、どう使われると思う?どんな応用を考えてる?

一つめっちゃワクワクしてることは、実際にエージェントのシミュレーション環境として使うことや。

例えば目標を達成したいエージェントがあったとして、想像できるどんな環境にも置けるねん。もっと挑戦的な環境かもしれん。そこで環境を探索して、目標を達成しようとして、失敗から学ぶことができる。現実世界で何もせんでもええから、とても高くつかん。

もう一つワクワクしてることは、実際にこのシミュレーションを計画に使うことや。ロボットや再びエージェントが目標を達成したい場合、このシミュレーションでいくつかのロールアウトを実行して何が起こるかを考えることができる。

例えば道路を渡りたい時、エージェントはモデルを使っていくつかの選択肢を予測できる。人が通り道を横切るシナリオかもしれんし、他の何かが起こるかもしれん。それらのロールアウトを使って次にとるべき行動を決定し、計画に使用する。

それ以外にも教育や娯楽での応用がたくさん見える。いくつか例で説明してくれる?歴史の授業でビクトリア朝イングランドの世界を作れるってことか?

まさにそうや。学生の前にいて、彼らはビクトリア朝イングランドを学ぶことにワクワクしてるけど、他にも興味のあることがたくさんある状況を想像してみて。

教科書を読むだけやなく、世界に足を踏み入れさせることができるねん。実際にそこにいるのがどんな感じかのバーチャルツアーに連れて行けるわけや。

アクセスしにくい場所、地球の遠い片隅や、他では得られん視点。ジャガーになるとか、他の動物になるとか、サメになるとか、過去に戻るとか。これらは体験として他の方法やと絶対に得られんもんやな。

特にビジュアル学習者には響くと思うで。

エージェント学習とシミュレーション環境

人間がコントロールを操作する場合やけど、エージェントを放し飼いにすると全く別のレベルの可能性が開けるな。

エージェントは基本的に、環境の現実的または現実に非常に近いシミュレーションがあれば、実際の世界で学習する代わりにそれを使用できる。現実世界でエージェントやロボットが間違いを犯すと修正がずっと難しいからな。

基本的にこれは、すべてをコントロールできるシミュレーション環境でエージェントが学習する方法や。エージェントが通常訓練されたものより挑戦的で予測不可能な環境を設定できて、この安全なシミュレーションでエージェントが改善できるねん。

工場を経営していて特定のタスクでロボットを導入したい場合を想像してみて。正確な環境を再現してロボットが自分の間違いを見つけるようにできるってことやな。

それは素晴らしい例やな。これは既に近いことができることやから。ロボットはかなり有能になってる。でも、もっとワクワクするのは、まだ遠いことだけど、これによって完全に可能になって解放されることや。

現実世界で実際にロボットや具現化エージェントを持つこと。可能性のあるシナリオの多様性は、現在のシステムにとって理解が困難やと思う。

ハロウィンで具現化エージェントが何をするかっちゅう例を考えてみて。年に一度、コスチュームを着た子供たちが走り回ってるのを見るだけや。初めてこれを見た時に何をするやろうか?かなり準備が困難なシナリオやろ?

たとえ前に見たことがあっても、翌年は違うかもしれん。これらの稀なイベントを本当にシミュレートして、テキストで想像できるどんな世界でも記述してそれに対してロバストになる。ロボットやエージェントが安全であることを確実にしたり、これらの異なることをすべて理解するようにしたり、経験から学習できるようにしたりする。これが本当に重要やっていうのはわかってるからな。

分子レベルのシミュレーションと応用範囲

人間レベルでの現実世界体験の例をこれまで挙げてきたけど、これを縮小して分子や人間の細胞レベルでのシミュレーション世界を作ることはできる?

試してみたで。血管の周りを移動するようないくつかの例があるけど、必ずしも生物学的に正確やないねん。これが根本的な制限やとは思わん。より正確なシミュレーションでモデルを訓練できれば、将来的にこの特定の環境に特化できる他のモデルのバリエーションが見える可能性がある。

でも人の目から見た現実世界、つまり現実世界に焦点を当てることにした。モデルの一般性において最も広く適用可能やと考えたからやな。

これは既存のAI開発を活用するだけの話か、それともAGIの目標に向けて一歩近づかせるものか?

これは間違いなく新しい種類の基盤モデルやと思う。だから応用の幅がこんなに広くて、これまで本当にこんな種類のモデルを持ったことがなかったからこんなに新しいねん。

言語モデルや動画モデルで見てきたアイデアと、俺らが使用する技術を組み合わせて融合させてるねん。これらの異なる要素を全く新しいものに組み合わせてることが、これがこんなにワクワクする理由やと思う。

俺らが成し遂げたこの突破口は、以前にはなかった全く新しい応用を可能にするかもしれん。この研究はまだかなり初期段階やけど、次の数ヶ月で何が起こるかを見るのがとても楽しみや。

動画生成からの技術継承

もう少し詳しく聞かせてもらおうか。背景がV-oと動画側のことやと知ってるけど、チームが参加する前からGenie1とGenie2で働いてたんやな。そこで何をしてたん?インスピレーションは何で、このイテレーションとはどう違うん?

Genieの前は、オープンエンデッド学習に取り組んでた。世界の異なるコンポーネントを設定できる大規模なシミュレーション環境でエージェントを訓練してたんや。XLANDプロジェクトで働いて、基本的に手続き的生成で、コードで指定されたまま多様な環境を生成して、エージェントがこれらの異なる経験から学習してシミュレーションで汎用エージェントになるっちゅうアイデアやった。

でも最終的に環境の入手可能性に制約された。博士課程でも世界モデルに少し取り組んだけど、もっと制限された制約設定やった。単一環境から世界モデルを訓練してて、通常はかなり低次元のものやった。

夢は本当にこれらのアイデアを組み合わせて、想像できるどんなタスクにも使えるシミュレーターとして使用できる一般的な世界モデルを学習することやった。そのシミュレーターでエージェントを訓練して全く新しいことを解決させて、新しい世界を生成してエージェントがそれから学習するオープンエンデッドループを持つことやった。

Genie1から概念実証として始めたんや。これを全くできるんか?インタラクティブな新しい世界を生成できるんか?これはかなり大きな突破口やった。

Genie2では、これをあらゆる3D環境にスケールした。そこから現れた創発的特性があるな。それについて少し教えて。予想されてたん?

Genie2では、このアイデアがスケールできるかが問題やった。Genie1はかなりシンプルな概念実証やったからな。これが全く動くかどうかやった。一方Genie2は、今見てる基盤モデルにもっと似たものに本当にスケールできるものかどうかやった。

本当に動くかわからんかった。Genie1は数秒しか持続せんかったから、非常に長い間一貫してるかわからんかった。Genie1は90pで非常に小さい画像やったから、高解像度で動くかわからんかった。Genie2は360pやった。

環境の多様性のタイプも大幅に増加した。これら全部を考慮すると、そのドメイン内で何でもシミュレートできる単一のニューラルネットワークが可能かどうか確実やなかった。

実際にモデルを手に入れた時、全く新しい世界に対して、当時はImagine3を使って開始フレームを生成してたんやけど、煙をシミュレートしたり、崖の側から車で落ちた時に重力が働いたり、水たまりに着地した時に水しぶきが上がったりすることができたのは、間違いなく創発的特性やった。

これがこんなに上手くいったのはかなり驚きで、Genie3での次のステップが可能やっちゅう自信を与えてくれた。

Genie1は2D、Genie2は3Dやな。

Genie1では、どんな種類の環境でも作れるようになりたくて、プラットフォームゲームやったな。大量の、本当に大量のプラットフォームゲームの映像を入力したんや。

そこに創発的特性はあったか?

全く新しいものを生成できたことは驚きやったと思う。それまで本当に示されたことがなかったと思う。絵でもそうやったな。

俺の方がよく知ってるとは思うけど、公園にいる俺の犬の写真もあった。プラットフォームゲームみたいに左右に動かせたけど、もちろん犬はゲームやないからな。

ジェフ・クルーンがプロジェクトのアドバイザーで、彼の子供たちが描いた絵をたくさんアニメーション化してゲームみたいに動かすことができた。

これは訓練データにはなかったと言えるよな?だから創発的特性と呼んでも問題ないと思う。訓練されたものとはかなり違って見えたからな。

V-oからの技術統合

Genie1とGenie2の間のステップは3D化やったな。

できることの多様性を増やすことやった。2DプラットフォームゲームだけやったGenie1と比較すると、同じモデルで2Dゲームだけでなく3D環境も扱えた。解像度も高くなって、一貫性がずっと向上して、相互作用時により長く持続した。

いくつかの異なる次元での能力の本当なステップアップで、これを可能にするためにもっと集中的な努力が必要やったし、実際に動くかどうか全くわからんかった。

少し大きなスケールでの概念実証みたいなもんで、今持ってるものが達成可能やっちゅう自信を与えてくれた。

相互作用できる環境を構築する作業をしてて、一方で並行して動画生成に取り組んでたんやな。

俺の背景は実際には3D ゲームエンジンで、でもずっと昔の話や。シミュレーションの仕事をしてて、それがAIの仕事を始めるきっかけやった。当時はAIとも呼ばんでMLと呼んでた。

でも最近数年で技術が進歩するにつれてどんどんワクワクするようになって、画像モデル、動画モデルで働いた。最近数年で動画モデルは皆知ってる通り新しいレベルのリアリズムに到達した。

Imagine Videoモデルの一つを見た時のことを覚えてるけど、「このモデルの中に世界の完全なシミュレーションがあるなんてどうやって可能なん?」って言ったもんや。初期に達成したリアリズムのレベルを3Dグラフィックス手法を使ったシミュレーションと比較すると本当に驚きやった。

俺らが試みたのは基本的に可能な限り最高の動画モデルを構築することやった。結果を見た時に「これをリアルタイムでできたらどうなる?」って考え始めた。明らかにジャックとチームの仕事をフォローしてて、それもとても刺激的やって思った。そして「次のレベルに行かなアカン」って言ったんや。

このプロジェクトでV-oから組み合わせたい、または学習したい要素は何やった?視覚的な美しさだけやない。品質とリアリズムは、俺らが本当に投資したもんや。V2で到達したリアリズムのレベルがあると思う。

物理は完璧やないけど、実用性を感じ始めるのに十分やな。実際の映像と区別つかんシーンを作れる。全部やないし、常にやないけど、そこに到達し始めてる。V-eでは音声とかも追加した。

これをインタラクティブにする次のステップは明らかな次のステップやったけど、技術的にはかなり挑戦的や。特に次のフレームをどれだけ早く作るべきかっちゅう点でな。それがGenie3のプロジェクトの核心的な課題の一つやった。

俺らの全体的なアプローチは、これらのモデルがどう訓練されるか、どう学習するかを理解しようとすることや。基盤モデルのスケールと改善を助けた同じ原則がGenie3でも有用やと分かった。

時間の概念と自己回帰的生成

部外者として見ると、GenieとV-oの目的は見た目は似てても全然違うように思える。V-oは非常にリアルで非インタラクティブな環境を作ろうとしてる。一方Genieでは一貫した探索可能な世界を作る必要がある。動き回れる世界やな。

一から始める必要があるん?それとも交換できる部分があるん?

動画モデルについて考えると、火山の周りを歩いたり、カメラをあっちこっちに動かしたりするよう指示できるやろ?モデルがやることは基本的にこの動画全体を見て、8秒間かそれ以上の長さの一貫した動画を作ろうとすることや。同時に過去と未来を変更できるねん。

最終結果を吐き出すってことやな。

そうや。絵みたいなもんで、キャンバス上のすべてをいつでも変更できると考えることができる。俺らが自己回帰と呼ぶもの、つまり一度に一フレームずつ拡張するよりもある意味で簡単やねん。

時間が重要な要素っちゅうのは超興味深いな。過去を理解して未来に進む必要があるってことやな。そこで自己回帰的なものが入ってくると。

そうや。基本的に見るフレームはすべて、その時点でゼロから生成される。相互作用の後半で起こることはまだ分からんし、最初に起こったことは全部モデルに記憶されてる必要があるねん。

基本的に24フレーム毎秒やってる場合、1秒間に24回画像生成をしてるみたいなもんや。一つ一つが過去とエージェントや人間プレイヤーのアクションを全部考慮して完全にゼロから生成されるねん。

言語モデルの動作方法に似てるな。

まさにそうや。本当にいい例やと思う。言語モデルは基本的に次のトークンの単語を予測するよう訓練されてる。テキストを見て「次に続く単語やトークンの分布はどうなってるか?」を推測しようとするねん。

自己回帰的世界モデルでは実際に似たような問題がある。基本的に次の観測を予測したいねん。それはほとんど視覚的で、既に見られたものと与えられた次のフレームやな。

LLMと並行して考えるとええのは、LLMがその非常にシンプルなタスクから世界や人がどう考えるか、どう問題を解決するかについての非常に豊かで潜在的な表現を学習することや。世界モデル、特に視覚的モデルが俺らにとってワクワクする理由は、誰でも理解できるほぼシンプルなタスクを通じて、世界のダイナミクスを学習しなければならんかもしれんからやな。

これについて本当に考えてみると、チェスをグランドマスターとプレイしてて「次の視覚的なものや次のフレームは何やろう?」って言うたら、実際には彼らの次の手かもしれんやろ?もちろん俺らのモデルはそれをする能力はない。でも限界では、非常に遠くまで行くねん。

過去、文脈を理解して将来の次の動きを予測できるっちゅうこれらのアイデアはかなり強力やな。同じ場所から始めて非常に異なる多くのことができるっちゅうことでもあるからな。

エージェントの視点からすると、かなりシンプルなタスクでもいいけど、それを本当に上手くなりたいっちゅうことがある。様々な異なるシナリオをシミュレートできるねん。

これは強化学習パラダイムに非常に似てる。同じ状態に戻すリセット機能があって、そこからもっと経験を積みたいっちゅうもんやな。

プロンプトの詳細と世界生成

では一歩ずつ見ていこう。最初のフレームは、絵でやったような画像でもいいし、テキスト入力でもいいんやな?

もちろんや。前に行ったことがある場所を説明してもらったよな。シベリアのハンターロッジに行ったことがあるって。これが俺が送ってもらったやつや。

「ハンターロッジに行って、シベリアのヤクーツク郊外の森でトナカイの皮に座って、ウォッカを飲んで冷凍子牛の肝臓を食べた」やな。

それで何をしたか教えて。

まず君のプロンプトに驚いたけど、システムに入力してみたんや。システムは基本的に君が提供したプロンプトにもう少し詳細を追加できるけど、君が提供した重要な要素にはちゃんと従ってる。

例えば、トナカイかどうかは確実やないけど、間違いなくそうやな。ここにテーブルも見えるで。本当にすごいな。光もまた、君らは夕方遅くの美しいゴールデンアワーを作るのが好きやな。

子牛の肝臓も見逃してるで。しかも冷凍やで。単なる子牛の肝臓やなくて冷凍の子牛の肝臓や。

最初のフレームはV-oで見つけるのと同じ方法で生成されるん?

そうや。モデルは特別な方法で扱わん。テキストを渡すだけでフレームの出力を始めるねん。準備をせんで世界に放り込まれて、好きなところに行ける。

最初のフレームから予測が後ろ向きにってことやな?

そうや。テキストから最初のフレーム、最初のアクションから次のフレーム、みたいに続いていくねん。

プロンプトの正確な言葉遣いはどれくらい重要?より良いプロンプトでより良い画像、より良い世界を得られる?

間違いなくそうやと思う。これらのモダンなモデル全部にプロンプティングの技術があるよな。ある人は他の人より上手やし、幸い俺よりずっと上手な人がいて、この作業がほぼ最初から上手くいくねん。

特に君のようにウォッカと冷凍子牛の肝臓があるテーブルみたいな鮮明な描写がある時は、大概よく動く。でも時々何かを試してみて、最初に欲しかったものを正確にキャプチャできんことがあって、プロンプトを少しイテレートしてもっと欲しかったものに近いものを得ることができるねん。

世界を再生成する必要があるん?それとも前向きに進んでるから、その場で追加できる?

その場で追加する方法があるで。俺らがプロンプト可能な世界イベントと呼んでるもんや。これは「今度は例えば風船を飛ばしたい」とか「他のキャラクターを登場させたい」とか言えるもんやな。

これについては非常にワクワクしてる。人々にとって環境をもっと面白くするだけやなく、俺らが言及したように、シミュレーションでエージェントを訓練するのにもっと関連性があるからやな。世界で起こることを投げ込んで、それに適応させることができるねん。

あの例やと、トナカイが通って来るかもしれんやろ?トナカイとか、他の人が場面に歩いて来るとかな。エージェントの場合、基本的にそれに反応できるし、単に娯楽目的やったら何も起こらん世界を歩くより遥かに面白いねん。

自己回帰的部分の重要な利点やと思うけど、未来をコントロールできるってことやな。

そうや。リアルタイムで生成しながらその場でものを注入できるねん。

記憶と一貫性のメカニズム

これについて異常やと思うのは一貫性やな。システムの記憶、振り返ってから戻ると正確に置いてきた通りになってる。でも、まだ向いたことのない方向に向く場合は確率的プロセスやろ?記憶の時と統計的に生成される時のバランスはどうとってる?

混合みたいなもんやな。テキストプロンプトで見えへん部分を指定できるのは、画像プロンプトと比べてかなり強力やと思う。「右にはXYZがある」って言えば、実際に右を向いた時に世界でプレイや相互作用する時にそこにあるねん。

でも、モデルが世界知識を使ってものを生成する要素もある。ホッパーの作品例では、まだ見たことのない通りを生成する。モデルが何を生成するかは正確には確定できん。モデルは自分なりの直感というか、そこに何があるべきかを使うねん。

その直感は、事前に信じられんほどの量の動画映像を見てることに基づいてるんやな。

基本的にモデルは世界を代表するフレームのシーケンスを生成しようとしてるねん。既に世界の一部を見たり生成したりしてる場合、モデルがすべきことはこの記憶を思い出して使うことやな。

既に行った場所を見返すなら、モデルがすべきことは同じものを使うことや。でも新しいエリアを見る時は、モデルの視点からすると見られてへんから、何か新しいものを生成することを許可できるねん。

モデルは根本的に異なる方法で扱うわけやないんや。モデルは基本的にこの2つの側面のバランスを学習するし、すべての生成をプロンプトやユーザーが提供したものに固定することに戻るねん。そこから生成への情報が来るわけやからな。

でも前に話してた言語のアナロジーに戻ると、会話で一度確立された声明が、後で言及する時に一貫したまま残るのはそんなに驚くことやないな。

そうや。言語モデルでのこの記憶と一貫性の能力は最近大幅に改善されたもんや。特に最新のGeminiモデルでは2年前と比べてな。

ここで興味深いのは、記憶のサイズや詳細レベルの数を考えることやな。Geminiと話してて、数文後に前に言ったことを参照したらそれは素晴らしい。でも、これらの視覚的世界にある詳細の数は驚異的やねん。実際に記憶しなアカン詳細と情報の量を考慮した記憶の質はな。

どうやってそれをするん?世界の3D表現みたいなものが必要?

このバージョンのモデルでは、そういうものは使ってへん。この自己回帰的予測からの創発的特性として大部分が学習されてるねん。

また創発的特性や。なんてこった。

俺らは苦味の良い生徒やねん。次のフレームを予測してる場合、過去のこれらの重要なことを記憶することを学習しなアカン。明らかにモデルは重要な詳細を優先する表現を持ってるけど、本当に次のフレームを予測してるだけやねん。

物理法則の理解と制約

これは言語モデルが概念的理解を持ち、同じことを異なる方法で、または似たようなことを異なる方法で説明できることに似てるん?ここでそれを可能にしてるのはトランスフォーマーアーキテクチャか?

そうや。アーキテクチャは、今日ほぼすべてがトランスフォーマーやと思う。だからこれもトランスフォーマーベースや。

振り返って、モデルは既に生成されたものとユーザー提供の入力を含めて見て、それに基づいて予測を行うねん。

明示的3Dについての興味深い質問は、モデルはおそらく何らかの表現を学習せなアカンかったけど、明示的な表現やないっちゅうことやな。3D環境を理解するモデルの能力は非常に強いし、俺にとって最も創発的な能力は、例えば1942年の油絵を取って、それを何らかの3D環境にすることが実際に動作することや。それは分布から外れてるねん。

全くやな。物理を理解してるっちゅうアイデアに戻りたいんやけど、ジャック、エージェントを置ける世界があるなら、物理をどれだけよく知ってるかをテストできるっちゅうことか?例えばハンマーと羽を取って、同時に落とすことができる?

間違いなくできるで。それはたぶん現時点でのモデルの能力の最前線に近いと思う。視覚的なことと、より一般的な概念でかなり上手いのを見てる。

水が非常に多くの異なるシナリオで発生するのを前に見たことがあると想像できるねん。重力もその多くで発生したやろうけど、おそらくこれらの正確なオブジェクトやない。

でも、テキストプロンプトで「世界には重力の少ない羽と、より重いハンマーがある」みたいに指定したら、たぶん動くと思うで。

これらのモデルは本質的に視覚的やと思うねん。見えるもの以外は世界について何も知らん。それは制限やと言えるやろうな。動画モデルでも、時々意味をなさんことがあって、例えば何かが重いかどうかをモデルが推測しなアカン。

画像を見て「これはどれくらいの重さや」って言う実際の方法がないから、重さを作り上げてから何が起こったかをシミュレートしようとする。時々壊れることがあって、最高の動画モデルでもそれは分かってる。

俺らが持ってるのは基本的にもっと難しい問題を解決してることやな。過去を修正できんから、モデルが何かを生成したら、それに従わなアカン。流体力学とかのシミュレーションで本当にええ進歩があると思うけど、世界の他の物理的側面は、これらの制限のために正確やないかもしれん。

エージェントとの統合実験

これまでエージェントとやってきた作業について教えて。実際に前回のエピソードでSEMAについて話したやろ?スケーラブルで教育可能なマルチエージェントや。既存のコンピューターゲーム環境に入れてたけど、これらの生成環境にもSEMAを入れることができるんやな。

そうや。これでクールなのは、Google DeepMindでマルチワールドの汎用エージェントを訓練してることやな。君が言った通り、Mはマルチワールドやからな。

俺らができることは、生成した世界を取って、これらのエージェントとその最新バージョンが、そのままエージェント訓練や経験収集や評価に使えるかどうかをテストすることやな。

「向こうのロボットまでナビゲートして」みたいに言って、世界から画像を渡すことができるねん。最初のアクションを取ることができて、その時点から世界でアクションを通じて相互作用してるけど、Genie3モデルは目標が何かを知らんねん。だから本物のシミュレーションみたいになるねん。

Genie3にSEMAエージェントが達成しようとしてる目標を伝えたら、間違った方法で体験を作るかもしれんから、体験が本物やなくなるやろ?

まさにそうや。現実世界でロボットがある場合、世界はロボットを助けてくれへんやろ?

「ロボットは赤いキューブを取りに行かなアカン」って言って、左を見たら赤いキューブがあるなんてことは言えへんやろ?それはちょっと作り物になるな。

これは他のシナリオで遭遇した問題やけど、エージェントと環境の間にこの分離があれば、この問題は本当に起こらん。

本当に有能なエージェントを構築することに焦点を当ててるエージェントチームと協力してるけど、彼らが俺らの環境を他の環境と同じようにアクセスするのがええところやな。G3で作られた新しい世界は、同じエージェントが訓練された既存の世界と同じように見えるねん。

でも赤いキューブがなかったらどうする?ずっと探し回って赤いキューブがないままやったら?

それは俺らが調べてることの一部やな。進行に合わせてもっと詳細を追加する方法やな。例えば、エージェントを部屋に入れて、引き出しを開けて中で何かを見つけなアカンとしたら、世界にイベントを注入して制御したいねん。

世界を非常にリアルに見えるようにして、まだ理にかなった方法で世界で何が起こってるかを制御する、興味深い最前線やと思うねん。

プロンプト可能な世界イベントで、世界で起こることを追加できるのを見てる。でも何かを世界にポップさせたいだけなら、必ずしも妥当なことやない。

砂漠にいて「今象を見たい」って言ったら、この象はどこから来るん?横から来るかもしれんし、左を見た時に来るかもしれん。世界には何らかの仮定があって、エージェントに関してはこれは間違いなく重要な能力やと思うねん。新しいイベントを世界に注入できることやな。

もうやったんか?

これの兆候は得てるで。これらの環境で大規模な訓練をしてる完全なエージェント訓練ループがあるとは言えんけど、既にできることはエージェントをテストしてどうするかを見ることやな。

これらが一緒に開発されたわけやないのに、エージェントを投入するだけで既に動作するのはかなり注目すべきことやと思う。これで使えるすべての異なることを想像できるやろ?

例を挙げて説明して。

工場やロボットがあって、新しい機械を導入したいとして、それは非常に退屈な例やけど、そこになかったり、建物の構造を何らかの形で変更したりして、実際に新しい建物にロボットを置く前にテストしたいとする。

これはシミュレーション環境ですべて起こることができて、エージェントが過去に見たものの変形である世界をシミュレートして、壊れるかどうかを見ることができる。新しい機械を壊さんで済むねん。

意図しない結果を見つけるってことやな。そうやそうや。モデルの評価でもあるねん。だからエージェントを訓練することでもなく、新しい環境の変形にどれだけよく適応するかをテストするだけやねん。

オープンエンデッドな探索の可能性

これまで挙げてきた例はすべて、エージェントが特定の目的を持ってる場合やな。これはSEMAの要点みたいなもんやと知ってる。でも目的を持たんエージェントがあったらどうやろ?

出会った素晴らしい引用があるんやけど、ほぼすべての大きな発明の前提条件は、その発明を念頭に置いて作られたわけやないっちゅうもんやった。将来、これらの環境でエージェントを放し飼いにして、目的を指定せんまま自由にさせる時点を想像できる?

その引用はケン・スタンリーとジョエル・レーマンの「なぜ偉大さは計画できないのか」からやな。素晴らしい本や。そこでの一般的なアイデアは、興味深さを探すことが、実用的な目標のために直接最適化するより実用的な目標により有用なものにつながるかもしれんっちゅうことやな。

明らかに、ドメインと発見の空間が大きいほど、より興味深いことが起こる可能性がある。彼らはかなり前にPicBreederっちゅう論文で本当に素晴らしい例を持ってた。基本的に人々が画像を選択して、それらを組み合わせて、その2つの変異である新しい画像を作成できるようにしたんや。

人々は特定の最終目標のために直接最適化してへんかったけど、興味深いと思うものを選ぶだけで、頭蓋骨や蝶みたいな本当にクールな構造化された絵を発見することになった。出発点からそれに到達する方法は明らかやなかった。

途中の足がかりの一部は最終目標とはあまり似てへんかった。もしそれらの目標を念頭に置いてたら、明らかに選ぶようなもんやなかったやろうな。

現実世界にもこの例がたくさんある。例えば月に到達しようとしてるなら、より大きなはしごを作らんやろ?だから一次元での最適化を貪欲で近視眼的なアプローチでやっても、必ずしもこれらの大きな飛躍にはつながらん。

進化自体が目的のない反復の古典的な例やな。

研究でもよく見るな。俺の視点では、俺ら人間が何が興味深いかを決めてると思うねん。数学の進歩全体でも、人が「次は何が、何が興味深いか、何が興味深くないか」を決めて導いてきた例があると思う。問題が難しいだけで、それが全く興味深いっちゅうわけやない。

科学で新しいものを生成することを考える時、目標がなくてもいいけど、俺らから来る美しさや興味の側面があって、モデルがそれをシミュレートすることを学ぶかもしれん。

でも最終的に俺らが何が興味深いかを決めるっちゅうのを覚えておくことが本当に重要やと思う。人としての好みとしてな。

この場合でも37手目みたいなものはまだないやろ?囲碁や盤面の目標は人が面白いと思うようにデザインされてるからやな。そうでなければ、それは非常に古いゲームやからな。

ゴールが月に到達することでも、この目標は人によって作られたかもしれんから、機械が解決すべき問題を思いついても、俺らはまだ「これは興味深い問題か?」って言わなアカン。そうでなければ「そんなん知らん」ってなるからな。

だからオープンエンデッドなものには美的な部分がまだあると思うねん。

デリウスの創造性のレベルについての引用があったと思うけど、補間が一つで、新しい猫を見て猫として識別できるってやつ。外挿が一つで、囲碁のルールが与えられて37手目みたいな新しい手を発見できるかってやつ。3番目のレベルは完全に新しいものを生成することで、実際に囲碁を発明できるかってやつやった。

実際にGenieプロジェクトの最初でこれを動機として持ってたんや。完全に新しいものを作れるかってな。新しい種類のモデルやから、それが起こり始めてるのを見てると思う。

チームの誰かが特定の種類の世界を作って、すぐに他のチームメンバーが「それ面白いな」って言って、そのアイデアを自分で発展させ始めるねん。ソーシャルメディアに投稿して、いくつかのことへの反応を見て、それが興味深いってわかる。そうやって新しいものを作るわけや。

これはモデルへの非常に限定的なアクセスでの話やからな。将来的にこれをもう少し開放したら、そんな感じのオープンエンデッドな創造性につながる可能性があるのは明らかに見えるで。

それでもやっぱり、人が面白いと思う基準での進化みたいなもんやな。

そうや。人がループにいて興味深さを導いてるねん。

進化シミュレーションの可能性

このシリーズの前の方でデイブ・シルバーとの会話を思い出すけど、実際に人間を方程式から取り除いて、より驚くべき結果を得る可能性があるって言ってたな。

ちょっと付き合ってもらいたいんやけど、最初の単細胞生物をシミュレートして、Genie内の仮想環境で進化させて、実際に進化のプロセスが起こるのを見ることができる地点に到達できると思う?

素晴らしい質問やな。それはALife(人工生命)のオープンエンデッド進化コミュニティの夢みたいなもんや。たぶん俺らが作る世界は十分に豊かやないけど、その道を歩んでることは間違いないと思う。

オープンエンデッド進化とALifeは、この種のことを促進できる世界を通常コードでデザインしてきた。だからこれはもっと豊かな現実世界シミュレーションを得る代替アプローチかもしれん。

理論的には、俺らはかなり速いペースで進歩してきた。でもシミュレーションが完全に現実世界のようになって、この種の進化ステップにつながる目標と制約があれば、間違いなく妥当やけど、まだ確実にそこにあるとは言えん。

直接的な答えやないけど、実際に試してみたんや。ライフゲームみたいなもんがあるやろ?4つのルールがあるやつ。それをV-eを使ってシミュレートしようとしたんや。画像を渡して進化してるように見えるけど、ルールを知らんかったら「うん、合理的に見える。異なるピクセルが光ったりして」って感じやけど、ライフゲームの4つのルールには従ってへん。

これは現在のモデルができることと、特定のルールに従って実際に生物を進化させる能力でまだ制限されてることの良い例やと思う。物理世界をシミュレートする能力だけやなく、物理の基本ルールを非常に正確で制約された方法で従う能力も必要やと思うし、俺らはまだその一端を見てるけど、GPUで進化をするのは間違いなく遠いねん。

しばらく哲学的な話をさせてもらってありがとう。楽しかったで。でも地に足をつけて戻ろう。これには安全上の意味合いがあるからな。主な懸念は何?

安全性と制約事項

心配のレベルが異なると思うねん。既知のもので、かなり明らかなものがある。暴力が世界で新しい方法で起こることは望まんみたいなもんやな。それは既に対処し始めることができるもんや。

でももっとグレーなエリアもあって、実際にはどう感じるべきかよくわからんもんもある。例えば歴史的設定やな。微妙な理由で不快なものもあるかもしれん。

これらはチームが非常にはっきりと見えるもんやけど、たぶん考慮してへんものもあるやろ?早期アクセスを制限してフィードバックを得ることで、これらのことを正しく理解したいねん。既にやってることで、数週間前に招いた人々や、まだやり取りしてる人々から既に多くを学んだで。

俺が思いつかんかった多くの新しい使用例をやってくれたんや。職業訓練は実際にかなりインパクトがあるかもしれん。消防みたいなもんに多くの人が入れんからな。実際にそこにいるのはどんな感じか、内臓的な体験をせんでも?

事前にシミュレートできるのは、シミュレーションの視点から完璧に正確やなくても、その特定の状況に置かれるのがどんなもんかの感覚を得ることは恩恵があるやろうな。

暑さは抜きやけどな。

暑さと煙と本当の危険は抜きやけどな。

でも、もう一つ興味深い点を挙げたな。シミュレートされたものと現実の間のギャップについてや。完璧にリアルやないっちゅうことやな。このギャップをできるだけ小さくするにはどうしたらええ?Sim-to-realギャップはこのポッドキャストで何度も話したことやけどな。

工場にロボットがあって動き回ってるっちゅう例やと、相互作用の点で信頼性があっても、それを直接現実世界にマッピングすることはできんやろ?

時間が経つにつれて、もっとコントロールできるようになって、基本的に現実の環境を取ってモデルにマッピングできるようになると思うねん。モデルが現実の環境に基づいて生成できるようになるってことや。

ある程度はもう見えてるで。画像や動画から始めるのはな。今の質問は、現実世界と完全に同じになるかどうかやけど、たぶんならんと思うし、何を意味するかも明確に定義されてへんと思う。でもギャップは間違いなく狭まってる。

過去に知ってるRLの環境の多くは、フォトリアルや現実世界からはかなり遠く見えたけど、今はもっと近づけるねん。でも間違いなくまだギャップは残ってるし、その影響が何かを見ていかなアカン。もちろん現実世界への展開には今のところ使ってへん。

反復的なアプローチやと思うねん。今GD3があるから、想像できるどんな具現化タスクのシミュレーションも解決したとは言ってへん。

でも他の技術と組み合わせることはできると思う。このシステムなしで既にやってたのと同じ方法でエージェントを訓練して、訓練プロセスを強化するために使うねん。

もう一つの要素は、多様性があることが本当に重要やっちゅうことや。常に同じ方法で間違ってたら、エージェントがその不正確さを悪用することを学ぶかもしれん。

一方、モデルがかなり多様で異なる世界を生成できるなら、エージェントの能力の幅を本当にテストして、何か本当に間違ったことをするシナリオがないことを確認できるねん。

それは実際に強みかもしれんやろ?Sim-to-realでは、ドメインランダム化をしたいからな。生成モデルを持つことで、可能性の空間を検索して、それらすべてでエージェントが理にかなったことをすることを確認できるのは良いことかもしれん。

でも完全にそれが現実世界やと学習させたいわけやない。たぶん、特定のことを学習するよりも、より敵対的にロバストにするために使いたいねん。

理解してるか確認させて。間違ってるけど予測不可能な方法で間違ってる場合、実際に長期的にエージェントをよりロバストにするかもしれんってことやな。

そうや。ドメインランダム化と似たようなことをしたいねん。エージェントが何か本当に安全やないことをする可能性のあるシナリオがないことを確認したいねん。

一つの特定の間違ったシナリオがあって、エージェントにそこからどう振る舞うかを正確に教えるのとはかなり異なる目的や。

代わりに、将来の可能性のある世界で、エージェントが何か理にかなったことをできるようにするねん。

そんなに興味深いな。現実に向けてより現実的になるようにそれを推し進めて、より信頼できる結果に向けて、リアルのギャップを閉じるように努力してると想像してたんや。

でも君の描写やと、必ずしもそうやない。

信頼できるっちゅうのは何を意味するかが問題やと思うねん。俺にとって信頼できるっちゅうのは、俺らが提供する指示にモデルが従うことについてやと思う。

俺らが環境を詳細に記述してシミュレートしたい場合、モデルにそれに従ってもらいたいねん。この記述に何か妥当やないものがあっても、モデルはそれに従うべきや。

時々俺ら人間は、様々な理由で妥当性の低いシナリオに興味を持つことがあるからな。今日見た例の一部で、木を見たり、例えばウォッカと子牛の肝臓の真ん中やったりな。

それはあまり妥当やない。シベリアのすべての可能なテーブルからサンプリングしても、たぶん分布の真ん中やないやろうな。だから俺にとって信頼性は、主に俺らがモデルに提供する記述に従って、それに近い世界をシミュレートすることから来るねん。

それは本当に良いポイントやと思う。仕様の不十分な環境では多様性が欲しいねん。妥当な分布内の何にでも適応できるようになりたいからな。でも非常によく指定された環境があるなら、正確であってほしいねん。

両方の次元で改善が見えてると思うけど、たぶんまだ完全にはそこまで到達してへん。

AGIへの影響と将来性

AGIの質問に戻らせて。皆がいつも聞きたがる最後の質問やな。これがそれに向けた一歩やと思う?

AGIは相対的に主観的で、AGIで何を意味するかについて人それぞれ異なる解釈があると思うねん。だから俺らのモデルが全分野でAGIを可能にする重要なもんやって言うのはかなり大げさかもしれん。

でも俺にとってAGIは具現化されて物理世界で行動できる必要があると思う。それが俺を本当にワクワクさせることや。世界のどこでもどんな人口統計でも、人々の生活の質を本当に改善できると思うからな。

そのフレーミングでは、これは間違いなく重要なツールやと思う。具現化されたAGIや具現化されるAGIが、シミュレートして経験を集めて自分の経験から学習する能力なしに、世界のどんなシナリオでも動作できるとは思えん。

それは他の設定で超人的能力やロバストな能力を得るために使ったパラダイムやからな。だから俺はシミュレーションが絶対に必要やと強く信じてるし、現実世界のシミュレーターを他の方法で構築することはできんとも強く信じてる。

この2つを組み合わせると、俺のAGIのバージョンにとって大きな一歩やと思うねん。

本当に良い答えやと思うし、それに加えて、俺らの現在の世代のAIはデジタル世界に制限されてるってだけ言いたいねん。AIが俺らにとって有用であるためには、間違いなく何らかの現実世界での相互作用が必要やねん。

だからこれは再び、具現化されたAIに向けた小さな一歩やと思うし、そこに到達するまでには間違いなく多くのギャップがある。

例えばロボットが世界を歩き回る時に得る、もっと良いシグナルが必要やと思う。物理的な反応を得る必要があるねん。視覚的な入力と出力だけでは十分やない。

だからこのビジョンに向けた一歩やと思うけど、まだできんことがたくさんあるねん。

追加のセンサーがその一つやけど、現時点では人もあまり上手く扱えんやろ?

そうや。それが本当に重要なことやと思うねん。これは社交的で社会的に認識するロボットや具現化エージェントを達成する最も有望な技術の一つやと思うけど、現在のモデルのイテレーションの最大の制限は、これを完璧にやらないことやと思う。

俺らの基準が上がったから、十分やないと思うようなものやけど、実際にはそれは正しくする必要がある重要なことやと思うねん。俺らのロボットや具現化エージェントが物理を完全に理解しても、物理は世界中でかなり一貫してるけど、人は違うからな。

これらのエージェント、ロボット、どんな形態であれ、人間を本当に増強して人間と一緒に働いて俺らの生活の質を向上させることができるようになってもらいたいねん。だから人間がどう考え、働き、相互作用するかを理解して、物事で俺らと一緒に働けるようになる必要があるねん。

それが俺らのモデルによって可能になるかもしれんことの一つとして本当にワクワクしてることやな。

生成の質に関しては間違いなく多くの制限があるけど、俺が最もワクワクしてるのはペースやな。12月にG2、V2があったことを考えると、俺らの個人的な生活への影響のペースを間違いなく感じるけど、分野は単に速く動いてるねん。

2年足らず前には6本指で生成された画像があって、それが大きなことやったけど、もう誰もそれについて話してへん。だからなぜもっと高い忠実度で人を生成できんことがないかわからんし、それに続くすべてのこともな。

基盤モデルとしての位置づけ

ここでの目標は、LLMが言語にしたことをシミュレーション世界にする基盤モデルを持つことやな?

そうや、まさに。俺が言えるよりも上手く表現してくれたと思う。これは基盤モデルとして、幅と一般性と能力において本当にステップチェンジやと思うし、これはたぶんシが言及したように、最近画像で見てきたものに似てるんやと思う。

指の問題から今は非常に信じられんレベルになってる、明らかなものがあった。動画でも過去1年でたぶん同じことを見た。V2みたいなものができてからは、この時点でかなりすごく見えるねん。

たぶん3、4年前に言語モデルで見たのと同じで、本当に有能になり始めて、この新しい種類の基盤モデル、自己回帰的世界モデルでその地点に到達したかったんや。

今そこにある。影響を与えて、インパクトを与える可能性のある様々な潜在的なもんがあって、俺らは今それでかなり初期段階やねん。

でもシミュレーションの要素もあるやろ?視覚的なものだけやなく、生きた体験を再現するのにこの種のアイデアを使えると思う?

俺らが意識してへん感覚がたくさんあるやろ?例えば固有受容感覚みたいなもんで、基本的に俺らがどこにいるかを感じて、世界のどこにいるかの概念を持ってるねん。

実際に人をシミュレーションに入れて本当にそこに没入してる感覚を感じさせることを考える時、これは大きな部分やと思うし、基本的に視覚とたぶん音声への制約はまだ制約が多すぎるねん。

そのための可能性は間違いなくあるけど、実際にそこに到達するために構築しなアカンいくつかの技術を通る必要があるねん。その前に、人々がフォトリアルな環境と相互作用できるけど、まだ何らかのインターフェースを通して、たぶん手袋とか何かを通してある程度の感覚を感じることができるハイブリッドインターフェースを期待するねん。

リアルタイムでインタラクティブであることには、体験に大きな違いをもたらす何かが間違いなくあると思うねん。チームのメンバーが例えば子供時代の場所を訪れて、画像や動画からは得られんような感覚を実際に得たって言ってるからな。

だからこの種のモデルから既に得られる体験の度合いがあるねん。明らかに将来もっと有能なモデルにするために一生懸命働いてるから、たぶんそれは拡張されるやろうな。

今年前半にチームがやったプロジェクトを思い出すで。GoogleのチームがV-eを使って、認知症の初期段階の人々が子供時代の記憶に戻って再構築するのを助けたんや。

だからこれが例えば潜在的に治療ツールにもなれると想像できるねん。動画を見るだけやなく、実際に子供時代の何かを再体験したり思い出したりできるってな。

だから非常に遠くまで行く必要のない、世界にポジティブなインパクトを与えるものでも、俺らは思うねん。

すごいな。本当に魅力的やった。ありがとう。

ありがとう。

ありがとう。

これで最も印象的な部分は、スクリーンで見てるもんやない。それがどう生成されるかやねん。現実世界のリアルな画像や動画を時間の中で凍結された瞬間として作ることから、実際に俺らが体験する方法で時間を扱える何かへのこのモデルが表す変化やねん。

一つの方向だけを指す矢印があって、結果が原因に続く、過去の直接的な結果である現在との一貫した前進する世界を構築するためにな。

だからこれは、ずっと大きな何かの初期のヒントやと思うねん。これは単にゲームや美しい環境をデザインする新しい方法やない。ここは俺らの世界について本当に計画し、推論できる機械の基盤やねん。

Google DeepMindポッドキャストを聞いてくれてありがとう。俺はハナ・フライ教授やった。夏の間は少し休止するけど、秋にはカリフォルニアのGoogle本社からもっとエピソードを持って戻ってくるで。

その間に、クリエイター向けツールから薬物発見のためのAIまで、すべてをカバーする俺らの豊富なバックカタログを見てくれ。またすぐに会おう。

コメント

タイトルとURLをコピーしました