言語のみのモデルの終焉 | アミット・ジェイン、Luma AI

AGIに仕事を奪われたい
この記事は約30分で読めます。

17,529 文字

The End of Language-Only Models l Amit Jain, Luma AI
This week Raza is joined by Amit Jain, CEO and co-founder of Luma AI, to explore why the future of artificial intelligen...

これらのモデルは、スロットマシンのように「テキストを入れてランダムなものを出力し、テキストを入れてランダムなものを出力する」といった使い方をするなら役に立ちません。映画を作るというのはそういうことではありません。創作の行為の中で物語の多くを発見するものですし、私たちは人間の好みに基づいてベンチマークを行っています。そのような労力がかかり曖昧な方法でやるなんて大変だと思われるなら、その通りです。こちらはAIビルダーのための高エージェンシーポッドキャストです。私はラザです。
本日は、最も印象的な動画と画像の生成モデルを構築してきたLuma AIのCEO兼共同創設者のアミット・ジェインさんにご参加いただき、なぜマルチモーダル生成モデルが基盤モデルの未来なのかについてお話しいただきます。ご参加いただきありがとうございます。
お招きいただきありがとうございます。こちらこそ喜んでお伺いしています。
素晴らしいです。まず始めに、視聴者の皆さんのベースラインを設定するため、Lumaで実際に何を構築されているのか、そしてそこに至るまでの経緯について教えていただけますか。
素晴らしい質問ですね。Lumaのミッションは非常に明確です。私たちはマルチモーダル汎用知能を構築しています。この言葉が実際に何を意味するかについて、私たちの定義では非常に具体的です。現在、業界のほぼ全体がテキストに焦点を当てており、これは知能への道のりと実際にどこまで行けるかにとって大きな制限となっています。
Lumaの目的は、音声、動画、言語、テキストを共同で訓練するために必要な基盤を構築することです。つまり、人類のデジタルフットプリント全体ということです。これが人間の脳の学習方法であり、デジタル世界や現実世界で人間を助けることができるAIも同様に学習すべきだと私たちは信じています。これが私たちがマルチモーダル汎用知能と呼ぶものの意味であり、その目標に向けて、現在世界最高の動画、音声、画像モデルを構築することから始めました。これらは全て組み合わされています。
これは単一のモデルであり、研究ラボとしての私たちのアウトプットは、基本的にワールドモデルと呼んでいるものです。
いかにしてここまで来たかという2つ目の質問についてですが、簡潔に答えると、Luma以前には約4年半から5年間Appleにいて、Vision Proの構築に携わっていました。iPhoneのLiDARセンサーや、Vision Pro上での人間の3Dアバター、3D写真、3Dビデオに関する非常に興味深い仕事をする機会がありました。基本的にその核心は、どうやって世界をキャプチャしてコンピューター内に持ち込むかということでした。
2020年頃、これらの技術をほぼ動作させる段階まで来た時、チームメートの一人がニューラル・ラディアンス・フィールドという3D生成技術に関する論文を発表し、DALLEが登場し、言語における初期のスケーリング法則が機能し始めるのを見始めました。私の考えは基本的に、スケーリングが機能し、動画と画像をそれに使用できるなら、ワールドシミュレーターを構築することが可能であり、世界で起こっているほとんど全てを表現できるものを構築できるということでした。
これがアイデアの起源でした。最初はAppleで、誰もがやるように大企業での不運な試みとして、それを構築しようとしました。約1年間それに取り組み、「これが実際に全ての画像が作られ、動画が作られる未来だ。しかし、人間が世界の大部分と実際に相互作用する方法でもある」と人々を説得しようとしましたが、やはり大企業は大企業です。彼らは実際にAIが何をするかを理解することにおいて5年遅れていました。今では彼らも何かしらやろうとしているのを見ています。彼らは非常に有能ですが、その分野では少し遅れています。
そこで私は退職し、この会社を始めました。仮説は、この地球上で最も優秀な15-20人を見つけることができれば、私たち自身でこれを行うことができるというものでした。そして、それが私たちがやっていることです。
あなたのビジョンとミッションは、OpenAIやGoogleなどの他の主要なAIラボのものと大きく重なっているように聞こえます。なぜ言語の後に動画と画像を追求するのではなく、動画と画像を最初に追求し、その後に言語を追求するというあなたのアプローチが正しいのでしょうか。あるいは、もう少し広く、私が誤解しているかもしれませんが、あなたのアプローチはどのように異なるのでしょうか。どのように違った考え方をしているのでしょうか。
確かです。現在、宇宙で、少なくともAIの世界で何が起こっているかをお話ししましょう。これは秘密ではありませんが、言語に関する縄張り争いがあります。誰が最高のモデルを持っているか、誰が最高のコーディングエージェントを実際に構築できるか、といったことです。それは素晴らしいことです。大きなビジネスです。非常に儲かる部分です。人間や企業にとって多くの問題を解決するでしょう。それについては疑問ありません。
しかし、それを追求する戦略的コストは、率直に言ってイノベーターのジレンマです。言語、言語だけに焦点を当てているのです。ここで問題があります。今見ているように、xAIは10万台のH100でGrok 3を訓練しているとされています。私はそれを疑う理由はありません。それに比べて、私たちの理解では、GPT-4oは約2万5千台のH100です。4倍のコンピューター性能を使っているのに、モデルは2倍も良くなっていません。実際、モデルは僅差で競り合っているだけです。これは間違いなく大きな成果ですが。
2つ目のデータポイントは、GPT-5はGPT-4.5に改名されたもので、非常に高価です。他のモデルの100万トークンあたり0.06ドルに比べて、100万トークンあたり75ドルですが、実用性の観点からはそれほど良くありません。何か新しいことや異なることにこれを使おうとする場合、その全てのコンピューター性能、1年間の訓練は実際には何の違いも生まないのです。
問題は何なのでしょうか。人々は今推論などに向かっていますが、事前訓練においては何なのでしょうか。基本的に、これらの人々は訓練をスケーリングし、コンピューター性能をスケーリングしていますが、以前のモデルが訓練されていたのと同じ15-20兆のテキストデータトークンで訓練し続けています。利用可能なのはそれだけです。
Lumaは、音声、動画、言語、画像から共同で訓練できるために必要な数学的基盤を構築しています。世界で利用可能な全てのデータからです。これは、大規模言語モデルを構築して画像や動画を読むことを教えるという意味ではありません。これは皆がマルチモーダルと言う時にやっていることです。
彼らが言っているのは、大規模言語モデルを訓練し、画像や動画を見ることを教える、またはファインチューニングするということです。しかし、それは生まれつき盲目の人に「これは赤ですよ」と言うようなものです。彼らは実際には赤が何かを知りません。何も見えません。あなたは彼らに物事を説明しているだけです。これが言語モデルでマルチモーダリティを行う時に起こることです。
私たちのアプローチは、人間のように学習することを意味します。画像でその概念が起こるのを見ます。音声でそれを聞きます。例えば、鍵を落とすとか、グラスを割るとか、その概念の効果が動画で起こるのを見て、同時にテキストでそれについて推論できるのです。
私たちは、これがAIが現在ぶつかっているデータの壁を破るだけでなく、メディアのための最高の動画生成モデル、計画し脳で推論するためのロボット工学のための最高のモデルを構築するために必要なものだと信じています。これが次のフロンティアです。それがLumaが構築に専念していることです。
OpenAI対Googleなどについての質問に戻ると、彼らはマルチモーダルと言いますが、焦点の大部分は依然として言語戦争にあります。考えてみてください。あなたが年老いた男性で、次の1兆パラメータモデルについて考えているとします。言語に5000億パラメータ、動画と音声に500億を割り当てるか、言語に950パラメータを割り当てて現在利用可能なベンチマークで勝つか、どちらを選びますか。現在、全ての選択は後者に向かっています。大手ラボでも、小手ラボでも、彼らが何と言おうと関係ありません。メタも含めて、これがそれらのビジネスの現実です。
非常にユニークな時期です。非常にユニークな機会です。そして、Lumaは研究の観点から、この問題を解決するために設立されたマルチモーダルAIにおいて最もユニークな会社の一つです。
あなたがおっしゃっていることを正しく理解すると、大手ラボがマルチモーダリティを追求する方法は、最初に言語で完全に事前訓練し、その後にのみ画像や他のモーダリティでファインチューニングするのであって、最初から全てを共同で訓練するのではないということでしょうか。
正しいです。これまでに見た共同訓練の唯一の証拠は、高度な音声モードのために音声とテキストを一緒に行うGPT-4oです。しかし、共同訓練がもたらす利益をご覧ください。これまでずっとテキスト音声合成モデルはあり、それらは普通でしたが、共同訓練を行うと完全な表現などが得られます。しかし、それらはほぼ全て言語領域にあり、これらの他のモーダリティは小さな予算しか得ていません。
マルチモーダリティが助けになることは、ほぼ不可避、あるいは可能性が高いと常に思われてきました。これらのモデルが概念を学習する方法を考えると、見つけられる文脈に基づいて単語間の意味的類似性を見つけようとしており、他のモーダリティを通じて他の経路を与えれば、テキストでは結ばれないかもしれない概念を結ぶことができるのです。
つまり、言語でさえも概念間のつながりを見つけるためのより多くのルートがあります。したがって、マルチモーダルな方法で訓練されていれば、言語モデルもより良くなるはずです。それでも、私がラボの研究者である友人たちと話すと、少なくとも言語モデリング部分では、そのマルチモーダリティを導入することからの追加的な利益を驚くほど少ししか見ていないと言われました。
なぜそうだと思いますか。あなたが提案したように、後でファインチューニングされる方法でやっているからで、最初から共同訓練していればより良く機能するからでしょうか、それとも異なるアーキテクチャを採用しなければならないのでしょうか。なぜまだマルチモーダリティから期待されるほどの利益を見ていないのでしょうか。
実際、その問題には複数の側面があります。まず、あなたがおっしゃったように、言語モデリング側では多くの利益を見ていません。私たちはその問題を解決しようとはしていません。ロボット工学の問題を解決しようとする時、世界生成の問題を解決しようとする時に、利益が見えるのです。
言語モデルを訓練していて、マルチモーダリティが言語タスクに役立つと期待しているなら、役立つかどうかは分かりません。私たちは本当に言語モデルを訓練しているわけではありません。あなたも言語モデルを訓練しています。私たちは画像、動画、音声、言語が一緒になったワールドモデルを訓練しています。
でも言語は入っていますよね。それが確認したいことです。
はい。しかし、コーディング演習やそういったことのために訓練しているわけではありません。言語部分は世界についての推論を理解するためです。確かに。コーディングに動画での訓練がどう役立つのか分かりません。Anthropicにとってどう役立つのかは分かりません。もしそれで評価しているなら、明らかに答えは、これはそれにはあまり役立たないということになります。なぜ役立つべきなのでしょうか。
一方で、大手AIラボでさえ、これらを共同で一緒に大規模訓練を行い、巨大な言語部分に小さなマルチモーダリティの断片ではなく、この格差なしに行った作業があったかどうかは実際には分かりません。それが実際により代表的な部分ですが、3つ目のことは、彼らは依然として自己回帰モデルを訓練しているということです。それは実際にはメインの部分ではありません。メインの部分は、これらは依然として全て離散モデルだということです。
それは私が次に聞こうとしていたことでした。ここは素晴らしい場所です。言語は離散的なメディアです。視聴者の皆さんにとってそれが意味することは、単語は互いに分離しているということです。連続的なものではありません。単語は2番目の単語から分離しており、3番目の単語から分離しています。
言語埋め込みの世界では、トークンは離散的です。一方、動画、画像、音声など、現実世界の物理的信号をモデル化しようとする時、拡散モデルのような連続的表現を一般的に使用します。私たちのアプローチは、アーキテクチャにおいて、生成される潜在空間において非常に異なります。言語モデルでは触れることのできない非常に異なることができるのです。
私たちは新しい論文を発表したばかりです。Inductive Moment Matching(IMM)と呼ばれ、自己回帰離散言語モデルや拡散モデルとは異なる全く新しいアーキテクチャを実際に提案しています。自己回帰のようにワンステップですが、連続構造である非常に興味深いアーキテクチャを提案しています。
この共同モデリングを行うことができ、推論時には基本的に、これらのモーダリティ全てについて同時に推論することができます。用途事例について考えてみましょう。あなたがロボットエージェントで、私たちのオフィスを見たことがないとします。どこに移動するか、その奥にどうやって行くかを考える必要があります。脳内でモデルを構築し始め、それの空間的理解を持ちます。
今日、LLMやそういったものを通じて行われているロボット工学の仕事のほぼ全ては、人間がやることとは違って、巨大な言語思考の連鎖を使っています。人間がやることは、実際に空間的に地図を作成し、その中で推論を行い、「10フィート向こうに移動すれば、この壁にぶつかる」といったことを考えることです。
非常に異なるアーキテクチャ、実際に非常に異なるモーダリティです。そして、最終的に得られる潜在空間も非常に異なります。
これらのモーダリティ間で何らかの方法で共有潜在空間を強制するのでしょうか。つまり、ある概念を視覚的に表現する潜在が、他のモーダリティでその概念を表現するのと同じものになるように。
正しいです。つまり、それが訓練のポイントです。
それはアーキテクチャ的に強制されているのですか、それとも出現することを期待しているのですか。
出現することを期待しています。なぜなら、アーキテクチャ的にそれを強制するとしたら、それは何を意味するでしょうか。実際に多くの人がやっていることをやることになるでしょう。分離した埋め込みを使用するでしょう。視覚的なもののためにCLIP埋め込みを使い、もちろんD5XLなどのテキスト埋め込みを使って、それらの間で整合性を見つけようとするでしょう。
おそらく私が念頭に置いていたモデルは、全ての異なるモーダリティにわたって生成する共有潜在を持つVAEタイプのモデルのようなものを想像していました。つまり、これらの異なるものにわたって共有潜在変数、あるいは共有潜在バックボーンを明示的に強制するようなものです。
それは悪いアイデアではないと思います。正直に言って、私たちがやっていることは基本的に自己注意とクロス注意を通じて学習したいということです。特に巧妙に設計されたデータでそれを理解させたかったのです。「これが起こっていることです」と、それを行うと、CLIPのように理解します。CLIPはこの世界で非常に強力なものです。視覚的と言語の埋め込みを統合しているからです。もちろん言語空間においてですが、そのようなものを設計したいが、さらに進みたいのです。音声もあり、画像空間もあり、これらのモーダリティは互いに非常に不整合だからです。
概念を見て、その概念を聞き、言語空間でその概念について推論でき、それを任意の帰納的バイアスではなく、データ自体から、データ分布から学習する場所に到達したいのです。
興味深いですね。文字通り今日のモデルの用途事例と機能、そしてそれがどのように進化していくと想像しているかについてお話ししたいと思いますが、その前に最後の質問をさせてください。
より大きなモデル内のワールドモデル、暗黙のワールドモデルがどのようなものかを理解するためにテストを行ったことはありますか。テキストや画像、動画のような高次元出力を生成できるモデルを想像する方法はいくつかあります。そのうちの一つは、これらの生成が効果的に投影である潜在ワールドモデルを持つことでしょう。
例えば、3Dオブジェクトがあり、異なる視点からそれを見たい場合、その3Dオブジェクトの潜在バージョンを持ち、文字通りその周りを回転できるかもしれません。代替的に、毎回ゼロから生成でき、同じオブジェクトの異なる視点間で必ずしも一貫性がないかもしれません。
つまり、この大きなモデル内に、私が物事を生成するプラトニックな潜在モデルがあるのでしょうか。テキストから画像、テキストから動画に直接生成するが、必ずしも一貫した中間表現を持たないモデルを想像することもできます。
モデルに世界理解があるかどうかを理解するためにモデルを調査する方法があるかどうか疑問に思います。
はい。つまり、条件づけを何度も何度も行う必要がない、操作できる半明示的中間表現IRがあるかどうかを聞いているのですね。そして、それがある種の概念的圧縮が起こっている証拠でもあるでしょう。
圧縮の質問については、非常によく答えることができます。これらのモデルの情報理論に関する全体的な取り組みがあります。なぜなら、それは現在業界の外の誰よりもはるかに良くこれらのモデルを訓練し設計するのに役立つからです。それは、VAEボトルネックなどを発明したDeepMindから15年間いた人々によって主導されています。
モデルが圧縮学習にとって必要であることを理解しており、数百億パラメータモデルを数十億、数十億の動画で訓練するためには、圧縮以外に解決策はありません。圧縮は確実にありますが、必ずしも一貫したワールドモデルではありません。
これで、その質問に戻ります。現在出ているRay 2モデルは、基本的に世界で最高の動画モデルの一つ、あるいは最高の動画モデルの一つです。3D一貫性を強制する明示的な損失なしに、Ray 2は非常に3D一貫しています。この画像と最終視点で条件づけし、ここからそこに行くように求めると、全ての中間表現は驚くほど正確です。
対応を強制するGaussian splatなどを実行することでその演習を行うことができます。対応がなければ、splatはありません。大きな混乱のように見えるでしょう。Ray 2は非常にそれを生成できます。これは、損失関数で「L1クローズであるべき」やそういったことを強制する前のことです。
今日、中間表現があるかどうかについては、ありません。実際に、モデルに明示的なIRを中間で通ることを強制するのは最良の方法ではないかもしれません。誰かが「この言語を生成するモデルは良い。言語分類学の中間表現があったらどうだろう。言語分類学で操作し、モデルに異なることをするように求められたら」と言ったと想像してください。答えは「モデルの潜在空間を完全に崩壊させている」ということになるでしょう。
しかし、あなたが提起している問題は非常に正当です。同じ結果の異なる視点や異なる側面をどのように生成するかということです。
それは確かに私が理解しようとしていることの一部です。もう一つ興味があることは、ワールドモデルや潜在ワールドモデルがとても興味深い理由は、そのワールドモデル内でモデルが計画する可能性を提供することです。エージェントを構築したり、行動を取らせたりする時に、「この行動やあの行動を取ったらどうなるか」を想像できることを望みます。
一貫したワールドモデルがあれば、その中で計画できるという期待があります。そのような証拠があれば、マルチモーダル訓練から出現することを期待するかもしれませんが、保証されるわけではありません。
計画は、これらのモデルを設計する際に常に話し、考えていることです。因果関係の3つのレベルをご存知ですか。私は知っていますが、聴衆の皆さんのためにも言及する価値があると思います。知識を前提とするよりも。
Judea Pearlの因果関係の3つのレベルというもので、少なくとも理論的枠組みにおいては非常に健全だと思っています。最初のレベルは関連性です。主に認識のようなもので、「カップがある、ラップトップがある、ラップトップの隣にいる人がいて、その隣にガラスドアがある」といったものです。雷が起こる時にしばしば音も聞こえるので、2つのものを関連付けるようになります。物事を互いに関連付けているのですが、因果関係は何も割り当てていません。
ちなみに、現在VLM(視覚言語モデル)は、視覚的推論などを行うように教えられた言語モデルは、レベル1にさえ達していません。関連性が非常に弱いため、実際にはシーン全体を見ていないからです。
それはどういう意味ですか、それについて説明を終えてからそれに戻りたいと思います。
2番目のレベルは、間違っていなければ介入で、基本的に「もし私がこの薬を飲んだら頭痛が治るだろうか」とか「もしタバコを禁止したらどうなるか」といった質問をすることです。もし私たちがXをしたらどうなるかという質問をできるようになることです。それは計画のように見え始めます。「もしXをしたら目標に到達するか」ということですが、それだけでは十分ではありません。
3番目のレベルは反実仮想で、「これがそれを引き起こしたのか、これを取り除いたらそれはまだ起こるだろうか」といった完全な計画を実際に行う時です。想像と内省といったものです。
これを言及する理由は、計画について考える時、それは内部表現よりも反実仮想を生成する能力と関係があるからです。ワールドモデルと、ワールドモデルでの思考の連鎖について考える時(実際にそれについての全体的なプレゼンテーションがありますが、その要旨をお伝えします)、ワールドモデルでの思考の連鎖とは、理解と生成を組み合わせることです。言語モデルは言語を理解し生成し、私たちのワールドモデルは世界の信号のほぼ全てを理解し生成します。
反実仮想を生成できる時、例えばカメラフィードで事故が起こるのを見て、「もしこのライダーがこの行動をしなかったらどうなるか」とか「もしこのライダーがいなかったら、この事故はまだ起こっただろうか」と言うと、それらのシナリオを生成します。そして、「ライダーがいる場合、事故が起こる確率はこれ。これらが生成結果だから」という確率を割り当てます。「ライダーがいない場合、この確率。ライダーがこの行動をしなかった場合、この確率」といった具合です。
結果として、反実仮想を生成できるため、実際に計画を行うことができるようになります。計画に関しては、理解と生成、そして生成があなたの中間表現、または異なる潜在的入力でモデルを条件づける能力という世界について考えています。
High Agencyポッドキャストは、HumanLoopがスポンサーです。HumanLoopは企業向けのLLM評価プラットフォームです。Gusto、Vanta、MacMillanのチームがHumanLoopを使用して信頼性の高いAI製品を出荷しています。AI製品を構築しているエンジニアリングリーダーやプロダクトマネージャーの方は、humanloop.comで詳細をご確認いただけます。
今日のモデルの能力について少し教えていただけますか。まだ使ったことのない視聴者の方にとって、何ができるのでしょうか。品質はどのようなものでしょうか。人々がLumaをチェックしに来ることにインスパイアされるような絵を描いてください。
もちろんです。最新モデルのRay 2を1月にリリースしましたが、現在これは地球上で最高の動画生成モデルの一つとしてランクされています。
Ray 2は画像、動画、テキストを取り込み、画像、動画、テキスト、音声を全て一緒に生成できるモデルです。テキストについてはあまり公開していません。まだそれほど良くないからです。
Ray 2でできることについてですが、2024年の私たちの最初のモデルを含め、それ以前に登場した全てのモデル、OpenのSoraなどは、AIで動画を生成できるという良い概念実証でしたが、それらが作り出すものは全て極めてAI生成物であり、業界で「AIスロップ」と呼ばれる用語で表現されるような見た目でした。
Ray 2は市場で初めて、プロダクション品質への境界線を越えたモデルです。全てではありませんが、モデルが生成する多くのものについて、これが生成モデルから来ていると言うのは困難です。それが目標です。
Ray 2を、動画モデルで以前に行われたことのないレベルまで構築し、スケールしました。Ray 2は動画モデルではないからです。マルチモーダルモデルであり、これらのマルチモーダルアーキテクチャの基盤なのです。その結果として、非常に良い物理法則、非常に一貫した動き、長距離の動きが得られます。4Kで5秒から20秒を実行できる最初のモデルで、非常に大きなコンテキストウィンドウを持っています。
現在、最大のパートナーと共にエンターテインメント、広告、メディアで大きく使用されていますが、AWS BedrockでもAPIから全てのAWSカスタマーが利用でき、LumaからもAPIとして提供されています。これは非常にエキサイティングなことです。
人々はそれで何ができるでしょうか。エンターテインメント業界で信じられないようなものを作っているのを見ています。特に視覚効果に使用していますが、これが本命だと思いますが、実際に制作に使用し、実際に行っていることに現れる映像を作っています。
明らかに、Ray 2は解決策ではありません。Ray 2はその解決策の始まりです。しかし、その部分に実際に触れる最初のモデルです。広告分野では、要求が1億ドルの映画ほど厳しくないところで、Ray 2が大きく展開され、私たちが目にするもののほとんどを生成するために使用されています。私たちの目標は、それがモデルから来たものだと決して分からないようにすることです。それが指標、それがチューリングテストなのです。
それに加えて、Dream Machineと呼ばれる私たちの製品でモデルを使用する巨大なコミュニティもあります。モデルを使用したり、視覚的に考えを巡らせたりするための非常に楽しいインターフェースです。世界中の多くの専門家が、発想から実際の制作の行為まで、あらゆることに使用しています。
基本的にこう考えてください。現在アトム(物理的に)で完全に行われている動画制作の行為が、Ray 2によってビット(デジタル)で行われる始まりを示しているのです。
人々が現在作成している動画の長さはどのようなものでしょうか。どのような時間スケールで一貫した動画を構築できるのでしょうか。その上に編集ツールを構築していますか。実際にはどのように機能するのでしょうか。
業界で最高の監督、アーティスト、編集者と協力して、Ray 2の上に適切なコントロールメカニズムを構築し、Ray 3の訓練においても協力しています。
これらのモデルは、スロットマシンのように「テキストを入れてランダムなものを出力し、テキストを入れてランダムなものを出力する」といった使い方をするなら役に立ちません。それは映画の作り方ではありません。
私たちは既にリリースした多くのコントロールがあり、正直に言って毎週、時には週に2回リリースしており、マーケティングチームは非常に忙しく働いています。これらのモデルに対して非常に細かいが、同時に非常に強力なコントロールを提供する多くのものが来ています。
映画の長さについてですが、実際これは動画について考える間違った方法で、説明させてください。映画におけるショットの平均長は約8秒だと思います。映画は多くの多くのショットです。
テレビ番組におけるショットの平均長は実際にはより短く、3.5秒から5秒程度です。5秒というのは『デューン』のような、新しいビルヌーヴ監督の作品のようなものです。素晴らしい作品で、見ていなければお勧めします。
まあ、世界はそれについて分かれていますね。どんなものでも。
私はあなたと一緒です。特に『デューン』の第一部ですよね。しかし、ほとんどのシットコムなどでは、ショットの長さは2、3秒以下です。正直言って、広告ではさらに短いことさえあります。
より長いショットを使って何かを確立したり、景色を見せたりすることがないわけではありません。それは創作ツールです。しかし、一般的に動画の制作は、ポッドキャストなどをやっていない限り、一つの連続したショットではありません。
実際に必要なのは、1時間の動画生成ができるモデルではありません。それは馬鹿げています。コンテキスト的にも技術的にも不可能ではありませんが、どうやってプロンプトするのでしょうか。人によっては「スクリプトを与える」と言うでしょう。しかし、スクリプトを取って全体の結果を生成してもらいたいのでしょうか。それは恣意的です。
「これは気に入らない」といった創作の制御を持ちたいのです。実際に、物語を語る行為は、特に技術世界の多くの人が持っている誤解ですが、「全ての入力が考え抜かれている。私たちの頭の中に全体の計画があり、カードを差し込んで完了」ということは決してありません。
創作の行為の中で物語の多くを発見するのです。そして、『フレンズ』や多くのテレビ番組で、誰かが偶然に何かをしたり、その時点で興味深いことをしたために最も重要なアークが起こったという例を今50個挙げることができます。私たちはその創作の行為を奪いたくないのです。
長さの質問について、欲しいのは一貫したものを生成できるモデルです。一貫したショットを次々と、ユーザーが実際に物語を作れるようにユーザーの入力を取り込めるもので、そのためには10秒でさえ十分すぎるほどです。しかし、実際に持続時間の限界を、20秒から1分、将来的には10分まで押し上げています。
これらの各クリップが最大数秒である必要があるのは確かですが、クリップ間で一貫性が必要ですよね。同じキャラクター、同じ視点などです。どのようにそれを達成するのでしょうか。
それは業界でまだ誰も実際に解決していない大きなことなので、私たちがどのようにそれを行っているかは明かしませんが、非常に誇りに思っているものを非常に近いうちにリリースする予定です。
今日それを行うことができます。将来の能力ではありません。今日非常に行うことができます。私たちのパートナーの一部は既にその能力をテストしており、準備が整い、洗練され、私たちがそれに満足すれば、製品をリリースし、最初のアクセスをお送りします。
楽しみにしています。アミットさん、フレームの全てがAI生成された長編映画が作成できるようになるまで、どのくらいかかるでしょうか。今日から始めて。
あなたがそれを気に入るかは分かりません。良い映画。人々が見て楽しめるような映画。
正直言って、1年以内にそれを実現できると思います。Lumaで見ている進歩の速度を考えると。そしてそれは二次的なことですが、世界とコミュニティ、既存の映画制作者や生涯物語を語りたかった新しい人々からの熱意を考えると。
14歳の誰かがどこかで、世界を驚かせる物語を思いついて、私たちがそれを見ることになるのはそう遠くないことです。つまり、これは既に『イカゲーム』のようなもので起こっています。もちろん、14歳ではありませんでしたが、完全に予想外でした。誰も『イカゲーム』、何それ、というようなものを考えていませんでした。
実際に人類の大多数が見るものが、1年以内にAIによって生成されると予測します。それは非常に印象的で、人類の多くはそれがAIで作られたことさえ知らないでしょう。
とてもエキサイティングです。少し話を戻しますが、これは聞かずにはいられない質問でした。しかし、製品側についてもう少し理解したいと思います。今日APIで何を構築できるのでしょうか。見ている例はどのようなものですか。APIの能力は何でしょうか。
絶対に。APIはテキストから5秒から20秒のショットを生成できます。画像から5秒から20秒のショットを生成することもでき、これは非常に強力なワークフローです。つまり、ストーリーボードを作ることができます。スケッチや画像の単なる右から生成するか、どこからでも取った写真を使って、基本的にその映画のプレビューを作ることができます。
今日、画像から動画へのRay 2は、画像から動画において以前に来た全てを上回る世界最高のモデルです。画像から動画は非常に人気のある機能ですが、そのパフォーマンスをどのようにベンチマークし、実際にどう測定するのでしょうか。
非常に良い質問です。私たちの業界は正直言ってベンチマークが不足しています。言語モデルが持っているようなMMLUや人類の最後のテストのようなものがありません。現在、Lumaはこれらのベンチマークの多くを構築しており、時間が経つにつれてリリースしていきますが、人間の好みでベンチマークしています。それが究極のテストです。
現在、何万人もの人々に2つのモデルAとB、時には3つのモデルA、B、Cからの二重盲検結果を見せて、どれが最も好きかを選ばせる大規模なセットアップがあります。それが現在の私たちの指針です。そのような労力がかかり曖昧な方法でやるなんて大変だと思われるなら、その通りです。
だからこそ、実際に示唆的で、「SSIMで良い」といった人工的なものではない指標に関する多くの研究を行っています。SSIMが何を示すものでもありません。FIDも何も示しません。FIDは下位でそれが実際に何に良いかを教えてくれるかもしれませんが、上位では何も教えてくれません。2つの異なるモデルを区別できません。
そのような分野で多くの作業を行っていますが、これらの指標の多くは、FID(Frechet Inception Distance)など、画像モデルが極めて原始的だった時代に作られました。それはそれほど昔のことではありません。4、5年前でしたが、顔の画像をかろうじて生成できることに感銘を受けていた時代でした。
このポッドキャストを聞いている人には、Lumaのウェブサイトのクリップを見に行くことをお勧めします。率直に言って息をのむほどです。今日がいかに素晴らしいかだけでなく、進歩の速度も驚異的であることが分かるように、タイムラインのどこかにクリップを保存しておくべきだと思います。
非常に良いアイデアです。製品とAPIで人々ができることについての答えを終わらせたいと思います。
画像から動画では、画像から映画やそういったものを生成できますが、広告主の場合や製品を作っている場合、撮影した製品の画像(簡単に入手できる)を取って、人々がそれらを使用し、展示し、着用している無限のシナリオを作ることができます。これは非常に強力です。
それから複数のキーフレームがあります。APIや製品に開始画像と終了画像を与えることができ、それらの2つの間の動画を実際に作成します。これらは本当にクールで、映画制作者にとって非常に有用です。映画制作者は最初のシーンと2番目のシーンを知っています。ちなみに、これが連続性を作る方法です。前のフレームから最後のフレームを取り、次のフレームに追加することができます。そうすれば、全てのビジュアル、スタイル、全てがそこにあり、キャラクターもそこにあります。
自己回帰ではないと言及されましたが、異なる時点のフレームで条件づけることは可能ですか。
絶対にできます。まだそのUIをリリースしていないだけです。実装はありますが、1時刻目のフレーム、30秒後のフレーム、15秒後のフレームがあって、その間を埋めることができるかと言えば。
絶対にできます。非常に簡単です。
それが3つのことです。それから、APIを使用してループや、ソーシャルメディアで非常に人気のある様々な形態の動画を作成することができます。それから、Ray 2の5分の1の価格のFlashモデルもあります。
Ray 2は高価です、間違いありませんが、これは最先端モデルのコストでもあります。しかし、Flashは5分の1の価格で、品質は10%しか劣りません。実際に、大きな武器の力が本当に必要ではない発想やそういった多くの用途にとって非常に有用です。
素晴らしいです。AI分野で構築している人々が一般的に見落としている、あるいは過小評価されているかもしれない概念やアイデアはありますか。
素晴らしい質問ですね。AI分野のほとんどの人は、これらのものが実際にどのように使用されるかを全く考えていないと思います。
多くの人が幽霊を追いかけたり、様々なことを解決したりしています。基本的に3つのグループに分けています。実際に革新的な仕事をしている会社があります。それは研究から来ますが、研究と設計が一緒になった組み合わせ、または研究と製品が一緒になったものからも来ます。
これがビルドの方法であり、最高の会社のいくつかがこのように運営している方法です。それから、これらの会社を追いかけているだけで、彼らがやっていることを何であれやっている2番目のグレードの会社があります。彼らの明示的なモデルは「私たちはXだが、Xのような」といったもので、実際には用途事例が何か、人々が抱える実際の問題をどう解決するかについて全く考えていません。
3番目のグレードの会社は研究ラボのようなもので、それは素晴らしいことだと思います。正直言って、何も悪いことはありませんが、この極めて強力な技術で実際に人間の状況を改善するために何をする必要があるかということや世界の他の部分とは非常に異なります。
しかし、あなたがどこに向かっているか、何を聞いているかは分かります。技術的な質問をしているのですが、必ずしも技術的なものではありません。
それも興味深いです。製品のアイデアかもしれません。私が目指しているのは、人々がシグナルとノイズを分離するのを助けることです。今はとても多くのノイズがあります。何について話しているか知っている人に出会った時、見落とされていると思うことを聞きたいのです。
実際、そのノイズについて言えば、XはAIについて学ぶのに最悪のプラットフォームの一つだと思います。プラットフォームが悪いからではなく、全くそうではありませんが、「これは世界を変える、これは世界を変える」といった非常に多くの誇大宣伝があるからです。
人々に言いたいのは、正直言って、モデルを無視することです。それらは核心ですが、実際にこれで何ができるかを考えたいのです。
人々が無視しているのは基盤となるベンチマークです。私たちは動画のためにそれを構築しようとしています。OpenAIが最近コーディング用のものをリリースしましたが、それは本当に気に入りました。また、SonnetのPokemon Go Playに関するベンチマークも本当に気に入りました。なぜかと聞かれれば、それは恣意的なものではないからです。実際に知能のテストなのです。
このようなゲームをプレイできることは実際に知能のテストです。ゲームとパズルは常にIQの非常に明確な差別化要因でした。
DeepMindの人々、DemisやAIヤーズのことを覚えています。彼らはチームとして始まりました。彼らはビデオゲームを知能のショウジョウバエ、実験できるテストラボと表現していました。
残念なことは、それらが現実世界のアプリケーションにはあまり良く翻訳されなかったことです。まず教師なし学習を機能させ、それからゲームを訪れる必要があると感じます。
その通りです。基本的に、AIで人々が無視していることについて言いたいのは、誇大宣伝に惑わされないことです。「このモデルや中国製のこれ」といったものに関係なく、実際にそれを使用し、あなたが思っているようなことをするかどうかを確認してください。それが大きな違いです。
現在、仕事全体が物事を誇大宣伝することである人がとても多くいます。良いかどうかに関係なく、得られる15分間の名声のために共有する必要があります。それは正直言って水を濁らせます。
3つ目に言いたいことは、このエコシステムにはとても多くの誇大宣伝があるにも関わらず、人々は実際に動画を完全に無視していることです。ちなみに、これは素晴らしいことで、私たちが構築することを可能にしますが、ほとんどの人、実際にこの分野の全ての会社は、動画をきれいに動く画素を生成する方法として考えています。
動画は汎用知能への重要な道筋にあります。動画はデータの壁への解決策です。動画は実際に、書き留められることのない全ての物理的プロセス、人類が日常的に行う全ての行動です。
人々が考えないデータのソースです。
終わりにするのに素晴らしいポイントですね。アミットさん、本日はご参加いただきありがとうございました。
お招きいただきありがとうございました、ラザ。楽しかったです。
それでは、今日のHigh Agencyでの会話はここまでです。私はラザ・ハビブです。私たちの会話を楽しんでいただけたことを願っています。
エピソードを楽しんでいただけた場合は、SpotifyやApple Podcast、またはお聞きになっているお気に入りのポッドキャストプラットフォームで評価とレビューを残し、購読してください。より多くのあなたのようなAIビルダーに届けるのに本当に役立ちます。
High Agencyの追加コンテンツ、ショーノート、その他のエピソードについては、humanloop.com/mpodcastをご確認ください。
今日の会話が新しいアイデアや洞察を生み出した場合は、ぜひお聞かせください。あなたのフィードバックは非常に意味があり、最も重要なコンテンツを作成するのに役立ちます。rzhumloop.comまでメールするか、Xでraza-raspool-on-xで私を見つけてください。

コメント

タイトルとURLをコピーしました