GoogleのVEO-2が業界全体に衝撃を与えた!(OpenAIのSORAを上回る)詳細な分析

AIに仕事を奪われたい
この記事は約8分で読めます。

4,351 文字

Googles VEO-2 Just SHOCKED The ENTIRE INDUSTRY! (OpenAI SORA Beaten) Full Breakdown
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

これはV2、Googleの第2世代モデルですが、現在利用可能なあらゆるビデオモデルを凌駕しており、これにはOpenAIが最近リリースしたSora 2も含まれています。Googleはこれまでそれほど良い実績を残していなかったことを考えると、非常に驚くべきことです。しかし12月に入り、AIの開発に関してGoogleは誰もの予想を超える成果を見せています。アップデートを重ねるごとに、Googleが明らかにAI開発において業界のリーダーとなっていることを示しています。
AIが史上最も競争の激しい時期にある中で、このソフトウェアは単にベストであるだけでなく、かなりの差をつけて最高の評価を得ているという点で、これは歴史的な瞬間と言えます。GoogleがAI分野で復活を果たし、他の業界リーダーたちが目指すべき新たな基準を設定していることは明らかです。
先ほど述べたように、VEOは視覚的に魅力的で印象的なだけでなく、実際のベンチマークを見ると、他のモデルとの比較やそれらのパフォーマンスがわかります。ここでMetaのMovieGen、1080pビデオジェネレーターは非常に優れているものの、30%程度しか選ばれていません。一方、Googleのモデルは50%以上の支持を得ています。また、クリエイティブ業界の多くの人々が様々なプロジェクトで使用している優れたモデルとして高く評価されているCing 1.5も含まれています。
最高レベルのモデルの一つであるMinxも、好まれる割合が30%に留まっています。そしてもちろん、OpenAIの最新モデルであるSora turboは、好まれる割合が最も低いという結果になっています。全体的に見て、Googleのモデルは他のどの業界標準のテキストからビデオを生成するモデルよりも明らかに優れています。これは第2世代のモデルであり、最初のモデルを公開するまでにかなりの時間がかかったことを考えると、非常に驚くべきことです。
多くの人々が他のモデルを使用していたことを考えると、Googleは遅れを取っているように見えたかもしれません。しかし、ここでのベンチマークを見ると、完全なビデオ生成において、50%以上、約60%近くの人々がGoogleのモデルを選択していることがわかります。
プロンプトへの忠実度を見ても、ここでもGoogleのモデルが他を上回っています。このモデルについて私が特に気に入っているのは、その優れた物理的な表現能力です。これらのビデオ生成モデルの大きな問題点の一つは、生成AIシステムであるため、物理的な細かいレベルでの理解が実際には不十分で、一貫性のない幻覚的な出力につながることでした。
しかしGoogleはVO2で新しい何かを生み出すことに成功しました。アーキテクチャの全容は明らかにされていませんが、彼らが行ったことは、このモデルが物理的な世界を本当に理解していることを示しています。トマトを切る様子を見ると、ナイフで切られる際のトマトの見た目が非常にみずみずしく、膨らみのある様子が表現され、すべての細かな動きや変化、振動がトマトに見られます。そして、トマトが他のトマトの上に置かれる時、その果物の配置が信じられないほど完璧に見えます。
全体として、物体同士の相互作用についての非常に優れた理解を持っています。どのようにしてこれを実現したのかは分かりませんが、彼らの手法が非常に効果的に機能していることは確かです。テキストからビデオを生成する際に本当に難しいことの一つは、液体の扱いです。液体は非常に予測不可能で、従来のマシンがそれらの小さな粒子をすべて計算するのに本当に何時間もかかるような方法で動きます。
そのため、正確な流体シミュレーションを見ると、彼らが開発したモデルが本当に一貫性のあるものであることがわかります。独自のWシミュレーションを生成しようとしたことがある人なら、それがいかに面倒な作業かを知っているでしょう。ここでの例を見ると、2種類の液体があることがわかります。コーヒーが注がれる様子には、私が見たい細かなニュアンスがたくさんあります。そして、シロップを見ると、それも正確な速度で流れ、重なり合う様子が非常に詳細に表現されています。
全体として、物理的な表現は完全に信じられないものだと思います。コーヒーを注ぐ人のデモを見つけましたが、これは液体が一つの物体から別の物体へと移動する様子を実際に見ることができるため、本当に信じられないほど素晴らしく見えます。これは私にとって完全に驚くべきものでした。例えば、彼がグラスを戻す時、水にわずかな揺れが見られます。グラスを置くと、水が動く様子が見られ、これらの細かな詳細がすべて、このモデルが生成できるリアリズムに貢献しています。
これは、本当に効果的なモデルを作り出す際のGoogleの能力に大きな自信を与えるものです。そしてそれは驚くべきことではありません。なぜなら、Googleはしばしばこの種のテクノロジーにおいて革新を起こす存在だからです。正確にどのような技術だったのかは分かりませんが、現在のビデオ開発の状況に関して、GoogleはSoraやMinimax等の多くの効率的なモデルの創造につながるブレイクスルーを実現しました。
ここでも、誰かが非常に冷たい飲み物を注ぐ別の例を見ることができ、正確な流体シミュレーションを確認できます。しかし、素晴らしい物理表現はさておき、生成されるキャラクターの奇妙で素晴らしい例についてはどうでしょうか。ジャガイモが出演するシットコムTVショーを見ることができます。なぜこの人がジャガイモを生成したのかは分かりませんが、キャラクターの一貫性が本当に効果的に見えることに注目すべきです。
もはやジャガイモを見るのをやめて、別の興味深い例を見てみましょう。車が滝に到達するまで道路を最高速度で走り、そして滝に到達して山から飛び降りるというプロンプトです。これは、車が滝を走り抜ける(実際には運転する)様子を見ることができる印象的な例で、この車が目の前で見える物理的な動きに関して非常に正確に動作できることがわかります。滝は本当に素晴らしく見え、水しぶきも素晴らしく見えます。全体的に、モデルが実現できることは本当に驚くべきものです。
これらのモデルにアクセスできる個人が、本当にクリエイティブな出力を生み出すことは間違いありません。このように難しいプロンプトを実行し、キャラクターの一貫性を保ち、車が変形したり歪んだりしないようにすることは、長時間にわたって成功させることは容易ではありません。多くの異なるビデオジェネレーターで見られる問題の一つは、車が時々まったく異なるブランドや完全に異なる物体に変形してしまうことです。
これらのビデオモデルを継続的に使用していない人々にとって、これがどれほど大きな進歩であるかを本当に理解することは難しいでしょう。しかし、これが本当に競合他社より一歩先を行くモデルであることを皆さんに伝えたいと思います。全ての面で単純に優れているのです。ジャガイモに話を戻すと、長い黒いレザーコートを着たジャガイモが主人公の映画的なカンフーアクション映画の例を見ることができます。大雨が降っている中での様子です。
これは、プロンプトへの忠実さや雨の表現の良さなど、複数の異なる要素が成功裏に組み合わさった例だと思います。正直なところ、この例は誰かが確実にAIが生成したものだと教えてくれない限り、私はそうだとは信じなかったでしょう。見ている全てにおいて、私は本当に何の問題点も見出せません。
GoogleのVOプロジェクト、テキストからビデオを生成するVOは、彼らが今回立ち上げた唯一のものではありません。彼らはまた、テキストから画像を生成するフロンティアモデルであるImagen 3も発表しました。Imagen 3は本質的に、リーダーボード上の他の全てを凌駕する彼らの画像モデルです。全体的なELOレーティングでどのようにランク付けされているかをここで見ることができます。
既に述べたように、これは再びGoogleが主導権を取り戻していることを示していると思います。これらのAIモデルを動かしているほとんどのテクノロジーを発明したのは彼らなのですから、彼らが全力で復活を果たしていることは大きな驚きではないはずです。今日彼らがリリースしたのはビデオモデルだけではなく、画像モデルも発表しており、これは純粋な一貫性の面でリーダーとなっているようです。
このモデルがプロンプトへの忠実さの面でどのように機能するかについて興味がある場合、それは本当に信じられないほど素晴らしいものです。実際にこれらの画像モデルを作成できるImage Labsエリアを見ると、彼らが使用しているUIは初心者にとって使いやすいだけでなく、上級ユーザーにとっても、見たいものを正確にコントロールできるプロンプトを構築できる点で単純に最高のものであることがわかります。
これらの写真についてはEthan mikに感謝しますが、ここでImagen 3が本当にあなたが望むものを正確に理解していることがわかります。特定の単語に対するドロップダウン機能により、本質的に画像の特定の部分をコントロールし、入れ替えることができます。私が非常に興味深いと感じた重要なプロンプトの一つは、男性の目のクローズアップで、その目にガーリックブレッドが反射して見えるというものでした。これは非常に難しいプロンプトを成功させた例です。
これは再びGoogleのモデルが先行していることを示す別の例です。また、月面でバンパイアと戦うジャガイモの写真もリアルに見ることができます。なぜ誰かがこのようなプロンプトを作るのかは分かりませんが、それがAIの意義なのです。あなたの創造性を活かし、すべてのアイデアを探求することができます。
全体として、GoogleがVOとImagen 3を生産し、他のどの企業と比較してもパフォーマンスの面で最先端であり、しかもかなりの差をつけているということは、本当に信じられないことだと思います。このように、Googleは今週、ビデオ、テキストから画像への変換、そして彼らの全体的なAIモデルと未来に関して、単純に王座を取り戻したように見えます。
そういうわけで、皆さんは今Googleについてより楽観的になりましたか?私は確かに、特に1月に向けて彼らが提供する他のものを楽しみにしており、年末に向けてGoogleがさらにリリースを控えているかどうかを見守りたいと思います。

コメント

タイトルとURLをコピーしました