AIビデオがあまりにもリアルになりすぎた…(VEO 3)

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,666 文字

AI Video Just Got WAY TOO REAL... (VEO 3)
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

なぜキーボードが濡れているんだろう?さて、新しいV3モデルがリリースされましたが、これは本当に驚くべきものです。とても優れています。音楽が追加され、音声が追加され、効果音も追加されています。ビデオに追加したいどんなオーディオでも、それを実現します。プロンプトに従って動作します。あなたが言いたいことを入力するだけで、それが実行されます。
私はVEOで持っていたAIクレジットをすべて使い、様々なプロンプトを生成して、どれだけ上手く機能するか確認してみました。これがほぼすべてです。一つか二つ省いたかもしれませんが、これらは選りすぐりではありません。最高のものばかりではなく、すべてをお見せします。
それでは見ていきましょう。まず「泥の中を走るダーティなオフロードバギーが、大きく恐ろしい見た目の膨らんだアヒルに追いかけられている」です。バージョン1を見てみましょう。かなり迫力があります。トラックを追いかけるアヒルがかなり威圧的ですね。
本当に素晴らしいです。バージョン2はこちら。わあ、ジャンプしていますね。アヒルの動きが素晴らしい。大きな膨らんだものだと分かります。すごいです。バージョン3はこちら。まだとても良いです。おお、バイパスしていますね。素晴らしい。バージョン4です。トラックに迫っています。
わあ、道路から弾き飛ばしていますね。これまでで最高のものだと思います。すべてが本当に素晴らしく見えます。少し怖いとも言えます。プロンプトを本当によく捉えていますね。
次に、反射がどれだけ上手く表現できるか見てみたいと思います。「二人の女性がゆっくりと鏡を持ち上げると、自分の反射が見えます。あなたは巨大な歯を持つ恐ろしいティラノサウルスです。」バージョン1はこちら。とてもリアルに見えます。素晴らしい反射です。とても良いですね。バージョン2です。バージョン1の方が良かったと思います。反射はより良かったですが、それ以外は素晴らしいです。バージョン3です。彼らは鏡を持ち上げています。それはとても良いです。
バージョン4です。どれも素晴らしいですね。バージョン1が最高だったと思います。すべてが完璧です。
次のものは完璧には仕上がりませんでしたが、それでもここには見るべき素晴らしいことがたくさんあります。「タコが水槽から出てきてコンピューターをハッキングしようとします。誰かが来るのを聞くと、急いで水槽に戻ります。人が入ってきて『なぜキーボードが濡れているの?』と尋ねます。」
これはかなり長めのプロンプトですが、生成されたものを見てみましょう。これが1です。「なぜキーボードが濡れているの?」素晴らしいですね。彼女の表情、「なぜキーボードが濡れているの?」が素晴らしいです。2はこちら。タコがキーボードに飛び乗っています。わあ。「なぜキーボードが濡れているの?」字幕は改善が必要ですが、それ以外は多くの素晴らしい点があります。「なぜキーボードが濡れているの?」「キーボードが濡れているわ」これが3です。「なぜキーボードが濡れているの?」どれも優れています。残念ながら、ここではタコは水槽の中にいません。「なぜキーボードが濡れているの?」水槽の外にいますが、それでも良いです。
これは別のもので、頭のないタコです。「なぜキーボードが濡れているの?」少なくとも人間の反応はこれが最高だと思います。「なぜキーボードが濡れているの?」その表情が好きです。どうやってこうなったの?という感じで。タコがジャンプするシーンは頭が欠けているようで良くないですが、この最初のショットでは、このタコは完璧です。
どれも完全に忠実ではないと思いますが、ここではとても良いことがたくさん起きているので、評価を与えなければなりません。面白いのは、これは文字通り私のキーボードだということです。これはRazerのマウスで、私が持っているのと同じだと思います。そしてこれは私のコンピューターによく似ています。ただ、このモニターは私のものとは全く違います。
さて、「ゴリラが10人の男性と戦う」ではどうでしょうか?混沌とした戦闘シーンをどのように表現できるか見てみましょう。最初のものを試してみます。かなり良いです。2番目。わあ、怖いですね。3つ目です。痛そう。これが今までで最高かもしれません。最後の方の小さな効果音は少しおかしいですが、それ以外はとても良いです。
「超人的なスピードで夜の森を走り抜ける動物の一人称視点で、最終的に人間の村に出て、その姿を見た人々が恐怖に逃げ惑う様子」というプロンプトです。これについては、うまくいったのは1つだけだとわかっています。うまく行かなかったものをお見せしましょう。まあまあですね。それほど悪くはないです。これらはどれも私が求めているような「森を走る動物」をうまく捉えていません。ただ、1番目のものは完璧だと思います。それははるかに最も近くて、本当に良いです。
「鷲がアコーディオンを弾いているとしたらどんな感じか考えたことはありますか?鋭い爪を持っているのに、どうやって?あなたもきっと気になっていたでしょう」
それではこちらがバージョン1です。音は良いですね。2番目を見てみましょう。これは鷲がボタンを正確に押すのに苦労しているのがよく表現されていると思います。3つ目です。これが最高のアコーディオン奏者ですが、これらは人間のような手です。そしてこれには余分な手があります。何が起きているのかわかりません。
「ダンジョンズ&ドラゴンズのアンデッドが頭蓋骨の山の上でギターソロを演奏しています。下では骸骨のファンたちが盛り上がっています。月は明るく赤いです。」見てみましょう。特にこのクローズアップのショットが好きです。アンデッドっぽさが本当によく見えます。2番目もとても良いです。
驚くのは、その説明に合わせてその場で音楽を生成していることです。3つ目です。「ああ、君たちは最高だ!」最後の方でちょっとアドリブがありましたが、それでもとても良いです。4つ目です。私にとっては1と4が競っています。
ここでは、毛糸で作られた2人の相撲取りを表現したかったのですが、私はそれを「yarm」と綴っていました。yarmが何なのか分かりませんが、私が「yarn」(毛糸)を意味していると理解してくれたと思います。彼らは試合の準備をしていて、冗談めかしたトラッシュトークをしています。彼らが言うべきことを書き出しました。聞いてみてください。
「私のハイライトリールにはあなたがうつぶせになっているシーンばかりだ。あなたの帯はこのリングの中で唯一、あなたがまだ何かを保持できると思っているものだ。」2番目の相撲取りのジェスチャーが本当に生き生きとしていて好きです。「何かを保持できると思っている。」「私のハイライトリールにはあなたがうつぶせになっているシーンばかりだ。あなたの帯はこのリングの中で唯一、あなたがまだ何かを保持できると思っているものだ。」かなり良いです。背景はありませんが、小さなキャラクターは気に入っています。3つ目です。「私のハイライトリールにはあなたがうつぶせになっているシーンばかりだ。あなたの帯はこのリングの中で唯一、あなたがまだ何かを保持できると思っているものだ。」
あまり良くないのは、2人目、つまり右側の人が話しているのがよく分からないからです。「私のハイライトリールにはあなたがうつぶせになっているシーンばかりだ。あなたの帯はこのリングの中で唯一、あなたがまだ何かを保持できると思っているものだ。」これは声の忠実度が最も高いと思いますが、最も不気味なビジュアルだと思います。1が一番良かったと思います。「私のハイライトリールにはあなたがうつぶせになっているシーンばかりだ。あなたの帯はこのリングの中で唯一、あなたがまだ何かを保持できると思っているものだ。」そう、これがうまくいったと思います。
「倒れた木や枝を飛び越えながら、ウサギを追いかけるオオカミの一人称視点です。ウサギは逃げようと左右に飛び回ります。視点は地面に近く、追いかけっこの猛烈なスピード感が感じられます。」1つ目です。2つ目。これは本当に気に入りました。3つ目。とても良いです。これらの2つは一人称ではありませんが、私が求めていた感覚をよく捉えています。4つ目です。まだ求めているものではありませんが、これは本当に良いと思います。追いかけっこの感覚がよく表現されています。
「窓から人々が身を乗り出しているレンガ造りの家です。6本の機械的な脚を持ち、人々が驚きの目で見つめる中、通りを歩いています。」1つ目です。2つ目。3つ目と4つ目です。1番目が一番良いと思います。上の方で人々が前後に揺れているのが見えます。これは本物のように見えます。残りはちょっと違和感があると言えるでしょう。
面白いことに、これは最初に実行したときレンダリングされませんでしたが、今は4つすべてあります。最初は1つだけでしたが、今は初めて見ています。プロンプトは「とても太った猫が大きな金色の玉座に座っています。あなたが近づくと、猫はあなたを見て言います。『おやつを持ってきたのが見えるニャ。』」猫に言わせてみましょう。1つ目です。「おやつを持ってきたのが見えるニャ。今回は生かしておいてあげるニャ。」かなり良いです。2つ目。「おやつを持ってきたのが見えるニャ。今回は生かしておいてあげるニャ。」素晴らしい。3つ目。猫語が訳されていません。態度は捉えていますが、セリフは言っていません。4つ目。「おやつを持ってきたのが見えるニャ。今回は生かしておいてあげるニャ。」素晴らしい。ここでは1が一番だと思います。
これは、どのモデルもうまくできない最も難しいプロンプトの一つです。良い表現を見たことがありません。「宇宙船の操縦室から見た巨大なリングワールドに近づく景色。リングワールドは太陽の周りを回転する巨大なリング状の構造物です。リングワールドの内側に文明の兆しが見えます。」
AIの好きなところは、私が言おうとしていることを常に理解してくれることです。これがその例です。完全なリングワールドではありませんが、良いです。巨大な構造物だとわかります。表面の細部も見えます。良いです。2つ目です。確かに何か魔法のようなものがあります。
これはまるでサターンの輪のようです。まだ求めているものではありませんが、その表現は気に入っています。3つ目です。これが最も近いです。これを完璧にレンダリングするものを見たことがないことを覚えておいてください。しかし、これらは間違いなく私が見た中で最高のものです。
なぜか4つ目はありません。これが私のお気に入りです。「広大な氷のように透明な凍った湖を滑っている女性を追いかける連続した一人称ショット。周囲は雪に覆われた山々に囲まれています。」これはGoogleがV2で紹介していたものの一つなので、V3がどう扱うか見たかったのです。かなり良いですね。
これは素晴らしいです。スケートが氷の上を滑る音がはっきりと聞こえます。素晴らしい。良いですね。4つ目です。素晴らしい音だと思います。本当にその感覚を捉えています。
これはV2でやったもう一つのものです。どれだけうまくできるか見てみたかったのです。「ヘルメットに取り付けられたPOVの連続したショットで、ダートバイクに乗った女性が砂漠の起伏のある砂丘を走り抜けるのを追いかけています。」
1つ目です。ちょっと変ですね。少し変ですね。2つ目です。かなり良いです。少し空中に浮いているのが見えます。とてもクールです。3つ目です。多くの素晴らしいことが起きています。4つ目です。これらはすべてとてもクールです。プロンプトを完璧に実現しています。
次は「下の夜空に急降下する前に、ゆっくりと上昇するジェットコースターの一人称視点」です。1つ目です。かなり良いと思います。2つ目です。とてもクールです。3つ目です。星をどう捉えたかが好きです。全体的に素晴らしく見えます。大好きです。しかし、これは落下ではありません。ここで落下したら完璧だったでしょう。これはより平坦な直線です。
落下があれば完璧だったのに。4つ目です。それは本当に良いです。しかし、また落下の直前で切れています。落下があればこれは素晴らしかったでしょう。
「雪で作られたトラが雪の森を歩いている」です。とても良いです。雪の音が大好きです。とても完璧です。2つ目です。ここでは音がなく、より単一の音色です。しかし、トラの姿は素晴らしいです。雪で作られているように見えます。これら2つ、特にこの1つは雪で作られているとわかります。こちらは雪に覆われたトラのように見えます。まあ大丈夫です。求めていたものではありませんが。4つ目です。
これら2つには何か変なことがありましたが、これは素晴らしいです。聞いてみてください。雪を踏む音。これは私にとってはA+です。
さて、私はすべてのクレジットを使い切ってしまいました。明日また補充して、もっとテストするかもしれません。非常に感心しました。特に音や音楽、スピーチ、抑揚などは素晴らしいです。多くの点がとても優れていて、ちょうどどうプロンプトを適切に出すかを理解し始めたところでクレジットがなくなってしまった気がします。
このモデルは非常に優れているので、間違いなくもっとクレジットを取得して、将来また実行したいと思います。皆さんはどう思いますか?音はどうでしたか?音楽は?グラフィックスは?様々なシーンをどのようにレンダリングしていましたか?これは次世代のAIビデオモデルのように感じますか?それともまだ感心していませんか?教えてください。
ここまで見てくれてありがとうございます。私の名前はウェス・ロスです。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました