これがAI動画の新しい頂点や!💥 Veo 3で画像からAI動画生成💥

AI動画
この記事は約7分で読めます。

この動画では、Googleの最新AI動画生成モデルVeo 3の実用的な活用方法を3つの具体例で解説している。トーキングヘッド動画、広告動画、ロゴからコマーシャル動画への変換という異なるユースケースを通じて、画像から音声付き動画を生成する革新的な技術の可能性と課題を詳細に検証する内容である。

This is the NEW High for AI videos!💥 Image to AI Videos with Veo 3 💥
VEO 3's image to video is here right now on FAL And this video shows how to do the same !veo 3 fast - image to video on ...

Veo 3でAI動画生成の新境地

すんまへん、ちっこいコーダーが休みもろてましてん。わい、サムがこの有益なYouTubeチャンネルを引き継がせてもろいました。今すぐチャンネル登録してや。動画の冒頭で見てもろたクリップは、Veo 3を使こて生成したもんやで。世界最高の画像から動画へのモデルで、音声も付いてくるやつがAPIで利用できるようになったんや。

3つの異なる使用例を紹介して、プロンプトも共有するから、自分の好きなもん何でも生成できるで。

まず最初は、このトーキングヘッド動画やな。どんな人間の画像でもアップロードできるんや。AI生成でも実写でもええから、男性か女性かを指定して、カメラ目線で言わせたいことを何でも言わせることができるんや。

現時点でこれが唯一、音声をネイティブに生成するモデルやと思うで。ここで音声を再生するから聞いてみてや。

「Veo 3チェックしたか?みんな、FALでVeo 3の画像から動画機能チェックした?めっちゃええ使用例やで。マーケティング素材、UGC(ユーザー生成コンテンツ)、会社の研修用教材を作りたいんやったら、これが一番簡単な方法やで。8秒のクリップが生成されるんや。」

現在はGoogleの画像から動画モデルVeo 3を使ってるんやけど、Veo 3には2つの異なるバリエーションがあるんや。一つはVeo 3で、もう一つはVeo 3 fastや。でも今はVeo 3を使ってる。わいが現在使ってるこのモデルは、5秒のクリップで3.75ドルかかるんや。

結構高いけど、企業で使うんやったらそんなに高い費用には見えへんやろ。写真撮影チームを雇う必要もないし、モデルを雇う必要もないし、そういうこと全部せんでええからな。これが最初の使用例や。

広告動画の生成

2つ目の使用例は広告を生成することやな。この場合は、Appleの広告を生成するで。まずクリップを見せて、それからプロンプトを見せるわ。

本来やったらAppleのロゴを参考画像として使うべきやったんやけど、どんな風にトランジションするか見たかったから、スティーブ・ジョブズのポスターを参考画像として使ったんや。そこから「漆黒の虚空にAppleロゴ、細い光る輪郭が浮かび、柔らかい白いハローを放射している」って言ったんや。

めっちゃ情報量多いやろ。このプロンプトはGitHub gistに載せて、YouTubeの説明欄にリンク貼っとくから。

ここで見せたかったんは、2つの異なるプロンプト形式やねん。一つは今までやってきた普通のテキストプロンプトやけど、JSONプロンプトがVeoコミュニティではめっちゃ人気なんや。絶対JSONプロンプトも試してみてや。テキストオーバーレイも定義できるし、フォーマットも定義できるし、キーワードも、やりたいこと何でもできるし、結構詳細でモデルにとって理解しやすいんや。

これがVeo 3で作った2つ目の動画やけど、この場合はVeo 3 fastを使ったんや。Veo 3 fastは音声付きの5秒動画で約2ドルかかる。これは約30%安いんや。さっきのは3.75ドルかかったけど、今度は約2ドルだけや。めっちゃ違うやろ、Veo 3 fastの品質も見てもらえるとわかるけど、悪くないで。めっちゃええ品質やけど、Veo 3ほどシャープじゃないかもしれん。

ロゴからコマーシャルへの変換

3つ目の使用例で強調したいんは、ロゴを渡してそのロゴを何らかのコマーシャルに変換することや。これは本来やったらApple動画でやるべきやったんやけど、Apple動画ではスティーブ・ジョブズの画像を参考として使ったからやらんかったんや。

ここではただ画像を選ぶだけやで。この場合はBMWのロゴがあるんや。このBMWロゴが参考画像で、この画像をBMW車そのものに変えて、それから動いたり何かしたりして、モデル自体が音声を追加するんや。音声に関することは何も指定せんけど、JSONプロンプトで音声関連の参照を入れたかったらできるで。でもわいはただ画像を作りたかっただけや。

まずプロンプトを見せるわ。説明は「夜明けの霧の山道での映画的な演出」や。一つ重要なことを理解せなあかんのは、プロンプトにこれら全部書いてても、参考画像が一番重要やということや。参考画像として何を渡すかに関わらず、説明は理想的にはそれとマッチするべきなんや。

動画を再生するで。その前に、カメラの動き、照明、環境を見てもらえるとわかると思うけど、欲しいもの全部を具体的にデザインできるんや。

ああ、BMWがジャンプするのは物理的にちょっとおかしいな。なんでBMWがあんな風にジャンプするんや?速すぎて空中を飛んでるみたいやって言えるかもしれんけど、完全にアホやろ。

でも霧も見えるやろ。つまり、霧がこのシーンにはあんまり合わへんのや。なんで夕日のシーンで霧があるんや?わいが完璧に処理できてへん細かいニュアンスがあるんや。わいがひどい撮影監督やからな。でも、シーンから何が欲しいかの知識があって、そのアイデアがあって、そのニュアンスがあるんやったら、2ドルとか、この場合やったら4ドルくらい使うだけで結構簡単にできるで。

実践的な活用方法

全体的に、数ドル使うだけで見栄えのする8秒の広告が作れるんや。これは現時点でInstagramやTikTokなんかでめっちゃ人気で、みんな動物の参考画像をアップロードして何か喋らせたりしてるんや。最後にもう一つデモを見せるわ。

この画面を複製するから、ゼロから作ってるとこを見てもらえるで。画像を一つ選ぶわ。チンパンジーかストームトルーパーにしようかな。よし、ストームトルーパーでいこか。

ストームトルーパーがあるから、この画像を参考として使って、その画像を取ってくるわ。Veo 3 fastに戻って、これを追加して、「男性がカメラ目線で『これは今まで見た中で一番ばかげたものだ』と言う。すぐにシーンを終末的な爆発に変える」って言うで。

何が起こるか試してみよか。めっちゃ単純なプロンプトやけど、見てみたいんや。これは数秒かかるから、動画を編集して待たんでもええようにするわ。戻ってきたら、作成された動画を見せるで。

ストームトルーパーを何かのvlogに変えようとしてるんやけど、これは現時点でTikTokやInstagramで人気のフォーマットやねん。動画の準備できたで。再生するわ。音声をオンにするで。

「これは今まで見た中で一番ばかげたものだ。」

もうちょっとうまくプロンプトしてたら、トランジションをうまく処理できたと思うんやけどな。これからあれへのええトランジションができたはずや。でもこの場合は、次のフレームみたいになっただけやった。

まとめと今後の展望

これらのプロンプトについてどう思うか教えてや。これらのプロンプトが役に立ったか、もっとプロンプトが欲しかったら、また別の動画で手伝えるで。でも一般的に、このモデルについてどう思う?このモデルはソーシャルメディア、特にTikTokやInstagramでめっちゃバイラルになってるんや。みんながストームトルーパーとかチンパンジーとか、普通やったら起こらへんようなvlogを作ろうとしてるからな。変な、変なもんを使って動画を作ろうとしてるんや。

みんなこのモデルを使ってASMR動画も作ってるで。これは一般的にソーシャルメディアで最も人気のあるコンテンツの一つやからな。どんな動画でも作れるし、そういう脳が腐るような動画が嫌やったら、実際のコマーシャルを作って企業に売りに行ったり、企業にプレゼンしたりすることもできるで。

2ドルで5秒のクリップ、この場合は8秒のクリップが3ドル以下で作れるのはめっちゃ素晴らしいことやと思うで。数分でできるし、本格的な制作会社は必要ないからな。

YouTuberもこのモデルを使ってB-rollを作ってるんや。どちらにしても、このモデルはめっちゃ多くの新しい機会を開いてくれると思うで。

この動画についてどう思うか教えてや。また別の動画で会おうな。ハッピーグラウンディング!

コメント

タイトルとURLをコピーしました