Veo 3.1が縦型動画に対応、ゴリラVloggerの作り方を完全解説

Google・DeepMind・Alphabet
この記事は約10分で読めます。

GoogleのVeo 3.1が縦型動画フォーマットに対応したことを受け、実際にゴリラのVloggerキャラクターを作成し、会話する動画を生成する過程を詳細に解説した実践的チュートリアルである。GeminiとVeo 3.1を使った画像・動画生成の基本から、Star Warsスタイルのオープニング作成、Sunoでの音楽生成、複数のキャラクター作成と編集まで、AI技術を駆使した短編映像制作の全工程を紹介している。AGIをテーマにしたSF風ストーリー「トークン戦争」の制作を通じて、現在のAI生成ツールでどこまでクリエイティブな映像作品が作れるのかを実証する内容となっている。

NOVO VEO 3.1 Agora faz Vídeo Vertical e Aprenda Como fazer o Vídeo do Gorila Vlogueiro
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

Veo 3.1の縦型動画対応とゴリラVloggerプロジェクト

皆さん、GoogleのVeo 3.1で縦型動画が作れるようになりました。パステルはいかがですか。皆さんが聞いた通りです。このゴリラに会話させる方法を理解していきますし、現在の技術を使って短い物語を作ることが可能かどうかも見ていきましょう。それでは始めます。

さあ皆さん、いつもいいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しています。この人工知能チャンネルをスポンサーしてくれている全てのチャンネルメンバーに特別な感謝を送ります。メンバーの皆さんには、WhatsApp統合やMCP、プレイリストやスプレッドシートの読み込みなどを教えるインテリジェントエージェントに関する限定動画へのアクセス権があり、早期公開動画も視聴できることを覚えておいてください。

GoogleによるVeo 3.1の縦型フォーマット解禁

さて皆さん、Googleがここで縦型フォーマットをVeo 3.1の動画で解禁しました。これはFlowで発表されましたが、他の全てのプラットフォームでも有効です。彼らが話している機能の一つは、動画を最大4Kまでアップスケールできるようになったことで、これは非常に興味深いことですよね。

ゴリラVloggerの作成方法

では、このゴリラをカメラに登場させて、Geminiを使ってVlog動画を作るにはどうすればいいのでしょうか。見てください、私は普通のGeminiを使っています。今はFlowではなく、通常のGeminiです。

私が入力したプロンプトは非常にシンプルでした。サンパウロのMASPでデニムのオーバーオールを着たゴリラが片手にパステルを持っている。そして英語で書きましたが、ポルトガル語で書いても機能します。

Selfie vlogging camera angle、つまりセルフィースタイルのVlogを撮っている人のカメラアングルです。そして続けて、shot from an extended armと書き、括弧内にspawnと入れました。これは前足のようなものです。人間以外の場合、混乱してしまい、人間の手が途中に現れてしまって非常に奇妙になるからです。でもこれは写真を撮っている人が腕を伸ばして携帯電話を持っているような感じです。

アスペクト比のところに9×16と入力しましたが、単純に縦型フォーマットと書いても同じように機能します。画像を生成したとき、カメラや電池など、携帯電話の要素がいくつか表示されましたが、それは望んでいませんでした。そこで単純に、携帯電話の画面からテキスト参照を削除してくださいと伝えました。

たった一回の編集で、サンパウロのMASPでオーバーオールを着た美しいゴリラができあがりました。いいですね。

動画生成の実践ステップ

さて、次に何が必要でしょうか。ツールに行って、動画を作成をクリックします。これを行うと、別のウィンドウで開くように指示されます。新しい会話だと言ってください。いいですね。ここをクリックして画像をコピーするのを忘れないでください。必要になります。

次のウィンドウに入ったら、画像を貼り付けて、私が書いた内容を見てください。ゴリラがこう言います。「皆さん、GoogleのVeo 3.1で縦型動画が作れるようになりました。パステルはいかがですか」そしてここに補足しました。ゴリラはブラジルポルトガル語で話しながら歩きます。縦型フォーマット。

縦型フォーマットと書いても問題ないと言ったのを覚えていますか。ここの画像はすでに縦型なので、おそらく最初からそうなるでしょう。そして詳細ですが、常に画像を先に生成してください。プロンプト生成はしないでください。なぜならそれは可能ですが、気に入らない画像で動画を作ってしまう可能性が非常に高いからです。

だから何をお勧めするかというと、動画の始まりとなる最初の画像を常に生成することです。これが完了すると、少し時間がかかりますが、ゴリラの動画をきちんと作成してくれます。

皆さん、GoogleのVeo 3.1で縦型動画が作れるようになりました。パステルはいかがですか。

完璧ですよね、皆さん。秘密はありません。特別なことは何もありません。ここで、動画を作成のオプションで動画を作っていることをマークするのを忘れないでください。そうすれば全てうまくいきます。

Star Warsスタイルの短編映画プロジェクト

さて、私は考えました。短編映画を作って、Sunoで音楽を生成して、Star Wars風の何かを取り入れて物語を語ることはできないだろうかと。それを実現するために、小さな脚本を作りました。人類がAGIを発見しようとしているという設定で、いくつかのキャラクターを選びました。Musk Vaderです。François Cholletを作り、Sundar Pichaiを入れ、Andrej Karpathyなど何人かの人物を入れて、習近平も含めて小さな筋書きを素早く作りました。実はここのテキストは間違っていますが。

筋書きを作るために、この要約をGeminiに入れて、10のシーンを作る手伝いをしてもらいました。そして物語の残り全てを完成させてくれました。いくつかのアイデアを入れてくれました。地球と呼ばれる惑星で、コンピューティングは宇宙を支配する力であり、などなど。

そして10のシーンを全てきちんと配置してくれました。私は思いました。「さあ、最初のいくつかを作ってみましょう。この作業はそれなりに大変だとわかっているので、現在の技術を使って最初の部分を作ろうとしたら何が起こるか見てみましょう」と。

Star Warsオープニングの作成

イントロダクションがあったので、通常のGoogle検索に入って、誰かがStar Warsスタイルのイントロダクションを作成したことがあるか調べました。そして、このCastle Labsがバージョンを作っていたことを発見しました。

そこで、ChatGPTが生成したテキストに手動でいくつか変更を加えたものを使いました。ここでWarsを作成しました。エピソード1、トークン戦争と入れました。Geminiが作成した全てに小さな変更を加えて、短いテキストを入れました。地球と呼ばれる惑星で、コンピューティングは宇宙を支配する力である。

ある文明は危険なほどAGIの開発と特異点到達に近づいている。企業派閥がGPUの支配権を巡って争う一方、抵抗勢力はオープンソースコードを維持しようとしている。そしてここで再生すると、これが表示されます。

あのテキストを取って、まるでStar Warsのクラシックなオープニングのように変換します。Wi Warsが表示されて、視聴できます。音楽も全て入っていますが、ここではミュートにして見せています。そしてテキストが全てきちんと表示されます。テキストが画面を上がっていき、望み通りにきちんと表示されます。

それで私は思いました。よし、このオープニングを私たちの動画に入れましょう。いいですね。でもまだ準備ができていない部分がありました。音楽を作る必要がありました。

Sunoでの音楽生成

そこで私はSunoに行き、Star Warsスタイルのメインテーマと入力して、単純に2つのバージョンの音楽を生成しました。オリジナルのサウンドトラックを使う必要がないようにです。

そして選んだサウンドトラックはこの最初のものです。聞いてください。Star Warsのテーマのようなものが欲しいという一行を言っただけで、このバージョンを作ってくれて、完璧で、オープニングに完璧に合います。

キャラクターとシーンの生成

そして今、最も簡単なことが残っています。いくつかのシーンを取って変換することです。例えば、このシーン2では、François Cholletが登場してこう言います。「ボブ船長、北セクターからAGIの信号を検出しました。レイテンシーがゼロになりました」繰り返します、レイテンシーゼロです。

そして、Cholletと会話するボブ・スカイウォーカー船長の全行程が始まります。ボブ・スカイウォーカーはコメントします。「これは単なるLLMではない、Chollet。これはもっと密度の高い何かだ。ニューラルネットワークに乱れを感じる」などと続きます。会話は続いていきます。CholletはHugging Face評議会に知らせるべきですと答えます。

そして会話は続きます。さて、このレベルに到達するために、いくつかのキャラクターを作成する必要がありました。ボブ船長を作り、Cholletを作り、いくつかの環境を作りました。

参考までに、私は自分の写真を送って、白い背景でこれらのバージョンを作り始めました。まさにこの方法でキャラクターを作成できるからです。

François Cholletの写真を使って同じことをし、全員をStar Trekの制服に入れました。唯一の理由は、私のこのシャツが青い長袖でStar Trekスタイルだからです。だからStar WarsとStar Trekを混ぜてしまったんです。それ以上の理由はありません。混ぜるのが好きではない人もいますからね。

でもFrançoisがコンピューターの前にいる画像もいくつか生成しました。部屋をいくつか生成しました。Cybertruckのコックピットのシーンもいくつか生成しました。Cybertruckの部分はまだ入れていませんが、待っていてください。使用される予定のいくつかのテイクを作りました。イーロン・マスクも含めてですが、イーロン・マスクの画像は著作権があるためブロックされてしまいました。でもいくつかの環境は全て生成されて、全て完璧です。

Flowでの動画生成プロセス

では何が残っているのでしょうか。今からFlowに行って、いくつかの画像を生成し始め、作業を始めます。実際、この部分は本当に時間がかかります。

現在のFlowの重要な詳細ですが、動画メニューと画像メニューがあります。Flow内で画像を生成すると、Imagen 3を使います。Flow内の興味深いことの一つは、Imagen 3の生成でクレジットを一切消費しないことです。

それよりも良いのは、透かしが入らないことです。だからここで画像を生成すると、透かしは入りません。多くの画像を生成するのに長時間を費やした後、それぞれに望まない欠陥があります。例えば、ここでFrançois Cholletが半分しか出ていませんでしたが、良い画像がいくつか出始めました。

コーヒーを持った私の画像、文脈に合わない他の画像もありました。人が一方にいて、突然私が反対側に現れたりしました。そして必要で有用なものを見つけるまで、多くの画像を生成し続けます。そして動画に進みます。

動画では、最初に気づくことは、私が経験した生成の失敗の数です。イーロン・マスクの部分がうまくいかなかったからです。あの画像は作らせてくれませんでした。でもうまくいくときは、画像を送って、キャラクターが叫びながらこう言いますと入力します。「ボブ船長、北セクターからAGIの信号を検出しました。レイテンシーがゼロになりました。繰り返します、レイテンシーゼロです」

そして生成した画像を使って、最終結果はこうなります。

ボブ船長、北セクターからAGIの信号を検出しました。レイテンシーがゼロになりました。繰り返します、レイテンシーゼロです。

最終編集と完成作品

そして今、残っているのは複数の動画を生成して、後で編集し、あのサウンドトラックと組み合わせ、あのオープニングと組み合わせ、全てを動画編集に収めることです。最終結果は今から見るものです。3、2、1、スタート。

ボブ船長、北セクターからAGIの信号を検出しました。レイテンシーがゼロになりました。繰り返します、レイテンシーゼロです。

これは単なるLLMではない。これはもっと密度の高い何かだ。ニューラルネットワークに乱れを感じる。まるで何百万ものパラメーターが突然叫んでいるかのようだ。

Hugging Face評議会に知らせるべきです。

時間がない。トークン戦争が始まったのだ。

どう思ったかコメントしてください。気に入ったか、この映画を続ける価値があるか教えてください。そしてこのようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはインテリジェントエージェントの限定動画や早期公開動画にアクセスできます。それでは、いいねをお願いします。ありがとうございました。

コメント

タイトルとURLをコピーしました