バイラルAIブログの作り方 – バイラルAI TikTokブログチュートリアル(Veo-3)

Google・DeepMind・Alphabet
この記事は約15分で読めます。

本動画は、GoogleのVeo-3を使用してバイラルなAIブログを制作する具体的な手法を解説したチュートリアルである。ビッグフットやアインシュタイン、ペスト医師などのキャラクターを使った一人称視点の動画制作において、プロンプトの構造化、カメラアングルの設定、連続性の確保、複数キャラクターの扱い方など、実践的なテクニックが詳細に説明されている。特に、効果的なプロンプト構造として「主人公+行動+カメラアングル+環境+セリフ」の順序が重要であることが強調されており、クレジット消費を抑えながら高品質な動画を生成するためのノウハウが豊富に含まれている。

AIブログが今、インターネットを席巻しています。この動画では、それらを作成する正確な方法と、すべてのクリップを完璧にするために必要な正確なプロンプト戦略をお見せします。

みなさん、今日は魚を釣ります。大きなのが釣れたようですね。あとは待つだけです。もういい匂いがします。

今ご覧いただいた動画は、実はすべてGoogleの新しいツール内で作成されました。私はすでにGoogle Flowの使い方についてチュートリアルを作成していますが、この特定のプラットフォームを使ってこの特定のチュートリアルを再現する方法を正確にお見せします。

まだでしたら、説明欄のリンクをクリックして、Google Flowにアクセスして始めてください。

このプロジェクトを開いてみます。これにより、元のプロンプトと、オンラインで完全にバイラルになっているシリーズの一つを生成するために使用した正確なワークフローをお見せできます。

最初の動画の一つ、最初にご覧いただいたこちらは、もちろんこの森の状況でのビッグフットで、魚を持ち上げているのがわかります。

動画が何であるかはご存知だと思いますが、最も重要なのは、もちろんプロンプト構造を理解することです。注目すべきは、この下の部分です。このボタンをクリックしてみます。すると、プロンプト全体を見ることができる小さなメニューが開きます。

最初に驚かれるのは、おそらく広範囲なプロンプトがないという事実でしょう。理解すべき主要なことは、Veoがすべての重い作業をしてくれるということです。これには、非常にリアルに聞こえるようにする音声の小さな不完全さも含まれます。

基本的にここにあるのは、まず主人公と彼らが何をしているかです。まず、これが私がすべてのプロンプトを構造化する方法です。最初にビッグフットが魚を持っていると言い、そしてもちろんカメラアングルを追加します。

驚くべきことに、これを習得するのに実際に非常に長い時間がかかりました。多くの異なることを試しました。私にとって、これがそのPOVスタイルの見た目を与える唯一の方法で、現在誰もが使っているものです。

セルフィーカメラアングルを持ちたいのです。そして、もちろん、伸ばした腕の視点から撮影したいのです。そして、もちろん、最後に環境が欲しいのです。なぜなら、最初にここでしたいことは、この最初のセクションが画像プロンプトになるからです。そのセクションは基本的に最初のフレームがどのようになるかを設定します。

最初のフレームが構築されたら、「彼は言います」と入力し、引用符で「みなさん、今日は魚を釣ります。大きなのが釣れたようです」と入力したのがわかります。これが最初のクリップを取得する方法です。

最初に、もしかすると、はるかに安価な画像生成プロンプトを通してこれをテストすることを覚えておいてください。そうすることで、視点が正しいか、そしてモデルがあなたがしようとしていることを理解しているかを理解できます。プロンプトの小さな不完全さは、貧弱または恐ろしい生成につながります。これは、再びさらに多くのクリップを生成しなければならないことを意味し、さらに多くのクレジットを消費することになります。

幸い私にとって、AIに多くの時間を費やしているので、ウルトラティアを購入する余裕があります。しかし、クレジットがはるかに少ない方、はるかにタイトなクレジット予算の方にとって、まず主人公、次に主人公の行動、次にカメラアングル、次にもちろん環境、そして最後のセクションが彼らが行っていることの正確な内容であることを確認するために、もう少し注意深くなる必要があります

ここではかなり壮大に見えます。もちろん、これでは、もちろん別のアングルを得ました。これをVeoが実際に生成したかどうかもわかりません。しかし、同じプロンプトを使用したという事実を考慮すると、再び見ることができます。変更したのはいくつかのことだけです。

再び、環境を変更したのがわかります。ビッグフットが今、魚を手に持ってキャンプファイヤーに座っていると言いました。これがプロンプト構造です。まず主人公を持ちたいのです。次に行動です。どのようにしているか?この一つはビッグフットが立っていました。魚を持っていると言いました。そして、もちろん、この一つでは、魚を手に持ってキャンプファイヤーに座っていると言いました。

まったく同じカメラアングル、まったく同じ環境を使用しました。なぜなら、それが環境に一貫性を持たせる方法であり、それがあなたの動画が奇妙に見えない理由だからです。湖にいる動画がある場合は、湖で始まるか、湖の近くで始まることを確認してください。そうすることで、少なくとも少しの一貫性を持つことができます。密林であることを考慮すると、この種の環境が好きな理由は、少し異なるものを見つけるのが難しいからです。

背景の木々は少し異なるかもしれませんが、森では、より密度の低い木々がある場所に移動することは信じられることだと言います。今度は再び、「今度はこの悪い子を料理しよう」と入力しました。

実際に2つの動画を生成しましたが、時々世代がうまくいかないことがあることを言います。たとえば、ここでのこの生成、これはうまくいきませんでしたが、これはV2だったと思います。ここでV2 fastと表示されているのがわかります。V3、最高品質の一つで、それが第一にオーディオ、第二に最高品質を得る方法になります。理想的にはV3を使用したいのです。

VO2を使用したときでも、ここで見ることができますが、このビッグフットスタイルの生物でさえ、異なる種類のサルのように見えます。名前がわかりませんが、オレンジ色のものです。本当に名前がわかりません。オランウータンだと思いますが、ここで見ることができますが、はい、これは非常に印象的ですが、ここでのこの一つほど良く見えません。

ここで見ることができます、これは魚を手に持ってキャンプファイヤーで歌っているビッグフットです。ブログカメラがそこにあると言いました。そして彼はカットしました、そして覚えていてください、これは実際に間違いでした。これがプロンプトで非常に注意深くなる必要がある理由です。ここでブログカメラを置いたことを考慮すると、ブログカメラをそこに置いただけです。そして、もちろん、彼は魚を開いて、内臓を取り出し、密林のキャンプファイヤーの上にある石の上に置くと言っています。

そして彼は言います、「もちろん、最初に内臓を取り出さなければなりません」。ここで見ることができますが、このプロンプト戦略は非常に効果的です。欲しいクリップを得ることができますが、それだけではありません。

信じてください、多くのクリエイターが苦労していることを私が気づいたことがありました。これを考えなかったという事実を考慮すると、それが彼らの動画がTikTokのようなプラットフォームで見ている一部のトップクリエイターほど良くない理由でした。

できるようになる必要があるのは、ある程度連続的なシーンを生成したら、そのフレームの一つを使用して次のシーンを生成することです。たとえば、ここにビッグフットがいるとしましょう。私ができたのは、これをシーンに追加することでした。

「シーンに追加」をクリックしたので、シーンビルダーが開きます。シーンビルダーは、クリップを視覚化し、クロップ、削除、複数のクリップの追加ができるビジュアルタイムラインです。この場合に私がしたのは、クリップを再生し、動画の最後に向けて、基本的にここでこの最終ショットを使用し、このフレームをアセットとして保存できる非常にクールなボタンがあります。

このフレームをアセットとして保存すれば、今私がしているのはショットに連続性を作成することです。間違って言ったと思いますが、動画を続けます。ここで見ることができますが、この画像をすでに保存していますが、画像は自動的に環境全体に保存されます。これにより、より長いショットを作成したい場合、はるかに多くのキャラクターの一貫性を持ってそれを行うことができます。

この画像を取得したら、フレームからビデオに移動する必要があります。ここで行う方が簡単です。それが私の考え方です。プラスをクリックしてこれを追加すると、プロンプトを生成するときに、実際にこれを最初のフレームとして使用します。覚えていてください、この動画を生成しました。

そして、もちろん、魚で何かをしていた最後のフレーム、魚を置いている場所で、魚で何か他のことをするために使用できます。私が使用したプロンプトは、その上にレモンを絞るというものでした。ここで見ることができますが、一貫性の面で少し一貫性があるように見えます。

ここで実際に私を悩ませたのは、実際にテキストプロンプトを取得しなかったことで、残念ながら時々起こることで、再び生成しなければならないことを意味します。しかし、もちろん、これらすべてをシーンビルダーに追加する方がはるかに簡単です。これをシーンビルダーに追加します。

それから、ここに戻ってきます。Google Flowを使用するときは、Flowまでずっとクリックしないでください。すべての進行を失うからです。動画は失いませんが、シーンビルダーで何かを構築していて、編集してクリップをクロップした場合、その進行を失い、再びしなければなりません。

実際にここで最初のクリップを追加してみましょう。最初のクリップを追加し、シーンに追加します。今これらを配置したいと思います。配置をクリックすると、ここに移動し、完了をクリックしました。これらを配置すると、正確に何が起こるかが再びわかります。

覚えていてください、これは最初にお見せした動画です。「みなさん、ここで何でも、やれやれ」と言っているビッグフットと彼の食べ物があります。そして、もちろん、ここで彼は魚を置きます。これは本当にクールです。ここでのこのクリップを愛しています。そして、もちろん、同様に、彼が別のクリップでも魚を調味しているのが見えます。

もちろん、これを仕上げたい場合、このクリップを追加できます。今これを延長するためにできることは、このフレームをアセットとして保存することです。今アップロードされ、基本的にそれをアセットとして保存します。ショートフォームプラットフォームでは実際にフレームを保存したくないことを理解しています。

おそらく完全に新しいシーンを生成する方が良いでしょう。ここでできることは、ビッグフットが密林で調理された魚を食べ始めると言うことです。手で食べると言うことができます。そして、もちろん、ここで言うことができます。もちろん、「これは美味しい。新鮮な魚ほどのものはない」と言うと追加します。

今それが行うことは、その最後のフレームを使用することです。これは、本当に長い延長されたシーンを持ちたい映画製作者の方のためのものです。しかし、Googleがこのキャラクターを認識し、本当に一貫したテーマを持っているので、このプロンプトだけでも持つことができます。

これをV3であることを再度確認し、ダブルチェックすることを確認します。どれであるかをダブルチェックしないと、クレジットを燃やしてしまうことがよくあります。常に1つにしてください。デフォルトで2に設定されているからです。1に変更してからエンターを押してください。

また、異なるスタイルのプロンプトを持ちたい場合は、このページに戻ってきて、プロンプトのスタイルを使用または再利用したい場合は、基本的にここでこのボタンをクリックできます。

プロンプトを再利用したい場合は、この再利用ボタンをクリックできます。たとえば、ここでのこの一つ。これを再利用して、これらのセクションを編集できます。ビッグフットが魚と一緒にキャンプファイヤーに座って、それを食べていると言うことができます。そして、もちろん、彼が魚を食べると言い、彼が言うと言い、「これが私たちのやり方だ」と言います。

再び、もちろん、最初のフレームを使用していないことを考慮すると、これはおそらく少し異なるでしょう。再び、動画のためにこれを生成します。これは実際にVeoが時々予測不可能である理由と、常に同じプロンプトと理想的には同じ画像を使用したい理由の明確な例です。

これでは、実際のフレームを使用しました。ここで見ることができますが、もちろん彼が実際に魚を食べ始めることがわかります。そして、もちろん、これがクリップで欲しい種類の一貫性であることがわかります。何らかの理由で、ここでクレイジーに見える生物を生成しました。それは私が本当に想像したものではありません。

そして全体的に、時々彼らはあなたの言葉を言い、時々あなたの言葉を遅くします。時々、魚を持った人間の人さえ実際に得るかもしれません。この人が誰かわかりませんが、魚を持って幸せに見えます。

これがチュートリアルです。これらの動画を作りたい場合は、もちろん、シーンビルダーに行ってください。たとえば、その最後のシーンでは、この最後のシーンを動画に追加します。

このように、ここで全体を見ることができます、これがクリップを行う方法です。30秒の使用可能な映像があります。そして、これらすべてをダウンロードしたい場合、このダウンロードボタンをクリックするだけで、基本的にすべてのエクスポートが始まります。

もちろん、TikTok用にこれをクロップしなければなりませんが、もちろんアスペクト比である9×6のオプションは提供されません。チュートリアルはまだ終わっていません。あなたたちが知りたいもっと多くのフォーマットがあるので、実際にもう少し興味深いことがあります。

たとえば、複数のキャラクターを扱うとき、この特定のプロンプトフォーマットでキャラクターを区別することが常に最良です。最初にコンポジションが何であるかを言いました。ビッグフットと白いイエティと言いました。そして、もちろん、常に彼らが何をしているかを言います。彼らは座っています。そして、もちろん、環境を追加しました。環境は密林のキャンプファイヤーの上にある石の上に魚があるキャンプファイヤーです。

前に言ったのと非常に似ています。そして、もちろん、対話を紹介するとき、最初のキャラクターが何を言うかを再び参照し、次に2番目のキャラクターが何を言うかを参照することを確認しなければなりません。「彼はこれを言う」「彼はそれを言う」と言うだけなら、まったく機能せず、混乱した生成を得ることになります。

最初に行うことは、ビッグフットが「ついに友達がここにいて素晴らしい」と言うと言います。次に、白いイエティが「そうだ、男。これらの氷の山で孤独になっていた」と言うと言います。これが実際にここでのこの一つと同じように良く見えるクリップを得ることができた方法です。ああ、ついに友達がここにいて素晴らしい。そうだ、男。あの氷の山で孤独になっていた。

要点は、理解できるように、もう一度これを説明します。2つ以上の主人公を扱うとき、両方の主人公が説明され、次に彼らが何をしているかを説明します。歩いているか?走っているか?座っているか?次に彼らがいる環境を説明します。

次に、キャラクター1が何を言っているかを説明します。次に、キャラクター2が何を言っているかを説明します。特定のコンポジションで2つ以上の主人公を扱うときは、それを覚えていてください。現在、V3は最大2つのキャラクターで最も良く機能します。3つのキャラクターでは、少し失敗し始めます。

覚えていてください、イエティブログだけができるわけではありません。他のキャラクターも行うことができます。実際にここにアルバート・アインシュタインを追加しました。再び、最初の戦略で行ったのと同じ構造とパターンに従います。キャラクターは誰ですか?アルバート・アインシュタイン?もちろんカメラPOVを追加し、それがハンドヘルドで、木の下に座っていると言いました。

もちろん、行動、キャラクター、そして場所である木の下があることがわかります。そして、シーンに1つのキャラクターしかいないので、ここで「彼は言う」と言える唯一の理由は、Veoが混乱しないからです。「だから何だと思う?ワイルドなことを理解した。ブログを楽しみにしていてください、みなさん。これは大きいです」と言います。そのクリップを今見ることができます。だから何だと思う?ワイルドなことを理解した。ブログを楽しみにしていてください、みなさん。これは大きいです。

このプロンプトスタイルを使用すると、V3から本当に、本当に良い結果を得ることができることがわかります。混乱した生成は得られません。主人公、彼らが何をしているか、環境に焦点を当て、次に彼らが何を言っているかに焦点を当てる限り、共有できる多くのバイラル動画を簡単に作成できるでしょう。

もう一つの例、同様にバイラルになっているのはGoProセルフィーカメラスティックです。ここでできることは、再び同じ構造を使用することです。今回は異なるPOVカメラを持っているだけです。これについて、セルフィースティックでブログしているペスト医師がいます。そうです、それがキャラクターがしていることです。セルフィースティックでブログしているペスト医師です。

ここでカメラPOVを入力します。もちろん彼はセルフィースティックを持っているので、セルフィースティックカメラPOVを置きますが、カメラがセルフィースティックに置かれることを望みます。

次に彼が歩いていると言います。ロンドンの濁った通りの周りに行動を追加する必要があることを覚えていてください。これが彼を置く環境になります。そして、もちろん、ペスト医師が「やれやれ、この疫病は本当に手に負えなくなっている」と言うと言います。これが最終クリップを得るためにプロンプトを構造化する方法です。

うわあ、この疫病は本当に手に負えなくなっている。ここから出なければならない。これらすべてのクリップを生成するときの私にとって最も驚くべきことは、GoogleのV3があなたのためにほとんどの重い作業を行うことです。何かについて混乱している場合、文字通り呼吸を追加します。どのようにかわかりませんが、コンテキストを追加することを管理します。

たとえば、このクリップでは、呼吸がマスクの内側にあるという事実を実際に聞くことができます。これは、Veoがそれらの音響効果を生成できるように、視覚的に何が起こっているかを見て分析している可能性が非常に高いことを意味します。本当に何らかの特定の感情が欲しい場合を除いて、その特定の感情が欲しい場合を除いて、言う必要はありません。

これらのビッグフットクリップでも、多くの呼吸が起こっていました。これは正確に期待するものです。超クレイジーなプロンプトが必要だと思わないでください。再びキャラクター、彼らが何をしているか、必要に応じてカメラPOV、行動、環境、そしてもちろんそれがあることが必要なだけです。

そうは言っても、私が思うに、それはあなたが望む絶対にすべてをカバーしています。いつものように、より多くのシーンが欲しい場合は、文字通りそれをシーンに追加できます。

コメント

タイトルとURLをコピーしました