Veo 3の使用をやめよう、これがAI動画用の最安音声生成方法だ!!!

世界モデル・マルチモーダル
この記事は約6分で読めます。

この動画は、AI動画に音声を追加する最も安価な方法を解説している。高額なVeo 3の代替として、mm audioモデルを使用することで、コストを大幅に抑えながら動画と同期した音声を生成する手法を紹介。Seed Dance、Kling 2.1、Halo02などの各種動画生成モデルとの組み合わせ例も含め、実際の操作手順と結果を詳しく実演している内容である。

STOP USING Veo 3, This is the Cheapest AI Audio for AI Videos!!!
MMAudio generates synchronized audio given video and/or text inputs.🔗 Links 🔗On HF - FAL -

AI動画に音声を追加する革新的な方法

ソーシャルメディアはバイラルなAI動画で溢れています。この動画では、AI動画にオーディオを追加する方法をお見せします。多くのAI動画モデルが存在しますが、Veo 3以外で音声を扱えるモデルはほとんどありません。しかしVeo 3は非常に高額です。Veo 3を使用したい場合、8秒程度の動画に4ドル程度を支払わなければならないでしょう。とても高価です。

そこで、動画を生成し、その上に音声を作成する最も安価な方法をお教えします。このテキストから動画へのモデルは、お好みのモデルを使用していただけます。すべてをFal上でデモンストレーションしますが、オープンソースモデルでも同様のことができることもお見せします。

Seed Danceを使った動画生成例

まず、動画クリップが必要です。この場合、人工分析リーダーボードで第1位の非常に人気の高いモデルから動画クリップを取得しました。これはByte Dance社のSeed Danceです。これはテキストから動画へのモデルです。

「明るい青のレースカーが雪のレーストラックを高速で走る。ローアングルショットが激しい雪嵐の中をレーストラックに沿って疾走する複数の車を捉える。オーバーヘッドショット。カメラは徐々に上に引いて、嵐のライトで照らされたレースシーン全体を明らかにする」

ここで見ていただけるように、これは5秒のクリップでした。これはSeed Danceを使用して生成されましたが、後ほど動画の中でKling 2.1モデルという別のモデルも使用して、この動画クリップを使って音声を作成する方法をお見せします。

mm audioモデルの活用

この動画クリップを取得した時点で、それをダウンロードしました。次にやらなければならないのは、mm audioというモデルを使用することです。これが動画と同期した音声を作成するために使用するモデルです。

同じモデルはHugging Face Spacesでも利用可能です。現在共有GPUで動作していますので、動画をアップロードして私がやっているのと同じことができます。しかし、これには多くの時間がかかるため、Falを使用します。これはとても安価で、なんと呼んだらいいかわからないほどです。非常に、非常に安い価格です。

やることは、ここに行ってファイルを選択し、動画クリップをアップロードするだけです。必要に応じてプロンプトを与えることができますが、この場合はプロンプトを与えていません。後ほど動画の中でプロンプトを試して、どのようになるかを見てみましょう。

ここではプロンプトなし、ネガティブプロンプトなし、期間はデフォルトの8を選択しましたが、クリップが5秒であることを理解して短縮しているのがわかります。ここには2つのモードがあります。1つはテキストから音声モード、2つ目は動画から動画モードです。私たちは動画から動画モードを使用していて、この場合、動画は最終的に音声プラス動画として私たちに戻ってきます。

結果の評価

これが最終結果です。再生してお見せします。特にカメラがズームアウトショットを持っている時と、遠くに行く時に、音が下がり始める、少し細くなっていくようなかなり良い仕事をしていると思います。音が少し薄くなっていく感じです。とても良い仕事をしていると思いますが、異なる動画クリップで実験して、どのように機能するかを理解していただきます。

Kling 2.1での実験

ここに行って、これをダウンロードします。これはKling 2.1からのものです。ダウンロードした動画をアップロードしましょう。人間が歩いているシーンがあります。アップロード後、必要に応じてプロンプトを選択できます。不要な場合はプロンプトをそのままにしておけます。今回は約20秒、特にこの特定のケースでは27秒かかりました。再生してお見せします。

背景にリアルな音楽のような、シネマティックな音楽を追加しました。Veo 3ができてこのモデルができないことの1つは、会話のような人間の音を作成できないことです。しかし、理想的に非常によくできるべき他のほとんどのことは、車のレースシーンやシネマティックサウンドを追加したこのシーンのように、これらのことはこのモデルが行っています。

Halo02モデルの紹介

Veo 3の代替のような理想的な動画セットアップが必要な場合は、Halo02のようなモデルを試すことを強くお勧めします。これはMinimaxの最新Haloモデルで、超高価ではない最高の動画モデルの1つです。

ここで利用可能なこの動画クリップを使用します。スター・ウォーズのような状況で、長いプロンプトがあります。試していただけるよう、YouTubeの説明にプロンプトを貼り付けることができます。Haloからこの動画をダウンロードします。これが私たちの動画です。ここに戻って動画クリップをアップロードします。

プロンプト付きでの音声生成

これがHaloからの出力です。今回はプロンプトを空のままにするのではなく、「スター・ウォーズ宇宙の孤独な戦士」と言います。この場合に意味があるかどうかはわかりませんが、今回は時間が短くて13秒かかりました。再生してお見せします。

正直なところ、ここでの音声がどれほど完璧かはわかりません。私には良く見えますが、映画の専門家ではないので、この音声が良いかどうかについて何か思いがあれば教えてください。今度はプロンプトなしで同じことをもう一度やって、プロンプトがない時にどのように聞こえるかを見ていただきます。

同じことをプロンプトなしで実行します。理解している画像動画を使用させます。完了しました。13秒かかりました。大きな違いはないと思います。同じテーマのようなものですが、プロンプトありの方がプロンプトなしよりも良い仕事をしたと思います。

推奨される動画制作スタック

これをたくさん実験することができますが、TikTokやInstagram Reelsなど、音声付き動画でバイラルになるための理想的なスタックが必要な場合は、mm audioを使用すべきだと思います。驚くべきことに、多くの人がこれを知らず、多くの人がこれに出会っていません。これもオープンソースプロジェクトなので、ここに行って確認できます。Falなしで使用したい場合はここで使用できますが、Falを使えば非常に安価で、試してみることができます。

この動画についてどう思うか教えてください。もっと動画AI動画コンテンツをやってほしい場合は、コメント欄で教えてください。ぜひやりたいと思います。これは現時点で最もエキサイティングな時期の1つで、皆さんに何も見逃してほしくありません。また別の動画でお会いしましょう。ハッピーラウンディング!

コメント

タイトルとURLをコピーしました