オフラインで使用できる最も強力なAIビデオジェネレーター

AGIに仕事を奪われたい
この記事は約20分で読めます。

11,373 文字

The most powerful AI video generator you can use OFFLINE
Wan VACE 14B full installation tutorial & review. #ai #aivideo #aitools #veoThanks to Notta for sponsoring this video. T...

これはオフラインで使用できる最も強力なAIビデオジェネレーターです。AlibabaのVaseと呼ばれています。これは完全に無料でオープンソースです。これはAlibabaのWand 2.1を使用しており、現在使用できる最高のオープンソースビデオジェネレーターです。実際、全体的に見ても最高のジェネレーターの一つです。
また、最も検閲がないので、想像できる最も奇抜なものも生成できます。数日前、彼らはついにVaseの完全版をリリースしました。それで、このビデオではそれについて詳しく説明します。インストール方法と、VRAMが少なくても、コンピュータでローカルに無制限に使用する方法をお見せします。
まず、これがどれほど強力かを示すために、生成における動きとキャラクターを完全に制御できます。これらは私がラップトップと平凡なGPUだけで作成した生成例です。この女性たちが踊っているリファレンスビデオを入力できます。そして基本的にこれらの動きを、猫が踊る新しいビデオに転送できます。
猫の代わりに、このように踊るクマも生成できます。あるいはその代わりに、ビーチでビキニを着たこれらの女性たちも生成できます。あるいはこのようなリファレンス画像をアップロードすることもできます。リファレンスビデオからの動きをこの画像のキャラクターに転送することもできます。ご覧の通り、このツールを使えば、一貫したキャラクターが何でもしているビデオを簡単に生成できます。
必要なのは、キャラクターの画像と、転送したい動きのあるリファレンスビデオだけです。もう一つの例を挙げましょう。元のボクシングビデオがあるとします。スーツを着た二人の男性が戦っているこのリファレンス画像を入力できます。そしてVaseに通した後、ボクシングビデオの動きをこの戦闘シーンに転送することができます。
あるいはスーツを着た二人の男性の代わりに、ピンク色の髪とメイド服を着た二人の女の子が戦うアニメスタイルに変えることもできます。アニメの代わりに、3Dピクサースタイルにすることもできます。これは二人のカンフーマスターが戦っている例です。そして彼らの動きがリファレンスビデオとまったく同じであることに注目してください。または別の例です。
これは都市のオリジナルのドローン映像です。これをこのようなネオンサインが輝く夜のサイバーパンク都市や、植物が生い茂る廃墟の都市に変えることができます。さて、これらは簡単なデモでした。次に、これをコンピュータにインストールする方法と、テキストからビデオ、画像からビデオ、リファレンスビデオからビデオなど、すべての機能を使用する方法をステップバイステップで説明します。
先ほど示したデモの作り方を正確にお見せします。数週間前にVaseが初めて登場したときに既に言及しましたが、これは非常に柔軟なオールインワンビデオエディタです。GitHubを見ると、数日前に彼らはVaseの完全版をリリースしました。これには140億パラメータのものが含まれており、最大1280×720の解像度のビデオを生成できます。
ただし、この完全版には約80GBのVRAMが必要であり、ほとんどの人はそれを持っていないと思います。幸いなことに、QuanstackによるこのQuantized版が既にあり、このページへのリンクを説明欄に記載します。VRAMに基づいて、ダウンロードできる様々なモデルがあります。VRAMが8GB程度でも使用できるようです。
私はVRAMが16GBなので、14.5GBしか必要としないこのQ6バージョンを使用します。インストールを進める前に注意すべきもう一つのことは、これを実行するにはComfy UIが必要だということです。これが何か分からない場合は、Comfy UIのインストールと使用方法をステップバイステップで説明しているこのビデオをぜひご覧ください。
最初はこれらのノードとヌードルがあって非常に複雑に見えるかもしれませんが、実際にこれらを自分で構築する必要はありません。使い方を覚えれば実際には非常に簡単です。だから恐れる必要はありません。使い方を学びたい場合はこのビデオをご覧ください。とにかく、このビデオでは、あなたが既にComfy UIをインストール済みだと想定します。
ファイルとバージョンをクリックして、vase 14B Q6をダウンロードします。VRAMのサイズに応じて別のモデルを選ぶこともできます。ダウンロードをクリックして、これをComfy UIフォルダのmodels、そしてunitに入れます。保存をクリックしましょう。
これは14.5GBなので、ダウンロードには時間がかかります。Comfy UIの良いところは、これらのコンポーネントとヌードルをゼロから作る必要がないことです。既存のワークフローをドラッグアンドドロップするだけです。実際、QuanstackのこのHugging Faceページに戻ると、彼らが既に例のワークフローを持っていることがわかります。
ここの下部に、V2V example workflow.jsonファイルがあります。これをクリックしましょう。好きな場所に保存できます。私はComfyフォルダに保存します。その後、Comfy UIを開きます。私は16GBのVRAMを持つRTX 5000 ADAを使用していることに注意してください。
その後、先ほどダウンロードしたvaseワークフローファイルをキャンバスにドラッグアンドドロップするだけです。初めてこれを開くと、ここで赤くハイライトされているように、大量の不足しているノードが表示される可能性があります。その場合は、マネージャーを開き、不足しているカスタムノードをインストールをクリックします。このワークフローを実行するために必要な大量のノードがあることに注意してください。
これらをそれぞれインストールします。次に、これがあります。Comfy UIに既にインストールされているものによって、不足しているノードのリストが異なる場合があることに注意してください。しかし、ワークフローをここにドロップした後に、これらの不足しているノードをすべてインストールしてください。これについては、更新する必要があると表示されています。
更新を試すをクリックします。そして最後に、最後の一つがあります。comfy UIのggufノードです。これもインストールをクリックします。その後、すべてをインストールしたことがわかり、comfy UIを再起動する必要があります。再起動をクリックしてOKをクリックします。ターミナルを開くと、これらのホイールをオンラインでインストールしていることがわかります。
インターネット接続の速度によって時間がかかります。これらのホイールと不足しているノードをダウンロードした後、Comfy UIを再起動しました。ここにはマルチGPUノードという一つの不足しているノードだけがあります。これは自動検出されないようなので、カスタムノードマネージャーをクリックして、multiGPUを検索する必要があります。
これもインストールをクリックし、再起動をクリックします。完璧です。ワークフローを見ると、不足しているノードはないはずです。これを動作させるために変更する必要があるいくつかの追加事項があります。まず、モデルセレクターの下に、先ほどダウンロードしたvaseモデルを選択する場所があります。
私の場合、このQ6バージョンになります。これを選択します。そして、これをオンにし、これをオフにすることもできます。このノードは、VRAMが少なくてもRAMが多い場合に役立ちます。例えば、GPUのVRAMが8GBしかなくても、コンピュータのRAMが64GBある場合、一部の計算をRAMにオフセットすることができます。
ここでは、ダウンロードしたvaseモデルを選択します。そして、ここではGPUのVRAMの量を指定します。例えば、8と入力できます。残りについては、コンピュータのRAMにオフセットしようとします。しかし、私は16GBあるので、この通常のものを使用するだけで十分だと思います。
このビデオのスポンサーであるNotaに感謝します。NotaはとてもAIのメモ取りです。話された内容を自動的に文字起こしし、要約し、実用的なテキストに整理することができます。ビジネスミーティング、講義、カジュアルな議論など、NOTAはどんな重要な細部も失われないようにします。Zoom、Google Meet、Teams、Webexなどのプラットフォームをサポートしており、手動でメモを取る煩わしさなしに意味のある議論に集中できます。
Notaをワークフローにシームレスに統合できます。リアルタイムで会議を要約したり、任意の音声や動画を文字起こしできます。さらに、ワンクリックで会議を要約し、通話からキーポイントやアクションアイテムを簡単に抽出できます。先月言及されたことを忘れましたか?Nota AIチャットを使用して検索するだけで大丈夫です。
これはコンサルタント、営業担当者、カスタマーサポートにも最適です。コンサルタントはクライアントとの会議を簡単に記録し、フォローアップを合理化できます。営業担当者は顧客とのやり取りを追跡し、重要な洞察を抽出し、プレゼンを改善するために使用できます。学生が講義を録音、文字起こし、要約するのにも最適です。
Notaは生産性と組織力を向上させたいと考えている人にとって必須のツールです。説明欄のリンクから無料でお試しください。そして、ここではオプションのステップですが、これによって生成が格段に速くなります。これをオンにすることもできます。これには、Juan 2と呼ばれる追加のLoRAをダウンロードする必要があります。
1 Cosvid 14b Luraがあります。ここに便利なリンクがあります。これをクリックするだけで、このLoRAをダウンロードでき、ComfyUIフォルダのmodels、そしてLaurasに保存されます。既にここにあることがわかります。繰り返しますが、このステップはオプションです。
オフのままにすることもできますが、オンにすると生成が約4倍速くなります。また、UMT5XXLと呼ばれる追加のエンコーダーをダウンロードする必要があります。嬉しいことに、この人が既にここにダウンロードリンクを提供しています。ダウンロードしたモデルに基づいてエンコーダーファイルを選択する必要があります。
GGUFバージョンをダウンロードしたので、これをクリックするとこのHugging Faceが開きます。Q6バージョンをダウンロードしたので、このQ6エンコーダーをダウンロードする必要があります。これをダウンロードしましょう。これはComfy UIフォルダのmodels、そしてtext encodersに保存されます。
既にここにあることがわかります。最後に、まだない場合はVAEもダウンロードする必要があります。ここにも便利なリンクがあります。これをクリックすると、このVAEをダウンロードするよう促され、comiのmodels、そしてVAEに保存されます。
既にここにあることがわかります。4つのものすべて、つまりvaseの量子化バージョン、VAE、テキストエンコーダー、そしてオプションのCosvid LoRAをダウンロードした後、それぞれをクリックしてダウンロードしたモデルを選択してください。ここでCosvid LoRAを選択します。そしてこのエンコーダーについては、ここでQ6を選択します。
VAEについては、1 2.1を選択します。ちなみに、ダウンロードしたモデルがこのドロップダウンに表示されない場合は、Rを押すだけです。これによりダウンロードしたすべてのモデルがスキャンされ、これらのドロップダウンリストが更新されます。このワークフローでは実際に3つのことができます。単純なテキストからビデオへの変換、リファレンス画像をアップロードしてビデオを生成する方法、あるいはリファレンスビデオを使用して動きを新しいビデオに転送する方法です。
これらのステップをすべて今から説明します。まず、テキストからビデオへの変換について説明します。テキストプロンプトのみを使用するので、このリファレンス画像オプションも、ここのリファレンスビデオノードも必要ありません。Ctrlを押しながらこれらのコンポーネントをすべてドラッグし、Ctrl+Bを押してこれらのコンポーネントをバイパスします。
基本的に、このワークフローを実行すると、リファレンス画像をアップロードするこのコンポーネントと、リファレンスビデオをアップロードするこのコンポーネントは無視されます。テキストプロンプトだけを使ってビデオを生成します。次に、「女の子が花の海で踊り、ゆっくりと手を動かしている」のような非常に単純なテキストプロンプトを作成しましょう。
そして、テキストからビデオへの変換だけを行う場合は、ここで幅と高さを指定することもできます。そのためには、これらのヌードルを切断する必要があります。幅と高さを調整できるように、これら2つを切断しましょう。vase 14Bは最大1280×720まで生成できるので、実際にこれにしましょう。
幅を1280、高さを720に設定します。ビデオの長さは基本的にビデオをどれだけ長くしたいかです。今は81フレームを16フレーム/秒で割ったもので、大体5秒くらいです。
これを少し速くするために、例えば49に設定しましょう。これで約3秒のビデオになるはずです。そしてこれがこのKサンプラーコンポーネントに接続され、基本的にビデオが生成されます。注意すべきことがいくつかあります。ステップ数は、AIが出力ビデオを提供する前に実行する反復回数です。
一般的に、ステップが多いほどビデオの品質は高くなりますが、ある時点で収穫逓減になります。ここでの最適なステップ数は20のようですが、もっと速くしたい場合は、ステップ数を15などに減らすこともでき、これによって品質を犠牲にして実行速度を速くすることができます。
CFGは、AIがここのプロンプトをどれだけ文字通りに従うかです。CFG値が高いと、このプロンプトを本当に文字通りに従いますが、CFG値が低いと、より創造的になり、指定していない要素をビデオに追加することができます。サンプラー名については、これはビデオを生成するためのアルゴリズムです。そしてシードも非常に重要です。これは基本的に開始点です。すべての設定が同じで同じシードを保持すると、以前とまったく同じビデオが生成されます。少し異なるビデオが欲しい場合は、これをランダム化に設定できます。
しかし今は、これを固定のままにしておきます。もう一つ注意すべき重要なことは、このノートです。生成を高速化するのに役立つこのcause vid Loraをオンにしたので、実際にはこれを多くのステップで実行する必要はありません。ここには4〜6ステップで十分と書かれています。
また、cfgを1に設定する必要があります。ステップ数を4に、cfgを1に設定しましょう。これはVRAMが少ないGPUを使用している場合は特に重要です。このCosvid LoRAは救世主であり、生成を大幅に高速化します。これで大体です。実行をクリックして、どうなるか見てみましょう。そして、こちらが結果です。
確かに、花の海で踊り、ゆっくりと手を動かしている女の子がいます。ここでsave outputがtrueに設定されているため、ビデオはComfyIフォルダのoutputに自動的に保存されることに注意してください。ここで出力を見ることができます。これはただのテキストからビデオへの変換で、そんなに印象的ではありません。
明らかに、画像からビデオへの変換はさらに良いでしょう。設定やキャラクターを完全に制御できるリファレンス画像をアップロードできるからです。今からこれをやってみましょう。単なる画像からビデオへの変換の場合、このノードをクリックし、Ctrl+Bを押してバイパスを解除します。そしてここがリファレンスとして使用する画像をアップロードする場所です。
この画像をアップロードします。寸法が1312×736であることに注意してください。ここは出力ビデオの幅と高さを調整できる場所です。これが入力画像の寸法よりも小さい場合、基本的にこれらの寸法に合わせてビデオがトリミングされることに注意してください。
それ以外は、すべて同じです。プロンプトには、「彼女は話している」のような非常に単純なものを入力しましょう。実際に、ここで指定するものにビデオがトリミングされることを示すために、代わりに正方形のビデオに設定しましょう。720×720にします。実行を押すと、これが正方形のビデオにトリミングされることに注意してください。
実行を押して、どうなるか見てみましょう。これが最終結果です。720×720に設定したので、これが正方形にトリミングされているのがわかります。画像からビデオへの変換はまだかなり基本的な機能で、vaseはそれ以上のことができます。画像からビデオへの変換の代わりに、今からリファレンスビデオをアップロードします。
Ctrlを押しながら、バイパスしたすべてのノードの上にボックスをドラッグします。そして、Ctrl+Bを押してバイパスを解除します。注意すべきことがいくつかあります。まず、ここがリファレンスビデオをアップロードする場所です。基本的にそのビデオの動きを新しいビデオに転送します。
例えば、この3人の女性が踊っているビデオをアップロードしましょう。そして、ここがビデオの幅と高さを設定する場所です。このステップを実際に使用している場合は、幅と高さをKサンプラーに再接続する必要があることを忘れないでください。ここでもう少し複雑になります。
まず、ビデオをcontrolNetビデオに変換する必要があります。言い換えれば、まずビデオをポーズマップ、深度マップ、エッジマップなどに前処理する必要があります。例えば、これが入力ビデオである場合、ポーズ前処理プロセッサを通してこのようなものに変換できます。
これが出力ビデオを導きます。デフォルトでは、このcannyプリプロセッサを使用しており、これらのダンサーのエッジを抽出するだけです。ちなみに、これはComfy UI ControlNet Auxiliaryがインストールされている必要があります。私は既に持っているのでここでエラーは出ませんが、持っていない場合は、マネージャーをクリックし、カスタムノードマネージャーでcontrolNet auxiliaryを検索すると、これが表示されるはずです。
私は既にこれをインストールしていますが、持っていない場合は、これをインストールしてください。とにかく、これらのダンサーの動き、つまりポーズを転送して、3匹の猫を踊らせたいとします。エッジを抽出するだけのCannyではなく、ポーズ推定器を使用する方がよいでしょう。ここでどこかをダブルクリックして新しいノードを作成します。
そして、ポーズと入力します。これ、オープンポーズを選びましょう。そして、このcannyノードからこのヌードルを切断し、このオープンポーズノードに再接続します。また、ここのプレビュー画像も切断する必要があります。そして、ここの画像コネクタに再接続します。
最後に、このcannyノードもこのコントロールビデオに接続しています。それを取り除きましょう。そして、このオープンポーズ画像からコントロールビデオにコネクタをドラッグします。基本的に、デフォルトのcannyの代わりに、オープンポーズに置き換えました。これはこのビデオからポーズビデオを作成します。実際に、ここのプレビューウィンドウでポーズビデオがどのように見えるかがわかります。
それで大体です。今は単純にするために、リファレンス画像はアップロードしません。これをクリックしてバイパスをクリックします。テキストプロンプトだけを使ってビデオを作成しますが、ビデオの動きはこのリファレンスビデオに基づいています。これは横長で、16:9のようです。
ここの幅を1280に設定しましょう。高さは720のままでいいでしょう。そしてプロンプトには、「三匹の猫が踊っている」と書きましょう。それでほぼ完了です。長さについては、これは少し長いようです。61フレームくらいに設定しましょう。実行をクリックします。
指を交差させて、これがうまくいくことを願います。ご覧のように、まず、参照ビデオがこのオープンポーズ推定器に送られ、ポーズビデオに変換されています。これには時間がかかります。ここで進行状況を確認できます。そのステップが完了すると、ここにプレビューポーズが表示されます。これらは参照ビデオのフレームですが、このようなポーズスケルトンに変換されています。
これからこのポーズビデオを取り、「三匹の猫が踊っている」というプロンプトに基づいてビデオを生成します。これが結果です。比較できるようにリファレンスビデオをここにドラッグしてみましょう。これは本当に美しいです。確かに3匹の猫が踊っており、ダンスはリファレンスビデオとまったく同じです。
素晴らしいですね。猫の代わりに、試してみた他の例をいくつか紹介します。プロンプトが「三頭のクマがリアルに踊っている」で、同じリファレンスビデオを使用すると、これが結果です。比較できるように、リファレンスビデオをここにドラッグしてみましょう。猫であれクマであれ、出力ビデオがリファレンスビデオの正確なダンスの動きに従っていることに注目してください。
これはビデオ内のものの動きを絶対的に制御できる非常に強力なツールです。もう一つ試したのは、「ビーチでビキニを着た3人の美しい女性が踊っている」というプロンプトです。これが結果です。確かにビーチでビキニを着た3人の女性がいて、彼女たちはリファレンスビデオとまったく同じダンスの動きをしています。
素晴らしいですね。さらに別の例を紹介します。このサーフィンをしている男性のビデオをアップロードするとします。そしてテキストプロンプトに「着物を着た日本人の女の子がスノーボードをしている」と入力すると、これが結果です。この女の子のポーズがリファレンスビデオのサーファーのポーズとまったく同じであることに注目してください。サーフィンをしている男性の代わりに、スノーボードをしている日本人の女の子になっただけです。
これは非常に柔軟なツールです。最後にお見せしたいのは、任意のキャラクターのリファレンス画像をアップロードし、それをリファレンスビデオと組み合わせることができるということです。これをクリックし、Ctrl+Bを押してバイパスを解除します。そして画像には、例えばこの踊っている3人のアニメの女の子をアップロードします。
基本的に、彼女たちにこのリファレンスビデオのように踊ってほしいです。基本的にすべての設定は同じままにします。ここは最終ビデオの幅と高さを指定する場所です。これが欲しいです。幅1280、高さ720にしたいです。そして、ここのポジティブプロンプトには、ビデオで見たいものを簡単に説明します。
例えば、「女の子たちが踊っている」と。それでほぼ完了です。実行をクリックして、どうなるか見てみましょう。これが結果です。ここにもリファレンスビデオをドラッグしましょう。リファレンス画像もここにドラッグして、リファレンスと最終出力を並べて見ることができるようにします。確かにアニメの女の子たちはリファレンス画像とまったく同じように見え、彼女たちはビデオとまったく同じように踊っています。
手や指などに関していくつかの欠点があります。これはVRAMが少ないからかもしれません。ステップ数を増やすか、cause vidオプションを無効にするか、量子化の少ないモデルを使用すれば、品質は少し良くなると思います。しかしVRAMが少ない場合でも、出力は悪くないことがわかります。これは非常に強力なツールです。リファレンスビデオを追加できるだけでなく、任意のキャラクターのリファレンス画像を追加し、ビデオに従って動かすことができ、出力ビデオを完全に制御できます。次に、別の例を試してみましょう。この戦闘シーンの画像をアップロードします。
そしてリファレンスビデオには、このボクシングの試合をアップロードします。プロンプトには単に「彼らは戦っている」と書きます。これは横長のビデオなので、1280×720のままにします。長さは61フレームのままで、16フレーム/秒で割ると約4秒になるはずです。
それで大体です。実行をクリックして、生成を待ちましょう。完璧です。ここでもリファレンスビデオとリファレンス画像をドラッグして、リファレンスと最終出力を並べて見ることができるようにします。リファレンス画像とリファレンスビデオの動きにぴったり従っていることに注目してください。
これで戦闘、ダンス、あるいは望むものなら何でも、高アクションシーンを簡単に作成できます。さらに、これらのキャラクターのリファレンス画像をアップロードすることで、一貫したキャラクターのビデオを作成でき、リファレンスビデオで彼らの動きを完全に制御できます。前述の通り、これはJuan 2.1を使用しており、現在利用可能な最高のオープンソースビデオジェネレーターです。
さらに言えば、OpenAI Soraなどの一部のクローズドソースモデルよりも優れています。これでComfy UIでvaseを使用する方法の説明は終わりです。公式のvaseページを見ると、ビデオの特定の要素を別のものに置き換えるインペインティングや、このようにビデオの端を拡張するアウトペインティングなどの他の機能もあることがわかります。
あるいは、ビデオに挿入したいキャラクターやオブジェクトの複数の画像をアップロードするリファレンスからビデオへの変換も可能です。ただし、現在、これらの機能のための非公式のComfy UIワークフローがいくつかある一方で、少なくとも公式のComfy UIドキュメントページでは、これらの機能のためのワークフローはまだないことに注意してください。
彼らが持っているのは、今日お見せしたもの、つまりテキストからビデオへ、画像からビデオへ、そしてリファレンスビデオからビデオへの変換だけです。彼らはまさに今、これらの追加機能を作成するために懸命に取り組んでいると思います。そのため、それに注目してください。ただし、現時点では、これらの追加機能のための公式のComfy UIワークフローはないことに注意してください。
これでvase 14Bのレビューとチュートリアルは終わりです。このGGUFバージョンはVRAMが8GB程度でも実行できるので、多くの人がアクセスできるはずです。インストール中にエラーが発生した場合は、エラーメッセージをコメント欄にコピー&ペーストしてください。可能な限りトラブルシューティングをお手伝いします。
ちなみに、これらのAIツールを実行するために私が個人的に使用している正確なラップトップを獲得したい場合、それはRTX 5000 ADAを搭載したDell Precision 5690です。そして、Dell Technologiesと提携して、同じラップトップをラッキーな当選者にプレゼントします。説明欄にギブアウェイのリンクがあります。利用規約が適用されます。

コメント

タイトルとURLをコピーしました