このフリーのAIビデオジェネレーターは全てを圧倒する

AIに仕事を奪われたい
この記事は約26分で読めます。

14,947 文字

This free AI video generator crushes everything
Hunyuan Video review & installation tutorial. Free, open-source, 100% uncensored! #ainews #ai #agi #singularity Thanks t...

テンセントが開発したHunyan(フンヤン)ビデオは、間違いなく最高のオープンソースAIビデオジェネレーターです。実際、ほとんどの商用モデルをも上回っています。今ご覧いただいているサンプルは全てこのモデルで生成されたものです。今日はこれについてレビューしていきます。様々な難しいプロンプトでテストを行い、他の主要なビデモデルと比較して、このモデルの良し悪しを見ていきます。さらに、無制限に無料で使用できるようコンピューターへのインストール方法もご紹介します。そう、このモデルは完全に検閲されていないんです。
まず、このモデルができる素晴らしいことをご紹介します。もちろんテキストからビデオを生成できます。プロンプトを入力するだけで動画クリップを生成してくれます。しかし、それ以上の力を持っています。今日ご紹介する「ビデオからビデオ」も可能です。任意のビデオをアップロードし、プロンプトを入力すると、参照ビデオの動きに基づいて新しいビデオを生成できます。これはすごいと思いませんか?
さらにできることがあります。1枚の画像と1本の参照ビデオをアップロードすると、参照ビデオの動きを画像にマッピングしてくれます。この例をご覧ください。表情がとても自然で、参照ビデオの表情にとてもよく従っているのがわかります。参照ビデオとして話す顔を使用できるだけでなく、ポーズのスケルトン動画を使用することもできます。そして画像をアップロードすると、そのポーズ動画に合わせて画像を動かしてくれます。
この兵馬俑でさえ、とてもスムーズに踊らせることができます。アニメにも対応しています。このアニメの女の子の入力画像1枚とポーズ動画1本で、ポーズ動画に合わせて彼女を踊らせることができます。手足や体の動きがとてもスムーズで、他のAIアニメーションツールでよく見られるようなアーティファクトは全くありません。
ここで別の例をご紹介します。入力画像とポーズ参照動画を使って、この人物を踊らせることができます。しかしそれだけではありません。画像をアップロードし、誰かが話したり歌ったりする音声をアップロードすると、その人物をアニメーション化してくれます。この例をご覧ください。動きがとても自然ですね。顔や口を動かすだけでなく、体全体と背景も動かしています。
別の例もご紹介します。彼女が海辺に立っているので、波や髪が風になびく様子もアニメーション化されていることに注目してください。単に歌わせるだけでなく、歌に合わせて体も少し動かしているので、このビデオ全体が超自然に見えます。
さらに印象的なデモをご紹介します。これはとても自然に見えます。まるで誰かがスピーチをしているかのようです。話す時の手や体の動き、頭の傾きなど、これがAIだとは判別するのが難しいでしょう。
しかしまだ終わっていません。ビデオに基づいて音声を生成することもできます。例えば、プロンプトが「鳥がさえずり、鳴く」で、これが入力ビデオの場合、このような音声が生成されます。また、このビデオを入力して「水が流れ落ちる音」というプロンプトを与えると、このような音声が生成されます。私にはビデオの内容にぴったり合った音に聞こえますが、皆さんはどう思いますか?
さて、できることの概要を説明したので、実際にテストしてみましょう。使用方法はいくつかあります。decent(まともな)なGPUをお持ちの場合は、無制限に無料でコンピューターで実行できます。これについては後ほどご説明します。GPUをお持ちでない場合は、Replicateのようなオンラインプラットフォームを使用することもできます。
GitHubページ(説明欄にリンクを貼っておきます)をクリックすると、このプレイグラウンドページがありますが、登録にはCHナンバーが必要です。もしお持ちでない場合は、Replicateスペースという別のオンライン方法を使用できます。これはH100 GPUをレンタルするので、1回の生成に約7セントかかります。
まず、一連の非常に難しいプロンプトでテストしてみましょう。Hunyanビデオの出来栄えを見るため、他の最先端のビデオモデルと比較してみます。設定は分かりやすいものです。ここにプロンプトを入力し、ここにネガティブプロンプト(ビデオに表示したくないもの)を入力します。そしてこれがビデオの幅と高さです。デフォルト値のままにしておきます。
ここはビデオの長さをフレーム数で指定します。全体で129フレームになります。そしてステップ数、これは推論ステップ数です。一般的に、ステップ数が多いほどビデオの品質が高くなります。10ステップに設定すると、非常にぼやけて低解像度になります。しかし200に設定すると行き過ぎで、収穫逓減になってしまいます。そのため、デフォルト値の50のままにしておくことをお勧めします。
下には、フローシフトや埋め込みガイダンススケールなどの詳細オプションもあります。最高品質を得るため、これらもデフォルト値のままにしておきます。
最初のプロンプトは「砂漠でユニコーンに乗る宇宙飛行士」にしましょう。これは複数の要素を含む難しいプロンプトです。実際の動画で学習した場合、おそらくトレーニングデータには一度も出てこなかったものでしょう。「実行」をクリックして、実際に生成できるか見てみましょう。
生成に約7分かかりましたが、これはオープンソースの無料モデルとしては悪くありません。確かに砂漠でユニコーンに乗る宇宙飛行士が生成されました。ユニコーンの足が地面に触れる部分に不整合がありますが、全体的にはとても印象的な生成結果です。
同じプロンプトを使用した他の3つの最先端ビデオモデルの結果がこちらです。1つはMachi(マチ)で、少なくともHunyanが登場する前は最高のオープンソースビデオモデルでした。下の2つはMinimaxとCingで、現在最高の商用ビデオモデルです。ご覧の通り、Hunyanの生成結果は少なくとも同等、場合によってはさらに優れています。
次は、さらに難しいプロンプトを入力してみましょう。「シェフになるために学ぶポメラニアンの子犬たち」です。これは非常に難しいです。1匹だけでなく複数の子犬、しかもポメラニアンで、さらにシェフになるために学んでいる – これはトレーニングデータでおそらく一度も見たことがないものでしょう。
ネガティブプロンプトは空のままにして、他の設定も同じままで実行してみましょう。これが結果です。とてもかわいいですね。確かにポメラニアンの子犬たちで、少なくとも左側の子犬はシェフの服を着ています。料理はしていないので、プロンプトを部分的にしか満たしていないと言えますが。
比較のため、他の3つの主要なモデルで同じプロンプトを試した結果がこちらです。この場合、私はまだMinimaxとCingの生成結果の方が好みです。下の2つのビデオには確かに子犬のグループが映っており、実際に料理や何かを作ろうとしていて、シェフになるために学んでいる様子が見られます。一方、Hunyanのビデオは部分的にしか正しくなく、左の犬だけがシェフの服を着ているだけで、料理を学んでいる様子はありません。ただし、品質に関してはHunyanのビデオは非常にリアルで高品質です。
次は皆さんお気に入りのプロンプト、「スパゲッティを食べるウィル・スミス」です。生成してみましょう。結果がこちらです。このプロンプトを使用した理由がわかりますね。これはビデオモデルが有名人や著名人を認識できるかテストしています。明らかにウィル・スミスを認識できていません。この白人男性が世界のどこかにいるウィル・スミスという人物なのかもしれませんが、私が意図したウィル・スミスではありません。
参考までに、他の主要なビデオモデルで同じプロンプトを試した結果がこちらです。興味深いことに、オープンソースのMachiとMinimaxはウィル・スミスが誰かを理解し、実際にスパゲッティを食べるウィル・スミスを生成できました。一方、Cingもウィル・スミスを理解できず、このランダムなアジア人を生成しました。
次のプロンプトは「北極の空のオーロラのタイムラプス」です。これは通常の動画ではなくタイムラプス動画なので難しいです。夜空の星がゆっくりと回転し、オーロラは星よりもずっと速く動くはずです。うまく生成できるか見てみましょう。
生成結果がこちらです。興味深いことに、右下に奇妙な透かしが追加されています。これは生成AIの残念な欠陥で、時々このような奇妙なアーティファクトが発生することがあります。ただし、別の動画を生成すれば、この透かしは消えるはずです。
確かにこれはオーロラに見え、光は空の星よりもずっと速く動いています。透かし以外は全て良好です。参考までに、他の3つの主要なビデオモデルで同じプロンプトを試した結果がこちらです。全てのモデルがこれをうまく生成できています。もしこのB-ロールを動画の途中で見たら、AIが生成したものだとは全くわからないでしょう。AIはこのようなスローモーションの風景動画の生成が本当に上手くなっています。
次は、どのビデオジェネレーターも100%正確に生成できなかったプロンプトです。Hunyanができるか見てみましょう。プロンプトは「美しい輝く白いドレスを着た姫が、赤く光る目を持つ巨大なドラゴンから逃げる、ディズニー・ピクサーアニメーションスタイル」です。
まず、このような3Dディズニー・ピクサースタイルを生成できるかテストします。さらに、姫は赤く光る目を持つ巨大なドラゴンから逃げているはずです。プロンプトには多くの詳細が含まれています。うまく生成できるか見てみましょう。
これが結果です。確かにディズニー・ピクサースタイルに見えるので、その点は評価できます。彼女は美しい輝く白いドレスを着ていますが、巨大なドラゴンから逃げているわけではなく、むしろドラゴンに向かって走っています。また、これは本当にドラゴンには見えませんが、赤く光る目は持っているので、その点も評価できます。
これは非常に難しいプロンプトで、先ほど申し上げた通り、これを正確に生成できるビデオジェネレーターには出会ったことがありません。他のビデオモデルで同じプロンプトを試した結果がこちらです。ご覧のように、どのモデルも姫が実際にドラゴンから逃げる様子を生成できていません。
品質とディズニー・ピクサースタイルの再現に関しては、Minimaxに軍配を上げざるを得ません。Minimaxは様々なスタイルの生成が得意で、このような高いアクションのシーンもうまく扱えます。しかし、Minimaxでさえも、姫は横に走っているだけで、ドラゴンから逃げているわけではありません。
次は、テキストの生成をテストしてみましょう。プロンプトは「鮮やかなカラフルな煙で作られた’subscribe to my channel’というテキスト」です。結果を見てみましょう。生成結果がこちらです。テキストは良くありません。カラフルで鮮やかな煙の背景に単にテキストをオーバーレイしているだけで、テキストも明らかに正しくありません。これは非常に難しいプロンプトで、他の3つのビデオモデルと比較しても、Clingのような最高のモデルでさえこれを正しく生成できていません。今のところ、動画内に正当に見えるテキストを生成したい場合は、Minimaxを推奨します。
次はアニメスタイルをテストしてみましょう。プロンプトは「京都の通りを歩く着物姿の少女、アニメスタイル」です。生成してみましょう。これが結果です。確かにアニメスタイルです。これは1回の生成結果ですが、途中でなぜか別のシーンにカットしてしまった理由はわかりません。それを除けば、求めていたアニメスタイルは確かに出ています。もう1つ指摘すべき欠点は、彼女は実際には歩いておらず、ただ立って話しているだけですが。
他の3つのビデオモデルと比較すると、Cling以外は実際にアニメスタイルの動画を生成するのが得意ではないことがわかります。そのため、ここでのHunyanの生成には本当に感心しました。
次の難しいプロンプトです。プロンプトは「とても悲しく苦悩する女性。目は赤く涙が出ており、表情は悲しみと感情的な痛みを伝えている」です。ほとんどのビデオジェネレーターは普通のポートレートを正確に生成できることはわかっていますが、これはこのような極端な表情や感情を生成できるかテストしています。「実行」をクリックして結果を見てみましょう。
これが生成結果です。本当に印象的です。女性は確かにとても悲しそうで、目は赤く涙が出ています。これは映画の1シーンのようで、コンテキストなしでこれを見ただけでは、AIが生成したものだとは想像もしないでしょう。
参考までに、他の3つのビデオモデルで同じプロンプトを試した結果がこちらです。商用モデルのClingとMinimaxはどちらもこの本当に悲しい表情を生成できていることがわかります。上のオープンソースモデルのMachiは極端に悲しい表情を生成できませんでしたが、Hunyanのビデオには本当に感心しました。この品質は最高レベルで、商用モデルと同等かそれ以上です。
次は、さらに難しいプロンプトをテストしてみましょう。これは本当にアクションの多いシーンです。プロンプトは「戦場となった都市を走る兵士の主観視点ショット。ライフルを手に持っている。カメラは素早く動き、近くで爆発が起こり瓦礫が舞い上がる。兵士が身を隠して敵に応戦する時、視点が上下に揺れる」です。生成できるか見てみましょう。
これが結果です。これは兵士の主観視点ショットで、敵に発砲しています。視点は確かに上下に揺れていて、これはかなりアクションの多いシーンです。至る所で爆発が起こっていますが、そのために一貫性に欠ける部分があります。細部は優れていません。背景の兵士たちが突然消えたり、別の場所に現れたりするので、目立つ欠陥がいくつかあります。
しかし、これはかなり難しいプロンプトであることを覚えておいてください。参考までに、他の3つのビデオモデルで同じプロンプトを試した結果がこちらです。これは非常に混沌としたカオス的なアクションシーンなので、どのモデルも本当に高品質な動画を生成するとは期待していません。
しかし、Clingの生成には本当に感心せざるを得ません。これはプロンプトに正確に従っているだけでなく、非常に高品質で一貫性があります。ただし、Hunyanの生成もそれほど遜色はありません。コメント欄でどちらが好みか教えてください。
次は別の難しいアクションシーンです。プロンプトは「ホラー映画、地下鉄の駅で人々を襲うゾンビの群れ、手持ちカメラ」です。これは1体のゾンビではなく、人々を襲うゾンビの群れを生成する必要があるため複雑です。非常にカオス的なシーンになります。生成できるか見てみましょう。
これが結果です。これは実際にとても一貫性があり高品質です。ゾンビの群れが一般の人々を襲っているようには見えず、ゾンビ同士が戦っているように見えます。もちろん、ゾンビが動き回る時、手や指に不整合が見られます。これは非常にカオス的で激しいアクションシーンなので、どのビデオモデルも100%正確に生成することはできません。
しかし、他の3つのビデオモデルと比較すると、このHunyanの生成は実際に印象的です。私はHunyanの生成が最も好みです。Clingの生成も見栄えは良いですが、時々ゾンビ全体がシーンから消えたり突然現れたりするなど、多くの不整合があります。コメント欄でどちらが好みか教えてください。
スポンサーのAbacus AIが提供する素晴らしいツール、Chat LLMについてお話ししましょう。これは、最高のAIモデルを1つの統合プラットフォームで使用できるようにするものです。これには最新のO1 preview、O1 mini、そしてGPT 4oやClaude 3.5などの最先端モデルが含まれます。
さらに、プロンプトに基づいて最適なLLMを自動選択する新しいRoute LLM機能もあります。また、Search LLM機能もあり、ウェブを検索して最新かつ最も正確な情報を見つけてくれます。さらに、トーンを設定して生成できるHumanize機能もあり、AIっぽくなく人間らしい文章を生成します。
チャットボットから直接画像を生成することもでき、最高のジェネレーターであるFlux Proを使用しています。また、1つのプロンプトで動画を生成することもできます。さらに、とても優れたアーティファクト機能があり、コーディングや何かを構築している場合、アプリをサイドバイサイドで表示して操作できます。
プロンプトを入力するだけでパワーポイントプレゼンテーションなどのドキュメントも簡単に作成できます。PDFやドキュメントをここにドラッグ&ドロップして分析させることもできます。これはレポートの生成やデータ分析を簡単に行うのに最適です。
また、AI Engineerという新機能もあり、独自のカスタムデータや指示に基づいて微調整された独自のカスタムチャットボットを作成できます。これは最高のAIモデルを1つのプラットフォームで使用できる非常に強力な方法です。説明欄のリンクから試してみてください。
次のプロンプトは「戦場となった環境に立つ少年。表情は恐怖と絶望を表している。背景には破壊、火災、瓦礫が広がっている」です。これは比較的シンプルなプロンプトのはずです。「実行」をクリックして結果を見てみましょう。
これが生成結果です。完璧です。確かにこれは少年で、その表情は恐怖と絶望を表しています。破壊、火災、瓦礫のある戦場に立っています。これは本当に美しく映画的なシーンで、映画で見てもAIが生成したものだとは全くわからないでしょう。これは完璧です。
参考までに、他の主要なモデルで同じプロンプトを試した結果がこちらです。ご覧のように、全てのモデルがこれをうまく生成できています。これはかなりシンプルなプロンプトで、少年はただ立っているだけです。シーンに多くのキャラクターがいる激しいアクションシーンではないので、ほとんどのビデオジェネレーターがこのようなプロンプトをうまく処理できると予想されます。
次は、さらに難しく激しいアクションのプロンプトを試してみましょう。プロンプトは「荒れ狂う海から巨大な海の怪物が立ち上がる。その巨大な触手が沈みゆく船に巻き付く」です。「実行」をクリックして結果を見てみましょう。
これが生成結果です。これには本当に感心しました。確かにこれは巨大な触手を持つ巨大な海の怪物です。プロンプトで指定したように触手を沈みゆく船に巻き付けてはいませんが、この生成結果は依然として印象的です。
参考までに、他の3つのビデオモデルで同じプロンプトを試した結果がこちらです。驚くべきことに、オープンソースのMachiが最も好ましい結果を出しています。これは非常にリアルで激しいアクションが見られ、確かに怪物が触手を沈みゆく船に巻き付けています。
次は別の忙しい激しいアクションシーンで、テストしてみたいと思います。プロンプトは「街を横切って建物を破壊する巨大な邪悪なパンダ。恐怖に駆られた人々があらゆる方向に逃げ惑う。激しいアクション」です。「実行」をクリックして結果を見てみましょう。
これが結果です。このパンダはカンフー・パンダのキャラクターにそっくりなので、トレーニングデータについて手がかりが得られますね。確かにこれは街を横切って建物を破壊するパンダのシーンで、最初の部分では恐怖に駆られた人々があらゆる方向に逃げ惑っています。
建物や人々に不整合があることに注意してください。これは非常に難しいプロンプトですが、オープンソースのビデオモデルとしては既に非常に印象的です。参考までに、他の3つのビデオモデルで同じプロンプトを試した結果がこちらです。ご覧のように、オープンソースのMachiを含む3つ全てが本当に優れています。
この場合、最高品質はClingだと言えます。建物や人々の細部に関しては、ClingとMinimaxの生成結果の方が一貫性があるように見えます。しかし、コメント欄で皆さんの意見を聞かせてください。
これでHunyanと、次に優れたオープンソースモデルのMachi 1、そして最高の商用モデルであるClingとMinimaxとの比較テストのまとめとなります。HunyanはMinimaxからそれほど遠くない位置にあり、場合によっては最高の商用モデルと同等かそれ以上であることに注目してください。
これをオープンソース化してくれたのは本当に素晴らしいことです。コンピューターにインストールして無制限に無料で実行できます。実際、これから説明するのがそのインストール方法です。
テンセントのオリジナルのGitHubリポジトリでは、720x1280pの動画を生成するには少なくとも60GB、より低解像度の動画を生成するには45GBのVRAMが必要だと書かれていますが、もちろんほとんどの人はこれほどのVRAMを持つGPUを持っていません。
素晴らしいことに、これはオープンソースなので、素晴らしいオープンソースコミュニティが既により少ないVRAMで実行できるバージョンを構築しています。この素晴らしい人物keyiが、Hunyan videoを使用するこのComfyUIノードを作成し、12GB、場合によっては8GBのVRAMでも動作すると報告されています。今日はこれをインストールしていきます。
まず、ComfyUIをインストールする必要があります。まだインストールしていない場合は、ComfyUIの完全なチュートリアルビデオをご覧ください。まずComfyUIを実行し、何も壊れないように最新バージョンに更新します。
ComfyUIを開くと、このように表示されるはずです。「Manager」をクリックします。これにはManagerがインストールされている必要があります。まだインストールしていない場合は、このビデオを先に見ることを強くお勧めします。とにかく、「Manager」をクリックして「Update ComfyUI」をクリックします。
更新後、「ComfyUI has been successfully updated」というメッセージが表示されるはずです。「Close」をクリックしてから再度「close」をクリックし、「Manager」に戻って「Custom Nodes Manager」を選択します。ここで「hunyen」を検索すると、keyiによる「Hunyan video wrapper」が表示されます。これを選択して「Install」をクリックします。
正常にインストールされた後、再起動が必要なので「Restart」をクリックして「OK」をクリックします。コマンドプロンプトを開くと、再起動後にaccelerateやdiffusersなど必要なパッケージをダウンロードしてインストールしていることがわかります。
ComfyUIを再起動した後、次のステップはこのGitHubページに戻ることです。TransformerとVAEをインストールする必要があります。このリンクをクリックすると、2つの異なるTransformerと2つの異なるVAEが表示されます。VRAMに応じて、低いVRAMの場合は、13GBのこの小さなSafe Tensorファイルをお勧めします。これはfp8です。
VAEについても同様で、低いVRAMの場合はこのbf16バージョンをお勧めします。これらの用語(bf16、fp8、fp32)に詳しくない場合、これは基本的に計算を通過する数値の精度です。より高い値またはより精密なモデルはもちろんより多くのVRAMを必要としますが、品質は若干向上します。より低いバージョンを使用すると品質は少し犠牲になりますが、それは本当にわずかです。
とにかく、このfp8モデルをダウンロードするためにこれをクリックし、Comfyフォルダの中のmodelsフォルダ、そしてdiffusion modelsフォルダに保存します。ここに保存しましょう。次にVAEについても、小さいバージョンを選びます。これをクリックして、ComfyUIフォルダのmodelsフォルダ、そしてvaeフォルダに保存します。「Save」をクリックしましょう。
全てがインストールされているか確認するため、Comfyフォルダでmodelsをクリックし、diffusion modelsをダブルクリックすると、ここにHunyanビデオモデルが表示されるはずです。modelsフォルダに戻ってvaeをダブルクリックすると、ここにHunyanのVAEが表示されるはずです。
ComfyUIの素晴らしい点は、ワークフローファイルをインターネットにドラッグ&ドロップするだけで、そのワークフローが自動的に表示されることです。全てのノードとヌードルを最初から構築する必要はありません。
Comfyフォルダに戻って、custom nodesをクリックし、このHunyan video wrapperをダブルクリックすると、examplesフォルダが表示され、ここにtext to videoとvideo to videoがあります。両方をお見せしますが、まずtext to videoの例から試してみましょう。
JSONファイルをここにドラッグ&ドロップするだけです。ここにドロップすると、VHS video combineというノードが不足していることが検出されたことに注意してください。そのため、再度このManagerに行き、Custom Nodes Managerをクリックして、Video Helper Suiteを検索する必要があります。これで不足しているノードがインストールされます。「Install」をクリックしてこれが完了するのを待ちます。
インストール後、再起動が必要なので「Restart」をクリックして「OK」をクリックします。再起動後、ここにエラーは表示されなくなり、このVideo Combineノードが表示されているのがわかります。これで基本的には完了です。
しかし、これを動作させるために編集する必要があるものがいくつかあります。まず、このVAE loaderについて、このドロップダウンをクリックして先ほどダウンロードしたVAEを選択し、Precisionがこのvae名の値と一致することを確認する必要があります。これはbf16なので、これもbf16にする必要があります。
また、model loaderについても、このドロップダウンをクリックして先ほどダウンロードしたHunyanモデルを選択し、量子化が名前の値と一致することを確認します。この場合はfp8で、ここにも表示されています。
これで基本的には完了です。下部がプロンプトを入力する場所です。これは完全に検閲されていないモデルなので、もう少しスパイシーなものを試してみましょう。「美しい女性が白いビキニを着て浜辺で踊る」と書いてみましょう。
このプロンプトはこのHunyan video samplerノードに送られ、ここで様々な設定を行います。これがビデオの幅と高さです。十分なVRAMがあれば1080p(1920×1080など)に設定できますが、私は普通の16GBのVRAMしか持っていないので、それは処理できません。そのため、デフォルトの512×320のままにしておきます。
これはビデオが生成するフレーム数です。今は85のままにしておきましょう。これはビデオを生成する推論ステップ数です。一般的に、ステップ数が多いほどビデオの品質が高くなりますが、ある時点(例えば200ステップ)を超えると収穫逓減になり、そこまでステップ数を設定する必要はありません。
値を低すぎる(例えば10ステップ)に設定すると、ビデオは非常にぼやけて低品質になります。私の場合は25に設定して、品質は多少犠牲になりますが、生成が少し速くなるようにしましょう。
このguidance scaleは、ビデオがプロンプトにどれだけ従うべきかだと思います。このflow shift値は非常に興味深いです。一部のユーザーは、このような小さなビデオを扱う場合、2〜4程度の低いflow shift値を使用することを提案しています。自由に試してみてください。私は5に設定して、より良くなるか見てみましょう。
このForce offload値は、十分なVRAMがない場合にメモリをオフロードしたい場合は、trueのままにしておきます。これで基本的には完了です。「Q」をクリックして結果を見てみましょう。
現在このステップにいることに注意してください。これが初めての実行の場合、これら2つのファイルもダウンロードする必要があります。コマンドプロンプトを開くと、これらのファイルをダウンロードしているのがわかります。これは初回のみで、その後は遥かに速くなります。
メモリ不足エラーが出たようです。フレーム数をさらに減らす必要がありありそうです。今は50に設定してみましょう。50を入力すると、なぜか自動的に49に設定されます。再度「Q」をクリックして、今回はメモリ不足にならないことを願います。
それは実際にかなり速かったです。2〜3分しかかかりませんでした。これは低解像度で、ステップ数も25だけなので、これが出力です。品質はあまり詳細ではありませんが、これらの設定を調整して、より良い結果を得るために何度か生成することができます。
ちなみに、これは自動的にoutputフォルダに保存されます。Comfy UIフォルダに戻り、ここのoutputでビデオも見ることができます。
もう1つ試してみましょう。プロンプトは「竹を食べるパンダ」にします。ステップ数を30に上げて、16GBのVRAMで処理できるか見てみましょう。「Q」をクリックして何が起こるか見てみましょう。
それほど悪くありませんでした。約5分かかり、これが結果です。ズームアウトしてみましょう。これは実際にとても良いです。512×320でもこれがどれだけリアルかご覧ください。これは本当にリアルで詳細な動画です。
これでText to videoのまとめとなります。次はさらに凄いものを試してみましょう。Video to videoをお見せします。参照ビデオをアップロードし、任意のプロンプトを入力すると、参照ビデオの動きと構図に基づいて新しいビデオを生成します。
そのためには、Comfy UIフォルダに戻り、custom nodesフォルダで、Hunyan video wrapperの中にexamplesフォルダがあり、ここにv2v(video to videoの略)があります。これも最初から全てをプログラミングする必要はありません。ワークフローファイルをここにドラッグ&ドロップするだけです。
ここでも、動作させるために調整する必要があるものがいくつかあります。まず、VAEについて、ドロップダウンからダウンロードしたVAEを選択し、Precisionが名前の値(この場合はbf16)と一致することを確認します。同様にビデオモデルについても、クリックして先ほどダウンロードしたHunyanビデオモデルを選択し、量子化fp8がモデル名の値と一致することを確認します。
ここがビデオをアップロードする場所です。簡単のため、keyiがテストしたのと同じビデオを使用します。GitHubページには実際にソースビデオへのリンクがあり、ここで取得できます。これをダウンロードして、好きな場所に保存できます。私はComfy UIフォルダに保存して、test videoと名付けます。
Comfy UIに戻り、このleft bottomノードがあなたの参照ビデオをアップロードする場所です。「choose video to upload」をクリックしてtest videoを選択すると、ここにビデオが表示されるはずです。
デフォルト設定でこれを実行すると、おそらくメモリ不足エラーが出るでしょう。後で説明する設定を調整する必要がありますが、今はとりあえず実行してみて、動作するか確認してみましょう。
ここがプロンプトを入力する場所です。現在のデフォルトプロンプトは「高品質な自然動画、興奮した茶色のクマが小川を走り下りる、傑作、最高品質」です。クマの代わりにサイを試してみて、生成できるか見てみましょう。
これが全てこのHunyan video samplerに送られます。ここでflow shiftなどの設定を調整できます。4に設定して、より良くなるか見てみましょう。ステップ数は20に設定して、少し速く実行できるようにしましょう。これが知っておくべき主な設定です。必要に応じて他の値も自由に調整してください。とにかく「Q」をクリックして動作するか見てみましょう。
予想通りメモリ不足エラーが出ました。計算を減らすためにいくつかのことを試してみましょう。まず、サイズを強制的にカスタム幅にして、カスタム幅を512に設定します。ここの幅も512に設定し、これも512に設定します。
これは実際に512×512の正方形の動画を作成しているわけではありません。元のビデオのプロポーションを維持しているためです。とにかく幅は512で、高さは このビデオのプロポーションに基づきます。
frame load capについて、これは基本的にこのビデオから何フレームをロードするかです。101フレームは多すぎると思うので、最初の21フレームだけに制限してみましょう。「OK」をクリックします。
これが計算を減らすために調整する必要がある全てです。「Q」をクリックして動作するか見てみましょう。これは実際に動作します。これが結果です。確かにサイがいて、元の車のビデオの動きと構図に基づいています。カメラの動きも似ているのがわかります。
ちなみに、さらにビデオに合わせたい場合は、このDenoise strengthスライダーを変更できます。より高い値は、ビデオへの追従が少なくなり、より低い値は、ビデオへの追従が多くなります。例えば5に設定すると、元のビデオにより似たものになるはずです。
実際に試してみましょう。「Q」をクリックして結果を見てみましょう。これが結果です。このような砂漠の背景で、色も元のビデオにより似ています。ただし、この値を低すぎる値にすると、アーティファクトが発生することに注意してください。例えば、このサイはあまり正確に見えません。これは元のビデオに過度に従おうとしているためです。
これでVideo to videoの使い方のまとめとなります。繰り返しになりますが、非常にシンプルです。このワークフローファイルをここにドラッグ&ドロップして、いくつかの設定を調整するだけで準備完了です。
これでHunyanビデオのレビューとインストールチュートリアルのまとめとなります。このImage to videoモデルなど、まだリリースされていない機能もあることに注意してください。これがリリースされれば、また新たなゲームチェンジャーになると思います。ビデオの開始フレームとして任意の画像を使用できるため、さらに多くのコントロールが得られます。
とにかく、これについてどう思うか、最高のオープンソースモデルや商用モデルと比べてどうか、今のところどれが好みか教えてください。また、インストール中にエラーが発生した場合も、コメント欄でお知らせください。できる限りトラブルシューティングのお手伝いをさせていただきます。
いつも通り、最新のAIニュースとツールを探して皆さんと共有していきます。このビデオをお楽しみいただけた場合は、いいね、シェア、購読をお願いします。次回のコンテンツもお楽しみに。
毎週AIの世界では本当に多くのことが起こっているので、YouTubeチャンネルだけではすべてをカバーすることはできません。AIに関する最新情報を本当に知りたい方は、無料の週刊ニュースレターを購読してください。リンクは説明欄にあります。
ご視聴ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました