
4,316 文字

テキストから動画を生成するモデルというのは、少なくとも手に入れるのが難しかったんですわ。OpenAIがSoraを披露しましたけど、まだ私たちの手元には届いてません。Metaもテキストから動画を生成するモデルがあると発表しましたが、これもまだ手に入れられへんのです。でも数週間前に、genmo AIという会社がオープンソースでウェイトも公開されているテキストから動画を生成するモデル、Mochi-1をリリースしました。私はこれを自分のローカルコンピュータで動かすことができたので、今日はその方法と、このモデルで作れるものの例をお見せしたいと思います。
これが数週間前に登場したMochi-1モデルで、オープンソースの動画生成モデルとしては最先端のものです。例えばこんな感じで、グラスにワインが注がれる様子や、街灯の下で雨に打たれる人、稲妻なんかも生成できます。かなり良い出来栄えですね。テキストから動画を生成するのはクラウドでホストする必要があると思われがちですが、そうとは限りません。実際に私のDellコンピュータで動かすことができました。
実はこの動画はDellとパートナーシップを組んで制作していまして、その方法をご紹介させていただきます。私が使用しているのはDell Precision Towerで、RTX A6000を2枚搭載していますが、このモデルの実行には1枚しか使用してないと思います。この場を借りてDellには感謝申し上げます。私が使用しているDellコンピュータやその他の情報については、下の説明欄にリンクを貼っておきます。
さて、これが実際にローカルで動いている様子です。comfy UIを使用していますが、一見すると intimidatingで怖そうに見えるかもしれません。でも実際のところ、私もcomfy UIをほとんど使ったことがなかったのに、これを動かすことができました。設定の多くは正直よく分かってませんが、動かすこと自体はそれほど難しくありません。
例えば、プロンプトに「パンダが竹を食べている」と入力すると、このような動画が生成されます。2秒間だけの動画ですが、もちろん長くすることもできます。ただし、その分モデルの推論に時間がかかることになります。
まずはインストールの方法をご説明して、その後でデモをお見せしましょう。最初にcomfy UIのGitHubページにアクセスしてください。リンクは説明欄に貼っておきます。スクロールして「Installing ComfyUI」というリンクを探してください。そしてダイレクトダウンロードリンクをクリックします。保存先は好きな場所でいいですが、見つけやすいようにデスクトップに保存しておきましょう。
ダウンロードが完了したら解凍します。右クリックして「すべて展開」をクリックし、私の場合はデスクトップに展開します。展開が完了したらダブルクリックして、ちゃんと動くか確認しましょう。フォルダを開いて、「run_nvidia_gpu」をダブルクリックします。もちろんNVIDIA GPUを搭載していることが前提ですが、これ以上簡単なことはありませんね。
はい、これで起動しました。まず最初にcomfy UI managerをインストールしましょう。これを使うとプラグインやノードのインストールが簡単になります。comfy UI managerのGitHubページにアクセスしてください。これも説明欄にリンクを貼っておきます。緑色の「Code」ボタンをクリックして、URLをコピーします。
次にターミナルを開いて、先ほど展開したcomfy UIフォルダに移動します。デスクトップに移動して、comfy UIフォルダに入ります。それからcomfy UI Windows Portableフォルダに入って、さらにcomfy UIフォルダに入ります。入れ子になっているのは仕様なので、そのまま従ってください。「ls」と入力して、custom nodesを探します。
custom nodesフォルダに移動したら、「git clone」と入力して、先ほどコピーしたURLを貼り付けてEnterを押します。これで完了です。もう一度comfy UIを起動してみましょう。managerが動くか確認するために、また「run_nvidia_gpu」をダブルクリックします。
これでmanagerボタンが表示されて、動作することが確認できました。次にインストールが必要なのは、comfy UI Mochiラッパーです。これはkeyiさん(お名前の発音が合っているといいのですが)が作成したものです。これも説明欄にリンクを貼っておきます。緑色の「Code」ボタンをクリックしてURLをコピーします。
ターミナルに戻って、comfy UIを実行していた場所で、サーバーを停止してバッチを終了します。もう一度ターミナルを開いて、custom nodesフォルダで「git clone」を実行し、そのURLを貼り付けてEnterを押します。
これで完了したので、もう一度comfy UIを起動しましょう。これで両方の機能が使える状態になっているはずです。次にmanagerを開いて、custom nodes managerに進み、「video」で検索します。「comfy UI video helper suite」を探してください。まだインストールされていない場合は、インストールしてください。うまくいけば動くはずです。インストール後にcomfy UIの再起動が必要かもしれませんが、インストールすると更新ボタンが表示されるはずです。
また、「KJ nodes」と入力して、このヘルパーもインストールされていることを確認してください。次に実際に読み込んでみましょう。下の「Load」をクリックして、comfyi Mochiラッパーフォルダに進み、examplesをクリックします。これらの例の中から好きなものを選べますが、私は49フレームバージョンを選んでみましょう。「開く」をクリックすると、ワークフローが全て表示されます。
初回実行時には自動的にモデルがダウンロードされるはずです。このノードがその役割を果たします。動作確認してみましょう。最初に少しエラーが出ることがありますが、気にしないでください。ここをダブルクリックするだけで動くようになります。理由は分かりませんが、そういうものです。
このノードが緑色になっているのが見えると思いますが、これはダウンロード中であることを示しています。「モデルの初期化中」と表示されていて、今まさにダウンロードしているところです。私の場合は既にダウンロード済みなので、別のcomfy UIインスタンスを開いて、全て準備が整っている状態をお見せしましょう。
さて、ここにプロンプトを入力します。現在は「滝の前で竹を食べている赤パンダの自然の映像」と書いてあります。「Q prompt」をクリックすれば動くはずです。モデルをダウンロードしているところです。モデルの初期化中と表示されていて、GPUの状態を見てみると、片方のGPUは使用されていませんが、もう片方でモデルを読み込んでいるのが分かります。
初回のモデル読み込みには時間がかかりますし、もちろん初回ダウンロードの場合はさらに時間がかかります。そのことは覚えておいてください。処理は遅いですが、ちゃんと動いているのが分かります。ここで速度が表示されていて、この実行にかかる総時間は約3分半と予測されています。
今はMochiサンプラーノードがハイライトされていて、次にMochi VAEに移って、全てを組み合わせてから動画のプレビューが表示されます。マシンのファンの音が聞こえてきたので、確実に動いているのが分かります。
これは量子化バージョンなので、フルバージョンほど良い品質にはなりませんが、実際にコンピュータで実行可能です。私はQ8バージョンを使用していますが、96GBのVRAMを搭載しているので、もっと大きなモデルも動かせるはずです。ただ今回は動作確認が目的なので、これで十分です。現在60%、63%まで進んでいます。
完了するまでの間に、いじれる設定について説明しましょう。精度、つまり量子化を調整したい場合は、ここで選択できます。fp32やfp16、アテンションモードなど、たくさんの設定があります。もちろんここにプロンプトがあり、ネガティブプロンプトもあります。幅や高さ、フレーム数も調整できます。49フレームで約2秒の動画になりますが、ここで調整すれば長くすることもできます。ステップ数やシード値なども設定可能です。
フレームレートや出力動画のフォーマットもここで調整できます。とても使いやすくシンプルですが、必要に応じて高度で複雑な設定も可能です。次はVAEノードに移りますね。デコードが始まりましたが、これはそれほど時間がかかりません。
はい、完成です。テキストから動画への変換ができました。これほど早く、高性能な一般向けハードウェアでローカルに実行できるテキストから動画への変換が実現できるとは思っていませんでした。確かに私の横にあるマシンは一般向けというよりは、高度な作業用のワークステーションですが、精度を下げれば皆さんのマシンでも動かせるはずです。もちろん、Dellのこの素晴らしいタワー型PCを入手するという手もあります。
これが「滝の前で竹を食べている赤パンダ」の結果です。もう一つ例をお見せしましょう。「自転車に乗る子供」と入力してみて、どんな結果になるか見てみましょう。実行を開始して…完成です。自転車に乗る子供の映像ができました。
動画にはたくさんの間違いが見られますが、全体的にはかなり良い出来だと思います。しかも量子化バージョンを使用していて、これがローカルで動いているということを考えると、とても印象的です。
以上です。皆さんも試してみて、もし動かない場合はコメント欄に書いてください。できる限り私がサポートしますし、それでも解決しない場合は私のDiscordに参加してください。そこでもサポートを試みます。
最後にもう一度、DellとNVIDIAにこの動画でのパートナーシップについて感謝を申し上げたいと思います。このような素晴らしいチュートリアルに使える強力なPCを持てて本当に嬉しく思います。この動画が気に入っていただけたら、いいねと購読をお願いします。また次回お会いしましょう。


コメント