音声付き最高のローカルAI動画生成ツールが登場

オープンソースのAI動画生成モデルLTX 2.3が登場し、音声を含む動画生成の新基準を打ち立てた。最大20秒、4K解像度まで対応し、低VRAMでも高速動作する本モデルは、前バージョンLTX2と比較してモーション一貫性、プロンプト理解度、音声品質が大幅に向上している。第1フレームと最終フレームの指定機能、垂直フォーマット対応など新機能も追加され、激しいアクションシーンや複数キャラクターの描写において顕著な改善が見られる。WtoGP(WGP)プラットフォームを使用すれば、わずか6GBのVRAMでもローカル環境で無制限に動画生成が可能である。

Best local AI video generator with sound is here!

LTX-2.3 installation tutorial and review. LTX 2.3 vs LTX 2 #ai #aivideo #aitoolsLTX 2.3

LTX 2.3の登場
オープンソースAI動画生成の現状
激しいアクションシーンの比較テスト
忍者と侍の戦闘シーン
ウィル・スミスのスパゲッティテスト
アニメキャラクターの日本語発音テスト
K-POPグループの歌とダンス
オペラ歌手のテスト
解剖学と物理法則のテスト
プリンセスとドラゴンのシーン
カメラの動きとテキストレンダリングのテスト
LTX 2.3の新機能
縦型フォーマット対応
インストール方法の解説
Gitのインストール
WGPのインストール
Conda環境のセットアップ
仮想環境の作成と起動
WGPの起動方法
WGPインターフェイスの使い方
テキストプロンプトでの動画生成
第1フレーム指定での生成
第1フレームと最終フレームの両方を指定
コントロール動画機能
まとめ

LTX 2.3の登場

これが現在、音声が組み込まれた最高のオープンソース動画生成ツールです。LTX 2.3と呼ばれるもので、驚異的な速さで動作します。低VRAMでも実行可能で、最大20秒の動画を生成でき、解像度は4Kまで対応しています。

この動画では、私が実際に試したデモをお見せして、前バージョンと比較していきます。もちろん、あなたのコンピューターにローカルでインストールする方法もお教えしますので、低VRAMでも無料で無制限にオフラインで実行できます。早速始めましょう。

オープンソースAI動画生成の現状

まず、オープンソースAI動画生成の現状について簡単に背景をお話しします。これまで、音声がネイティブに組み込まれた動画を生成できる唯一の高品質モデルは、LTX2でした。これはすでにかなり良いものでした。

しかし数日前、彼らはLTX 2.3をリリースしました。これはかなり大きなアップグレードです。彼らの主張によると、バージョン2と比較して、モーションの一貫性、プロンプトの理解度、音声品質が大幅に向上したとのことです。さらに、第1フレーム、最終フレームの指定機能や、縦型フォーマットといった新機能も追加されました。

これは本当なのでしょうか?以前のバージョン2と最新の2.3を比較した、私の個人的なテストをいくつかご紹介します。

激しいアクションシーンの比較テスト

最初のプロンプトでは、「彼らは激しく戦っている、ハイアクション、素早い動き、手ブレカメラ、激しく、映画的」と入力し、この画像を開始フレームとしてアップロードしました。

まず、古いLTX2からの生成結果がこちらです。ご覧のように、この激しい動きのシーンでは、ノイズや歪み、不一貫性が多く見られます。時々手足や手がおかしくなり、時々顔がおかしくなります。あまり一貫性がありません。

そしてこちらが新しいLTX 2.3です。ご覧のように、はるかに一貫性があります。特に顔や手、手足が動き回る際の歪みがかなり少なくなっています。スローモーションで再生したり、フレームを静止させたりすると、まだわずかなノイズや歪みが見られますが、前バージョンと比べるとはるかに目立ちません。

忍者と侍の戦闘シーン

次のプロンプトです。画像から動画ではなく、シンプなテキストから動画の例になります。竹林で重装甲の侍を襲撃する忍者の集団、素早い剣撃、アクロバティックな宙返り、風に舞う葉、というプロンプトです。

古いLTX2からの結果がこちらです。やはり、このようなハイアクションシーンでは、古いバージョン2は非常に一貫性に欠けます。剣の戦いをうまく表現できていません。侍は正しい方向に攻撃すらしていません。ただランダムに剣を振り回しているだけです。そして繰り返しになりますが、キャラクターの端、特に手足の周りに多くの歪みや歪曲が見られます。

そしてこちらがLTX 2.3からの結果です。これは実際の剣の戦いという点で、はるかに物理的に正確に見えます。この男は実際に正しい方向に剣を振っています。彼はこの二人の忍者と戦おうとしており、全体的にわずかにより一貫性があります。

ウィル・スミスのスパゲッティテスト

次は有名なウィル・スミスのプロンプトをテストしなければなりません。ウィル・スミスがスパゲッティを食べている写真をアップロードします。プロンプトには、「彼は言う、『兄弟、もうこのプロンプトをテストする必要はないよ』とスパゲッティを食べながら。そして背景で大規模な爆発が起こる」と書きましょう。

古いバージョン2からの結果がこちらです。

「兄弟、もうこのプロンプトをテストする必要はないよ」

興味深いことに、彼にイギリス訛りが加わりました。彼はセリフを話し、スパゲッティを問題なく食べることができます。しかし、これで私が抱える主な問題は、爆発の音声が本当にひどいことです。ただの静音ノイズのように聞こえます。これがLTXの主な問題の一つで、このようなドラマチックな音響効果をきれいに生成できないのです。

とにかく、新しい2.3からの生成がこちらです。

「兄弟、もうこのプロンプトをテストする必要はないよ」

彼は問題なく話し、食べることができますが、この違いは爆発がより自然に見えることです。さらに、音声も少しクリーンに聞こえます。まだあの静音ノイズの残骸がいくらか残っていますが、前バージョンよりもはるかに良く聞こえます。

アニメキャラクターの日本語発音テスト

次に、アニメの例をテストしましょう。そして日本語を話せるかどうかを確認するために、セリフも追加しましょう。この画像をアップロードします。そしてプロンプトには、男がこれを言い、女がこれを言う、と書きます。

古いLTX2からの結果がこちらです。

日本語の発音が正しくありませんでした。さらに、彼らの口と顔が少しおかしくなりました。口が本当に変に見えます。

しかし、新しい2.3からの生成がこちらです。

日本語を正しく発音させることができ、話している時のリップシンクもはるかに良く見えます。LTX 2.3がはるかに能力が高く、一貫性があることが明確にわかります。

K-POPグループの歌とダンス

次に、歌って踊る人々のグループを一貫して生成できるかどうかもテストしましょう。ここでこの写真をアップロードし、プロンプトには「ステージで歌って踊るK-POPグループ、アップビートな韓国ポップソング」と入力します。

まず、LTX2から得た結果がこちらです。

悪くありません。韓国のポップソングのようなものを生成できました。しかし繰り返しになりますが、LTX2の問題は、大量の動きを伴うハイアクションシーンがある場合、かなりの歪みや不一貫性が生じることです。特にご覧のように、顔や手に顕著です。

そしてこちらがLTX 2.3からの生成です。

顕著な違いがわかると思います。前バージョンと比較して、特に顔や手足、キャラクターの端において、はるかに一貫性があります。そしてK-POPのような曲も生成できています。

大量の異なるキャラクターや異なる要素を含むハイアクションシーンを生成したい場合は、間違いなくこの最新バージョン2.3の方が、はるかに一貫性があり、コヒーレントです。

オペラ歌手のテスト

次に、オペラを歌う人を生成できるかどうか見てみましょう。この画像をアップロードし、「背景に弦楽オーケストラの音楽がある中、情熱的にオペラを歌っている」と書きましょう。

LTX2から得た結果がこちらです。

悪くありません。彼女はオペラを歌うことができます。

しかしこちらがLTX 2.3です。

これは難しい判断です。どちらもかなり良いです。LTX 2.3の方が、はるかに表情豊かで情熱的に歌っていると言えるでしょう。コメント欄であなたの意見を聞かせてください。

解剖学と物理法則のテスト

次に、解剖学と物理学もテストしてみましょう。ここでは平均台で宙返りをする体操選手がいます。

まず、LTX2からの生成がこちらです。ご覧のように、これは絶対的にひどく見えます。古い世代の動画モデルの典型的な欠陥がすべて含まれています。彼女には余分な手足があります。時々彼女の頭が間違った方向を向いています。これはかなりひどいです。

そしてこちらが新しい2.3からの生成です。ご覧のように、これははるかにクリーンに見えます。ショットを遅くしてフレームごとに見ると、まだ完璧ではありませんが、全体的にLTX2と比較してはるかにエラーが少なくなっています。

そしてこちらが別の例です。プロンプトは、「雪山の渓谷を曲がりくねる凍った川で優雅にアイススケートをする若いフィギュアスケーター。カメラは彼女がスケートをして回転するダイナミックな動きを追う。高速トラッキングショット、ハイアクション」です。

LCX2から得た結果がこちらです。そして繰り返しになりますが、これは絶対的にひどく見えます。時々彼女の体が回転する際に間違った方向を向いているだけです。すべてが解剖学的に間違っています。

そしてこちらが新しいLTX 2.3です。これははるかに一貫性があり、解剖学的に正確です。

プリンセスとドラゴンのシーン

次に、私の定番プロンプトもテストしましょう。キラキラした白いドレスを着たプリンセス。彼女は赤く光る目を持つ巨大な赤いドラゴンから逃げている。3DディズニーPixarスタイル、ハイアクション、そして素早い動き。

こちらが以前のLTX 2からの生成で、これはすでに本当に良いものです。これは私がこれまでに見たオープンソースモデルからの最高の生成の一つです。

では、LTX 2.3がこれをさらに良くできるか見てみましょう。

これがLTX 2.3からの生成です。正直なところ、どちらも非常に良いです。コメント欄であなたの意見を聞かせてください。

カメラの動きとテキストレンダリングのテスト

そして最後に、カメラの動きに従う能力と、テキストのレンダリングがどれだけ優れているかもテストしましょう。

このプロンプトがあります。カメラはキスをするカップルに向かってプッシュインする。男性は黒いスーツを着ている。女性は赤いドレスを着ている。そして空を映すために上に傾き、オーバーレイテキストが表示される。「そして彼らは幸せに暮らしましたとさ」

LTX2から得た結果がこちらです。ご覧のように、カメラは彼らがキスをする際にカップルに向かって実際にプッシュインして、それから上に傾いているわけではありません。カメラの動きに従うのがあまり得意ではありません。そしてテキストもただのでたらめです。

こちらが私のLTX 2.3からの生成です。ここではカメラが実際にプッシュインして、それから上に傾いてテキストと共に空を映していることがわかります。カメラの動きに従うという点では、LTX 2.3は間違いなく前バージョンよりも優れています。

しかし、ご覧のようにテキストはまだ間違っています。でも少なくともテキストの大部分は正しく表示されました。前バージョンでは完全にでたらめだったのに対してです。

少なくともテキストプロンプトだけからでは、動画内にテキストをレンダリングするためにLTX2に頼ることはしないでしょう。参照画像でガイドするのが最善です。

LTX 2.3の新機能

そしてそれがLTX 2.3の新機能につながります。これは第1フレームと最終フレームのアップロードをネイティブにサポートするようになりました。つまり、生成の第1フレームとして使用する画像だけでなく、最終フレームとしても画像をアップロードできるということです。

前バージョンでは、非公式のワークフローを使えばすでにこれができましたが、この新しい2.3では、ネイティブにサポートされています。

簡単な例をやってみましょう。この二枚の写真をアップロードします。そしてプロンプトには、「繭から出てくる蝶のタイムラプス」と入力します。

こちらが私の結果です。悪くありません。

そしてこちらはさらに難しいテストです。まったく異なる二つのシーンの二枚の写真をアップロードします。そして、「このスポーツシューズのプロフェッショナルコマーシャル。アスリートが走り始め、それからシューズにズームイン、それから黒い背景で電気ボルトと共に回転して見せる。一つの連続したショット、シームレスなトランジション」と入力しましょう。

これら二つのフレームは非常に異なります。ご覧のように、シームレスなショットは実際には生成されませんでした。途中で黒い背景にハードカットしただけです。

これがLTX 2.3の第1フレーム、最終フレームで私が見つけた傾向です。シームレスなトランジションが欲しい場合は、互いに非常に似ている二枚の参照画像をアップロードする必要があります。最終フレームが第1フレームと大きく異なる場合、うまくいかずに、シームレスなトランジションの代わりにハードカットになってしまいます。

縦型フォーマット対応

LTX 2.3の次の本当に素晴らしい機能は、縦型フォーマットを生成できるようになったことです。前バージョンは縦型ができませんでした。

簡単な例がこちらです。この写真をアップロードして、異なるアクセントを生成できるかどうかもテストしましょう。オーストラリアのインフルエンサーがこのフェイスローションを紹介します。彼女は濃いオーストラリア訛りで「みんな、このフェイスローションをチェックしなきゃ。本当に素晴らしいの。1日1回だけで、あなたの顔は素晴らしい感じになるわ」と言います。

こちらが結果です。

「みんな、このフェイスローションをチェックしなきゃ。本当に素晴らしいの。1日1回だけで、あなたの顔は素晴らしい感じになるわ」

彼女にオーストラリア訛りのようなもので話させることができました。これで私が抱える主な問題は、リップシンクがあまりにも誇張されすぎていることです。彼女がこのセリフを非常に力強く話しているように見えます。半分くらいの確率でこのパターンが見られ、誰かが非常に力強く話していて、リップシンクがあまりにも誇張されすぎているように見えます。

とにかく、これらがバージョン2.3での私の簡単なデモです。モーションの一貫性という点で明らかに優れており、音声品質もバージョン2と比較して明らかに優れています。

インストール方法の解説

次に、無料で無制限にオフラインで実行できるように、これをインストールする方法を説明しましょう。Comfy UIというプラットフォームを使用した公式ワークフローがすでにありますが、かなり面倒です。大量のノードとヌードルを扱う必要があるため、誰にでも向いているわけではありません。

これらのワークフローでは、大量のモデルを手動でダウンロードして正しいフォルダーに配置し、これらのノードとヌードルが適切に接続されていることを確認する必要があります。インストールと使用が面倒なのです。

代わりに、今日お見せするのは、すべてを自動インストールするはるかに簡単なプラットフォームです。さらに、RAMが十分にあれば、わずか6GBのVRAMでも動作します。

そのプラットフォームはWtoGP、またはWGPと呼ばれています。私のチャンネルで以前これについて説明したことがありますが、あなたが慣れていない場合に備えて、ゼロから新規インストールを説明しましょう。

このメインページへのリンクは下の説明欄に記載します。これは低VRAMのユーザー向けに最適化されていることに注意してください。ここには、特定のモデルには6GBのVRAMで十分だと書かれています。十分なRAMがあれば、わずか2GBのVRAMで古いLTXバージョン2を実行したというユーザーの報告も聞いています。

これは、特にコンシューマーハードウェアでLTX 2.3を使用するための最良かつ最もシンプルなオプションです。ずっと下にスクロールすると、これを設定する方法の指示があります。

私の場合、16GBのVRAMを搭載したRTX 5000 ADAを使用しており、Windows 11を使用しています。とにかく、これらの指示を段階的に説明しましょう。

Pinocchioアプリを使用したワンクリックインストーラーがあり、必要に応じて使用できます。ただし、一部のユーザーがPinocchioを使用して動作しない場合、エラーのトラブルシューティングが非常に困難です。

そのため、私が代わりに行うのは、すべてを手動でダウンロードすることです。この動画ではそれを説明します。

Gitのインストール

少し下にスクロールすると、新しいPython 3.11のセットアップがあります。こちらが指示です。最初の行では、これを機能させるために、まずコンピューターにGitをインストールする必要があります。

すでにGitがインストールされている場合は、次のセクションに進んでください。インストールされていない場合は、インストール方法を説明します。

このインストーラーページへのリンクは下の説明欄に記載します。あなたがたは、使用しているオペレーティングシステムの最新リリースをダウンロードするだけです。私はWindowsを使用しているので、Windows用のダウンロードをクリックします。64ビットを実行しているので、これをクリックしてダウンロードします。

これで.exeファイルがダウンロードされています。完了したら、その.exeファイルを開いて手順に従うだけです。「次へ」をクリックします。デフォルトのインストール場所、つまりプログラムファイル/getで行きます。「次へ」をクリックします。

これはデフォルトのままにしておきます。そして再び「次へ」をクリックします。「次へ」をクリックします。これらすべてにデフォルト設定を使用します。多くの設定を通過する必要があります。これらすべてに対して「次へ」をクリックします。

そうすれば、すべてのファイルのインストールが進行します。これには数分かかる場合があります。完璧です。これでGitがインストールされました。

WGPのインストール

Gitがインストールされていると仮定して、最初のステップは、コンピューターのどこにWGPをインストールするかを選択することです。私の場合は、デスクトップにインストールします。

デスクトップフォルダーのこの上部バーに、cmdと入力してコマンドプロンプトでこれを開きます。ご覧のように、今、デスクトップフォルダーが開いたコマンドプロンプトにいます。

この行をコピーしてここに貼り付けるだけです。その後、基本的にこのGitHubリポジトリをデスクトップ上のフォルダーにクローンしていることがわかります。

その後、デスクトップに行くと、ここに新しいワンtoGPフォルダーが表示されます。ダブルクリックすると、このGitHubリポジトリに表示されているすべてのファイルとフォルダーが含まれています。

今、ターミナルではまだこのデスクトップフォルダーにいます。このワントGPフォルダーにディレクトリを変更する必要があります。この行をコピーしてここに貼り付けます。今、デスクトップではなく、このワントGPフォルダー内にいることがわかります。

Conda環境のセットアップ

次のステップは、新しい仮想環境を作成するために使用する必要があることです。これには最初にインストールされている必要があります。すでにインストールされている場合は、次のセクションに進んでください。インストールされていない場合は、インストール方法を説明します。

Anacondaは、データサイエンスと機械学習のためのさまざまなPythonライブラリをインストールするパッケージです。これらのパッケージのほとんどは、WGPのようなAIツールを実行するために必要です。

ただし、Anacondaはかなり大きいため、数ギガバイトのサイズになります。そこで、代わりにMinicondaをインストールすることをお勧めします。これはAnacondaの最小限のパッケージで、必要不可欠なパッケージのみをインストールします。必要に応じて後で追加のパッケージをインストールすることもできます。

これにより、多くのスペースを節約でき、インストールも高速です。このMinicondaインストーラーページへのリンクは下の説明欄に記載します。下にスクロールすると、このリンクanaconda.com/downloadをクリックするだけです。

無料でサインアップする必要がありますが、その後、このMinicondaインストーラーをダウンロードできます。これをクリックしましょう。そして、どこにでも保存できます。

.exeをダウンロードした後、これを開くと、このインストーラーが起動します。「次へ」をクリックして、同意します。それから、これをすべてのユーザーに設定しましょう。デフォルトの宛先フォルダーで行きます。

それから、これもチェックします。完了時にパッケージキャッシュをクリアします。これにより、機能に影響を与えずに、より多くのディスクスペースを取り戻すことができます。

完了したら、「次へ」をクリックして、終了です。まだ完了していません。コマンドプロンプトを開いてconda–versionと入力しても、condaが認識されていないと表示されます。

これは、まだAnacondaをパスに追加していないためです。これを終了しましょう。パスに追加するには、この機能「システム環境変数の編集」を検索します。これをクリックして、環境変数をクリックして、pathと書かれているものをクリックして、編集をクリックします。

ここでAnacondaのパスを追加します。Anacondaをどこにインストールしたかによって異なります。私の場合、プログラムデータにインストールしました。プログラムデータ/minicondaになります。

スクリプトをダブルクリックすると、conda.exeがここにあることがわかります。これが貼り付けたいフォルダーです。これを右クリックして、パスとしてコピーします。

環境変数ウィンドウに戻り、「新規」をクリックして、ここにパスを貼り付けます。「OK」をクリックします。「OK」をクリックします。そして再び「OK」をクリックします。

コマンドプロンプトを再度開いて、conda–versionと入力すると、コンピューターにインストールされているcondaのバージョンが表示されるはずです。これで、condaが正常にインストールされたことがわかります。

仮想環境の作成と起動

インストールチュートリアルに戻ります。condaがインストールされていると仮定して、次のステップは、このワントGBフォルダー内のコマンドプロンプトにこの行をコピーして貼り付けることです。

これを貼り付けてEnterを押します。これは、condaを使用して、wantogpという名前の新しい仮想環境を作成し、Python 3.11を使用します。

仮想環境を作成する目的は、WantGPに必要なすべてのパッケージと依存関係を収容する、コンピューター上の別のハードドライブのようなものと考えてください。これにより、WantGPがスムーズに実行され、異なるバージョンの異なるパッケージを必要とする可能性のあるコンピューター上の他の既存のAIツールに影響を与えないことが保証されます。

このメッセージが表示されたら、Yを押して続行します。その後、エラーメッセージなしでこの行が再び表示されるはずです。これは、仮想環境が正常に作成されたことを意味します。

次のステップは、condaを使用して、最初に仮想環境を実際にアクティブ化または入る必要があることです。このようにターミナルにこの行をコピーして貼り付ける必要があります。

その後、行の先頭に括弧内に仮想環境の名前、この場合はwantogpが表示されるはずです。これは、仮想環境内にいることを示しています。

次のステップは、pipを使用してこれらすべてのパッケージと依存関係をインストールする必要があることです。この最初の行をコピーして、ここに貼り付けましょう。

これは最初に、数ギガバイトのサイズであるtorch、torchvision、およびtorchaudioをインストールします。インターネットの速度によっては時間がかかります。

その後、エラーメッセージなしでこの行が再び表示されるはずです。次に、pipを使用してWantGPの残りの要件をインストールするために、この最後の行をコピーするだけです。

コマンドプロンプトに戻り、これを貼り付けます。ご覧のように、これはいくつかの追加パッケージのインストールに進みます。ダウンロードには時間がかかります。

これらすべてのパッケージをインストールした後、エラーメッセージなしでこの行が再び表示されるはずです。これで、ワントGPのインストール方法のまとめです。数行のコードをコピーして貼り付けるだけなので、それほど悪くありません。

WGPの起動方法

次に、このターミナルを終了して、翌日にこれをゼロから起動する方法をお見せしましょう。まず、WGPフォルダーをダウンロードした場所にダブルクリックする必要があります。上部にcmdと入力して、コマンドプロンプトでこれを開きます。

次に、condaを使用して、最初に仮想環境をアクティブ化または入る必要があります。conda activateと入力してから、仮想環境に付けた名前、この場合はwantogpを入力しましょう。

行の先頭に括弧内に環境名が表示されるはずです。これは、仮想環境内にいることを示しています。

次のステップは、この行をコピーして貼り付けるだけです。これは、Pythonを使用してこのwgp.pyファイルを実行し、インターフェイスを起動します。ここに貼り付けてEnterを押します。

指を交差させて、これがブラウザでインターフェイスを起動することを願っています。初めてこれを実行するときは、このffmpeg.zipファイルをインストールする必要があるため、さらに数分かかる場合があります。

その後、この行が表示されるはずです。Controlキーを押しながら、このリンクをクリックして、Webブラウザでこのインターフェイスを開くだけです。

WGPインターフェイスの使い方

これがワントGPインターフェイスです。ここで、使用したい動画ジェネレーターを選択できます。LTX 2.3は実際にはLTX2の中に隠されています。まずLTX2を選択しましょう。

それから、ここで2.3を選択できます。ここでdevとdistilledを選択できます。devモデルは実行に少し時間がかかりますが、品質が優れています。distilledの場合、必要なステップが少ないため、少し高速に実行されますが、品質が犠牲になります。

デモンストレーションのために、distilledバージョンを使用しましょう。動画の生成を開始する前に、まず構成に移動し、パフォーマンスをクリックします。ここで、動画のデフォルトメモリプロファイルについて、動画を生成しているので、ハードウェアに適した適切なプロファイルを必ず選択してください。

たとえば、ここに64GBのRAMがあるがVRAMが低い場合、プロファイル2が適しています。または逆に、RAMは低いがVRAMが高い場合は、プロファイル3を選択できます。パフォーマンスがより最適化されるように、自分に適したプロファイルを選択してください。

テキストプロンプトでの動画生成

それから、ここでテキストプロンプトを入力するか、画像の開始フレームとして参照画像を入力することができます。さらに、これをチェックして、終了フレームとして画像を追加することもできます。これについては後ほどお見せします。

また、既存の動画を続けるには、動画を続けるをクリックできます。まず、このテキストプロンプトのみを最初に選択しましょう。それから、今のところこの動画プロセスの制御は無視しましょう。デフォルトのプロンプトを使用しましょう。

それから、解像度を選択できます。これは1080pまで対応しています。それからアスペクト比です。この新しいLTX 2.3の素晴らしい点は、縦型の比率もできることです。

その後、基本的にそれだけです。ここが1秒あたり24フレームで割ったフレーム数です。今は241で、約10秒です。これを100のようなものに設定しましょう。これは約4.4秒です。

つまり、これがテキストから動画への使い方です。それでは生成を押しましょう。

初めて生成を押すと、最初にLTX2モデルをロードする必要があります。上で選択したものによって異なります。ターミナルを開くと、これを実行するために必要なすべてのモデルをダウンロードしていることがわかります。これも数分かかります。

ご覧のように、実際にダウンロードする必要があるものがたくさんあります。まず、ほぼ20GBのサイズの動画ジェネレーターモデルをダウンロードする必要があります。さらに、ほぼ1GBのサイズのこのアップスケーラー、1.5GBのサイズのこのVAE、2GB以上のサイズのこのテキスト埋め込みsafetensorsファイルもダウンロードする必要があります。

今、4GBのサイズのこれをダウンロードしています。すべてをインストールするために、ハードドライブに十分なスペースがあることを確認してください。

その後、13GBのサイズの別のモデルのダウンロードに進みました。しかし、その後、私のために動画を生成し始めました。

Comfy UIではなく、ワントGPを使用することを強くお勧めします。ワントGPは、低VRAMまたはRAMでも物事をはるかに効率的にすることに本当に優れているからです。

ここでモデルがRAMを予約するために部分的にピン留めされ、12GBに広がる59ブロックに分離されたように見えます。特に私のように貧しくて、これを実行するための十分なハイエンドハードウェアがない場合、ワントGPが最良のオプションです。

とにかく、今動画を生成していることがわかります。LTX 2.3の仕組みは、最初に指定した解像度の半分で動画を生成します。これによりはるかに高速になります。その最初のパスの後、2倍のアップスケーラーを介してその動画をプラグインする第2ラウンドを通過し、結果の動画が指定した解像度と一致するようにします。

こちらが結果の動画です。この期間は正しくありません。使用するモデルのダウンロードに多くの時間を費やしたためです。しかし、ターミナルを見ると、最初のパスは約1分12秒かかり、2番目のパスは1分弱かかりました。つまり、この動画を生成するのに約2分です。

16GBのVRAMを搭載したRTX 5000を持っていることに注意してください。

第1フレーム指定での生成

これでできることはもっとあります。このオプションをクリックして、第1フレームとして使用する画像をアップロードすることもできます。たとえば、この画像をここにドラッグアンドドロップできます。

そして繰り返しになりますが、今のところこの動画プロセスの制御は無視しましょう。すぐに詳しく説明します。

ここで、この画像が生成にどれだけ強く影響を与えるかを制御できます。もちろん、デフォルトは1です。この画像全体を開始フレームとして使用したいからです。

そして繰り返しになりますが、今のところこの動画プロセスの制御は無視します。すぐに詳しく説明します。それから、このシーンを説明するためにプロンプトを追加しましょう。それから、生成を押しましょう。

ダッシュボードから見ることができるように、この生成には4分12秒かかりました。これを再生しましょう。悪くありません。

第1フレームと最終フレームの両方を指定

第1フレームとして画像を使用するだけでなく、これをクリックして終了フレームとして画像を追加することもできます。仕組みは次のとおりです。

まず、開始フレーム用の画像をアップロードしましょう。これを使用します。それから、ここで終了フレームとして使用する画像を選択できます。これをアップロードします。基本的にこのシーンですが、ズームアウトされています。

それから、これをより正確に説明するためにプロンプトを入力しましょう。オーケストラと共に情熱的に歌うオペラ歌手、ステージ全体を見るために徐々にズームアウト。

それから、残りの設定は同じままにして、生成をクリックします。これは4分かかりました。これを再生しましょう。

これが得られたものです。開始フレームと終了フレームはあまり得意ではありません。フレームが互いに大きく異なりすぎる場合、段階的な移行ではなく、他のシーンにフェードするだけになります。

とにかく、これが開始フレームと終了フレームを使った動画です。

コントロール動画機能

次に、テキストプロンプトの例に戻りましょう。それから、ここでこの動画プロセスの制御について話します。これは基本的にControlNetのようなものです。参照動画をアップロードして、その参照動画のポーズを新しい動画に転送することを選択できます。または、深度を転送することもできます。または、参照動画のエッジを新しい動画に転送することもできます。

簡単な例をやってみましょう。人間の動きを転送することを選択します。そして、この二人の男が戦っている動画をアップロードしましょう。まず動画を再生します。

このように見えます。それから、ここで、この動画のポーズが最終生成をどれだけ制御するかを選択できます。はい、1のままにしておきましょう。

森の中で戦う二人のプリンセス、激しい戦い、ハイアクションのようなものを書きましょう。これは5秒なので、フレーム数も増やしましょう。約5秒です。基本的にそれだけです。生成を押しましょう。

こちらが得られたものです。この生成には本当に目立つ欠陥がいくつか見られます。特に顔や手足の歪みです。正直なところ、この動画制御機能は、ワン2.2に使用されるワンアニメートやスケールのような他のツールほど良くありません。

しかし、これは、参照動画で動画の動きや構成を制御するためにこれらの機能の1つを使用する方法の簡単な例です。

まとめ

これで、参照動画で生成のポーズや構成を制御するためにこれらの動画制御機能を使用する方法がまとめられました。そして、これでLTX 2.3のレビューとインストールチュートリアルがまとめられました。

コメント欄でこれについてどう思うか教えてください。他にどんなクールで印象的なものを生成できましたか?インストールでエラーが発生した場合は、コメント欄に表示される正確なエラーメッセージをコピーして貼り付けてください。できる限りトラブルシューティングをお手伝いします。

いつものように、あなたと共有するために、最高のAIニュースとツールを探し続けます。この動画を楽しんでいただけたら、いいね、共有、チャンネル登録を忘れずに、より多くのコンテンツにご期待ください。

また、毎週AI界で起こっていることが非常に多く、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっているすべてのことを本当に最新の状態に保つために、私の無料の週刊ニュースレターを必ず購読してください。そのリンクは下の説明欄にあります。

ご視聴ありがとうございました。次回お会いしましょう。