
18,142 文字

AIは眠ることがなく、今週は本当に目まぐるしい一週間でした。オープンソースのビデオジェネレーターが一つではなく二つも登場し、さらに新しい3Dモデルジェネレーターも登場しました。これまで見た中で最高のものです。この新しいAIでは、ビデオ内のカメラとキャラクターの動きの両方をコントロールできます。さらに、超リアルな新しいテキスト読み上げジェネレーターも登場しました。「ねえ、なぜ今咳をしたの?なぜ今すすったの?なぜ今喉をクリアしたの?なぜ今笑ったの?よくできました」。加えて、もう一つの人型ロボットの発表など、さらに多くのニュースがあります。
早速見ていきましょう。まず最初に紹介するのは非常に強力なAIで、Live CCと呼ばれています。このAIはビデオを見て、スポーツアナウンサーのようなリアルタイムの解説を生成できます。いくつか例を見てみましょう。
「ヒューストン市内のトヨタセンターへようこそ。NBAプレーオフが始まりました。西カンファレンス1回戦の第1戦は、第2シードのヒューストン・ロケッツと第7シードのゴールデンステート・ウォリアーズの対戦です。両チームのスターティングラインナップをご覧ください。カリー、パジスキー、ムーディ、バトラー、グリーン、バンフリート、グリーン、ブルックス、トンプソン、セングン。トンプソンがシュート、入りました。ロケッツが2点リードです」
「皆さん、今日は水没したラップトップの修理方法をお見せします。誤って液体をこぼしたり、水たまりに落としてしまったラップトップがある場合、これが必要な手順です。まず、ペーパータオルを用意する必要があります」
音声は超自然でダイナミックというわけではありませんが、これは非常に正確でリアルタイムです。これにより表現力豊かでダイナミックな音声モデルを組み合わせれば、スポーツアナウンサーや解説者、または関連する仕事を完全に置き換えることができるようになるでしょう。
このモデルのトレーニング方法もかなり直感的です。スポーツゲームと解説などの関連ビデオを大量に学習させましたが、さらにビデオの文字起こしも学習させました。これらすべてのデータを使ってAIをトレーニングし、大量のトレーニングの後、AIはビデオを見て、リアルタイムの音声解説付きの文字起こしを生成できるようになりました。
良いことに、モデルをはじめ、トレーニングデータとトレーニングコードを含むすべてを公開しています。モデルはすべてHuggingFaceにあり、このGitHubリポジトリをクリックすると、ダウンロードしてコンピュータで使用する方法についてのすべての手順が含まれています。リンクはすべてここにあるので、詳しく読むにはメインページへのリンクを説明欄に記載しておきます。
次に紹介するAIも非常に便利です。このペーパーはかなり長いタイトルですが、彼らはこれをリフレクションフローと呼んでいるようです。これは基本的に、AIの画像生成の品質と精度を向上させる新しい方法です。テキストプロンプトに合わせて推論し、画像を何度も何度も洗練していくことでこれを実現します。
いくつか例を見てみましょう。「大きな立方体の救急車が小さな丸い枕の近くに立っていた」というプロンプトを入力した場合、最初に得られる画像では救急車は実際には大きくなく、枕も実際には丸くありません。そこでAIを通じてさらに多くの画像を生成し、各ステップでAIは画像を検査し、プロンプトを見て、改善や修正が必要なものがあるかどうかを確認します。複数回の反省を経て、最終的にプロンプトに合った画像に落ち着きます。救急車は確かに大きくなり、枕は丸くなっています。
または、「滑らかな仕上げのオルガンがマットな仕上げのコーヒーマシンの隣にあった」という初期プロンプトの別の例です。これが初期画像ですが、見てのとおりオルガンだけで、コーヒーマシンがありません。複数回の反省を経て、コーヒーマシンを追加することを知りながらも、二つを混ぜ合わせないようにします。そして最終結果では、確かにオルガンとその隣にコーヒーマシンがあります。
または、「丸いレザーのフットボールが大きな金属製の除雪車の近くを転がった」というプロンプトの別の例です。これが初期画像ですが、除雪車が完全に欠けていますし、さらにフットボールが完全に丸いとも言えません。複数回の反省を経て、除雪車を追加し、フットボールを丸くします。
このツールは、プロンプトが非常に複雑な場合や、既存の画像モデルでは生成が難しいオブジェクトを含む場合に特に便利です。
ちなみに、このリフレクションフローはFlux1Devのプラグインで、Fluxは最高のオープンソース画像ジェネレーターの一つです。それでは簡単にその仕組みを説明しましょう。
まずプロンプトはこのスケーリングノイズコンポーネントに供給され、Fluxがプロンプトに基づいて複数の画像を生成します。これらの画像はすべて並行して、つまり同時に生成されます。その後、モデルはプロンプトに基づいて最良の画像を選びます。複数の画像を生成し、最良のものを選ぶことで、より良く、より正確な画像を得る可能性がすでに向上しています。
そして通過できる二つのコンポーネントがあります。最初のものはスケーリングリフレクションと呼ばれるもので、これは画像を取り、テキストプロンプトに基づいて画像を反復的に洗練します。オブジェクトが欠けていたり、オブジェクトの形や色や外観が間違っていたりする場合、プロンプトに実際に合う写真に到達するまで画像を洗練し続けます。
画像の洗練に加えて、モデルは別のLLMを使用してプロンプトを強化し、画像生成のためのより良いガイダンスを提供することもできます。このスケーリングプロンプトコンポーネントでは、プロンプトが画像と比較され、画像が検証者によって拒否された場合(つまり、画像がプロンプトに合っていない場合)、この外部LLMはプロンプトをさらに洗練し、画像を正しく生成する方法についてFluxにより多くのガイダンスを提供します。そして最終的にプロンプトに合った画像が得られるまで、これを繰り返し行います。
理論的には、これによりFluxに一度に画像を生成させる場合と比較して、はるかに優れた正確な生成が可能になるはずです。もちろん、これらの追加ステップにより、一つの画像を生成するためにより多くの計算とより多くの時間が必要になります。
良いニュースは、彼らがすでにすべてを公開していることです。ここにGitHubリポジトリへのリンクがあり、ダウンロードしてローカルのコンピュータで使用する方法についてのすべての手順が含まれています。リンクはすべてここにあるので、試してみたい場合は、詳細を読むためのこのメインページへのリンクを説明欄に記載しておきます。
他のニュースとして、これは非常に興奮するものです。テンセントがHunyan 3D 2.5をリリースしました。これは私がこれまで見た中で間違いなく最高の3Dモデルジェネレーターです。アクセス方法を説明します。
現在のところ、彼らのオンラインプラットフォームを通じてのみアクセスでき、まだローカルにダウンロードするためのオープンソース化はされていませんが、以前のHunyan 3Dの世代をオープンソース化していることから、すぐにリリースされると思われます。今すぐ試してみたい場合は、説明欄にリンクを記載するテンセントのHunan 3Dプラットフォームにアクセスする必要があります。
ここで無料アカウントに登録できます。WeChatやQQを持っていなくても、メールで登録できます。ここにメールを入力し、これをクリックして確認コードを受け取り、確認コードをここに入力し、ここで同意をクリックし、登録をクリックします。
入ったら、Google Chromeを使用している場合は、ページのどこかを右クリックし、「英語に翻訳」をクリックするだけです。ここは適切に翻訳されませんが、基本的にこのタブはテキストプロンプトを入力して、そこからモデルを生成する場所です。そしてここは画像または複数の画像をアップロードする場所です。
ここは正面図、背面図、左右の図をアップロードする場所で、これらの画像に基づいて3Dモデルを生成します。私の場合、一つの画像をアップロードしてみます。image 3で生成したこのアニメ少女を試してみましょう。彼女の衣装と外見がかなり複雑なため、特にドレスの詳細のために、あえてこの例を選びました。
もちろん、モデルにはこの最新のバージョン2.5を使用し、PBRマップも生成します。これが何をするのか、すぐに説明します。「生成」をクリックしましょう。
これが結果です。これは私が今まで使ったイメージから3Dモデルジェネレーターの中で、最も優れた詳細なものの一つだと言わざるを得ません。すべてがいかにリアルかを見てください。特にドレスは、そのすべての詳細を捉えることができました。そして彼女を後ろに回転させると、最初の画像からこれについての情報がないにもかかわらず、この少女の背中がどのように見えるかを推測することさえできました。これは非常に正確で強力な3Dモデルジェネレーターです。
こちらが3Dモデルの白いモールドです。必要に応じて彼女に異なるテクスチャを適用することを選択できます。そしてこれがアルビドで、基本的にモデルの色を定義します。そしてこれがノーマルで、基本的にはこのモデルの表面の向きです。そしてまた、すべてがいかに詳細であるかに注目してください。これは本当に印象的です。
これをテクスチャに戻しましょう。そして、ここにはさまざまな他の設定があり、3Dモデルの幾何学的スタイルを指定したり、現在見ている照明を変更したりできます。これをまず一時停止すると、光源と、スポットライトの色を調整できます。強度を上げると、左側から赤い光が来ているのが分かります。また、ここに見えるように光源を調整することもできます。非常に強力なツールです。
最後に、下部にはダウンロードするためのさまざまな形式が提供されています。他のユーザーからの生成例をいくつか紹介します。これが参照画像で、この3Dモデルがいかにリアルに見えるかに注目してください。これは信じられないほど詳細で、入力画像とまったく同じように見えます。非常に印象的です。
こちらは別の例で、これが入力画像で、これがそこから作られた3Dモデルです。再び非常に印象的で、テクスチャにいくつかの金属的な特性を適用することさえできたことに注目してください。これは驚異的です。これは間違いなく、私がこれまで出会った中で最高の画像から3Dモデルへのジェネレーターです。ぜひ試してみてください。
こちらはもう一つの例で、再び超リアルです。このキャラクターを非常に正確かつ一貫して生成できています。こちらはもう一つの例で、これが入力画像で、これが得られるものです。キャラクターの背面も予測できることが非常に印象的であり、さらにここのリボンがすべて適切に接続されています。すべてが本当に良く見えます。
先ほど言ったように、彼らはまだバージョン2.5をオープンソース化していないので、説明欄にリンクを記載するオンラインプラットフォームを通じてのみバージョン2.5を使用できます。
次に紹介するAIも非常に便利です。Uni3Cと呼ばれ、カメラの動きとビデオ内のキャラクターの動きの両方を制御しながらビデオを生成できます。
まず、カメラの動きだけを制御する例を見てみましょう。最初に一つの画像を入力するだけで、このAIがこの画像を3Dに変換し、ユーザーがこの3D空間内のカメラの軌道を指定します。そしてすべてを組み合わせた後、カメラの軌道に基づいてビデオを生成します。
こちらは、異なる入力画像を使用するが、カメラの軌道は同じである別の例です。これらすべてのビデオでは、ユーザーはカメラを360度回転させるように指定しており、ほとんどの場合、すべてが非常に一貫して見えます。
こちらは、入力画像は異なるが、同じカメラの動きを指定している別の例です。カメラは左上隅にズームアウトし、その後少し右に回転しています。これらのシーンがいかに映画的に見えるかに注目してください。
こちらは、同じ画像を使用しているが、今回はカメラが円形の動きでパンしている別の例です。
冒頭で述べたように、カメラだけでなく、ビデオ内でキャラクターがどのように動くかを正確に制御することもできます。必要なのは、誰かが動いている参照ビデオを入力することだけです。この場合、左上隅のダンスをしている女性のビデオが参照ビデオになり、彼女のポーズと動きをビデオ生成のキャラクターにマッピングします。これらすべてのキャラクターは、参照ビデオの女性とまったく同じように動き、踊っていることがわかります。
こちらは、異なるシーンですべてのキャラクターに同じ動きを適用している別の例です。もちろん、ビデオ内のカメラとキャラクターの両方を制御することもできます。例えば、上の列では、このキャラクターの同じダンスの動きがありますが、カメラの動きが異なります。中段も同様で、キャラクターの動きは同じで、彼女はこのハイキングコースを歩いていますが、カメラの動きが異なります。最初のビデオは右にパンしていますが、2番目のビデオは左に回転しています。そして最後の列も同様で、兵士は同じポーズをとっていますが、カメラアングルが異なるだけです。
こちらは別の例です。このツールがいかに強力で、ビデオ内でのカメラとキャラクターの動きを正確に制御できるかがわかります。参照ビデオの体のポーズを転送するだけでなく、手や指の動きも転送できます。
簡単にその仕組みを説明します。まず参照画像を入力して、ビデオのシーンを定義します。AIはこれを3Dポイントクラウドに変換します。これは基本的に写真から3D情報を抽出して、シーンが3Dでどのように見えるかを理解します。そして、ユーザーはこの3D空間内のカメラの軌道を指定します。これは基本的に、ビデオのカメラをどのように動かしたいかということです。そして、この3D情報に基づいてカメラを動かす方法をビデオジェネレーターに伝えるPCDコントローラーを通じて、すべてのデータを接続します。
そして、キャラクターのアニメーションと動きも制御したい場合は、誰かが動いたり踊ったりしている参照ビデオを入力すると、それを動く3D人間モデルに変換します。そして、これらのデータはすべてこのrealis danceモデルに入力され、参照の動きをこの新しいキャラクターにマッピングします。そして、これらのモジュールの両方が組み合わされます。このモジュールはカメラ制御用で、このモジュールは人の動き用です。これらは一つの共有3D世界に組み合わされてビデオを生成し、すべてがスムーズに合わさるようにします。
ちなみに、基本ビデオジェネレーターとしてAlibabaのoneを使用しています。これは現在利用可能な最高のオープンソースビデオモデルです。
とにかく、ページの一番上までスクロールすると、「コードとモデルは近日公開予定」と書かれています。オープンソース化する予定のようで、素晴らしいことです。今のところ、詳細を読むためのこのメインページへのリンクを説明欄に記載しておきます。
人型ロボットのニュースとして、上海オートショー2025イベントで新しいロボットの発表がありました。ここでXpang MotorsのIronロボットが見られます。これは自動車イベントであり、Xpang Motorsは主に電気自動車メーカーですが、さらに彼らはこの人型ロボットも構築しています。これは非常に興味深いです。これはテスラが車に加えてOptimusも構築しているようなものです。
Xpang Ironの身長は178cmで、人間のように超自然に歩くように設計されています。これはXpangの独自のTuring AIチップによって駆動されており、このプロセッサはAIの計算を処理するために特別に設計されています。
このIronロボットはすでにXpangの生産ラインでテストされています。このロボットは電気自動車の組み立てや部品の仕分けなど、他の操作を自律的に支援しています。来年からこのIronロボットの量産を計画していると報告されており、ロボット1台あたり約15万ドルと推定されています。これは倉庫や工場での自律的な操作を行うことを目的としています。
このビデオの提供はVideo Hunt AIによるスポンサーです。長いビデオをスクラブして最高の瞬間を見つけるために何時間も無駄にすることに疲れていませんか?Video Hunt AIはこれを瞬時に解決します。より多くのリーチを得たいコンテンツクリエイター、マーケター、またはブランドであろうと、Video Hunt AIは単純なテキストプロンプトを使用して、あらゆるビデオから最も魅力的な瞬間を見つけるのに役立ちます。探している瞬間を説明するだけで、AIはあらゆるビデオからそれを瞬時に特定します。手動検索も時間の無駄もありません。
さらに、ワンクリックで簡単に字幕を埋め込むこともできます。Video Hunt AIはバイラリティ向けに最適化された短いクリップを生成します。何時間もの長いビデオでも超高速で機能し、ポッドキャスト、ゲームストリーム、チュートリアル、映画など、あらゆるコンテンツタイプでシームレスに動作します。
Video Hunt AIには多数の簡単な編集機能もあります。アニメーション字幕を追加したり、アスペクト比を調整して任意のプラットフォームに合わせることができます。TikTok、YouTube Shorts、Instagramなど、どのプラットフォーム向けにコンテンツを再利用する場合でも、このツールはすべてを瞬時に行うのに役立ちます。
すでに大多数のクリエイターがVideo Hunt AIを使用してチャンネルを成長させています。説明欄のリンクから無料でお試しください。そして、アップグレードの準備ができたら、限定時間のみ、初月90%オフでご利用いただけます。
他のニュースとして、今週はさらにもう一つのオープンソースビデオジェネレーターが登場しました。これはMaggieと呼ばれ、Sand AIによるものです。まずはいくつかのデモを見てみましょう。
彼らは、これがプロンプト理解と指示に従うことに優れていると主張しており、さらに現実的で非常に自然な動きを生成できます。このシーンが非常に映画的であることがわかります。これは以前のビデオジェネレーターでは頻繁に見られなかったカメラ効果で、最初にキャラクターの顔にフォーカスしてから、フォーカスが背景に変わります。
こちらは都市でウインクする巨大な眼球です。ちなみに、これは解像度1440pまでのビデオを生成でき、これは本当に印象的です。
そして、こちらはバイオリンを弾く女性の超リアルで映画的な例です。彼女はバイオリンを非常に正確に持ち、さらに左手でビブラートも行っています。これは超リアルに見えます。見つけられる唯一の欠点は、弓がバイオリンに触れる部分が本当に正確ではないことです。
Maggieについて本当に興味深いのは、これが自己回帰モデルであることです。これは、Stable DiffusionやFlux、HunenやJuanを含む、これまで見てきた他のほとんどの画像やビデオジェネレーターで見られる標準的な拡散モデルとは非常に異なります。これは完全に異なるアーキテクチャです。最も簡単に言えば、自己回帰とは、モデルがビデオ全体を一度に生成するのではなく、前のチャンクに基づいて次のビデオチャンクを予測することを意味します。
ちなみに、これはOpenAIの伝説的なGPT40画像ジェネレーターが使用するアーキテクチャでもあります。それも自己回帰モデルで、画像全体を一度に生成するのではなく、上から下へと画像を生成します。
ビデオ生成にはこのアーキテクチャが最適かどうかはまだわかりませんが、画像やビデオ生成のための自己回帰モデルの探索に変化が見られるようです。
とにかく素晴らしいことに、モデルはすでに公開されており、これはApache 2ライセンスの下にあり、制限が非常に少ないため、商業目的にも使用できます。
彼らはパラメータサイズと、実行に使用できるハードウェアに基づいていくつかの異なるモデルをリリースしています。240億パラメータのモデルがあり、これは最大のモデルですが、実行するには8つのH100またはH800が必要で、ほとんどの方がお持ちでないと思います。そして、ここにはもう一つの240億パラメータモデルがあり、今回はdistilledされ、さらに量子化されていますが、それでも実行するには8つのRTX 4090が必要で、これはまだ馬鹿げています。
そして、消費者グレードのハードウェアで実際に実行できる最後のモデルは、この45億パラメータのMaggie 1ですが、このモデルはまだリリースされていません。これが実質的にローカルで使用できる唯一のモデルです。彼らによれば、これは1つのRTX 4090だけで使用できるということです。
もしそのような驚異的なハードウェアをお持ちであれば、ダウンロードして実行するためのすべての指示がここにあります。しかし、そうでない場合でも、オンラインプラットフォームでこれを試すことができます。sand.aiというだけで、このページへのリンクを説明欄に記載しておきますが、単に「今すぐ試す」をクリックして無料アカウントにサインアップし、入ったらMaggie 1のテストを開始できます。
すでに二つのビデオ生成を作成しました。現在のところ、これは画像からビデオへの変換のみで、テキストからビデオへの変換ではないことに注意してください。夜に7-Elevenにいる女の子の写真をアップロードし、プロンプトには「女の子の顔に素早くズームアップし、非常に怖がって驚いた表情を見せる。彼女はその後振り返って走り出し、背景に向かって逃げようとする。カメラは彼女が夜に通りを走り下りるのに従う。ハイアクション、手振れ、映画的」と入力しました。
これが生成されたものです。まず、実際には女の子の顔にズームアップせず、彼女の怖がって驚いた表情も本当に見せていません。多くのノイズとワープが発生しています。彼女は本当に振り返って走り出すわけではなく、ある意味で前進して走るだけですが、それでも彼女はかなり速く走り始め、これはかなり映画的なシーンです。しかし、カメラが動くにつれて、また女の子が走り始めるにつれて、多くのワープが発生しています。
これを全く同じプロンプトを使用したCling 2.0.0と比較すると、Clingの方がはるかにうまく扱っていることがわかります。プロンプトに正確に従い、まず女の子の顔にズームアップして非常に怖がって驚いた表情を見せ、その後彼女は振り返って走り去ります。このビデオにはワープや不一致は全くありません。ちなみに、現在最高のビデオジェネレーターであるCling 2.0についてもっと知りたい場合は、ぜひこのビデオをチェックしてください。
とにかく、Maggieに戻りますが、ハイアクションシーンに関してはCling 2.0ほど良くないことがわかります。
次のテストでは、二人の猫娘の画像をアップロードして、プラスをここに追加し、「女の子たちが踊っている」というプロンプトを入力します。時間は5秒に設定し、「プロンプトの強化」と「高品質」をオンにします。「生成」をクリックして、何が出てくるか見てみましょう。
これが結果です。「プロンプトの強化」をクリックすると、プロンプトにさらに多くの詳細が追加されることに注目してください。そして彼女たちは踊っているような感じですが、特に腕や手、髪、顔に多くのワープが発生しています。顔は時間とともに変化し、5秒後には同じ人物のようには見えません。そして彼女たちは本当に踊っているようには見えず、ただ腕を空中に振っているだけです。
あまり印象的な生成ではなく、同じ画像とプロンプトを使用して、基本ビデオジェネレーターとしてHuny Yenを使用する完全に無料のツール「Frame Pack」と比較すると、少なくとも私にとってはそちらの方がはるかに良く見えます。そこでの生成では、女の子たちは確かに踊っているように見え、すべてが一貫しています。彼女たちの顔は時間とともに変化しません。ちなみに、このツールは完全に無料で、一部のユーザーによれば4GBのVRAMだけでも実行できます。フレームパックについてもっと知りたい場合は、ぜひこのビデオをチェックしてください。
とにかく、Maggieに戻りますが、これはJuanやHunyen、Cling 2.0などすでに持っているものと比較して特に印象的ではありませんが、完全にオープンソースであり、Apache 2ライセンスの下にあるため、言及する価値はあります。最小のモデル、つまり誰でも本当にローカルで使用できる唯一のモデルについては、4月末までにリリースする予定だと述べています。そのタイミングをお待ちください。
今のところ、モデルへのリンクとオンラインプラットフォームへのリンクはすべてここにあります。詳細を読むためのこのメインページへのリンクを説明欄に記載しておきます。
ちなみに、Maggieは今週登場した唯一のビデオジェネレーターではありません。Skyreels V2と呼ばれる別のものもあり、これも無料でオープンソースです。数週間前に前のビデオで取り上げたSkyre バージョン1はすでにありましたが、その一貫性はかなり平凡でした。しかし、このバージョン2の新バージョンは、一貫性とプロンプトへの追従に関して大きな改善があります。
彼らのデモをいくつか紹介します。これは非常に長いビデオを生成できることに注目してください。この白鳥のビデオは約28秒あります。水のさざ波や白鳥の動きを含め、すべてがいかに現実的に見えるかに注目してください。
こちらは別の例で、今回は水中のウミガメで、このビデオの長さは30秒です。これはClingやHigh、V2などのクローズドソースモデルで生成できるものよりもはるかに長いビデオです。そして大部分において、すべてがとても正確に見えます。
そして、こちらは想像上のクラゲの例です。特にイソギンチャクやサンゴ礁の詳細に注目してください。これは非常に詳細でリアルです。
後で説明する拡散強制バージョンでは、無限の長さのビデオを生成できるとのことです。つまり理論上は、ハードウェアが対応できる限り非常に長いビデオを作成できます。
彼らはバージョン2の複数の異なるバリアントをリリースしています。すべてを一つのモデルにまとめてほしいところですが、無限の長さのビデオを生成できるこの拡散強制モデルと、13億パラメータバージョンと140億パラメータバージョンがあり、540pまたは720pのビデオを生成できます。それぞれに別々のモデルがあることに注意してください。
また、13億パラメータモデルでも、約15GBのVRAMが必要と記載されており、140億パラメータモデルを使用する場合は51GBのVRAMが必要で、ほとんどの方がお持ちでないと思います。基本的に唯一アクセスできるバージョンは、この13億パラメータモデルです。
この拡散強制バージョンに加えて、テキストからビデオへのモデルとイメージからビデオへのモデルもリリースしており、ここでも異なるパラメータサイズから選択できます。
15ギガバイトのVRAMがなくても、オンラインでこれを試すことができます。無料アカウントにサインアップすると、サインアップ時に25クレジットを獲得できると思いますが、これは1つのビデオにしか使えません。ここでビデオを生成でき、ここでは開始フレームまたは終了フレームとして画像をアップロードするか、ビデオを説明するプロンプトを入力できます。
「ショッピングモールで混乱を引き起こすゾンビの群れ、手振れカメラ」と入力してみましょう。「作成」をクリックして、何が出てくるか見てみましょう。
これが生成されたものです。品質はあまり良くなく、彼らは本当にゾンビには見えません。彼らの頭で何が起こっているのかわかりません。これは以前にテストしたJuanや他のビデオモデルと同様に良いとは思えません。少なくとも私にとって、Juanはまだオープンソースビデオの王者です。
それでも、Skyreバージョン2を試してみたい場合は、すでにすべてのモデルがリリースされています。これは完全に無料でオープンソースです。すべてのリンクはここにあり、このGitHubリポジトリにはダウンロードしてローカルのコンピュータで実行する方法についてのすべての指示が含まれています。興味がある場合は、詳細を読むためのこのメインページへのリンクを説明欄に記載しておきます。
次に、新しい超リアルなテキスト読み上げジェネレーターがあります。DIA 1.6Bと呼ばれ、16億パラメータを意味します。これはNari Labsによるものです。文字起こしを入力するだけで、二人の話者のものでも話すことができます。また、声の参照クリップをアップロードすることもでき、その声をクローンします。これは後で説明します。
まずは彼らのデモをいくつか紹介します。これは二人の話者の文字起こしです。Diaの音声を聞いてみましょう。
「Diaはオープンウェイトのテキストから対話モデルです。スクリプトと声を完全に制御できます」「わあ、すごい」「今すぐGitHubまたはHugging Faceで試してみてください」
非常にリアルで、笑いも表現できています。対照的に、同じ文字起こしで11 Labsの音声を聞いてみましょう。
「Dierはオープンウェイトのテキストから対話モデルです。スクリプトと声を完全に制御できます」「わあ、すごい」「あー、今すぐGitHubまたはHugging Faceで試してみてください」「あー」
それはかなりひどい笑いでしたね、さらに11 Labsはもっとロボット的に聞こえます。次にSesameの音声を聞いてみましょう。
「Diaは、えーと、オープンウェイトのテキストから対話モデルです。スクリプトと声を完全に制御できます」「わあ、すごい」「ハハ」「今すぐGitHubまたはHugging Faceで試してみてください」「ハハ」
再び、笑いはかなりひどいですね。Sesameは笑いができることを知っているので、ここでは例を選り好みしているように見えますが、次の例にスクロールしてみましょう。
これが次の文字起こしです。Diaの音声を聞いてみましょう。
「やあ、調子はどう?」「まあまあかな、まあまあ」「やあ、あなたは?」「最高だよ、あなたと話せて本当に嬉しいよ」「私もだよ」「これはすごいことだね」「うん、私は音声生成についてもっと読んでいて、コンテキストが重要だということがわかったよ」「間違いなく」
再び、非常にリアルで自然です。同じ文字起こしを11 Labsで聞いてみましょう。
「やあ、調子はどう?」「まあまあかな、まあまあ」「あなたは?」「最高だよ、あなたと話せて本当に嬉しいよ」「私もだよ」「これはすごいことだね」「うん、私は音声生成についてもっと読んでいて、コンテキストが重要だということがわかったよ」「間違いなく」
11 Labsは聞こえる通り、もっとロボット的です。次にSesameの音声を聞いてみましょう。
「やあ、調子はどう?」「まあまあかな、まあまあ」「あなたは?」「最高だよ、あなたと話せて本当に嬉しいよ」「私もだよ」「これはすごいことだね」「うん、私は音声生成についてもっと読んでいて、コンテキストが重要だということがわかったよ」「間違いなく」
Sesameも実際にはかなり良い音声です。コメント欄でどちらが好きか教えてください。
こちらは咳やすすり、喉のクリア、そして笑いなどを入力した楽しい例です。Diaがこれをどう扱うか見てみましょう。
「やあ、なぜ今咳をしたの?なぜ今すすったの?なぜ今喉をクリアしたの?なぜ今笑ったの?よくできました」
それを見事に処理していますね。これがAIだとわかるのは本当に難しいです。ラップの例を聞いてみましょう。Diaの音声はこのようになります。
「彼の手のひらは汗ばんでいる、膝が弱く、腕が重い。彼のセーターには既に吐瀉物がある、ママのスパゲッティ。彼は緊張しているが、表面では落ち着いて準備ができているように見える、爆弾を落とす準備ができているが、彼は書いたことを忘れ続けている。群衆全体が大きな声を出し、彼は口を開くが、言葉は出てこない。彼は窒息しているように、みんなが冗談を言っている」
そうですね、これはもう少しロボット的に聞こえます。先ほど述べたように、クローンするために誰かの声のオーディオクリップを入力することもできます。これが文字起こしで、これがオーディオプロンプトです。これがクローンしたい声です。まず元の声を聞いてみましょう。
「オープンウェイトのテキストから対話モデルです。スクリプトと声を完全に制御できます」
次に、このAIにこの二つの声に基づいてこの文字起こしを続けさせます。その音声を聞いてみましょう。
「私は偏っていますが、明らかに私たちが勝ったと思います」「反論するのは難しいですね」「このデモを聞いてくれてありがとう。今すぐGitHubとHugging Faceで試してみてください。私たちのモデルが気に入ったら、スターを付けて友達にシェアしてください。これはNari Labsでした」
素晴らしいですね。わずか3秒ほどのオーディオからこの二つの声をクローンできました。これは非常に印象的です。
これらは彼ら自身のデモで、選り好みされている可能性がありますので、自分で試してみましょう。良いことに、オンラインでこれを試すための無料のHugging Faceがリリースされています。使い方は非常に簡単です。ここに文字起こしを入力でき、必要に応じて二つの別々の声を入力できます。また、クローンしたい人の声のオーディオクリップをドロップすることもできます。
今のところ、これを空のままにして、デフォルトの声を使用します。「音声を生成」を押すと、生成には約20秒しかかからないようです。デフォルトの声でどのように聞こえるか聞いてみましょう。
「Dierはオープンウェイトのテキストから対話モデルです。スクリプトと声を完全に制御できます」「わあ、すごい」「今すぐGitHubまたはHugging Faceで試してみてください」
彼ら自身のデモほど印象的ではありませんが、別のものを試してみましょう。自分の音声クリップをアップロードします。まず、これを再生します。
「どのニュースがあなたのお気に入りで、どのツールを最も試してみたいですか?」
これが私のオリジナルの入力音声です。文字起こしにはこれを入力します。「音声を生成」をクリックして、何が出てくるか見てみましょう。これを再生してみましょう。
「私のチャンネルに良い」
うわ、それは絶対にひどく聞こえます。完全なテキストを読み上げていません。この咳を削除して、もう少し良くなるか試してみましょう。これを再生してみましょう。
「これはDiaがどれほど良いかをテストするためのものです。また、私のチャンネルをチャンネル登録することを忘れないでください」
うわ、それは全く私のように聞こえません。さらに、文字起こしを正確に読み上げていません。私の声の代わりに、この老婦人を試してみましょう。まず元の声を再生します。
そして文字起こしにはこれを試してみましょう。「生成」をクリックして、何が出てくるか見てみましょう。
「私たちは何をするの?煙が通気口から入ってくるかもしれない」「ああ神様、起こっている、みんな落ち着いて」「いいえ、いいえ、ハンドルに触れれば、熱いなら廊下に火事があるかもしれない」
悪くはありませんが、彼女の声とは正確には聞こえません。別の例を試してみましょう。今回はもっと可愛らしい女性の声を試してみましょう。こちらが元の声です。
「最近あなたはとても一生懸命働いています。リラックスするための肩のマッサージをしましょうか?」
そしてプロンプトには、もう少し良くなるかどうか見るために、このオーディオプロンプトで彼女が言っている内容を正確に入力してみましょう。これが結果です。
「ああ神様、起こっている、みんな落ち着いて」「いいえ、ハンドルに触れれば、熱いなら廊下に火事があるかもしれない」
再び、これにはあまり感心しません。これはまったく元の声とは似ていません。
私の初期テストからすると、デモほど良くはありません。とにかく、彼らはすでにすべてを公開しており、ここにダウンロードしてローカルのコンピュータで実行する方法についてのすべての指示が含まれたGitHubリポジトリがあります。今のところCUDA GPUが必要で、CPU対応は近日追加予定とのことです。VRAMの要件は約10GBです。良いことに、これはApache 2ライセンスの下にあり、制限が非常に少ないです。
これをさらにテストして、完全なビデオに値するかどうか確認しますが、初期テストの結果はあまり良くありません。セサミや、F5TSやZonosなど以前にテストした他のテキスト読み上げジェネレーターほど良くはありません。それでも、これを試してみたい場合は、説明欄にこのGitHubリポジトリへのリンクを記載しておきます。
次に、今週のAlibabaのJuanからの興味深いアップデートがあります。以前のビデオからご存知かもしれませんが、Juanは現在最高のオープンソースビデオジェネレーターです。十分に良いGPUがあれば、これをダウンロードしてローカルのコンピュータで実行できます。実際、すでにインストールチュートリアルを完成させましたので、興味がある方はこのビデオをご覧ください。しかし、十分に良いGPUをお持ちでない場合は、オンラインプラットフォームを通じて使用することもできます。
良いニュースは、今週彼らが「すべてのユーザーがリラックスモードを使用すれば、無制限の無料生成にアクセスできる」と発表したことです。これは後で説明しますが、リラックスモードを使用すると、完全に無料で無制限の生成が可能です。もちろん、リラックスモードを使用すると、少し長く待つ必要がありますが、完全に無料で無制限なので素晴らしいことです。
oneにアクセスして、このAIビデオタブをクリックするだけでいいです。ここにはいくつかのオプションがあり、テキストプロンプトを入力してそこからビデオを生成するか、ビデオの開始フレームまたは終了フレームとして使用する画像をアップロードすることができます。
私はテキストからビデオを試してみるだけで、「シェフになることを学ぶ子犬のグループ」というプロンプトを試してみましょう。プロンプトにさらに詳細を追加したい場合は、「プロンプトの強化」をクリックできますが、これはそのままにしておきます。こちらが異なるアスペクト比です。インスピレーションモードは、視覚を豊かにし、ビデオの表現力を向上させるようです。必要に応じて音響効果を追加することもできますが、これはオフのままにしておきます。
そして、ここでリラックスモードまたはクレジットモードを選択することに注意してください。リラックスモードを選択すると、これを無料で生成できます。「生成」をクリックしましょう。
これが結果です。シェフになることを学ぶ子犬のグループの超リアルなビデオです。彼らはエプロンを着て、キッチンにいますが、実際に料理をして食べ物を作るのではなく、食べ物を食べているだけのようです。
これが基本的な使い方で、非常に簡単です。無料でビデオを生成することに興味がある場合は、説明欄にこのページへのリンクを記載しておきます。このプロモーションがどれくらい続くかわかりませんので、ぜひこの機会をご利用ください。
次に紹介するAIもかなり便利です。Animraitra 3Dと呼ばれ、テキストプロンプトだけから3Dヘッドを作成でき、これをアニメーション化できます。
例えば、プロンプトが「白い髪と黒い肌のポートレート、オフショルダートップ、ワイドレッグパンツ、屋上バー、夜」の場合、これが得られます。または「もの思いにふける表情のティーンエイジャーの男の子、暗い髪、プレッピーセーター、襟付きシャツ」、これが結果です。または「60代の洗練された銀髪の白人女性」などなど、これがその3Dヘッドです。または「強い顎線と豊かな黒い口ひげ、後退している髪の毛の中年ヒスパニック系男性」。
このAIの最終出力は3Dヘッドだけで、音声はなく、実際に何かを話しているわけではないことに注意してください。実際に話させるには、別のリップシンクツールまたはモーション転送ツールに接続する必要があります。
こちらはこれらの3Dヘッドがオーディオクリップに合わせてリップシンクしている例です。
「必要とされる愛は、また脆弱でもあります。それは恐れのようなものも入り込ませることができ、リスクを感じます」
「この物語はより女性のエンパワーメントに近いものです。これはクララーラがコメントのために保存しています」
「それはとても素敵でした、これをありがとう。えーと、イアンが将来のスターウォースプロジェクトに参加するかどうかはわかりませんが、続編三部作にキャラクターはいますか、カイロであれ」
もし超批判的になるなら、これはテキストプロンプトだけから3Dヘッドを生成できる素晴らしいAIですが、個人的にはHydreamやFlux、Stable Diffusionなどの画像ジェネレーターを使用して最初に顔の写真を生成し、それをLive Portraitなどのリップシンクツールに接続する方が好きです。この画像生成プロセスにより、顔をどのように見せたいかについてはるかに多くの制御が可能になります。さらにLive Portraitは、3Dヘッドを作成する必要なく、この画像をそのままリップシンクできます。Live Portraitについてもっと知りたい場合は、まだご覧になっていなければこのビデオをご覧ください。
でも、Animra 3Dに戻りますと、これはまだ非常に強力なツールであり、他の類似の3Dヘッドジェネレーターと比較すると、この新しいものははるかに正確で一貫していることがわかります。さらに、これは3Dヘッドを生成するため、このヘッドをさまざまな角度から見ることができ、多くの柔軟性を提供します。
とにかく、ページの一番上までスクロールすると、ダウンロードしてローカルのコンピュータで使用する方法についてのすべての指示が含まれたGitHubリポジトリがすでにリリースされています。少なくとも今のところ、少なくとも24GBのVRAMを持つCUDA GPUが必要であることに注意してください。すべてのリンクはここにあるので、詳細を読むためのこのメインページへのリンクを説明欄に記載しておきます。
これで今週のAIのハイライトがすべて終わりました。これらすべてについてどう思うか、コメント欄で教えてください。どのニュースがあなたのお気に入りで、どのツールを最も試してみたいですか?
いつものように、皆さんと共有するためのトップAIニュースとツールを探し続けます。このビデオを楽しんでいただけたなら、いいね、シェア、チャンネル登録をして、さらなるコンテンツをお楽しみに。また、AIの世界では毎週とても多くのことが起こっているので、YouTubeチャンネルですべてをカバーすることはできません。AIで起こっているすべてのことを本当に最新の状態に保つために、私の無料週刊ニュースレターをぜひチャンネル登録してください。そのリンクは説明欄にあります。
ご視聴ありがとうございました。次回もお楽しみに。


コメント