
15,959 文字

以下は完全にAIで生成されたものです。これがGPUの外観だという印象がありますが、これがGPUです。これは世界で最も先進的なGPUの一つですが、これはゲーマー向けGPUです。科学的発見の歴史とは、人間が中心ではなくなっていくことだと思います。あなたが「変わらないで、誠実でいて」と言ったことを覚えていますか?あなたは信念を守ることについてすべてを教えてくれました。私は自分の歌唱スキルに非常に自信がありますが、私の声の素晴らしさに値する音楽はあまりありません。
最も印象的なディープフェイクリップシンクAIがついに登場しました。ByteDanceによるOmnihumanと呼ばれるもので、どんな画像と音声(スピーチや歌)も取り込み、その音声に合わせて画像をアニメーション化します。これは信じられないほどリアルで、全身アニメーションさえできます。数週間前、Omnihumanが最初に発表された時に既に動画を作りましたが、大きな反響がありました。一部の人々はこれは偽物だったり、良すぎて信じられないと思い、他の人々はこれは危険すぎるので絶対に公開されないだろうと考えていました。
しかし、彼らは昨日これをリリースしたのです。この動画では、その機能を徹底的にテストし、できることやその限界をすべてお見せします。ちなみにByteDanceは、Seaweedという新しいビデオジェネレーターも密かにリリースしました。この動画では、この新しいビデオモデルについても説明し、他の主要なビデオジェネレーターと比較します。
早速始めましょう。このプラットフォームはDreaminaと呼ばれ、説明欄にリンクを載せています。無料でサインアップでき、サインアップするといくつかの素晴らしい機能があります。画像ジェネレーター、すぐに説明するビデオジェネレーター、そして何よりもOmnihumanを使用するこのリップシンクツールです。
これをクリックします。少なくとも現時点では、このツールで動画を生成するのは完全に無料ですが、いずれクレジットを請求されることになると思うので、まだ無料のうちに利用しましょう。
AIアバタータブに移動したら、最初のステップは動画の最初のフレームとして画像をアップロードすることです。Fluxで生成したこの画像をドラッグアンドドロップします。音声には2つのオプションがあります。ここにテキストを入力してAI音声で話させるか、音声クリップをアップロードするかです。最初の例では、この少し難しい早口言葉をアップロードします。まず聞いてみましょう:「active artists always appreciate artistic achievements and applaud awesome artworks」
では、この音声で画像をアニメーション化するために「生成」をクリックしましょう。このリップシンク機能は動画の生成に少し時間がかかることに注意してください。通常、完了するまで2〜3分待つ必要があります。
結果はこちらです。再生してみましょう:「active artists always appreciate artistic achievements and applaud awesome artworks」
すごいでしょう?彼女をとてもリアルで自然にアニメーション化し、話す時に瞬きをさせてより自然に見せています。彼女が頭を動かす方法や特定の言葉に強調を置く方法が、これを非常にリアルに見せています。この動画をダウンロードするには、ここのボタンをクリックするだけです。
次に、このフレームを削除して、TED講演をしている男性のAI生成画像をアップロードします。今回はテキスト読み上げ機能をテストしましょう。まず、彼に言わせたいテキストを入力し、ここで異なる声を選択できます。チャーリーの声はこんな感じです:「remember to subscribe to my channel to stay up-to-date with the latest AI news and tutorials」
ジョージはどうでしょう:「remember to subscribe to my channel to stay up-to-date with the latest AI news and tutorials」。うーん、この人物にはあまり合っていませんね。ダニエルはどうでしょうか:「remember to subscribe to my channel to stay up-to-date with the latest AI news and tutorials」
これがこの人物に合っていると思うので、ダニエルにしましょう。「生成」をクリックして結果を見てみましょう。
結果はこちらです:「remember to subscribe to my channel to stay up-to-date with the latest AI news and tutorials」
再び超自然でリアルな動画です。彼の体が動き、カメラも少し右にパンしていることに注目してください。彼は各手に5本の指があり、それらもとてもリアルに動きます。また、影にも注目してください。すべてがとてもリアルに見えます。オンラインでこの動画を見ただけでは、これがAIだと判断するのは非常に難しいでしょう。少なくとも私には欠点が見当たりません。
次に、このAI生成のTED講演画像の代わりに、実際の画像を使ってみましょう。基調講演中のJensen Huangの画像をアップロードし、前と同じ音声を使います。「生成」を押して結果を見てみましょう。
結果はこちらです:「remember to subscribe to my channel to stay up-to-date with the latest AI news and tutorials」
これはどれだけすごいでしょうか。彼の口、体、手、影の動きに注目してください。私には100%正確に見えます。彼が手に2つの物体を持っている写真を意図的に選びました。AIが彼が話す間にこの写真をどのようにアニメーション化するか試したかったのです。そして実際、それは素晴らしい仕事をしています。特定の言葉に強調を置き、スピーチの特定の部分で手を動かすことに注目してください。これは非常にリアルです。
これをさらにリアルにするために、同じ画像を使用しますが、ロボットっぽく聞こえるAI生成音声のテキスト読み上げの代わりに、実際にJensen Huang本人が話している音声をアップロードしてみましょう。まず、これがどのように聞こえるか再生してみましょう:「how is it possible that that Nvidia became so big building GPUs and so there’s an impression that this is what a GPU looks like now this is a GPU this is one of the most advanced GPUs in the world but this is a gamer GPU」
では「生成」をクリックして、どのように聞こえるか見てみましょう。
結果はこちらです:「how is it possible that that Nvidia became so big building GPUs and so there’s an impression that this is what a GPU looks like now this is a GPU this is one of the most advanced GPUs in the world but this is a gamer GPU」
なんということでしょう、これはあまりにも本物そっくりです。彼が話すときの全身の動きは非常に自然に見え、彼が話すときにいくつかの微妙な細部もあります。例えば、ここで彼が一時停止し、「that that Nvidia became so」とつっかえると、それから「this is a GPU now this is a GPU」と言うとき、または「this is a gamer GPU but this is a gamer GPU」という部分では、AIは特定の言葉に強調を置くことを知っていて、それが彼がその言葉を発するときの顔や表情にも反映されています。これは信じられないほど素晴らしいです。
次にJensen Huangではなく、新しい写真をアップロードします。16:9である必要はなく、異なるアスペクト比をアップロードできることに注意してください。ポストアポカリプス的な設定にいる女性の画像をアップロードし、非常に心配そうな女性の音声クリップをアップロードします。これを聞いてみましょう:「you don’t know how much trouble you’ve gotten yourself into look if one of the others get to you first they’ll report you alpha Grant has a search out and if they see you on human territory they’ll be shunned」
「生成」をクリックして結果を見てみましょう。
結果はこちらです:「you don’t know how much trouble you’ve gotten yourself into look if one of the others get to you first they’ll report you alpha Grant has a search out and if they see you on human territory they’ll be shunned」
再び超リアルなリップシンクです。彼女が息を吸うと胸も膨らみ、彼女の表情はこの音声クリップの雰囲気に完全に合っています。唯一の欠点は、彼女が手持ちの自撮りをしているので、カメラはかなり動くはずなのに、このように静止しているということです。それが見つけられた唯一の小さな欠点で、他のすべては非常にリアルに見えます。
次に、会議中のSam Altmanの写真をアップロードします。これは彼の頭だけでなく、胴体そして最も重要な手も写っています。そして音声には、Sam Altmanが話しているこのクリップをアップロードします。まずクリップを再生してみましょう:「that’s that’s definitely a change to my worldview I think kind of like the history of scientific discovery is that humans are less and less at the center」
このクリップは完全に別のイベントから取られたもので、ここで彼がいる会議からのものではありません。とにかく「生成」をクリックして結果を見てみましょう。
結果はこちらです:「that’s that’s definitely a change to my worldview I think kind of like the history of scientific discovery is that humans are less and less at the center」
とても良いですね。最初の写真で彼の手がその位置にあれば、結果の動画でもその状態を維持することに注目してください。彼の話し方、体の動かし方は非常にリアルに見えます。コンテキストなしにソーシャルメディアでこの動画を見ただけなら、これがAI生成だとは思わないでしょう。これはSam Altmanが話しているようにそっくりです。彼のあごの下の影、そして手からシャツにかかる影も注目してください。すべてが非常にリアルに見え、欠点を見つけるのは難しいです。
この画像の代わりに、別のSam Altmanの画像に置き換えて、同じ音声を使い、「生成」をクリックして結果を見てみましょう。
結果はこちらです:「that’s that’s definitely a change to my worldview I think kind of like the history of scientific discovery is that humans are less and less at the center」
ここで少し不気味なものが見え始めます。背景に複数の顔があると、それらの顔にもリップシンクが適用されるので、このシーンのすべての人が同じことを言っているように見えます。これは現時点でこのツールの一つの制限と欠点です。しかしSam Altmanの話しているところだけに集中すると、彼は本当にリアルに見えます。スピーチの一部では彼の手も見えます。
このオムニディープフェイクリップシンクは、誰かの全身写真をアニメーション化することができ、顔や上半身だけに限定されません。ここではAI生成の女性の写真をアップロードします。彼女がワイングラスを持っている写真を意図的に選びました。彼女を話させるだけでなく、このワイングラスの物理的一貫性を保ちながら全身をアニメーション化できるか見てみましょう。Sesameと呼ばれる超リアルなリアルタイムAI音声からの音声クリップをアップロードします。クリップはこのように聞こえます:「no way oh my gosh oh my gosh are you serious is this real my hands are shaking I think I’m going to I think I’m going to faint」
ちなみに、これが本当にリアルに聞こえると思うなら、Sesameに関するこの動画を必ずチェックしてください。これは会話できる最もリアルなリアルタイム音声の一つだと思います。気味悪いほど人間らしく聞こえます。では「生成」を押して結果を見てみましょう。
結果はこちらです:「no way oh my gosh oh my gosh are you serious is this real my hands are shaking I think I’m going to I think I’m going to faint」
ワイングラスはこのアニメーション全体を通して超リアルに見えます。彼女が息を吸うと胸も膨らむことに注目してください。スピーチの一部では彼女の指も動きます。彼女の全身は彼女が話すときに本当に自然に見え、動きます。また、彼女が「I think I’m going to faint」と言う前につっかえる方法も非常にリアルに見えます。右側の人物もアニメーション化されていることに注目してください。
次に歌の例をいくつか試してみましょう。パグを抱えた男性の画像をアップロードします。これはAudiogramバージョン3で生成しました。彼らは最高の画像ジェネレーターの一つです。そしてRefusionで生成したラップソングをアップロードします。Refusionも私のお気に入りのAIツールの一つです。単純なプロンプトだけで、あるいは自分の歌詞を追加して、無料で完全な曲を生成できます。まずこのラップクリップを聞いてみましょう:「I will watch how quick they learn」
特にこの写真を選んだのは、彼がパグを抱えているからです。このオムニが動物をどのように扱うか見たかったのです。AIは動物もリアルにアニメーション化できるのでしょうか。
結果はこちらです:「every block I pass another challenger falls think they got the speed but they hitting all the walls been doing this since 16 mastered every turn when I grip that watch how quick they learn」
かなり素晴らしいですね。まず、パグも本当にリアルに見え、動いていることに注目してください。瞬きし、頭を動かし、すべてが非常にリアルに見えます。少し不気味なのは、クリップの終わり頃にパグもラップソングと一緒に歌っていることですが、それ以外は、これは再び非常にリアルに見え、この男がラップソングを歌っているように見えます。
スポンサーであるAbacus AIによるChat LLMという素晴らしいツールについてお話しします。これにより、最高のAIモデルを一つの統合プラットフォームで使用することができます。これには最新のClaude 3.7、O3 Mini High、DeepSeek R1などが含まれます。また、プロンプトに基づいて最適なLLMを自動的に選択する新しいRoute LLM機能もあります。チャットボットから直接画像を生成することもでき、最高のジェネレーターであるFlux Proを使用しています。さらに、単一のプロンプトで動画を生成することもできます。また、コーディングや何かを構築している場合、アプリを側面に表示して操作できる素晴らしいアーティファクト機能もあります。
彼らはCode LLMと呼ばれる新しいコーディングツールも持っています。これはVS Codeとまったく同じように機能しますが、AIによって強化されています。側面でAIとチャットしてコードを生成または編集したり、タブを押してコードを自動補完したりできます。これによりコーディングがはるかに速くなります。彼らはAIエンジニアと呼ばれる新機能も持っており、独自のカスタムデータや指示に微調整された独自のカスタムチャットボットを作成できます。これは、最高のAIモデルをすべて一つのプラットフォームで使用するための本当に強力な方法です。説明欄のリンクから試してみてください。
次に別の歌の例をテストしたいと思います。Fluxで生成したこの美しい女性の写真をアップロードし、Refusionで生成した別の曲のクリップをアップロードします。まずクリップを聞いてみましょう:「made me realize I’m breaking free tonight」
とても良いですね。「生成」をクリックして結果を見てみましょう。
結果はこちらです:[音楽]
とても良いですね。彼女が歌っているように見えますが、それほど情熱的ではありません。彼女の表情にもっと強調と感情を加えることができるでしょう。しかしそれ以外は、欠点を見つけるのは難しいです。シーン中に彼女は瞬きするので、これはロボットのようには見えず、彼女が歌詞を歌っているように見えます。とても良い生成です。
そのオーディオクリップはかなり穏やかで、一節だけでした。彼女にエピックなコーラスを歌わせて、より表情豊かに見せることができるか試してみましょう。ここにRefusionで生成した別の曲のコーラスがあります。まずこれを聞いてみましょう:[音楽]
ちなみに、Refusionは本当に素晴らしいです。何日も頭から離れないほど良いAI曲を生成した例がいくつかあります。これで本当に中毒性のある曲を生成することができます。とにかく「生成」を押して結果を見てみましょう。
結果はこちらです:[音楽] was it worth it in the [音楽] end tell me was it worth it in the end
とても良いですね。まず、これは非常に表情豊かで、彼女がコーラスを歌うときに目を閉じたり眉を動かしたりします。これの明らかな欠点の一つは、長い言葉を歌うときに彼女がその位置と表情でただ凍結するように見えることで、その部分はあまりリアルには見えません。しかしそれ以外は、すべてが美しく見え、この欠点があっても、これは私がこれまで見た中で最高のディープフェイクまたはリップシンクツールです。
彼女がこれらのエピックなコーラスを歌うときにどれだけ表情豊かに彼女の顔を作れるかテストしたかったので、ここに生成した別のコーラスがあります。まずこれを聞いてみましょう:「watching as you walk [音楽] away while my heart breaks watching you walk away as my heart breaks today」
この歌詞はかなり心に響きますね。結果はこちらです:「everything I need to say watching as you walk away while my heart breaks」
これは少し良いですが、エピックなコーラスを歌っている人としては、まだ私が望むほど表情豊かではありません。彼女の顔にもっと感情を加えてほしいですが、これは既にとても良いです。
次に、3Dキャラクターやアニメをアニメーション化できるかもテストしたいと思います。AIで生成したこのディズニーピクサータイプのキャラクターの写真をアップロードし、原神(Genshin Impact)からのこの音声を使用します:「I’m very confident in my singing skills but there aren’t many pieces of music that are worthy of my vocal prowess」
では、この画像をその音声でアニメーション化できるか見てみましょう。
結果はこちらです。これを再生してみましょう:「I’m very confident in my singing skills but there aren’t many pieces of music that are worthy of my vocal prowess」
それはとても良かったです。彼女がこの部分「but there aren’t many pieces of music」を言うときに彼女の表情にも気まぐれさを取り入れていることに注目してください。また、髪留めやタッセルなども含めて彼女を美しくアニメーション化していることに注目してください。彼女が話すと非常にリアルに動きます。これは再び欠点のない例です。元の画像の一部であるこのウォーターマーク以外に、この生成の欠点を見つけるのは本当に難しいです。コメント欄で欠点を指摘できるか教えてください。
この3Dキャラクターの代わりに、セーラームーンの生成に置き換えて、同じ音声を使用し、このオムニがアニメキャラクターもアニメーション化してリップシンクできるか見てみましょう。
結果はこちらです。これを再生してみましょう:「I’m very confident in my singing skills but there aren’t many pieces of music that are worthy of my vocal prowess」
とても良いですね。彼女をかなり上手くリップシンクさせていますし、彼女が話すと体や髪も少し動かします。これは確かにアニメ画像もアニメーション化できます。リップシンクはあまり本物らしく見えず、彼女が言っている言葉を本当に反映していないと言わざるを得ませんが、これはちょっとした不満点に過ぎません。他のすべては非常に一貫性があり自然に見えます。
次に、異なる言語の音声クリップを取り込めるかテストしたいと思います。このAI生成画像をアップロードし、このドイツ語クリップをアップロードします。まずこれを聞いてみましょう。
ドイツ語クリップでこの画像をアニメーション化できるか見てみましょう。
結果はこちらです:「Ich war so wütend, weil die Leute in der Abteilung für Geschenksverpackungen mir die Geschenke nicht verpacken wollten, obwohl ich nur für 500 Euro eingekauft hatte. Und das stand nirgendswo, dass man nur verpackt kriegt, wenn man über 500 Euro ausgegeben hat」
とても良いです。ドイツ語音声に完璧にリップシンクしていますし、彼女の手も動かしていることに注目してください。各手に5本の指があり、頭を動かし、瞬きし、すべての正しい部分に強調を置いています。背景の画面もアニメーション化しています。
ドイツ語の代わりに日本語を試してみましょう。
日本語の結果はこちらです:「こちらにご署名をお願いします。そうすれば、あなたに代わって書類を処理させていただきます。私がその書類をあなたに返すことを約束いたします。それに対してあなたは料金を支払うことになります」
これも本当にリアルです。彼女の体と手の動き方、特定の言葉に強調を置く方法、少なくとも私には欠点を指摘できません。コメントで何か気づいたことがあれば教えてください。
最後にスペイン語の例です。同じ画像を使用しますが、今回はスペイン語クリップを入力します。
結果はこちらです:「Esto es por culpa de Ana que me ha dicho que hable un minuto y yo no quería hablar pero al final lo estoy haciendo y me está saliendo este vídeo bastante largo」
これはすごいです。この人物がスペイン語を話しているように見えます。すべてが非常にリアルで自然に見えます。
これらがいくつかの言語の例です。最後にテストしたいのは、動物も話させることができるかどうかです。猫の画像をアップロードし、テキスト読み上げを使用します。猫が言いそうなことは何でしょうか。おそらく「one day human you will learn that I’m the true master of this house」のようなものでしょう。声を選びましょう。マイケルの声はどのように聞こえるか:「one day human you will learn that I am the true master of this house」
とても良いですね。この声はこの猫に合っているように聞こえます。「生成」をクリックしてアニメーション化できるか見てみましょう。
結果はこちらです:「one day human you will learn that I am the true master of this house」
猫にいくつかの言葉を話させることはできますが、それは非常に微妙で、完全なアニメーションではありません。オムニは動物を話させるのにはあまり適していないと言えるでしょう。
オムニは多くのことに適していますが、特に人間の写真と話す音声を使用する場合でも、いくつかの制限があります。ここでは私がこれをテストしている間に遭遇したいくつかの失敗例を紹介します。
この女性の画像を再び使用し、笑い声の音声を入力すると、次のようになります:「I shouldn’t Oh my goodness [笑い声] it’s too much I can’t breathe」
ご覧のように、笑い声や他の表現豊かな音をうまく処理できません。Omnihumanは話すことや歌うことだけに適しています。
歌については、もう一つの失敗例があります。アコースティックギターを弾いている少女の画像を使用し、アコースティック曲を入れると、次のようになります:「my fingers trace these fading lines while rains windows」
ご覧のように、少女は完璧に曲に合わせて歌っていますが、彼女の指は実際にギターを弾いていません。AIが曲の音声クリップだけから、人が楽器で弾くべきすべてのキーを予測できるレベルの知能にはまだ達していません。
これでOmnihumanのすべてのテストを要約します。このリップシンクツールに加えて、彼らは密かに動画ジェネレーターもリリースしました。「動画生成」をクリックすると、画像から動画を作成できます。画像をアップロードして動画の最初のフレームまたは最後のフレームとして使用するか、テキストプロンプトを入力して動画を生成することができます。モデルについては、ここで最新のものであるビデオS2(Seaweedモデル)を選択してください。現在、注意すべきは、動画の長さは5秒のみです。アスペクト比については、これらの異なる比率から選択できます。今は16:9にしておきましょう。
次に、一連の本当に難しいプロンプトでテストします。主要な動画ジェネレーターはすでに、人物のポートレートショットや人が話したりゆっくり歩いたりするような単純なものを処理できることに注意してください。すべてのスローモーションや低アクションシーンは、すべての動画ジェネレーターが処理できます。ここでは、複雑な表現や高アクションシーンなど、より複雑なものをテストして、処理できるかどうかを確認します。
最初のプロンプトは「a woman laughing uncontrollably tears streaming down her face」です。「生成」をクリックして結果を見てみましょう。
結果はこちらです。この動画ジェネレーターは最高のものではないので、あまり時間をかけませんが、参考として、他の3つの主要な動画ジェネレーターで同じプロンプトを試した結果があります。オープンソースで完全に無検閲のAlibaba’s Juan 2.1(これはローカルで無料で実行できます)、Cling 1.6 Pro、そして右下にはGoogleのV2があります。
シーウィードの品質と解像度が最も優れていますが、プロンプトに従う点では1 2.1が最も優れています。シーウィードはこの女性の顔から流れる涙を本当に生成することができず、これは3つの生成の中で最良のものです。
次に、激しい戦いを処理できるか見たいと思いました。プロンプトは「two samuris having an intense sword fight」です。GoogleのV2を含むトップビデオモデルのどれもこれを実際に処理することができず、シーウィードも例外ではありません。剣が消えたり再出現したり、形が時間とともに歪んだりするのが分かります。侍たちは本当に戦っておらず、剣を打ち合わせておらず、すべてがあまりにも丁寧に見えます。正当で物理的にリアルな戦いを本当に生成するという点では、1 2.1が最良の生成だと思いますが、解像度と詳細と品質の点では、シーウィードにポイントを与えなければなりません。
ここで試した別のプロンプトは「a gymnast performing a perfect backflip on a balance beam」です。繰り返しますが、他のジェネレーターのどれもこれをうまく処理できないことに注意してください。しかし解像度と詳細の点で、シーウィードが最高のものであるように見えますが、彼女は本当にバック転をしておらず、これは平均台のようには見えません。
ここで、どの動画ジェネレーターも正確に処理できるとは思わない別の難しいプロンプトがあります。プロンプトは「a woman breakdancing on the street」です。シーウィードの生成では、彼女はブレイクダンスをしようとしていますが、Ray Gunよりは良く見えます。実際にブレイクダンスをしているという点では、1 2.1を選びます。いくつかの歪みがあり、物理的に正確ではありませんが、この女性はブレイクダンスをしているように見えます。
ここにもう一つの難しい例があります。ここでは、正当なテキストを書いている誰かを生成できるかテストしています。プロンプトは「a professor writes hello on the chalkboard」です。Juan とV2の両方がビデオにテキスト「hello」を生成することができましたが、どちらも実際に人に「hello」を書かせることができませんでした。そしてシーウィードは「hello」さえ生成できませんでした。テキストの生成が得意ではありません。
ここに皆さんのお気に入りのプロンプトがあります:「Will Smith eating spaghetti」です。テキストから動画を生成する場合、4つのジェネレーターのどれもWill Smithがスパゲッティを食べている様子を生成できないことに注目してください。少なくともシーウィードのテキストから動画への機能では、既存の人物や有名人を生成できないようです。
とはいえ、彼らには画像から動画へのジェネレーターがあります。まず、Will Smithがスパゲッティを食べている写真を生成できます。これはOpenAIの新しい画像ジェネレーターで生成しました。もし「Will Smith eating spaghetti」と書いて「生成」をクリックすると、これが得られます。テキストから動画の機能は有名人や実在の人物を生成できなくても、その人物の画像を最初に生成して、それを画像から動画に入れることができます。
とはいえ、シーウィードが食事のビデオを生成するのが得意でないことに注目してください。彼がスパゲッティを食べているようには見えませんし、適切に噛んでいるようにも見えません。今頃Will Smithはスパゲッティを食べるのに完全に飽きているので、試そうともしていないのでしょう。途中でスパゲッティを吐き出しているのが見えます。
しかし、テキストから動画に戻ります。ここに別の難しいプロンプトがあります:「a swarm of zombies causing chaos in a shopping mall shaky camera」です。少なくとも品質、解像度、一貫性の点では、シーウィードの生成が実際に最高です。このビデオには非常に詳細が生成されていますが、私はシェイキーカメラを指定しました。これはできませんでした。この例では、プロンプトに従うという点では、最もシェイキーなカメラを持つ1 2.1にポイントを与えます。ゾンビが混乱を起こしているようにも見えます。
そして、ここにより簡単なプロンプトがあります:「a woman filming herself for a live stream」です。これらはすべてこれをとてもうまく処理できます。単なる人が話したりゆっくり動いたりするだけのこのような単純なショットでは、すべてのビデオモデルがこれらのシーンをほぼ完璧に生成できると言いました。
次の例では、「a ballerina does a piouette on a floating piece of ice in the Arctic Ocean」です。再び、私はJuanの生成を好みます。これは正当なピルエットを行える唯一のものです。シーウィードの生成では、女性は回転しようとしますが、完全に実行されません。Clingと V2による生成も同様です。しかし、詳細と鮮明さの点では、シーウィードは本当に印象的です。
そして、ここにさらに難しいプロンプトがあります:「a massive dragon looming across the city destroying buildings terrified people run away in all directions high action」です。シーウィードの例では、現実的に見えるドラゴンを生成できませんでした。これはハイアクションシーンではなく、人々は四方八方に逃げていません。この例でも、1 2.1を選ばなければなりません。
最後に、アニメを生成できるかも見たいと思いました。プロンプトは「a cozy cafe scene where friends laugh and share stories over steaming cups of coffee anime style」です。3回の生成の後でも、シーウィードはアニメを生成できませんでした。プロンプトの最初に「anime style」を入れるなど、異なるプロンプトも試しました。「2D cartoon」などの他のキーワードを追加することも試しましたが、リアルな動画を生成し続けました。アニメや漫画を作成したい場合、シーウィードはあなたにとって最良のオプションではないかもしれません。
これで、この新しいシーウィード動画ジェネレーターの非常に簡単なレビューを要約します。解像度と詳細の点では、これは最高のモデルの一つですが、実際にプロンプトに従い、より難しい高アクションシーンを処理するという点では、1 2.1などの他のオプションほど優れていません。
このDreaminaプラットフォームの最も印象的な機能は間違いなくこのオムニリップシンク機能です。これは私がこれまで見た中で最高のディープフェイクリップシンクツールであり、非常にリアルです。とにかく、このプラットフォームへのリンクは説明欄にあります。この動画が公開される時点でもまだ無料で提供されていることを願っています。コメントでこれについてどう思うか教えてください。Omnihumanや Seaweedで遊ぶ機会があった場合、他にどのような印象的または興味深い生成ができたか教えてください。
いつものように、皆さんと共有するためのトップAIニュースとツールを探し続けます。この動画を楽しんでいただけたら、いいね、シェア、チャンネル登録をお忘れなく、そして今後のコンテンツもお楽しみに。また、AIの世界では毎週とても多くのことが起こっているので、YouTubeチャンネルですべてをカバーすることはできません。AIで起こっているすべてのことを本当に最新の状態に保つために、無料の週刊ニュースレターを購読してください。そのリンクは説明欄にあります。ご視聴ありがとうございました、次回お会いしましょう。


コメント