この動画は、ChatGPTを上回る性能を持つ4つの無料AIツールを紹介するフランス語のコンテンツである。主な内容として、無限ズーム機能を持つ「Chain of Zoom」、中国テンセントが開発した音声同期アバター生成AI「HunyuanVideo Avatar」、超高精度3Dモデル生成AI「Direct3DS2」、そして表現豊かな3Dアバター作成技術「Eva」が取り上げられている。これらはすべてオープンソースで提供されており、中国企業によるAI分野での急速な進歩と、GoogleのVO3に対抗する動きを示している。動画では各技術の仕組みや実例を詳しく解説し、AI技術の加速度的な発展と2025年がAI業界にとって転換点となることを強調している。
AIは日々進歩しており、今週もまた完全に狂気的でした。私たちは率直に言って驚愕する4つの新しいオープンソースAIツールを手に入れました。全く新しいAIが、画像内で無限にズームすることを可能にし、各ズームレベルでますます鮮明な詳細を生成しています。
これはAIでブーストされた望遠鏡を持っているようなものです。次に、ある技術が単純な画像と音声ファイルから、顔、唇、感情、ジェスチャーを含む完全なキャラクターをアニメーション化しています。はい、これは中国の巨大企業テンセントから来ています。そして、はい、中国がGoogleのVO3を阻止するために反撃しています。
別のAIは全く別次元の3Dモデルを生成します。つまり、単一の画像から超詳細なフォトリアリスティックモデルを作成することができるのです。これは私がこれまでに見た中で最も正確なものです。さらに、別のAIが単一の動画から表現豊かな全身3Dアバターを作成し、現実に近い動きと顔の特徴の忠実度を実現しています。
はい、AIは加速しており、これを見れば、なぜ2025年がすべてが変わる年であるかを理解するでしょう。1月以来、進歩は単に狂気的です。それは単純に止まりません。それでは始めましょう。最後まで留まってください。なぜなら最後に、AIのおかげでどのようにさらに進むことができるかをお見せするからです。
始める前に、動画の視聴中に気に入った場合は、チャンネルをサポートするために購読することを忘れないでくださいとお伝えします。また、メーリングリストを設置しました。登録するだけで、月曜日から金曜日まで最高のニュース要約をメールでお送りします。簡単、迅速、そして無料です。
最後に、私は現在Twitter Xにいることをお伝えします。興味があれば、ぜひご参加ください。ここでは、リリースが止まらないため、時間ごとに起こっているすべてをカバーしています。すべてが非常に速く進んでいます。だから私はYouTubeですべてをカバーすることはできません。Twitterでも多くのことを迅速にカバーしています。
興味があれば、ぜひ見に来てください。さあ、この最初のAIから始めましょう。これはChain of Zoomと呼ばれる人工知能で、その原理は非常にシンプルです。画像内で無限にズームしながら、幻覚的な鮮明さを保つことができます。はい、256倍まで拡大しても。
例を見れば、なぜこれが狂気的かを理解するでしょう。しかし、彼らが見せてくれたこの最初の画像を見てください。大聖堂の写真があります。ここで示された部分をズームすると、すべてがぼやけて見えます。当然です。携帯電話で写真を撮ってそんなにズームすれば、ぼやけるでしょう。
AIを適用後、何が起こるかを見てください。私の意見では、これは非常に信じられないことです。ビフォーアフターは驚愕的です。私は本当にこの機能を実現できるAIを待っていました。そして、ここにあります。この他の例を見てみましょう。ここには、おそらくドローンで撮影されたこの建物の映像があり、画像のこの部分にズームしたいとします。
AIの適用なしでは、このような非常にぼやけたものが見えます。AIを適用後の結果がこちらです。この画像から非常に非常に鮮明になります。この他の例を見てください。なぜ彼らがそれをChain of Zoom(ズームの連鎖)と文字通り名付けたのでしょうか?それは狂気的なスケールでこのように機能するからです。
理解していると思いますが、グローバル画像から始めて、一部をズームし、さらに別の部分を再ズームし、というようにそれを続けます。それが連鎖を作ります。この例でそれが作る連鎖を見てください。より正確に下で示されています。
例えば、座っている人物とのこの例を見て、連続的なズームを適用します。つまりズームの連鎖です。最初の画像があり、少しズーム、再度ズーム、再度、再度。素晴らしいのは、好きなだけ遠くまで行けることです。この素晴らしい例を見てください。
画像のこの最初の部分をズームして、これを作成し、その後、再度、再度、再度ズームしたい背景が見えます。はい、これは256倍のズームを作成します、これが彼らがここで言っていることです。そしてそれはそこで止まりません。この植物のこの例を見てください。
最初のズームを適用します。とても良い。2番目のズーム、とても良い。しかし、見ることができるのは、肉眼では見えないように見える微細な詳細まで行くことです。だから、それはAIでブーストされた顕微鏡のように振る舞うのです。それが素晴らしいところです。画面にたくさんの他の例をお見せします。
理解していると思いますが、このような例が何十、何十もあります。そうでなければ動画が1時間になってしまうので、ここですべてを通すつもりはありません。どのように機能するのでしょうか?好奇心旺盛な方のために非常に簡単に説明します。このAIの背後にある技術は単純にChain of Zoomと呼ばれています。アイデアは入力画像を小さなピース、タイルと呼ばれるものに分解することです。
タイルへの分解は、AI分野では新しいことではありません。多くの画像生成器がそれを行い、多くのアップスケーラーがそれを行います。各部分、各フレーム、実際には画像の各分解を分析するために、モデルは別のAIビジョンモデル、つまり画像で見るものを理解できるAIモデルを使用します。
例を見てみましょう。この小さなパンダの入力画像を与えると、画像はこのタイルを介して分解されます。そこでビジョンランゲージモデルを適用し、実際に画像にあるものを検出します。red panda closeup、つまり赤いパンダの顔のクローズアップと言っているのが見えます。そして実際に説明に対応する正確な画像と入力画像を生成します。
初期タイルを見て、ビジョンランゲージモデルに加えてSRモデルにも送信します。これは2つの組み合わせで、このアップスケールされた画像を再構成することができ、連続的にこれらのステップを適用します。それがChain of Zoomです。
プロセスはループで繰り返されます。コードはオープンソースで、今日からそれを使用でき、すべてをダウンロードできます。ここに科学論文と、ここにGitHubのコードがあります。すべてが説明されており、コンピューターにローカルでインストールし使用する方法などが説明されています。もしこれに対して本当に多くの熱狂があれば、チュートリアルを作ることもできるかもしれません。そうでなければ、動画の説明にリンクを残しておきます。さあ、直接続けましょう。
今度は、中国の巨大企業テンセントが再び強力に打撃を与えています。彼らは本当に全力です。彼らは永続的にAIを出しているのです。オープンソースの世界では本当に基準です、正直なところ。だから中国は、私の意見では、オープンソース分野で相当な先行を取っているのです。
彼らはHunyuanVideoの新バージョンをリリースしたばかりです。つまり、私たちが今日使用している大きなオープンソース動画生成モデルです。中国がこのモデルを特定のケース用の多くの小さなバージョンに展開していることを知っています。そして今日、ここでHunyuanVideo Avatarを公開します。
しっかりと準備してください。キャラクターの単一画像と音声ファイルで、このAIはキャラクターの唇を音声と同期させ、感情と体の動きを追加することができます。そして率直に言って、結果は驚愕的です。今日それを見てみましょう。少し注意点があります。一部の抜粋は既知の音楽を使用しています。
したがって、現在視聴している動画の特定の部分で音声が切られているか見える場合、それはYouTubeの著作権のためかもしれません。驚かないでください。いくつかの例をここで見てみましょう。彼らはAIの使用を3つの特定の領域に分解しました。最初のAudio Driven Human Animationを見てみましょう。
つまり、画像を歌わせるということです。AIに画像を与えると、与えた画像が歌っている動画になります。ストライキが来ないことを願います。これらの例を聞いてみましょう。これらは中国の音楽です。最初の2つの例は英語の音楽ですが、ストライキが来ることが分かっているので、お見せしませんが、サイト自体を見に行くことができます。かなり驚愕的です。
理解していると思います。これはGoogleのVO3生成器に対抗しようとする中国の動きです。最近必ず聞いたことがあり、驚愕的で話題になっているものです。ここでも少し似たようなことをしています。テキストのみの音楽なしの例を見てみましょう。
英語でもうまく機能していることが分かります。複数のキャラクターに同時に機能します。アルベルト・アインシュタインとのこの例を見てください。理解していますが、このAIが持つ可能性が見えますか?ソーシャルネットワークでピタゴラスの動画、少なくともAIで生成された動画を見たことがあるかもしれません。GoogleのVO3でピタゴラスが古代のセットアップでピタゴラスの定理を説明していました。そこで教育の可能性を想像しました。
学校でピタゴラス自身がピタゴラスの定理を教えることを想像してください。私たちが目の前で展開されているのを見ている、かなり驚くべき未来です。この例を見てみましょう。これを見てください。特にこれは、あまり自然ではありません。
あまりリアルではありません。これははるかにリアルです。いずれにせよ、これは最初のバージョンであり、オープンソースだということです。だから誰でもローカルで起動できます。それが力強いのです。これは私たちが持つ最悪のバージョンです。
そして、Googleにかなり追いついてきているのが分かります。Cling AI、Runway、Gen-4などの動画生成にお金を払わせる他のすべての会社、Sunoでさえ、まだそこに達していません。だから、すべてがいかに速く進んでいるかを示しています。
GoogleのVO3のリリース時にも言いましたが、2ヶ月、最悪でも3ヶ月以内に、オープンソース分野がGoogleのVO3に追いつくと思います。そして必ずしもオープンソース分野だけでなく、Cling AI、RunwayなどのサービスもGoogleのVO3に追いつくと思います。
もちろん、これはリアルな写真に限定されません。アニメキャラクターや3Dアバターでも機能します。ここを見てください。いくつかの例を見てみましょう。これを見てください。これはアニメです。ハリー・ポッターのアニメ新聞を見た人には思い出させます。
このピクセルアートとの例を見てみましょう。これはかなり良いです。そして彼らはたくさんの他の例を与えてくれました。これらすべてはオープンソースだと言いました。すべてが既に公開されています。ここの上部に科学論文、GitHubのコード、Hugging Faceでモデルをダウンロードするためのリポジトリがあり、興味があればテンセントのプラットフォームでテストすることもできます。
このページを見に行って、例を見てください。かなり良いです。そして今度は精度のモンスターに移ります。これは今日使用できる最も詳細な3Dモデル生成器です。Direct3DS2と呼ばれます。はい、少し長い名前ですが、非常に強力です。言い換えると、単一の画像から完全に狂気的な詳細レベルの超高解像度モデルを作成できます。
これらのモデルの詳細を見てください、完全に狂気的です。しばらく3Dモデルを扱った経験から、これは別のレベルだと言えます。実際、この分野にいて3Dモデルを扱っているなら、これをテストしてください。完全に狂気的です。テクスチャ、形状、比率、すべてがそこにあります。
これは孤立したケースではありません。見ていきます。テストしますが、基本的に原理はシンプルです。入力として画像を入れ、ここを見て、キャラクター、オブジェクト、何でも送信します。AIに送ると、この単一画像から3Dモデルを生成します。
ここで、今日アクセス可能な他のすべての3D生成器との比較を行いました。その多くは、リリースに合わせてチャンネルで既に紹介しましたが、これは本当に別のレベルです。実際、これの詳細を見ると、ほとんど関係ありません。
良いことは、3Dモデル生成器の進歩も見えることです。最初はこのように非常に滑らかで、それほど昔ではありません。これは数ヶ月前にリリースされたばかりで、今日の私たちの位置を見てください。
進歩がいかに進んでいるかを示しています。モデルの精細さを見てください。正直なところ、3Dフォトリアリズムに触れています。同様に、GitHubにコード、Hugging Faceにモデル、論文がありますが、テストできるデモがあります。ここのデモをクリックすると、テストするためのHugging Faceリポジトリに到着します。
非常にシンプルです。ここに画像をアップロードします。例えば、Chat GPTやLeonardo、どこでも生成されたであろうこのロボットMCAの画像を置きます。次に、生成の解像度を選択します。1024のままにしておきます。これは非常に大きな解像度です。
そして生成、つまり単純にgenerateをクリックします。その後、計算を開始し、ここに書かれていることを見ます。私はキューにいます。つまり、待機列にいるということです。私は最後の位置にいます。だから非常に長いのです。多くの人がこのモデルを使おうとしています。
もちろん、そこには多くの人がいるので、少し忍耐が必要です。いつものように、すべてを習得したい場合は、説明にリンクを残しておきます。Evaと呼ばれる別の魅力的な進歩を続けましょう。Expressive Virtual Avatar、表現豊かな仮想アバターのためです。
バーチャルリアリティと拡張現実の分野を知っているなら、主要な映画の一つがリアルな3Dアバターの作成であることを知っています。多くの人がこの問題に取り組んでいます。そしてここに、AIからの解決策があります。基本的に、この技術が可能にすることは、任意の人から完全なボディを持つ超リアルな3Dアバターを作成することです。
どのように機能するのでしょうか?まず、ここで見る人の動画が必要です。これが参考動画です。理想的には、動画が人の周りを回る必要があります。この動画から、多数のパラメータを抽出します。つまり、スケルトンの動き、顔の表情。
ここで顔を見て、手のジェスチャーなどを見てください。その後、これらすべてのデータを処理して、正確でリアルなアニメーションを持つ完全な3Dモデルを生成します。画面に見えるものです。正直なところ、私は少し驚愕しています。なぜなら、これは少し困難な分野だったからです。
私が言ったように、これはメタにとってメタバースの主要な課題の一つです。最終的に彼らの目標は、あなたの体をモデル化して、メタバースに現れることができるようにすることです。そして類似性は印象的です、私の意見では。
はい、もちろん、3Dモデルを手に入れたら、何でもできます。どんな背景にも置くことができます。流動的で自然で、何よりもリアルです。だから悪くありません。ここで例えば、この技術の研究の過程での進歩を見せてくれます。AIの最近の進歩により、本当に望む方法で3Dアバターをコントロールできるようになるのは驚くことではありません。
残念ながら、この動画を撮影している時点では、コードやモデルはまだ公開されていません。論文と動画があるだけです。Max Planck研究所では、時々オープンソースにし、時々しません。だから、今後数日でオープンソース化するかどうかを見守る必要があります。いずれにせよ、興味があれば、いつものように詳細情報と更新を追跡するために、説明に公式ページへの完全なリンクを残しておきます。
今後数週間でさらに多くの逸品を準備しています。見ているように、ますます加速しています。コメントで、どの技術が最も驚愕させたか、将来にとって最も有望だと思うのはどれかを教えてください。そして実際、このような内容があなたを熱狂させるなら、まだでなければ購読し、動画に「いいね」し、ベルを有効化することを考えてください。
これらすべてにより、私はこのタイプのコンテンツを提案し続けることができます。なぜなら、何が好まれるかそうでないかを知ることができるからです。最後に一つ、あなたの目の前で何が起こっているかを見ていますか? 画像をアニメーション化し、これまで決してできなかったように無限にズームできるオープンソースモデル。
単一の画像からほぼフォトリアリスティックな3Dモデルの作成は、仮想世界、メタバースのための3D仮想アバターを作成します。要するに、私たちは新しい時代に入っているのです。そして最悪なのは、大多数の人々が来るものに全く準備ができていないことです。だから私はあなたにAIを学ぶことを教えています。
これらすべてのツールを具体的かつ戦略的に使用することを学ぶための、無駄話なしの超アクセシブルなトレーニングを作成しました。過去数ヶ月で、既に2000人以上をトレーニングする機会がありました。初心者、プロ、好奇心旺盛な人、要するに、必要なレベルの前提条件はなく、フィードバックは例外的です。
これが実際に私を駆り立てて、これらすべての分野を掘り下げ、テストし、毎週ここで最高のものをもたらし、特にトレーニング自体で最高のツールをもたらすことを続けさせています。なぜなら、その中でははるかに遠くまで行くからです。これらのツールを詳細にクロスします。一方で、私はシンプルな選択をしました。堅実なトレーニングをばかげた価格で提供することです。なぜなら、誰もが何が起こっているのか、本当に何が来るのかを理解する価値があると思うからです。
そしてそれが進化する速度を考えると、今行動しない人々はすぐに取り残されるでしょう。これが行動を起こす時です。説明のリンクまたは動画下の固定コメントをクリックしてください。未来は今構築されていることを自分で見るでしょう。トレーニングでお会いしましょう。
とにかく、これで私の分は終わりです。この動画を見てくれてありがとうございました。私は次回のニュース動画で非常に近いうちにお会いします。


コメント