攻撃用ロボットと見分けのつかない偽動画

13,551 文字

la Chine lâche une nouvelle BOMBE IA : Alibaba Change la Donne !

Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! Rejoignez la communauté Vision IA pour bénéf...

この新しい人工知能革新の探求へようこそ。今日は研究室から出たばかりの驚くべき10のAI技術をご紹介します。完璧な空手を習得した人型ロボット、自動的に延長されるAI生成動画、さらには1枚の写真から完全な3Dシーンを再構築できるツールまで。また、完璧なループ動画の作成方法や、仮想教師のような解説アニメーションの作成方法もお見せします。
これらのツールが創造的なプロジェクトを変革するだけでなく、大幅な時間短縮にもつながることを、これから数分間でご紹介します。最後までご覧ください。これらのテクノロジーのうち少なくとも1つは、あなたのワークフローを完全に変えることをお約束します。
さあ、始めましょう。まずはロボット企業のUnitreeが今週公開した新しいデモからです。これは信じられないほど素晴らしいものです。彼らはG1という人型ロボットに空手の訓練を施したようです。私自身は回し蹴りすらできませんが…皆さんの中には偽物やCG生成ではないかと疑う方もいるかもしれませんが、この動画が本物でないと示す兆候は全く見当たりません。動画は完全に本物に見え、Unitreeはすでに信じられるほど多機能でアクロバティックなロボットを製作してきた実績があります。
例えば、先週彼らは同じG1ロボットが非常にリアルで自然に踊る動画を公開しました。これも完全に本物に見えます。彼らは本物であることを証明するために背景に鏡まで置いています。さらに、このG1ロボットはすでにこのように非常に速く走ることができます。このロボットがあなたを殺すようにプログラムされて追いかけてきたらと想像してみてください。本当に恐ろしい敵になるでしょう。怖いと思いませんか？
次に、Hoが画像から動画への変換モデルを発表しました。これには「ディレクターモード」があり、シーンのカメラの動きをコントロールできます。もちろん、シーンの動き方を完全にコントロールしたい場合に非常に便利です。ただ、以前はこの機能はテキストから動画への変換にしか存在しませんでした。これは理想的ではありません。特定のキャラクターやオブジェクトの動画を生成したい場合、画像から動画への変換にもこのディレクター機能があれば素晴らしいと思いませんか？そして、それがまさに今週発表されたものです。
ここにHoができることのいくつかの例を示します。
Hoへのリンクは説明欄に載せておきます。登録すると、始めるために多くの無料クレジットが得られると思います。さらに、毎日無料クレジットが付与され、毎日無料で動画を何本か生成できます。
次に、SinCDという新しいAIがあります。これは、画像に挿入したいオブジェクトやキャラクターの参照画像をアップロードし、作成したいものを説明するプロンプトを使用すると、そのオブジェクトやキャラクターを画像に追加し、参照画像と非常に一貫性のある結果が得られます。
例を見てみましょう。このアニメフィギュアの3つの参照画像をアップロードして、「タイムズスクエアにあるアクションフィギュア」というプロンプトを入力すると、このような結果が得られます。フィギュアのポーズや元のデザイン、ドレス、髪、顔の外観が維持されていることに注目してください。または「バイクに乗るアクションフィギュア」というプロンプトを入力すると、このキャラクターの全体的な外観とデザインを維持することができます。
別の例では、このアヒルの参照画像をアップロードします。異なる角度や照明条件でも問題ありません。そして「背景に秋の木と葉があるおもちゃ」というプロンプトを入力すると、このような結果が得られます。また、「森の中の紫色のカーペットの上のおもちゃ」と書くと、このような結果になります。
このブーツの3つの参照画像をアップロードし、「背景に街がある靴」というプロンプトを入力すると、同じ靴を生成できますが、背景に街があり、アップロードされた靴とまったく同じように見えます。または「背景に青い家がある靴」というものもあります。
このツールは商品撮影に非常に役立ちます。様々な商品を撮影するためにカメラマンを雇い、すべてをセットアップする必要はもうありません。単にこのAIに商品の参照画像をいくつか入れるだけでいいのです。
別の例では、これら3つの参照画像を入れて「ビーチでのおもちゃ」と書くと、実際に同じおもちゃを生成しますが、ビーチの上に置かれています。参照画像と全く同じデザインであることに注目してください。または「雪の中のおもちゃ」というプロンプトを入力すると、このような結果になります。
このように非常に正確で高忠実度です。また、複数の参照画像をアップロードする必要はありません。より正確な結果を得るためには役立ちますが、1枚の参照画像だけでも大丈夫です。この新しいSinCD手法（左の列に表示）が他の選択肢と比較してはるかに正確であることに注目してください。
最も興味深いのは、ページの一番上までスクロールすると、Hugging Faceでデモが提供されており、すべてのコードを含むGitHubリポジトリがあることです。まずHugging Faceのデモを試してみましょう。使い方は非常に簡単です。ここにプロンプトを入力し、ここにオブジェクトの参照画像を1枚または複数アップロードできます。
例えば、このアニメフィギュアの3つの画像をアップロードして、「山の頂上にあるアクションフィギュア、背景に夕日、リアルな写真」と書きます。ここには、FluxやStable Diffusionを使ったことがあれば馴染みのあるかもしれないパラメータがあります。ガイダンススケールは基本的に、生成物にどれだけプロンプトに従ってほしいかを決定します。右に移動するとプロンプトをより文字通りに従い、左に移動するとより創造的になります。推論ステップは、画像を生成する前に実行したいステップ数です。一般的に、ステップ数が多いほど画像の品質は高くなりますが、ある時点で収穫逓減になるので、デフォルト値の30ステップのままにしておくのが最善です。
そして、これが得られる結果です。同じフィギュアが同じデザインと姿勢で、しかし今は山の頂上にあり、背景には夕日があります。
別の例では、このペンギンのぬいぐるみの3つの画像をアップロードして、「ペンギンのぬいぐるみはピンクのサングラスをかけ、ビーチでくつろいでいる、リアルな写真」と書きます。これが得られる結果です。確かにビーチにいて、ピンクのサングラスをかけています。
メインページに戻ると、GitHubリポジトリも公開されています。下にスクロールすると、ローカルコンピュータにダウンロードして実行する方法についてのすべての指示があります。すべてのリンクはここにあり、技術論文やその他の例も含まれています。詳細を知りたい方のために、このページへのリンクを説明欄に載せておきます。
続行する前に、現在提供している私のトレーニングについて少しお話ししたいと思います。ご覧のように、人工知能は信じられないほどのスピードで進化し、私たちの働き方を急速に変革しています。ですから、今こそトレーニングを受けるのに最適な時期です。一回の支払いで、完全なトレーニングコース、将来のすべてのアップデート、そして新しいヒントやテクニックを共有する非常に活発なDiscordコミュニティへのアクセスが得られます。
反復的なタスクを自動化し、半分の時間でより良い品質の仕事を生み出し、AIを真の個人アシスタントとして使用する方法を学ぶことができます。初心者であっても、これらのテクノロジーにすでに精通している方でも、あなたのレベルに合わせたモジュールが見つかるでしょう。チャンネルで1000万回以上の視聴を達成し、すでに何百人もの方々がAIを学ぶのをサポートしてきました。リンクは説明欄とピン留めされたコメントにあります。
次に、Rifflex Xという新しいAIがあります。これは品質を失うことなく動画の長さを延長するための新しい技術です。多くの人がほとんどのAI動画ジェネレーターは4〜5秒のクリップしか作成できないことを不満に思っていることを知っています。したがって、それで多くのことはできません。ところが、このツールはこの問題を魔法のように解決します。実際、彼らはこれを「フリーランチ」と呼んでいます。
5秒程度の動画があるとします。この動画をAIに入れるだけで、魔法のように10秒に延長します。これはX倍の外挿と呼ばれるもので、長さを2倍にするということです。最も良い点は、この技術はトレーニングを必要としないことです。したがって、機能するために追加のトレーニングやトレーニングデータを必要としません。他の動画のセットから学習する必要なく、単に動画を延長できます。
ここにいくつかの例があります。元の動画は5秒間で、このツールで処理した後、10秒間に延長されます。こちらは庭を走る猫の別の例です。ここでも、元の動画は5秒間ですが、このツールで処理した後、シームレスに10秒間に延長されます。アニメーションにも機能します。こちらの例では、最初の5秒が元の動画で、残りの5秒が拡張部分です。
モデルをさらにトレーニングしなくてもこれを行うことができますが、モデルを調整してさらに良くすることもできます。これは、パフォーマンスを向上させるために少量のデータでモデルをトレーニングすることもできるということです。モデルをさらにトレーニングすると、視覚的および動的品質がさらに向上すると記載されています。以下は、微調整を加えた動画延長の例です。
こちらは3Dアニメーション動画で、拡張も非常にうまく処理していることがわかります。別の例では、どの部分が元の動画でどの部分が拡張部分なのか、ほとんど気づくことができません。遷移は本当にシームレスです。このマインクラフト風の生成でも機能します。非常に柔軟で多用途なので、どんなスタイルの動画でも延長するために使用できます。
最も良い点は、ページの上部にスクロールすると、コードがすでに利用可能であることです。GitHubリポジトリを公開しており、これは単なるフレームワークであることに注意してください。どんな動画生成モデルも組み込むことができます。お見せした例はUNIANを使用していますが、COG VideoやOne 2.1（すぐに見ていきます）も使用できます。さらに、ComfyUIですでにサポートされているので、UNIANを使用している場合、このComfyUI UNIAN Video Wrapperコンポーネントを使用するだけでRifflexを使って動画を延長できます。
いずれにせよ、Rifflexの使用に関するすべての指示はこのGitHubリポジトリにあります。すべてのリンクはここにあるので、詳細を知りたい方のために、このメインページへのリンクを説明欄に載せておきます。
次に、これは本当に素晴らしいAIです。ARTと呼ばれ、Anonymous Region Transformerの略です。複数のレイヤーを持つ画像を生成でき、レイヤーは透明にもできるため、より細かい後編集が可能です。必要に応じて、これらの個々の要素を後で移動させることができます。
いくつかの例を紹介し、すぐにライブデモをお見せします。AIにこのポスター全体を作成するよう依頼できますが、実際には異なる要素に分けることができます。この背景があり、その上に透明なレイヤーのテキスト、そしてこの画像があります。別の例では、AIはこの最終画像を生成できるだけでなく、すべての要素を別々のレイヤーで生成します。ここに本当に美しいポスターがありますが、ここでもすべての要素は透明なレイヤーに分けることができます。
今すぐ試してみましょう。彼らはHugging Faceで無料デモを公開しており、これは次のように機能します。まず画像を説明するプロンプトを入力します。「お誕生日おめでとう」ポスターを基本的に生成するこのプロンプトを入力するとします。ここでテキストのフォントを指定できます。太字のサンセリフにしたいと思います。バナーの下には、カップルの写真を含む円形のフレームがあります。フレームの周りには、ピンクの花や緑の葉などの装飾要素があります。フレームの下には「イザベルとモーガン」というテキストがあり、その下には「お誕生日おめでとう、愛と笑いと大切な思い出のもう一年に」などのメッセージがあります。
プロンプトを入力した後、「Commit」をクリックします。「One-Click Generate All」をクリックしてすべてのステップを一度に実行することもできますが、ステップバイステップで何が起こるかを示したいと思います。「Commit」をクリックすると、基本的にこのプロンプトがAnonymous Region Layout Plannerを通過し、画像内のこれらの要素をすべて配置して整理する方法を決定します。また、それらを異なるレイヤーに配置する方法も決定します。
次に、このステップは基本的にボックス座標のセットを生成し、少し下にスクロールするとこれらの座標がここにコピーされます。「Commit」を押すと、基本的に画像生成のステップです。プロンプトと座標をこの画像ジェネレーターに通し、すべての要素がそれぞれの座標に配置された最終画像を生成します。
これが結果のデザインです。これが最終画像ですが、実際には複数の要素で構成されています。背景があり、画像があり、上部に花があり、ここにいくつかの装飾があり、テキスト、そしてここにもテキストがあります。これをすべて合わせると、最終画像になります。
最も興味深い点は、これらの要素をすべて別々にダウンロードして、フォトエディタに取り込み、さらに編集できることです。例えば、このテキスト全体をドラッグしたり、画像をドラッグしたりできます。すべてが直接編集可能です。必要に応じてこのテキストのサイズを変更することもできます。
このツールは非常に便利だと思います。最終的にはCanvaに取って代わる可能性があります。これらのデザインを手動で作成し、すべてをドラッグアンドドロップしてフォントを変更するなどの作業をする代わりに、AIにすべてを行ってもらうことができます。
Hugging Faceのデモに加えて、GitHubリポジトリもあり、下にスクロールするとローカルコンピュータにダウンロードして実行するためのすべてのコードがすでにあります。詳細を知りたい方のために、このページへのリンクを説明欄に載せておきます。
次に、本当にクールな3Dモデルジェネレーターがあります。CASTと呼ばれ、Component-Aligned Scene Transformationの略です（ただし、Tはどこから来たのでしょうか？）。このAIは1枚の画像から完全な3Dシーンを再作成できます。
これは次のように機能します。まず入力画像を調べて、そこにあるオブジェクトを決定します。例えば、ここではギター、クーラーボックス、バン、サーフボードなどを検出しました。そして、シーン内の各オブジェクトの3Dモデルを作成します。オブジェクトの一部が画像内で隠れていても、このAIはそれらの部分がどのように見えるかを推測してギャップを埋めることができます。
最後に、シーン内のオブジェクトが互いに現実的に相互作用することも確認します。これを行うために、関係グラフを使用してシーン内のオブジェクトの関係をマッピングします。例えば、ここではギターがクーラーに寄りかかっており、ウェットスーツがバンに掛けられているなどです。この関係グラフから、制約グラフも生成し、すべてのオブジェクトのポーズを最適化して物理的な一貫性を確保します。
これらのステップをすべて組み合わせた後、画像から非常に正確な3Dシーンを作成できます。これらの例で見ることができるように、各生成にはまだいくつかの小さな微妙な不完全さがありますが、このAIが1枚の画像から3Dシーンを生成でき、さらには推測して発明しなければならないシーンの背面も正確に生成できるという事実は、私にとっては非常に驚くべきことです。
ページの一番上までスクロールすると、コードがまもなく利用可能になると記載されているため、オープンソース化されるようです。現時点では、詳細を知りたい方のために、このメインページへのリンクを説明欄に載せておきます。
次に、これは非常に興奮するものです。AlibabaがOne 2.1をリリースしました。これは現在使用できるオープンソースの動画ジェネレーターの中で最も優れたものです。興味深いことに、以前はOneXと呼ばれていましたが、それが理由でOneに変更されたのだと思います。いずれにせよ、このモデルは本当に印象的です。
これらの例で見ることができるように、このようなとても一貫性のあるダンス動画を作成でき、人体の解剖学と動きについての理解も非常に優れています。こちらは別の印象的なデモです。複雑な動きを本当によく理解していることがわかります。さらに、このような戦闘シーンさえ再現できます。最も優れた商業モデルでさえ、一貫性のあるリアルな戦闘シーンを生成できないことに注目してください。これは信じられないほど印象的です。
さらに、物理学も非常によく理解しています。ここにトマトを切る犬がいて、トマトをどれだけ正確に切るかを見てください。最も優れた商業モデルのほとんどでさえ、これを正しく再現することはできません。
こちらはディズニー・ピクサー風の3Dアニメーションの例です。シーンが非常に複雑で詳細であっても、見事に処理しています。また、この水中爆発も非常にリアルに見えます。
さらに多くのことができます。一種のControlNetとして使用することもでき、シーンを入力してから、そのシーンの動きと構造を新しい生成に変換することができます。また、あるシーンからポーズを新しいシーンに転送することもできます。
インペインティングも可能です。例えば、このライオンを選択し、クマに置き換えることができます。アウトペインティングも可能で、これが元の動画であれば、動画の両側を拡張して、右側に追加のバイオリン奏者、左側にピアニストを追加するよう依頼できます。非常に印象的です。
さらに、動画に挿入したいキャラクターやオブジェクトの参照画像を入力することもできます。したがって、非常に柔軟なツールです。
最も良い点は、画像を動画に変換できることです。エッフェル塔のこの画像を開始画像として入力し、空に花火がある動画を生成できます。1枚の画像をアップロードするだけでなく、2枚の画像（開始画像と終了画像）をアップロードすることもでき、それから魔法のように動画を生成します。
素晴らしいのは、ダウンロード可能なモデルがすでにHugging FaceやModelScopeで利用可能であることです。これまでに4つのモデルをリリースしています。テキストから動画への2つのモデルがあり、1つは140億のパラメータを持ち、480pと720pの両方をサポートし、もう1つは13億のパラメータの小さいバージョンで480pの動画を生成できます。この小さいモデルの良い点は、約8GBのRAMしか必要としないため、ほとんどの一般的なGPUと互換性があることです。
また、画像から動画へのモデルもリリースしており、これらは開始フレームと終了フレームとして画像をアップロードできるモデルです。これら2つのモデルは140億のパラメータを持ちますが、1つは720pをサポートし、もう1つは480pをサポートしています。こちらはもちろんはるかに速く動作します。
さらに良いニュースがあります。Gradioデモ（ターミナルでコードを操作することなく使用できるグラフィカルインターフェイス）をリリースしただけでなく、テキストから動画および画像から動画への変換のためのComfyUI統合もリリースしています。したがって、すぐにComfyUIワークフローに簡単に統合できます。非常に興奮します。
実際、ComfyUIでの設定方法について完全なチュートリアルを希望する場合は、以下のコメント欄でお知らせください。十分な関心があれば、完全なビデオを作成するかもしれません。
そして最も良い点は、これがApache 2.0ライセンスの下にあることで、商業的使用を含め、基本的に何でもできるということです。
これがどれだけ優れているかを示すために、VBenchと呼ばれるこの動画モデルランキングを見て、総合スコア順にソートしてみてください。最新バージョンのOne 2.1が現在トップにランクされていることに注目してください。Sora、Luma MiniMx、Gen 3よりも優れており、これらはすべてクローズドな商業モデルです。これは信じられないほど印象的です。
すべてのリンクはここにあります。詳細を知りたい方のために、このGitHubページへのリンクを説明欄に載せておきます。
次に、これはおそらくこの動画で最も役立つAIです。Theorem Explain Agentと呼ばれ、数学や科学の複雑な概念を説明するための動画を生成できます。アニメーションを生成するだけでなく、概念全体を説明するナレーションも作成します。
いくつかの例を見てみましょう。こちらは化学の例で、発音の仕方さえ分からない方法を説明しています：
「消化ステップから始めましょう。反応物の均一な加熱と効率的な混合を容易にするように設計されたフラスコに注目してください。反応物インジケータは、有機物の分解に不可欠な酸と触媒を表しています。次に蒸留ステップを見てください。ここでは、丸底フラスコが曲がった管を通じてコンデンサーに接続され、蒸気の流れを効率的に導きます。このメカニズムは、窒素化合物を消化物から分離します。最後に滴定ステップが示されています。ここに示されているビュレットは、滴定液を制御された方法で放出します。窒素濃度の定量において、1滴1滴が重要です。」
動画は5分以上続きますので、最初の数秒だけお見せします。完全な動画を見たい方のために、このページへのリンクを説明欄に載せておきます。
こちらは物理学の例です。この動画も非常に長く、6分以上続きますので、最初の数秒だけお見せします：
「シーン1、幾何ブラウン運動の紹介へようこそ。画面上部にタイトルが表示されるのに注目してください。この概念は金融と物理学の多くのモデルの中心にあります。幾何ブラウン運動（GBM）は連続時間確率過程です。これは、予測可能なトレンドとランダムな変動の両方に影響される、時間とともに連続的に進化するシステムを記述することを意味します。これらの主要要素を分解しましょう。画面の右下隅に表示される株価チャートに注目してください。わずかなランダムな変動を持つラインが、株価が取引日の間にどのように進化するかを反映していることに注目してください。この視覚化は、抽象的な確率過程と市場の具体的な動作との間の接続を確立します。」
こちらはコンピュータサイエンスの例で、勾配降下法を教えています。これは人工知能と機械学習において非常に重要な用語です：
「勾配降下法を理解するために、このようなグラフを想像してください。X軸はパラメータを表し、Y軸はこれらのパラメータに関連する損失を示しています。ここで、損失関数を追加します。これは私たちのパラメータの選択が良いか悪いかを教えてくれる曲線です。私たちの目標は、損失が最小化されるこの曲線の最も低い点に到達することです。
それでは勾配降下法の動作を見てみましょう。私たちは高い損失値のここから始めます。アルゴリズムは曲線の傾斜に沿って小さなステップを踏み、徐々に下方へ移動していきます。」
このツールは、数学や科学の複雑な概念を理解する人々を助けるのに非常に役立ちます。特に聴覚的または視覚的な学習者であれば、これは真のパラダイムシフトです。
その仕組みはこうです。アーキテクチャは2つのエージェントで構成されています。まず、説明してほしい定理や概念を入力すると、それはプランナーエージェントを通過し、スクリプト、ストーリーボード、視覚的要素を含む動画の計画を作成します。次に、それがコードエージェントに渡され、動画を作成するためのコードが生成されます。基本的に、これらの視覚化を作成するのを助けるManumというツールを使用しています。
素晴らしいのは、これが単なるエージェントフレームワークであり、どのAIモデルでも組み込めることです。実際に、GPT-4o、Claude 3.5、Gemini 2、O3 miniなど、多くのAIモデルをテストしています。これが完全な動画生成の成功率に関する結果です。ここでの勝者はO3 miniで、90％以上の確率で完全な動画を生成できることに注目してください。一方、リフレクションなしではすべてのモデルのパフォーマンスはかなり悪く、ほとんどが50％未満の成功率です。
こちらは、関連性と深さに関するいくつかの品質メトリクスです。興味深いことに、Gemini 2.0 Flashが視覚的関連性において最高のパフォーマンスでした。Claude 3.5 Sonnetが最高でした。こちらは論理的流れの勝者、そしてこちらは視覚的一貫性の勝者です。興味深いことに、Claude 3.5 Sonnetは最も低い成功率でしたが、動画品質の点では最も高い総合スコアを持っていました。
ページの上部までスクロールすると、すでにHugging Faceにトレーニングデータセットを公開しているようです。このGitHubリポジトリをクリックすると、昨日追加されたばかりのようです。まだ構築中のようですが、「このリポジトリには私たちの論文のコードベースが含まれる予定です」と記載されています。したがって、MITライセンスの下でオープンソース化される予定です。それが実現すれば、特に聴覚的および視覚的な学習者にとっては、数学や科学のこれらの難しい概念を学ぶ方法に革命をもたらすと思います。詳細を知りたい方のために、このメインページへのリンクを説明欄に載せておきます。
次に、Deperceptionという本当にクールなAIがあります。これは基本的に画像を取り込み、様々な知覚タスクを実行できます。例えば、画像の深度を推定できます。これらの画像を挿入すると、これらの画像の深度マップを非常に正確に生成できます。
また、法線推定も行うことができます。これは基本的に画像内の表面の向きを推定することです。これらのシーンのほとんどは非常に複雑であることに注目してください。例えば、これらの画像にはたくさんの要素がありますが、すべてのこれらの画像のすべてのオブジェクトの表面の向きや法線を非常に正確に推定することができます。
また、エンティティセグメンテーションと呼ばれるものも行うことができます。これは基本的に、画像内のさまざまなオブジェクトを識別して分離することです。例えば、卵のバスケットがあるとします。各卵とバスケットを非常に正確にセグメント化できることに注目してください。
こちらはさらに難しいシーンです。このシーンにはバゲットやペストリーがたくさんあり、かなり雑然としていますが、すべてを非常にうまくセグメント化できます。時計のシーンや複数の人々のシーンでも同様です。背景にいる、かなり暗くて見づらい人々でさえ、全員を非常にうまくセグメント化できます。
セグメンテーションといえば、セマンティックセグメンテーションも行うことができます。ここでは、分離したいオブジェクトを指定します。例えば、「ワイングラス」と言えば、この画像のワイングラスのみをセグメント化します。あるいは「バナナ」というプロンプトを与えれば、この画像のバナナのみをセグメント化します。
こちらは印象的な例です。「人」というプロンプトを与えると、背景のこの人も含め、シーン内の人々のみをセグメント化することに注目してください。しかし、このタイプの手にあるカメラなどの他のオブジェクトや、サーフボード、タイプや子供が持っているオブジェクトはセグメント化しません。したがって、セグメンテーションのための非常に正確で強力なツールです。
こちらは別の難しい例で、「オレンジ」というプロンプトを与えると、ここにあるオレンジと、あそこにあるオレンジをセグメント化することを知っていますが、この画像のリンゴや他の果物は無視することを知っています。
最後に、画像内のすべての人のポーズを推定することもできます。こちらはいくつかの例です。このように様々なポーズで多くの人がいるシーンでも、非常にうまく処理できます。このスノーボーダーのシーンでも同様で、その姿勢を非常に正確に推定できます。背景で部分的に隠れているこのタイプでさえ、これらのキャラクターすべての姿勢を非常にうまく推定できます。
ちなみに、セグメンテーションに使用すると、髪や毛皮などの詳細を保存するのも非常に優れています。過去にPhotoshopを使ったことがあれば、このような物をセグメント化することがいかに難しいかを知っているでしょうが、この新しいAIはそれを非常に簡単にします。
さらに、画像を明るくする、あるいは医療画像をセグメント化するなど、他のタスクを実行するためにこのモデルを調整することもできます。素晴らしいのは、約50枚の写真の小さなデータセットしか必要とせず、それだけでモデルがあなたが教えているタスクを学習するのに十分だということです。すべてのリンクはここにありますので、詳細を知りたい方のために、このページへのリンクを説明欄に載せておきます。
次のAIは本当にクールです。Mobiusと呼ばれ、テキスト記述から無限に完璧にループする動画を生成できます。シーンを説明するだけで、Mobiusはその連続的なループで動画を作成します。
いくつかの例を見てみましょう。ここでは「葉を噛むコアラ」を依頼しています。上部にあるフレームカウンターに注目してください。このカウンターは50まで行き、その後1に戻ります。これはループの先頭に戻ることを意味します。しかし、クリップの終わりから始まりへの遷移を見ることができないことに注目してください。非常にスムーズです。このフレームカウンターなしでこの動画を再生し続けると、それがループであることはほとんど分からないでしょう。したがって、これは終わりのないループ動画を作成するとても良い方法です。
こちらは、フルーツをスムージーに混ぜるミキサーの別の例です。ここでも、左上隅にフレームカウンターがあります。50に達して1に戻ったとき、遷移が完全にスムーズであることに注目してください。ここでも、それがループであることはほとんど分からないでしょう。
これは興味深いものです。ビーチを走る女性がいます。これからループ動画を作成できるか見てみましょう。はい、できます。非常に印象的です。
こちらは別の難しい例で、スキーをする人がいます。完璧なループ動画を作成できるか見てみましょう。ここでも、遷移は絶対的に完璧です。非常に印象的です。
良い点は、各ループの長さも指定できることです。例えば、左には50フレームのループがあります。つまり、繰り返される前に50フレームあるということです。中央には100フレームあり、最後の動画には150フレームあります。これにより、多くの柔軟性が得られます。
こちらは花火を示す別の例です。ここでも、左のループは50フレーム、中央のループは100フレーム、右のループは150フレームです。花火のような複雑なものでさえ、遷移、つまり基本的にループが絶対的に完璧であることに注目してください。少なくとも私には、この動画がいつ最初から再開するのかを言うことはほとんど不可能です。
このページにはさらに多くの例があります。詳細を知りたい方のために、このメインページへのリンクを説明欄に載せておきます。
コメント欄で、どのニュースが一番気に入ったか、どのツールを最も試してみたいか教えてください。いつものように、最高のAIニュースとツールを探して皆さんと共有します。この動画を楽しんでいただけたなら、「いいね」をして、共有して、チャンネル登録して、さらなるコンテンツをお楽しみに。ご視聴いただきありがとうございます。また次の動画でお会いしましょう。
この分析に興味を持ち、現在の地政学的問題の理解をさらに深めたい場合は、私の新しいチャンネル「Vision Actu」をチェックしてみてください。そこでは、この話題や私たちの現在と未来を形作る他の多くの話題についての深い分析を見つけることができます。両方のチャンネルをぜひ登録して、何も見逃さないようにしてください。また分析でお会いしましょう。