発狂するような5つのAIツール登場…予想よりも速い速度で進化している

7,838 文字

5 outils IA de folie viennent de sortir… et ça va beaucoup plus vite qu’on ne le pense.

🚀 Apprenez l'IA sous toutes ses formes et rejoignez la communauté VISION IA ! 📧 Rejoignez ...

AIは日々進化しており、今週は完全に狂気の一週間でした。オープンソースのビデオジェネレーターが一つではなく二つも新しく登場しました。また、新しい画像編集ツールも登場し、これまで見た中で最高のものです。さらに別の新しいAIでは、動画内のキャラクターの動きをコントロールすることさえできます。
今日は、信じられないほど素晴らしいAIツールをお見せします。この動画でご紹介するものはすでにアクセス可能で、利用可能であり、さらにオープンソースでもあります。もしクリエイティブAIがどこに向かっているのか、そして誰よりも先にそれをどう活用できるかを本当に理解したいなら、最後までお付き合いください。この動画はあなたの興味を引くでしょう。
始める前に、視聴中に動画が気に入ったら、まだでしたらチャンネル登録をするか、いいねをするのを忘れないでください。これはチャンネルの成長に大きく貢献します。また、ニュースレターも始めましたので、登録していただければ月曜から金曜まで最新情報のまとめをメールでお送りします。TwitterのXでもフォローできますので、リンクは動画の説明欄にあります。それでは、今日のトピックに早速取り掛かりましょう。
まず最初のツールから直接本題に入りましょう。新しいAIが登場し、それは非常に強力です。「Dream O」と呼ばれ、単純な参照写真から超精密な画像を生成できます。物体やキャラクターを見せると、想像するどんな文脈にも配置できます。
これがツールのプレゼンテーションページです。例えばこのぬいぐるみを見せ、山岳風景の中でプラカードを持っているように指示すると、こんな結果が得られます。これは大まかな方法ではなく、画像は元のキャラクターの細部まで忠実です。
後ほど見ますが、このAIは認識して、プロンプトの指示に従いながら一貫した構図にすべてを組み立てます。はい、入力するプロンプトがあります。この二つ目の例では、入力を混ぜることもできます。ここにフィギュアがあり、別のフィギュアがあり、それらを一緒に配置できます。
さらに進んで、ビジュアルスタイルを混ぜることもできます。この例では、お城があり、芸術的な煙のあるカラフルな写真を追加すると、このAIは与えられたお城をスタイル化したバージョンで、まるで夢から出てきたようなイメージを提供します。
もちろん、変換も処理します。例えば、通常の人物写真をピクセルアートに変換できます。アクセサリーを追加することもできます。ここに3つの参照画像があり、この人物に着せることができます。
この時点で理解されていると思いますが、このツールにおける言語理解のレベルは単純に驚異的です。ページを下にスクロールすると、たくさんの例があります。リンクは説明欄にありますが、これらすべてを見るのは非常に興味深いです。様々なユースケースがあります。顔を画像に変更したり配置したりできます。ここでAIの創設者の一人であるHtonが胸像として表現されています。服を試すこともできます。AIに服を入力すると、人物に着せた状態で表示します。
これも非常に重要ですが、スタイルを変更できます。入力画像のスタイルを変更できます。また、複数の条件、つまり複数の入力画像を組み合わせることもできます。
これらの最新AIツールを紹介する動画では、しばしばHuggingFaceでパブリックデモが利用可能です。ここにリンクがあり、GitUpの一番上に戻ると、HuggingFaceデモボタンもあります。クリックするとこのAIを使用できるインターフェースに到着します。ここで参照画像をアップロードし、プロンプトを入力し、画像サイズを選択し、いくつかのパラメータを調整すれば準備完了です。
いつものように、このチャンネルの伝統として、Sam Altmanの例でこのAIをテストしてみましょう。Googleで「Sam Altman」と検索しました。これが画像です。これをソフトウェアに入れます。プロンプトを入力します。「サングラスをかけてステージ上にいる」と入れます。
よく言いますが、英語で書きます。このAIは英語の方が好みます。フランス語でも機能しますが、英語の方が良い結果が得られます。ChatGPTを使って英語に翻訳することもできます。これで何も触れずに、生成ボタンをクリックして何が出てくるか見てみましょう。
これが結果です。ステージ上にいませんので、正しい結果を得るために何度か生成し直す必要があるでしょう。次の例として、猫の画像とGPUグラフィックカードの画像を入れます。これらはすべてGoogleで見つけました。
「猫がスーツを着て、グラフィックカードを持っている」と入れます。何も触らずに生成ボタンをクリックします。これが結果です。指示したオブジェクトを持った被写体があります。詳細は驚くほど素晴らしく、グラフィックカードにロゴが再現されています。
もう一度生成ボタンをクリックすると、別の例が見られます。今回はさらに良い例が出てきました。生成ボタンをクリックするだけで10秒かかりました。1生成あたり10秒で、非常に高速です。ぜひ試してみてください。
非常にクリーンで、鮮明で、正確です。今すぐ利用可能で、すべてオープンソースです。GitHubからモデルをダウンロードして、ローカルマシンで実行することもできます。リンクは動画の説明欄にあります。
次は別の完全に狂ったAIに進みましょう。「Flexy Act」と呼ばれ、単なる画像からでも、動画の動きを別のキャラクターやオブジェクトに転送できます。はい、聞いたとおりです。理解できるでしょう。ここに参照動画、参照画像、そして両方を組み合わせた出力動画があります。
ここで多くの例が示されています。これを見てみましょう。スクワットやヨガをしている人の動画があります。別の人の画像を与えると、ここで見られるように、入力した画像がスクワットをしている動画が作成されます。
見てください、作者も同じアイデアを持っているようです。ここにMalmaがいます。これは彼がCharGPT4を発表した非常に有名な会議からのものです。彼がスクワットをしているのを見てください。そしてそれはすべてに機能します。実在の人物、2Dキャラクター、3Dキャラクター、入力するものすべてです。
はい、動画のポーズと動きを取り、それを開始画像に適用します。ここで別の例を見てみましょう。おそらくいくつかの俳優を認識できるでしょう。すでに言ったように、これは動物にも機能します。動物専用の例がたくさんあります。
動物での例は印象的です。動画で動いている犬がいて、このAIはその動きを私たちのペットの写真に転送できます。視点が異なっていても。この基本画像では、初期位置はまったく同じではありません。
それでも動きは保持されます。それだけではありません。逆も可能で、人間を撮影し、それをトラや鳥などに適用することもできます。これが示されています。ここに参照動画があり、その動きを下のトラに転送します。
これが「人間から動物への転送」と呼ばれるものです。最後に、他の多くの例が示されています。技術的には、アーキテクチャは2つの主要な要素に基づいています。ここで見られる参照アダプター（動画の空間構造をターゲット画像に適応させるもの）と、FAE（フリークエンシー・アワレ・ベンディング）と呼ばれるツールで、印象的な精度で動きを抽出し、入力する画像に流暢に適用します。
すべてオープンソースですので、今すぐ使用できます。一番上に戻ると、論文、モデル、コードがあります。コードをクリックすると公式GitHubに移動し、使用方法が説明されています。インストール、ダウンロード、トレーニングスクリプト、すべてあります。詳しく見たい方は、完全なリンクが説明欄にあります。
次のツールです。ここでは別の次元に入ります。このAIは単にすでに業界で知られている伝説になりつつある、あるいはすでに伝説となっているものです。Tencent Hunganによる新しいAIビデオ生成モデルで、これは大したものです。Tencentは中国の技術大手の一つであり、多くのオープンソースを提供しています。
彼らは最高のオープンソースビデオジェネレーターの背後にいます。この新しいツールは、TencentのチームによるHan Customです。これが可能にするのは本当に素晴らしいです。具体的には、参照キャラクターやオブジェクトを動画に統合できます。
今回は超精密で一貫性を持っています。これは彼らのビデオジェネレーターの次のステップと言えます。これらの例を見てください。女の子の写真を読み込み、希望するシーンを説明します。下に使用されたプロンプトがあります。
「リビングルームでぬいぐるみやおもちゃで遊んでいる」。これが結果です。さらに印象的なのは、このモデルの画像があり、「賑やかな通りでセルフィーを撮る。片手に電話、もう片方で平和サイン」と指示します。結果を見てください、信じられないでしょう？
彼女のTシャツには「hunan」という言葉さえ書かれています。視覚的な一貫性は驚異的です。動物でも機能します。ここにプードルがあり、「犬が公園で猫を追いかける」と書きます。こうしてシーンが生成されます。
画面でご覧のように、オープンソースでローカルで実行できるツールとしては、かなり驚異的な例がたくさんあります。下では、同じ動画に複数の参照画像を混ぜることもできます。ここに女性の参照画像と猫があり、画面に見えるような設定でこの猫を描くよう指示します。
この例では、チップスのパッケージが与えられ、マーケティングに最適です。この製品を販売する大きなブランドだとしたら、これを行うことで多くのお金を節約できます。ここで見られるように衣装を変更することもできます。
入力画像に衣装があり、結果は女性が着用を希望する衣装を着ています。同様に、キャップを与えて着用させています。これは本当に非常にクリーンですが、さらに進んでいます。すでに存在する動画を変更できます。
ここにかなり狂った例があります。例えば、レストランで自撮りしたような参照画像があります。これをAIに入れると、さまざまなシーンに自分を配置できます。朝食を食べているシーンや、少しバグっているような動画の例、あまり自然に見えないものもあります。
デスクで仕事をしている場面などがあります。原理はわかりましたね。私はこれが現在のオープンソースの世界、さらには有料の世界においても、かなり驚異的だと思います。これらをよく知っている私からすると、有料のAIでさえ今日これを行うのはとても苦手です。
Tinenは非常に強力な一手を打ちました。さらに別の例を見てください。ここに参照画像があり、さまざまな状況に配置された人物がいます。ご理解いただけたと思いますが、単純な写真だけで、望むことをするキャラクターを生成できます。このペースでいくと、数ヶ月以内に100％AIで生成された短編映画を見ることになるでしょう。正直なところ、一貫したキャラクター、信頼性のあるショット、そして確信していますが、説得力のあるストーリーさえも。
例えばこの例を見てください、本当に強力になり始めています。単純な写真で、今日何ができるでしょうか？そして本当にすべてに機能します。ここでぬいぐるみ、つまり販売できる製品が与えられています。また、入力として動画も与えられています。
画像参照だけでなく動画でも機能すると言ったとおりです。ここに動画があり、このぬいぐるみをこのぬいぐるみに置き換えるよう指示しています。これが結果です。正直、どうですか？私は感銘を受けています。女性がぬいぐるみに触れるディテールを見てください、まるでモデルが物理的な理解を持っているかのようです。非常に印象的です。
もちろん、このページには多くの例が示されています。リンクは動画の説明欄にありますので、見てみたい方はどうぞ。非常に興味深くなり始めています。この例はかなり驚異的で注目に値します。これはAmazonなどですぐに使えるような動画です。例えば服やインターネット上の何かを販売している場合。
すべてが利用可能だと言いましたが、ローカルで実行できますが、正直言って、必要な構成を持っている人はほとんどいません。GitHubを見ると、モデルはアクセス可能ですが、60GBのVRAMが必要です。つまり、明らかに少数の人しか持っていない機械が必要ということです。
しかし安心してください、理由なくお話ししているわけではありません。オープンソースコミュニティはすでにこのモデルを最適化しています。Frame Packでも同じことをしました。覚えているかもしれませんが、それは画像を動画に変換するAIで、一般的な構成、つまり4GBのVRAMを持つグラフィックカードでも実行できました。必要なのはNVIDIAカードだけでした。
あの動画では、ローカルでのインストール方法、誰でも使用できる方法、そして素晴らしく機能する方法を説明しました。このFrame PackはHuyanに基づいていることを知っておいてください。つまりTencentのビデオジェネレーターですが、このバージョンではなく前のバージョンで、最初は膨大なVRAMが必要でしたが、人々はそれを変換して誰もが使用できるようにしました。
オープンソースコミュニティが全力で取り組んでおり、まもなく誰もが使用できるバージョンが到着します。興味があれば、この件については動画を作成する予定です。本当に興味深いAIです。
次のツールは単に実用的というだけでなく、魔法のようなものです。「Pixel Hacker」と呼ばれ、文字通り一瞬で画像の一部を消去または完成させることができます。消去というと、まるでその要素が存在しなかったかのようになります。ここでインタラクティブなデモを作成しています。マウスを上に持っていくと、AIを適用した後に画像内の選択されたオブジェクトが消えます。
ここに飛行機があり、マウスを上に持っていくと消えます。同様にここに3人の人がいて、マウスを上に持っていくと消えます。そして本当に背景の画像に忠実です。このように多くの説得力のある例が示されています。
非常に複雑なシーンも処理できます。ここに背後に多くの人がいる人物がいて、消えます。同様にこれも背後に多くの人がいますが、マウスを上に持っていくと消えます。これもです。これはおそらく最も印象的なものです。
中国の大都市にいて、マウスを上に持っていくと誰もいなくなり、背後は一貫性があります。Photoshopでこれをするのは現実的に見えます。頑張れば数日かかるでしょうが、可能かどうかさえ確信がありません。私はPhotoshopでこれができるとは思えません。
この例を見てください。群衆の中に子供がいて、マウスを上に持っていくと群衆が消え、まるで最初から誰もいなかったかのようになります。このような例はたくさんあります。人々の顔だけを変更する例も示されています。
顔を選択し、顔を変更します。例えば、この人物を笑顔にしたい場合、顔を選択し、笑顔にするよう指示すると笑顔になります。同様に髪型を変更したい場合、髪型が変わります。こうした例は豊富にあります。
すべてを探索してみてください。このAIの背後にいるチームは、このモデルのオープンソースリリースを準備しています。「コード準備中」と書かれています。これはOnezong Universityによるもので、すでに多くのオープンソースモデルを提供しています。これはかなり信頼性が高いので、このAIがまもなく利用可能になると期待できます。興味があれば、Xでお知らせします。
ぜひフォローしてください。ここでほぼ毎分何が起こっているかをお知らせしています。利用可能になったらお知らせします。いずれにせよ、リンクは動画の説明欄にあります。
AIによる画像編集の世界にさらに新しいものが登場しました。「Zen Control」です。正直言って非常に実用的な無料の宝石です。マーケティングに携わっているなら、これを聞くべきです。このAIは、単一の参照写真から新しい画像を生成できます。それがオブジェクト、製品、またはキャラクターのいずれであっても。この例を見てください。ここに製品の画像があり、これは簡単です。
AIはそれをほぼ完璧にシーンに配置します。非常に印象的です。別の例では、製品があり、製品のすべての詳細を保持したまま配置します。すべてに機能し、ここで見られる家具にも機能します。シーンに配置された家具があります。
同様にシーンに配置された車もあり、車の詳細が保持されています。このAIのパワーは、角度、影、反射などをよく理解していることです。証拠として、異なるタイプのシーンで同じ製品の配置があり、光と影の遊びは現在のAI世界で行われていることとしては非常に説得力があります。
ソーシャルメディアを閲覧していると、広告を見かけることがあり、その広告には製品が配置されています。今では、これらの製品がAIによって配置されているかどうか疑問に思ってください。マーケティングの世界では、多くの人がこれを使用しています。
例えば、このように配置されたバッグがあります。同様に、すでに使用できます。HuggingFaceのレポジトリがあり、クリックするとモデルを使用するインターフェースに到着します。サイトには表示されていなかった他の多くの例もあります。
これはかなり印象的です。有名ブランドの靴を入れると、このように配置します。今日AIでできることは印象的ではないでしょうか？
今日、私たちは信じられないほどのツールを見てきました。今週はかなり狂った週でした。正直言って、オープンソースツールについては、今週信じられないものを見てきました。あなたは何が最も印象的だと思いましたか？コメント欄でお知らせください。すべてのコメントを読んでいます。
もちろん、全員に返信することはできませんが、読んでいることを知っておいてください。動画が気に入ったら、チャンネル登録を忘れないでください。チャンネルの成長に大きく貢献します。いいねをつけたり、動画をシェアしたりするのも忘れないでください。TwitterのXでフォローできることを思い出してください。そこでは毎分、毎時間すべてをカバーしています。
ぜひ立ち寄ってみてください。Twitterに興味がなければ、ニュースレターを用意しました。月曜から金曜まで最高のテック要約をメールでお送りします。また、すべてのトレーニングリンクは動画の説明欄または固定コメントにあります。
ご覧のように、AIの使い方を学ぶには今が最高の時期です。ツールは毎日あらゆる方向から常に登場し、ますます強力になっています。進行中の列車を逃さないでください。いずれにせよ、ここまで動画を見ていただきありがとうございます。また近いうちに、つまり明日の次の動画でお会いしましょう。またお会いしましょう。