AIの没入型ビデオ、AIアクター、3Dプリンタブルロボット、新しいAI画像エディタ、フルモーショントランスファー

AGIに仕事を奪われたい
この記事は約25分で読めます。

14,461 文字

360° AI videos, new image editors, full body control, open-source robots, new deepfakes
INSANE AI news: Hunyuan Custom, DreamO, HoloTime, FlexiAct, LTX Video, Berkeley Humanoid Lite #ai #ainews #aitools #aivi...

AIは休むことなく進化し続け、今週は本当に驚くべき展開がありました。画像に参照キャラクターやオブジェクトをシームレスに追加できる新しいAIツールが2つも登場しました。さらに驚くべきことに、動画に参照キャラクターやオブジェクトを追加して、あらゆる動作をさせることもできます。また、動画内のあらゆるオブジェクトを置き換えることも可能です。
このAIは、複雑で混雑したシーンであっても魔法のように何でも消去できます。さらに、バーチャルリアリティや拡張現実に使用できる4Dシーンを作成する新しいAIも登場しました。加えて、誰でも3Dプリンターを使って作れるオープンソースのロボットなど、他にも多くの進展がありました。では、早速見ていきましょう。
まず最初は、非常に強力なAIである「Dream O」です。これはどんなキャラクターやオブジェクトの参照写真でも使って画像を作成でき、信じられないほど正確です。例えば、このブタのキャラクターの画像があり、「空で戦闘機を運転している」とプロンプトすると、このような結果が得られます。
あるいは、このぬいぐるみがあり、「山の上でDreoと書かれた看板を持っているおもちゃ」とプロンプトすると、これが結果です。そして、このキャラクターがいかに正確かを見てください。まさにそのおもちゃそのものです。さらに、同じ写真に複数の参照画像やオブジェクトを追加することもできます。ここにその例があります。
最終画像では両方のキャラクターが非常に正確に描かれていることに注目してください。同じ写真に2つのキャラクターを追加するもう一つの例です。また、この女性が騒がしい現代都市で巨大な犬に乗るようなこともできます。また、ある写真のスタイルを別の写真に適用するのも得意です。
例えば、この城とこのカラフルな煙があるとします。このスタイルを城に適用すると、こんな感じになります。もちろん、キャラクターに帽子やサングラスを追加することもできます。また、写真のスタイルを変更することもできます。これが元の画像であれば、彼女をこのようなピクセルアートに変えることができます。
あるいは、公園で彼女が頭の上でおもちゃを持ち上げているという別の例もあります。つまり、オブジェクトやキャラクターの参照画像を転送するのが得意なだけでなく、プロンプトの理解も得意ということです。素晴らしいのは、試せるHugging Faceデモをリリースしていることです。
ここは1つか2つの参照画像をアップロードする場所です。そしてここはプロンプトを追加する場所です。ここは最終画像の寸法を指定する場所です。そしてステップ数は基本的にAIが画像を生成する前に実行するイテレーションの回数です。
一般的に、ステップ数が多いほど品質は良くなりますが、ある時点から収穫逓減になります。つまり、ここでの最適なポイントは12ステップのようです。そしてガイダンスは、AIがどれだけ文字通りあなたのプロンプトに従うかということです。値が高いほど文字通りにプロンプトに従い、値が低いほど創造性を発揮できます。
これはデフォルトの3.5のままにしておきます。いくつか例を試してみましょう。この女性の画像をアップロードして、「彼女はビーチでサングラスをかけている」と書きます。そして1024×768に設定し、生成を押します。これが結果です。ご覧のように、キャラクターをこの画像から分離し、ビーチでサングラスをかけさせました。とても素敵です。
もう一つ試してみましょう。これをアップロードし、2番目の画像としてこのGPUをアップロードします。そして「白いタキシードを着た猫がGPUを持っている」と書きます。幅を768に設定します。これの結果を見てみましょう。とても素敵です。参照写真と同じ猫がいて、GPUも持っています。非常に印象的です。
素晴らしいのは、すでに全てをリリースしていることです。このGitHubリポジトリを少し下にスクロールすると、ダウンロードして自分のコンピューターでローカルに使用する方法についての全ての指示が含まれています。興味があれば、詳細を読むためのリンクを説明欄に記載します。
次に、このAIは非常にクールです。「Hollow Time」と呼ばれ、1枚の画像やテキストプロンプトから4Dシーンを生成し、バーチャルリアリティや拡張現実での没入型体験を可能にします。
4Dシーンという言葉に混乱する人が多いかもしれませんので、簡単に説明します。4Dシーンは基本的に3Dビデオです。そして4次元とは時間のことです。ここに、1枚の画像をアップロードして4Dシーンを生成できる例があります。このシーンが3Dであることに注目してください。
VRメガネなどを使ってシーン内を移動できます。さらに、波のように動いているのがわかるように、ビデオも動いています。これが4Dシーンといわれる理由です。パノラマ画像をアップロードして4Dシーンを作成できる別の例もあります。あるいは、もう一つの例もあります。3D世界を手動で構築するのに何時間も何週間もかける代わりに、この画像をAIに入力するだけで、完全に没入感のある動く3D世界を作成できます。
もう一つの例があります。これはかなりクールです。そして、空に北極光がある例です。3D世界を生成できるだけでなく、北極光をかなりリアルに動かすこともできます。4Dビデオを生成する代わりに、パノラマ画像をアップロードしてパノラマビデオを生成することもできます。
その例がこちらです。ご覧のように、この道路上の車を素晴らしく動かしています。花火のパノラマ画像の別の本当に難しい例があります。AIは花火をかなりうまく動かすことができました。ただし、私が見つけた欠点の一つは、人間が本当に動いていないことです。そして、キャンプファイヤーの周りにいる人々の別の本当にクールな例があります。
そして別の例もあります。先ほど述べたように、これは画像を取り込んでそこからビデオを生成するだけでなく、テキストプロンプトを使用してパノラマビデオを生成することもできます。いくつかの例を紹介します。これはアイルランド文化で幸運のシンボルである植物を見せてくださいというプロンプトで、クローバーが得られます。これはインドで深い文化的・宗教的意義を持つ花です。プロンプトは画像に生成したい正確なオブジェクトを述べるのではなく、世界知識の理解をテストするようなかなりトリッキーなものであることに注目してください。
さらに、画像品質はそれほど良くないことにも注目してください。特にGPT-4oのようなトップ画像ジェネレーターと比較するとそうです。したがって、この段階では本当に使えるとは思いません。しかし、思考チェーンの推論を画像ジェネレーターに組み込むというこのデザインは本当に興味深いです。だから、簡単に共有する価値があります。
このGitHubリポジトリでは、コンピューターでダウンロードして実行する方法についてのすべてのコードをリリースしています。興味があれば、詳細を読むためのリンクを説明欄に記載します。
次に、このAIも非常にクールです。「Flexi Act」と呼ばれ、あるビデオの動きを別のビデオに転送することができます。いくつかの例を見てみましょう。
左側にこの参照ビデオがあるとします。任意の他のキャラクターの画像を入力し、このAIに差し込むだけで、その動きを新しいキャラクターにこのようにマッピングします。そしてリアルか2Dか3Dかは関係ありません。参照ビデオに従ってキャラクターをかなりうまくアニメーション化できます。
他の例もいくつかあります。最初の行では、スクワットをしているこの女性の入力ビデオがあれば、彼女の動きを1枚の画像だけで他のキャラクターに転送できます。例えば、ステージでスピーチをしているSam Altmanの画像をこのAIに差し込むと、代わりにスクワットをさせることができます。
そして、Trumpにも同じことができます。あるいは、この中央の行では、この女性がボクシングをしています。そして再び、彼女の動きを1枚の入力写真だけで他のキャラクターに転送できます。そして最後に一番下の行でも同じです。それがマリオのような2D画像であっても、体がはるかにコンパクトであっても、この女性の動きをかなりうまく転送することができます。
クールなのは、人間だけでなく動物にも適用できることです。動物の動きの参照ビデオを撮って、それを他の動物に転送することもできます。さらに、異なる角度や視点でも機能することに注目してください。例えば、最上段のポメラニアンは左を向いていますが、入力画像はすべて右を向いています。それでも、後ろ足だけで起き上がる動物の動きを転送することができます。非常に印象的です。
最下段のこのカンガルー(またはワラビー?)の入力ビデオが大好きです。跳ねる動きをこれらの鳥に転送できます。非常に便利なツールです。これらの例からわかるように、ヨガやワークアウトのようなより複雑なポーズでも機能します。そして驚くべきことに、人間の行動を動物に転送することさえできます。
上段は参照ビデオで、下段には動物の画像を入力し、人間の動きを動物に転送できています。例えば、最初の列では、トラーが一種の逆立ちをしています。あるいは、他の2列では、犬やオオカミがこれらのヨガのポーズをしています。これはかなり驚くべきことです。このツールがあれば、自分が何かをしている様子を撮影し、それをペットの動きにマッピングすることも可能です。参考までにもう少し例を紹介します。
このツールを使えば、ビデオ内の誰の動きでも簡単に制御できます。flexiアクトの技術的な詳細に触れると、魔法を実現する2つの主要なコンポーネントがあります。最初の一つはこのref adapterコンポーネントで、参照ビデオの空間構造をターゲット画像に適応させるのに役立ちます。
また、frequency aare embedding(FAE)と呼ばれるコンポーネントもあり、これは参照ビデオからアクションを抽出し、それをターゲット画像に適用します。そしてこの方法は、ターゲット画像が異なる体の構成やカメラアングルを持っていたとしても、一貫性と柔軟性を維持します。
ページの上部にスクロールすると、素晴らしいことにこれもオープンソース化されています。モデルはすべてhugging faceで公開されています。さらに、GitHubリポジトリがあり、少し下にスクロールすると、コンピューターでダウンロードして実行する方法についてのすべての指示が含まれています。また、トレーニングや微調整の方法についてのスクリプトも提供されています。
すべてのリンクはここにありますので、詳細を読むためのリンクを説明欄に記載します。
次に、このAIは本当に素晴らしいです。テンセントのHunyan(魂顔)チームによる「Hunyan Custom」と呼ばれています。これは動画に参照キャラクターやオブジェクトを追加するための非常に強力な方法です。いくつかの例を見てみましょう。
この少女の写真を入力し、「少女がリビングルームでぬいぐるみと家ごっこをしている」とプロンプトすると、これが結果です。少女がいかに正確に生成されるかを見てください。参照写真とまったく同じ見た目です。あるいは、もっと印象的な例があります。この入力画像があるとします。
そしてプロンプトとして、「彼女は忙しい通りで自撮りをしています。片手にスマートフォンを持ち、もう片方の手でピースサインをしています。背景は賑やかな通りの風景です。」と書くと、確かにそのような結果が得られます。さらに、彼女の服装や彼女のシャツに書かれた「Hunyen」というテキストがビデオ全体を通して一貫していることに注目してください。これは信じられないほど高品質です。
このプードルの画像をアップロードして、「犬が公園で猫を追いかけている」と書くと、確かにそのような結果が得られます。さらに、複数の参照画像をアップロードして、ビデオに追加することもできます。ここでは、この女性が絵筆を持って猫の絵を描いています。確かにそのような結果が得られます。
ここでは、男性がプールサイドで手にチップスを見せています。男性とチップスの袋の両方が参照写真とまったく同じに見えます。現代都市の通りで、男性が女性に道を尋ねていますが、彼女は彼が何を言っているか理解していません。これが結果です。
ただし、私がドクターなら、道を尋ねるのではなく、彼女の番号を尋ねるでしょう。そしてもちろん、このような強力な参照ツールを使えば、キャラクターの顔交換も行えます。ここでは、この女性が書斎で本を読みながらこの漢服を着ています。この女性と漢服がいかに正確に描かれているかを見てください。
すべての細部が参照写真とまったく同じです。さらに驚くべきことに、ビデオをプラグインして、ビデオの一部を変更することもできます。この入力ビデオがあるとします。代わりにこの帽子を着用させることができます。これが最終結果です。どれだけクールですか?別の例では、この参照ビデオがあり、テディベアをこのハスキーのぬいぐるみと交換したい場合、確かにそのような結果が得られます。
交換がいかにシームレスで正確に行われるかに注目してください。これは非常に印象的です。さらに例があります。このツールを使えば、ビデオ内の一貫したキャラクターがついに実現しました。必要なのは参照写真だけで、そのキャラクターに任意の衣装を着せたり、任意の設定にしたり、何でもさせたりできます。今後数ヶ月以内に、一貫したキャラクターと良いストーリーラインを持つ、見栄えの良い完全なAI生成の短編映画が登場すると予測しています。
ビデオに複数の参照画像を持つ追加の例がいくつかあります。特にこれが好きです。これはパンダとの本格的なボクシングの試合のように見えます。彼らは実際にかなり速いパンチでスパーリングしています。非常にクールです。ご想像の通り、このツールは広告業界を変革するでしょう。俳優やビデオグラファーなどを雇う必要はありません。
モデルやキャラクターの写真と製品の写真だけあれば、ビデオで製品を使って何でもさせることができます。男性とペンギンの別のかわいい例があります。ところで、ペンギンって本当に最も可愛いものではないですか?あなたもそう思うなら、下にコメントしてください。別の驚くべきビデオスワップの例があります。
参照ビデオのこの左のカクレクマノミを、こちらの白い魚と交換したいとします。これをシームレスに実行します。そしてこのようなアニメキャラクターでもできます。ビデオ内のテキストなど、他のすべての詳細を保持しながら、キャラクターのみを交換することに注目してください。まだ終わっていないと思いましたか?まだ終わっていません。これはリップシンクもできます。
この女性の参照写真があり、ドレッシングルームで口紅を持っているように促すとします。オーディオクリップを追加することもでき、それに合わせて彼女の口の動きを同期させることができます。これがどのように聞こえるか聞いてみましょう。絶対に非現実的です。別の例では、この男性の画像を店のカウンターで機械式時計を持っているようにします。
そしてオーディオクリップを追加すると、このようになります。これは非常に驚くべきツールです。別の例では、この女性がパン屋でケーキを持っているようにします。そしてオーディオを入力すると、このように聞こえます。別の例です。彼が何を言っているのか分かりませんが、かなり情熱的に見えます。
最高の部分は、すでにすべてをリリースしていることです。つまり、潜在的には無制限にオフラインで実行できます。すべてのモデルはHuggingFaceにあります。さらに、このGitHubリポジトリをクリックすると、これを実行する方法についてのすべての指示が含まれています。ただし、少なくとも現時点では、低解像度バージョンであっても60 GBのVRAMが必要であり、ほとんどの人はそれを持っていないでしょう。
実際、彼らは8台のNVIDIA GPUを搭載したマシンでテストしました。ただし、これはオープンソースであるため、オープンソースコミュニティが迅速に行動し、はるかに低いVRAMで実行できるように量子化または圧縮することは間違いありません。すでにFrame Packで見てきました。これはHunyanを使用する別のツールですが、元のHunenは60 GBを必要としますが、Frame Packは最低4 GBのVRAMで実行できます。
したがって、Hunyan Customも実行できるようになるのは時間の問題です。興味があれば、詳細を読んだり、より多くの例を確認したりするためのリンクを説明欄に記載します。
また、今週は新しいオープンソースのビデオジェネレーターも登場しました。Litrixによる「LTX Video 13B version 0.9.7」と呼ばれるもので、品質が素晴らしいだけでなく、他の競合製品より最大30倍速いです。つまり、数秒のビデオを生成するためにコンピューターで何時間も待つ必要はなく、数分で処理できます。品質とスピードの両方を兼ね備えた最高のツールです。
特に、各クリップを粗いディテールから細かいディテールまで生成するマルチスケールビデオレンダリング機能があります。さらに、2つのアップスケーラーもオープンソース化されています。また、参照フレームとして画像を使用してビデオを生成するためのComfy UIワークフローも含まれています。
ビデオを拡張することも、ビデオ全体で主要フレームとして使用する複数の画像を追加することもできます。すでにこれをローカルにインストールしてこれらのワークフローを実行する方法について完全なチュートリアルを作成しました。まだご覧になっていない場合は、このビデオをご覧ください。ただし、これをオフラインで実行するのに十分な性能のGPUがない場合は、LTX Studioと呼ばれるオンラインプラットフォームを介して使用することもできます。
ストーリーボードを作成したり、画像ジェネレーターもあります。ただし、この新しいLTXV13Bを使用するには、モーションジェネレーターをクリックし、ここで最新の130億パラメーターモデルを選択できます。詳細については、説明欄にリンクを記載します。
次に、このAIも非常に便利です。「Pixel Hacker」と呼ばれ、画像の一部を魔法のように消去したり、欠けている部分を埋めることができます。いくつかの例を見てみましょう。このハンドバッグの画像があるとします。この赤い輪郭で見えるようにハンドバッグの上にペイントできます。そしてこのAIは魔法のようにそれをこのように消去します。
あるいは、飛行機の画像があります。再び、この飛行機の上にペイントするだけで、このAIはそれを消去します。そしてこれらの迷惑な人間がシーンを台無しにしている場合、彼らも消去できます。これが結果です。あるいは、この看板を取り除きましょう。または、この人間もこのように取り除くことができます。
これらのレールもある難しい例がいくつかあります。AIが人間をシームレスに消去しながらフェンスをリアリスティックに保つことができるか見てみましょう。これは非常にうまく機能します。これも同様です。こちらに若干のアーティファクトがあります。さらに、彼女の靴の一部がこちらに残っています。
しかし、ほとんどの部分で、女性をシーンからかなりシームレスに消去することができています。また、おそらく人はこの靴の部分をきちんとペイントアウトしなかったので、それが最終画像にまだ残っています。これにはいくつかの非常に便利な用途があります。観光スポットにいて、背景にたくさんの人がいて、誰かが背景で写真に写り込まないようにすることは不可能だとしましょう。
後でこのAIに入れて、シーンから全員を消去するだけです。あるいは、背景が非常に混雑している別の例があります。これらの人間全員を選択して、このように魔法のように消去することができます。そしてさらに別の例があります。さらに混雑して難しいシーンです。
全ての人をシーンから消去できるか見てみましょう。なんと素晴らしいことでしょう。これは本当に印象的です。そしてもう一つの例があります。なんてクールでしょうか?このあたりの子供は、明らかに人が多すぎて不満そうです。だから、全ての人間を取り除きましょう。そしてはい。これを見てください。
このページにはたくさんの例があります。時間の都合上、全てを取り上げることはできませんが、ページの上部にスクロールすると、このコードとモデルのリリースを準備しているようです。素晴らしいことです。詳細を読むためのリンクを説明欄に記載します。
他のニュースでは、UC Berkeleyが「Berkeley Humanoid Light」と呼ばれるロボットを開発しました。これはオープンソースでカスタマイズ可能、そして非常に手頃な価格の人型ロボットです。通常、商業用の人型ロボットは数万ドルのコストがかかりますが、これは3Dプリントできます。さらに、全ての部品の総コストは5,000ドル未満です。
さらに、ハードウェアデザイン、3Dプリント用のファイル、ソフトウェア、そしてトレーニングスクリプトまで、全てが非常に寛容なMITライセンスの下でGitHubで完全に無料です。つまり、誰でもこれを構築し、さらに微調整して改良することも潜在的に可能です。標準的なデスクトップ3Dプリンターで構造部品のほとんどを3Dプリントできるとのことです。
仕様に関しては、高さ約80cm(約2.5フィート)、重量16kg、腕、脚、胴体のすべての動きのために22のアクチュエーターを備えています。頭脳はIntel N95ミニPCで、すべてを制御します。バッテリーは約30分持続します。非常にカスタマイズ可能で柔軟に設計されており、寸法や関節の構成を簡単に変更でき、さらに構造全体を完全に異なるものに変更することもできます。
もし秘密の研究所でこれらを3Dプリントして世界征服のためのロボット軍団を作り出すことに興味があるなら、こちらがGitHubです。これには、適切な3Dプリンターとすべての材料があれば、自宅で実際にこれを3Dプリントするためのすべての指示とテンプレート、コードが含まれています。詳細を読むためのリンクを説明欄に記載します。
他のニュースでは、GoogleのGemini 2.5 Proがポケモンブルーをクリアしました。これは大規模言語モデルにとって大きなマイルストーンです。なぜなら、AIモデルが初めてポケモンブルーを自律的に、少なくともほとんど自律的に完了したからです。AIはナビゲーションやポケモンバトル、パズル解決など、ほとんどの決断を処理しましたが、時には人間の介入が必要な場合もありました。例えば、ゲーム内のバグに対処するために開発者が介入しなければならなかった重要な部分がありました。人間はGeminiに、キーアイテムを入手するためにはキャラクターと2回会話する必要があるというバグがあることを伝えなければなりませんでした。しかし、それ以外はほとんど自律的にポケモンをプレイし、実際に最後まで到達して最終ジムを倒しました。
このアイデアは実はAnthropicにインスパイアされたものであり、AnthropicはClaude 3.7に自律的にポケモンレッドをプレイさせています。しかし残念ながら、Claudeはまだゲームの初期段階で、あまり進歩していません。これはGemini 2.5 Proがどれだけ優れているか、あるいはより知的であるかを示しています。これは特定のゲームをプレイするように特化した他のAIモデルとは異なります。
例えば、Alpha Starはスタークラフトで非常に優れていましたが、他のゲームをプレイさせると完全に失敗するでしょう。また、Geminiはポケモンをプレイするようにトレーニングされていないことに注意してください。これはエッセイを書いたり、質問に答えたり、アプリをコーディングしたりなど、多くのことができる一般的な大規模言語モデルです。
したがって、ポケモンも自律的に完了できたことは本当に印象的です。これはかなり複雑なゲームで、多くのステージがあり、さらに長い一連の推論、意思決定、戦略的計画が必要です。これは大規模言語モデルが自律的にビデオゲームをプレイできるという大きなマイルストーンです。
他のニュースでは、もう一つのAI画像エディターがあります。「Zen Control」と呼ばれ、これも無料でオープンソースで、あらゆるものの単一の参照画像から新しい画像を生成できます。例えば、このお酒のボトルの写真を入力し、森の背景にあるようにプロンプトすると、これが結果です。
あるいは、家具を入力し、モダンな部屋でのこの家具の写真をプロンプトすると、これが結果です。あるいは、このレンジローバーを撮って、このように湖畔に配置することもできます。つまり、これは追加のトレーニングなしで、任意の角度で被写体を再生成したり、背景や服装を交換したりできます。
ここには背景交換の例がいくつかあります。1つの製品写真がありますが、これを異なる背景に追加できます。影さえもかなり正確に取得していることに注目してください。あるいは、このレンジローバーの別の例がありますが、このようにさまざまな背景に追加できます。そして背景にいかにシームレスに溶け込んでいるかに注目してください。
照明やホワイトバランスなど、すべてが完璧です。これらの画像の背景が入れ替えられたとは思わなかったでしょう。そして、このAmazonスピーカーの別の例がありますが、このようにさまざまな背景に配置できます。スピーカーの反射さえも正確に取得していることに注目してください。そして、別の製品の例もあります。
素晴らしいのは、オンラインで試せる無料のHugging Faceスペースをリリースしていることです。そこをクリックしてみましょう。使い方はかなり簡単です。ここは画像をアップロードする場所で、ここはプロンプトを指定する場所です。いくつかの例を試してみましょう。ここでこの写真を入力し、プロンプトとして「日本人の男性が緑のパンツと青いジャケットを着て、東京の賑やかな通りでカメラに向かって歩いている」などと書くと、これが結果です。
あるいは、この靴をアップロードし、「男性が白い靴を履いて外に出る、靴のクローズアップ」と書くと、これが結果です。あるいは、この時計をアップロードし、プロンプトとして「濡れた火山岩の上に置かれ、海のしぶき、もや、黄金の日の出」などと書くと、これが結果です。時計の画面のテキストさえ保存していることに注目してください。
高級ホテルのプールサイドにエレガントなグラスとトロピカルフルーツを添えてこの飲み物の写真を配置できる別の例です。これが結果です。このAIツールと今週や以前のニュースビデオで紹介した他の画像エディターを使えば、もう製品写真家を雇う必要は本当にありません。
製品の参照画像をアップロードし、任意の背景や照明、角度でAIに新しい画像を作成するよう促すだけです。このGokuフィギュアをアップロードできる別の例があります。ちょっと待ってください。なぜGokuの髪は青いのでしょうか?これは私が知らない超サイヤ人の次のレベルですか?コメント欄で教えてください。
プロンプトとして「子供が晴れた日に室内でおもちゃのフィギュアで遊んでいる」と書くと、これが結果です。そして最後に、ヘッドホンの例があります。「黒人男性がバスケットボールの試合で黒いワイヤレスヘッドホンを着用している」と書くと、これが結果です。オンラインで試せる無料のHugging Faceスペースに加えて、コンピューターでローカルにダウンロードして実行する方法についてのすべてのコードと指示を含むGitHubリポジトリもリリースしています。
最も素晴らしいのは、これが制限が非常に少ないApache 2ライセンスの下にあり、商業目的でも使用できることです。すべてのリンクはこちらにありますので、詳細を読むためのリンクを説明欄に記載します。
次に、このAIは非常に興味深いものです。「Primitive Anything」と呼ばれ、これもTencentによるものです。これは複雑な3D形状をプリミティブと呼ばれるより単純な形状に分解するAIです。これらは一種のビルディングブロックのようなものです。いくつかの例を見てみましょう。あらゆる3DモデルをこのアIに通すと、球体、円柱、円錐など基本的な形状にモデルをセグメント化して分解します。
さらに例があります。この鹿を入力すると、これらの基本的な形状を持つセグメント化された3Dモデルが結果です。イルカ、コアラなどもあります。このようなトリッキーなアニメの女の子のフィギュアでさえ、これらの基本的な形状に分解することができました。この剣や、この非常に複雑な宝箱、このマイク人形も同様です。
3Dモデルを取り込む必要はありません。テキストプロンプトを使用するだけで、これらのプリミティブな形状で構成される3Dモデルを作成することもできます。こちらは本棚、椅子、フェンス、消防車などです。そして他のツールと比較すると、3列目がTencentの新しいPrimitive Anythingで、最後の列が真実です。ご覧のように、この新しいものははるかに正確です。
これは別の例で、この列が新しいPrimitive Anythingで、最後の列が真実です。つまり、他の方法と比較して、Primitive Anythingははるかに正確です。素晴らしいのは、上部にスクロールすると、オンラインで試せる無料のHugging Faceスペースもリリースしていることです。
使い方は非常に簡単です。ここは3Dモデルをアップロードする場所で、そしてモデルを処理するボタンを押すだけです。ミッキーマウスの3Dモデルをアップロードしてみましょう。処理を押して、結果を見てみましょう。これがミッキーの3Dモデルのプリミティブ分解です。
これは完璧ではありませんが、これが円柱や球体、円錐など、本当に基本的な形状で構成されていることに注目してください。なぜこれを基本的な形状に分解したいのかと疑問に思うかもしれませんが、実は本当に複雑なモデルに比べて、これらの基本的な形状を作成および操作する方がはるかに簡単です。そして、これらのプリミティブは高解像度の3Dメッシュよりもはるかに少ないメモリを使用します。
特にリアルタイムアプリケーションの場合、より速い処理を懸念している場合、プリミティブな形状で構築された3Dモデルを使用する方がはるかに効率的です。無料のHugging Faceスペースに加えて、モデルとコードもすでにリリースされています。このGitHubリポジトリをクリックすると、コンピューターでローカルにダウンロードして実行する方法についてのすべての指示が含まれています。
すべてのリンクはこちらにありますので、詳細を読むためのリンクを説明欄に記載します。
最後に、このAIは本当に興味深いものです。「T2IR1」と呼ばれ、これは画像ジェネレーターですが、Hydreamやflux、Stable Diffusionなど私たちが慣れているジェネレーターとは少し異なる動作をします。DeepSeekがこのDeep Think機能を持っていて、回答を出す前に時間をかけて推論し考えることを知っていますよね。
そしてそれがウイルスのように広がった機能です。そして以来、OpenAIのような他の主要なAI企業も同様の思考機能を追加しています。これがこのAIが行っていることですが、画像生成のためです。つまり、思考チェーンの推論を使用して、画像をより現実的で正確に見せます。
具体的には、プロセスはこうです。それがどのように機能するかを示す図がこちらです。黒い猫と茶色いネズミとプロンプトを入れると、まず意味レベルの思考チェーン推論を経て、プロンプトを取り入れ、画像を生成する前に、AIは画像がどのように見えるべきか、どのオブジェクトを含めるべきか、それらをどこに配置すべきかを考えます。
これは、詳細を埋める前に描画の概要を作成するような高レベルの計画です。そしてこのステップの後、実際に画像の生成に進みます。これは自己回帰型画像ジェネレーターであることに注意してください。つまり、上から下へ画像を生成します。これは伝説的なGPT-4o画像ジェネレーターの動作方法です。
これはStable DiffusionやFluxとは異なり、それらは一度に画像全体を生成します。いずれにせよ、画像を生成する間、思考チェーンも使用します。このプロセスはトークンレベルの思考チェーンと呼ばれます。ここでAIは、画像の各部分をどのように描くかなど、より小さな詳細に焦点を当て、すべてが良く見え、うまく組み合わさるようにします。
そして、いくつかのサンプル生成があります。ここでプロンプトは「アイルランド文化で幸運のシンボルである植物を表示してください」で、クローバーを得ます。ここはインドの深い文化的・宗教的意義を持つ花です。プロンプトは画像に生成したい正確なオブジェクトを述べるのではなく、世界知識の理解をテストするようなかなりトリッキーなものであることに注目してください。
また、特にGPT-4oのようなトップ画像ジェネレーターと比較すると、画像品質はそれほど良くないことにも注目してください。したがって、この段階では本当に使えるとは思いません。しかし、思考チェーンの推論を画像ジェネレーターに組み込むというこのデザインは本当に興味深いです。だから、簡単に共有する価値があります。
このGitHubリポジトリでは、コンピューターでダウンロードして実行する方法についてのすべてのコードをリリースしています。興味があれば、詳細を読むためのリンクを説明欄に記載します。
これで今週のAIにおけるすべてのハイライトをまとめました。これらすべてについてのあなたの考えをコメント欄でお知らせください。どのニュースがお気に入りでしたか?そしてどのツールを最も試してみたいと思いますか?いつものように、あなたと共有するためのトップAIニュースとツールを探し続けます。
このビデオを楽しんでいただけたなら、いいね、シェア、購読をお忘れなく、そしてさらなるコンテンツをお楽しみに。また、AIの世界では毎週とにかくたくさんのことが起こっています。YouTubeチャンネルですべてをカバーすることは不可能です。そのため、AIで起こっていることすべてを本当に最新の状態に保つために、無料の週刊ニュースレターに登録してください。そのリンクは説明欄にあります。ご視聴いただきありがとうございます、次回またお会いしましょう。

コメント

タイトルとURLをコピーしました