オープンソースAIがGPTを上回る、リアルな3Dヘッド、AIによる自動車設計、驚くべきバック転ロボット

AGIに仕事を奪われたい
この記事は約19分で読めます。

10,978 文字

Realistic 3D heads, Open-source AI beats GPT, Anime colorizer, Backflipping robots
INSANE AI news: Deepseek V3 beats GPT, FaceLift image to 3D faces, AniDoc colorize anime, Unitree & Boston Dynamics demo...

AIは休むことなく進化し続けています。今週はクリスマスなので休暇を取れると思っていましたが、AIに関する重要なニュースが途切れることはありませんでした。今週も驚くべき進展がありました。パーツごとに分解できる3Dモデルを生成できる新しいAI、このような動く3Dモデルを作成できる別のAI、自動車を設計できるAI、そして私が見た中で最も安定したカートゥーン着色AIが登場しました。さらに、GPT-4oとClaude 3.5を本当に上回る新しいオープンソースAIモデルなど、盛りだくさんの話題があります。
それでは早速見ていきましょう。まず最初のAIは既にかなり凄いもので、Part Genと呼ばれています。これは写真や3Dモデル、あるいはテキストプロンプトから3Dモデルを作成できますが、このモデルは個別のパーツで構成されており、それぞれ別々に編集することができます。例えば「探偵の服装をした犬」というテキストプロンプトを入力すると、このような3Dモデルが生成されますが、これは帽子、ビーグル犬、服装という3つのパーツに分解することができます。
テキストプロンプトから個別のパーツに分解できる3Dモデルの例をさらにご紹介します。「コンバーチブルを運転するグミベア」という入力に対して、このような3Dオブジェクトが生成され、グミベア、車輪、車体に分解できます。「チュチュを着たチワワ」というプロンプトでは、このような結果が得られ、チワワとチュチュのパーツに分けることができます。
この「パンダの王様」という入力画像からは、このような3Dモデルが生成されますが、王冠、ローブ、パンダという部分に分けられることを認識します。このような画像を入力すると、このような3Dオブジェクトが生成されますが、クッション、椅子のフレーム、椅子の脚に分解することもできます。
このような既存の3Dオブジェクトを入力した場合も、このように個別のパーツに分解できます。これはオブジェクトの特定の部分を分割したい場合に便利です。このおもちゃのトラックを入力すると、このように生成され、車輪、アーム、トラックの他の部分に分解できます。
既存の3Dモデルの特定のパーツをプロンプトで編集することもできます。これが元の3Dモデルだとすると、「マジシャンの帽子」というプロンプトで帽子をマジシャンの帽子に変更できます。「警察バッジ付きの茶色い帽子」というプロンプトを使えば、まさにそのような帽子が得られます。「青いテクスチャの赤い帽子」というように、非常に柔軟なツールです。
これが元の入力で、「四角い底のピンクのカップ」というプロンプトを使うと、このようになります。「かわいいロゴの緑のカップ」というプロンプトではこうなり、「笑顔の付いた黄色いカップ」はこのようになります。最後にピンクのカップです。
これが元の3Dモデルで、特定の領域だけを編集したい場合は、その周りにフレームを描いて「赤い帽子」とプロンプトを入力すれば、帽子が赤く変更されます。カウボーイハット、黒いマジックハット、白い帽子などもできます。
仕組みはこうです。まず画像やテキストプロンプト、3Dモデルを入力として受け取り、このセグメンテーションプロセスを使って個別のパーツに分解します。次の段階では、各パーツを別のアルゴリズムで3Dで再現し、リアリスティックに見え、他のパーツと調和するようにします。最後に、完成したパーツを組み立てて、指定された完全な3Dモデルを作成します。
現時点での結果は素晴らしいとは言えません。以前の動画で紹介したMicrosoftのTrellisなど、もっと高品質な3Dジェネレーターはたくさんありますが、このPart Genという特殊なツールがどれほどクールかはお分かりいただけると思います。これはビデオゲームやアニメーション、建築、製品デザインなどに非常に役立つ可能性があります。3Dオブジェクトの作成、分割、編集を素早く行うことができます。
私はかなり早い段階でこれを見つけましたが、現時点ではプレプリントの段階で、上部までスクロールしてもコードはまだ公開されていないようです。とはいえ、詳しく読みたい方のために、このページへのリンクを説明欄に記載しておきます。
次に紹介するAIは非常に便利で、多くの人の時間を節約できるものです。Anidoと呼ばれ、参照画像を使って線画の動画や写真を非常に一貫性のある方法で着色することができます。従来、アニメーターはアニメーションの各フレームを手作業で着色する必要があり、これはもちろん創造性を必要としない退屈で面倒な作業です。AIを使ってこれを自動化し、時間を大幅に節約できたら素晴らしいと思いませんか?それがまさにAnidoの機能です。
いくつか例をご紹介します。アンナのこの参照画像を入力し、着色したい線画動画がこれだとすると、AIを通した結果がこれです。参照画像に従って色が非常に一貫していることに注目してください。千と千尋の神隠しの別の例では、この参照画像を入力し、この線画動画を使うと、これが着色された結果になります。
呪術廻戦からの例をさらにご紹介します。これが入力画像で、これが線画動画の場合、これが最終的な着色された動画です。参照画像に従って色が非常に正確であることに注目してください。他の例もご紹介しますが、キャラクターの肌の色も異なる参照画像を入力することで調整できます。例えば、シーンを明るくしたい場合は、このキャラクターのより暖かい肌色の参照画像を入力し、より涼しげな色にしたい場合はこの画像を入力すると、実際に動画の肌色が涼しげになります。
追加の例と、鬼滅の刃からのいくつかの例もあります。このツールは非常に便利で、アニメーターはもはや各フレームを手作業で着色する必要がありません。線画アニメーションを生成し、キャラクターの見た目の1つの着色されたフレームを差し込むだけで、このAIが全体を着色してくれます。
ここでは、入力参照画像は同じですが、線画動画が異なる例を示しています。これら3つのシーンすべてで、このキャラクターを適切に着色できていることがわかります。逆の例として、入力画像が異なる場合を見てみましょう。特にアンナの髪の色がこれら3つの入力画像で微妙に異なっていますが、線画動画が同じ場合、このAIは参照画像に応じて動画を異なる方法で着色します。
これは非常に柔軟なツールで、参照画像の中の複数のキャラクターを自動的に検出し、これらの例で見られるように正確に着色することもできます。背景も参照画像を入力するだけで編集できます。異なる背景を持つ3つの異なる入力画像があり、線画動画が同じ場合、AIは参照画像に基づいて異なる背景を使用して最終的な動画を着色できることに注目してください。
仕組みを簡単に説明すると、パイプラインは2つの主要な段階で構成されています。最初の段階では、参照画像と線画動画のフレームを取り、アルゴリズムを使って参照画像の色情報を線画画像に合わせます。この線画動画の各フレームの色を合わせているのがわかります。第2段階では、別のアルゴリズムを使用してアニメーション全体の色を埋め、最終的な着色された動画を出力します。
AnidoとTounCrafterなど、同じことができる他のAIツールを比較すると、Anidoの方が着色をより適切に処理し、より正確で一貫性のある色を生成します。さらに、前述のように、複数のキャラクターや異なる背景も処理できます。
ページの上部までスクロールすると、GitHubリポジトリへのリンクがあり、既に推論コードをリリースしているので、これらの手順に従ってローカルコンピュータにダウンロードして実行できます。Hugging Faceのデモもありますので、オンラインで試すこともできます。詳しく読みたい方のために、このメインページへのリンクを説明欄に記載しておきます。
次のAIも非常にクールです。Articulate Anythingと呼ばれ、画像やビデオ、あるいはテキストプロンプトを入力として受け取り、3Dモデルを作成できます。しかし、これは単なる3Dモデルではなく、関節のあるオブジェクトと呼ばれ、実生活のように動かすことができるモデルです。
例えば、このトイレの動画を入力すると、トイレの蓋を開閉できる3Dモデルを生成できます。このスイベルチェアの動画を入力すると、このように回転できる椅子の3Dモデルも生成できます。引き出し式の食器棚のこの動画を入力すると、確かにこのように引き出せる食器棚のモデルを生成します。スーツケースの例では、ハンドルを上下に動かすことができます。
つまり、椅子や窓、スーツケースなど、現実世界のあらゆるオブジェクトを写真や動画で撮影するか、テキストプロンプトで説明し、このツールを通してデジタルバージョンを作成できます。このデジタルモデルは実生活のように動かすことができます。
このツールは、シミュレーション、ビデオゲーム、ロボットの訓練などに非常に役立ちます。例えば、このトイレの便座の3Dモデルを生成したら、このシミュレーションでロボットアームを訓練して便座を閉じることができ、訓練後に現実世界でこのロボットアームを展開すると、確かにトイレの便座を閉じる方法を知っています。
別の例として、開閉できるこのラップトップの3Dオブジェクトを生成すると、この仮想シミュレーションでロボットアームを訓練してラップトップを閉じることができ、これを現実世界で展開すると、ロボットアームは確かにこのラップトップを閉じる方法を知っています。
このように、これは実生活でオブジェクトとやり取りする方法をシミュレーションでロボットを訓練するのに優れたツールとなります。また、新製品の設計とテストにも使用できます。
上部にはGitHubリポジトリがありますが、コードやモデルの重みはまだリリースされていないようです。とりあえず、詳しく読みたい方のために、このページへのリンクを説明欄に記載しておきます。
次は非常にクレイジーなニュースです。DeepSeek Version 3と呼ばれる新しいオープンソースAIモデルが登場し、これは実際にClaude 3.5 SonnetやGPT-4oを含む、最高のモデルを様々なベンチマークで上回っています。これは考えるだけでも驚くべきことです。ついに、オープンソースモデルが最高のクローズドソースモデルに追いついたと言えます。
MMLU、GPT-QA、Diamond、特にコーディングと数学など、様々なベンチマークでDeepSeek Version 3が最高スコアを記録していることがわかります。DeepSeek Version 3の仕様をいくつかご紹介すると、671億のパラメータを持ち、専門家の混合モデルとなっています。これは、プロンプトに答えるために協力して作業する専門化されたエージェントのチームのようなものです。
例えば、このモデル内には、コーディングが特に得意な専門家、文章作成が得意な専門家、研究が得意な専門家などが存在する可能性があります。前述のように、特にコーディングと数学で優れた性能を発揮します。そしてこれは本物で、最高のモデルを上回るオープンソースモデルです。
実際、TeslaとOpenAIの元エンジニアであるAndre Karpathyは、DeepSeekについてこう述べています。「DeepSeekは、フロンティアグレードのLLMのオープンウェイトリリースを、わずかな予算で容易に実現しているように見える。DeepSeek Version 3は、わずか11分の1のコンピューティングリソースでより強力なモデルのように見える。モデルがバイブチェックもパスし、彼自身が行った簡単なテストも今のところうまくいっているとすれば、これはリソースの制約下での研究とエンジニアリングの非常に印象的な成果となるだろう」
これらの結果がDeepSeek自身によって公開されているため、懐疑的かもしれません。しかし、Abacus AIによるLive Benchと呼ばれる別のリーダーボードがあります。これは独立した評価者で、DeepSeekはClaude 3.5 SonnetやGPT-4oよりも上位にランクされていることに注目してください。o1とGemini 2.0 Flinkingの後ろだけですが、これらはどちらも思考モデルなので、DeepSeek Version 3とは異なる種類のものです。また、Googleのジェミニは本当に素晴らしいものです。
このDeepSeek Version 3モデルは、大きな研究所と比べて11分の1のコンピューティングリソースで最先端のモデルを上回るという非常に印象的な成果を上げているにもかかわらず、あまり注目を集めていないように感じます。ここで最も重要な点は、モデルをよりスマートにするために多くのコンピューティングリソースを投入する必要はないということです。スマートなエンジニアリングと設計により、コンピューティングリソースを増やさなくても既存のモデルを改善する余地が多くあります。
前述のように、これは完全にオープンソースなので、モデルの重みは既にGitHubでリリースされています。これをダウンロードして好きなように実行し、調整することができます。あるいは、この巨大なモデルをダウンロードする代わりに、彼らのサイトで試すこともできます。
いくつかの標準的なプロンプトでテストしてみましょう。「9.9と9.11のどちらが大きいですか?」と書くと、確かに正しく「9.9は9.11より大きい」と答えます。「Strawberryにはいくつのrがありますか?」と尋ねると、確かに「Strawberryにはrが3つある」と正しく答えます。最新バージョンのClaude 3.5 Sonnetをテストした時、これを正しく答えることができなかったことを覚えておいてください。詳しく読みたい方のために、このアナウンスページへのリンクを説明欄に記載しておきます。
スポンサーのAbacus AIによるChat LLMという素晴らしいツールについてお話しさせてください。これは、最高のAIモデルを1つの統合プラットフォームで使用できるようにするものです。最新のo1プレビュー、o1ミニ、さらにGPT-4oやClaude Sonnet 3.5などの最先端モデルも含まれています。
また、プロンプトに基づいて最適なLLMを自動的に選択するRoute LLM機能も新しく追加されました。最新かつ正確な情報を見つけるためにウェブを検索するSearch LLM機能もあります。トーンを設定して生成をより人間らしく、AIらしくない音声にできるヒューマナイズ機能もあります。
チャットボットから直接画像を生成することもでき、最高の生成器であるFlux Proを使用しています。単一のプロンプトで動画を生成することもできます。また、コーディングや何かを構築している場合に、アプリを並べて表示して操作できる非常にクールなアーティファクト機能もあります。プロンプトを使ってPowerPointプレゼンテーションなどのドキュメントを簡単に作成することもできます。
PDFやドキュメントをここにドラッグ&ドロップして分析させることもできます。また、AI Engineerと呼ばれる新機能もあり、独自のカスタムデータや指示に基づいてファインチューニングされた独自のカスタムチャットボットを作成できます。これは、最高のAIモデルを1つのプラットフォームで使用する非常に強力な方法です。説明欄のリンクから試してみてください。
次のAIも非常にクールです。Faceliftと呼ばれ、1枚の顔写真を非常に高品質な3Dヘッドに変換できます。いくつか例をご紹介します。この画像を入力すると、このようなヘッドが生成されます。この画像を入力すると、このような顔が得られます。顔が非常にリアルなだけでなく、髪の毛が非常に高解像度で、細かいディテールがあり、入力写真そっくりに見えることに注目してください。
別の例を見てみましょう。1枚の顔写真からこれらすべてを生成できるのは本当に印象的です。この人の横顔を推測するのは非常に難しいですが、これをとてもうまく処理できています。この老人の別の例でも、写真の人物にそっくりです。非常に正確で高解像度で、このような2D写真でも機能します。非常に興味深いですね。
これは非常に難しい写真です。この女性は顔の一部を覆う豊かな髪を持っていますが、このAIは1枚の写真から彼女の3Dヘッドを非常に正確に生成することができます。このような3Dモデルで、顔を動かして話をさせたり、表情を作らせたりすることもできます。
例えば、以前に紹介したLive Portraitという別のツールを使用できます。これは顔の画像を取り、別の参照動画を使って、その動画の動きと表情を顔にマッピングします。Live Portraitをまだご存じない方は、このツールの完全なインストールチュートリアルを行っているこの動画を必ずチェックしてください。
しかし、Faceliftに戻りましょう。Live Portraitを使って顔をアニメーション化し、その表情をFaceliftで生成した3Dヘッドにマッピングすると、このようになります。ただし、Faceliftはこのアニメーションをフレームごとに生成するため、ここで見られるように結果が本当にスムーズには見えない可能性があることに注意してください。
この2D画像を使用した別の例でも、まずLive Portraitを使ってアニメーション化し、その表情をFaceliftで生成した3Dヘッドにマッピングできますが、これはフレームごとに動画を生成しているため、特に端の周りで見られるように本当にスムーズには見えません。おそらく、これをスムーズにするには別のビデオエディターを使用する必要があります。
とても素晴らしいツールですね。上部にGitHubリンクがありますが、まだコードやモデルの重みはリリースされていないようです。とりあえず、詳しく読みたい方のために、このページへのリンクを説明欄に記載しておきます。
次のツールも非常に優れています。HSfMと呼ばれ、Human Structure from Motionの略です。これは何をするツールかというと、任意のシーンからいくつかの写真を取り、これらのカメラはランダムな位置にあり、ランダムな方向を向いていても構いません。つまり、位置合わせやキャリブレーションは必要ありませんが、これらの写真を全て取り込んで、全体の3Dモデルを作成することができます。
いくつか例をご紹介します。特定のシーンのこれら4枚の写真を入力すると、シーン全体の3Dモデルを生成できますが、これは単なる3Dモデルではありません。出力には、カーソルがある位置に見られるように、3Dの体型とポーズを含む、シーンの人々も含まれています。もちろん、木々、建物、床、空など、シーンの他の全てのものも含まれています。
また、見ての通り、元の画像を撮影したカメラの配置場所と向きも含まれています。このダンススタジオにいる人の別の例を見てみましょう。例えば、ここでズームインすると、入力された画像の1つが見え、このビューを調整すると、ここに見える人が確かにそれです。この人のポーズもキャプチャしていることに注目してください。全てのカメラがどこに配置され、このシーンのどこを向いているかを予測しているのがわかります。
以前に私のチャンネルで紹介したMasterのような他の同様のツールと比較すると、HSfMは3Dシーンの再構築の精度が遥かに高いことがわかります。このツールは、複数の人々と多くのオブジェクトを持つ複雑な環境を扱えるという点でユニークです。もちろん、これはVRやビデオゲームだけでなく、ロボットのナビゲーションとマッピングを支援する3Dワールドの作成にも役立ちます。詳しく読んだり、いくつかのインタラクティブなデモをチェックしたりできるように、このページへのリンクを説明欄に記載しておきます。
次に、Unittreeが彼らのロボット犬B2Wの素晴らしいデモを公開したばかりです。これは本当に印象的だと言わざるを得ません。このロボットがいかにアクロバティックで柔軟か見てください。空中でフリップを行うことができ、非常に困難な荒れた地形でも超高速です。これは完全に狂気です。これらの1つに殺すように指示された場合、追いかけられることを想像してみてください。
ここで見られるように、40kgの荷物を積んでも簡単に動き回ることができ、誰かが乗っていても非常に素早く動き回ることができます。あなたの宿敵の1人がこれに乗って追いかけてくることを想像してみてください。ちなみに、Unittreeをご存じない方のために説明すると、彼らは最速で最も多目的なロボットを構築しているロボティクス企業です。彼らは既に最速の二足歩行ロボットの記録を破っています。
また、このような例で見られるように、同じくクレイジーにアクロバティックなUnitree G1と呼ばれる別のヒューマノイドロボットも持っています。他のロボティクスニュースでは、Boston Dynamicsがここで見られるように、サンタの衣装を着てバックフリップを行うAtlasロボットの動画をリリースしました。これは非常に印象的です。
彼らはこの新バージョンのAtlasについてかなり秘密にしており、正確に何ができるのかについてはあまりニュースがありませんが、サンタの衣装を着てバックフリップができるという事実は、このロボットがいかにアクロバティックでパワフルであるかを示しています。
ヒューマノイドロボットに関して、ほとんどの注目はTeslaのOptimusボットや、OpenAIと他の大手テック企業が資金提供しているFigureロボットに向けられているようですが、これらはUnitreeやBoston DynamicsのAtlasロボットよりもかなり遅れているようです。
間違っていたら指摘してください。私はOptimusやFigureロボットがバックフリップや他のクレイジーなアクロバティックな動きをしているのを見たことがありません。私が見たのは、ゆっくりと歩き回って物を分類するだけです。
次のAIは非常に興味深いものです。Chat Garmentと呼ばれ、3つの主な機能があります。まず、服を着た人の入力画像を与えると、服の縫製パターンとデザインを理解します。または、参照画像として画像を入力し、さらに服をプロンプトで調整することもできます。
例えば、「この入力画像に似た上半身の縫製パターンを生成し、長袖にする」というプロンプトを与えると、確かにこの入力画像の縫製パターンを生成しますが、長袖で作ります。最後に、モデル上で物を生成するようプロンプトを与えることもできます。
例えば、ショートスカートの縫製パターンコードを生成するように指示すると、これが得られます。そしてプロンプトでさらに編集することもできます。「スタイルを変えずにスカートをミドルカーフの長さに編集する」と書くと、これが得られます。「スカートをアンクル丈のロングスカートに変更する」というプロンプトでは、これが得られます。
AIを使って縫製テンプレートを作成するのは、私が以前に考えたことのない本当に興味深い使用例ですが、このAIは間違いなく非常に役立つ可能性があります。例えば、デザイナーはこれを使って新しい服のパターンや縫製デザインを素早く作成したり、ビデオゲームや映画のキャラクターのリアルな服を作成・編集したりすることができます。これはeコマースにも最適で、オンラインストアは自社の服を着た3Dモデルを生成するために使用できます。
上部までスクロールすると、「コードは近日公開予定」とあるので、オープンソース化を予定しているようです。これは素晴らしいことですね。とりあえず、詳しく読みたい方のために、このページへのリンクを説明欄に記載しておきます。
最後に、私が今まで聞いたことのないAIの非常にクールな使用例です。DriverNet Plus+と呼ばれ、8,000のAIによって生成された自動車デザインを含むオープンソースデータベースです。各デザインは、自動車の長さ、フロントガラスの傾斜、フロントガラスの長さ、サイドミラーの位置、ディフューザーの角度など、26のデザインパラメータで定義されたコンポーネントを持つ自動車の詳細な3Dモデルです。これらの8,000のデザインは、ガソリン車と電気自動車の両方をカバーしています。
また、抗力、揚力、その他の空力特性を含む、各自動車デザインの周りの空気の流れをシミュレーションしています。ちなみに、このデータベースの作成には相当なコンピューティングリソースが必要でした。39テラバイトのデータを生成するのに300万CPUホワーを要したと彼らは述べています。
そのようなデータベースを作成する意味は何かと疑問に思われるかもしれません。このデータを使ってAIモデルを訓練し、性能や美観に基づいて新しい自動車デザインを生成したり、任意の自動車デザインの空力性能を予測する別のAIモデルを訓練したりすることができます。これらのAIは自動車の設計とプロトタイプ作成のプロセスを大幅にスピードアップすることができます。
非常にクールなツールですね。このデータセットは既にCreative Commons非商用ライセンスの下でオープンソース化されています。このデータベースにアクセスする方法の説明は全てこのGitHubページにありますので、このGitHubリポジトリへのリンクを説明欄に記載しておきます。
以上が今週のAIのハイライトです。クリスマス休暇中にもかかわらず、まだまだ信じられないほどの出来事がありました。これら全てについてどう思うか、どのツールを最も試してみたいと思うか、教えてください。
いつものように、私は最新のAIニュースとツールを探して皆さんと共有していきます。この動画を楽しんでいただけたなら、ぜひ「いいね」、「シェア」、「登録」をして、今後のコンテンツもお楽しみに。
また、毎週AIの世界では本当に多くのことが起こっているため、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっているすべてのことを本当に把握するために、無料の週刊ニュースレターを購読することをお勧めします。そのリンクは説明欄に記載しておきます。
ご視聴ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました