AIビデオジェネレーターの新登場、驚異的な3Dモデル、新たなAI画像ツール、新しいAI音楽生成ツール、驚くべきヒューマノイド

16,022 文字

New AI video generators, crazy 3D models, new AI image tools, new AI music gen, crazy humanoids

INSANE AI news: o1-pro, SpatialLM, Nvidia Cosmos, Stable Virtual Camera, ReCamMaster, EngineAI Unitree demos & more! #ai...

AIは常に進化し続けており、今週は本当に驚くべき展開がありました。ぼやけた画像をこのように修正できる超強力なAIアップスケーラーや、誰の写真でも3Dキャラクターに変換してアニメーション化できる新しいAI、NVIDIAが公開した超強力なオープンソースのビデオジェネレーター、既存の動画のカメラアングルや動きを変更できるAI、そして驚くべきヒューマノイドロボットのデモなど、盛りだくさんの内容があります。
さっそく見ていきましょう。まず最初に紹介するAIはとても素晴らしいものです。Spatial LMと呼ばれ、動画を分析して3D空間マップを作成し、壁やドア、窓、その他のオブジェクトを識別することができます。
例を見てみましょう。この動画を分析して、部屋内のほぼすべてのもの（壁、家具など）を識別できていることがわかります。さらに注目すべきは、すべてのオブジェクトの3Dマップを作成していることです。部屋内を移動しても、識別したすべてのオブジェクトのアウトラインは空間内の固定位置に留まります。
これは非常に強力なツールで、建築、インテリアデザイン、自律走行、監視など多くの用途があります。
簡単に仕組みを説明すると、入力動画を受け取り、master slamという技術を使って、こんな感じの3Dポイントクラウドを作成します。その後、特殊なポイントクラウドエンコーダーを使用してポイントクラウドを処理しやすい小さなフォーマットに圧縮します。圧縮されたデータは大規模言語モデルに送られ、ここで見られるような空間の3D構造レイアウトが生成されます。
素晴らしいのは、出力がこのような構造データや2D間取り図、業界標準フォーマットなど、さまざまな形式で表現できることです。非常に便利なツールです。
さらに、このチームはこの技術の開発を進めています。将来的にはインテリジェントなアシスタントとして人間と対話したり、いわゆる「具現化されたエージェント」（ロボット）が複雑な環境で複雑なタスクを実行するための支援などに拡張できるとされています。
この構造に大規模言語モデルが組み込まれているため、チャットボットのようにやり取りすることも可能です。例えば、寝室の動画を送ると、レイアウトを再構築してくれます。そして「ベッドをキングサイズに変更して」と伝えることもできます。空間認識があるため、ベッドのサイズを大きくするとデスクと椅子が収まらなくなることを検出し、それに合わせてレイアウトを最適化します。
人間ではなくロボットがこのSpatial LMと対話することもできます。例えば、ロボットが「キッチンを掃除したところです。寝室に行ってベッドをセットアップするにはどうすればいいですか？」と尋ねると、Spatial LMは空間認識と建物の間取り図の知識を使って、ロボットに寝室への行き方を案内できます。
非常に便利で強力なツールです。ページの上部にスクロールすると、コードが既に公開されています。GitHubリポジトリには、インストール方法とコンピュータでローカルに実行する方法のすべての指示が含まれています。
素晴らしいのは、これが実際にとても小さいことです。2つの異なるモデルがリリースされており、1つはLlamaの10億パラメータ、もう1つはQuenの5億パラメータに基づいています。どちらも非常に小さいため、消費者グレードのGPUで簡単にローカル実行できます。
次に紹介するAIは非常に強力です。Thorと呼ばれ、非常に低品質の画像を鮮明かつ詳細に変換することができます。しかも高い精度で行います。
いくつか例を見てみましょう。これらは極端な例で、非常にぼやけてピクセル化されていますが、このAIに通すと、画像がどれだけ詳細で鮮明になるかがわかります。別の例では、非常にぼやけた画像を見てもほとんど何かわからないレベルですが、このAIに通した後の結果を見てください。世界で最も鮮明な写真ではありませんが、元の画像がどれだけピクセル化されていたかを考えると、これを生成できることは非常に印象的です。
別の例では、これが何なのかさえわからないようなものでも、このAIに通すと、すべてのピクセルが鮮明になったらどうなるかを最良の推測で生成し、最終的な画像を作成します。
非常にぼやけてピクセル化された建物の画像も、AIに通すと、詳細と解像度の高い結果になります。非常に強力なツールです。
ThoreとOther超解像度メソッドのパフォーマンスを比較すると、パフォーマンスがいかに優れているかがわかります。基本的に他のすべての方法を上回っています。
仕組みを簡単に説明すると、まず画像をローカルヒートフィールドと呼ばれる小さな部分に分解し、AIを使って各部分を鮮明にし、最後にすべての部分を組み合わせて完全に鮮明な画像を作成します。これは「タイルアップスケーリング」と呼ばれる別の方法に非常に似ており、Stable DiffusionやFluxで遊んでいる人には馴染みがあるかもしれません。Comfy UIチュートリアルでもタイルアップスケーリングについて説明しましたが、これは低解像度画像をアップスケールして詳細を追加する最良の方法の一つです。
Theraに戻りますが、ページ上部にスクロールすると、オンラインで試せるHugging Faceデモがリリースされています。使い方はとても簡単です。ぼやけた画像をアップロードし、スケーリング係数（画像の拡大率）を設定します。バックボーンは、このためにどのコアニューラルネットワークを使用するかです。EDSRは通常より高速で効率的である一方、RDNはより高品質なアップスケール画像を提供する可能性があります。アンサンブルをオンにすると、複数のモデルを組み合わせてパフォーマンスを向上させます。
それぞれに微妙な違いがあるので、自由に試してみてください。非常に便利なツールで、1枚の画像をアップスケールするのに約10秒しかかからないので、非常に高速です。
Hugging Faceデモに加えて、GitHubリポジトリも公開されており、ここにはこれをダウンロードしてコンピュータでローカルに実行する方法に関するすべてのコードが含まれています。
次に紹介するツールは本当に素晴らしいです。LHM（Large Animatable Human Reconstruction Model）と呼ばれ、人物の1枚の写真から、アニメーション化できる3Dモデルを作成できます。ダンスさせたり、好きなように動かしたりすることができます。
いくつかの例を見てみましょう。左側の人物の画像を入力すると、その人物の3Dモデルを作成し、参照動画を入力すれば、その動きを3Dキャラクターにマッピングします。
別の例では、赤いTシャツを着た女性の画像を入力すると、この女性の3Dモデルに変換します。人物の顔や服の詳細を保存する素晴らしい仕事をしていることに注目してください。帽子のロゴやシャツの白鳥など、非常に正確です。顔も非常に正確です。参照動画を入力すると、手の動きを含め、その動きを3Dモデルに正確にマッピングします。
これは写実的な写真だけでなく、2Dキャラクターでも機能します。このキャラクターを入力すると、このキャラクターの3Dモデルを作成し、同じダンス動画を入力すると、その動きを3Dキャラクターに非常によくマッピングします。この架空の2D忍者の例でも、3Dキャラクターを作成し、参照動画に基づいてダンスさせることができます。
これらの3Dモデルは超写実的ではなく、特に体の縁や指の周りにいくつかの欠点を指摘できますが、これまで見た中で最も優れたものの一つです。素晴らしいのは、このAIが数秒で1枚の画像から3Dアバターを作成できることで、非常に高速です。また、人物の顔の詳細を保存する素晴らしい仕事をしており、3Dモデルの顔は元の画像の男性とまったく同じように見えます。
多くの例がありますが、時間の都合上すべては紹介しません。ページ上部にスクロールすると、試せるHugging Faceデモがリリースされています。使い方は非常にシンプルです。キャラクターの参照画像を入力し、キャラクターをどのように動かしたいかの参照動画を入力して、「生成」を押します。これは動画を生成するため、無料の日常的なHugging Face単位では実行できないため、実行するにはGPUクレジットを支払う必要があります。
さらに、GitHubリポジトリもリリースされており、これをダウンロードしてコンピュータでローカルに実行する方法についてのすべての指示が含まれています。モデルは実際にかなり小さく、最大のものでも10億パラメータしかありません。
次に紹介するAIは非常に便利です。Bouquet Diffusionと呼ばれ、画像の背景のぼかし（ボケ）もコントロールできる画像ジェネレーターです。「ボケ」という用語に馴染みがない場合、これはプロの写真撮影でよく求められる効果です。写真は浅い被写界深度、つまり背景がぼやけているとより美しく見えることが多いです。そうすることで被写体が際立ち、画像がより3D的に見えます。
このボケ効果をコントロールできるAIを長い間待っていましたが、ついにこれが登場しました。実際の例を見てみましょう。同じプロンプトと他のすべての設定を同じに保ちながら、このAIのボケ値を調整すると、背景をより鮮明またはよりぼやけさせることがわかります。別の例では、同じ猫の写真でも、ボケを0から30に調整すると、背景がより鮮明またはよりぼやけます。
このAIにはボケ値を設定でき、これは0から30の範囲で、0は背景を完全に鮮明で詳細に、30は背景を非常にぼやけさせます。例えば、背景に市場があるスムージーの写真で、ボケを0に設定すると、背景の市場がどれだけ詳細かがわかります。
Bouquet Diffusionと他の主要な画像ジェネレーター（Flux）を比較すると、Fluxでは背景のボケやぼやけをプロンプトで指定しても、あまり違いが出ません。Fluxはほとんどの画像の背景をぼやけさせる傾向がありますが、Bouquet Diffusionでは背景のぼやけを非常に鮮明から非常にぼやけまで完全にコントロールできます。
仕組みを簡単に説明すると、紫色のテキストプロンプトに加えて、モデルはオレンジ色のコンポーネントである特別なボケパラメータも取り込みます。これは画像の背景のぼやけ具合または被写界深度をコントロールします。また、ぼやけレベルだけを変更しながら、被写体と元のシーンの一貫性を保つこの接地された自己注意コンポーネントも使用します。
ページ上部にスクロールすると、GitHubリポジトリがリリースされており、すべてを近日中にリリースする予定とのことですので、お楽しみに。
次に紹介するAIは非常に強力です。STD Gen（Semantic Decomposed 3D Character Generation）と呼ばれ、1枚の画像から超高品質の3Dキャラクターを作成できます。
いくつかの例を見てみましょう。キャラクターの形状だけでなく、テクスチャも提供されることに注目してください。これは非常に正確です。1枚の画像から3Dモデルを生成できることに本当に驚かされます。このキャラクターの背面がどのように見えるか全くわかりませんが、推測して背面も生成できます。
別の例では、このキャラクターは非常に複雑なデザインを持っていますが、このAIはかなりうまく扱えています。この男性の衣装も非常に複雑ですが、ほとんどの部分でうまく処理しています。完璧ではありませんが、形状とテクスチャの両方において、これは既存の方法よりもはるかに優れています。
このAIは、こうした例のようにキャラクターを体、服、髪などの別々の部分に分解します。この分割のおかげで、これらの3Dモデルの品質と精度は、3Dキャラクター作成の他の方法を上回っています。
この新しいSTD Gen法と、Character Gen、Unique 3D、Instant Meshなどの他の方法を比較してみましょう。他の方法では生成結果はかなり悪いですが、この新しいSTD Genでは完璧ではないものの、品質と形状がはるかに優れていることがわかります。
簡単に仕組みを説明すると、まず、キャラクターの画像を取り込み、拡散モデル（基本的に画像ジェネレーター）を使用して、このようなキャラクターの複数のビューを生成します。また、RGBつまりキャラクターの色も生成します。さらに、キャラクターの表面の向きを表す法線も生成します。その後、これらのデータはセマンティック対応の大規模再構成モデルに入力され、キャラクターの形状と色を含む3Dモデルが構築されます。
そして、この分解段階を経て、キャラクターを体、服、髪などの別々の部分に分解します。その後、このリファインメントモジュールを使用してキャラクターの詳細をさらに改善し、最後にすべてを再び接着して最終的な3Dキャラクターモデルを提供します。
ページ上部にスクロールすると、オンラインで試せるHugging Faceデモがリリースされています。使い方は非常にシンプルです。参照画像をアップロードして「変換」をクリックします。その後、「マルチビュー画像の生成」をクリックすると、画像ジェネレーターを通じて、このキャラクターを異なる視点から生成します。その後、これを再構成モデルに入力して、このキャラクターの3Dモデルを構築します。
「再構成」をクリックすると、結果が表示されます。服、髪、体、そして全体のメッシュが表示されます。現時点では品質がかなり低いため、より高品質なキャラクターを生成するためにこのリファインメント段階を実行する必要があります。「リファイン」をクリックすると、それぞれがどれだけ3D的で詳細になるかがわかります。それらをすべて組み合わせると、キャラクターの3Dモデルが完成します。
非常に高速で、すべてを約10秒で生成します。このHugging Faceは無料でオンラインで試せます。ローカルにダウンロードしたい場合は、GitHubリポジトリもリリースされており、これをコンピュータでローカルにダウンロードして使用する方法についてのすべての指示が含まれています。これは完全に無料でオープンソースであり、モデルの重みは既に公開されています。
次に紹介するツールは驚異的です。Recam Masterと呼ばれ、ビデオのカメラアングルと動きを変更し、異なる視点から撮影されたように見せることができるAIです。これは今まで見た中で最高のものです。
いくつかの例を見てみましょう。まず、カメラが特定の焦点ポイントを中心に軌道を描くアーク軌道のデモです。左側が元の動画で、右側がこのアークまたは軌道運動を加えたAI生成動画です。すべてが非常に一貫していることに注目してください。キャラクターと特に彼らの顔は、完全に異なる視点であるにもかかわらず、このAI生成動画でも実際に同じように見えます。
この銃撃戦のシーンも非常に印象的です。左に軌道を描くと、右側の都市のスカイラインがどのように見えるのかわかりませんが、このAIは魔法のように推測し、それがどのように見えるかを生成できます。この珍しいポーズの「バレットタイム」シーンや、アイアンマンが飛び回るシーンでも、動きを非常に正確に捉えています。
次に、彼らが「上への移動」と呼ぶ軌道の例を見てみましょう。つまり、カメラが上に移動して下を見るようなものです。これも元の動画と比較して非常に正確に再生成できます。特にこのタイタニックのシーンでは、船の底がどのように見えるかを推測しなければなりませんが、これをうまく処理しています。このスパイダーマンのシーンでも同様に、元の動画にはないこの情報ですが、街路がどのように見えるかを推測しなければなりません。
これらは「上への移動」軌道でしたが、「下への移動」という逆も存在します。つまり、AIが下を向きながら上を見上げる感じです。ここでも、すべてが非常にリアルに見えます。これは非常に強力で柔軟なツールです。
次に、基本的にカメラが左右に回転するだけの「パン」軌道があります。ここでも、すべてが本当に良く見え、元のシーンを別のカメラアングルで撮影したかのようです。
さらに印象的な例もあります。「ズームイン」と「ズームアウト」の軌道です。これは非常に正確です。ズームインやズームアウトしても、元のキャラクターは同じように見えます。詳細を失ったり、顔を歪めたりしていません。元の詳細を保持するのが本当に優れています。
パン、ズーム、チルトする代わりに、カメラのさらに複雑な軌道を指定することもできます。必要なのは、3D空間内に軌道を描くだけで、それが入力動画に適用されます。このAIでは、ビデオのカメラ動作をどのようにコントロールできるかは無限です。
驚くべきことに、この技術を使えば、ビデオのカメラアングルを変更する以上のことができます。これは基本的に、ビデオの4D再構成とも呼ばれる完全な3Dシーンを作成でき、シーンをどのように見たいかを完全にコントロールできます。
別の驚異的な使用例もあります。これはまた、震えるビデオを安定させるのにも使用でき、はるかにスムーズに見せることができます。左側の動画はおそらく電話で撮影された元の動画で、非常に震えていますが、このAIを適用すると、ジンバルなどで撮影されたかのようにビデオを安定させることができます。
このページ上部にスクロールすると、GitHubリポジトリがリリースされていますが、まだモデルはリリースされていないようです。このGoogleフォームにビデオをアップロードして、Recam Masterを試す選択肢を提供していますが、再生成されたビデオで返信してもらえることを願っています。
次に、Stability AI（Stable Diffusionのチーム）が今週ついに新製品をリリースしました。Stable Virtual Cameraと呼ばれ、基本的に画像を3Dビデオに変換し、カメラの動きをコントロールできます。
いくつかの例を見てみましょう。この画像を入力し、カメラパスを指定してビデオを生成できます。この場合、ビデオをズームアウトさせたいなら、これが結果のビデオです。この鏡の画像を入力し、カメラパスをこのようにしたい場合、これが出力ビデオです。
カメラパスが360度軌道の例もあります。事前定義されたカメラパスに従う必要はなく、このようなカスタムパスも指定できます。非常に柔軟なツールです。
これには、360度軌道や無限大型パス、螺旋など、指定できるカメラ動作コントロールがあります。ドリーズームインやアウト、通常のズームインやアウト、前進や後退、そしてもちろん上下左右へのパンやロールも可能です。
1つの参照画像だけでなく、最大32枚の画像を入力して、より正確なビデオを生成するためのさらに多くのデータを提供できます。また、これらの標準アスペクト比や他のカスタムアスペクト比でビデオを生成できます。素晴らしいのは、長いビデオも生成できることです。最大1,000フレームのビデオを生成できると言われています。24fpsで割ると、40秒以上のビデオになります。
紫色の形のStable Virtual CameraをこれまでにYouTubeで紹介した他の3Dビデオジェネレーターと比較すると、このStable Virtual Cameraがこれらのベンチマークにおいて他を上回っていることがわかります。非常に印象的な成果です。
簡単に仕組みを説明すると、トレーニング中には、同じシーンの複数のカメラからの写真など、異なるビューからの一連の画像でトレーニングされます。トレーニング後、モデルは基本的に異なるビューからシーンの新しい画像を作成する方法を学習します。
推論中に画像を入力すると、まずここのピンクの領域にあるように、いくつかのアンカー画像を作成します。これらは基本的に異なるカメラ位置でのシーンの画像です。その後、これらのアンカー画像を使用して、青で見られるさらに多くの画像を作成し、これらはターゲットビューと呼ばれます。アンカー画像の間の小さなチャンクでこれらを作成します。ここでチャンク1、チャンク2、チャンク3などを見ることができます。このプロセスはより滑らかで一貫性のある結果を生み出すのに役立ちます。
素晴らしいのは、モデルの重みが既にダウンロードしてローカルで実行できるようになっていることです。これは非商用ライセンスの下で利用可能なので、商用目的には使用できませんが、それでもここにGitHubリポジトリがあり、すべてをダウンロードしてコンピュータでローカルに実行する方法についてのすべての指示が含まれています。
ヒューマノイドロボットのニュースでは、先週Engine AIのこの動画を紹介しましたが、彼らのロボットが非常に速く自然に走っていました。今週、彼らはさらに驚異的なデモを公開しました。
ここでは、彼らのロボットが映画「カンフーハッスル」の象徴的なダンスルーティンを実行しているところを示しています。これは振り付けされたパフォーマンスですが、それでも手足を動かして踊ることができる速さを考えると、これは非常に印象的です。
これが演出されたものや偽物、CGIだと思う人もいるかもしれませんが、彼らが投稿した追加のライブビデオがあります。異なる角度から撮影したビデオで、ロボットの照明と影が非常に正確でリアルに見えることに注目してください。これがCGIなら、通常は影がめちゃくちゃになりますが、そうではありません。これにはCGIとみなせる欠陥を見つけるのは難しく、正当なものに見えます。
ダンサーがロボットを訓練しているように見える別の舞台裏のショットもあります。ここでも、すべてが正当に見えます。この偽物やCGIだという兆候はありません。
ちなみに、このロボットは走ったり踊ったりできるだけでなく、前方フリップをするヒューマノイドロボットとしても初です。これは非常に印象的です。これは他のいくつかのロボットができるバックフリップよりもはるかに難しいものです。
フリップといえば、このデモはさらに驚異的かもしれません。Uni Treeは、サイドフリップができる彼らのG1ロボットの別のデモを投稿しました。これは通常、前方フリップよりもはるかに難しいことです。体がそのようにデザインされているわけではないので、横向きにフリップする勢いをつけコントロールするのは自然ではありません。ですから、彼らがこれを達成できたことは本当に印象的です。
ちなみに、私のチャンネルに初めてお越しの方のために、私はこれまでの数週間で同様に印象的な他のUni Tree動画を紹介してきました。彼らはこのロボットにカンフーやダンス、高速走行などをトレーニングしました。これは間違いなく最もアクロバティックで多用途なロボットの一つです。
他のヒューマノイドロボットニュースでは、Boston Dynamicsがついに彼らのAtlasロボットの新しい動画を公開しました。この動画はスプリントを開始・停止する能力や、他の驚くべき動きを行う能力を紹介しています。すべてがいかに自然に見えるかに注目してください。
ここでは、モーションキャプチャスーツを使用して開発された強化学習ポリシーを使用してトレーニングしたと述べています。これはどういう意味でしょうか？基本的に、人がこのようなモーションキャプチャスーツを着用し、走行や歩行などのアクションを達成するために体がどのように動くか、すなわち胴体や手足の動きを捉えるためにそのスーツで動き回りました。このモーションデータは強化学習を使用してトレーニングするためにロボットに渡されます。そして何千から何百万回ものトレーニングラウンドの後、AIは最高の報酬を達成するように最適化されます。つまり、ロボットはバランスを崩したり失敗したりすることなく、これらすべてのアクションを自分で行う方法を学習します。そして、これらすべてのアクションを自律的に実行できることに注目してください。これは舞台裏で誰かによって遠隔操作されているわけではありません。非常に印象的なデモです。
他のニュースでは、Claudeがついにウェブ検索機能を搭載しました。これは、私が以前に言及したClaudeの主要な弱点の一つです。ウェブを検索して最新情報を見つけることができないと、ある意味で役に立ちません。しかし、ついに今週この機能が有効になりました。claude.aiにログインすると、ウェブ検索を有効にできるこのカードが表示されるはずです。
これをクリックして機能をオンにしましょう。その後、「Jensen HuangのGTC 2025基調講演（今週ちょうど行われたもの）を要約して」などと試してみましょう。エンターをクリックして、ウェブをスクレイピングできるかどうか見てみましょう。ウェブ上で情報を検索し、それをすべて要約していることがわかります。
これは印象的でも画期的でもないことに注意してください。他の既存のチャットボットは既に長い間この機能を持っています。Perplexityは初日からこの機能を持ち、chatもウェブ検索機能を持っており、これは数ヶ月前から利用可能です。Deepseekも初日からウェブ検索機能を持っています。Claudeは後発ですが、今週ついにこの機能が追加されたことに注意してください。
このビデオのスポンサーであるMonicaに感謝します。Monicaは、最高のAIツールにすべて1つの場所からアクセスできるAIアシスタントです。これには、GPT、Deepseek、Geminiなどの一流AIモデル、FluxやStable Diffusionなどの一流画像ジェネレーター、ClingやHigh Lawなどの一流ビデオジェネレーターが含まれます。これはすべてを個別に使用するよりもはるかに安価に、1つのプラットフォームですべてを使用できるので、素晴らしい取引です。
これはデスクトップやモバイルデバイスでブラウザ拡張機能として使用できます。そしてブラウザ拡張は状況を認識します。そのため、閲覧中のウェブページと直接やり取りできます。Monicaにメールに返信させたり、記事を要約させたりするのが簡単にできます。例えば、このページにいる場合、Monicaにこの非常に技術的な記事をワンクリックで要約させることができます。さらに素晴らしいことに、このコンテンツからマインドマップを生成することもでき、アイデアをより視覚的に理解するのに役立ちます。これは、すべてをコピーしてChatGPTに移動して要約を依頼するよりもはるかに便利です。
MonicaをYouTube動画の要約にも使用できます。例を見てみましょう。このYouTube動画を見ている場合、ワンクリックで要約を生成したり、ポッドキャストを生成したりすることができます。タイムスタンプが正確なハイライトのリストも提供します。さらに、これを再度クリックすると、すべてをより視覚的に理解できるようにマインドマップが生成されます。
Monicaを使えば、すべてが数クリックで済みます。しかし、私の言葉を信じる必要はありません。彼らはChromeストアで4.9星の評価を持つ、世界中で1,000万人以上のユーザーを持っています。以下のリンクから無料で試してみてください。そしてアップグレードの準備ができたら、素敵な割引のために私のコード「AI search 10」を使用してください。詳細は以下の説明に記載されています。
他のニュースでは、NVIDIAのGTCイベントが今週ちょうど行われ、Jensen Huangは基調講演でいくつかの興味深い更新を発表しました。彼はDGX Sparkについて話しました。これは家庭用に設計されたコンパクトなAIスーパーコンピュータです。彼はこれを「世界最小のスーパーコンピュータ」と呼び、最先端のGrace Blackwellスーパーチップが組み込まれています。
これにより、1ペタフロップ（基本的に1,000兆回の演算を1秒で処理）のAI計算能力を提供でき、このようにコンパクトなものとしては非常に印象的です。128GBの統合メモリを持ち、約3,000ドルで販売される予定で、AIコンピューティングに真剣に取り組むなら手頃な価格です。これは今年の7月頃に利用可能になる予定です。
また、AIが文字通りすべてを変えている現在、Jensenはデータセンターから最終的にAIファクトリーへの移行を予測しています。従来のファイルや情報を取得するだけでなく、AIファクトリーは生成AIを使用するすべての人の需要を満たすために、膨大な量のトークンを生成することに焦点を当てます。
この変化に伴い、彼らはNvidia Dynamoを導入しました。これはAI向けのオペレーティングシステムのようなものですが、これらのAIファクトリー用です。彼はまた、NVIDIAがロボットのトレーニングプラットフォームを作成していることについても話しました。
Omniverseというものがあり、これは基本的に現実世界の物理学をシミュレートする仮想環境です。これはロボットが実際に何もせずに物理的な世界と対話する方法を学ぶための完璧なツールです。現実世界では何もせずに、この仮想シミュレーションですべてを学ぶことができます。
実際、特にロボットのトレーニングのために、Isix Simというシミュレーションツールキットを提供しています。ここで、これらの仮想環境でロボットを何千から何百万回も繰り返しトレーニングできます。ロボットに歩行や走行、ダンス、カンフーを教えたい場合、この仮想環境でAIを大量に繰り返しトレーニングするだけです。これが現実世界の物理学をシミュレートするため、理論的には、このロボットを実世界に展開すると、すぐに機能するはずです。
NVIDIAといえば、彼らは今週、Cosmos Transfer 1というものもリリースしました。これは基本的にはビデオジェネレーターですが、実際にはそれ以上のものです。これは実世界の物理学を反映するフォトリアリスティックな動画を生成でき、ロボットや自動運転車のトレーニングにとってゲームチェンジャーとなるでしょう。
まず、これは通常の動画、LAR動画、深度データ、さらには動きの軌跡など、さまざまな入力を取り込むことができます。その後、前述したNVIDIAのOmniverseプラットフォームを使用して、リアルな照明と物理学、動きの力学を持つ新しい動画を生成します。Omniverseを使用することは重要です。なぜなら、これにより生成された動画が実世界の物理学と一致し、ロボットや他の物理的AIをトレーニングするためのデータを作成する上で必要だからです。
いくつかの例を見てみましょう。このエッジマップを入力すると、それから動画を生成できます。またはこの深度動画を入力しても、そこから完全な動画を生成できます。または、ぼやけた動画を入力して、アップスケールして動画により多くの詳細を追加することもできます。このようなHDマップを入力すると、そこから動画も生成できます。
入力としてこのLAR動画を取り込み、そこから異なる天候条件の多くの異なる動画を生成できる例もあります。しかし、それらはすべて同じLARマップを持っています。または、1つの最終的な動画を生成するために複数の入力動画を取り込む例もあります。例えば、ここではセグメンテーションデータ、エッジデータ、LARデータを入力し、そこからこの動画を生成できます。そして、1つの動画から異なる設定の複数の動画を生成できますが、それらはすべて実世界の物理学と一致しています。
このツールが実際に非常に有用である理由があります。ロボットのトレーニングにおける主なボトルネックの一つはデータです。より高品質なデータが多いほど、AIは理論的にはよりスマートになります。しかし、ロボットや自動運転車、その他の物理的AIをトレーニングする場合、既にトレーニングのために利用可能なデータのほとんどを提供しています。AIをよりスマートにしたければ、AIをトレーニングするために合成データを生成し始める必要があります。しかし、このデータは物理的に正確でなければなりません。実世界の物理学を反映している必要があります。
そのため、これらの動画は非常に有用です。これらはNVIDIAのOmniverseを使用して生成されたため、これらの動画が高品質で正確であることを保証できます。素晴らしいのは、彼らが既にモデルをリリースしていることです。このGitHubリポジトリには、Cosmos Transferをコンピュータでローカルにダウンロードして実行する方法についてのすべての指示が含まれています。
次に紹介するAIは非常に強力です。audio Xと呼ばれ、テキスト、画像、動画など、さまざまな入力から音声や音楽を生成できます。
いくつかの例を見てみましょう。猫が2回鳴くというプロンプトを入れると、その音を問題なく生成できます。またはバイオリンで演奏されるこのメロディー、非常にリアルなバイオリンの音です。そして、キーボードで入力する人の例もあり、これも非常に良い音がします。
しかし、できることはそれだけではありません。動画を入力して、それに適した音声を生成することもできます。ここにいくつかの例があります。これらの音声はすべて、無音動画クリップから生成されていることに注目してください。
さらにできることがあります。テキストと動画の両方を入力として追加できます。例えば、この海の波の動画があれば、「海の波の音」というプロンプトに「人々の笑い声」も追加してみましょう。
また、「音声インペインティング」も可能です。音声録音の一部が欠落または損傷している場合、このAIを使用してその隙間を埋めることができます。中央部分がカットされたサイレンの例があります。AIに通した後、この中央部分を埋めることができます。または、中央部分が欠落している音声クリップの別の例もあります。簡単なスピーチの後、大きな拍手と歓声が続くというプロンプトを与えると、こうなります。
これは効果音だけでなく、このAIで完全な曲を生成することもできます。同様に、テキストプロンプトだけでなく、動画を入力して、その動画のためのバックグラウンドミュージック全体を生成することもできます。
これは非常に強力で多用途なツールです。これでできることは非常に多いです。さまざまなベンチマークスコアでのパフォーマンスを、私のチャンネルで以前に紹介した他の音声・音楽ジェネレーターと比較すると、この新しいもの（青色）がこのチャートで最も広い領域をカバーしていることがわかります。つまり、最高品質で最もパフォーマンスが高いということです。
ページ上部にスクロールすると、GitHubリポジトリがリリースされており、下部にはコードがリリース予定とあるため、お楽しみに。リリースされたら、必ずテストし、品質が彼らが主張するように良ければ、必ず完全なインストールチュートリアルを作成します。
最後に、OpenAIが最新かつ最もパフォーマンスの高いモデルをリリースしました。01 Proと呼ばれ、確かに少なくとも価格の面ではすべてを圧倒しています。これは、100万入力トークンあたり150ドル、100万出力トークンあたり600ドルです。01 Proを他の最先端の言語モデルと比較すると、これは信じられないほど高価です。Deepseek R1の価格の262倍以上で、既にかなり高価なClaude 3.7 Sonnetの43倍も高価です。
数週間前、私はGPT-4.5を紹介しましたが、これは既に非常に高価でしたが、この01 Proはすべてを吹き飛ばします。これには理由があります。より複雑な問題を解決するために、より多くの計算を使用して「より懸命に考える」のです。これは主に、高度な数学、コーディング、科学などのより技術的なことに使用されています。
例えば、このGPQAダイヤモンドベンチマーク（大学院レベルの科学の質問）では、01 Proはかなり良いパフォーマンスを発揮します。驚くべきことに、そのような信じられないほどの価格にもかかわらず、Grok 3推論よりもまだ遅れています。そして競争的な数学の面では、01 Proは03 Miniと1位を分け合っています。
このモデルは良さそうですが、価格の法外な値上げに見合う価値があるかどうかは疑問です。または、これらの単語接続ゲームを解くのに非常に優れたAIが欲しい場合にのみ、01 Proが意味をなすでしょう。これらの単語接続ゲームを解く点では、01 Proは間違いなく最高のモデルです。
私はArtificial Analysisによるものや、Abacus AIによるLiveBenchなど、独立したリーダーボードで01 Proの他のパフォーマンスメトリクスを見つけようとしましたが、まだ01 Proをリストしていません。LM Arenaリーダーボードにもまだ追加されていません。
客観的にこれがどれほど優れているかは本当にわかりません。一部の人々は、少なくとも標準の01モデルよりも、本当に重い推論タスクでより優れたパフォーマンスを発揮すると主張しています。しかし、それは限界的な改善にすぎず、価格の大幅な上昇に決して値しません。また、これらの単語接続パズルを解くのがかなり得意だとしても、一部の人々は数独や錯視などの他のパズルにはまだ弱いと主張しています。
ここで重要なのは、博士号を持っていたり、がん治療の研究をしているラボで働いていたり、何か本当に高度なコーディングをしていたりしない限り、01 Proは過剰かもしれないということです。ソーシャルメディアの投稿を書いたり、メールに返信したりするのにこれは確実に必要ありません。
これでAIの今週のハイライトがすべて終わりました。コメントで皆さんの意見を教えてください。どのニュースがお気に入りで、どのツールを最も試してみたいですか？いつものように、私はトップAIニュースとツールを皆さんと共有するために見張っています。このビデオを楽しんでいただけたなら、良いね、シェア、購読をお忘れなく、そしてさらなるコンテンツをお楽しみに。
また、AIの世界では毎週とても多くのことが起こっているため、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっていることすべてに本当に最新の状態を保つために、私の無料週刊ニュースレターに登録してください。そのリンクは以下の説明にあります。視聴いただきありがとうございます。次回お会いしましょう。