本動画は、2025年3月初旬のAI業界における目覚ましい技術革新を包括的に紹介するものである。音声付きオープンソース動画生成モデルLTX 2.3、OpenAIの最新FrontierモデルGPT 5.4、NVIDIAによるGPUコード自動最適化エージェントCUDA agent、リアルタイム動画生成技術、画像編集AI、3Dシーン補完技術など、多岐にわたる分野で革新的なツールが登場している。特にアクロバティックな動作を実現するヒューマノイドロボット制御フレームワークOmni Extremeや、単一視点動画から360度パノラマ映像を生成するCube Composerなど、実用性と革新性を兼ね備えた技術が次々と発表されている。Alibabaはスマートフォンでも動作する小型言語モデルQwen 3.5シリーズをリリースし、AIの民主化をさらに推進した。これらの技術の多くはオープンソースとして公開されており、AI開発の加速と一般化が顕著に進行していることを示している。

- 止まらないAI技術革新の波
- 動画編集の新時代:QEdit
- Tencent発:HY Woo画像編集ツール
- 単一動画から360度パノラマへ:Cube Composer
- 新たなトップオープンソース画像編集ツール:Fire Red Image Edit 1.1
- リアルタイム長編動画生成:Helios
- 空間理解を向上させる報酬モデリング
- 生成速度を3.5倍高速化:Spectrum
- 提供:Higsfield
- GPU向けコード自動生成:CUDA Agent
- あらゆる3D点群データを理解:UNIA
- 最初のフレームから動画全体を編集:FreeEdit
- リアルタイム物理シミュレーション:RealWonder
- 広告制作に最適:Hi-Fi InPaint
- エッジデバイス向け超小型モデル:Qwen 3.5
- 音声ネイティブ対応動画生成:LTX 2.3
- OpenAI最新Frontierモデル:GPT 5.4
- 3D再構成の強化:Artifixer
- リアルタイムシミュレーション強化:Diffusion Harmonizer
- アクロバティック動作を実現:Omni Extreme
- ピクセル単位の3D動き追跡:Track4World
- 今週のAIニュースまとめ
止まらないAI技術革新の波
AIは決して眠らない。今週は本当に狂気じみた展開でした。音声付きの最高峰オープンソース動画生成モデルが登場しましたし、Nano Bananaのような最先端のオープンソース画像編集ツールも2つリリースされています。さらに、単一GPUで動作するリアルタイム動画生成ツールも2つ出てきました。
Alibabaは引き続きQwenのさらに小型化されたモデル群をリリースしており、これらはスマートフォンやエッジデバイス上で動作します。NVIDIAは3Dシーンをリアルタイムで修正し詳細を追加できるAIを発表しました。単一の動画を360度動画に変換し、あらゆる角度から視聴可能にするAIも登場しています。さらに驚異的なヒューマノイドロボットのデモが多数公開されるなど、盛りだくさんの内容となっています。
それでは早速見ていきましょう。
動画編集の新時代:QEdit
まず最初にご紹介するのは、かなりクールなAIです。QEditと呼ばれるもので、オープンソースの動画編集ツールです。Nano Bananaの動画版と言えるでしょう。いくつか例を見てみましょう。既存の動画を任意のスタイルに変換できます。例えばこちらの動画をスケッチスタイルに変換できます。
別の例では、この動画をカートゥーンアニメーション風にしたり、水彩画スタイルに変換したりできます。参照画像を入力することも可能です。例えばこの参照画像を入力して、元の動画の背景をこの画像に置き換えることができます。こちらが結果です。別の例でも背景をこの画像に置き換えられますし、さらに別の例もあります。
既存の動画に要素を追加することもできます。例えば少年にこの帽子をかぶせることができます。逆に動画から何かを削除することも可能です。例えばこの人物を動画から削除するようプロンプトを入力できます。任意のオブジェクトの写真をアップロードして動画に追加することもできます。
例えばこの女の子にこのサングラスをかけさせることができます。仕組みとしては、指示を理解するためのマルチモーダルLLMと、実際に動画を生成・編集する動画拡散トランスフォーマーモデルを組み合わせています。他のオープンソース動画編集ツールと比較すると、平均してこちらの方が、私が以前チャンネルで紹介したVaseやLucyditといった他のツールよりもはるかに優れたパフォーマンスを発揮します。
クローズドソースの動画編集ツールであるCling01と比較すると、Cling01の方がまだ最高です。QEditには勝っています。とはいえ素晴らしいのは、ページ上部にスクロールすると既にすべてがリリースされていることです。このGitHubリポジトリをクリックして少し下にスクロールすると、ローカルコンピューター上でこれをダウンロードして実行する方法に関するすべての指示が記載されています。
さらに、トレーニングと評価のコードもリリースされています。HuggingFaceで確認してこれらのモデルの1つを調べると、かなり大きいことがわかります。合計サイズは20GBです。これを実行するにはハイエンドの消費者向けGPUが必要になります。興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
Tencent発:HY Woo画像編集ツール
今週、TencentはNano Bananaのような非常に強力な画像編集ツールをリリースしました。HY Wooと呼ばれるもので、特に服の交換やスタイル転送に優れた画像編集ツールです。いくつか例を見てみましょう。この初期画像とこれらの参照画像を入力して、Elonにこれらのコスチュームを着せることができます。
両方の参照画像の詳細を非常によく保持できていることがわかります。別の例では、この画像をアップロードして彼女にこれらの参照画像からのさまざまなコスチュームを着せることができます。服の交換が非常にシームレスに適用されているのがわかります。他にも別の参照写真から衣装を適用する例があります。
仕組みとしては、参照画像とテキストプロンプトを特別なコードに変換し、そこから瞬時に小さなLoRAを作成します。そしてこのLoRA、つまりファインチューニングされたモデルをネイティブ画像編集ツールに注入して最終画像を生成します。これにより結果がはるかに正確で一貫性のあるものになります。HY Wooと他の主要なオープンソースおよびクローズドソース画像編集ツールとの勝率がこちらです。
Qwen ImageEditやLong Cat ImageEdit、Flux 2といったオープンソースのものと比較すると、HY Wooがほとんどの場合で勝っていることがわかります。クローズドソースのCream 4.5やGPT Image 1.5に対しても、HY Wooはほとんどの場合で勝っているようです。ただし、Nano Banana 2とNano Banana Proには負けています。これはオープンソースであることに注意してください。既にリリースされています。
このGitHubリポジトリをクリックして少し下にスクロールすると、ローカルコンピューター上でこれをダウンロードして実行する方法に関するすべての指示が記載されています。ただし、ベースモデルはかなり大きいことに注意してください。8×40GBまたは4×80GBのVRAMが必要で、ほとんどの方はお持ちでないと思います。しかし、ここまでスクロールして上部を見ると、蒸留されたチェックポイントをリリースする予定のようで、そちらは少し小さくなるはずです。
興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
単一動画から360度パノラマへ:Cube Composer
今週、このAIは超クールです。Cube Composerと呼ばれるもので、1台のカメラから撮影された通常の動画を、バーチャルリアリティのようにあらゆる方向から視聴できる完全な360度動画に変換できます。
さらに、この動画を4K解像度にアップスケールすることもできます。サイト上では、このAIが生成できた360度動画のインタラクティブなデモが実際に提供されています。こちらでこの例をいじっているところです。そしてこちらは雪原の別の例です。ディテールはかなり良好です。この生成にはいくつかの歪みやエラーがあります。
完璧ではありませんが、単一の動画を受け取ってこのような360度シーンに変換できるのは依然として非常に印象的です。そしてこちらが高速道路の例です。繰り返しになりますが、シーンの背後がどのように見えるかまで推測できています。ArgusやViewpointといった他の競合と比較すると、品質がはるかに悪いことがわかります。
Argusでの同じ雪原の例がこちらです。これはひどいですね。Viewpointという別の競合があり、これはさらに悪く見えます。そしてViewpointでの高速道路の例がこちらです。これは本当にひどいです。少なくともこれら2つの競合と比較すると、Cube Composerは品質的に圧倒的に最高のものです。
仕組みは次のとおりです。動画を一度に1つずつ検査する拡散モデルを使用し、それを6つの主要コンポーネントを持つ360度球体に分解します。それぞれが短いチャンクで一度に3Dシーンの面を生成します。そして、過去と未来の部分、および近くの面や3Dシーンのセグメントを記憶するために、スパースアテンション付きのコンテキストプールを使用し、すべてがシームレスにブレンドされるようにします。
さらに、cube aware positional encodingや、よりスムーズでシームレスに見せるためのパディングとブレンディングといった特別な処理も追加されています。素晴らしいのは、既にこのコードがリリースされていることです。上部のこのGitHubリポジトリをクリックして少し下にスクロールすると、ローカルコンピューター上でこれをダウンロードして実行する方法に関するすべての指示が記載されています。
興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
新たなトップオープンソース画像編集ツール:Fire Red Image Edit 1.1
今週、新しいトップオープンソース画像編集ツールが登場しました。Fire Red Image Edit 1.1と呼ばれるものです。以前のバージョン1.0も本当に優れていましたが、こちらではさらに改善されています。いくつか例を見てみましょう。
この元の画像を取り、背景と彼女の服装とポーズを変更できますが、顔は一貫して保持されます。別の例では、この赤ちゃんを取り、ポーズと背景を変更して、まったく新しい写真を生成できます。
しかし、顔が一貫して保持されていることに注目してください。そしてこちらは別の例で、彼の顔と服装を一貫して保持できています。また、たくさんの異なる参照画像をアップロードして、すべてを1枚の写真にマージすることもできます。Nano Bananaのように動作します。こちらはこの女性を取り、これらすべてのアイテムを着せることができる例で、シームレスに画像を生成できます。
さらに別の例がこちらです。このドレスとこれらの靴の両方が詳細において非常に複雑であることに注目してください。しかし生成において正確にレンダリングできています。これはセマンティック画像編集ツールです。編集したいものをプロンプトで指示するだけです。元の画像を取り、この顔にさまざまなメイクスタイルを追加するようプロンプトを入力する例がこちらです。
別のクールな例では、この参照写真とポスターの参照写真があります。このテキストのスタイルをこの写真に追加したいとしましょう。このようにこのフォントを正確に適用できます。別の例では、この参照画像からフォントを正確にここに適用できます。これらのベンチマークスコアを見ると、この新しいFire Red 1.1がQwen ImageEditやLongcat Image Editといった主要なオープンソース画像生成ツールをも上回っていることがわかります。
したがって、少なくともこれらのベンチマークによれば、現在Fire Red ImageEdit 1.1が最高のオープンソース画像編集ツールです。これらのベンチマークのいくつかでは、黄色で示されたNano Banana Proさえも上回っています。素晴らしいのは、以前のFire Redモデルと同様に、既にオープンソース化されていることです。
ファイルとバージョンをクリックすると、これがほぼ60GBのサイズであることに注意してください。残念ながら、ほとんどの消費者向けGPUには収まりませんが、より圧縮されたGGUFSまたは量子化バージョンが登場することを期待しています。興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
リアルタイム長編動画生成:Helios
次に、このAIもかなりクレイジーです。Heliosと呼ばれるもので、長編動画をリアルタイムで生成できます。単一のH100 GPUで秒間19.5フレームの動画を生成でき、最大1分の長さの動画を生成できると記載されています。過去にいくつかのリアルタイムAI動画生成ツールを紹介しましたが、それらはすべてかなり品質が悪かったです。
これは実際にこれまで見た中で最高品質のものです。はい、これには依然としてH100が必要で、ほとんどの方はお持ちでないと思いますが、良いスタートです。つまり、単一のGPUでこの品質のほぼ20フレーム/秒を生成できるという事実は既に本当に印象的です。今後数か月でさらに高速で効率的になることは間違いありません。
リアルタイムであることを考えると、品質は最高のモデルほど優れているわけではなく、それらははるかにシャープです。依然としてノイズやディテールの欠如が目立ちますが、かなり良好です。そしてこちらが動画を生成する際のターミナルの例です。これがどれだけ速いかわかります。これは信じられないほど速いです。
ここで見られるように、30フレーム以上を生成するのに2秒もかかりません。reward forcing、self-forcingなど、これまでチャンネルで多数の方法を紹介してきましたが、フレーム/秒の観点から、Heliosの蒸留バージョンは本当に高速です。秒間19.5フレームでトップクラスです。
最速ではありませんが、それを上回るものは品質が本当に悪いです。パラメータ数がわずか13億であるのに対し、Heliosははるかに大きいことに注意してください。特にこのグラフを見て、Heliosと長編リアルタイム動画生成の動画品質を比較すると、Heliosが他の方法を上回っていることがわかります。このグラフを見て、Heliosを1.2、long video、LTX2といったリアルタイムではない他のトップ動画生成ツールと比較すると、実際にトップモデルのいくつかと同等であることがわかります。
ページ上部にスクロールすると、既にすべてがリリースされています。このGitHubリポジトリをクリックして少し下にスクロールすると、ローカルコンピューター上でこれをインストールして実行する方法に関するすべての指示が記載されています。これを実行できる多数の異なるパイプラインが提供されています。
さらに、トレーニングコードもリリースされています。興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
空間理解を向上させる報酬モデリング
今週、報酬モデリングによって画像生成における空間理解を向上させるという本当にクールなプロジェクトがあります。簡単に言えば、これは基本的に画像生成ツールを改善するフレームワークで、プロンプト内の空間的関係をよりよく理解できるようにします。
例えば、何かの左または右、何かの後ろ、上、下といった言葉を追加した場合、現在のほとんどの画像モデルでは、指定したすべてのものの位置を実際に捉えることができません。しかしこのフレームワークを追加すると、はるかに良くなります。いくつか例を見てみましょう。こちらがテキストプロンプトです。ダイニングルームで、長いテーブルに3本のキャンドルが一列に並んでいます。
視聴者の視点から、最も高いキャンドルは左にあります。中くらいのは中央にあります。最も短いのは右にあります。フルーツのボウルが中央のキャンドルの後ろに置かれ、それと整列しています。そして2枚のプレートがキャンドルの列の前に置かれています。1つは最も高いものと整列し、もう1つは最も短いものと整列しています。
そして絵画が壁に掛けられ、ボウルの真上の中央に配置されています。こちらが生のfluxモデルからの生成です。見てわかるように、キャンドルは一列に並んでいません。さらに、最も高いキャンドルは左にありません。ボウルは中央のキャンドルの後ろにありません。この生成には多くのエラーがあります。
しかし、この新しいモデルを使用すると、実際にプロンプトに正確に従っていることがわかります。キャンドルは一列に並んでいます。左側に最も高いキャンドルがあります。中央のキャンドルの後ろにフルーツのボウルがあります。左と右のキャンドルの前にプレートがあります。さらに、絵画も中央のキャンドルの中央と後ろに配置されています。これは完璧に従っています。
別の例がこちらです。アームチェアが小さな丸テーブルに向かっています。フロアランプが椅子の後ろ、背もたれの中央に整列して置かれています。ティーカップがテーブルの左側に置かれています。クッキーの小さなプレートがテーブルの右側に置かれています、といった具合です。さて、こちらがFluxからの元の画像ですが、見てわかるように、ランプは実際には椅子の背もたれの後ろにありません。
カップはテーブルの左側にありませんし、クッキーは右側にありません。一方、この新しい方法では、ランプが実際に椅子の背もたれの後ろの中央に配置されており、テーブル上のアイテムも適切に配置されていることがわかります。別の例では、オレンジ色のコーンが車の後ろの中央に置かれています。
バックパックが車の左後輪の地面に置かれています。水のボトルが車の右後輪のところに立っています。そして地図が車のトランクリッドの中央に広げられています。ジャケットがトランクの右端に掛けられています。こちらを見るとジャケットが間違っています。地図は中央に配置されていません。さらに水のボトルは右タイヤの近くにありません。
一方、この新しい方法では、すべてが正しく配置されています。これをどのように作成したかというと、まず80,000以上のペアを含む巨大なデータセットを作成し、正しい空間配置と間違った空間配置を比較しました。例えば、こちらがプロンプトで、こちらが正しい答えです。しかし、間違ったものにするために意図的に画像を編集しました。
その後、正しいペアと間違ったペアのこのデータセットを使用して報酬モデルをトレーニングしました。その後、このフレームワークはプロンプトに基づくオブジェクトの空間配置をはるかによく理解できるようになりました。素晴らしいのは、ページ上部までスクロールしてこのGitHubリポジトリをクリックすると、データセットとモデルウェイトをリリースする予定であると記載されていることです。ぜひご期待ください。
画像内のオブジェクトの空間配置を本当に気にする場合、このフレームワークは使用するのに良い選択肢かもしれません。興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
生成速度を3.5倍高速化:Spectrum
今週、Bite Danceはまだまだ開発を続けています。Spectrumと呼ばれるこのクレイジーなツールもリリースしました。
これは、将来のステップを実際に計算するのではなく予測することで、AI画像および動画生成を高速化する方法です。基本的に、既存の動画または画像ワークフローの上にSpectrumを適用できます。例えばここでは、品質を損なうことなく生成を約3.5倍高速化するために、Hunyan videoに適用しました。
動画の代わりに、Spectrumを画像生成ツールであるFluxに適用して、生成を3.5倍高速化することもできます。他の高速化方法と比較した画像生成の比較がこちらです。Spectrumは右端にあり、同じプロンプトで品質はほぼ元のFlux生成と同じですが、Spectrumは約4.7倍高速です。生成に多くのエラーを導入する他の高速化方法よりもさらに高速です。
そしてこちらが動画生成の比較です。左側が50ステップで生成されたHunyan videoを使用した元の動画です。中央がわずか14ステップで生成されたこの新しいSpectrumです。つまり3.5倍の高速化です。
そして右側がTaylor’s Seirと呼ばれる別の高速化手法です。しかし見てわかるように、この競合の品質ははるかに悪いです。色がはるかに飽和しています。一方、Spectrumについては、はるかに高速であるにもかかわらず、元の生成と区別するのが本当に難しいです。Hunan Videoの代わりに、こちらがQwen 2.1を使用した別のテストです。
繰り返しになりますが、Spectrumは中央にあります。競合のTaylor Seirは右側にあります。エラーが多すぎます。ここでわかるように、Spectrumは元の動画とほぼ同じに見えます。品質は素晴らしいですが、約3.5倍高速に生成できます。仕組みが気になる場合、基本的にChebyshev多項式と呼ばれる数学的手法を使用して、特徴が時間とともにどのように変化するかをモデル化します。
これを使用して、より多くの計算を費やすことなく将来のステップを予測します。そのため、はるかに高速になりますが、品質をあまり低下させません。素晴らしいのは、既にコードがリリースされていることです。このGitHubリポジトリをクリックして少し下にスクロールすると、ローカルコンピューター上でこれをダウンロードして実行する方法に関するすべての指示が記載されています。
FluxやSDXLといった多数の異なるモデルのtext to image、およびHunenやQwen 2.1のtext to videoの両方に対応していることに注意してください。興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
提供:Higsfield
最高の画像および動画生成ツールを取り上げてきましたが、非常に圧倒される可能性があります。幸いなことに、このビデオのスポンサーであるHigsfieldが、すべてを1か所にまとめてくれています。彼らは最も映画的な自社製写真モデルであるSoul Cinema Previewをリリースしたばかりです。クリエイターやAI映画製作者向けに特別に構築されており、豊かなテクスチャ、深いムード、自発的な品質を備えた映画グレードの画像を生成します。これはSoul IDとシームレスに連携するため、独自のキャラクターを作成してそこから画像を生成できます。
生成の正確な色制御のためのSoul Hexとも相性が良いです。商業キャンペーン、AI映画製作、ミュージックビデオなど、ハイエンドな雰囲気が必要なあらゆるものを考えてみてください。そして現在、Pro Plusプランで10,000回の無料生成が付属しています。参加するには絶好のタイミングです。Soul Cinema Previewや、1つのプラットフォームですべて利用可能な他のトップ画像および動画生成ツールを試したい場合は、ぜひHigsfieldをチェックしてください。
今日試してみるには、下の説明欄のリンクをクリックしてください。
GPU向けコード自動生成:CUDA Agent
次に、このAIはかなりクレイジーです。Bite DanceはAI向けにより高速なGPUコードを自動的に書くAIシステムを構築しました。CUDA agentと呼ばれるものです。これは非常に技術的です。簡単に説明しましょう。ほとんどの最新のAIシステム、GPTや画像モデル、動画生成ツールなどはすべてGPU上で実行されます。
GPUはカーネルと呼ばれる特別なプログラムを使用し、コードを並列で非常に高速に実行します。カーネルは基本的に多数のGPUコア上で一度に実行されるプログラムですが、これらは書いて最適化するのが本当に難しいです。そこで彼らはCUDA agentと呼ばれるツールを作成しました。このGPUコードを書くだけでなく、テストして速度を測定し、より高速になるまで品質を向上させます。
つまり、GPU用のコードを書くために最適化されたAIエージェントのようなものです。このCUDA agentの出力は実際に驚異的に優れています。参考のためにいくつかのメトリックがこちらにあります。こちらではGemini 3 ProやOpus 4.5を含むトップモデルのいくつかと比較していますが、この新しいCUDA agentがこれらすべてのメトリック全体でGPUコードを書くのにさらに優れていることがわかります。
GPUコードの正確率やこれらすべての速度メトリックです。圧倒的に他のモデルより優れていることがわかります。素晴らしいのは、既にすべてがリリースされていることです。このGitHubリポジトリをクリックして少し下にスクロールすると、このエージェントのトレーニングに使用した完全なデータセットが含まれています。
そしてこちらがエージェントワークフロー全体です。これを自分でダウンロードして試すこともできます。これは非常に技術的ですが、CUDAカーネルを最適化してAIモデルをより高速に実行させることに興味がある場合は、かなり大きな意味を持ちます。興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
あらゆる3D点群データを理解:UNIA
次に、このAIは超役立ちます。UNIAと呼ばれるもので、これはあらゆる種類の3D点群データを理解する単一のAIモデルです。従来は、さまざまな種類の3Dデータをスキャンするために個別のモデルを構築する必要がありました。例えば、自動運転LiDARスキャンは屋内ルームスキャンとは別のモデルを持ち、それも衛星やリモートセンシングデータとは別のものでした。
しかしこちらは、それらすべてにわたって機能する1つのエンコーダーです。これにより、同じモデルをロボット工学、自動運転、バーチャルリアリティ、空間推論、3Dセグメンテーションなど、多くのことに使用できます。ご覧のとおり、多数の異なる種類の点群データに対応できます。これは、屋外LiDARデータや屋内スキャン、CADモデルを含むあらゆる種類の3D点群データを変換し、基本的に下流タスクで使用するためにエンコードできる統合モデルです。
素晴らしいのは、既にこれがリリースされていることです。このGitHubリポジトリをクリックして少し下にスクロールすると、ローカルコンピューター上でこれをインストールして実行する方法に関するすべての指示が記載されています。これはかなり小さなモデルであることに注意してください。Hugging FaceリポジトリをクリックするとわかりますがわずかHigsfieldの記述が抜けていたため、修正しつつ続けます。このモデルはわずか約550MBです。興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
最初のフレームから動画全体を編集:FreeEdit
今週、FreeEditと呼ばれる別の動画編集ツールもあります。これはかなり興味深いものです。最初のフレームを変更し、AIにそれらの変更を動画の残りの部分に伝播させることで動画を編集します。例えば、この砂漠の丘の背景を砂の城に変更できますが、それは最初のフレームだけです。
FreeEditが行うのは、この背景の変更を動画の残りの部分に適用することです。別の例では、この動画の最初のフレームを取り、車を赤に変え、FreeEditが動画の残りの部分でこの車を赤くします。Go with the FlowやITVEditなどの他の動画編集方法と比較すると、この新しいFreeEditの方がはるかに優れたパフォーマンスを発揮していることに気づくでしょう。
すべてがはるかに一貫しています。参考のために別の例がこちらです。仕組みとしては、editing aware RE injectionと呼ばれるものを使用します。拡散モデルが動画を生成している間、これらのREブロックを追加していることがわかります。これは基本的に、オプティカルフローを使用してフレーム全体で編集された領域を追跡し、元の動画のどれだけが新しい特徴で編集されるかを適応的に制御します。
残念ながら、これについてはまだコードなどがリリースされていません。これに関する技術論文があるだけですが、さらに詳しく読みたい場合は、このメインページへのリンクを下の説明欄に記載しておきます。
リアルタイム物理シミュレーション:RealWonder
今週、さらに別のリアルタイム動画生成ツールがあります。RealWonderと呼ばれるもので、特定の方向にオブジェクトに力を加えたときに何が起こるかを示すリアルタイム動画を生成できます。
例えばこちらでは、オレンジ色の矢印の方向によって指示される水の中でこのオブジェクトがどのように動くかを調整できます。別の例では、オレンジ色の矢印を右に調整すると、こうなります。別の例では、これらの服にこのオレンジ色の矢印の方向に風を適用できます。
こうなります。別の例では、一方向に力を加えると、オブジェクトがその方向にリアルタイムで移動します。複数の力を適用することもできます。例えば、左に1つ、右に1つで、それでも機能します。いくつかのスペックがこちらです。単一のH200 GPUで480p解像度で秒間13フレームで実行できます。
もちろん、ほとんどの方はH200をお持ちではありません。これは依然として消費者向けGPUで実行するには大きすぎますが、良い概念実証です。ここまでスクロールすると、素晴らしいことに既にコードがリリースされています。このGitHubリポジトリをクリックして少し下にスクロールすると、ローカルコンピューター上でこれをダウンロードして実行する方法に関するすべての指示が記載されています。
興味がある方は、このメインページへのリンクを下の説明欄に記載しておきます。
広告制作に最適:Hi-Fi InPaint
次に、このAIは広告の作成に本当に役立ちます。Hi-Fi InPaintと呼ばれるもので、人々がそれらを持っている写真に製品をシームレスに挿入します。例えば、この製品画像とこの人物があるとしましょう。
このように製品をこの人物にシームレスに挿入できます。別の例があります。この製品をこの写真にこのように挿入できます。またはこの製品をこの写真にこのように挿入できます。Qwen Image EditやNano Bananaのように、これを行える画像編集ツールは既にたくさんありますが、こちらは特にこの特定のタスクを行うために特化していると主張しています。
理論的には、製品の精度と一貫性をさらによく保持するはずです。例えば、この新しいHi-Fi InPaintとAce++やInsert Anything、かなり古いFlux Contextなどの他の方法との比較がこちらです。ここでは選り抜きしているように見えますが、それでもこの新しいHi-Fi InPaintが製品の精度を保持する点で最高であることがわかります。
別の例では、ご覧のとおり、Hi-Fi InPaintが製品の外観を保持する点ではるかに優れています。参考のために他の例がこちらです。仕組みとしては、通常の拡散トランスフォーマーモデルを使用して画像を生成しますが、shared enhancement attentionと呼ばれる特別なコンポーネントを追加しました。これは高周波マップを使用して製品の詳細を洗練させます。
ここまでスクロールすると、GitHubリポジトリがリリースされており、内部レビュー後にコード、データセット、モデルをリリースすると記載されています。ぜひご期待ください。さらに詳しく読みたい場合は、このメインページへのリンクを下の説明欄に記載しておきます。
エッジデバイス向け超小型モデル:Qwen 3.5
今週も、Alibabaは本当にクールなモデルをリリースし続けています。先週、Qwen 3 mediumをリリースしたことを述べました。これらは中規模モデルのファミリーです。1つは270億パラメータ、もう1つは350億パラメータのmixture of expertsですが、使用時にアクティブになるのは30億パラメータのみです。これらはハイエンドの消費者向けGPU上で実行できますが、ハイエンドのGPUすら持っていない場合はどうでしょうか。今週、さらに小さなQwen 3.5モデルがリリースされました。
今週は90億パラメータ、40億パラメータ、20億パラメータ、さらには8億パラメータのQwenがあります。この8億のものをクリックすると、わずか2GBのサイズです。CPUやモバイルデバイスにも快適に収まります。90億のものをクリックすると、約20GBのサイズですが、圧縮または量子化を使用すれば、おそらく通常の消費者向けGPUに快適に収まるでしょう。
これらの小型モデルのクールなところがこちらです。左端の列はQwen 3.5の9Bと4Bです。ご覧のとおり、Qwen ABDのようなさらに大きなモデルや、GPT5 NanoやGemini 2.5 Flash Lightのようなクローズドソースのフラッシュモデルと同等です。これは非常に印象的です。指示に従う点では、信じられないほど優れています。
大学院レベルの科学の質問でも同様です。ハーバードレベルの数学でも同様です。多言語知識でも同様です。視覚的理解と推論であるMMU Proで特に優れています。いずれにせよ、ローエンドのGPUやスマートフォン、その他のエッジデバイスに収まる最高かつ最小のモデルを探している場合、これらの小型Qwen 3.5モデルは良い選択肢かもしれません。
これらすべてがこのQwen 3.5コレクションページに記載されています。興味がある方は、このページへのリンクを下の説明欄に記載しておきます。
音声ネイティブ対応動画生成:LTX 2.3
今週、音声がネイティブに組み込まれた新しいオープンソース動画生成ツールがあります。LTX 2.3と呼ばれるもので、これは信じられないほど強力です。いくつか例を見てみましょう。
音声は大幅に改善されました。対話は特にクリアに聞こえます。本当にこれで大丈夫なの?きっと気に入るよ。これは非常に柔軟なツールです。テキストプロンプトだけを入力したり、最初のフレームとして使用する画像、基本的に画像から動画への変換もできます。さらに、使用したい音声を入力することもできます。
最大20秒、最大4K解像度まで対応しています。さらに、私にとって最大のアップグレードは、バージョン2.3が縦向き動画もできるようになったことです。以前のバージョンでは横向き動画しかできませんでした。こちらでは、バージョン2.3がディテールでよりシャープであると主張しています。プロンプトへの従順性が向上しています。画像から動画を使用する場合の一貫性が向上しています。
さらに、音声も少しクリアになっています。これをコンピューターにインストールしたい場合、心配しないでください。完全なチュートリアルに取り組んでおり、次に公開予定です。実際にチュートリアルをリリースする予定でしたが、GPT 5.4も同じ日に出たので、代わりにそちらを優先することにしました。今のところ、さらに詳しく読みたい場合は、このメインページへのリンクを下の説明欄に記載しておきます。
OpenAI最新Frontierモデル:GPT 5.4
さて、それでGPT 5.4に話を移します。これは実際にLTX 2.3と同じ日にリリースされました。これはOpenAIの最も有能で効率的なFrontierモデルです。推論、エージェントコーディング、スプレッドシート、ドキュメント、PowerPointプレゼンテーションなどの通常のオフィスタスクの実行に非常に優れています。さらに、物理学と数学でも信じられないほど優れています。
既に完全なレビュー動画を作成しましたので、ここでは繰り返しません。できることすべてを理解するには、ぜひこの動画をご覧ください。
3D再構成の強化:Artifixer
次に、このAIはかなりクールです。Artifixerと呼ばれるもので、3D再構成を強化して修正します。いくつか例を見てみましょう。
現在、わずか数枚のそのシーンの写真から3Dビューを再構成する多数の異なる方法があります。ただし、2枚または3枚のシーンの写真しかない場合、そこから完全な3Dシーンを構築するのは本当に難しいです。これらはスパース3D再構成と呼ばれます。本当に多くのデータがないためです。
これら3つの異なるモデルからわかるように、シーンには多くの欠落した詳細があります。この新しいArtifixerは基本的にこれらの再構成を受け取り、拡散モデルを使用して詳細を強化し、これらすべての問題を修正します。Artifixer 3Dに接続すると、シーンがはるかに一貫性があり詳細に見えることがわかります。
そしてこちらがこの盆栽の木の屋内の例です。床と背景が多数の異なるアイテムで非常に乱雑であることに注意してください。しかしこれを非常に一貫性のあるものにし、これらすべての問題を修正できます。こちらはこの乱雑なカウンターの別の本当に難しい例です。繰り返しになりますが、Artifixerは欠落しているデータを埋め、アーティファクトを修正し、このシーンの非常に一貫性のある3Dレンダリングを生成できます。
こちらは本当に乱雑なリビングルームの別の屋内例です。繰り返しになりますが、Artifixer 3Dだけがこの3Dシーンをスムーズに生成できます。別の比較がこちらです。3Dシーンの元の画像データから、特に最初の2列を見ると、背景が実際には適切に捉えられていないことがわかります。
AIが背景を推測するのは本当に難しいです。Artifixerは他の競合よりもはるかに優れた方法で背景をシームレスに埋めることができます。今のところ、これは本当に信じられないほど便利なモデルですが、これが私たちが持っているすべての情報です。これをオープンソース化するかどうかについての兆候はありませんし、GitHubリポジトリすらありません。
しかし、さらに詳しく読んで、より多くの例をチェックすることに興味がある場合は、このメインページへのリンクを下の説明欄に記載しておきます。
リアルタイムシミュレーション強化:Diffusion Harmonizer
実際、前のツールと同様に、NVIDIAも独自の3D強化ツールを発表しています。Diffusion Harmonizerと呼ばれるもので、これもリアルタイムシミュレーションで視覚的なアーティファクトを修正します。こちらが1つの例です。
動画のフレームで、どこか別の場所からこれらの車をランダムに貼り付けることができます。シーンに実際にはブレンドされていないことがわかりますが、Diffusion Harmonizerに接続すると、3台の車すべてがこの環境とシームレスにブレンドされます。ホワイトバランス、色、影などを変更できます。
こちらが左側の例で、繰り返しになりますが、ランダムな車をいくつか貼り付けただけです。影すらありません。すべてが非常に偽物に見えます。しかしDiffusion Harmonizerに接続すると、このシーンが非常にシームレスに見え、まるでこれらの車が実際にこの道路を走っているかのようです。こちらは左側がシミュレーションだけの別の例です。
これは本当に偽物に見えますが、Diffusion Harmonizerに接続すると、車に影を追加し、すべてがはるかにリアルに見えます。シミュレーションを編集して強化できる他の選択肢もありますが、ご覧のとおり、かなり悪いです。おそらくここでは選り抜きしています。
つまり、Stable Diffusion 3に基づくSDEditは非常に古いですが、それでもNVIDIAのこの新しい方法がはるかにリアルに見えることがわかります。上部までスクロールすると、現在は技術論文のみがリリースされています。これをオープンソース化するかどうかについての兆候はありませんが、さらに詳しく読むことに興味がある場合は、このメインページへのリンクを下の説明欄に記載しておきます。
アクロバティック動作を実現:Omni Extreme
次に、このAIは信じられないほどです。Omni Extremeと呼ばれるもので、これはヒューマノイドロボットを制御し、ブレイクダンス、フリップ、武術などの信じられないほどアスレチックで極限の動きを実行できるようにします。このフレームワークをロボットに適用すると、ジャンプ、ダンス、フリップなどの信じられないほどのことができることがわかります。見てください。
ここでは2回連続のバックフリップを行い、今はブレイクダンスをしています。つまり、これはクレイジーです。そしてすべてが非常に流動的で自然に見えます。こちらは他のブレイクダンスの例です。このような高速フリップもできます。1つの連続したシーンでこれらすべてのキックを行えることに注目してください。
そしてこちらは高速フリップの他の例です。片足でジャンプするだけでフリップできるのはクレイジーです。ここでは逆立ちをしてバランスを取ろうとしているのがわかります。そしてこちらは別の信じられないほど印象的なバランス行為です。これはヒューマノイドロボットにとって成功させるのが本当に難しいです。仕組みは簡単に言うと次のとおりです。
まず、ロボットがシミュレーションで各個別の動きを学習する事前トレーニングフェーズに分解しました。motion tracking expertsと呼ばれるものを使用しました。これは基本的に、ブレイクダンスやカンフー、フリップなどの1種類の難しい動きを模倣することに本当に優れている教師です。
そして、これらのexpertsはflow matchingと呼ばれる手法を使用して1つの統一されたベースポリシーに結合されます。これにより、これらの極限の動きの膨大な種類を大まかに行う方法を既に知っている、本当に高容量の脳が作成されます。ただし、実際のロボットで実際に機能させるには、ポストトレーニングも必要です。ここでのポストトレーニングでは、このポリシーは基本的に凍結されます。
しかし、別の軽量な残差ポリシーも追加されます。この部分は、動きが実際のモーターを破壊したり、ロボットがバランスを失ったり、物理的な制限に違反したりしないようにします。このポストトレーニング部分は基本的に、ロボットがこれらの動きを流動的かつ自然に実行できるようにし、倒れたり物を壊したりしないようにします。
素晴らしいのは、ページ上部までスクロールすると、実際にコードがリリースされていることです。GitHubリポジトリで少し下にスクロールすると、既にチェックポイントと評価コードがリリースされていると記載されています。こちらがこれをダウンロードして自分でテストする方法に関するすべての指示です。
たまたまUnitreeが手元にある場合です。さらに詳しく読むことに興味がある場合は、このメインページへのリンクを下の説明欄に記載しておきます。
ピクセル単位の3D動き追跡:Track4World
今週、このAIはかなり興味深いです。Track4Worldと呼ばれるもので、これは通常の動画を受け取り、すべてのピクセルが時間の経過とともに3D空間のどこに移動するかを正確に把握します。
例えばここで、このパルクール動画を受け取るとしましょう。このAIに接続すると、すべてのピクセルとそれらがこのシーン内でどのように移動するかを追跡できます。こちらはスキーの例です。繰り返しになりますが、時間の経過とともに移動するシーンのすべてのピクセルを追跡できます。そしてこちらはブランコの例です。1つの動画から、シーンのすべてのポイントの3Dパスとシーンの基本的な3D形状を作成できます。
このデータを使用して3Dで再構成できる可能性があります。また、非常に正確なモーショントラッキングにも使用できます。こちらが動画の例で、このAIに接続してこの人物の動きを非常に正確に追跡できます。こちらは別の例です。そしてこちらは、移動するキャラクターを追跡するこの動画から再構成された3Dシーンの例です。
仕組みとしては、シーン全体を一度に理解するために1つの大きなvision transformerモデルを使用し、2Dと3Dの動きを一緒に予測して、それらを1つの一貫したシーンにスムーズに組み合わせる他のコンポーネントも使用します。このページでは、これを試すためのインタラクティブなデモがリリースされています。
また、既にGitHubもリリースされています。少し下にスクロールすると、ローカルコンピューター上でこれをダウンロードして実行する方法に関するすべての指示が記載されています。さらに詳しく読むことに興味がある場合は、このメインページへのリンクを下の説明欄に記載しておきます。
今週のAIニュースまとめ
以上が今週のAIのハイライトすべてをまとめたものです。これらすべてについてどう思うか、コメントで教えてください。どのニュースがお気に入りでしたか?どのツールを最も試してみたいですか?ご視聴ありがとうございました。この動画を楽しんでいただけたら、いいねとチャンネル登録を忘れずにお願いします。ここまで到達した方には、特典があります。NVIDIAと提携して、GTC 2026イベント前後でRTX 5090 GPUをプレゼントします。
これがあれば、AIツールをコンピューター上でローカルに簡単に実行できます。参加方法は次のとおりです。説明欄のリンクをクリックして、GTC 2026セッションの少なくとも1つに登録して参加するだけです。3月16日から19日に開催されます。バーチャルでも対面でも参加できます。こちらが私のお気に入りのいくつかです。Jensen Huangの基調講演は明らかな選択ですが、大規模なヒューマノイドロボットに関するこちらや、オープンワールドモデルに関するこちらも私のウォッチリストに入っています。
繰り返しになりますが、下の説明欄のリンクを使用してGTCに必ず登録してください。その後、フォームに記入すれば完了です。参加は完全に無料です。


コメント