今週のAI業界の最新ニュースを網羅した解説動画である。GoogleによるGemmaモデルのマルチトークン予測を用いた高速化や、自己進化型AIであるAlpha Evolveの実社会での実績、OpenAIの最新のリアルタイム音声モデルのリリース、新しいオープンソースの画像および動画生成モデルの登場など、多岐にわたるトピックを詳しく紹介している。さらに、ヒューマノイドロボットの最新デモや格闘、物理的な科学実験室で人間と協働するAIアシスタントシステムなど、ソフトウェアとハードウェア両面でのAI技術の急速な進歩について解説している。

- 今週のAI業界のハイライトとRecGen
- オープンソース画像モデルHydream01
- 動画の固有特性を理解するUni Vid X
- Gemma 4のマルチトークン予測による高速化
- プログラム全体を再構築するベンチマークProgram Bench
- ロボット用オープンソースモデルMomo Act 2
- 物理法則に基づいた3D生成Fizz Forge
- OpenAIの最新リアルタイム音声モデルとLuma Agents
- ロボットの頭脳となるGene 26.5
- 自己進化するAIアルゴリズムAlpha Evolve
- 新しい動画生成AI Bach 1
- AMDでトレーニングされた小型推論モデルZia 18B
- ヒューマノイドロボットの最新デモと格闘
- 科学実験室のためのAIアシスタントLab OS
- リアルな再照明が可能なデジタルアバターD-Rex
- Sakana AIとNvidiaによるスパース化技術
- 単一画像から高解像度動画を生成するSwift I2V
- 画像生成を高速化するCDM
- セグメントマップから3D世界を生成するMap to World
- まとめとニュースレターの案内
今週のAI業界のハイライトとRecGen
AIは眠りません。そして今週も本当に信じられないような1週間でした。Googleのオープンソースモデルがさらに高速化しました。全く新しい研究所から最先端の動画生成AIが登場しました。NvidiaではなくAMDでトレーニングされた最初のモデルが登場し、そのサイズからは想像できないほど高い性能を発揮しています。このAIは2K解像度で動画を生成でき、アップスケーラーを含む他のすべての手法を凌駕しています。さらに、トップクラスの新しいオープンソース画像生成および編集AIも登場しました。OpenAIは最新のリアルタイム音声モデルをリリースしましたが、これはまさにモンスター級です。実際の科学実験室で働くAIエージェントもいます。物理的に正確な3Dモデルを作成できるAIもあります。とんでもないヒューマノイドロボットのデモなど、他にも盛りだくさんです。それでは、早速見ていきましょう。
まず最初に紹介するこのAIは非常に興味深いものです。これはRecGenと呼ばれ、1枚または数枚のRGBD画像、基本的には通常の画像に奥行きの情報を加えたものを取り込み、シーン内のすべてのオブジェクトを再構築することができます。いくつか例を見てみましょう。これが元の画像だとします。まずマスクを適用してテーブル上のオブジェクトをセグメント化し、続いてこれらの3Dオブジェクトを生成します。あるいは、もっと難しい例として、これらのオブジェクトの一部が遮蔽されている、つまり手前のオブジェクトによってブロックされている場合を見てみましょう。この場合、AIはこれらのオブジェクトがすべての角度からどのように見えるかについて、非常に限られたデータしか持っていません。しかし、ここがこのAIの強みです。すべてをセグメント化し、オブジェクト全体を3Dで生成することができるのです。あるいは別の例として、このテーブルの写真を撮るだけで、それをセグメント化し、このAIに通してこれらすべてのオブジェクトを3Dで生成することもできます。そして、これはこれらすべてのオブジェクトの完全な形状、テクスチャ、および位置を生成することができます。
では、これはどのように機能するのでしょうか。このAIは、ほぼ20万個の高品質な3Dアセットと、300万枚以上の合成RGBD画像からなる大規模な合成データセットでトレーニングされています。これらのシーンは非常に構成要素が多く、つまりオブジェクトが絶えず再配置されたり、部分的にブロックされたり、回転したり、他の邪魔なものと組み合わされたりしています。現実世界は乱雑であるため、AIがこれを学習することは重要です。オブジェクトは頻繁に重なり合い、照明は変化し、一部は他の部分の後ろに隠れて見えなくなります。そのため、このAIはこのような混沌とした状況でうまく機能するように特別にトレーニングされています。
さて、この新しいRecGenを他の競合する3Dモデルジェネレーターと比較すると、RecGenが一番右の列にある正解データにずっと近いことがわかります。すべての位置とこれらすべてのオブジェクトの全体的な形状が実際の答えに非常に近いことがわかります。そして、いくつかの定量的な結果を見ると、この新しいRecGenは、ポーズ推定と形状生成の両方において、他の競合モデルよりもはるかに優れたパフォーマンスを示していることがわかります。ここでは数値が低いほど優れていることに注意してください。他のオブジェクトによってひどく遮蔽されているオブジェクトを生成する場合も同様です。RecGenは平均してSAM 3Dよりも優れたパフォーマンスを示していることがわかります。繰り返しになりますが、スコアが低いほど優れています。素晴らしいのは、ページの一番上までスクロールすると、彼らがすでにこれのコードをリリースしていることです。このGitHubリポジトリには、これをダウンロードしてコンピューターのローカルで実行するためのすべての手順が含まれています。さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
オープンソース画像モデルHydream01
また今週は、新しいトップクラスのオープンソース画像モデルが登場しました。Vivago AIによるHydream01 imageというモデルです。その生成結果からわかるように、これは非常に印象的です。さまざまな芸術的スタイルで2K解像度の画像を生成することができます。非常に写真のようにリアルにすることもできます。また、このような複数のパネルを持つ画像を生成することもできます。参考までに、他にも多様な例をいくつか紹介します。現在トップクラスのオープンソースモデルは、すでにこのような簡単なことはできます。しかし、Hydream01 imageが輝くのは、テキストのレンダリングや、インフォグラフィック、ポスターのレンダリングにおいてです。
たとえば、これは非常に複雑なポスターです。これはたった1枚の画像ですが、ご覧の通りテキストはすべて正確で、製品も変更前後で一貫性を保っています。あるいは、このライブ配信の別の例でも、テキストのほとんどは正確です。そして、参考のための追加の例がこちらです。したがって、テキストをレンダリングしたり、大量の要素を含むポスターを生成したりするためのオープンソースモデルが必要な場合、Hydream01 imageは利用可能なモデルの中でも最高クラスのものです。
また、一度のプロンプトで大量の異なる参照画像を追加することもできます。たとえば、この子供と大量の異なるアイテムを入力して、それらすべてを1枚の写真に収めることができます。あるいは別の例です。ここでは4つの顔を入力し、写真の特定の位置にそれらを追加できるというもう一つのクールな例があります。そして、これがその結果です。かなりプラスチックのような顔をレンダリングする傾向はありますが。
これについて本当にクールなのは、これが生のピクセルに対する単一のエンドツーエンドモデルであるということです。VAEはありません。VAEの目的は従来、基本的には画像をピクセル空間から潜在空間にエンコードおよびデコードして、AIが処理しやすくすることでした。しかしここでは、このVAEを完全に取り除いています。そして、これは単なる画像生成AIではありません。Nano Bananaのように画像を意味的に編集することもでき、推論機能も組み込まれています。だからこそ、複数のパネルや要素を備えたより複雑なレイアウトやインフォグラフィックを生成でき、最大2048×2048のサイズまで生成できるのです。
現在、彼らは2つの異なるモデルをリリースしています。1つはベースとなる画像モデルで、これには50回の推論ステップが必要なので実行に少し時間がかかります。あるいは、少し高速に動作するdevモデルを使用することもできます。こちらは28ステップで済みますが、一部の品質が犠牲になります。品質を重視し、時間を気にしない場合は、フル画像モデルを使用してください。一部の品質を犠牲にしてもより速く生成したい場合は、devモデルを使用してください。これらのモデルは両方ともサイズが32GBです。正直なところ、少し巨大です。これを収めるには本当にハイエンドなGPUが必要になります。しかし、これはオープンソースなので、より低いVRAMで実行できる量子化バージョンやGGUFがすぐに利用可能になると確信しています。
さて、これらのベンチマークを見ると、平均してHydream01 imageが、Qwen ImageやZimage Turboのような以前の主要な画像モデル、さらにはNano Banana 2やCream 4のようなクローズドモデルさえも打ち負かしていることがわかります。Artificial Analysisによるこの独立したリーダーボードを見ると、このHydream01は実際にはこの謎のPeanutモデルのことだと思います。これは現在8位にランクされていますが、それより上のものはすべてクローズドソースです。したがって、少なくともこのリーダーボードによれば、Hydream01は現在トップのオープンソース画像生成AIです。さて、これを実行することに興味がある場合、ページの下部にこれをダウンロードしてコンピューターのローカルで実行する方法のすべての手順が記載されています。まだComfy UIはサポートされていないため、ネイティブなComfy UIワークフローのようなものはありません。これに関する完全なインストールチュートリアルを行う前に、私が待っているのはそれです。しかし、さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
動画の固有特性を理解するUni Vid X
また今週は、Uni Vid Xと呼ばれる本当に強力なAIが登場しました。これは基本的に、大量の異なる固有の特徴を理解して生成できる動画生成AIです。どういうことか説明しましょう。このAIはRGBカラーの通常の動画を生成できるだけでなく、その動画のアルベドも生成できます。言い換えれば、動画内のすべての基本色です。さらに、放射照度、つまり基本的に動画の照明も生成できます。そして、動画の表面の法線または向きも生成できます。それだけでなく、動画の背景と前景を検出することもできます。そしてそこから、前景を背景から分離するアルファチャンネルを作成することもできます。これにより、動画内のキャラクターやオブジェクトを削除したり、背景を別のものに置き換えたりするなど、非常に多目的な作業が可能になります。
さて、この新しいUni Vid Xの結果を他の競合モデルと比較すると、法線推定の観点からは、この新しいモデルの方がはるかに正確であることがわかります。動画のマット処理、言い換えれば前景を背景から分離する場合も同じです。ここでも、この新しいモデルが最も正確であることがわかります。これでできる本当に素晴らしいことをいくつか紹介します。繰り返しになりますが、たった1つの動画から、その動画のアルベド、法線、照明を理解することができます。夕暮れ時の太陽の光を追加すると、このようにシーンを再照明できます。あるいは別の例です。この部屋の動画を見てみましょう。繰り返しになりますが、これらすべての固有のプロパティを検出し、アルベドと法線を後処理してから、この新しい動画生成AIに通すことができます。そして、これが新しい結果です。あるいは、前景と背景をセグメント化して、このようにキャラクターを置き換えることができる別の例です。あるいは、再び前景と背景をセグメント化する別の例です。そして今回は、このように背景を置き換えることができます。このように、動画のこれらの固有のプロパティをすべて理解する非常に柔軟なモデルであり、非常に正確な動画編集を可能にします。
さて、ページの一番上までスクロールすると、これのコードがリリースされています。このコードボタンをクリックして少し下にスクロールすると、これをダウンロードしてコンピューターのローカルで実行するためのすべての手順が記載されています。放射照度、法線、アルベドといった動画の固有プロパティ用のモデルが1つあり、そしてアルファチャンネルを検出するため、あるいは基本的に前景を背景からセグメント化するための別のモデルがあることに注意してください。固有モデルはわずか800メガバイトです。アルファモデルも同じサイズで、約800メガバイトです。これは動画ジェネレーターとしてオープンソースの1 2.1も使用しており、ほとんどのコンシューマー向けGPUで実行できるはずです。さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
Gemma 4のマルチトークン予測による高速化
また今週は、Googleが彼らの最高のオープンソースモデルであるGemma 4をさらに高速化しました。彼らが具体的に行ったことは次の通りです。具体的には、Gemma 4モデルにマルチトークン予測と呼ばれるものを追加しました。簡単に言うと、これにより、AIが言葉を1つずつ苦労して生成するのではなく、一度に複数の言葉を予測できるようになります。これは些細なことに聞こえるかもしれませんが、AIにおける最大のボトルネックの1つを解決します。というのも、現代の大規模言語モデルは実際には生の計算能力によって制限されているわけではないからです。それらはメモリ管理によって制限されています。モデルが単一のトークン、つまり単語の塊を生成するたびに、GPUは数十億のパラメータをメモリ内で絶えず移動させなければなりません。プロセッサはただ待つためだけに膨大な時間を費やします。そしてこれは、ラップトップや携帯電話、コンシューマー向けGPUのようなコンシューマー向けハードウェアでは特に苦痛になります。
そこでGoogleはシンプルな疑問を投げかけました。メインのモデルが思考を終える前に、AIが代わりに先読みして推測できたらどうだろうか、と。これは投機的デコードとも呼ばれます。1つの巨大なモデルにトークンを一度にゆっくりと生成させる代わりに、それより小さくて軽量なドラフターモデルと組み合わせます。そしてこれが、将来の複数のトークンを事前に予測する役割を担います。次に、より大きな元のモデルがドラフトをチェックし、答えが正しければ、そのシーケンスを即座に受け入れ、一度に複数のトークンを生成できるようにします。驚くべきは、出力の品質が全く同じに保たれるということです。推論機能の低下はありません。より悪い回答になることもありませんが、彼らはGemmaモデルを最大3.1倍スピードアップすることができました。これはかなり大規模なことです。
これが並べた比較です。左側は元のGemma 4で、右側はこのマルチトークン予測を備えたGemma 4です。ご覧の通り、毎秒約80トークンというはるかに速い速度で完了することができています。正直なところ、これは現在AIで起こっている最も重要なトレンドの1つだと思います。なぜなら、これまで業界はモデルをどんどん大きくして計算量を拡大することに執着してきたからです。しかし、パズルのもう1つのピースは、ローカルハードウェア上でAIをどのように速く、安く実行できるようにするかということであり、このマルチトークン予測システムはその方向への素晴らしいステップだと思います。素晴らしいことに、彼らはGemma 4用のこれらのマルチトークンドラフターをすでにリリースしています。ここに、このマルチトークン予測を使用してGemma 4をセットアップする方法に関するドキュメントページがリリースされており、モデルはすでにHuggingFaceなどの場所でダウンロードできるようになっています。さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
プログラム全体を再構築するベンチマークProgram Bench
また今週は、Program Benchと呼ばれる非常に興味深いベンチマークが登場しました。これは非常にシンプルですが残酷な質問を投げかけます。AIはプログラム全体をゼロから再構築できるかというものです。単なるバグ修正や単純な機能の追加ではなく、プログラム全体です。このベンチマークでは、モデルには最終的なexeファイルとそのドキュメントという2つのものしか与えられず、この2つのことに基づいてすべてをコーディングする必要があります。ソースコードへのアクセスはありません。実行ファイルを逆コンパイルすることはできません。さらに、インターネットを使用することもできません。完成したプログラムだけを受け取り、その目標はこれをゼロからコーディングすることです。
そして、ここからが面白くなるところです。AIは実際のソフトウェアアーキテクトのように振る舞わなければなりません。元のプログラムをテストし、どのように動作するかを把握し、プログラミング言語を選択し、構造を設計し、完全なコードベースを記述し、ビルドスクリプトを作成しなければなりません。すべての決定はモデルに委ねられています。現在、このベンチマークには200のタスクが含まれています。小規模なコマンドラインツールもあれば、FFmpegやSQLite、PHPコンパイラなどの巨大なソフトウェアプロジェクトもあります。結果を確認するために、Program Benchは248,000以上の動作テストを実行し、AIが再構築したバージョンを元のプログラムと比較します。
そしてその結果はかなり衝撃的です。Opus 4.7、GPT 5.4、Gemini 3.1 Proなど、現在存在する最高峰のモデルでさえ、すべて0%のスコアであったことがわかります。どれも200のタスクのうちの1つも完全に解決できませんでした。Opus 4.7は3%をほぼ解決できましたが。それでも非常に小さな割合です。しかし、それこそがまさにポイントなのです。Program Benchは、AIがコードスニペットを書いたりバグを修正したりできるかどうかを測定しているのではありません。AIが動作や設計システムを含め、プログラム全体をリバースエンジニアリングし、完全に動作するソフトウェアをゼロから再構築できるかどうかを測定しているのです。簡単に言えば、これはコーディングのオートコンプリートではなく、実際のソフトウェア作成のストレステストです。
そして現在、メッセージは非常に明確です。トップモデルのどれもが、たった1つのタスクでさえ完全に解決することはできません。したがって、AIコーディングエージェントはますます強力になっているようです。私たちに代わって間違いなくバイブコーディングさせることはできますが、完全なソフトウェアをゼロから構築することは、見た目よりもはるかに難しい問題のままです。現在、彼らはGitHubをリリースしており、ここを少し下にスクロールすると、これをローカルで実行してモデルを自分でテストする方法の手順が含まれています。さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
ロボット用オープンソースモデルMomo Act 2
また今週は、ロボット用の新しいオープンソースモデルが登場しました。これはAllen AIによるMomo Act 2と呼ばれるもので、Allen AIは米国で唯一のオープンソース研究所のようなものです。Momo Act 2は、行動を起こす前に3Dで世界について推論するように構築された、オープンなロボティクス基盤モデルです。このモデルは、現実世界の操作タスク向けに設計されています。さて、彼らは数ヶ月前にすでにバージョン1をリリースしていますが、このバージョン2は速度とデータの面で大きなアップグレードとなっています。バージョン1が行動の呼び出しに6,700ミリ秒かかったのに対し、バージョン2は約180ミリ秒で行うことができます。また、タオルの折りたたみ、食料品のスキャン、電話の充電など、両腕を使うタスクを網羅した700時間の双腕ロボットデータセットでトレーニングされています。
そしてその結果は非常に強力です。現実世界のゼロショットテストにおいて、Momo Act 2はNvidiaのGR00Tや他のビジョン言語アクションモデルさえも凌駕していることがわかります。したがって、この新しいオープンロボティクス基盤モデルは大きな変化です。ロボットは単に動くのが上手になっているだけでなく、なぜそのように動くべきか、あるいは特定のオブジェクトをどのように操作すべきかを理解し、推論するのも上手になっています。素晴らしいのは、以前のリリースと同様に、これもオープンソースであるということです。すでにHuggingFaceでモデルをリリースしているので、これらをダウンロードしてロボットに組み込むことができます。また、これのデータセットとトレーニングコードもリリースする予定です。つまり、これは完全にオープンソースです。さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
物理法則に基づいた3D生成Fizz Forge
また今週は、3D生成のための非常に便利なAIが登場しました。これはFizz Forgeと呼ばれます。これが解決しようとしていることは次の通りです。今日のほとんどの3D生成は、見栄えの良いオブジェクトを作ることができます。しかし、見栄えが良いだけでは不十分です。仮想世界やゲーム、シミュレーション、またはロボットのトレーニング環境が必要な場合、そのオブジェクトは機能する必要もあります。そこでFizz Forgeは、単なる形ではなく、物理法則に基づいたオブジェクトである3Dアセットを生成します。簡単に言うと、自分のパーツがどこにあり、それらのパーツがどのように動くか、何でできているか、エージェントがそれらとどのように相互作用できるかを知っているものを作ろうとします。
システムは2つの段階で機能します。まず、ビジョン言語モデルが物理的なアーキテクトとして機能します。入力を確認し、パーツ、バウンディングボックス、関係性、ジョイントの種類、素材、質量などの物理的なブループリントを構築します。次に第2段階で、拡散モデルがそのブループリントを、ジオメトリ、テクスチャ、およびキネマティックパラメータを備えた高品質な3Dアセットに変換します。そして最終的な結果として、物理的に正確で根拠のある3Dアセットが得られます。これらはリアルなジョイントを持つアセットであり、現実世界のオブジェクトとまったく同じように動くことができます。
たとえば、ロボットアームによって正しく操作されることができます。パーツがあります。制約と相互作用のロジックを持っています。ロボットはそれの掴み方を理解でき、シミュレーターはそれがどのように動くかを理解できます。たとえばゲームは、見栄えも動作もはるかにリアルになります。さて、ページの一番上までスクロールすると、彼らはこれへのGitHubリポジトリをリリースしています。クリックして中に入ると、昨日リリースされたばかりなのでまだ何も追加されていませんが、うまくいけば彼らはこれをオープンソース化するでしょう。さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
OpenAIの最新リアルタイム音声モデルとLuma Agents
また今週、OpenAIは新世代のリアルタイム音声モデルをリリースしました。これらのモデルは、実際の会話が起こるのに遅れずについていくように設計されています。現在、このファミリーでリリースされた3つの新しいモデルがあります。そのうちの1つはGPT Realtime 2と呼ばれ、これは前世代と同じようにリアルタイムで話すことができる会話型の音声ですが、推論が強化され、より自然に聞こえます。次に、70以上の言語でのライブ音声翻訳のためのGPT Realtime Translateもリリースし、これを13の出力言語に翻訳できます。そして、文字起こしツールであるGPT Realtime Whisperもあります。これはあらゆる音声を聞き取り、リアルタイムでテキストに変換できます。したがって、リアルタイムのキャプションや字幕などに最適です。
最もクールな機能の1つは、このGPT Realtime Translateだと思います。これが実際に動いている本当に素晴らしい例を紹介します。
これから聞こえる英語は、このノートパソコンから直接キャプチャされたモデルのライブ音声出力と文字起こしです。私がフランス語で話し始めると、マイクの音量を下げてモデルの音量を上げるので、実際の感覚を掴んでいただけると思います。音声の編集は一切していません。それでは試してみましょう。
本当に素晴らしいのは、私が話している間にモデルが私の声を聞き取り、翻訳できることです。動詞のようなキーワードを待って、すぐに翻訳を開始します。その結果、2人の人間の対話のような、はるかに自然な会話が実現します。ドイツ語で割り込むこともできます。するとモデルは私のドイツ語とあなたのフランス語をいとも簡単に切り替えます。GPT、リアルタイム、OpenAI、コンピューターユースなどの専門用語を含めることもできますが、モデルは問題なく処理できます。
このように、これらの各モデルには独自のユースケースがあります。たとえば、GPT Realtimeは、コンパニオンアプリやカスタマーサポートのような会話エージェントに使用できます。このRealtime Translateはもちろん翻訳に使用されます。そして、このRealtime Whisperはキャプションや会議のメモに使用できます。少なくとも会話型のGPT Realtime 2に関しては、これらのさまざまな音声ベンチマークすべてにおいて、以前のバージョン1.5よりもかなり大きな改善が見られることがわかります。現在、これらの音声モデルはすべてAPI経由でのみ利用可能です。したがって、コーデックやChatGPTではまだこれにアクセスすることはできません。そしてこれは有料です。モデルごとの価格は以下の通りです。とはいえ、これは利用可能な最高のリアルタイム音声エージェントの1つです。さらに詳しく読みたい場合は、下の説明欄にこのページへのリンクを貼っておきます。
クリエイティブなワークフローが、1つのプロジェクトを完成させるために10個の異なるツールをやりくりしているように感じるなら、この動画のスポンサーであるLuma AIのLuma Agentsをぜひチェックしてみてください。これは、AIエージェントが実際にあなたと協力してアイデアを形にする、新しい種類のAIワークスペースだと考えてください。単に出力を生成するだけでなく、プロジェクトの最初から最後までを形作る手助けをします。Luma Agentsは、動き、空間、物の振る舞いなど、あなたが作っているものの背後にある物理世界を理解しています。つまり、動画、デザイン、企画、コミュニケーションのためにツールを絶えず切り替える代わりに、すべてがコンテキストの中に保たれる1つの統合されたキャンバスで作業できるということです。
特に素晴らしいと思うのは、クリエイティブの完全なワークフローをどのように処理するかです。たとえば、大まかなコンセプトから始めると、エージェントがその発展を助け、手順を整理し、裏側で適切なツール全体にタスクを割り振ることさえしてくれます。エージェントがオーケストレーションを処理してくれるので、あなたはクリエイティブなディレクションに集中し続けることができます。実際、自分の好みやアイデアをプロセスに取り入れたときに最もよく機能します。あなたがエージェントの構造を指示し、一緒に実行に圧倒されることなく、より多くのアイデアを探求することができます。デザイナーであれ、コンテンツクリエイターであれ、クリエイティブチームの一員であれ、Luma Agentsはツールの管理に費やす時間を減らし、実際に制作する時間を増やすのに役立ちます。QRコードまたは下の説明欄のリンクを使用してチェックしてみてください。
ロボットの頭脳となるGene 26.5
次に紹介するこのAIは本当に素晴らしいものです。Genesis AIによるもので、彼らはGene 26.5と呼ばれるものをリリースしたばかりです。これは基本的にロボットの基盤モデル、あるいは頭脳であり、ロボットを人間レベルの物理的な操作と推論に近づけるものです。もはや箱を持ち上げたり物を動かしたりするだけの話ではありません。20段階の調理をしたり、スムージーを作ったり、ピペットを使った作業やケーブルの配線、さらにはルービックキューブを解くような実験室での作業まで行えるロボットについて話しているのです。さらに、このロボットがピアノを弾くことができる別のデモもあります。
これらは、すでにこれらを行うことに慣れている人間にとってはかなり簡単に思えるタスクですが、ロボットにとっては実は残酷なほど難しいのです。人間の手は自然界で最も複雑な機械の1つです。柔らかく握り、正確にひねり、瞬時に圧力を調整し、考えることさえなく何十もの小さな動きを調整することができます。しかしロボットにとって、そのような器用さはこの分野で最も難しい問題の1つでした。そして今、Genesisによるこの新しいモデルGene 26.5がこれを解決しようとしています。これらの動画で見られるように、彼らは人間サイズの器用なロボットハンドも構築し、それをトレーニングするための新しいデータエンジンも構築しました。アイデアは、人間のスキルを捉えてそれをロボットのデータに変え、そしてその学習を機械全体にスケールさせることです。
これは非常に重要です。なぜなら、ロボットは一般的に、寸法が固定された非常に反復的な工場でのタスクを行うのは得意だからです。しかし現実世界は乱雑ですよね。卵は割れ、ワイヤーは曲がり、液体はこぼれます。そのため、人間の手は絶えず微細な適応をする必要があります。そして、同じ自律的な適応をロボットハンドに適用できれば、ロボットの可能なアプリケーションの範囲は爆発的に広がります。したがって、この新しいGene 26.5は、私たちがそうであるように、ロボットに物理世界にもっと自律的に対処する能力を与えることを目的としています。
このロボットからの印象的なデモが多数あります。ここでは、片手だけでこの卵を割ることができるのがわかります。正直、私にもできません。そして、これらのトマトを切り、かなり自然にこの食事を調理し続けます。あるいは、非常に高い精度が要求されるこのピペットを操作できる別の例もあり、その後、すべてを遠心分離機にセットして蓋を閉めることができます。繰り返しになりますが、これは現在のロボットハンドにとって非常に困難なことです。あるいは、これらの手がルービックキューブを解くことができるさらに印象的な例もあります。すべての次元でキューブを回す必要があるため、これは特に難しいことです。
現在、彼らはこのプレビューブログしかリリースしていません。これをオープンソース化するかどうかの兆候はありません。オープンソースになっているのは、Genesisと呼ばれるこのプラットフォームで、ロボットをトレーニングするための仮想ジムまたはシミュレーションのようなものです。したがって、この新しいGene 26.5モデルはまだリリースされておらず、ここではいくつかのプレビューデモを示しているだけですが、さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
自己進化するAIアルゴリズムAlpha Evolve
また今週、Alpha Evolveと呼ばれるGoogleのとんでもないモデルに関するアップデートがありました。簡単に言うと、これはGeminiを活用したGoogleのコーディングエージェントです。そして、これは1つの大きなアイデアを中心に構築されています。AIがより良いアルゴリズムを次々と発明できたらどうなるか。時間の経過とともに進化できたらどうなるか。単にコードを書くのではなく、難しい問題を解決するための新しい方法を実際に発見できるとしたら。
Alpha Evolveは約1年前に導入されました。実際、彼らが最初にこれをリリースしたとき、私は完全な解説動画を作成しました。もっと詳しく知りたい場合は、その動画をご覧ください。さて、今週彼らは、現実世界でこれが実際に成し遂げたすべての素晴らしいことに関するブログをリリースしました。アルゴリズムは生活のほぼすべての側面に組み込まれているため、これは興味深いです。DNAのシーケンスを助けます。電力網の制御を助けます。自然災害を予測し、量子コンピューターを動かし、株式市場を予測し、AIモデルをトレーニングし、配達トラックのルート案内さえも助けます。したがって、アルゴリズムをわずか数パーセントでも改善できれば、その影響は甚大なものになる可能性があります。
ここ数ヶ月の間にAlpha Evolveが達成した素晴らしい成果をすべて紹介します。ゲノミクス分野において、Alpha Evolveは、DNAシーケンスのエラーを修正するためのGoogleのモデルであるDeep Consensusを改善するために使用されました。そして彼らは検出エラーを30%削減することができました。簡単に言えば、それは科学者が遺伝子データをより正確に読み取ることができることを意味し、これまで検出が困難だった病気の原因となる突然変異を明らかにするのに役立つ可能性があります。これは大きな改善です。
Alpha Evolveは電力網の最適化を改善することにも成功しました。電力網は安全性、コスト、信頼性をリアルタイムでバランスさせる必要があるため、これは非常に難しい問題です。しかしAlpha Evolveは、グラフニューラルネットワークが実行可能なソリューションを見つける確率を、わずか14%から88%以上に向上させるのに役立ちました。それは、高価なクリーンアップの手順が減り、はるかにスマートなエネルギーグリッド管理が可能になることを意味します。
そして、災害予測もあります。Alpha EvolveはGoogleのEarth AIモデルの最適化を助けました。これは地球のデジタルツインのようなもので、山火事、洪水、竜巻など、さまざまなカテゴリーのリスクを予測できます。そしてAlpha Evolveは全体の精度を5%向上させることができました。これは些細なことに聞こえるかもしれませんが、自然災害にとって、わずか数ポイントの精度の向上が、より良い警告とより良い決定、そして最終的にはより多くの命を救うことを意味する可能性があります。
そしてここからが驚くべき部分です。量子物理学において、従来の手法よりもエラーが10倍低い量子回路を発見しました。つまり、これはWillowと呼ばれるGoogleの量子プロセッサのパフォーマンスにおける巨大な改善です。また、非常に難しい数学の問題を解決するのにも役立ちました。
そして、その影響はさらに深まります。彼らはAlpha EvolveをGoogle自身のインフラストラクチャにも適用しました。彼らはこれを使用して、GoogleのAIチップのようなものである次世代のTPUを設計しました。そして基本的に、それらをさらに効率的にするのに役立ちました。これはかなり強烈です。Alpha Evolveは、より良いアルゴリズムを次々と見つけ続ける自動発明マシンのようなものです。アイデアをテストし、より良いものを進化させ、その解決策は反復するたびに良くなる傾向があります。Googleはすでに、次世代のモデルやインフラストラクチャなどを改善するためにAIを使用している段階にあります。そしてこれが拡大し続ければ、モデルのパフォーマンス、ツール、チップ、インフラストラクチャ、その他現代社会を支えるアルゴリズムの面で、改善が劇的に加速することが期待できます。とにかく、非常に魅力的で印象的なブログです。さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
新しい動画生成AI Bach 1
また今週は、Bach 1と呼ばれる新しいAI動画ジェネレーターが登場しました。このデモからわかるように、かなり高品質です。少なくともこれらの通常のシーンについては、すべてが非常に一貫しているように見えます。実際、キャラクターの一貫性に非常に優れています。感情や表情も非常によく伝えることができます。そしてこれは、複数のショットを含む最大30秒の動画を生成できます。また、音声がネイティブに組み込まれた1080pでもあります。
さて、この新しい動画モデルはAlibabaやByteDanceのような企業のものではありません。Video Rebirthと呼ばれるまったく新しい企業からのものです。人工分析によるこのリーダーボードを見ると、人々がさまざまな動画モデルを横並びでブラインドテストできるようになっていますが、Bach 1.0は6位にランクされており、Grok Imagine、Kling 3、そして伝説的なSORA 2.0(※音声ではCense 2.0と発音されています)にはまだ遅れをとっていることがわかります。しかし、これが単なるプレビューであることを考えると、依然として非常に印象的です。さらに、これは私たちがこれまで聞いたことのない新しい研究所です。
素晴らしいのは、彼らの公式プラットフォームで今すぐこれを無料で試せることです。そのリンクは説明欄に貼っておきます。サインアップすると、開始するための無料クレジットがいくつか得られると思います。以上がBach 1.0でした。これもまた、音声がネイティブに組み込まれたパフォーマンスの高い動画モデルです。さらに、複数のショットで構成されるかなり長い動画を生成することができます。さらに詳しく読みたい場合は、下の説明欄にこのページへのリンクを貼っておきます。
AMDでトレーニングされた小型推論モデルZia 18B
また今週、ZyraはZia 18Bと呼ばれる小さなオープンソースの推論モデルをリリースしました。その名の通り、これはほとんどのコンシューマー向けデバイスに収まるように設計された、小さな80億パラメータのモデルです。本当に素晴らしいのは、世の中の他のすべてのモデルとは異なり、Zia 1はNvidia GPUでトレーニングされていないことです。代わりに、ここではこれがAMD Instinctスタックでトレーニングされた最初のモデルであると述べています。
それだけでなく、ベンチマーク結果を見ると、これはそのサイズからは想像できないほど高い性能を発揮しています。わずか80億パラメータで、Qwen 3 thinkingのようなはるかに大きなモデルとほぼ同じくらい優れていることがわかります。これは約2350億パラメータなので、約40倍の大きさです。あるいはDeepSeek version 3.2、これは約80倍の大きさです。またはGPT 5、これはクローズドソースなので大きさがわかりませんが、1兆パラメータを超えていると推測します。したがって、これは信じられないほど印象的です。このMarkovian RSAについては後で説明します。ご覧のように、Ziaは数学、コーディング、推論のベンチマークにおいて、何倍も大きなモデルと競い合うことができます。
このモデルは、いくつかの非常に巧妙な設計の選択からその効率性を得ています。まず、圧縮畳み込みアテンションと呼ばれる新しいアテンションシステムを使用しており、これは大幅に効率的です。また、安定性を向上させるエキスパート選択のためのルーターも使用しています。さらに、モデルが深くなるにつれて安定性を保つための学習済み残差スケーリングと呼ばれるものも使用しています。
しかし、最も興味深い部分は、彼らがMarkovian RSAと呼んでいる推論手法かもしれません。一度だけ推論するのではなく、モデルは実際に複数の推論の試みを生成します。それらから有用な部分をサンプリングし、その部分を使用して次のラウンドを改善します。つまり、問題解決者のグループが最高のメモだけを前に回し、モデルがコンテキストウィンドウをパンクさせることなく長く推論できるようにしていると考えてください。そして、この前のグラフからわかるように、このMarkovian RSAを図に加えると、パフォーマンスがさらに向上します。
これは非常に大きなことです。第一に、わずか80億パラメータの小さなモデルで、そのサイズをはるかに超える性能を発揮するからです。いくつかの巧妙なアーキテクチャの微調整を行うだけで、40倍から100倍も大きなモデルと同等のパフォーマンスを達成することさえ可能です。これがこれほど大きな意味を持つもう1つの理由は、これがNvidiaではなく、完全にAMDハードウェアだけでトレーニングされたからです。したがって、ここではAMDを使用することが可能であることを示しています。
素晴らしいことに、彼らはすでにZia 18Bをオープンソース化しています。これは非常に制限の少ないApache 2ライセンスの下でリリースされています。商業目的でこれを使用することもできます。そして、これはわずか80億パラメータであり、混合エキスパートモデルであるため、使用時に非常に効率的です。すべての合計サイズはわずか17.7GBなので、ほとんどのミッドレンジまたはハイエンドのコンシューマーハードウェアに快適に収めることができます。リンクはこのページの下部にあります。さらに、このブログにはさらに多くの技術的な詳細が含まれています。さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
ヒューマノイドロボットの最新デモと格闘
ヒューマノイドロボットのニュースでは、Boston Dynamicsからの新しいデモがあります。この動画は、同社の完全電動のAtlasロボットを取り上げています。そしてここでは、信じられないほどユニークで不自然な動きをいくつか披露しています。ここでわかるように、体全体を反転させながらまず逆立ちをすることができますが、これには尋常ではない強さとバランスが必要です。そして、この動画の最も印象的な側面は、ロボットの動き方です。特にあの最後の部分で、Boston Dynamicsは、ヒューマノイドロボットが人間の関節に制限される必要がないことを示しています。人間の生物学をはるかに超える可動域を持っています。その動きは少し不気味に見えますが、実際には非常に効率的な設計です。たとえば、実際に体全体を物理的に後ろに向ける代わりに、顔や胴体を180度回転させるだけで済みます。
また今週は、Unitree G1とEngine AI PM1の格闘の新しいデモもありました。これまで、これらの各ロボットによるかなり印象的なカンフーのデモを見たことがありますが、両方が戦っている動画はこれが初めてです。さて、この戦いの間中、彼らはずっとお互いの攻撃を外し続けています。もしそれらのキックの1つが命中していれば、間違いなく対戦相手を倒していたと思いますが、ここではただ外し続けています。これが遠隔操作なのか、それとも実際に自律的に動いて戦っているのかはわかりません。そして面白いことに、彼らは最終的にダブルノックアウトで終わったので、引き分けのようです。Engine AIのロボットの方がバランスを崩しやすい傾向があるのに対し、Unitree G1の方がはるかに安定しているように見えます。とにかく、近い将来、このようなロボット格闘トーナメントがもっとたくさん見られるようになるでしょう。リアル・スティールの世界が確実に近づいています。
科学実験室のためのAIアシスタントLab OS
また今週は、非常に便利なものが登場しました。Lab OSと呼ばれるもので、基本的には実際の科学実験室向けのAI共同科学者です。重要な部分は、これがラップトップに座ってコードを書いたり、論文を読んだり、データを分析したりするのを手伝うだけの単なる別のAIではないということです。このシステムは、AIの推論を物理的な実験室そのものと結びつけます。そのため、科学者がアイデアから計画へ、そして現実世界で起こる実際の実験へと移行するのを支援することができます。
これは、科学的な目標、実験手順、視覚的な入力、および人間の行動を受け取り、次に何をすべきかのガイダンスを出力します。AIアシスタントに、一対の目と手順の記憶、そして実験室で何が起こっているかを理解する方法を与えるようなものだと考えてください。そしてクールなのは、これをXRスマートグラスと組み合わせることで、AIが人間が実生活で何をしているかを見ることができる点です。つまり、誰かが手順に従っている場合、システムはその人がどの段階にいるかを理解し、彼らの目の前にあるオブジェクトを追跡し、グラスを通して指示を出すことができます。
つまり、AIはもはやチャットウィンドウに限定されていません。物理的な実験が行われているのを実際に見ているのです。したがって、これらのXRグラスを使用することで、AIは研究者に次に何をすべきかについてのガイダンスを与えることができます。たとえば、間違ったアイテムに手を伸ばしたり、手順を飛ばしたりした場合、システムは間違いが起こる前に研究者に警告することができます。このプロジェクトにはドライラボ側も含まれています。つまり、これはAIエージェントが、実験の計画やデータの分析、使用するツールの選択といった計算機を使った研究タスクを支援する部分です。ある部分は考えて計画を立て、XRシステムはそれらの計画を物理的な行動に結びつけるのを助けます。
XRグラスをAIモデルと組み合わせることで、AIは物理的な実験室作業を経験できるようになります。手の角度やピペッティングのリズム、専門家が何かがわずかにずれていることに気づく方法など、これらの実験室のスキルの多くは書き留めるのが困難です。チャットインターフェースを使用してこれを伝えるのは困難です。しかしスマートグラスを使用すれば、システムは人間のこれらの微妙な行動を理解し、AIがそこから学習し、潜在的に他のAIに教えることができるものへと変換できるようになりました。
つまりこれは、人間とAIが科学についてただチャットするだけでなく、実際に一緒に実験を進める科学実験室に向けた素晴らしい一歩です。現在、このGoogleフォームを使用してサインアップし、Lab OSにアクセスすることができます。さらに、ソフトウェアとハードウェア(これにはXRグラスが含まれると思います)はオープンソースになる予定だと述べており、これは素晴らしいことです。今のところ、さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
リアルな再照明が可能なデジタルアバターD-Rex
また今週、NvidiaはT-RexではなくD-Rexと呼ばれる新しいAIを発表しました。これは、まるで本物の俳優がバーチャルスタジオの中に立っているかのように、動いたり表情を作ったり、さまざまな角度から再照明したりできる、全身のデジタルヒューマンアバターを作成するための新しいシステムです。平坦に見えるアバターを受け取り、その上にリアルな照明を追加し、アニメーション化したり、さまざまなカメラアングルから見たり、新しい照明条件に配置したりできる、写真のようにリアルな人物を出力します。
通常、再照明可能な人間のアバターを作成するのは非常に困難です。人物を、形状、皮膚の反射率、素材、影、照明に分離する必要があります。基本的に、システムは体が何でできているか、光がどのように跳ね返るべきか、人物が動いたときにすべてがどのように変化すべきかを理解しなければなりません。実際には、すぐに非常に乱雑になります。非常に正確な3Dトラッキングと最適化が必要です。そしてそれでも、表現豊かな顔とリアルな照明を組み合わせるのは困難です。
しかし、D-Rexは異なるアプローチをとります。これがアーキテクチャです。ご覧のように、再照明を3Dアバターに直接焼き込むのではなく、問題を2つの部分に分けています。まず、シンプルな白い照明の下で、表現力豊かな全身アバターをトレーニングします。これを、人物のクリーンなベースバージョンと考えてください。体、ポーズ、顔の表情、カメラアングルです。次に、拡散ベースの動画再照明モデルが、そのフラットなレンダリングを受け取り、ターゲットとなるHDR照明のセットアップに一致するバージョンに変換します。言い換えれば、アバターがパフォーマンスを処理し、拡散モデルが光を処理します。
その結果、表現力を保ちながら、説得力のある方法で光に反応するアバターができあがります。カメラアングルを変えたり、シーンの照明を変えたりでき、このアバターはシーン内にシームレスに溶け込むことができます。さて、ここのページの一番上までスクロールすると、コードはまもなく公開されると書かれています。どうやら彼らはこれのコードをリリースする予定のようで、これは素晴らしいことです。今のところ、さらに詳しく読みたい場合は、下の説明欄にこのページへのリンクを貼っておきます。
Sakana AIとNvidiaによるスパース化技術
また今週は、日本のAI研究所Sakana AIとNvidiaとの共同による新しいリリースがありました。彼らは、大規模言語モデルをより速く、より軽く、そして実行コストを安くする一方で、モデルを小さくしない方法に取り組んでいます。そしてそのアイデアは驚くほどシンプルです。Transformerの内部では、多くの計算が実質的にゼロであるため、実際には多くの計算が浪費されています。そこで、GPUに無理やりすべてを計算させるのではなく、ここでは非常に実践的な質問を投げかけています。本当に重要な部分だけを計算したらどうだろうか。
難しいのは、現代のGPUが密で規則的な数学演算のために作られていることです。大きくきれいな行列の乗算を好むのであり、一部の値が無視されたり、あるいは形の形状が一貫していなかったりするような乱雑なスパース(疎)のパターンは好まないのです。実際、Transformerが実際にどのように機能するかについての技術的な詳細をさらに知りたい場合は、まだ見ていないのであれば、必ずこちらの動画をご覧ください。
とにかく、この問題を解決するために、チームはTW(Tilewise LPACの略)と呼ばれる新しいスパースフォーマットを構築しました。さらに、Nvidia GPUがこの独自の処理を実行できるように設計されたカスタムCUDAカーネルのセットも開発しました。これは非常に複雑な数学ですが、モデルの内部活動のうち有用な部分だけをGPUに詰め込むようなものだと考えてください。これにより、ハードウェアは処理速度を落とすことなく、無駄な作業をスキップできます。
そしてその結果は非常に印象的です。H100 GPUで実行される大規模言語モデルの場合、推論で30%以上のスピードアップ、そしてエネルギーの節約において30%以上の削減を報告しています。これはかなりとんでもないことです。トレーニングについても同様です。この新しいアーキテクチャにより、トレーニングを20%以上スピードアップし、メモリ使用量も20%以上削減することができました。印象的なのは、モデルが同じ下流のパフォーマンスをほぼ維持しながら、はるかに効率的になっているということです。
したがって、この種のスパース性が大規模に実用的になれば、強力なLLMの実行コストが下がり、提供速度が速くなり、エネルギーの浪費も減る可能性があります。そしてここでは、「将来の研究を促進するために、すべてのカーネルをリリースしオープンソース化する予定です」と述べています。このリンクをクリックして少し下にスクロールすると、これをセットアップしてコンピューターで実行する方法のすべての手順が含まれています。さらに詳しく読みたい場合は、下の説明欄にこのページへのリンクを貼っておきます。
単一画像から高解像度動画を生成するSwift I2V
次に紹介するこのAIはとても素晴らしいものです。Swift I2Vと呼ばれ、1枚の画像を解像度の高い動画に変えることができ、主なブレークスルーはその効率性にあります。画像から動画を生成するモデルははるかに良くなりましたが、2K解像度で動画を生成することは依然として残酷なほど高価です。膨大な計算量と時間をかけて全体を高解像度で生成するか、低解像度の動画を生成して後でアップスケールするかのどちらかです。しかし、アップスケーラーは奇妙なディテールやアーティファクト、その他の不整合を引き起こすことがよくあります。
そこでSwift I2Vは、両方の長所を得ようとしています。入力画像を受け取り、2K解像度で最大81フレームの動画を出力することができます。その仕組みは次のとおりです。まず、低解像度の動きの参照を作成します。基本的には、シーンがどのように動くべきかの大まかなバージョンです。次に、第2段階で、元の画像を強力なガイドとして使用しながら、その動きを完全な2K動画に洗練させます。最初に動きのスケッチを描き、次に高精細な最終動画を描くようなものだと考えてください。
賢明なのは、条件付きセグメントごとの生成と呼ばれるものです。高解像度動画全体を一度に処理しようとするのではなく、動画をより小さな時間セグメントに分割し、隣接するセグメントがコンテキストを共有できるようにして、動画が崩れないようにします。これによりメモリが制御下に置かれます。これが、合計計算時間を202分も削減しながら、24GBのVRAMを搭載した単一のRTX 4090で実行できると彼らが述べている理由であり、これはかなり驚異的です。
さて、この新しいSwift I2Vの結果を他の高解像度メソッドや動画アップスケーラーメソッドと比較すると、この新しいメソッドの方がはるかに詳細で正確であることがわかります。他の競合モデルは、ポートレートの顔を台無しにする傾向があります。CinemasCaleは実際にはかなり優れていますが、元の動画のカメラの動きを完全に無視しています。したがって、ここではSwift I2Vが著しく優れています。そして、参考のためのもう一つの例がこちらです。ページの一番上に、彼らはGitHubリポジトリを公開しています。そして、ここを少し下にスクロールすると、これの推論コードとモデルをリリースする予定であると書かれています。今後の情報をお待ちください。今のところ、さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
画像生成を高速化するCDM
また今週は、CDM(Continuous Time Distribution Matching:連続時間分布マッチングの略)と呼ばれる新しい画像の高速化手法が登場しました。これはAlibabaによるもので、画質を維持しながら拡散画像モデルをはるかに高速化することを目的としています。通常、拡散モデルは多くの小さなノイズ除去ステップを踏むことで画像を作成します。基本的にはランダムノイズの画像から始まり、最終的な画像が得られるまで各ステップでそのノイズを徐々に取り除いていきます。そしてこれには通常20〜50ステップが必要です。
しかし、この手法を使用すれば、同等の品質を保ちながらたった4ステップで済みます。つまり、物事を5倍にスピードアップするようなものです。これは、CDMをStable Diffusion 3に適用した例です。あるいは、これをLongcat imageに適用した別の例です。ご覧の通り、わずか4ステップでも画質は依然として非常に良好です。
さて、以前にも、画像モデルにわずか4ステップで画像を生成させることができる他のアクセラレータがありました。最も有名なものはDMDです。しかし、この新しいCDMがはるかに詳細であることがわかります。参考までにいくつかの追加例を示します。CDMとDMD2を比較すると、CDMの方がはるかに詳細で明確に定義されているのに対し、DMD2は非常にプラスチックのように見えることがわかります。実際、これらの結果を見ると、美学や画質を含むこれらすべての異なるベンチマークにおいて、DMDさえも打ち負かしています。
したがって、これにより現在、画像生成に最適な高速化手法となっています。そしてこのスピードアップにより、まともなGPUを持っていれば、ほんの数秒で、ほぼリアルタイムで画像を生成できることになります。そして画質は実際に素晴らしいように見えます。さて、ページの一番上までスクロールすると、彼らはStable Diffusion 3とLongcatのサポートをリリースしています。うまくいけば、ZimageやQwen、Flux Clinなど、世の中の主要なオープンモデルのサポートも提供されるでしょう。このコードボタンをクリックして少し下にスクロールすると、コンピューターでこれを実行して使用するためのすべての手順と、これを自分でトレーニングする方法が含まれています。今のところ、さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
セグメントマップから3D世界を生成するMap to World
また今週、MicrosoftがMap to Worldと呼ばれる非常に興味深いAIをリリースしました。簡単に言うと、単純なトップダウンのセグメントマップから、探索可能な3Dの世界全体を生成することができます。たとえば、このようなセグメントマップを入力し、テキストプロンプトで色分けされた各エリアを定義することができます。たとえば、青いエリアは春の村、黄色いエリアは夏の村、緑のエリアは秋の村、ピンクは冬といった具合です。その後、このAIはこのマップを与えられて3D世界全体を生成し始めます。これは3Dなので、下に見えるように回転させることができます。
そして確かに、セグメント化され、プロンプトで記述されたものに基づいて世界を作成しています。このマップの異なる領域が異なる季節に対応していることがわかります。あるいは別の例として、青いエリアをガラス張りの超高層ビルが建ち並ぶ現代の都市にすることもできます。黄色いエリアは、黄色い石造りの建築が並ぶ歴史的な古代ローマになります。そして緑は未来的なソーラーパンクの都市です。これを再びこのAIに通すと、セグメントマップに基づいて3Dの世界全体を生成することができます。これがその様子です。
確かに、現代都市であるエリア、古代ローマである別のエリア、そしてソーラーパンクのような未来都市であるもう1つのエリアに明確にセグメント化されていることがわかります。生成におけるスケールや建物の大きさも制御できます。非常に興味深いアイデアです。コードはまもなく公開されると書かれているので、オープンソース化されることが期待されます。今のところ、さらに詳しく読みたい場合は、下の説明欄にこのメインページへのリンクを貼っておきます。
まとめとニュースレターの案内
今週のAIにおけるすべてのハイライトは以上になります。これらすべてについてどう思うか、コメントで教えてください。どのニュースが一番のお気に入りでしたか?そして、どのツールを一番試してみたいですか?いつものように、皆さんと共有すべき最高のAIニュースとツールを引き続き探していきます。この動画を楽しんでいただけたら、いいね、共有、購読を忘れずにお願いします。今後のコンテンツもご期待ください。
また、AIの世界では毎週本当に多くのことが起こっています。私のYouTubeチャンネルですべてをカバーすることは到底不可能です。ですので、AIの最新の動きを本当に最新の状態で把握するために、私の無料の週刊ニュースレターをぜひ購読してください。そのリンクは下の説明欄にあります。ご視聴ありがとうございました。それでは次回の動画でお会いしましょう。


コメント