AI教室、自己進化するAI、Nvidia GTC、Polymarket向けAI、Googleアプリビルダー：AIニュース

今週のAI業界で起きた重要発表を一気に整理する内容である。GoogleやNvidia、中国勢の新モデル、自己進化型AI、仮想教室、予測に強い研究エージェント、3Dモデリング、ヒューマノイドロボットまで、実用性と性能の両面でAIの進化が加速していることを示す総まとめになっている。

AI classrooms, self-evolving AI, Nvidia GTC, AI for polymarket, Google app builder: AI NEWS

HUGE AI NEWS: MiniMax M2.7, MiMo V2 Pro, MiroThinker, NemoClaw, Google Stitch, & more #ai #ainews #aitools #aivideo #agi...

今週のAIニュース総まとめ
Googleの高性能動画アップスケーラー Spark VSSR
Miniax M2.7と自己進化するAI
XiaomiのMimo V2 ProとV2 Omni
OpenMICという仮想AI教室
会話するだけで賢くなるMetaclaw
超高速動画生成Dreamverse
HubSpotのスポンサー紹介
多言語文字とグリフに強いGlyph Printer
都市を仮想散策できるSoulworld Model
考えすぎを止めるTerminator
Nvidia GTCの主要発表
NvidiaのNemo Clawとオープンモデル群
DLSS 5.0とNeural Rendering
ヒューマノイドロボット最新ニュース
テニスをするロボットとLatent
予測も得意なMiro Thinker 1.7とH1
3Dモデルのパーツ分割SegV Genen
骨格から3Dモデルを作るSK Adapter
Google Stitchの進化
Google AI Studioがフルスタック開発環境に
単一モデルのディープフェイク生成 ID Laura
今週のまとめ

今週のAIニュース総まとめ

AIは決して眠りません。そして今週は本当にとんでもない週でした。

Terminatorが登場しました。Nvidiaは年に一度の最大規模カンファレンスを開催し、胸が躍るような発表を大量に行いました。MiniaxとXiaomiはどちらも、驚くほど優秀な最先端モデルを公開しました。このAIは、どんなことでも効果的に学べるインタラクティブな仮想教室を作ってくれます。

さらに、単一GPUだけでほぼリアルタイムに動画を生成できる別のAIもあります。Googleはフルスタックのバイブコーディングプラットフォームを公開しました。Googleはまた、驚異的なアップスケーラーもリリースしました。ヒューマノイドロボットは、ついにテニスまでできるようになっています。しかも、クローズドモデルより優れた新しい最先端のDeep Researchエージェントまで登場しました。

しかもそれは、予測まで本当にうまいんです。予測市場にはかなり役立つかもしれません。このAIシステムは、OpenClawのようなエージェントを、日常的に会話するだけで自動的に学習させ、どんどん賢くしてくれます。さらに、3Dモデリング向けの新しいAIツールも登場しています。骨格から完全なモデルを作れるものや、意味のあるパーツ構造を持つモデルを生成できるものまであります。

ロボットのぶっ飛んだデモもありますし、ほかにもまだまだあります。では、さっそく見ていきましょう。

この動画はHubSpotの提供でお送りします。

Googleの高性能動画アップスケーラー Spark VSSR

まず最初に、GoogleがSpark VSSRという非常に強力な動画アップスケーラーを公開しました。これは本当に優秀な動画アップスケーラーです。

低品質な動画を入力すると、きれいで高解像度な動画を出力してくれます。結果をいくつか見てみましょう。

ご覧の通り、野生動物の映像でもうまく機能します。屋外でも屋内でも、風景映像にも非常に強いです。ほかの例も見てみましょう。建物のディテールまでかなりしっかり生成し、シャープに補完できているのが分かります。古い映画に適用してアップスケールしたり、画質を修復したりすることもできます。

さらに、3Dアニメーションやほかの芸術的なスタイルにも対応しています。

StarやCDVR、以前このチャンネルでも取り上げたFlash VSSRのような他の動画アップスケーラーと比べてみると、右下にあるGoogleの新モデルが圧倒的に高品質です。本当に比較になりません。

しかも素晴らしいのは、ページ上部までスクロールすると、すでにコードが公開されていることです。コードボタンを押して少し下にスクロールすると、推論コードやモデルだけでなく、学習コードまで公開されています。学習に使ったデータセット一式もここにあります。

そしてこちらが学習コードです。最後に、使い方の説明も載っています。

なお、全体サイズは42.2GBあるので、動かすには高性能GPUが必要です。ただ、私がこれまで見た中では、現時点でこれが最高のオープンソース動画アップスケーラーです。もっと詳しく読みたい方のために、説明欄にこのページへのリンクを貼っておきます。

Miniax M2.7と自己進化するAI

そして今週、Miniaxは最新かつ最高のモデル、Miniax M2.7を公開しました。

ここで驚くべきなのは、M2.7が自らの進化に深く参加した最初のモデルだと書かれている点です。具体的には、学習や改良の過程で、このモデル自身が実験を回し、自分のツールやスキルを更新し、何度も反復しながら自分自身の改善に関わったということです。

Miniaxチームはこれを自己進化の一形態と呼んでいます。かなりぶっ飛んだ話です。もし本当に再帰的自己改善AIに到達しているなら、人間をループから外せてしまいます。このエージェント的な反復フレームワークをひたすら回し続けるだけで、どんどん優れたモデルが生まれていくことになりますし、その進歩は指数関数的になるはずです。

ともあれ、参考までにベンチマークを見ていきましょう。Miniax M2.7は、とくにエージェント的なコーディングやツール利用に強くなるよう設計されています。

ここでは、Swebench Pro、Multi Sweedbench、Vibe Proといった各種コーディングベンチマークが並んでいますが、どのベンチマークでもM2.7は従来のM2.5を上回っています。しかも、Gemini 3.1 Pro、Opus 4.6、GPT 5.4といったトップクラスのクローズドモデルにもかなり迫っています。

それから、このGDP valというベンチマークも非常に重要です。これは、表計算シートの作成、法的意見書、プレゼン資料、デザインなど、現実世界の仕事タスクをAIがどれだけこなせるかを測るものです。ご覧の通り、M2.7はM2.5から大きく飛躍しています。まだ最上位のクローズドモデルの水準には届いていませんが、かなり近いところまで来ています。

今のは公式ベンチマークでしたが、独立評価も見てみましょう。Artificial Analysisの独立リーダーボードを見ると、Miniax M2.7は現在最高のオープンソースモデルであるGLM5と並び、この知能指数でどちらも50ポイントを獲得しています。トップクラスのクローズドモデルにはまだ及びませんが、かなり近づいています。

そして価格を見ると、信じられないほど安いです。Miniax M2.7は100万トークンあたり約50セント程度しかかかりません。GLM 5でさえ、これより高いです。さらにクローズドモデルはどれもはるかに高価です。たとえばGemini 3.1は何倍も高く、Claude Opusは20倍も高いです。性能とコスト効率のバランスで見ると、Miniax M2.7は実は最良の選択肢です。

これはM2.7がバイブコーディングしたウェブサイトの例です。フロントエンドやデザインがかなり得意で、すべてが非常に滑らかでレスポンシブです。

こちらは財務分析とスプレッドシート作成能力の例です。実際に作られた表計算シートを見ると、非常に詳細で網羅的です。

現在、M2.7はすでにMiniax Agentで完全に利用可能です。これはMiniaxのウェブインターフェースで、Miniaxにタスクを自律的に完了させることができます。GenSparkやSkyworkのようなものです。

加えて、API経由でも利用できます。つまり、Claude CodeやOpenClaw、その他のサービスと連携させることもできます。興味がある方のために、説明欄にメインページへのリンクを貼っておきます。

XiaomiのMimo V2 ProとV2 Omni

そして今週、Xiaomiはもうスマホを作っているだけではないことを示しました。実に強力なAIモデル群を公開したのです。

そのうちのひとつがMimo V2 Proで、エージェントタスク向けに作られたフラッグシップ基盤モデルです。アーキテクチャの仕様を見ていきましょう。

これは1兆超のパラメータを持つ非常に大規模なモデルです。Mixture of Experts方式なので、複数のAIがチームとして同時に働くようなものだと思ってください。ただし、実際に使う際に有効になるのは420億パラメータだけなので、かなり効率的です。

しかもこれは、単なる日常的な用途向けではありません。エージェントシナリオ向けにかなり深く最適化されています。PinchbenchとClaw Evalという、OpenClaw的なシナリオでのエージェントワークフロー性能を測るベンチマークを見ると、Mimo V2 ProはOpus 4.6に非常に近い性能を出しています。これは本当にすごいです。

これは自律的にバイブコーディングした3Dタワーディフェンスゲームの例です。見た目もかなり良いです。

こちらはバイブコーディングしたウェブサイトの例で、1990年代の印刷雑誌の美学を模したものです。デザインはかなりいい感じです。

参考までに追加ベンチマークもあります。ここでもOpus 4.6、Gemini 3 Pro、GPT 5.2といった上位クローズドモデルと比較しています。Gemini 3.1 Proではないのが気になりますし、GPT 5.4ではないのも気になります。なので、少し都合のいい比較をしているようにも見えます。

さて、これらは自己申告ベンチマークですが、Artificial Analysisという独立評価機関の結果を見ると、Mimo V2 ProはGLM5より1ポイント低く、Miniax M2.7も下回っています。

現在これはAPI経由で利用可能です。Claude CodeやOpenClawにつなげることもできます。オンラインで試したいなら、XiaomiのMimo Studioに行って、上部から新しいV2 Proを選べます。詳しくは説明欄にリンクを貼っておきます。

さらにXiaomiは今週、Mimo V2 Omniも公開しました。名前の通り、これはマルチモーダルモデルで、同じ単一モデルでテキスト、画像、動画、音声を理解し、生成できます。

音声、画像、動画理解の各ベンチマークを比べると、V2 Omniはトップクラスのクローズドモデルと肩を並べています。

そして、その視覚能力のおかげで、ブラウザ操作を自律的にさせることもできます。画面を解析して、次に何をすべきか、どこをクリックすべきかを判断できるわけです。

別の例では、V2 OmniにTikTokへ動画を自律的にアップロードさせています。単に動画を上げるだけではなく、説明文やタグの入力欄がどこかも認識し、最終的にどう投稿するかまで判断します。そして実際に、ここで見える通り、動画の公開に成功しています。

これはすでに公開済みで、API経由でも利用できますし、XiaomiのAI Studioでも試せます。上部でV2 Omniを選択できます。詳しくは説明欄にメインページのリンクを載せておきます。

OpenMICという仮想AI教室

次に紹介するのは、とても実用的なAIです。OpenMICと呼ばれるもので、Open Multi-Agent Interactive Classroomの略です。

これは、あらゆる学習テーマに対してインタラクティブな仮想AI教室を作ってくれるオープンソースプラットフォームです。ここには、マルチエージェントオーケストレーションで動いていると書かれています。スライド、クイズ、対話型シミュレーション、プロジェクト型学習アクティビティを生成し、それらをAI教師が提供してくれます。さらに、やり取りできるAIクラスメイトまで用意されます。

ホワイトボードに書き込んだり、リアルタイムで議論したりすることもできます。しかもOpenClawとの統合も組み込まれていて、Telegramのようなメッセージアプリから直接教室を生成できます。

使い方の例を見てみましょう。学びたい内容を指定するプロンプトを入力するだけです。たとえばこの人はバイブコーディングを学びたいようです。

それを入力し、適切なモデルを選んで、Enter Classroomを押します。

すると、その後でコース内容、各ページ、対話型演習、指導アクションの下書きをどんどん作ってくれます。そして最終的にこうなります。大量のスライドを生成し、能動的に学べるインタラクティブな演習まで作ってくれているのが分かります。

ここにはかわいいチャットウィジェットもあり、AIクラスメイトと会話したり質問したりできます。さらに、インタラクティブなホワイトボードもあります。理解度を確認するためのクイズも入っています。普通の教育と同じように、取り組むべきプロジェクトまで設計してくれます。

つまり、何か特定のテーマを学びたいときや、お子さんに効率よく学ばせたいとき、もはや家庭教師を雇う必要すらないかもしれません。このツールは完全無料で、しかもオープンソースです。自分のパソコン上でローカル実行できますし、テーマを入力するだけで学習教材一式を生成してくれます。

ローカル環境でのセットアップ方法も、このページにすべて書かれています。詳しくは説明欄にこのページのリンクを貼っておきます。

会話するだけで賢くなるMetaclaw

そして今週、非常に便利なAIも登場しました。Metaclawというもので、OpenClawの上に追加するフレームワークです。これを使うと、日常的に会話するだけで、どんどん学習して賢くなっていきます。

これは、普段の会話を取り込み、そこから自動的にスキルを追加し、そのスキルをスキルライブラリに保存していく仕組みです。

会話しているだけで全部自動で行ってくれます。もちろん次に使うときには、この新しいスキルライブラリを参照するので、以前と同じ失敗を繰り返さず、学習して成長していくわけです。

ここには、ふだん通りにエージェントと話すだけでいい、とあります。Metaclawはあらゆるライブ会話を学習信号へ変換し、エージェントが継続的に改善できるようにします。

内部では、モデルの前段にプロキシを挟み、会話を横取りして処理します。そして各ターンで関連スキルを注入し、それを蓄積スキルライブラリに保存していきます。

こうしたスキルは、各セッション後に要約されて記憶されます。さらに強化学習を有効にすると、使っていない待機時間のあいだに、バックグラウンドで静かにエージェントをファインチューニングしてくれます。

このページには、インストール方法や設定方法がすべて載っています。OpenClawやその派生系の上に追加するだけのフレームワークです。理論上は、使い続けるほど、より賢く、性能が高く、ミスも少ないエージェントになっていくはずです。詳しくは説明欄にリンクを貼っておきます。

超高速動画生成Dreamverse

今週はDreamverseという、とても面白いAIもありました。これはFast Videoと呼ばれるものの上に作られたAI動画インターフェースです。Fast Videoは超高速な動画生成システムで、LTX3を使い、たった1枚のGPUで5秒の1080p動画を4.5秒で生成します。

もちろん、ここで使っているのはB200 GPUで、一般的なGPUではありません。企業向けの高級GPUです。それでも、これほど速く動画を生成できるのは非常に印象的です。

この新しいDreamverseプラットフォームのデモを見てみましょう。プロンプトを入力してから、ほんの数秒で動画全体が得られています。

さらにその後で編集もできます。たとえば、飼い主を女性にして、猫を犬に変える、といった指示が出せます。すると、たった3秒で、しかも倍速ではなく、そのままの速度で動画を編集してしまいます。

さらに続けて、アニメ風にして、と編集することもできます。すると再び数秒でアニメ風に変換してくれます。

ものすごく速いです。画像から動画と音声を作るケースでも、LTX 2.3にFast Videoを組み合わせたものは圧倒的に低遅延で、通常のLTX 2.3より10倍以上低いレイテンシです。テキストから動画と音声を作る場合でも、やはりFast Videoが最も低遅延です。

しかも、これをオンラインで試せます。デモリンクを押すとこのページへ飛びます。ここでプロンプトを入れられます。たとえば、Pixar風、公園にいる少年と犬、としてみましょう。クリックします。どれだけ速いか分かるように、動画は止めずにそのまま見せます。

さあ、Biscuit、こっちだよ。

ほんの数秒で、この動画を生成できました。

さらに編集できます。犬を猫にして、男の子のシャツを青くして、と書いてみます。これも速さが分かるように録画は止めません。すると数秒で、犬が猫に変わり、男の子のシャツも青くなっているのが分かります。

とはいえ、ほぼリアルタイムであるがゆえに、生成にはかなり目立つエラーもあります。輪郭の周辺には歪みも多いです。完璧ではありません。でも、いまや動画をほぼリアルタイムで編集できるというのは本当にすごいことです。試したい方のために、説明欄にメインページのリンクを貼っておきます。

HubSpotのスポンサー紹介

AIツールがマーケティングを変えつつある、という話はもう耳にしていると思います。でも、それを実際にどう使えば、開発者を雇わずに本物のキャンペーンを組めるのかが分からないなら、このeBookがぴったりです。

HubSpotによるMaster Claude Code for Marketingをご覧ください。4つのワークフローと12個のプロンプトで、キャンペーンを素早く公開するための内容です。

このバンドルには、ターミナルからマーケティングキャンペーン全体を構築・展開するための、いわば裏技のような4つのワークフローが収録されています。

競合調査の方法、差別化されたポジショニングの作り方、インタラクティブなリードマグネットの構築、ランディングページの公開まで、すべて自分でコードを書かずに学べます。

マーケティング用途でClaude Codeの力を最大限に引き出すための、すぐ使える12個のプロンプトも付いてきます。競合調査から、本当に成果につながるメールシーケンス作成まで、勘に頼らず、高品質な出力をより速く得ることができます。

私のお気に入りは、One-shotランディングページビルダーワークフローです。ポジショニングから完全デプロイ済みのランディングページまでを、たった1セッションで完成させる方法が示されています。独自性のあるデザイン、モバイル対応、明確なコンバージョン導線までそろっています。

これらはすべて、説明欄のリンクから無料でアクセスできます。

このリソースは、この動画のスポンサーであるHubSpotが制作したものです。

多言語文字とグリフに強いGlyph Printer

今週は、画像内の文字や絵文字、グリフの生成が非常に得意なAIもありました。Glyph Printerというものです。例を見てみましょう。

左側がプロンプトで、最初の列がこの新しいGlyph Printer、残りの列が競合モデルです。いちばん右はQwen Imageです。

最初の例では、この日本語タイトルと、その下にこの一文が入った未来的なビデオゲーム画像を生成する必要があります。ご覧の通り、この新しいGlyph Printerだけが、すべての文字を正確に再現できています。

日本語だけではありません。中国語もできます。こちらは中国語の例で、本のタイトルはこれ、サブタイトルはこれにしなければなりません。Glyph Printerは中国語の文字も正確に描けています。一方で、他の競合モデルは文字に誤りがあり、画数が足りないものも多いです。

さらに、タイ語もできます。こちらがタイ語の例ですが、やはりプロンプトで指定された文字をしっかり再現しています。

次は韓国語の例です。このタイトルとサブタイトル、それにComing Soonまで入っていますが、これもすべて正しく表現できています。さらにフランス語の例もあります。

しかも面白いのは、単なる多言語文字生成にとどまらず、絵文字やグリフも入力できることです。たとえば、壁にこれらのグリフが刻まれた石の洞窟を生成する、といったプロンプトを与えると、非常にうまく画像を作れます。

別の例では、この彫刻が入った石を生成できます。これもかなりうまくできています。入力画像にかなり近い見た目です。

あるいは、このグリフやフォントを入力し、それを紙の上に表示させることもできます。これも入力したフォントをかなり忠実に再現しています。

別の例では、これらのグリフをプロンプトに入れた結果がこちらです。さらに、異なる2種類のグリフを混ぜることもできます。

ケーキの上にこれらの文字を載せた例では、ご覧の通りかなり正確です。さらにHappy Birthdayのフォントもケーキ上に入っていて、それもかなり正確に見えます。

嬉しいことに、ページ上部ではすでにコードが公開されています。このボタンを押すとGitHubリポジトリに飛びます。少し下へスクロールすると、ローカル環境でのダウンロード方法や実行方法がすべて書かれています。加えて、学習コードとデータセットも提供されています。つまり、完全なオープンソースです。リンクは上にあります。詳しくは説明欄にこのページのリンクを載せておきます。

都市を仮想散策できるSoulworld Model

次に紹介するAIもかなり魅力的です。Soulworld Modelと呼ばれるもので、実在する都市のリアルな動画ツアーを生成できます。

まるでビデオゲームのように、このリアルな街を自由に移動できます。最初に対応したのは韓国のソウルでした。これがこのモデルで生成されたAI動画の例です。

建物や道路のすべてが、実際の現実世界の見た目によく似ているのが分かります。ここには、このワールドモデルは誤差を蓄積させることなく、数キロメートルに及ぶ軌跡の動画を生成できるとあります。

要するにこれは動画生成モデルなのですが、従来の動画生成器の問題は、長い動画を作れば作るほど品質が劣化し、どんどん見た目がおかしくなってしまうことでした。

しかし、このAIでは仮想世界を移動し続けても、しかもこの映像は20倍速で再生されているのに、映像の一貫性が保たれています。さらに自由形式のナビゲーションにも対応しています。つまり、道路に沿って進むだけではありません。どこでも歩けます。公園に入ったり、好きなように街を探索できます。ただし建物の中には入れません。

さらに面白いのは、テキストプロンプトを加えて演出を変えられることです。巨大な波を道路に呼び出したり、夜景や夕景に変えたり、洪水を起こしたり、UFOを出したり、ほかのものを生成したりもできます。要するに、これは本質的には動画生成器だからです。

仕組みとしては、何百万枚ものストリートビュー画像に対してRAG、つまり検索拡張生成を使い、それを動画生成のフレームやアンカーポイントのように使っています。今その場面がどう見えるかという画像だけでなく、少し先の場面を見越した画像も使うので、数フレーム先の映像を前もって計画できます。

もしある地点に画像データが少ないような、データがまばらな場所がある場合には、時系列横断のペアリングやストリートビュー補間を使って、AIで空白部分を埋めます。

先ほども言った通り、現時点では韓国ソウルの街並みにしか学習していません。しかし、これは実に面白い発想です。将来的には世界中へ拡張して、地球のデジタルツインのようなものを作り、自由に探検できるようになるかもしれません。

ページ上部にはコードと重みのボタンがあります。そこを開くと、現在は内部レビュー中であり、モデルと学習データを公開予定と書かれています。現時点ではまだ未公開ですが、詳しくは説明欄にこのページへのリンクを載せておきます。

考えすぎを止めるTerminator

さて、動画の冒頭で今週はTerminatorが来たと言いましたが、冗談ではありませんでした。このAIはTerminatorという名前です。ただし、あのTerminatorではありません。こちらは実際かなり便利です。

何を解決するのかというと、大規模推論モデルはしばしば考えすぎて、無駄に大量のトークンを使ってしまいます。とくにAPI料金を払っている場合は、かなりお金がかかります。多くのモデルが延々と考え続け、しゃべり続け、必要以上に説明を重ねてしまいます。でも大半の場合、そこまで必要ありません。

そこでTerminatorの出番です。これは軽量な追加モジュールで、AIモデルの考えすぎを止めてくれます。答えの準備ができた時点で推論を打ち切るのです。

ここではQwen 3を使っています。左側ではTerminatorアドオンを付けています。すでに最終回答が出たことを検知し、13.2秒で応答を終了しています。一方、右側でTerminatorを付けない場合は、延々と考え続け、しゃべり続け、応答完了まで76秒もかかっています。

つまり、かなり時間もかかりますし、トークン消費も大きくなります。ここでは、Terminatorは推論長を最大55％削減できるとされています。早めに打ち切ることで、生成時間も半分程度まで減らせます。

仕組みとしては、これはあくまでアドオンです。ベースモデルを追加学習する必要はありません。既存モデルの上に載る単層Transformerプローブで、最終回答がすでに生成されたかどうかだけを検出します。答えがまだなら0を出し、できていれば1を出力し、1なら応答を早期終了します。

とくにOpenClawや、そのほか延々としゃべりがちなエージェントシステムを使っている場合、このTerminatorアドオンは応答を早めに切り上げてコストを削減するのに良い選択肢かもしれません。

残念ながら、コードやデータセットはまだ公開されていません。近日公開と書かれているので、本当にオープンソース化してくれることを願います。現時点では、詳しくは説明欄にリンクを載せておきます。

Nvidia GTCの主要発表

そして今週、Nvidiaは年に一度の最大規模カンファレンス、GTCを開催しました。

基調講演も発表も本当に大量にありました。実際、Jensen Huangの基調講演だけで2時間を超えていましたし、そのほかにも多数の発表がありました。ここでは、押さえておくべき主要アップデートだけをまとめます。

そのひとつがVera Rubinプラットフォームです。これは、完全なAIスーパーコンピュータはどうあるべきか、というNvidiaの答えです。

1つのチップだけを作るのではなく、計算システム全体をゼロから設計しています。このシステムは、大規模なAIエージェントを動かすよう最適化されています。7つの新しいチップで構成され、それらがひとつのチームのように連携して動きます。

Rubin GPUは重いAI計算を担う主力で、AIを走らせる中核です。Vera CPUは制御と調整を担当します。さらに、マシン間で驚異的な速度でデータをやり取りするNVLinkスイッチもあります。ConnectXネットワークや、数多くの超高速特化チップもあり、それらが液冷ラック内で密接に統合され、全体として1台のコンピュータのように振る舞います。

Nvidiaはこれをエクストリーム・スケール・デザインと呼んでおり、データセンター全体を、個別サーバーの集合ではなく、1つの計算ユニットとして扱います。1つのラックに数十個のCPUとGPUを搭載でき、それらが毎秒テラバイト級のリンクで接続されることで、巨大AIモデル同士が即座にデータ共有できます。

このシステムは学習、推論、エージェントワークフロー、その他のタスクを、非常に低いトークン単価で処理できます。実際、Jensenは、BlackwellやVera Rubinシステムへの需要は1兆ドル規模に達する可能性があると言っています。すごい話です。そしてNvidiaは、GPUからCPU、ネットワーク、ストレージまで、スタック全体を垂直統合されたスーパーコンピュータとして構築しているため、これらのマシンは史上最低のトークンコストを実現すると主張しています。

このVera Rubinプラットフォームの中核には、Gro 3 LPUという非常に強力なコンポーネントもあります。LPUとはLanguage Processing Unitの略です。これは、AIモデルをとにかく可能な限り高速で動かすという、たった一つの目的のために設計されています。

巨大モデルの学習には確かに費用がかかりますが、本当のコストが発生するのはその後です。何百万ものユーザーがひっきりなしに質問してくるからです。この新しいGro 3 LPX Compute Trayには8基のGro 3 LPUが搭載されており、こうしたリクエスト処理に最適化されています。

超低遅延なので、AIエージェントはほぼ即座に応答できます。これらのLPXトレイは、Vera Rubinスーパーコンピュータ内に組み込まれており、ほかのCPUやGPUとも高速リンクで接続されています。Rubin GPUが学習を担当し、これらのLPUが世界中のユーザーから絶え間なく届くプロンプトの流れを処理する、という考え方です。これは今年の第3四半期に出荷予定だそうです。

NvidiaのNemo Clawとオープンモデル群

Vera Rubinのほかにも、注目すべき発表がありました。NvidiaはNemo Clawも発表しました。これは、企業が実際の業務環境の中で安全に自律AIエージェントを展開できるようにした、OpenClawのエンタープライズ版のようなものです。

ご存じの通り、OpenClawではAIエージェントを作成し、タスクを計画させ、ツールを呼び出し、自律的に働かせ、しかも自分のデバイス上で24時間365日動かせます。しかし、そこには多くのセキュリティ上の懸念があります。

Nemo Clawは、本番利用に必要な追加のセキュリティ層を加えます。エージェントを自由に走らせるのではなく、OpenShellという制御されたランタイムを通してすべての行動を経由させ、ポリシー、プライバシールール、ネットワーク制限を強制します。

開発者は、エージェントがどう振る舞うべきか、どのツールを使えるか、どのデータにアクセスできるかを定義するコマンドを送ります。そしてプラットフォームは、その安全なサンドボックス内で動作する完全な実行中エージェントを出力します。

目標は、データ権限や外部接続を厳格に管理しなければならない企業環境で、エージェントAIを実用化することです。簡単に言えば、Nemo Clawはガードレール付きのOpenClawであり、OpenShellがエージェントをそのルールの外へ出さないようにするわけです。

そして、OpenClawだけではありません。NvidiaはさまざまなオープンソースAIモデルの非常に魅力的なエコシステムも発表しました。これは最先端モデル群のコレクションで、いずれもオープンウェイトなので、誰でもカスタマイズして展開できます。

中心にあるのは、言語、推論、エージェントシステム向けのNeotronです。これが同社の主力オープンソース・マルチモーダルモデルです。実際、私は先週、最新のNeotron 3 Superを取り上げました。

次にCosmosがあります。これは物理法則を再現する仮想世界のようなものです。現実の物理に従うシミュレーションだと思ってください。これが重要なのは、実世界に投入する前に、この環境内でロボットを仮想訓練できるからです。

さらに、Isaac Grootというオープンな視覚言語モデルもあります。これはヒューマノイドロボット向けに特化調整されており、全身制御、空間認識、現実世界で指示に従って行動する能力を与えます。いわばヒューマノイドロボットの脳のようなものです。

それだけではありません。自動運転車向けにはAlpameoがあり、人間らしい知覚と意思決定を道路上で実現します。自動運転向けAIだと思ってください。

さらに生物学と創薬分野ではBio Nemoもあります。これはタンパク質予測や分子シミュレーションができるAIモデルです。医療、生物学、その先のブレークスルーを加速するのに極めて有用でしょう。

気候分野にはEarth 2もあり、これもオープンソースです。天候や大気予測を、これまでにない規模で扱います。

DLSS 5.0とNeural Rendering

まだ終わりません。NvidiaからはDLSS 5.0という非常に面白いアップデートもありました。これはNeural Renderingと呼ばれる方向への次の一歩で、従来の3DグラフィックスとAIが単一のシステムへ融合し始めています。

通常のゲームでは、3Dグラフィックスエンジンが、ジオメトリ、テクスチャ、ライティング計算を使ってすべてのフレームを描画します。これは非常に遅く、コストもかかります。

しかしDLSS 5では、ゲーム側はコアとなる3Dシーンデータと、部分的にレンダリングされたフレームだけを提供します。そのあとAIモデルが残りを埋めて、リアルなライティング、ディテール、さらには明示的には計算されていなかった微妙な視覚効果まで加えてくれます。

これにより画質は大きく向上し、しかも計算資源も節約できます。重要な考え方は、まったく性質の異なる2つのアプローチを組み合わせることです。つまり、構造化され制御しやすい古典的3Dグラフィックスと、確率的でディテールやリアリズム生成が得意な生成AIです。

これらを融合することで、ゲームエンジンが実際に描いたものよりもフォトリアルに見える画像を、ずっと少ない計算量で作り出せます。

言い換えると、すべてのピクセルを力業で描く代わりに、GPUが最終画像がどう見えるべきかを予測し始めるわけです。

ということで、かなり多くの話題でしたが、以上がNvidia GTCの主なハイライトと発表です。もちろん、何時間分もの基調講演やプレゼンがあるので、ここで触れたのはごく一部にすぎません。

ヒューマノイドロボット最新ニュース

ヒューマノイドロボット関連では、まず北京のごく普通の一日を映したような動画があります。街をロボットたちが普通に走っています。なぜそんなことをしているのかというと、1か月後に開催されるハーフマラソンに向けて準備しているからです。各ロボティクス企業が、そのイベントに向けてロボットを訓練しているわけです。

夜の北京で、さまざまなロボットが普通にジョギングしている様子が映っています。本当にわくわくする時代ですね。

そして今週は、1台のロボットではなく、ロボットハンドの群れを操作する驚きのデモもありました。これを手がけた会社はHexa Circleです。ここで見える通り、たった1人の人間オペレーターが、非常に高い精度で何十本ものロボットハンドを同時に操作しています。

オペレーターは、触覚フィードバック付きの特殊なモーションキャプチャグローブを装着しています。手を動かすと、部屋中のロボットハンドがリアルタイムでその動きを模倣します。

このロボットハンドは複雑な指の個別動作まで行っており、単なる簡易グリッパーではなく、人間の手に近い自由度を備えていることが分かります。

同じく手のデモとして、Orca Handという会社の別の例もあります。こちらでは3Dプリントされた複数の手が紹介されています。Orca Hand、Orca Hand Light、Orca Hand Touchがあり、それぞれ自由度や価格が異なります。すばらしいのは、すべてをオープンソース化する予定だということです。

動画では、これらの手の印象的な性能が見られます。非常に精密な操作能力があり、触覚フィードバックも備えています。こちらはタッチセンサーのデモで、人が指に触れると圧力がリアルタイムで可視化されています。

テニスボール、水のボトル、バナナなど、さまざまな日用品を扱えます。握り方も柔軟ですし、力加減の制御もうまいです。とくにバナナのようなものは、ぐしゃぐしゃにつぶさない程度に、ちょうどいい力で持たなければなりません。

耐久試験もあります。ハンマーでロボットハンドを叩くのですが、関節は壊れるのではなく外れるように設計されており、すぐにはめ直せます。

さらに、100ニュートンを超える把持力も示されています。これは、3Dプリントされた腱駆動システムとしては非常に高い値です。構造部品が3Dプリントされていくタイムラプスもあります。

しかも彼らは、このCADファイルと部品表までオープンソース化すると約束しています。つまり、3Dプリンターさえあれば、誰でもこれらの手を出力できる可能性があるわけです。本当に素晴らしいことです。

テニスをするロボットとLatent

ヒューマノイドロボット関連でもうひとつ、かなりすごいニュースがあります。なんとヒューマノイドロボットが、すでにテニスのやり方を覚えてしまったのです。これは本当に印象的です。

単にラケットを持って、ちょうどいい角度と力でボールを相手コートへ返すだけではありません。脚を使ってボールへ向かってコートを走り回らなければいけません。ずっとその場に立っているだけではないのです。ボールに追いついて打ち返すために、全身がリアルタイムに反応しなければなりません。

このデモはLatentというプロジェクトのものです。learning athletic human tennis skills from…の略だそうですが、もう途中で分からなくなってしまいました。どうやってこれがLatentになるのか、さっぱりです。

とはいえ、これはヒューマノイドロボットにテニスやその他の高速スポーツを教えるAIシステムです。

これはとくに難しい課題です。というのも、ロボットに運動能力を伴う動作を学ばせるには、通常、人間の動作を精密に記録したデータが必要ですが、それを集めるのは大変で、十分な量を用意できないことが多いからです。

しかしLatentは、不完全なデータから学ぶことでこの問題を解決します。重要なのは、スイング、ステップ、ターンといった基本技能しか捉えていない動画断片でも十分な情報を含んでおり、システムがそれらをシミュレーション内で強化学習によって組み合わせ、修正できるという点です。

そして、現実の物理法則に従うこの仮想シミュレーション内で何十万回も訓練したあと、実世界のUnitree G1ロボットへ展開されます。ご覧の通り、実際にテニスができています。こういうプロジェクトです。詳しくは説明欄にこのページのリンクを載せておきます。

予測も得意なMiro Thinker 1.7とH1

今週は、非常に強力な最先端の重量級研究エージェントが2つ登場しました。Miro Thinker 1.7とH1です。

しかも、これらはGPTやClaudeを含む一部のトップクラスのクローズドモデルよりも優れています。ですが、ベンチマークを見る前に、まずはかなり驚くべき実績を見てみましょう。

このMiro Thinkerモデルは、どうやら予測が非常に得意です。つまり、Polymarketのような予測市場に使える可能性があります。たとえば、2月10日に、2月25日時点の金価格を予測するよう求められました。その予測がこちらで、実際の結果がこちらです。

誤差はたった4ドル、つまり0.08％だけでした。これは極めて近いです。ここにはチャット全体も示されています。プロンプト自体はかなりシンプルです。しかし、そのあと膨大な調査を行い、最終回答にたどり着いています。予測を組み立てるために、これだけ多くの参照元を実際に引用しているのが分かります。

別の例もあります。1月6日に、その年のスーパーボウルを制するのはどのチームかと尋ねられ、Seattle Seahawksが最有力の優勝候補だと判断しました。そして実際、1か月以上あとの2月8日に、SeahawksがSuper Bowl LXを制しました。つまり、1か月前に優勝チームを正しく当てたわけです。かなりすごいです。

こちらがそのチャット履歴です。プロンプトはとても単純で、スーパーボウルに勝つのは誰か、というものです。すると返答として、Seattle Seahawksが最も勝つ可能性が高いチームだと出しています。そして参照元もずらりと並んでいます。

さらに別の驚くべき例では、その年のグラミー賞で最も目立つアーティストまで正しく予測しました。1月8日に、グラミーを最も席巻しそうなアーティストは誰かと聞かれ、Kendrick Lamarと予測しました。そして約1か月後のグラミー賞で、彼は実際に5部門を受賞しました。これも正しく言い当てたわけです。

参考までに、元のプロンプトも載っています。1か月先のことをこれほど多く正確に予測できるのは、本当にすごいですね。

これらは、ただ質問に答えるだけではなく、本物の研究者のように調査し、検証し、結論を裏付けることを目指した、重量級の推論・研究タスク向けエージェントです。モデル内部の記憶だけに頼るのではなく、計画、ツール使用、検証のループを中心に構築されています。

そしてH1は、1.7よりさらに強力です。H1は推論プロセスの中に検証を直接組み込んでおり、中間ステップを確認し、最終回答が証拠で裏付けられているか監査まで行います。

ご覧の通り、BrowseCompのようなWeb検索能力、研究、数学、科学、財務分析など、さまざまなベンチマークにおいて、この新しいH1モデルは、GPT 5.4、Gemini 3.1 Pro、Claude Opus 4.6といったトップクラスのクローズドモデルすら上回っています。まさに最上位モデル群です。

ただ興味深いのは、BrowseCompでは比較相手に最新モデルを使っているのに、Deep ResearchではなぜかGPT5に戻っていたり、Gemini 3になっていたり、Claude Opusが欠けていたりする点です。何が起きているのか少し気になります。

Frontier Scienceでも同様で、GPT 5.4ではなくGPT 5.2、Gemini 3.1ではなくGemini 3が使われています。ベンチマークごとに比較対象モデルが一貫していないのです。

それでも、これはオープンソースであり、しかも最上位クラスに属しています。素晴らしいのは、すでに公開済みだということです。GitHubリポジトリを開くと、ダウンロード方法や実行方法がすべて書かれています。

参考までに仕様も少し見てみましょう。Miro Thinker 1.7は2350億パラメータで、コンテキストウィンドウは256Kです。Hugging Faceのフォルダを開くと、この1.7モデルは470GBあります。つまりローカルで動かすには、複数の高性能GPUを接続する必要があります。

さらに、1.7 mini版も公開されています。こちらは小型ですが、そのぶん性能は落ちます。それでもサイズは61GBしかなく、かなり小さくなっています。リンクや詳細情報はすべてこのページにあります。興味がある方のために、説明欄にリンクを貼っておきます。

3Dモデルのパーツ分割SegV Genen

次に紹介するAIも面白いです。SegV Genenというもので、3Dモデルを受け取って、それぞれのパーツを自動的に色分けしたり印を付けたりして、簡単に分離できるようにしてくれます。まるでおもちゃを別々の部品に切り分けるような感じです。

使い方としては、3Dオブジェクトを入力し、いくつかの部位をクリックすると、その部分を自動的にセグメント化してくれます。

こちらの例では、クリックするだけで各パーツを選択したり解除したりできます。そして出力されるのは、各パーツが明確に分割された同じ3Dモデルで、GBファイルとして出てきます。

一つずつ地道にクリックしていく代わりに、動画下部に出ているようなセグメンテーションマップをアップロードして、参照として使うこともできます。そうすると、それに基づいて物体全体を一気にセグメント化してくれます。しかもかなり正確です。

ほかの例も参考に載っています。このSegV Genenは最先端の結果を達成しているそうです。ここには、従来の最先端モデルと比べて、インタラクティブなパーツ分割では40％向上し、完全分割でも15％向上しながら、学習データは32％しか使っていないと書かれています。

つまり、性能が高いだけでなく、学習効率もずっと良いのです。必要なデータ量がかなり少なくて済みます。

嬉しいことに、これもすでに公開済みです。コードボタンを押して少し下へスクロールすると、インストール方法がすべて書かれています。なお、これはTrellis 2ベースです。さらに、少なくとも24GBのVRAMを持つNvidia GPUが必要だそうです。興味がある方のために、説明欄にこのページのリンクを貼っておきます。

骨格から3Dモデルを作るSK Adapter

今週は、もうひとつ3Dモデリング向けのAIツールもありました。SK Adapterというもので、かなりユニークです。

これは、骨格構造に従う3Dオブジェクトを作成したり編集したりできます。いわゆる骨格条件付き生成です。

たとえば、最初にこの骨格構造をアップロードし、それをこのAIに通すと、その骨格に適合した完全な3Dモデルを生成してくれます。こちらも別の例です。これが入力骨格で、こちらが出力された3Dモデルです。さらに別の例もあります。これが骨格で、こちらが生成結果です。

さらに、多様な例も載っています。鳥、甲殻類、メカロボット、宇宙船、このロボット犬など、さまざまなものに対応しています。

ページ上部にコードボタンがあり、コードは近日公開と書かれています。しかもモデルだけでなく、学習データセットと学習コードまで公開予定だそうです。完全オープンソース化するつもりのようで、これは本当に素晴らしいですね。現時点では、詳しくは説明欄にこのページのリンクを載せておきます。

Google Stitchの進化

そして今週、GoogleはStitchというプラットフォームにも非常に面白いアップデートを発表しました。まだご存じない方のために言うと、これは基本的にAI搭載のFigmaのようなもので、作りたいデザインをプロンプトで伝えるだけで、アプリやサイトの複数ページにわたる完全なUIデザインを生成してくれます。

このチャンネルでは何度かStitchを取り上げてきましたが、今週はさらに便利な機能が追加されました。複数の参照画像を追加して、デザインの方向性を誘導できるようになりました。画像を簡単にアップロードし、特定ページ上の画像を差し替えることもできます。

さらに面白いのは、サイトやアプリ全体の色やフォントを指定できることです。そしてボタンを1回押すだけで、既存ページすべてを、その新しい色やデザインスキームに合わせて変換できます。

しかも、音声でプロンプトを入力することもできます。もう文字を打つ必要すらありません。ここまで怠けられるわけです。

さらにこのツールは、OpenClawのようなエージェント向けのデザインガイドラインを含むMarkdownファイルも出力できます。まずStitchでワイヤーフレームを設計し、そのMarkdownファイルを実際のコーディングエージェントに渡して、そのガイドラインに従って実装させることができるのです。

StitchはGoogleの無料ツールの中でも、私のお気に入りのひとつです。経験がなくてもUIデザインを本当に簡単に作れるからです。試したい方は、説明欄にメインページのリンクを貼っておきます。

Google AI Studioがフルスタック開発環境に

さらにGoogleは、AI Studioもフルスタックのコーディング環境へと進化させました。

AI Studioをご存じない方のために言うと、これはGoogleの最新モデルを試せるプラットフォームです。Nano Bananaや、動画生成向けのVO、テキスト読み上げなども使えます。音声でGeminiとリアルタイム会話することすらできます。

ほかにも触って遊べるモデルはたくさんありますが、このBuildセクションでは、エージェントがフロントエンド、バックエンド、データベース、認証まで全部含めたアプリケーションを、ひとつの場所で丸ごと作ってくれるようになっています。

たとえば、API経由でほかのツールと接続できますし、ライブデータソースにもつなげられます。ご覧の通り、アプリはGoogle Mapsのデータを直接使えるようになっています。

あるいはデータベースや決済処理にも接続でき、エージェントがAPI認証情報を安全に保存してくれます。

こちらは完全に動作するマルチプレイヤーゲームの例です。Google Mapsから取得した写真を見て、相手プレイヤーの位置を当てるゲームです。このGoogle Mapsウィジェットを操作しながら、そのプレイヤーがどこにいるかを探すわけです。

そして、これがフルスタックであるがゆえに、フロントエンド、バックエンド、データベース、認証をすべてひとつの場所で生成できます。たとえば、FirestoreやFirebaseを使ったデータベース接続やユーザー認証も設定できます。

ここでアプリをバイブコーディングすると、ほかのプロバイダーは選べないのですが、その代わりエージェントが全部自動で設定してくれます。自分でFirebaseに入って手作業で設定する必要はありません。

要するに、フロントエンド、バックエンド、データベース、認証まで全部込みのフルスタックアプリを、自律エージェントにまとめて作ってもらいたいなら、これは最も簡単なプラットフォームのひとつかもしれません。Replitの競合のような存在です。試したい方のために、説明欄にメインページへのリンクを貼っておきます。

単一モデルのディープフェイク生成 ID Laura

そして今週、AIディープフェイクはさらに一段階進化しました。ID LauraというAIです。

まず、従来のディープフェイクツールの背景から見てみましょう。人物が話しているディープフェイクを作ろうとすると、現在のモデルはたいてい2段階の処理を踏みます。まずその人の声をクローンし、そのあと、その声に新しい原稿を読ませます。

たいていはText-to-Speechモデルが関わりますが、それに加えて、その人物が話している動画を生成するためのビデオモデルも必要です。そして音声と動画の同期まで取らなければなりません。この分離のせいで、どうしても断絶が生まれます。最適化されておらず、単一の統合モデルではないのです。

そこでID Lauraは、人物が話すディープフェイク動画を、単一の統合モデルだけで生成します。つまり、その人物の画像、音声クリップ、そして言わせたいセリフのテキストプロンプトを入力し、ひとつの統合モデルに通すだけで、話しているディープフェイク動画を生成できます。

例を見てみましょう。この人物の写真をアップロードします。そして環境音として、木が大きく割れる鋭い音に続き、枝や幹が重く倒れ込むクラッシュ音を加える、といった指定をします。つまり背後で木が倒れるようにしたいわけです。

そしてセリフとして、この女性に、今見た？今ちょうどあそこで倒れたよ、と言わせたいとします。ただし、その前にこの女性の元の声も入力しておく必要があります。声をクローンするためです。

まず参照音声はこう聞こえます。

ファストファッションのことを知ってから、それをやめる旅に出たんです。でもファストファッションだけじゃなくて。

では、これらすべてを入力すると、こういう生成結果になります。

今見た？今ちょうどあそこで倒れたよ。

ご覧の通り、彼女の声をクローンし、そのセリフを話させることができています。しかも背後では木まで倒れています。

別の例もあります。この初期フレームを入力し、環境音として木のテーブルを鋭くノックする音を加えます。そしてこの人物にこう言わせたい、というテキストを入力します。さらにクローンしたい声も入れます。

そこだけが、私に直接アクセスできる唯一の場所になるはずです。それに──

では最終生成はこちらです。

みんな、よく聞いて。これは本当に大事だから、ちゃんと注意して。

声はたしかに元の声に似ています。しかも、ちゃんと机をノックしています。

さらに別の例では、この入力画像に、背景の工事音を加え、話させたい内容を指定し、クローンしたい彼女の声を入力します。

私のかわいいファンの子たちの多くはまだ高校生なので、そこから来ていた質問にいくつか答えたかったんです。

そして結果はこちらです。

ここ、いろんな音がしていてすごくうるさいんですよね。えっと──

もしこれを、ほかの主要な動画生成モデル、たとえばKling 2.6 Proと比べるとします。すでにKling 3が出ているのに、なぜそちらを使っていないのかは気になりますが、音声類似度、環境音、話し方の表現という点では、ID Lauraが大半の場面で勝っています。

また、Kling 2.6 Proの代わりにElevenLabsとオープンソース動画生成器1.2.2の組み合わせと比べても、やはりID Lauraの方が大半のケースで優れています。

嬉しいことに、ページ上部までスクロールすると、すでにコードが公開されています。こちらがGitHubリポジトリです。これはLTXモデルの上に構築されていることに注目してください。現在は最新のLTX 2.3に対応しています。

少し下へスクロールすると、少なくとも24GBのVRAMを持つCUDA GPUが必要だと書かれています。推奨は48GBです。そうした環境があるなら、ローカル環境でのダウンロードと使用方法がここに書かれています。リンクは上にあります。詳しくは説明欄にこのページのリンクを貼っておきます。

今週のまとめ

以上が、今週のAIハイライトのまとめです。皆さんはこれらについてどう思いましたか。どのニュースがいちばん気に入りましたか。そして、どのツールをいちばん試してみたいですか。

いつものように、これからも皆さんに共有できるよう、注目のAIニュースとツールを探し続けます。

この動画が良かったら、ぜひ高評価、シェア、チャンネル登録をお願いします。そして今後のコンテンツも楽しみにしていてください。

それにしても、AIの世界では毎週本当に多くのことが起きています。私のYouTubeチャンネルだけでは、とても全部は取り上げきれません。なので、AIで何が起きているのか本当に最新情報を追いたいなら、無料の週刊ニュースレターにもぜひ登録してください。リンクは説明欄にあります。

ご視聴ありがとうございました。それではまた次の動画でお会いしましょう。