本動画は、AI業界における6つの重要なニュースを取り上げている。GoogleのGemini 3とアンチグラビティによる開発環境の刷新、Nano Banana Proによるビジュアル推論の完成、MetaのSAM 3がもたらすセマンティック知覚の革命、World LabsのMarble World Layerによる実用的な3D生成ツールの登場、GPT-5の科学的推論能力を示す査読付き論文、そしてOpenAIとフォックスコンの提携によるAIデータセンターの米国内製造計画である。これらの進展は、AIモデルの性能向上だけでなく、開発環境の統合、実用的なワークフローへの組み込み、物理インフラの垂直統合など、AI産業全体の構造的変化を示している。

記憶に残る最大級のAI週間
これは私が記憶している中で最大級のAI週間の一つでした。重要だった6つのトップストーリーをご紹介します。
一つ目は、Gemini 3のリリースです。そしてボーナスとして反重力も入れておきましょう。Gemini 3はGoogleの新しいモデルです。ほとんどのベンチマークでトップに立ちましたが、それが重要なのではありません。重要なのは、世界中の人々がそのモデルを手に取り、使い始め、そして同意したことです。
ChatGPT-5のローンチでは、ベンチマークとは関係なく、ローンチそのものに対して広範な意見の相違と論争があったのとは異なり、ほぼ全員がGemini 3は非常に強力なモデルだと同意しました。それは確かに私の経験でもあります。これについて全体的な投稿を書きました。
反重力はGemini 3と一緒に来ます。これは開発者向けのVS Codeのフォークで、AIエージェントが完全な実行権限を持っています。ファイルを読んだり編集したりできます。ターミナルで実行できます。依存関係をインストールできます。エージェントが持つ自律性のレベルをあなたがコントロールします。進行に応じて成果物、計画、差分、決定を記録できるので、何をしているかを監視し制御できます。
基本的に、反重力はVS Codeをエージェントが作業を行う場所に変えます。これが重要なのは、Googleが開発者環境を所有しようとしているからです。モデルだけではなく。つまり、もし反重力がより多くの開発者がコードを書く場所になれば、Googleはここでモデルの使用だけを勝ち取るのではなく、開発者のライフサイクル全体を勝ち取ることになります。
そして競争ゲームは、誰のモデルが最高の評価スコアを持っているかから、誰の環境が作業が行われるデフォルトの場所であり、エージェントが実際の作業を行う場所であるかにシフトします。
GoogleはエージェンティックIDEがAIオペレーティングシステムのシェルになると賭けています。そして、これがどう展開するかを見ることになります。明らかに他のプレイヤーもミックスに入っています。Cursorは大きなものの一つです。しかしGoogleは自分たちの杭を地面に打ち込み、この時点で単なるモデルメーカーではないと言っています。開発環境も所有したいのです。
したがって、反重力はエージェンティックワークフローが実行される中心的な表面となり、最終的にはコンピュート体験を駆動するコードを形作る場所になる可能性があります。それは保証されていません。開発者は自分のエディターに忠実である傾向があります。彼らは自分がしていることのエルゴノミクスを気にする傾向があり、切り替えを好みません。
だからGoogleはここで長期的なプレイをしており、どう展開するかを見なければなりません。
Nano Banana Proがもたらすビジュアル推論の完成
ストーリー2番目、Nano Banana Proです。これは単なる画像モデルではありません。正しいテキストレンダリングと概念的関係を解決したビジュアル推論モデルです。これはかわいいキャプションについてではありません。特別なイラストについてでもありません。
これはUIレベルの画像生成についてであり、見出し、ラベル、メニュー構造、多言語コンテンツ、段落を正しく行えるのです。収益報告書全体を1枚のスライドに要約できます。また、4K出力をサポートしています。一度に最大14枚の画像を組み合わせることができます。
根本的に、Nano Banana Proは画像をインターフェースに変えます。これは、画像生成が今や通常の製品エンジニアリングワークフローの一部となった最初の瞬間です。マーケティングだけでなく、アートだけでなく。画像は数秒でビジュアルサーフェスを反復する方法になります。
エージェントがプラグインして、以前は実行、反復、閲覧、構築できなかったビジュアルサーフェスを反復できるようにします。だからエージェントはランディングページを構築し、批評し、引き戻し、新しいメールデザインを試し、新しいオンボーディングフローを試すことができます。
まるでFigmaの自動化とスライドデッキの自動化とUIデザインの自動化とTableauがすべて1つに巻き込まれたようなものです。これはあまりにも新しいので、まだ影響を理解している最中ですが、いくつかの方向性があります。
クローズドループデザインが現実になるので、エージェントは生成し、テキストを読み、修正し、ブラウザで直接テストできます。製品サーフェス全体がコード化可能になります。UIは単なる別の完成ターゲットになります。だから進行に応じて生成できます。
これは常に誇大宣伝でした。AIが進行に応じて生成できるという。しかし、このようなビジュアルツールを持つことで、それが最も一般的なユーザーインターフェースでなくても、よりもっともらしくなります。
これは絶対にOpenAIとAnthropicに彼らのマルチモーダルパイプラインを進歩させるよう圧力をかけることになります。注目すべき点の一つは、生成画像に対する企業の信頼はまだ低いということです。
それが優れているという事実は、企業がすぐにそれを信頼することを意味しません。たとえほとんどの企業ユースケースに対して十分良くても。テキストの精度は優れていますが、複数の生成された画面にわたるレイアウトの一貫性はまだハードルです。
そして、画像に合理的に収めることができるテキストの量には限界があり、それは主にRARIの処理能力によって駆動されていると私は主張します。モデルによるものはそれほどではありません。しかし、非常に重いテキストと画像をやろうとしているなら、これはまだそのための適切なモデルではありません。
とはいえ、実用的な目的すべてにおいて、Nano Banana Proについて考える方法は、ビジュアル推論が解決され、取り組むべき他の問題があるということです。それがどのようにワークフローに入るかなどを解決しなければなりません。
しかし、私たちが求めるものを生成し、有用な作業成果物を開発するモデルの能力は解決しました。
SAM 3がもたらすセマンティック知覚の革命
ストーリー3番目はSAM、つまりセグメント・エニシング・モデルのバージョン3です。これはMetaのコンピュータービジョンモデルで、単なる形状ではなく概念をセグメント化し識別します。これは絶対的に巨大です。これは動画、3次元計画、ワークフローと自動化と製造などのためのChatGPT的瞬間です。
なぜかを説明しましょう。SAM 3に尋ねることができます。これらの動画内のすべてのフォークリフトを見つけてください。これらの動画内で安全ベストを着ていない人々を見つけてください。この動画内のすべての赤いオブジェクトをセグメント化してください。シーン全体で茶色の犬を追跡してください。手動クリックなし、バウンディングボックスなし、ただの平易な言語です。
したがって、SAM 3はビジョンをピクセル幾何学や形状がどこにあるかを見つけることからセマンティック知覚にシフトさせます。言い換えれば、モデルは私たちが見るように見ることができ、モデルはクエリ可能になります。
だから、人間に「この動画の中で青いゴミ箱はどこですか?」と尋ねることができるのと同じように、今やモデルにそれを尋ねることができます。すべての画像、すべての動画、すべてのカメラフィードを検索可能なデータセットに変えます。ビジョンは自然言語インターフェースになります。
これには多くの含意があります。私たちはまだ表面をかすめているだけだと思います。AIトレーニングのためのアノテーションは数週間から数分に減少するでしょう。ロボティクス知覚パイプラインははるかにシンプルになるでしょう。動画編集は変革するでしょう。マスキングは以前は数日かかっていましたが、今では数秒です。スケールでのコンテンツモデレーションは非常に簡単です。写真と動画アプリはSAM 3を魔法の杖のコンセプトエディターとして採用するかもしれません。
完璧ではありません。ゼロショットセマンティクスは良好です。概念のエッジは少しぼやける可能性があります。良くなるでしょう。しかし、Nano Banana Pro 3をビジュアル推論を解決したものと見なすのと同じように、SAM 3をセマンティック知覚を根本的に解決したものと見なすべきです。十分に良いです。機能します。
この後、Googleにモデルを改善するよう、そしてちなみにOpenAIにも大きな圧力がかかります。Metaはこれを出荷する素晴らしい仕事をしました。
Marble World Layerによる実用的な3D生成
4番目はMarble World Layerです。これは見過ごされたと思いますが、私は興奮しています。これは安定した、編集可能で、エクスポート可能な環境を構築する生成3Dツールで、ガウシアンスプラット、ポリゴンメッシュ、リアリスティックなテクスチャ、空間的に一貫性のある部屋と建物を備えており、構造を定義できるチゼルエディターとAIが詳細を埋めます。
これはWorld Labsからのもので、有名なAI研究者のフェイ・リーが率いており、初めて3Dコンテンツ制作をワークフローグレードにするため重要です。つまり、これは制作パイプのようなものではありません。これは真の制作パイプラインです。研究デモではありません。そして私は使ってみました。素晴らしいです。
3D世界は単なる生成的なおもちゃではありません。このツールで実際にゲーム開発ができます。このツールで映画VFXができます。このツールでシミュレーションとロボティクスができます。本質的に、空間AIが主流に飛び込んでいます。
これは映画のプレビズのコストを劇的に下げる可能性があります。ARとVRアプリのワールドビルディングを可能にする可能性があります。ほぼ些細なことです。3D Figmaの初期コンセプトまたは初期バージョンですが、実際には制作アプリケーションです。
フィデリティは絶対的に完璧ですか? いいえ。AIにおける3D空間レンダリングの未来がどこに向かっているかを見始めるのに十分良いですか? はい。そしてそれは大きな問題です。
GPT-5の科学的推論能力を示す査読付き論文
5番目、Gストーリー5番目、GPT-5科学的推論論文です。これはGPT-5が実際の科学的作業を行っていることを示す査読付きプレプリントです。新しい定理を証明します。カー・ブラックホール物理学において対称性生成器を発見しました。
未発表の実験室結果と一致する生物学的実験を提案しました。つまり、事前にそれを見ることができなかったのです。領域横断的な文献の洞察を表面化しました。論文の重要な主張は、これらすべてを一度に見ると、それは助けているのではないということです。実際に独創的な結果に貢献しています。
これはOpenAIからのものですが、OpenAI内部の論文だけではありません。したがって、そこにはバイアスに関する懸念が少ないです。オックスフォード、ケンブリッジ、ハーバード、ヴァンダービルト、ジャクソン研究所からの学術協力者がいます。
では、なぜ重要なのでしょうか? これは、フロンティアモデルが単なるアシスタントではなく、研究協力者のように振る舞い始めているという最もクリーンな証拠です。また、すべてのモデルは今やコモディティだという考えを突き破ります。
フロンティア推論、深い数学、物理学、生物学において、モデルの品質は互換性がありません。そして、私が話したすべての研究者、または公に話した研究者は、そのような研究にとって、GPT-5または5.1 Proがゴールドスタンダードであると主張しています。
Googleからの特定のアプリケーションに適した専門モデルもいくつかありますが、実践として科学的推論を行っている場合、ゴールドスタンダードはChatGPTのo1 Proであるようです。
そして、これはこれらのモデルが専門化しており、私たちがそれらを使用する方法が専門化しているというテーマと続きます。GPT-5 Proは完璧ではありませんが、繰り返しますが、Marbleで3D世界ジェネレーターを見るのと同じように、これは役割における根本的な変化を示すのに十分です。
したがって、チャットボットを仕事をする手下として考える代わりに、これらの科学者はGPT-5 Proを、新しい発見をするのを助け、彼らが検証できる新しい定理を提案し証明できる思考パートナーとしてますます見なしています。
そしてそれはLLMにとって大きな一歩です。
OpenAIとフォックスコンによるAIデータセンターの垂直統合
ストーリー6番目、OpenAIとフォックスコンがAIに最適化された米国製造のデータセンターを構築するパートナーシップを作りました。それにはラック、冷却システム、電力供給エンクロージャーが含まれます。これはフロンティア研究所が物理的垂直統合の時代に入っていることを示す動きです。
したがって、金属を所有することで、OpenAIはモデルをより速く展開し、コンピュートのボトルネックを減らし、コストをコントロールし、潜在的に地政学的リスクを回避し、彼らのトレーニングスタックに最適化されたカスタムラックを構築できます。
興味深いのは、これがOpenAIに多くの柔軟性を与えることです。トレーニング、推論、メモリアーキテクチャに合わせたカスタムラックを構築できます。非常に電力効率の高いレイアウトを構築できます。データセンターを最適化できます。
これは物理的なAIファクトリーのためのハイパースケーラー時代の始まりであり、もっと見ることを期待しています。
Notebook LMで作成したビジュアライゼーション
最後になりましたが、今週のニュースをビジュアライズする本当にクールな方法をお見せしたいと思います。これは私がNotebook LMを使って作成したスライドデッキで、ニュース全体をスライドデッキに入れることができました。
今週のニュースレターの一部として、使用したプロンプトと一緒にこれを共有します。そして、もう一つ指摘したいのは、実際に専門のプロンプトツールを使ってこれを構築し、完全なストーリーを得たということです。基本的にナラティブの完全なストーリーを入力し、プロンプトツールにこのようなデッキを作る非常に構造化されたプロンプトを与えてもらいました。
そして月曜日のストーリーでそれについてもう少し話すつもりです。しかし、これは本当にクールだと思います。したがって、このデッキと、それを構築するために得たプロンプトを共有します。
幸せな土曜日を。息を整えてください。そして、来週が何をもたらすか待ちきれません。AIレースは加速し続けるばかりです。


コメント