今週のAI業界は、まさに全セクターが同時に最高速度で加速した歴史的な一週間となった。GoogleはGemini 3を全面展開し、Nano Banana Proが画像生成の概念を根本から変革した。Grok 4.1はリーダーボードの頂点に躍り出て、MetaはSAM 3とSAM 3Dで10年以上誰も解けなかったコンピュータビジョンの課題をブレイクスルーした。Microsoftは300億ドル規模のAzure契約でNvidiaとAnthropicとの巨大提携を発表し、Officeアプリに自律型エージェントを統合した。Manusはブラウザそのものを実用的なAIワークスペースに変え、ベゾスは62億ドルの新スタートアップで現場に復帰し、ヒューマノイドロボット分野では過去最も混沌とした、そして最も示唆に富む一週間が展開された。本動画では、これらすべての動きを包括的に解説する。

今週のAI業界:全セクター同時加速の歴史的一週間
今週は、AI業界全体がまさに同時に最大限の加速を迎えた瞬間のように感じられました。GoogleはGemini 3で全力投球しました。Nano Banana Proは画像生成を劇的に変えました。Grok 4.1はどこからともなく飛び出してきて、リーダーボードのトップを奪取しました。Metaは、人々が10年以上も解決しようとしてきた技術でコンピュータビジョンを前進させました。
Microsoftは、NvidiaとAnthropicとの大規模な提携を結びました。Officeアプリには突然、独自のエージェントが搭載されました。Manusはあなたのブラウザを実用的なAIワークスペースに変えました。ベゾスは数十億ドル規模のスタートアップでリングに登場しました。そしてヒューマノイドロボットは、私が長い間見てきた中で最も混沌として、最も明らかになった一週間を過ごしました。では、急いで見ていきましょう。なぜなら今週は誰のためにもスピードを落としてくれなかったからです。
GoogleのGemini 3:検索への即日統合という異例の展開
さて、GoogleはGemini 3を投下することで幕を開け、それは瞬時にすべてを止めました。ベンチマークは数分以内に出回り始めました。現実離れして見えるGPQAの数値、人々が何度も確認し続けたArcAGIのジャンプ、そして古いシステムのように漂流するのではなく、モデルがどのように推論を構造化するかを示す内部タスクツリーのビジュアルなどです。
全員を驚かせた部分は、スコアですらありませんでした。GoogleはGemini 3を初日から直接検索に投入しました。これは彼らがこれまでどのフロンティアモデルでも行ったことがないことです。もし彼らが最も機密性の高いシステムでそれを動かしているなら、それはまったく異なるレベルでその安定性を信頼していることを意味します。推論のギャップはすぐに明らかになります。
Gemini 3は長いプロンプトでも集中力を保ちます。なぜなら、マルチモーダルスタックが真に融合されているからです。テキスト、画像、図、動画、すべてが一つの連続したコンテキストに存在しています。100万トークンのウィンドウでさえ、古いモデルが持っていたあの奇妙な漂流なしに一貫性を保ちます。PDF全体、コードベース、図、スクリーンショットをすべて投げ込んでも、セッションのずっと前の詳細を覚えています。
動画理解も顕著に向上しました。特に高速モーションのシーンにおいてで、ロボティクス研究者たちは即座にこれを大きな進歩だと指摘しました。コーディングもより意図的に感じられます。乱雑なリポジトリを渡しても、パニックになったり、ランダムなファイルにパッチを当てたりしません。実際に適切なプランを構築します。そしてアンチグラビティは、Geminiに実際の作業環境へのアクセスを与えるため、これをさらに推し進めます。
ターミナル、エディタ、ログ、ブラウザ。このセットアップにより、モデルは孤立したタスクではなく、長期的なワークフローを実践できるようになります。これが、Gemini 3がベンディングベンチ2で最高のリターンを引き出した理由です。このベンチマークは1年間にわたってビジネスを運営するシミュレーションを行います。そして、その周辺のすべてを見ると、コンシューマーアプリのGeminiエージェント、検索を支えるGemini 3、開発者向けのアンチグラビティ、自然な拠点として機能するChromeとAndroid、これらすべてを見ると、Googleが単にモデルをリリースしているのではなく、エコシステム全体にインテリジェンス層を敷いていることが明白になります。
Nano Banana Pro:画像生成の次なる進化的飛躍
そしてNano Banana Proが登場し、すぐに画像生成における次の進化的飛躍のように感じられました。人々は再構想された「レイクの進歩」パネルを見て、すぐにアップグレードの規模を理解しました。ランダムな様式的なフレアの代わりに、モデルはすべてのフレームにわたって一貫したストーリーラインを運びました。
暗号資産の富から燃え尽きへ、立ち退きからディストピア的な精神病棟へ移行するキャラクター、それらすべてが視覚的に一貫していました。このタイプの一貫性は画像モデルにとって極めて困難ですが、Nano Banana Proは何事もないかのように処理しました。空間推論が第二の衝撃でした。人々が香港からのGPS座標を入力すると、モデルは正確な建物のレイアウト、スカイライン、地区の構成を生成しました。一般的な都市の埋め合わせではなく、です。
ユーザーがあのマウスとカメの漫画のように、シーンをまたいでキャラクターをブレンドしたとき、すべてのフレームで個性が安定していました。ストーリーが市場から中世の船に移動しても、キャラクターのアイデンティティは保たれました。これは単なるスタイルの模倣ではありません。これは連続性についての実際の推論です。モデルは現実世界との整合性も完璧に実現しました。
Google Analyticsのスクリーンショットをアップロードして、インプレッションを120万に押し上げるように指示します。すると、グラフ、軸、色、レイアウトを完璧に更新します。表面に大まかな線をスケッチすると、モデルはマークした場所に正確に詳細を生成し、触れていない領域にもそれを反映させます。写真スタイルのコントロールがついに自然に感じられるようになりました。
カメラアングルの変更、被写界深度の調整、リライティング、そして構成が崩れてぐちゃぐちゃになる代わりに、実際に保持される2Kまたは4K出力。それはまた、リアルタイム検索にも接続されています。誰かがガラスに投影された今日の株価と一緒にシャードのショットを求めたとき、モデルはライブの数字を引き出して、画像に正確にブレンドしました。
この機能だけでも際立っています。なぜなら、他のどの画像モデルも最新のデータへの直接的なグラウンディングを持っていないからです。完璧ではありませんでした。時計はまだ混乱させます。いくつかの珍しい種は抜け落ちます。いくつかの衣装はフレーム間で消えます。しかし、飛躍は巨大です。そして、すべての画像に焼き付けられたSynth IDウォーターマークにより、Googleはトレーサビリティの新しい標準を設定しています。
XAIのGrok 4.1:突然の登場とリーダーボード制覇
さて、Googleがインターネットに溢れかえっている中、XAIはタイムラインに手榴弾を投げ込むのに完璧な瞬間だと判断しました。ユーザーがモデルセレクターを開くと、突然Grok 4.1が現れました。誇大広告もカウントダウンもリークもありませんでした。ただ現れただけです。そして、人々が使えば使うほど、アップグレードがより明白になりました。幻覚は約12%から4%強に減少しました。
ファクトスコアのエラーは約10%から3%未満に低下しました。これは間違いの膨大な削減です。そしてXAIは、高度な強化学習のセットアップによるものだとしています。このセットアップでは、ハイエンドの推論モデルが本質的にトレーニング中の推論を評価します。11月1日から14日まで、XAIは密かにGrok 4.1をトップ競合相手と対決させました。テスターにどのモデルがどれかを伝えずにです。
人々はほぼ3分の2のケースでGrok 4.1を好みました。感情理解もより強力でした。ユーザーが行方不明のペットや困難な記憶について説明すると、モデルは一般的な同情ではなく、特定の感情的な詳細で応答しました。クリエイティブライティングは1,722のLスコアで急上昇し、これはどのモデルも行った最大のジャンプの一つです。
そしてコンテキストウィンドウ、256kのベースラインで200万まで拡張可能、これは突然、巨大な入力を普通に感じさせました。LMSYSがリーダーボードを更新したとき、Grok 4.1 thinkingは1,483 ELOで真っ直ぐトップに跳躍し、通常版はそのすぐ後ろに落ち着きました。そして一瞬、XAIが実際に王冠を手に入れたように見えました。
それからGemini 3が登場し、ボードを更新し、即座にGrokを首位から押し出しました。その第1位は1日も続きませんでしたが、XAIに関する会話全体を揺るがすには十分な長さでした。
MetaのSAM 3とSAM 3D:コンピュータビジョンの新境地
その狂乱の真っ只中で、MetaはSAM 3とSAM 3Dでフィールドを前進させました。SAM 3は、自然言語セグメンテーションを誰も公に達成していないレベルに引き上げます。動画を指して「座っている人を選択してください。ただし、赤い帽子をかぶっている人は除きます」と言えば、モデルはフレーム全体でそれをきれいに分離します。このような精度は、動画編集では常に悪夢でした。Metaはこれを直接Editsアプリに、そしてVibesプラットフォームに押し込んでいます。つまり、クリエイターは個々のマスクに触れることなく、ターゲットを絞った効果を適用できるということです。
これは1年以内に目に見えないものになるが、基本的な技術の一つです。SAM 3Dはまったく異なる方向に進み、単一の写真から完全な3Dオブジェクトを再構築します。そしてこれは単なる研究トリックではありません。Facebook Marketplace内のビューインルーム機能を支えており、買い物客はARを通じて自宅の中で家具を見ることができます。
Metaはモデルの重み、評価セット、コードをリリースしました。これは、コンピュータビジョンのオープンソース化に対して彼らがどれほど積極的であるかを示しています。彼らが実際のデザイナーと構築したアーティストオブジェクトデータセットは、評価基準も前進させています。RobFlowとのコラボレーションは、開発者がロボティクス、スポーツ医学、製造業、正確なオブジェクト理解に依存するほぼすべての産業向けにモデルを微調整できることを意味します。
Microsoft、Nvidia、Anthropicの巨大提携
それからMicrosoft、Nvidia、Anthropicは、単一の発表というよりは構造的な転換のように感じられるパートナーシップを発表しました。AnthropicはAzureコンピュートに約300億ドルをコミットし、最大1ギガワットまでの拡張の可能性があります。NvidiaはAnthropicに最大100億ドルを投資する計画です。Microsoftはさらに50億ドルを追加し、AnthropicはNvidiaのGrace Blackwellハードウェアと、Microsoft向けの新しいVera Rubinシステムを使用してClaudeをスケールできます。
これは、Claude Sonnet 4.5、Opus 4.1、Haiku 4.5がAzure AI FoundryとCopilotエコシステム全体に深く統合されることを意味します。Claudeは、すべての主要クラウドプラットフォームで同時に利用可能な唯一のフロンティアレベルのモデルになります。
同じイベントサイクルで、MicrosoftはWord、Excel、PowerPoint向けの新しいエージェントをリリースしました。これらのエージェントはCopilot Chat内に存在します。プロンプトを入力すると、エージェントが全体を構築します。レポート、スプレッドシート、プレゼンテーション、そして構造を調整するためのフォローアップの質問をします。チャットを通じて調整することも、直接ネイティブアプリに切り替えて編集を続けることもできます。
Outlookは、未読メールを音声で確認し、自然な声でアクションステップを提案するインタラクティブな音声モードを取得しました。Microsoft 365 Copilotライセンスを持つユーザーは、単一の指示を入力するだけで会議をスケジュールでき、Copilotが時間を見つけ、部屋を予約し、議題を作成し、招待状を送信します。
Copilotのクリエイト機能は、動画生成のためにOpenAIのSora 2にも接続されました。Microsoftは明らかに、スイート全体があなたと一緒に働くインテリジェントアシスタントのように振る舞うことを望んでいます。
Manusのブラウザオペレーター:ローカルアクセスの革新
それからManusが、AI自動化の最大の痛点の一つであるローカルアクセスを静かに解決する何かを披露しました。Manusはすでにエージェントタスク用のクラウドブラウザを持っていましたが、ブラウザオペレーターを使用すると、Manusはログイン済みのアカウントを使用して、実際のChromeまたはEdgeセッション内で制御されたアクションを実行できます。
つまり、CAPTCHAなし、疑わしいログインブロックなし、壊れた認証ループなしということです。CrunchBase、Pitchbook、Ahrefs、Semrush、FT、またはCRMにログインしている場合、Manusはその中で操作できます。リアルタイムで見ることができる専用のタブグループを開き、タブを閉じることで即座に停止できます。透明性のためにすべてがログに記録されます。
これは、サンドボックスではなく、実際のユーザー環境内で動作するAIアシスタントの最初の実例の一つです。
ヒューマノイドロボティクスの混沌とした一週間
しかし、今週の最もワイルドな部分はヒューマノイドロボティクスから来ました。MendonはUnitreeのG1が実際の家庭内で操作されているデモを公開し、それは演出されたものには見えませんでした。ロボットは部屋の中を流暢に移動し、カーテンをぎくしゃくすることなく開け、水をこぼすことなく植物の世話をし、毛布をたたみ、バランスの取れた姿勢でアイテムを運び、子供の近くを安全に歩きました。
それは振り付けされた小道具ではなく、ゼネラリストのように見えました。動きは完璧ではありませんでしたが、落ち着きと安定性により、家庭用ロボティクスが新しい段階に入っていることを示す最も明確な兆候の一つとなりました。
それからUnitreeはG1Dを紹介しました。これは産業スピード用に構築された車輪付きヒューマノイドです。高さは約125cmから168cmの間で、重量は最大80kg、差動車輪ベースで転がり、JetsonまたはNXを通じて約100トップスを押し出します。
手首カメラ、双眼ヘッドカメラ、7自由度アーム、6時間バッテリーを備えています。ロボットはタスクに応じてエンドエフェクターを交換でき、Unitreeはデータ収集、シミュレーション、展開のための完全なソフトウェアスイートをリリースしました。これはコンセプトではありませんでした。実際の生産ロボットです。
しかし、ロシアはより厳しい瞬間を迎えました。彼らの新しいヒューマノイドAIドールがモスクワでデビューし、数歩歩いて、ステージ上で倒れ、シェルの一部が壊れました。スタッフが急いでそれを引きずり去りました。動画は即座に至る所に広がりました。表情のためのシリコン顔面皮膚や6時間バッテリーなどのスペックは、その転倒の後では重要ではありませんでした。その瞬間がすべてを覆い隠しました。
一方、UBtechは巨大なマイルストーンを達成しました。数百台のWalker S2ユニットが実際の産業現場に出荷され、12月までに約500台に達する見込みです。注文は1億ドルを超えました。BYD、Geely、FAW、Volkswagen、Dongfeng、Foxconnなどの企業がそれらを物流と組立に統合しています。
自己交換バッテリーシステムは、ほとんどダウンタイムがないことを意味します。UBtechの収益は急上昇し、損失は縮小し、株価は急騰しました。アナリストは依然として買いと呼んでいます。
これは公開の確執につながりました。FigureのBrett Adcockは、一部のUBtechロボットは演出されているように見えると主張しました。Agility Roboticsは皮肉で飛び込みました。Adcockはエスカレートし、Agilityは1年以内に破産する可能性があると言いました。1X Roboticsは緊張を緩和しようとしました。Agilityはミームを投稿しました。Adcockはさらに投稿しました。全体が混沌とした業界の乱闘に変わりましたが、競争がどれほど激しくなっているかを浮き彫りにしました。
ベゾスの現場復帰:Project Prometheus
そしてベゾスは、62億ドルで資金提供された新しいスタートアップ、Project Prometheusで運営リーダーシップに戻りました。これは、エンジニアリングと製造、航空宇宙、コンピュータ、自動車向けのAIに焦点を当て、AI開発の物理的世界の側面に直接飛び込みます。ベゾスは2021年にAmazonを去って以来、CEO職に就いていないため、これは大きな復帰です。
彼のパートナーであるVic BajageはGoogle XとVerilyの出身です。そしてPrometheusは、言語だけでなく、物理実験と科学プロセスから学ぶAIシステムの構築を目指すPeriodic Labsのような企業の波に適合します。
さて、これが完全なアップデートです。ご視聴ありがとうございました。コメントを残して、チャンネル登録をしてください。次回またお会いしましょう。


コメント