AIロボット開発競争が本格化している。Metaは独自のヒューマノイドロボット開発を発表し、Androidのようなソフトウェアプラットフォームとしてのポジションを目指している。一方、Elon MuskはOptimus 3の開発に注力し、垂直統合型のアプローチで供給チェーンから製造まで全てを自社で構築する戦略を取る。Googleは推論機能を搭載したGemini Roboticsを発表し、ウェブ検索をしながら現実世界で動作するロボットを実現した。さらにxAIのGrok 4 fastは200万トークンのコンテキストウィンドウを実現し、OpenAIはChatGPT Pulseという個人向けAIアシスタント機能やGPT-valという実務能力評価ベンチマークを発表した。AnthropicはClaude 4.5 Sonnetをリリースし、コーディング分野で最高性能を達成している。これらの動きは、AIが専門家レベルの実務タスクをこなせる時代が目前に迫っていることを示している。

AIロボット開発競争が幕を開ける
AIロボット競争が始まりました。Metaは現在、独自のヒューマノイドロボットを開発する計画を正式に発表しています。Elon Muskは、Optimus 3に今最も頭脳を注いでいると語っています。そしてGoogleは、実際にウェブを検索し、現実世界で人間と対話できるロボティクスモデルを発表したばかりです。詳しく見ていきましょう。
さて、この記事が述べているように、Metaはヒューマノイドロボットのバックボーンになりたいと考えています。特にソフトウェアのバックボーンです。Metaの最高技術責任者であるAndrew Bosworthは、Meta自身がハードウェアメーカーになることには関心がなく、むしろ他のメーカーにソフトウェアをライセンス供与することに注力したいと述べています。
つまり基本的に、GoogleのAndroidがほとんど誰もGoogle Pixelを実際には所有していないにもかかわらず、世界のスマートフォンの大部分を動かしているのと同じように、MetaはヒューマノイドロボットのAndroidになりたいのです。Bosworthはこれを、MetaのARに次ぐ規模の賭けとさえ呼んでいます。背景として、Metaは拡張現実および仮想現実ポートフォリオへの累積投資として1000億ドル以上を投じたと考えられており、これには新しくリリースされたMeta Ray-Banディスプレイなどのプロジェクトが含まれています。
彼はまた、新しい超知能AIラボがすでにロボティクスチームと協力して、器用な手を動かすために必要なソフトウェアシミュレーションを実行できる、いわゆるワールドモデルに取り組んでいることを述べました。ですから、これは野心的なものです。記事では、Metaが実際にサードパーティのロボットを動かせるようになるまでにはまだ数年かかるだろうと指摘していますが、これは間違いなくロボット競争の舞台を整えています。
主要なプレーヤーが全員参入しました。そして主要なプレーヤーといえば、Googleは次世代の物理的エージェントを動かすために構築された新しいモデルファミリー、Gemini Robotics ER 1.5を発表したばかりです。これは推論モデルとロボットの融合のようなものです。これらは今や長時間考えることができ、画面上でご覧いただけるように、これらの果物を分類するなどの、より複雑なタスクを実際に実行できます。
これらの新しいモデルは、ロボットグリッパーアームから洗濯物をたたむ完全なヒューマノイドロボットボディまで、さまざまな形態を動かすこともできます。そして冒頭で述べたように、Gemini Roboticsは実際に推論モデルのようにウェブを検索し、その知識を現実世界の行動に変換することができます。最もクールなデモの1つは、ロボットがゴミをコンポストビンに分類するよう求められるものでした。
しかし、コンポスト化のルールは住んでいる場所によって異なります。そこでロボットは実際にオンラインで地元の市の規制を調べ、その情報を使ってどのアイテムがコンポストに入るか、リサイクルやゴミに入るかを決定しました。これはかなり大きなことです。なぜなら、単にハードコードされたルールに従っているだけではないからです。実際にあなたが住んでいる状況について推論し、その知識を人間がするのと同じように物理世界に適用しているのです。
さて、Googleがロボットをより賢く適応性の高いものにすることに焦点を当てている一方で、Elon Muskはそれらをスケーラブルにすることに夢中になっています。彼は最近、Optimus 3が今彼の頭脳の大部分が向けられている場所だと述べました。そして彼の大きな焦点は、単に有能なロボットを構築することだけではなく、垂直統合にあります。これをご覧ください。
私たちはOptimus version 3の設計を最終段階に入れています。これは本当に非常に驚くべきロボットになるでしょう。基本的に人間の手先の器用さを持つことになります。つまり、非常に複雑な手、現実をナビゲートして理解できるAIの頭脳、そして非常に大量に製造されることになります。これらが欠けている3つのことです。
他のロボティクス企業を見れば、これらの3つのことが欠けています。これらが本当に難しい3つのことなのです。実際、現時点では他のどんなこと、他のどんな単一のことよりも、Optimusに多くの精神的サイクルを費やしています。それは現実世界のAIのために解決すること、Optimusのすべての電気機械的問題、そのサプライチェーンと生産の課題を解決することです。なぜなら、ヒューマノイドロボット用のサプライチェーンは存在しないからです。
だから、私たちはそれをゼロから再構築しなければなりません。それには多くの垂直統合を行う必要があります。そうですね、これが私がxAIが本当に優位性を持っていると考える点です。Teslaは単にロボットを構築しているだけでなく、その周りの全サプライチェーンを構築しているという事実です。ソフトウェア、チップ、工場、データ、すべてが一つ屋根の下にあります。
真の垂直統合です。そしてもちろん、これらのヒューマノイド用のAIの頭脳は、おそらくxAIのモデルから直接来ることになるでしょう。これが次のニュースにつながります。Grok 4 fastに200万トークンのコンテキストウィンドウが搭載されました。これはClaude、Gemini、Metaのサイズの2倍で、GPT-5の5倍のサイズです。これは基本的に、問題なくモデルに全体のコードベースを入力できることを意味します。または約150万語に相当し、これは数十冊の本のようなものです。
さて、他のAIニュースでは、OpenAIが今週、選ばれたProユーザーのみが利用できるChatGPT Pulseという新製品を静かにロールアウトしました。Pulseは基本的に、ChatGPTが積極的に日々のアップデートを配信する新しい方法です。過去のチャット、フィードバック、さらにはカレンダーなどの接続されたアプリから情報を引き出し、それらすべての情報をパーソナライズされたフィードにまとめます。
これは、あなたが眠っている間にChatGPTがバックグラウンドで働き、あなたが知りたいと思うであろうことを集めて、特定の時間に提示するようなものだと考えてください。まるであなたのためだけにカスタマイズされたAIの朝のブリーフィングのようです。私はProユーザーではないので、まだアクセスできませんが、これは新しいコンテンツの消費方法の始まりのように感じます。
ウェブを閲覧したり、ソーシャルメディアを延々とスクロールしたりする代わりに、ChatGPTにキュレーションしてもらうだけでいいのです。そして時間が経つにつれて、それはあなたの好みを学習します。まるでTikTokのおすすめページのようですが、実際にあなたの人生を知っているAIによって動かされています。そして今、OpenAIが静かに倍増している話ですが、彼らはGPT-valという新しいベンチマークを立ち上げたばかりです。これは、モデルが現実世界の経済的に価値のあるタスクでどのように実行するかを測定することを意図した新しいベンチマークです。
学術テストとは異なり、GPT-valは44の実際の職業をカバーしています。ソフトウェアエンジニアリングから法律業務、医療まで、すべてが含まれており、モデルに法的書面、スライドデッキ、エンジニアリング計画などの実際の作業成果物を提供するよう挑戦します。目標は、AI評価をおもちゃのプロンプトから、実際にお金を稼ぐタスクへと押し進めることです。
そして結果はかなり驚くべきものです。業界の専門家に対するブラインドのペアワイズ比較では、Claude Opus 4.1が人間レベルのパリティに最も近づき、GPT-5 highがそれほど遠くありませんでした。OpenAIのo3とo4モデルも強い進歩を示しましたが、GPT-4oのような他のモデルは12%強と大きく遅れを取っています。Claude Opus 4.1のスコアはここでは実際に驚異的で、OpenAIが自分たちのベンチマークで負けたにもかかわらずこれを公開したことは正直驚きです。
さらに興味深いのはトレンドラインです。モデルのパフォーマンスは時間とともにほぼ線形にスケーリングしています。o3、GPT、Claude Opusという各新世代は、人間の専門家との50%パリティラインにどんどん近づいています。そしてこれが続けば、次の波のモデルは実際にこれらのタスクのいくつかで業界の専門家を上回る可能性があります。わずか数年で、LLMが存在すらしていなかったところから、LLMが現実世界のタスクで専門家である人間を置き換えるところまで来ています。かなり驚異的です。
これは間違いなく今後注目すべきベンチマークです。そして今、速報があります。私がこのビデオを作っていた時に、Anthropicは実際にClaude 4.5 Sonnetをリリースしました。彼らが世界最高のコーディングモデルと呼んでいるものです。これは複雑なエージェントを構築するための最強のモデルです。コンピュータを使用するための最高のモデルで、推論と数学のテストで大幅な向上を示しています。
こちらがベンチマークのスコアです。ご覧のとおり、彼らが述べたように、特にエージェント型とコーディングタスクで優れたパフォーマンスを発揮しています。そして最も注目すべきは、SWE-bench Verifiedで82%のスコアを達成したことで、これは実際に驚異的です。私たちの最高のコーディングベンチマークはもうすぐ飽和状態になろうとしています。彼らはまた、Claude Codeに新鮮な新しいルックを与え、新しいチェックポイント機能を追加しました。
そしてこの部分は驚きです。彼らはImagine with Claudeと呼ばれる一時的な研究プレビューを立ち上げました。そこではモデルが文字通りその場でソフトウェアを生成します。事前に決められた関数も、事前に書かれたコードもありません。これはMaxユーザー向けにわずか5日間のみ公開されています。ですから、アクセスできる方は、ぜひ試してみてください。さて、このリリースに関してはだいたいこれですべてです。
価格設定はSonnet 4と同じままです。しかしこれらのベンチマークに基づくと、これは現時点で最強のオールラウンドモデルかもしれません。ただし、コミュニティがどのように反応するかを見る必要があります。そしてもしすでに試された方がいれば、ぜひ下のコメント欄であなたの意見を聞かせてください。最後に、今週のAI総括をまとめるために、OpenAIの研究者Sebastian Bubeckによるこの投稿がAIコミュニティで大きな話題になりました。
彼はこう書いています。「かなり大きなシフトが起こっているというさらなる証拠。今回はScott Aronsonによるもの。」Scott Aronsonは、世界で最も尊敬されている理論計算機科学者の一人であり、OpenAIのアドバイザーですが、GPTが実際に深刻な数学の問題を解決するのを手伝ったことを共有しました。さて、私はこの数学の問題が何なのかを理解しているふりをするつもりはありませんが、私が理解できる限り、彼はGPT-5に超難しい数学の問題を解くように頼みました。
それは失敗しました。そして諦める代わりに、彼はGPT-5が大学院生に対してそうするように、段階的に推論を洗練させるのを手伝いました。30分以内に、それは実際に機能する巧妙な構成を彼に与えました。彼は、もし人間の学生がこれを思いついたら称賛しただろうと認めているものです。Aronsonはこれを最も典型的に人間的な知的活動と呼んでいます。数学と複雑性理論における新しい結果を証明することです。
そして私たちは今、GPT-5からこれを何度も見てきました。ですから、皆さんはどうかわかりませんが、私たちは何か巨大なものの瀬戸際にいるように感じます。あちこちで新しい小さな発見が見られ始めていますが、今すぐにでも何か巨大なもの、前例のないものが来ると期待しています。とにかく、今週のニュースは以上でした。
この内容を楽しんでいただけたら幸いです。もしそうなら、ぜひ動画に「いいね」をして、新しい方はチャンネル登録してください。そしていつものように、次回またお会いしましょう。


コメント