イーロン・マスク率いるxAIが、1.5兆パラメータを持つ新モデル「Grok 5」のトレーニングを完了した。人気AIコーディングツール「Cursor」の膨大なデータを学習に活用し、エンジニアの思考プロセスを模倣する強力なプログラミング能力を備えている。一方、DeepSeekのシニア研究者は、AIエージェントを用いて99%の執筆を自動化した46ページに及ぶ学術論文を公開し、AIによる自律的な研究の可能性を示した。さらに、中国のアリババが開発した「Qwen 3.7 Max」が世界トップクラスのコーディング能力を発揮し、GPT-5.5やGemini 3.5 Flashを圧倒。世界のAI開発競争は熾烈な局面を迎えている。

イーロン・マスクが放つGrok 5の全貌とCursorデータの秘密
イーロン・マスクが、すでにトレーニングを完了したと思われる超巨大な1.5兆パラメータのモデル「Grok 5」のベールを脱ぎました。これはAIコーディング開発レースにおける、xAIのこれまでで最大の布石になる可能性があります。情報によると、xAIはCursorの膨大なプログラミングデータを使ってこのモデルをトレーニングしたとのことで、これはGrokが実際の開発者がどのようにソフトウェアを構築し、デバッグし、修正しているのかを現実のプロセスから学んでいることを意味します。
これと同時に、DeepSeekは99%がAIエージェントによって執筆された46ページの調査論文を公開しました。さらにアリババのQwen 3.7 Maxが突然、世界のトップクラスのコーディングモデルの仲間入りを果たし、GPT-5.5やGemini 3.5 Flashを打ち破っています。
まずは、最も人々の目を引くであろうマスク氏の話題から始めましょう。5月24日の深夜、イーロンは1.5兆のパラメータを持つGrok V9のトレーニングが完了したと発表しました。これは現在のモデルのちょうど3倍のサイズにあたります。そして、2〜3週間以内に一般公開される予定だと言います。
しかし、本当に興味深いのはここからです。ほぼ同時に、xAIがトレーニング中にCursorの膨大なプログラミングデータをモデルに投入していたことが明らかになりました。Cursorといえば、フォーチュン500企業の67%以上が使用している猛烈な人気を誇るAIコーディングツールです。2026年末までに年間ランニングレポニューが60億ドルに達すると予想されており、NVIDIAのジェンスン・フアン氏も、お気に入りの企業向けAIサービスとして公に名前を挙げています。
そのため、CursorのデータをGrokに投入することは、いわば解答用紙を見ながら試験の勉強をするようなものです。ただし、その試験とはプロのエンジニアが実際にどうコードを書くかということであり、解答用紙とは何百万もの現実世界でのインタラクションのことです。
これがなぜこれほど強力なのかというと、私たちが話しているのは基本的な構文レベルのことではないからです。現在の言語モデルは、すでに正しそうに見えるコードを吐き出すことはできます。本当に難しいのは、複雑なエンジニアリングロジックを理解し、複数のファイルにまたがるコードベースを扱い、現実的なワークフローの中でデバッグし、人間と効果的に共同作業を行うことです。Cursorは、開発者が使用するプロンプト、コードの変更方法、デバッグのセッション、複数ファイルでの共同作業パターンなど、そのすべてのデータを保持しています。これこそが、単にコードを書くだけでなく、人間と同じようにソフトウェアをエンジニアリングするAIを作るために必要な、まさにうってつけのトレーニングデータなのです。
ある人がGrokに直接、Cursorのデータに何が含まれているのかを尋ねたところ、開発者のプロンプト、コードのコンテキスト、編集操作、タスクの完了記録など、高品質でリアルなプログラミングのインタラクションが含まれていると答えました。つまり、シニア開発者が実際にどのように働いているかを見せることで、Grokにシニア開発者のように考えることを教えているわけです。
また、5000億パラメータを持つ現在のV8 smallモデルも、年末までにオープンソース化される予定です。これは非常に興味深い動きです。xAIが両面作戦を展開しようとしていることを示しているからです。つまり、最先端の技術はクローズドに保ちつつ、オープンソースコミュニティでの信頼や好意を築こうとしているのです。
SpaceXによる巨額買収と市場での位置付け
ここで、マスク氏が単にGrokを賢くしようとしているだけではないことに気づくはずです。4月21日、SpaceXは現在最も重要なAIコーディングツールの1つであるCursorを巡り、60億ドル規模の動きを見せました。彼らはCursorの買収オプションを獲得したのです。もし年末までにその権利を行使しなかったとしても、10億ドルの提携手数料を支払うことになっています。マスク氏がAIプログラミング分野をどれほど重視しているかが分かります。
ステップ1、資金力でCursorを囲い込む。ステップ2、彼らのデータを自社のモデルに投入する。ステップ3、5月14日に「Grok Build」と呼ばれる独自のプログラミングエージェントを立ち上げる。
このGrok Buildは実に興味深いものです。コマンドライン上で動作するターミナルレベルのAIプログラミングエージェントで、コード生成、ファイル編集、依存関係の管理、シェルコマンドの実行をサポートしています。最大のセールスポイントは、最大8つのサブエージェントの並列稼働をサポートしている点です。彼らは超ヘビーなGrokサブスクリプションとして月額300ドルを請求していますが、最初の6ヶ月間は99ドルのプロモーション価格が適用されます。
さらに驚くべきことに、Grok BuildはClaude Codeが使用している設定ファイルのフォーマットとネイティブな互換性を持っています。xAIは、競合他社のエコシステムとの互換性を製品に直接組み込んでいるのです。これは実用的であると同時に、彼らが市場でどのような立ち位置にいるかを物語っています。
現実を直視すれば、Grokは後れを取っています。AIのプログラミング能力を測定するために開発者が本当に重視しているSWE-bench Verifiedのベンチマークにおいて、GPT-5.5は88.7%に達しています。Claude Opus 4.6は80.8%で、Grok 4シリーズは72%から75%あたりにとどまっています。
企業への導入実績という点でも、2026年3月の時点で、OpenAIは55%の企業ユーザーを抱えています。Anthropicは1年前の20%から47%へと急上昇しました。Googleは39%で、Grokはわずか6%にとどまっています。ですから、パラメータを3倍にしてCursorのデータを追加することは、質的な変化をもたらすかもしれませんが、マスク氏が巻き返さなければならない差はまだまだ大きいのです。
これらすべてのタイミングも非常に意図的です。SpaceXは6月12日にNASDAQへの上場を控えており、目標時価総額は1.75兆ドルと、実現すれば史上最大のIPOとなります。60億ドルのCursor買収はIPO後30日以内に完了する見込みで、Grok V9 Mediumの一般公開はIPOの直前にスケジュールされています。
しかし、6月に動いているのはマスク氏だけではありません。OpenAIのGPT-5.6がCodexのバックグラウンドにリークされ、150万トークンのコンテキストウィンドウのテストに成功したことが分かっています。PolyMarketの予測では、6月末までにリリースされる確率が85%を超えています。AnthropicのClaude Opus 4.8はGoogle Vertexのバックグラウンドに姿を現しました。GoogleのGemini 3.5 Proも6月に予定されています。4つの主要な研究所が同じ月に真っ向から衝突するのです。この6月は絶対に容赦のない戦いになるでしょう。
こうした状況の中で、法的な問題も浮上しています。ブルームバーグの報道によると、xAIの法務総顧問は先週、技術的パートナーシップの実施に必要な範囲を除き、Cursorのスタッフとの交流を制限するよう従業員に求めるガイドラインを送信しました。これは買収交渉が公になった際の一般的な手続きです。反トラスト法により、合併当事者は取引が承認される前に資産を混同したり、共同でビジネス上の決定を下したりすることが禁止されています。
このパートナーシップは4月21日に発表され、CursorはxAIのColossusインフラを活用してモデルの知性を劇的にスケールアップさせることについて投稿していました。彼らはコンピューティング資源がボトルネックになっていたが、この提携によってそれが解決されると述べていました。そのため、現在は技術的に協力しつつも、規制当局が買収を承認するまでは法的に壁を維持しなければならないという、慎重なダンスを踊っている状態です。
DeepSeek研究者が示すAIエージェントによる論文執筆の衝撃
さて、ここからは絶対に目が離せない魅力的な部分、デリ・チェン氏の論文についてです。ここで物事は最高にメタな展開を迎えます。
デリ・チェン氏はDeepSeekのシニア研究者であり、Nature誌の表紙を飾ったDeepSeek V1、V2、V3、V4、DeepSeek R1、さらにはDeepSeek CoderやDeepSeekのアーキテクチャへの主要な貢献者の一人です。彼はこの分野の紛れもない重要人物であり、そんな彼が「コパイロットから同僚へ:自律的研究エージェントの調査」と題した46ページの調査論文を執筆し、その中で約1%が自身によって書かれ、99%は彼が開発した「Delhi Auto Research Skill」という自律的研究エージェントフレームワークによって書かれたことを公然と認めました。
この統計データは少々異常です。論文は計6回の反復プロセスを経て完成しました。V1に4回、V2に1回、V3に1回です。最初の草案にかかった時間はわずか76分でした。費やした総時間は、約108ラウンドのエージェント間のやり取りを含めて6日間で、約64万8000トークンを消費し、2234行のLaTeXを生成しました。103の参考文献はすべて検証済みです。論文には7つの図と4つの表が含まれ、ファイルサイズ538KBで計46ページに及びます。
そしてデリ・チェン氏は、彼自身が思考に費やした実際のCPU時間は2時間未満だったと語っています。彼の見解によれば、コードエージェントはコンピュータサイエンスの論文において凄まじいインフレを引き起こしています。かつては少なくとも1ヶ月はかかっていた作業が、今では数日で終わるようになっているのです。共同執筆者としてリストされている2つの名前は、テキストを担当したDeepSeek V4 Proと、画像を担当したGPT Image 2です。
人間がAIを使って、科学的研究を行うAIについての包括的なレビューを書く。その皮肉は誰の目にも明らかであり、それこそがポイントなのです。この論文自体が、まさに自らが記述している内容のデモンストレーションであり、分析でもあるわけです。
とはいえ、この論文自体は非常に価値のあるものです。自動運転車の分類方法と同じように、研究エージェントのための5段階の自律性タクソノミー(分類法)を提案しています。
レベル1は、GitHub Copilotのようなオートコンプリート(自動補完)の段階です。人間がすべてのステップを主導し、エージェントは補完を提案するだけです。これらのシステムは生産性を30%から55%向上させますが、自律性はありません。
レベル2はタスクの実行です。人間がタスクを指定し、それぞれの行動を承認します。ツールを備えたChatGPTやClaudeのチャットをイメージしてください。
レベル3は、チェックポイントを伴う複数ステップの操作です。エージェントが目標を設定し、特定の停止ポイントで人間がレビューします。Claude CodeやCursorのエージェントがここに位置します。
レベル4は、限定された領域内での完全な自律性です。人間は目標を提供し、最終的な出力を評価します。Devon、AI Scientist、SWE-agentなどがここで動作しています。
レベル5は自己主導型の研究です。人間は研究領域を設定するだけで、エージェントが自ら問題を選択します。これはまだほとんど仮説の段階です。
また、論文では4つの主要なアーキテクチャパターンを特定しています。
シングルエージェントループは最も単純なものです。計画、行動、観察、熟考をサイクルで繰り返します。
マルチエージェントコラボレーションは、異なる役割を持つ複数のエージェントが互いにレビューし、補完し合います。
階層的オーケストレーションは、スーパーバイザー(監督)エージェントがタスクを分解し、ワーカーエージェントに委任します。
ツール拡張実行は、コード実行環境、ウェブブラウザ、データベースクエリ、さらにはロボット実験機器などの外部ツールへのアクセスをエージェントに与えます。最も強力なシステムは、複数のパターンを組み合わせています。
本当に誠実な点として、この論文では未だ解決されていない6つの根本的な問題を特定しています。
1つ目はコグニティブループ(認知ループ)の罠です。エージェントが失敗を認識できず、失敗した戦略を繰り返し実行して抜け出せなくなる現象です。AutoGPTはこれで悪名高く、無限ループに陥ることが最も一般的な問題です。
2つ目はコンテキストウィンドウの制限です。長い研究セッションは10万トークン以上を生成することがあり、初期の情報が失われてしまいます。
3つ目は新規性の評価です。AIが生成した研究が実際に斬新であるかどうかをどう判断するかという問題です。引用の予測は社会的要因に影響されますし、意味的な類似性では、斬新なものと単に難解で知られていないだけのものを区別できません。
4つ目は再現性です。ゼロではない温度設定での言語モデルの推論は、実行ごとに異なる出力を生成し、エージェントの行動はプロンプトのわずかなバリエーションに非常に敏感です。
5つ目は安全性と倫理です。研究エージェントを価値あるものにするその能力は、同時にデュアルユース(軍民両用などの悪用)のリスクも生み出します。
6つ目はコストとアクセシビリティです。1つのSWE(ソフトウェアエンジニアリング)課題の解決には、APIコールで5ドルから50ドルのコストがかかることがあり、これが経済的な障壁となっています。
この論文は95以上の論文を調査し、6次元の機能マトリクスにわたって17の主要なシステムを分析しました。結論は極めて明確です。現在の最先端システムはL4、つまり限定された領域内での複数ステップの自律実行レベルで動作しており、L5は依然として目指すべき理想にとどまっています。L5への最も重要な障壁は純粋な能力ではなく、セッションをまたいだ持続的な知識の蓄積、人間の監視なしでの信頼できる自己評価、そして複雑さが増しても破綻しないエージェントアーキテクチャの原則的なスケーリングです。
アリババQwen 3.7 Maxが巻き起こす破壊的旋風
プログラミング能力といえば、Qwen 3.7 Maxに何が起きたのかを話さなければなりません。
Code Arenaのリーダーボードが発表され、Qwen 3.7 Maxは1541点を獲得して世界第4位にランクインしました。これにより、GPT-5.5やGemini 3.5 Flashを上回ることになります。これより上にいるのはClaude Opus 4.7とOpus 4.6だけです。中国のモデルがプログラミングでこの位置に達したのはこれが初めてのことです。アリババは現在、世界トップ5に入る唯一の中国メーカーであり、上位の中でClaude以外の唯一のモデルとなっています。
公式リーダーボードの前から、開発者たちはすでにテストを行っていました。ある比較テストでは、Opus 4.7、GPT-5.5、そしてQwen 3.7 Maxに、自己学習型のテトリスAIを書かせました。Qwen 3.7 Maxは両方の競合を打ち負かしただけでなく、パフォーマンスを56%向上させながら、わずか1.32ドルのトークンコストでそれをやってのけました。
別の開発者はこれを使って宇宙の3Dモデルを構築し、その結果は素晴らしいものでした。3Dピクセルスタイルのミニチュアの五重塔モデルを生成した際、Qwen 3.7 Maxは出力速度と品質の両方で他を圧倒しました。
さらに実用的なテストとして、別の開発者がQwen 3.7 Maxにレーシングゲームを作成するプロンプトを与えたところ、率直に言って非常に見事な結果が得られました。プレイ可能なHTMLファイルが生成されたのです。
最初のバージョンでは、左右のステアリングキーが逆になっているという小さなバグが1つありましたが、修正のための簡単なフィードバックを1回行っただけで、全体が正常に動作しました。最終的な成果物には、4台の車、3周の周回コース、100枚以上の散らばった金貨、衝突すると車が減速する障害物、そしてレース後の順位、ラップタイム、獲得した金貨の数、ファステストラップが表示されるリザルトパネルまで備わっていました。
しかし、特に際立っていたディテールが2つあります。1つ目は、Qwen 3.7 Maxが適切なスタートページを作成したことです。実際にレースを始めるには「スタート」をクリックする必要がありました。テストされた他の3つのモデルは、タイトル画面なしで即座に実行が開始されてしまいました。2つ目は、元のプロンプトがエンジンの効果音と金貨を回収する際の効果音も求めていたことです。これはプロンプトの最後にある、おまけのような要求でした。それにもかかわらず、Qwen 3.7 Maxは実際にそれを実装した唯一のモデルだったのです。
比較すると、Gemini 3.5 Flashは視覚的な品質が著しく低く、ダッシュボードの情報が4つのコーナーすべてに散らばったUIになっており、集中しにくいものでした。Claude Opus 4.6は金貨の数が非常に少なく、3台のAIカーがまるでコピペされたかのようにほぼ完璧にシンクロして走っていました。GPT-5.5はグラフィックスがより優れており、動作もスムーズでしたが、なぜか金貨が黄色いドーナツのように見え、これら他すべてのモデルはすべてが正常に動作するまでに複数回のデバッグを必要としました。最初の生成だけで基本的にプレイ可能だったのは、Qwen 3.7 Maxだけでした。
Qwen 3.7 Maxがプログラミングにおいてこれほど優れたパフォーマンスを発揮する理由は、実はその設計思想に組み込まれています。アリババはこれを、長期的な自律タスク実行のために特別に設計された「エージェント基盤モデル」として位置づけました。社内のテストデータによると、自律プログラミングタスクにおいて1158回のツールコールを実行しながら、35時間連続で稼働したとのことです。生成されたコードは、Tritonの参照実装と比較して2倍の幾何平均加速を達成しました。
30時間の推論を経た後でも、モデルは鋭さを維持し、コンテキストの劣化ゼロ、指示のドリフト(逸脱)ゼロ、無限ループゼロで、新しい最適化の機会を発見し続けました。最後の部分は極めて重要です。なぜなら、特にMCPのようなプロトコルが登場した今、ツールを1000回呼び出すことはもはやそれほど珍しいことではないからです。
本当の課題は、目標を見失ったり、以前の決定を忘れたり、同じ失敗ループに囚われたりすることなく、35時間もの間一貫性を保ち続けることです。ほとんどのモデルは、それほど長いタスクになると崩壊し始めます。ですから、Qwen 3.7 Maxがこれほど多くの時間にわたって文脈を維持し続けたことは、重大なシグナルです。
そのトレーニング方法が理由を説明してくれるかもしれません。Qwen 3.7 Maxは「環境拡張」を用いてトレーニングされたと報告されています。これは、同じプログラミングタスクを、Claude CodeやOpenHandsなどの異なる実行フレームワークや検証方法にわたってテストする手法です。そのため、1つの特定のセットアップのための近道を学ぶ代わりに、モデルは一般的な問題解決パターンを学ぶことを強制されます。それこそが、自社のエコシステム内だけでなく、異なるエージェントフレームワークにわたっても優れたパフォーマンスを発揮できる理由なのかもしれません。
それでは、皆さんの考えをコメント欄で教えてください。さらなるAIの最新情報のためにチャンネル登録をお願いします。動画を楽しんでいただけたら、高評価ボタンを押してくださいね。ご視聴ありがとうございました。また次回の動画でお会いしましょう。


コメント