OpenAIの新型GPT-5.3がAnthropicに衝撃を与えるもOpus 4.6が反撃(AI戦争が爆発)

AI競争
この記事は約13分で読めます。

OpenAIとAnthropicが同日に主要なコーディングモデルをリリースし、AI開発競争が新たな局面を迎えた。OpenAIのGPT-5.3 Codexは25%の高速化とターミナル作業での大幅な性能向上を実現し、Anthropicは100万トークンの超長文コンテキストを持つClaude Opus 4.6で対抗した。両社とも単なるコード生成から、計画立案、ツール使用、反復実行を行う本格的なエージェント型開発へとシフトしている。エンタープライズ市場では導入が急拡大し、平均支出額は700万ドルに達した一方で、AI自動化への懸念からソフトウェア株が2850億ドル下落するなど、市場への影響も顕在化している。OpenAIはサイバーセキュリティ能力で高評価を獲得し、AnthropicはMicrosoft PowerPointへの統合を進めるなど、技術進化と市場拡大が同時並行で加速している状況である。

OpenAI's New GPT 5.3 Shocks Anthropic As Opus 4.6 Strikes Back (AI War Explodes)
AI coding just entered a new phase of competition. In the same week, OpenAI unveiled GPT-5.3-Codex, a faster, more capab...

AI開発競争が同日対決へ

OpenAIとAnthropicが、まさに同じ日に主要な新型コーディングモデルを発表しました。これは、競争がリアルタイムで激化していることを実感できる瞬間の一つです。両社とも、AIが単に関数を書いて終わるのではなく、本格的なエージェント型のソフトウェア開発へと強く舵を切っています。計画を立て、ツールを使い、コマンドを実行し、結果を確認し、実際のデジタルチームメイトのように長時間のタスクをこなし続けるのです。

まずOpenAIから見ていきましょう。彼らはGPT-5.3 Codexと呼ばれるものを発表しました。このモデルは明らかに、一日中コードエディタやターミナル、開発環境の中で過ごす人々のために作られています。OpenAIによれば、このバージョンはCodexユーザーにとって約25%高速に動作します。

この速度向上は、エージェントワークフローにおいて非常に重要です。なぜなら、モデルは単にテキストを生成しているだけでなく、手順を考え、ツールを実行し、反復処理を行っているからです。ループが速ければ、複数ステップのタスクを実行している間の待ち時間が減ります。GPT-5.3 Codexは、Codexが存在する有料ChatGPTプランすべてで既に利用可能です。Codexアプリ内、CLI経由、IDE拡張機能、そしてウェブ上で使えます。

API アクセスは、追加の安全管理が完了した後に提供される予定です。これは、OpenAIがこれを高性能モデルと見なしており、もう少し慎重な展開が必要だと考えていることをすぐに示しています。このモデルは、ツールを使い、システムと対話し、単一の応答で止まるのではなく問題を解決し続けることができる、より長い複数ステップのタスクを処理するよう設計されています。

コンピュータを操作し、外部ツールを使用し、タスクを最初から最後まで完了できます。Codexアプリ内では、作業中に頻繁に進捗状況を更新します。つまり、一つの大きな最終出力を待つのではなく、プロセスの途中で介入し、質問をし、アプローチを変更し、基本的に解決策がまだ展開中のうちにそれを導くことができるのです。アプリにはこのための設定さえあり、フォローアップ動作と呼ばれるもので、より積極的な誘導を可能にします。

これは、OpenAIがこれを単発のジェネレーターではなく、協働的なエージェントであるという考えに傾いていることを示しています。

ベンチマーク性能の詳細

では、数字を見ていきましょう。OpenAIは、実際の多言語ソフトウェアエンジニアリングの問題解決を測定するSWE-benchの完全なベンチマーク表を公開しました。GPT-5.3 Codexは56.8%を記録しました。GPT-5.2 Codexは56.4%で、GPT-5.2は55.6%でした。差は小さく見えます。

しかし、これらのベンチマークでは、1ポイントの動きでさえ、実際のバグ修正やパッチで顕著に優れた結果につながることがあります。差がより明確になるのは、Terminal Bench 2.0です。これは、コーディングエージェントが必要とするターミナルスキルに焦点を当てています。ディレクトリのナビゲート、コマンドの連鎖、出力の処理、CLIツールの使用などです。GPT-5.3 Codexは77.3%を記録しました。

GPT-5.2 Codexは64.0%で、GPT-5.2は62.2%でした。これは深刻な飛躍であり、このモデルが実際にターミナル型のワークフローで機能し、物事を進め続けるように訓練されているというOpenAIの全体的な主張と一致しています。次にOSWorld Verifiedがあります。これは視覚を使用したデスクトップ環境でのコンピュータ使用性能を測定します。

GPT-5.3 Codexは64.7%を記録し、GPT-5.2 Codexは38.2%、GPT-5.2は37.9%でした。OpenAIは人間の参照値も含めました。人間はOSWorld Verifiedで平均約72%です。つまり、GPT-5.3 Codexは、基本的なデスクトップタスク完了において人間レベルの性能にかなり近づいているモデルとして位置づけられています。経済的に価値のある知識労働については、OpenAIは新モデルがGPQA-val で70.9%の勝率または引き分け率を示したと述べています。

サイバーセキュリティのキャプチャーザフラグでは、77.6%を記録し、GPT-5.2 Codexの67.4%、GPT-5.2の67.7%と比較されました。OpenAIは、これらすべての評価がエクストラハイ推論努力で実行されたと述べています。したがって、これらのスコアは、より高度な推論モードでのモデルを反映しています。この強力なサイバー性能のため、OpenAIはGPT-5.3 Codexを、準備フレームワークの下でサイバーセキュリティタスクに対して高性能とラベル付けされた最初のモデルとして分類しました。

この分類により、追加の安全対策と段階的アクセス制御が発動します。彼らはまた、リリースと並行してサイバー向けの信頼アクセスパイロットプログラムを発表しました。これは基本的に、セキュリティ専門家がこれらの高性能モデルを責任を持って使用するためのゲート付きチャネルです。

Higs Fieldの紹介

さて、コーディングの話から少し離れますが、これはAI動画に興味がある人にとって実際に大きな話です。Higs FieldがCling 3.0アクセスを彼らのプラットフォーム内で直接展開し、最も先進的なAI動画エンジンの一つを完全な制作スタイルのワークフローに直接持ち込みました。そして、彼らは今日の動画のスポンサーでもあります。

Higs Field全般は、クリエイター第一のAI制作ハブとして構築されています。サイトにアクセスすると、すべてが実際のワークフローのように構造化されており、単なるプロンプトボックスではありません。一つのパイプライン内で、コンセプトから完成動画まで進めることができます。そのパイプライン内では、多くのモデルを利用できます。基本的に、最高かつ最新のものです。

そして最新の追加がCling 3.0です。これは現時点で最も先進的なAI動画エンジンの一つです。完全に統合されているので、ツール間を行き来する必要はありません。Cling 3.0はネイティブマルチモーダルシステム上で動作します。つまり、スクリプト、画像、参照、オーディオがすべて一つのモデルで連携します。単一の実行で複数ショット生成をサポートしているため、シーンが自動カメラトランジションで自然に流れます。

また、リップシンク付きのネイティブ対話、強力なキャラクターとオブジェクトの一貫性、看板や字幕のためのクリーンなテキストレンダリング、そして1回の生成あたり最大15秒の連続動画を得られます。AI映像制作に真剣に取り組んでいるなら、Higs Fieldは間違いなく試す価値があります。リンクは説明欄にあります。

OpenAIの内部活用と技術基盤

さて、OpenAIに戻りましょう。OpenAIの発表で最も興味深い部分の一つは、モデルが内部でどのように使用されたかです。彼らは、新モデルの初期バージョンが、自身のトレーニング実行のデバッグを支援し、デプロイメントをサポートし、評価結果を診断し、トラフィックの変化に応じてハーネスの適応やGPUクラスタのスケーリングなどの運用タスクを支援したと述べています。

つまり、モデルは最終的な製品であるだけでなく、それ自体を構築し出荷するのを助けたエンジニアリングツールチェーンの一部だったのです。ハードウェア面では、OpenAIはGPT-5.3 CodexがNVIDIAのGB200 NVL72システムと共同設計され、それでトレーニングされ、それで提供されていると述べました。この種の詳細は、モデル設計と最先端のGPUインフラストラクチャがいかに密接に結びついているかを示しています。

製品面では、このモデルの発表は、OpenAIがわずか数日前に展開した新しいCodexデスクトップアプリにもつながっています。このアプリは、短い会話だけでなく、長期間にわたって複数のAIエージェントを管理するために構築されています。コードを使用して情報を収集し分析できます。OpenAIは、先月100万人以上の開発者がCodexを使用したと述べています。

これらすべてが明確な絵を描いています。OpenAIは、Codexと新モデルを日常的な開発ワークフロー、特に長いエージェント型タスクの中心的なツールにしたいと考えています。サム・アルトマンは、これらのシステムについて非常にブランドらしいセリフを言いました。モデルはドーパミンが尽きない。試し続ける。モチベーションが尽きないのだと。

ここでのポイントは、AIエージェントが疲労なしに試行と再試行を繰り返し続けられるということで、これはデバッグ、リファクタリング、長い複数ステップのコーディング作業に完璧に適合します。これがOpenAI側の発表内容です。より速いエージェントループ、より強力なターミナル性能、はるかに高いデスクトップコンピュータ使用スコア、トレーニングとデプロイメントのための内部使用、そして追加の管理を発動したサイバーセキュリティ能力ラベルです。

AnthropicのClaude Opus 4.6登場

さて、もう一方の陣営では、Anthropicがほぼ即座に答えを発表し、焦点は生のターミナル実行から長文コンテキスト推論と調整されたAIエージェントへとシフトします。AnthropicはClaude Opus 4.6を発表し、GitHubを通じたGitHub Copilotから始まる主要プラットフォーム全体で展開しました。

Copilot Pro、Pro Plus、Business、Enterpriseユーザーが利用でき、Visual Studio Codeのチャット、アスク、エディット、エージェントモード全体で選択できます。Visual Studio、GitHub.com、GitHubモバイル、GitHub CLI、そしてCopilotコーディングエージェント内にも表示されます。展開は段階的で、エンタープライズ管理者はユーザーがアクセスする前に新しいポリシーを有効にする必要があります。

見出しとなる技術的特徴は、100万トークンのコンテキストウィンドウです。これは、Claude Opus 4.6が、重要な情報を落とすことなく、巨大なコードベース、長い設計文書、深いプロジェクト履歴を単一のコンテキストで処理できることを意味します。Anthropicは長文コンテキスト推論を中核的な強みとして推進しており、これは彼らがそれを極端なスケールまで引き伸ばしていることを示しています。

彼らはまた、モデルが非常に長い会話や文書の深部に埋もれた情報を取得するのに苦労するコンテキスト劣化問題にも対処しています。非常に大きなテキストから詳細を取得するためのベンチマークであるMRCRバージョン2で、Claude Opus 4.6は76%を記録しました。これは以前のSonnet 4.5モデルの18.5%と比較されます。この飛躍は、長い情報スパンにわたるメモリ取得の大幅な改善を示しています。

Claude Opus 4.6は、一つの応答で最大128,000トークンを出力でき、これは大きなコードセクションや長い文書を一度に生成するのに十分です。APIには、モデルがより深い推論が必要な時期を決定する適応的思考と、開発者が速度、知性、コストのバランスを取れるように4つの努力レベルが含まれています。

また、長時間実行されるタスクを効率的に保つために、会話の古い部分を要約するベータ版のコンテキスト圧縮ツールもあります。Anthropicはまた、研究プレビューとしてClaude Code内にエージェントチームを導入しました。これにより、複数のAIエージェントがプロジェクトの異なる部分で並行して作業できます。一つのエージェントがフロントエンドコードを処理し、別のエージェントがAPI、別のエージェントがマイグレーションを処理し、互いに調整します。

これはスタックの一部をそれぞれが所有する小規模なデジタル開発者チームを管理するようなものです。ベンチマークについて、AnthropicはClaude Opus 4.6がTerminal Bench 2.0でトップスコアを記録し、広範な推論テストであるHumanity’s Last Examでフロンティアモデルをリードしていると述べています。金融や法律などの経済的に価値のあるタスクに焦点を当てたGPQA-valでは、Opus 4.6がGPT-5.2を約144 ELOポイント上回り、これらのシナリオで約70%の確率でより高いスコアを獲得していると彼らは述べています。

エンタープライズでの急成長

エンタープライズでの牽引力は、Anthropicのストーリーのもう一つの大きな部分です。彼らはClaude Codeが一般提供から6か月以内に10億ドルの収益ランレートに達したと述べました。Claudeを使用している主要企業には、Uber、Salesforce、Accenture、Spotify、Rackiten、Snowflake、Novo Nordisk、Rampが含まれます。

資金調達について、Anthropicは3500億ドルの評価額で100億ドルのラウンドのタームシートに署名し、従業員がその評価額で株式を売却できるようテンダーオファーを準備しています。安全性とアライメントはAnthropicにとって中心的なままです。彼らは欺瞞的または有害な行動の低い率を報告しており、最近のClaudeモデルの中で過剰な拒否率が最も低いとしています。

彼らは6つの新しいサイバーセキュリティ調査を開発し、オープンソースソフトウェアの脆弱性のパッチ適用を支援するためにOpus 4.6を内部で使用しています。競争はマーケティングにも波及しました。AnthropicはスーパーボウルでOpenAIのテスト広告をからかう広告を計画しており、広告はAIに来るがClaudeには来ないというラインを使っています。サム・アルトマンは、広告は面白いが誤解を招くと呼んで反応し、Anthropicのアプローチは高価なエンタープライズ製品に焦点を当てていると主張しました。

金融市場は鋭く反応しました。Anthropicが新しい自動化ツールを発表した後、ソフトウェアおよびサービス株は合計2850億ドルの売却を目撃しました。投資家がAIが従来のエンタープライズソフトウェアを破壊することを心配し始めたためです。NVIDIAのジェンスン・フアンは、AIがソフトウェアを置き換えるという恐れは非論理的だと述べました。JPモルガンのマーク・マーフィーは、新しいAIプラグインがミッションクリティカルなシステムを置き換えると仮定するのは無理があると感じると述べました。

Anthropicはまた、研究プレビューでPowerPoint用のClaude統合によりMicrosoftのエコシステムに進出し、Claudeを日常的なオフィスツールに拡張しました。エンタープライズ採用数は、この分野がどれほど速く動いているかを示しています。Andreessen Horowitzのデータは、Anthropicのエンタープライズ本番環境デプロイメントのシェアが、2024年初頭のほぼゼロから2026年1月までに44%に上昇したことを示しています。

OpenAIは依然として77%の企業が本番環境でその製品を使用しており、リードしています。LLMに対する平均エンタープライズ支出は2025年に700万ドルに達し、2024年から180%増加し、2026年には1160万ドルに達すると予測されています。Claude Opus 4.6の価格は、入力トークン100万あたり5ドル、出力トークン100万あたり25ドルに留まり、20万トークンを超えるプロンプトにはプレミアム価格が適用されます。

Anthropicはまた、モデルが単純なタスクを過度に考えているように見える場合、ユーザーが努力レベルを下げることができると述べました。

今後の展望と問いかけ

では、ここで大きな質問です。AIエージェントがターミナル内で完全なコーディングワークフローの処理を開始したとき、企業はどれほど速くエンジニアリングチームを縮小し始めるのでしょうか。あなたの考えをコメントで教えてください。この解説を楽しんでいただけたなら、いいねとチャンネル登録をお願いします。

視聴ありがとうございました。次回またお会いしましょう。

コメント

タイトルとURLをコピーしました