GPT-5.3 Codexが圧倒的性能を発揮 OpenAI最強モデルはOpus 4.6に勝てるのか完全検証

OpenAIが静かにリリースしたGPT-5.3 Codexは、同社史上最も優れたエージェンティック・コーディングモデルである。AnthropicのOpus 4.6と同日にリリースされたこのモデルは、従来比25%高速化し、Swaybench ProやTerminal Benchなど主要ベンチマークで業界新記録を樹立した。コード記述能力の向上に加え、ウェブ開発、ゲーム生成、ドキュメント作成まで幅広い実用性を備え、開発者のワークフロー全体をサポートする。Opus 4.6との比較では、スピードと実行力ではCodexが優位、深い推論と自律性ではOpusが勝るという棲み分けが見られ、用途に応じた使い分けが重要となる。

GPT-5.3 Codex Is INSANE! OpenAI’s BEST Model Might Beat Opus 4.6? (Fully Tested)

GPT-5.3 Codex is blowing minds in early 2026! In this video, we put OpenAI’s fastest, most interactive coding AI to the ...

OpenAIが放った静かな一撃
実際の成果物が示す可能性
意図理解とコード完成度の向上
ベンチマーク対決:Codex vs Opus
ゲーム生成の実力
フロントエンド生成の現状
最終評価と使い分けの提案

OpenAIが放った静かな一撃

昨日はAI業界にとって本当にワイルドな1日でした。実は2つの大規模なモデルがリリースされたんです。1つはAnthropicのOpus 4.6で、これは本当に印象的なエージェンティックモデルでした。でも多くの人が気づかなかったのは、OpenAIがAnthropicの話題をかっさらおうと、静かに強力なモデルを投入していたことなんです。

正直言って、このモデルは今もっと注目されるべきだと思います。なぜならOpenAIが戻ってきたかもしれないからです。彼らはGPT-5.3 Codexをリリースしたばかりで、これは現時点で最も有能なエージェンティック・コーディングモデルなんです。これは単にコードを書くのが上手いだけではありません。より速く、よりスマートで、より自律的なんです。実際の長時間実行タスクを処理できて、ツールというよりチームメイトのような存在です。

実際、約25%高速化されていて、研究やツール使用、複数ステップの実行を含む長く複雑なワークフローにも実用的に対応できます。ベンチマークに関して言えば、GPT-5.3 Codexは冗談抜きで凄いんです。Swaybench ProやTerminal Benchで業界新基準を打ち立てました。OS World、GDP Evolveなどの他のベンチマークでも強力なパフォーマンスを示していて、コーディング能力、エージェンティックな振る舞い、そして実世界のタスク性能がどれだけ優れているかを示しています。

実際の成果物が示す可能性

もうすでにX上で、GPT-5.3 Codexを使って人々が作っている驚異的なものをご覧になったかもしれません。例えば、誰かが完全なフライトシミュレーションを生成していました。開発者が手作業で構築するには数週間かかるようなものです。これが起きている理由は、GPT-5.3 Codexがウェブ開発能力を大幅にアップグレードしているからなんです。最先端レベルのコーディングと、より優れた美学、よりスマートな圧縮を組み合わせることで実現しています。

このモデルは今や、厳密に高機能なゲームやアプリをゼロから構築できるんです。それもわずか数日という期間で。ブログ記事で紹介されている生成物を見れば分かります。完全なレーシングゲームを作成していますし、こちらではダイビングゲームも完全にCodexモデルで生成されています。

もしAIを使ってより速く構築したいなら、私の正確なツール、ワークフロー、プロンプトを無料ニュースレターで配信していますので、説明欄のリンクから完全無料で購読できます。

意図理解とコード完成度の向上

GPT-5.3についてもう1つ気づいたことは、このモデルはあなたの意図をはるかによく理解し、より完成度の高いコードを提供するということです。例えばこのウェブサイトでは、送信されたプロンプトに直接基づいて、すべてのコンポーネントを完全に生成することができました。

一方、5.2 Codexと比較すると、5.3と同じレベルのクオリティでは生成できていません。それだけではありません。この新しいCodexモデルはコーディングの域を超えています。デバッグやデプロイから実際にドキュメントを書くまで、ソフトウェアと知識作業のライフサイクル全体をサポートしているんです。このプロンプトからは、財務アドバイスのスライドを直接提供できることが分かります。

また、Wordを通じてトレーニング文書を出力することもできます。Claudeが独自のMicrosoft Suiteツールで行っているようなものです。さらにスプレッドシートで作業したり、プレゼンテーションを作成したりもできます。つまり、これらのツールモデル、AnthropicのClaudeモデル対OpenAIのGPTモデルの戦争がさらに激化しているのが明らかに見て取れます。

OpenAIが明らかにAnthropicがやろうとしていることに対抗しようとしているのが分かります。現在、OpenAIはこのモデルが以前のCodex 5.2モデルより25%高速に動作し、使用トークンも大幅に少ないと主張しています。これにより効率が良くなっただけでなく、実行コストも安くなりました。課金が本当に重要な問題だからです。現在の価格は、100万入力トークンあたり1.75ドル、100万出力トークンあたり14ドルです。

現在、コンテキストウィンドウは40万トークンです。そして私が気づいた1つのことは、このモデルは素晴らしいんですが、今のところCodexアプリを通じて、つまり彼ら独自のウェブアプリでCodecが統合されたChatGPTを通じてしか、あるいはCodex CLIやVS Code拡張機能を通じてしかアクセスできないということです。

APIは現在利用できません。これが唯一の欠点です。OpenAIでCodexアプリに特化して作業している従業員の1人が、Windows用のCodexアプリのリリースに現在取り組んでいると述べていました。ですから、私のようなWindowsユーザーも、まもなくアクセスできるようになります。

ベンチマーク対決:Codex vs Opus

ここからが最初のテストです。これはカウンターストライク風の新しいベンチマークで、GPT-5.3 CodexとOpus 4.6を比較したものです。両モデルとも以前の世代すべてを明確に上回りました。Codexはこの生成において約2倍速かったのですが、Claudeは一般的により良い判断を下し、ほとんどのプロンプトでより高品質な出力を生成しました。

どちらもより良いマップ、銃、よりリアルなキャラクターを生成し、コーディングエラーも少なく、最前線が基本的なコーディングからゲーム物理やワールドロジックへと移行していることを示しています。これは本当に信じられないことです。なぜなら、AIモデルが多くの開発者、特にゲーム開発者が多くのコンポーネントをコーディングするのを支援する時点に確実に到達しつつあるからです。

ただし、モデルにはまだ癖があることも明らかです。物理の問題があったり、奇妙なカメラアングルがあったり、障害物を貫通する射撃があったりします。でも全体的には、両方とも印象的で、出力を実際に視覚化するのが本当に楽しかったです。これは実際にプレイできるもので、特にインスタントマルチプレイヤーを使って、説明欄のリンクから試すことができます。

要するに、Codexは速く、Claudeは判断が賢いということです。単一のプロンプトから2Dプラットフォーマーをエンドツーエンドで構築するという、本当に素晴らしいプロンプトがありました。Pythonコードを書き、Nanob Banana Proを使ってスプライトアセットを生成しました。透明でない背景のような制限も考慮に入れました。

ですから、複数のツールをやりくりする代わりに、Codexモデルがすべてを計画し、コードを生成し、画像アセットを直接ゲームに統合できたんです。これは複数ステップのワークフローをプレイ可能なゲームに変えたもので、本当に驚くべきことです。

ゲーム生成の実力

ここではポケモンゲーム全体を作成しようと試みています。そして私の意見では、これは実際にOpus 4.6が生成したものよりも優れていて、かなり驚くべきことです。ポケモンゲームのすべての機能を追加していて、他のポケモンとバトルしたり、ストーリーラインを使ったり、マップ上を移動したりできます。

最初に紹介したゲームは、AngelというTwitter上の開発者が作成したもので、彼は3GSを使って完全なMinecraftクローンも作成し、スムーズに動作していました。そしてこれは、機能的なアセットを持つMinecraftクローンのおそらく最高の生成物だと分かります。機能的でダイナミックな動きがあり、Minecraftゲームのあらゆるコンポーネントを模倣できるもので、本当に驚くべきことです。

このようなモデルが完全なゲームをコーディングできるなんて、私にとって本当に信じられないことです。SVG生成に関しては、自転車に乗るペリカンをアニメーション化していて、アニメーションは素晴らしいですが、SVGコードの出力品質という点では、明らかにGeminiがやることとは比較になりません。しかしOpusモデルと比較してもSVGコード生成では後れを取っています。

個人的には、このプロンプトは単に貧弱なプロンプティングだと思います。しかし要するに、X上に比較動画があって、これら2つのランディングページを紹介し、ユーザーにOpus 4.6対新しいCodexモデルのどちらがどちらを生成したか推測するよう求めていました。驚くべきことに、私個人は今見ている最初の生成物がCodexモデルによって生成されたと思ったのですが、実際は間違っていました。

それはOpus 4.6によって生成されたもので、2番目に見える生成物がCodexモデルによって生成されたものでした。そして驚くべきことに、その結果は正しかったんです。なぜなら私はOpus 4.6に思考を有効にしてリクエストし、このランディングページが生成されたからです。ひどいというわけではありませんが、UIにおいてまだあの安っぽいAI生成特有のものを使っているのが分かります。

フロントエンド生成の現状

タイポグラフィや、アニメーションの動的な動き、その他の要素を指定することで、UI生成全体を改善するために、もう少し深く掘り下げる必要があります。これがOpus 4.6が生成したもので、これが5.3、つまりCodexモデルが生成できたものです。まだあの安っぽいOpenAIの生成物特有の見た目があることが分かります。

おそらく、フロントエンドのより良い生成物を得るために、両方のモデルでもう少し上手くプロンプトする必要があります。しかし、やはりGeminiモデルと同じレベルの品質には達していません。もしこの動画が気に入って、チャンネルをサポートしたいと思っていただけるなら、下のSuper Thanksオプションを通じてチャンネルに寄付することを検討していただけます。

あるいは、プライベートDiscordへの参加を検討していただくこともできます。そこでは毎月さまざまなAIツールへの複数のサブスクリプションに無料でアクセスでき、さらに毎日のAIニュースや限定コンテンツなど、たくさんのものがあります。

最終評価と使い分けの提案

このモデルについての私の最終的な考えは、GPT-5.3 Codexは本当に驚くべきモデルだということです。そしてClaude Opus 4.6のようなものと比較するなら、両方とも独自の使用例と好みにおいてそれぞれのピークを持っています。

個人的には、Codexはインタラクティブな使用例や、ワークフロー内でエージェンティックに使用したい場合に使いたい優れた高速モデルだと思います。しかしまた、Claudeモデルもさまざまな種類のアプリを通じてエージェンティックに使用できます。

私はCodexモデルをターミナルヘビーなタスクに使用するでしょう。これは迅速な反復に最適で、スピードのおかげで、より多くの推論とトークン使用を行うOpusモデルよりもはるかに優れています。Opusモデルは確実に遅いですが、より思慮深く、より深い推論によって長期的な計画が得られます。そして新しい100万という巨大なコンテキストウィンドウにより、複雑で重要なプロジェクトに理想的な使用だと思います。一方、Codexは高速な反復向きです。

ですから明確な勝者はいません。Codexではスピードと実行力に応じて選択でき、Opusモデルでは深さと自律性に応じて選択できます。ぜひ皆さんが実際にどう思うか教えてください。実際にフィードバックを聞きたいんです。これら2つのモデルを使って皆さんがどんな発見をしたか見てみたいです。

でもその考えとともに、皆さん、見てくださって本当にありがとうございました。必ず第2チャンネルを登録し、ニュースレターに参加し、Discordに参加し、Twitterでフォローしてください。そして最後に、必ず登録し、通知ベルをオンにし、この動画に「いいね」をして、最新のAIニュースを常に把握できるよう以前の動画もぜひご覧ください。でもその考えとともに、皆さん、素晴らしい1日をお過ごしください。ポジティブさを広めて、またすぐにお会いしましょう。