OpenAIが新たにリリースしたGPT-5 Codexは、従来のCodexをGPT-5でパワーアップさせたエージェント型コーディングツールである。最大の特徴は7時間もの長時間にわたって自律的に動作し、複雑なタスクを完遂できる点にある。SWEBenchなどのベンチマークで性能向上を示し、特にコードリファクタリング能力が大幅に改善された。VS Code、ターミナル、GitHub、さらにはiOSアプリまで幅広い環境で利用可能で、自動的なコードレビュー機能も搭載している。OpenAI社内では既に大多数のプルリクエストをこのツールでレビューしており、毎日数百の問題を発見している。

GPT-5 Codexの登場
OpenAIがGPT-5 Codexをリリースしました。Codexが優れた製品だと思っていた方は、今度はGPT-5で強化されています。これは時間の問題でした。
小さな「始める」ボタンをクリックすると、こんな感じです。VS Code Cursor、Windsor、VS Code Marketplace、Codex Web。本日、GPT-5 Codexをリリースします。これはGPT-5のバージョンで、Codexでのエージェント型コーディングに特化してさらに最適化されています。
実世界のソフトウェアエンジニアリング作業に焦点を当てた訓練が行われました。素早いインタラクティブなセッションと、長く複雑なタスクを独立して進める両方に熟練しています。そして、そのコードレビュー機能は、出荷前に重要なバグをキャッチできます。
ChatGPTインターフェース内でCodexを直接使用する必要はありません。あなたが望む場所に行きます。Codexは今、あなたが開発する場所で動作します。ターミナルやIDE、ウェブ上、GitHub、さらにはChatGPT iOSアプリでも使えます。ChatGPT Plus Pro、ビジネス、教育、エンタープライズプランに含まれています。
ベンチマーク結果の詳細
さて、いくつかのベンチマークを見てみましょう。こちらはSWEBench verifiedです。ご覧のように、GPT-5 highが72.8、GPT-5 Codex highが74.5です。数ポイントの向上で、巨大ではありませんが、確実な改善です。
コードリファクタリングでは大幅な改善が見られます。GPT-5 highが33.9、GPT-5 Codex highが51.3%です。私たちは長時間実行タスクについて多く語ってきました。Replitは最近、彼らのエージェント3製品が200分以上動作すると発表しました。
しかし、これを聞いてください。テスト中に、GPT-5 Codexが大規模で複雑なタスクに対して7時間以上にわたって独立して動作し、実装を繰り返し、テストの失敗を修正し、最終的に成功した実装を提供するのを見てきました。7時間です。
これはとんでもないことです。ここには2つの要因があると思います。先週からずっとこのことについて話してきました。エージェントが自律的に正常に動作できる時間の長さは本当に重要ですが、その時間枠内でどれだけ迅速に作業を完了するかも同じく重要です。
作業効率の二つの側面
Codexが7時間思考して何かを成し遂げることができるなら、それは素晴らしいことです。しかし、7時間思考してより多くのことを成し遂げることができるなら、それもまた素晴らしいことです。つまり、ここには本当に2つのレバーが作用しています。どれだけ長く続けられるか、そしてその長さの時間内でどれだけのことを成し遂げられるかです。
Codexが実際にどのように動作するかについて詳しく見てみましょう。モデル生成トークンでソートされたユーザーターンの下位10%では、GPT-5 Codexは93.7トークン少なく使用します。
逆に上位10%、つまりより複雑な使用ケースでは、より多く思考し、推論、編集、コードのテスト、反復に2倍の時間をかけます。GPT-5 Codexは、コードレビューの実施と重要な欠陥の発見のために特別に訓練されています。
レビュー時には、コードベースをナビゲートし、依存関係を推論し、正確性を検証するためにコードとテストを実行します。
コードレビュー性能の比較
これをチェックしてください。GPT-5対GPT-5 Codexのベンチマークがさらにあります。不正確なコメントについて、GPT-5 highは13.7%なのに対し、GPT-5 Codexは4.4%のみです。
高影響コメントでは、GPT-5 highが39.4で、GPT-5 Codex highが52.4です。我々は皆、AIがコメントを愛することを知っています。そのため、高影響コメントは非常に重要です。
PR当たりのコメント数は実際により少なくなっており、これは良いことです。なぜなら、過度にコメントされたコードは望ましくないからです。必要ありません。適切なタイミングで適切なコメントが欲しいのです。
Windsurfとの統合
GPT-5 Codexを今すぐ試してみたい場合は、今日の動画のスポンサーであるWindsurfで試してください。Windsurfは今日最も強力なエージェント型IDEで、開発者が個人プロジェクトから小さな趣味のものまで、数百万行のコードを持つ企業組織まで、最高の作業を行っています。
Windsurfは高速で動作し続けるよう構築されていますが、セキュリティを犠牲にすることはありません。特にDevonの創設者であるCognitionに買収された後、Windsurfチームはこれまで以上に速くリリースしているようです。
Windsurfはより高速になっています。また、外観も一新され、より信頼性が高くなりました。deep wikiやvibe and replaceのような機能も提供しています。Windsurfには、ワンクリックのMCPストアと本当に洗練されたメモリ機能も付属しています。そして今、Devonとの深い統合により、さらに強力になっています。
このチャンネルを見てきた方なら、私がWindsurfのファンであることをご存知でしょうから、ぜひチェックしてみてください。下にリンクを貼っておきます。この動画をスポンサーしてくれたWindsurfに改めて感謝します。
Codex CLIの改良
さて、動画に戻ります。Codex CLIも更新されました。ターミナルUIには、より良くフォーマットされ、追跡しやすいツール呼び出しとdiffが含まれています。
承認モードは3つのレベルに簡素化されています。明示的な承認が必要な読み取り専用、ワークスペースへの完全なアクセスがありますがワークスペース外での承認が必要な自動、そして任意の場所でファイルを読み取り、ネットワークアクセス付きでコマンドを実行できる完全アクセスです。
また、長いセッションを管理しやすくするために会話状態のコンパクト化もサポートしています。先ほど述べたように、開発するあらゆる場所で利用可能です。新しいIDE拡張機能とGitHub統合があります。
インフラストラクチャの改善
また、コンテナをキャッシュすることでクラウドインフラストラクチャのパフォーマンスも改善されています。新しいタスクとフォローアップの平均完了時間を90%削減しました。
スピードは非常に過小評価されていると常々思っていました。誰もが品質を求めるのは明らかですが、スピードもほぼ同じくらい重要です。そして今、90%低いレイテンシを実現しています。
現在では、一般的なセットアップスクリプトをスキャンして実行することで、自動的に独自の環境をセットアップします。設定可能なインターネットアクセスにより、ランタイムで必要に応じて依存関係を取得するためのpip installのようなコマンドを実行できます。
自律的な開発環境
Codexは独自のブラウザを起動し、構築したものを見て、反復し、結果のスクリーンショットをタスクとGitHub PRに添付できます。また、コードレビュー機能も搭載されています。
静的解析ツールとは異なり、PRの明記された意図を実際のdiffに合わせ、コードベース全体と依存関係を推論し、動作を検証するためにコードとテストを実行します。
これは人間のレビュアーに対する一種の皮肉です。最も徹底的な人間のレビュアーだけが、レビューするすべてのPRにこのレベルの労力をかけます。そのため、Codexはそのギャップを埋めます。
GitHub repoで有効にすると、Codexはドラフトから準備完了に移行するPRを自動的にレビューし、PRにその分析を投稿します。「@Codex review」と言うことでレビューを明示的に要求することもでき、「セキュリティ脆弱性についてレビューして」などの追加ガイダンスを与えることもできます。
OpenAI社内での活用
OpenAIでは、Codexが現在、PRの圧倒的多数をレビューしています。つまり、彼らは完全にドッグフーディングしており、人間のレビューが始まる前に毎日数百の問題をキャッチしています。
ぜひこれをチェックしてみてください。どう思うか教えてください。ChatGPT Plus Pro、ビジネス、教育、エンタープライズプランで利用可能です。
価格体系の詳細
これは興味深い価格設定方法です。Plus、教育、ビジネスシートは毎週いくつかの集中コーディングセッションをカバーできますが、月額200ドルのProは複数のプロジェクトにわたる1週間の完全な作業をサポートできます。
つまり、文字通りチームに追加の開発者がいるようなものです。ビジネスプランでは、開発者が含まれる制限を超えて使用できるようにクレジットを購入でき、エンタープライズプランでは共有クレジットプールを提供するため、開発者が使用した分だけ支払えばよいのです。
素晴らしいと思います。これは本当にすごいと思います。試してみて、どう思うか教えてください。この動画を楽しんでいただけたら、いいねとチャンネル登録をご検討ください。


コメント