新AI：GPT-5-Codexを8分で解説！💥 Claude Code キラー 💥

OpenAIが新たにリリースしたGPT-5 Codexは、エージェントコーディングに特化した革新的なAIモデルである。既存のGPT-5よりもプログラミングタスクに最適化されており、特にコードリファクタリング分野では精度が34%から52%へと大幅に向上している。実際の使用例では9年前の古いPythonコードを短時間で現代的な仕様にアップグレードし、テストの追加やGitHubアクション設定まで自動化する能力を示している。Claude Codeなどの競合製品に対抗する戦略的な位置づけにあり、OpenAIの社内開発者も積極的に活用していることが明かされている。

NEW AI: GPT-5-Codex in 8 mins! 💥 Claude Code Killer 💥

GPT‑5-Codex—a version of GPT‑5 further optimized for agentic coding in Codex. GPT‑5-Codex was trained with a focus on re...

OpenAIの新モデルGPT-5 Codex登場
ベンチマークでの性能評価
ベンチマーク操作疑惑への対応
社内での実際の使用状況
コードレビュー機能の強化
実際の使用デモ
GitHub Actions設定の自動化
まとめ

OpenAIの新モデルGPT-5 Codex登場

OpenAIがGPT-5 Codexという全く新しいモデルを発表しました。このモデルはエージェントコーディングに高度に最適化されています。OpenAIはCodexという名前の製品をいくつか展開しており、CLI、拡張機能、クラウドベースのコードエディタなどがありますが、今回はGPT-5 Codexという新しいモデルが加わりました。

GPT-5 Codexは、GPT-5のバージョンでありながら、ソフトウェアエンジニアリングタスク、具体的にはエージェントコーディングに高度に最適化されたモデルです。AIと一緒にコーディングをしたい方や、Claude Codeのようなツールを使いたいけれどもClaude Anthropicのエコシステムに入りたくない方にとって、GPT-5 Codexは最適な選択肢となります。OpenAIは、このモデルがプログラミング関連のタスクにおいて最も高速で、GPT-5よりもはるかにスマートだと主張しています。

Codexは、チャット機能の一部として、そして他の様々な場所で利用可能です。GitHub内、ウェブ上、さらにはターミナルやIDE内など、Codexを使用するあらゆる場所でGPT-5 Codexを活用できます。

ベンチマークでの性能評価

ベンチマークの観点から見ると、GPT-5 CodexのSWE-bench verifiedでの性能は、それほど大きな向上には見えません。SWE-bench verifiedは、多数のGitHubイシューがあり、エージェントがそれらのGitHubイシューを解決する必要があるベンチマークです。

GPT-5 highが73%を解決したのに対し、GPT-5 Codex highは74.5%を解決しました。これを四捨五入すると、100件のイシューあたりわずか2件のGitHubイシューの差にすぎません。正直なところ、大きな違いではありません。

しかし、コードリファクタリングタスクでは、GPT-5 highの精度が34%だったのに対し、GPT-5 Codexは52%の精度を達成しています。

CodexやClaude Codeを使用したことがある方なら、これが人々がこれらのAIエージェントを使用する最大のタスクの一つであることをご存知でしょう。必ずしも生のコード自体を書くためではなく、コードをリファクタリングしてより良く見せ、デザインパターンに従い、標準に準拠させるためです。コードリファクタリングタスクで50%以上の精度を持つことは、非常に重要なことです。

ベンチマーク操作疑惑への対応

もう一つ興味深いのは、前回OpenAIがSWE-bench verifiedを報告した際、OpenAIがベンチマークを操作しているという苦情があったことです。彼らはここでこの問題に対処しています。

「GPT-5の発売時を含む過去において、私たちは477のSWE-bench verifiedタスクの結果を報告していました。これは、一部のタスクが私たちのインフラストラクチャで実行できなかったためです。私たちはそれ以来この問題を修正し、現在は500のタスクすべてについて報告しています」

これは前回の苦情でした。多くの人々がOpenAIがベンチマークを操作していると言いました。Claude Codeに勝てないので、500タスクではなく477タスクでのみ実行することで操作しようとしているのだと。OpenAIは現在これを修正したと主張しています。

そこで今回、彼らは値を共有しています。500のGitHubイシュー全体で機能し、すべてのタスク、すべてのGitHubイシューの74.5%が解決されました。

社内での実際の使用状況

ここで私が見たい非常に興味深いベンチマークまたは指標は、企業が自社のツールをドッグフーディングする方法です。自分の会社のコーダーが構築しているツールを使っていないのに、すべてのコーダーを置き換えると言って世界を変えることはできません。

これは非常に重要な要素だと思いますし、OpenAIが自社の従業員によるCodexの使用について透明性を保っていることを評価しています。彼らはトラフィックを公開しました。

OpenAIの従業員のトラフィックでは、隠れた推論と最終出力を含むモデル生成トークンでソートされた下位10%のユーザーにおいて、GPT-5 CodexはGPT-5より93%少ないトークンを使用していることがわかります。

93%少ないということは、コストが安くなり、レート制限にもかかりにくくなることを意味します。

逆に、上位10%については、GPT-5 Codexはより深く考え、推論、編集、テストコード、反復に2倍の時間をかけています。つまり、パワーユーザーであれば、Codexの方がはるかに良いパフォーマンスを発揮します。パワーユーザーでない場合、readmeの更新などの作業に使うだけなら、Codexは高度に最適化されており、コストを節約できます。

コードレビュー機能の強化

もう一つの興味深い側面は、Codexがコードレビューと重要な欠陥の発見に特化して訓練されていることです。彼らが示しているベンチマークを見ると、不正確なコメントについて、Codexの不正確なコメントは少なく、Codexは影響力の高いコメントを持ち、Codexは平均してPRあたりのコメント数が少ないことがわかります。

ただ何でもかんでも言うのではなく、ランダムなテキストを投げつけるのではなく、このモデルはコードレビューに高度に最適化されています。Code Rabbitのような製品は、この特定のツールの影響を受けるでしょう。なぜなら、文字通りGitHubに行って「Codex、このPRをレビューして」と言えば、コードを通してPRをレビューしてくれるからです。

実際の使用デモ

簡潔にお見せしたいのですが、OpenAIが行ったすべてのアップデートは、人々が求めていた意味のあるアップデートであることがわかります。実際、タスクの再開などの他のアップデートも多数あります。これらすべてがCLI内、拡張機能内、そしてアクセス可能なクラウド環境内で適用されます。

しかし、私がそれをどのように使用したかの簡単なスナップショットをお見せしたいと思います。私は9年前、ほぼ10年前に書いた非常に古いプロジェクトで使用しました。Google Play Storeのレビューを抽出するSeleniumベースの非常に悪いPythonコードです。当時、私は多くのNLP作業をしていました。その時点では人々はそれをNLPと呼んでいなかったと思いますが、多くのNLP作業をしていました。

このコードがあって、私は文字通り進んで「このコードは現時点で古すぎる。9年前のもので、動作しないという苦情がある。修正してアップグレードし、CLIのように動作するようにできるか」とだけ言いました。

この特定のタスクについて、351行の新しいコードを正常に書き、71行の古いコードを削除し、コードをテストすることができました。CLIフォーマットのようにコードが完璧に動作するかどうかをテストすることができました。それが何をしたかの要約を教えてくれ、5分間作業してそれらすべてを行いました。PRを上げる手助けをしてくれました。最終的にPRを修正し、PRをマージして完了しました。

次に、いくつかの他のことを尋ねました。「今、私のコードにはテストがない」と言いました。

この時点で、10分間作業したことがわかります。コードを修正するよう求めた時は5分しか作業しませんでした。しかし、pytestを提供するよう求めた時は10分間作業しました。今、「PRを作成」をクリックできます。私のためにPRを作成してくれます。

例えば、PRが適切に実行されているかどうかを示すバッジを追加するよう求めるなど、他にも多くのことを求めました。GitHubオートメーションがあるかどうかも尋ねました。

ベースブランチとの競合はありません。CodexがここでEmojiアイコンで反応していることがわかります。PRをクリックしたり、マージリクエストをしたり、ここに行って「Codex、Codexボットがあるならレビューを求める」と言ったりできます。

PRをマージして、同じものを使用します。要約が追加されていることがわかります。要約とは何でしょうか？CLI検証レビュー正規化とライターのためのpytestベースのテストスイートを追加。また、モッキングも行っています。APIのテストを書いたことがある人なら、モッキングがAPIを模倣してテストしようとする方法であることを知っているでしょう。マージされました。

GitHub Actions設定の自動化

今度は、GitHubアクションのために開いているもう一つのPRがすでにあります。そこに行って、いくつかのテストが利用できないと言っているのを見ます。今のところマージします。マージしましょう。「Codex、コメントを修正して」と言うだけで実行してくれることがわかります。

最後に求めたPRは数行のコードです。GitHubアクションボタンを追加しています。ベースとの競合はありません。マージして戻って、何が起こるかを見ましょう。

アクションに行くと、すでにアクションが開始されています。以前は動作しませんでした。明らかにテストファイルがそのまま残っていなかったからです。テストが通過していると表示されています。

これらすべてが9年前に最初に作成されたものであることがわかりますが、それ以外はすべて私がこのモデルをテストしていた最後の30分間のものです。驚くほど素晴らしい仕事をしてくれました。私の驚きに、コードをシンプルにするために使用できる新しい依存関係があることを知っていました。私やユーザーが尋ねるであろうことを知っていたので、すべてを更新することを確実にしました。レガシーコードがある場合、それは絶対に素晴らしいツールだと思います。

私を信じる必要はありませんが、レガシーコードがある場合は、リポジトリをフォークしてCodexに渡し、アップデートを求めることをお勧めします。そうすれば、オープンソースライブラリをより良い方法で維持できます。