この動画は、OpenAIが新たにリリースしたGPT-5 Codexモデルの初回使用レビューである。GPT-5をベースにソフトウェアエンジニアリング向けに最適化されたこのモデルは、エージェンティックプログラミングに特化しており、タスクの複雑さに応じて思考時間を動的に調整する機能を持つ。実際のFirebaseプロジェクトでのインデックス問題解決やフィルター機能の実装など、具体的な開発タスクを通じてその性能を検証し、従来モデルとの比較も行っている。

OpenAI GPT-5 Codex モデルの登場
こんにちは。OpenAIが全く新しいモデル、正確にはGPT-5の洗練されたバージョンをリリースしました。GPT-5 Codexという新しいコーディングモデルで、少し試してみただけですが本当に注目を集めています。正直言って、すごく気に入りました。この製品は本当に素晴らしいです。
すぐに詳しく見ていきたいと思います。まず彼らが発表した内容を簡単に確認してから、実際に使ってみて、使用感や私が見つけた小さな違いについてお見せします。
OpenAIが今日リリースしたのは、ソフトウェアエンジニアリング専用に特化したGPT-5のバージョンです。これは特にエージェンティックプログラミング向けに設計されていると彼らは説明しています。Codexはより高速で信頼性が高く、リアルタイムコラボレーションが向上しました。実際にそれを体感できています。
ここで説明されているように、GPT-5はCodexでエージェンティックソフトウェアエンジニアリング向けにさらに最適化されたGPT-5のバージョンです。
通常はこういった説明は飛ばすのですが、SwebenchでGPT-5 highよりも良いスコアを出していることが分かります。これはGPT-5 Codex highとGPT-5 highの比較です。SweetBenchの成績が改善されたのは素晴らしいことですし、コードリファクタリングタスクでも向上が見られます。これは彼らが持っているベンチマークで、より良い性能を発揮しており、大規模なコードベースをリファクタリングできるかという観点から非常に有用です。これは通常、長期間にわたって実行されるものです。
多くのコールバック、テスト実行、検証などを必要とするタスクの一つです。これが改善されているのは素晴らしいことです。ここで重要なポイントとして、私が本当に気に入ったのは、Codexがタスクの複雑さに基づいてより動的に思考時間を調整することです。
これはChatGPTのGPT-5と非常に似ています。ある質問をすると即座に回答が返ってきて、別の質問では考える時間が必要になります。彼らはこれをコーディングモデルにも適用しています。つまり、異なる問題に対してどの程度の推論時間を適用するかを調整しているのです。
これは本当に素晴らしいアイデアです。時々、mediumモデルを使っていて問題を与えたとき、開始前にhighモデルを選択すべきだったと思うことがあります。なぜなら私が求めていることがもっと大きなタスクだと思うからです。コーディングモデル内でもそのような判断をしてくれるのは本当にエキサイティングです。
モデルの性能と効率性について
Codexは小さくて明確に定義されたリクエストに対してはよりスナッピーに感じられ、チャットしながら大規模なリファクタリングのような長く複雑なタスクにも対応します。テスト中、GPT-5 Codexが大規模で複雑なタスクに対して7時間以上独立して作業し、実装を反復し、テストの失敗を修正し、最終的に成功した実装を提供するのを見てきました。
しかし、これがトークン使用量の観点で実際に何を意味するのでしょうか?彼らはそれについてもある程度示しています。OpenAIの全従業員がモデルに対して行ったトラフィックを調査し、モデル生成トークン数でソートしたユーザーターンの下位10%では93%少ないトークンだったと述べています。つまり、基本的に高速で簡単に完了できるタスクでは、はるかに少ない推論で、本質的にはるかに少ないコスト、はるかに少ないトークンで処理できるということです。
一方、上位10%では約2倍のコストがかかります。ここにチャートもあります。10%のところでは非常に小さなリクエストで、90%のところでは非常に大きなタスク、基本的により難しい問題により多くの思考時間を要します。より多くの思考を適用する方法を理解していますが、私たちが時間の大部分を費やしているのは、より簡潔で小さな変更や単純なクエリなどを求めることなので、そういった場合ははるかに効率的になります。
また、彼らはこれをコードレビュー専用にチューニングしたとも述べています。ここでGPT-5 highが出した誤ったコメント数とCodex highの比較を見ることができます。大幅な改善です。もちろん、これらは彼ら自身の数値なので注意が必要ですが、同時に私たちは皆コードレビューエージェントを見てきて、「これもできる、あれもできる、これもいいアイデアだ」と言っているのを見て、「でも100通りの方法でできるよね。それが本当に役立つかどうかは分からない」と思っています。これが彼らが聞いていて、このモデルでこの方法で対処しようとしていることだと思います。
より影響力のあるコメント、つまりはるかに意味のあるコメントです。そして、PRあたりのコメント数?これは、すべてのPRで毎回コメントする必要がないように感じられることがエキサイティングです。それは素晴らしいことです。
言葉も少なくなっています。さあ、ターミナルに入りましょう。実際に動作しているところを見てみましょう。
実際の使用体験とテスト
ターミナルでCodexを実行すると、GPT-5 Codexを発表する素晴らしい新しいアニメーションが表示されます。GPT-5 Codexモデルを選択すると、それで開始されますが、いつでもモデルを選択でき、上部に新しいCodexモデルが表示されます。私は質問できるアプリケーションの中にいます。
すぐにわかることですが、これははるかに高速に表示されます。タスクをはるかに高速で実行します。これが彼らが話していることの一つです。例えば「Firebaseをどのように使用しているか教えて」と言ってみましょう。
これが返ってきた結果です。すぐに言えることは、これは確実に非常に異なる感じがします。情報を私に伝える方法が、以前のGPT-5や他のモデルのバージョンとは全く異なる体験です。
メッセージの途中にこれらのリンクがすべて含まれているのがわかります。これについて言えることは、非常に会話的だということです。これは実際の読み上げを返してくれています。これは大量の情報というよりも、私に提供される簡潔なドキュメントのような感じです。約1時間作業してきて、このようなものをかなりの数受け取り、最初は非常に驚きましたが、最終的にエンジニアとしての私は彼らが言及している多くのことを本当に評価しています。
同じことを古いGPT-5 mediumで試してみましょう。思考の完全な定義、複数の思考ブロック、何を検索しているか、実行パターンなど、新しいCodexモデルでは全く見られなかったものが表示されます。
先ほど、他の方は大量の情報を返さなかったと言ったことを覚えていますか?ここで、この一つの単純なFirebaseの使用方法に関するリクエストから、このモデルが私たちに言ったことをスクロールして戻ってみましょう。
これがすべてです。私のFirebaseの使用方法に関する単純なリクエストに対する膨大なレスポンスです。確かに多くの素晴らしい詳細を網羅していますが、GPT-5は優れたコード編集モデルでしたが、このブログ投稿形式で返してくるため、私のためにレポートを作成して全体のストーリーを教えようとしているように感じます。最初のものは、はるかに簡潔なエンジニアリング経路のように感じました。「ここにあります。これらがあなたが必要とする本当に重要な側面です。」必要があれば詳細な部分を求めることもできるでしょう。
そのため、新しいCodexモデルの方を圧倒的に好みます。
実際のアプリケーションでの問題解決
しかし、実際に使ってみるとどうでしょうか?それが実際に重要な部分ですよね。私のアプリケーション、このチャンネルで何度も共有してきた数値アプリケーションを共有して、このアプリケーションを実行したときに最近の変更で、Firestoreインデックス情報が不足していることを示します。
これはFirestoreをデータベースとして使用しています。FirestoreはGoogleのクラウドデータベースソリューションで、通常は可能であればフィルタリングやソートなどをクライアントに降りてくる前にクラウドで処理してもらい、すべてのクライアントがすべてのデータを処理する必要がないようにしたいものです。
これは、必要な方法でデータをフィルタリングするためのクラウド上のソリューションが不足していることを意味しています。つまり、クライアント側で処理する必要があります。それがこれが言っていることです。明らかに私たちはそれを望んでいません。
Codex CLIまたは実際にはCodex、本質的にはCodexモデルをこの問題の解決に適用できるかを試してみたいと思います。
これはCursorエディターです。おそらくVisual Studio Codeでも同様に使えるでしょう。ここで解決しているのは基本的に同じことです。これを呼び出す2つの方法をお見せします。通常使用している方法は、ターミナルモードに入ってここの下部にターミナルパネルを表示させることです。
もう一つの方法は、こちらのAIパネルを使うことです。Codexをプラグインとして追加しました。ここから出てCodexの拡張機能を取得し、アプリケーションに追加すると、このようなパネルまたは類似のものを使用できます。これは、Codex 5モデルを使用するかどうかを尋ねています。素晴らしいです。
これでCodexモデルを使用しています。先ほどと同じように、ここ下部で確認できます。これもmediumのままにしておきます。しかし、まずはターミナルモードをお見せしたいと思います。なぜなら、先ほどそこにいたからです。
ここでも同じことが理解できるかもしれません。ここ下部でCodexを読み込みます。このパネルを少し大きくして、サイドパネルも隠します。これで、私たちがいた場所により似た感じになります。この時点で見ているモデルがGPT-5 Codex mediumモデルであることを確認します。素晴らしいです。この時点で私たちが見ているのはそれです。
やりたいことは、先ほど見ていたエラーメッセージを与えることです。これが不足していると言えます。私たちが知っている問題である、Firestoreインデックスが制限されたビデオクエリが不足しています。他に何の文脈もなく、この問題を解決してくれませんか?と尋ねています。
ここで見ているのは、前回は見なかった思考部分を実行していることです。これはより複雑な問題を与えているからです。ランダムにこの問題を見つけて修正してくれという問題です。
今、それは見て回って「これはビデオシステムの一部だ」と言っています。システム内でさまざまな項目がどのように使用されるべきかについて、すべての異なる項目への参照を行っているのがわかります。これが、より多くの思考が必要な場所により多くの思考を適用しようとしている例だと思います。率直に言って、これを見るのはかなりクールです。
問題解決の成果
素晴らしいです。最終結果がこれです。複合インデックス定義を追加しました。システムに入って、Firestore自体にプッシュアップする必要がある新しいインデックスのこの定義ファイルを追加しました。
これはFirebaseを使用する際の小さなトリックです。Firestore環境自体のコンソールにログインするか、彼らがコマンドラインで提供しているツールを通じてコマンドラインシステムでプッシュすることができます。それがここで参照されているFirebaseアクションです。
この興味深い詳細を指摘する理由は、私が非常に簡潔な定義だと考えるものを私に伝えているからです。これは、コーディングモデルとしてGPT-5で長い間抱えてきた問題で、次に何をする必要があるかを理解し、何をしてほしいかを理解するために膨大なドキュメントを読む必要があるという問題です。
あなたはすべてのこの作業を行いました。ある地点まで到達しました。すべてをテストしましたか?していませんか?これまでの私の経験では、最終的にはるかに簡潔な応答を得られるということです。経験は様々でしょう。まだ非常に早い段階なので、これが続くかどうかはわかりません。しかし、今のところ、これについて本当に興奮しています。これは私を本当に幸せにしたことの一つで、多くの作業を行った後に戻ってきて「次のステップはこれです。FirebaseプロジェクトにFirebase Firestoreインデックスを実行してください」と言えることです。
それでインデックスがインストールされます。私がやりたいのは、「それをやってくれますか?」と言うことです。Cloud Codeは、これができる唯一のエディター、これまで見た唯一のCLIエディターだと言えます。シェルを開いて私たちの代わりにこのコマンドを実行してくれるなら、エキサイティングでしょう。
試してみましょう。はい、確実に。確実にそれを開始しようとして、実行しようとしています。成功するかどうか見てみましょう。それでダメにするつもりはありません。
素晴らしい。素晴らしいです。実行して「はい、インデックスをデプロイしました。かなりよさそうです。戻って、最初の周りで完全に正しく取得できなかった何かを修正しました。これすべてに私は何も触る必要がありませんでした。」
これは本当に成功です。しかし、彼らが正しくやったかどうかを本当に知る方法は一つしかありません。見てみましょう。
いや、でも大丈夫です。サーバーを終了して再開してみましょう、多分。いや、再起動でもうまく動きません。もう一つ試してみましょう。それを戻して「うまくいかなかった。もう一度試してください」と言い、彼らの成功か失敗を報告しましょう。
愚かな人間。よし。GPT-5 Codexに敬意を表します。
最後のメッセージの最後で私たちがここに座っていたとき、何を私に言ったでしょうか?皆さんはおそらくスクリーンに向かってこれを叫んでいると思います。「ステップ1、数分待って、それからこれを再実行してどのように動作したかを確認してください」と言っています。
もちろん、再実行しました。すべて完璧に動作します。驚きではありません。素晴らしいです。それが世話をしました。
ビジュアルプロジェクトのアップデート
最後に、ビジュアルプロジェクトを更新している場合に何をしているかを見てみましょう、それが変わった場合に備えて。正直に言うと、私は本当に誰かをこれで判断するつもりはありません。これは1年以上前に私が書いたプロジェクトです。これは初期のCursorまたは中級レベルのCursorのようなものだったでしょう。Cursorと手作りのもの以外には、エージェンティックコーディングはありません。しかし、ここを見てみましょう。
ゲームSilk Songを検索してみましょう。これは私がいくつかのアイデアで遊んで作ったサンプルアプリケーションです。Silk Songを検索すると、これは非常に人気のある最近のゲームだと思います。問題は、ここにフィルターが定義されていることです:注目度とメインゲーム。任意のゲームでカテゴリを割り当てる必要がないと言えば、表示されます。
やりたいのは、フィルターが適用されているときにこのボタンを色で光らせることです。そうすれば、何かが見えない理由がフィルターにあることがヒントとしてわかるかもしれません。
これはひどい例ですし、とても古いアプリケーションですが、GPT-5 Codexに与えて、それが押し通せるかどうか見てみましょう。
ここはCursorです。今度はサイドパネルを使用し、先ほど見たCodexサイドパネルを使用して、GPT-5 Codex mediumをここでローカルで実行します。素晴らしいです。
これに言いたいのは、スクリーンショットを渡すということです。デフォルトではないフィルターが適用されているとき、メインゲームフィルターや他の適用されたフィルターがあるとき、このボタンをメインアクセントカラーで見たいと思います。つまり、フィルターが適用されていることがわかるように、ボタンを基本的に光らせたいのです。
フィルターが適用されていない場合は、今見えているような、私には普通に見える状態で見たいと思います。どうなるか見てみましょう。
よし、そこへ行きました。すべての作業を完了しました。フィルターがデフォルトから逸脱するたびに、フィルターボタンが光ります。確実にそのように動作します。Silk Songを取って、ここに戻ってきて、デフォルトはこのように設定されています。
それは私の定義でした。デフォルトはメインゲームを持つように設定されています。私が入る必要があることは、メインゲームはデフォルトオブジェクトではないと伝えることです。しかし、デフォルトから離れると、ボタンが期待通りに光り、デフォルトに戻ると消えます。これは良いです。言ったように、古いプロジェクト、異なる定義です。
アプリケーション内で何が起こっているかを理解するのに本当によく働きました。これをすべて理解するのにかなり時間がかかりましたが、非常によくやりました。
この製品での私の体験は素晴らしかったと言えます。
まとめ
これはCodex、GPT-5 Codexとして今リリースされたモデルの簡単な初回レビューでした。私は本当にこれが私たちが望むことを正確に行っていると思います。私たちが求める変更の大部分に対してより小さく、より効率的なモデルを提供し、必要な時には非常に深く考えることができます。私にとって、これは素晴らしいことです。
今後はmediumをもっと頻繁に使うつもりです。時々より洗練された質問をしているからといって、望むよりも頻繁にhighに向かってしまうことがよくありますし、時にはそうではないこともあります。
これは私にとって本当に素晴らしいアイデアです。ルーターがどのように動作するかを見てみたいと思います。あなたの体験がどうだったか、またはこれを使い始めたときにどうなるかを聞きたいです。教えてください。コメントを追加してください。そこで他の人に何が起こっているかを知らせてください。この件でお付き合いいただき、ありがとうございました。次回でお会いしましょう。


コメント