GPT-5 Codexの性能は？アプリを作ってみた

この動画は、OpenAIの新しいGPT-5 Codexを使って実際のアプリケーション開発を行う実証実験である。作者は日常的に使用している音声転写アプリケーションをCodex CLIで再現し、その性能と実用性を検証している。GPT-5 Codexは7時間以上にわたって独立して動作し、複雑なタスクに対して動的にトークン生成量を調整する能力を持つとされる。実験では約30分でホットキー機能、メニューバー統計表示、MLXフレームワークを使用したWhisper音声認識モデルの統合などを含む機能的なアプリケーションの構築に成功した。

How Good Is GPT-5 Codex? I Built an App

Sign-up for updates to Verbi - transcription app: put GPT-5 Codex to a real test: I handed it a PRD in VS Code, ran it w...

GPT-5 Codex CLIの実践テスト
システム設計と要件
開発プロセスの開始
トークン生成の動的調整
テストと実行
ネットワークアクセスの制限と修正
アプリケーションの改良
統計機能の追加
総評と今後の展開

GPT-5 Codex CLIの実践テスト

Codex CLIをテストするために、私が日常的に使用しているアプリを再現してみましょう。私が作成したこのローカル文字起こしアプリは、音声を文字起こしに変換して、クリックした任意のテキストボックスに入力してくれるアプリです。

動作の仕組みは、いくつかのホットキーをクリックすると音声フィードバックが聞こえて、その後に転写することができます。再度ホットキーをクリックすると、文字起こしされたテキストが表示される仕組みです。簡単にデモをお見せします。

任意のテキストボックスに音声を文字起こししてくれるローカル文字起こしアプリの作成を手伝ってもらいたいと思います。この初期バージョンのすべての機能について、これから提供するPRDに従ってもらいたいと思います。

これは実際にリアルタイム文字起こしです。Whisper baseモデルを使用しています。比較的小さなモデルですが、それでもかなり正確です。

今回は新しいGPT-5 Codex highを選択します。どのくらい時間がかかるかもお見せします。ここでストップウォッチを開始しましょう。その前に、使用するはずのPRDを指摘しておきたいと思います。

useを使って、PRD.mdと言えばいいでしょう。現在、最新バージョンのGPT-5を高設定で使用しています。これはCodex CLI内でのコーディング用に特別にファインチューニングまたは最適化されたGPT-5のバージョンです。現在、VS Codeとの統合を使用しています。これがどのように動作するか見てみましょう。

システム設計と要件

構築したいものに関して、このシステムを呼んでいます。これは仮のタイトルで、おそらく変更されるでしょうが、アイデアとしてはApple Silicon上で動作するPythonバックエンドを持つスタンドアローンアプリケーションです。文字起こし用の音声テキスト変換モデルの読み込みと、後に文法的な問題を修正するLLMの両方にMLXフレームワークを使用します。

これはハイレベルなPRDです。コードスニペットも提供しました。簡単にするために、実際に動作するコードを書きました。この新しいGPT-5 Codexモデルがどれほど優秀かを見てみましょう。

このプロジェクトはいつかオープンソース化する予定です。興味があれば教えてください。このプロジェクトに関する更新情報を受け取るためのメールアドレスを入力できるボックスが用意されます。また、LLMやその他のクールな機能を持つ、より高度なバージョンも開発中です。

開発プロセスの開始

送信する前に、ストップウォッチを開始しましょう。どのくらい時間がかかり、どのような問題に直面するかを計測したいと思います。

これは、Codex CLIで構築できる実際のアプリケーションの例になります。実際にはIDEに統合されたCodexですね。この場合はVS Codeです。

現在、ファイルを読み込んでいます。ファイルを読み込み、アプローチを計画し、フォルダー内のリポジトリ構造を検査しているようです。そのPRDファイルしかありません。完成したら戻ってきます。

タスクリストを追加しました。最初はVerbbyの要件理解とモジュールレイアウトの設計です。次に、文字起こし録音ホットキーとメニューバーの実装。そして、サポートアセットの追加です。なかなか良いですね。実際に動作していることが確認できます。

初期コードを含むフォルダーが作成されました。私が提供したコードスニペットに基づいているようです。これが動作している間に説明しますと、この新しいGPT-5 Codexモデルは大規模で複雑なタスクに対して一度に7時間以上独立して動作し、実装を反復し、テストの失敗を修正することなどができるとされています。これは特に、生成できるトークン数がタスクの複雑さに基づいて動的に選択されることを考えると、非常に素晴らしいことです。

トークン生成の動的調整

例えば、GPT-5に対して非常に簡単なタスクを提供した場合、最も簡単なタスクの10パーセンタイルに対して、このモデルは約90%少ないトークンを生成するとされています。しかし、複雑さの観点で最後の10パーセンタイルになると、GPT-5モデルが生成する量の最大100%多く、つまり倍まで生成できることがわかりました。

これが、このアプリの作成に実際にどのくらい時間がかかるかを追跡したい理由でもあります。

すでに5分が経過し、まだ実装部分にいます。この時点での唯一の懸念は、アプリを構築している間にPlusアカウントの制限に達しないことです。

最初の反復または最初の実装が完了しました。合計で約9分かかりました。今度はテストして、動作するかどうかを確認する時です。

テストと実行

まず新しい仮想環境を作成します。codex-word-vと呼びましょう。Python 3.10を使用します。

次に、すべての要件をインストールしましょう。実際に作成されているか見てみます。はい、ありました。動作したかどうかを確認する時です。これを実行してみましょう。

まだ何も起こっていません。モデルをダウンロードしているのかもしれません。実際に開始されたのが確認できます。

これは文字起こしが動作するかどうかをテストする簡単な録音です。ホットキーは確実に動作しません。録音を停止して、何が起こったか見てみましょう。

問題が発生しました。これをコピーできるかわかりません。ドキュメントを調べる必要があると思います。最初のインスタンスでは実行しなかったと思います。ここでストップウォッチを再開して、どのくらい時間がかかるか見てみましょう。

約1分45秒かかりました。コードが更新されたようです。通常、これらのコーディングエージェントを使用すると、異なるパッケージバージョンを固定することがあり、それが問題を引き起こすことがよくあります。まず、ホットキーが動作するか見てみましょう。

実際に何かトリガーしています。これを実行してみましょう。

これは、この新しい文字起こしモデルの文字起こし機能の簡単なテストです。また同じ問題です。実際にドキュメントを調べるように頼む必要があると思います。

ネットワークアクセスの制限と修正

ここで、モデルまたはコーディングエージェントと多くのやり取りを行う部分になります。この場合、パッケージの固定バージョンを使用しているのは実際には見当たりません。

Codexの最大の問題の一つは、デフォルトでインターネットにアクセスできないことです。つまり、ドキュメントを調べることができません。例えば、ドキュメントに直接アクセスできなかったと言っています。この環境はネットワークアクセスがロックダウンされています。ランタイムでパッケージが公開するものに基づいてローダーパスを更新しました。

あまり期待はしていませんが、もう一度試してみます。ホットキーが動作するとは思いませんが、見てみましょう。いいえ、それは構いません。手動でトリガーしてみます。

これは文字起こし機能の簡単なテストです。今度は停止してみます。今度は実際にモデルをダウンロードしています。少し進歩しました。良いニュースです。完璧です。実際に動作しました。

アプリケーションの改良

別のテストを行いましょう。しかし問題は、ここからトリガーしなければならないことです。文字起こしは動作しているようです。しかし問題は、メニューバーに行って開始と停止の文字起こしをクリックすることでトリガーしなければならないことです。ホットキーは実際の文字起こしパイプラインをトリガーしていないようです。

うまくいきました。これを送信して、Codexが実際に解決策を見つけることができるか見てみましょう。ちなみに、最初の9分に加えて約6分か7分経過しています。続けましょう。

修正を実装したようですが、今度はホットキーを変更されました。今度はcommandとshiftになったはずです。見てみましょう。

録音が実際に開始されたようで、かなりきちんとした音声フィードバックも聞こえました。素晴らしいです。これはかなり素晴らしいですよね？20分以内にローカル文字起こしに使用できる実用的なシステムができたと思います。

これまでのところ、素晴らしい進歩です。今度やりたいのは、メニューバーでどのモデルが使用されているかを実際に確認できる機能を追加することです。

文字起こしに使用されているモデルも表示できますか？

今回、文字起こしをトリガーしたとき、最初の音声は聞こえませんでしたが、文字起こしはできました。現在、Whisper Small MLXを使用していますが、これはかなり優秀なモデルです。96GBの統合メモリを搭載したM2 Maxでこれを実行していますが、それでも本当に高速です。

これを再起動してみます。ここに行くと、使用されているモデルが実際に確認できます。本当に良いです。

統計機能の追加

統計も追加できますか？これは異なるセッション間で持続するべきです。

文字起こしされた単語数、節約されたキーストローク数、文字起こしプロセス中に節約された合計時間を確認したいと思います。これは正しいようです。続けましょう。

新しい機能が実装されたようです。これをクリアして再実行し、何が起こるか見てみましょう。

実際にここに統計が表示されています。これをトリガーしてみましょう。

すべての文字起こしの後で、モデルをアンロードして次の文字起こしのためにモデルを再ロードしているようですが、実際にそうなのでしょうか？

文字起こしは正しいです。戻ると、23語、141キーが確認できます。これは正確なようですが、そうなのか見てみましょう。

総評と今後の展開

この作業を続けるつもりですが、実際にかなり印象的だったと言わざるを得ません。高設定でのGPT-5 Codexは本当に優秀なエージェンシックコーディングツールで、テストしてみることを強くお勧めします。テストを続けて、問題を見つけたり発見したりできるかどうか確認するつもりです。

同じアプリを複数の異なるコーディングエージェントで複製しようと試みましたが、さまざまな程度の成功を収めることができました。しかし、ほぼ30分以内に少なくとも文字起こし機能が見つかった完全に機能するアプリを手に入れることができたので、これには本当に感銘を受けています。

今度やろうと思うのは、LLM部分を追加してから、これのスタンドアローンバージョンを作成しようとすることです。

興味があればその動画にご注目ください。また、文字起こしアプリに興味がある場合は、必ず通知にサインアップしてください。とにかく、このビデオが役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回またお会いしましょう。