GPT-5 Codexは最強の自律コーディングエージェントだ

GPT-5
この記事は約16分で読めます。

この動画は、OpenAIが新たにリリースしたGPT-5 Codexという自律コーディングエージェントの実力を検証した内容である。従来のプログラミング手法を大きく変える可能性を秘めたこのツールは、最大7時間もの連続作業が可能で、ブラウザーを起動して自らデバッグを行う機能も備えている。作者は非開発者の立場から、手の動きで制御するFlappy Birdゲーム、Webカメラを使った音声変調アプリ、YouTube分析ツールなど複数のプロジェクトを作成し、その驚異的な能力を実証している。特に注目すべきは、技術的な背景を持たない人でも200ドルの月額プランで本格的なアプリケーション開発が可能になった点であり、スタートアップのプロトタイプ作成における参入障壁が大幅に下がったことを示している。

GPT 5 Codex is a BEAST Autonomous Coding Agent
Tutorial: latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happ...

GPT-5 Codexの革新的機能

画面に映っているのは未来の一端です。これは4つの異なるCodexエージェントが同時に動作している様子で、すべて私が依頼したさまざまなソフトウェアを作成しており、かなり長時間作業を続けています。

OpenAIは最近、Codexの新バージョンを導入しました。実際には新しいモデルです。このモデルをGPT-5 Codexと名付けています。私はその名前についてはもう触れません。どうでもいいことです。彼らの製品の命名方法について、十分長く見ていると、もうあきらめるしかないんです。

そういうわけで、GPT-5 Codexは実際のモデルです。現在、Codex CLIなど多くの異なる製品に搭載されています。もしあなたが試してみたいなら、これをコピーして、お気に入りのターミナルに行き、ペーストして実行するだけです。

私はすでにインストール済みです。インストールすると、ChatGPTアカウントにログインし、何かを構築できるようになります。これがCLI、コマンドラインインターフェースです。上部でモデルを選択できます。これがGPT-5 Codexです。こんな感じに見えます。613,000トークンが使用され、コンテキストが56%残っていることに注目してください。

これが何をできるのか、すぐにお見せしますが、まずなぜこれが大きな出来事なのかを理解することが重要です。第一に、Codexを使用するすべての場所で利用できることです。クラウドタスクやコードレビューに使用できます。Codex CLIや任意の統合開発環境を通じてローカルタスクにも使用できます。

たとえばVS Codeを使うことができます。そして、ここが非常に興味深い点です。基本的に、コンピューターでの手作業と、シームレスに行き来できるのです。例えば、眠らなければならないとします。クラウド環境にシームレスに移行します。あなたが寝ている間や外出してビジネスをしている間に、このツールが独力で作業できるタスクを作成します。

それでもやりとりしている間は確認することができます。そして、驚くほど長時間自律的に動作できるのです。ここで述べているように、テスト中に、GPT-5 Codexが大規模で複雑なタスクに対して一度に7時間以上独立して作業し、実装を繰り返し、テストの失敗を修正し、最終的に成功する実装を提供することを確認しています。

私は一度にこのツールで7時間近くの作業時間を取得することはできませんでしたが、それが可能だと信じています。このツールは長時間作業できます。

クラウド環境での実践例

ここで、たとえばクラウド内のCodexを見てみましょう。つまり、Webバージョンです。ご覧のとおり、プロジェクトに11分間取り組み、1000行近くを追加し、PRを作成しました。そのプルリクエストを取得してリポジトリにマージすることができました。

覚えておいてください、私は開発者ではありません。あちこちでコードを扱ったことはありますし、オンラインで多くのことをしてきましたが、開発者として常勤の仕事をしたことは一度もありません。1万時間を費やしたこともありません。

ですから、このようなことの多くが、必ずしも常勤の開発者ではない人々にとって、はるかにアクセスしやすくなっているようです。

OpenAIチームのメンバーであるRuneは「今こそ、内部関係者にとって最も急速な離陸に見える時期です。私たちはもうプログラミングしません。ただCodexエージェントに怒鳴るだけですが、一般的なチャットボットメディアが飽和状態になるにつれて、他の人には遅く見えるかもしれません」と言っています。

GPT-5 CodexはすでにCodexトラフィックの40%を占めているようです。人々はこれを気に入っているようで、これらのエージェントがこれらのコーディングタスクをより賢く実行するための強化学習を行う方法を理解したようです。

パフォーマンス分析とユーザー移行

ここにグラフがありますが、最初は少し混乱するかもしれませんが、OpenAIのGnome Brownがかなりよく説明していると思います。

彼は、GPT-5 Codexが最も簡単なクエリに対して10倍速く、最も計算量から最も恩恵を受ける最も困難なクエリに対して2倍長く考えると言っています。つまり、前のモデルよりもはるかに複雑なものについてより多く考える傾向があります。より深く考える価値がある問題により多くの思考を割り当て、この下位10パーセンタイルでの単純な問題についてはより少なく考えます。前のモデルGPT-5 Mediumより94%近く少ないトークンです。

前に取り上げたように、AnthropicのClaude CodeからOpenAIのCodexに人々が移行する非常に大きな傾向があるようです、最近見ているコメントのいくつかに基づいて。そして、これは24時間未満しか出ていないことを覚えておいてください。しかし、多くの人がCodexに移行するようです。

ここからが興味深くなります。Codexでは、画像を使用してフロントエンドのデザイン仕様を共有したり、UIバグを説明したりできます。つまり、スクリーンショットを撮って「これのように見せて」と言うのです。または、何かが壊れているデザインがあれば、円で囲んで「これを修正して」と言うだけです。

スタートレックの異星人を覚えていますか。他の船から本当に賢い人々を誘拐して、それから「壊れています。私たちの船を動かせますか?」と言うだけです。それが彼らの能力の範囲でした。物を指差して「壊れています。動くようにして」と言うだけでした。

またはRuneが言うように、私たちはもうプログラミングしません。ただCodexエージェントに怒鳴るだけです。

自律的なトラブルシューティング機能

さて、異なるコーディングモデルはしばらくの間その機能を持っていました。それは特に新しいものではありませんが、今私たちは、私が本当に楽しみにし、話し続けてきたこれらのスキルをモデルが開発し始めているのを見始めています。それは実際に行って、ブラウザーを使用し、ビジョンを使用して独自のトラブルシューティングを行う能力です。

ここで彼らは言っています。あなたのために構築するにつれて、Codexは独自のブラウザーをスピンアップし、構築したものを見て、反復し、結果のスクリーンショットをタスクとGitHub PRに添付できます。

そしてその例がここにあります。これはこのエージェントが行っているクラウドタスクの一種です。そして私が思う大きなポイントは、私たちがゆっくりとタスクを委譲するこのエージェント時代に入り始めていることです。

それは単独で行って実行します。そして私が見る限り、これらのより長い期間のタスクでかなり正確になってきています。

実際の開発プロジェクト例

それでは、私が構築したいくつかのものをお見せしましょう。覚えておいてください、私はそれほど多くの時間をいじる時間がありませんでした。これは24時間未満しか出ていません。

おそらく数時間いじる時間があったのと、クラウドで作業している間のAFK時間もありましたが、このツールができることの表面をかじっただけのような気がします。真に困難なプロジェクトを持つ誰かがこのツールを解き放って、それがどこに連れて行くかを見ることを本当に期待しています。そうすれば、これを真にテストすることができます。

ここで私がそれで行っていることのいくつかの例があります。覚えておいてください、これは真のテストではありません。このツールを本当にテストするためには、はるかに挑戦的で複雑なものを思い付く必要があります。これらは、このツールをテストするために頭の上で思い付いた最初のいくつかのテストプロジェクトでした。

見てみましょう。

Flappy Birdプロジェクトの作成

本当に素早く、実行方法をお見せしましょう。私はWindowsを使っています。いいえ、理由は分かりません。LinuxやMacを使っているなら、素晴らしいことです。しかし、Windowsでは、ディレクトリを変更するためにCDと言います。私のものはすべてcode/codexにあります。そこに行きます。mkdirをします。ディレクトリを作成します。flappy birdと呼びます。そのディレクトリに入ります。Enterを押します。

そして、codexと入力してCodexを実行します。ご覧のとおり、どのディレクトリにいるか、どのモデルを実行しているかが表示されます。それはGPT-5 Codexです。それが一日の始まりですね。/modelを実行してモデルを変更できます。/initでCodexの指示が入ったagent.mdファイルを作成します。これは非常に重要です。

このモデルのアップグレードの1つは、それらの指示にはるかによく従うことができることです。重要なプロジェクトで作業している場合、それはおそらく最初に始める場所です。詳細は後のビデオでカバーします。

通常、私は承認から始めます。これにより、このツールが何をできて何をすべきでないかを設定できます。

デフォルトでは、読み取り専用で開始するため、実際には何もできません。自動は、すべてのことを実行できることを意味しますが、すべてをあなたと確認します。フルアクセスは、ただ実行するように指示することです。自己責任でのみ使用してください。そこから始めましょう。

/modelを実行すると、推論とモデルを選択できます。

GPT-5 Codex Mediumでできなかった唯一のことは、Webカメラの前で手を使って鳥の羽ばたきを制御するFlappy Birdクローンを作成することでした。では、highに行って再試行してみましょう。

Webカメラの前で手を羽ばたかせて鳥を制御するFlappy Birdゲームを作成して、Enterをクリックすると実行されます。

他に構築したものを確認している間、これを放置しておきましょう。

音声変調Webアプリの開発

まず最初に、Webカメラの前で手を使ったときに私の声を変調する小さなWebサイトアプリを構築できるかどうかを確認したかったのです。再び、私はそのテストが好きです。なぜなら、一緒にプラグインして動作する必要がある多くの異なる種類のことを利用するからです。

ビデオがあり、オーディオがあり、手の認識があります。カメラの前で指がどこにあるかを追跡する必要があります。ある種のオーディオ変調を行う必要があります。つまり、そこに入る多くのものがあります。そして、それを使いやすいWeb形式に構築する必要があります。

何回か試行錯誤しました。主にオーディオが出力されなかったためですが、他のすべては最初のショットから完璧に動作していました。

見てみましょう。

このWebサイトがどのように見えるかです。ご覧のとおり、私のRazer Kiyo Pro Ultraと使用したいマイクを使用することを要求しています。これまでのところ、すべてが本当に、本当によく動作しています。接続するためにこのストリームを停止する必要があります。

よし、このテストをしてみましょう。

左手で、私はピッチを制御できます。ピッチがここまで上がったときに私の声がどのように聞こえるか、またはここまで下げたときにどのように聞こえるかを見てみましょう。ピッチが89のときはどのように聞こえますか?そこです。

反対側には、wetがあります。これが動作するには、ピッチも必要だと思います。

wetレベルを上げると、これがどのように見えるかです。これはwetレベルが高いときです。そして、ここではwetレベルが低いです。wetレベルが低いです。

ところで、このチャンネルを楽しんでいるなら、私にとても、とても、とてもお願いがあります。必ず購読して「いいね」ボタンを押してください。それはとても助かります。本当に。

これはかなり大きな飛躍だと言わざるを得ません。

そんなに昔ではなく、数ヶ月前、これは言語モデル、コーディングエージェントがたった一つのプロンプトで行うことが不可能ではありませんでした。そして、もしワンショットでできなかったとしても、再試行するように指示することはめったにうまくいかなかったでしょう。

今、これらのより高度なエージェントでは、問題が何であるかを知ると、修正するまで作業し続けます。

かなり印象的です。ここには多くの動く部品があり、完璧に釘付けにしています。ウェットとドライの右手は時々クリップインおよびクリップアウトしましたが、手を使って望むように音声を変調できます。これはかなりクールです。

90年代テーマのWebサイト制作

次に、人工超知能を販売しているクールな90年代のビデオゲームをテーマにしたWebサイトを作成できるかどうかを確認したかったのです。

船が浮かんでいるゲームのような背景が欲しかったのです。それに向かってミサイルが飛んでいるものや、毎秒これらの大規模な取引を利用するためにサインアップする人数を示すカウンターなどがある場所を完全に爆破しました。

これは完全に機能するWebサイトです。

異なるボタンをクリックすると、行くべき場所に連れて行かれます。まあ、まだチェックアウトプロセスはありませんが、フロントエンド、そのすべてが動作しています。もちろん、100% AIによって作成および生成された証言があります。本当に良いコールトゥアクション、非常に、非常にリアルに見せるための多くの数字があります。

よくある整合性のある質問。それは興味深いです。そして信じられないかもしれませんが、動作するプライバシーページとそのすべてがあります。セキュリティとキャリア。ミッションブリーフを送信できます。メールアドレスまで作成したことに気づきました。そのメールアドレスにはメールしないでください。誰のものかわかりません。

しかし、これは簡単なことでした。

だから、はるかに難しいものが必要です。これが次のテストラウンドで計画していることです。はるかに多くの機能と、Web開発の能力に関してこのモデルを困惑させることができるかどうかをテストするためのさまざまなことがたくさんあります。これまでのところ、つまり、これは素晴らしいです。再び、少し簡単すぎます。

YouTube分析ツールの開発

YouTube界で何が起こっているかに注意を払っているなら、おそらく多くのクリエイターが視聴回数が減っていると言っているのを見たことがあるでしょう。それは100%自動化されたトラフィックと関係があります。季節的なものではありませんが、このLinus Tech Tipsクリップで、彼らは何が起こっているかを分析するのに役立つ小さなソフトウェアを作成しました。

小さなソフトウェアは、それを言うより良い方法だと思います。この紳士は、彼らのエンジニア/テクサポートの人だと思いますが、これを作成しました。これが基本的に行うことは、欲しいチャンネルからYouTubeからデータを取得し、視聴回数に対するいいねの比率を表示することです。

基本的に、8月13日頃のどこかで、すべてが起こり始めたようです。YouTubeは多くのトラフィックをフィルタリングする方法を理解しました。本当の人間が残り、多くの自動化されたトラフィックがカットされました。いいねと視聴回数の比率が天井を突き抜けたので、それがわかります。つまり、いいねの数は一貫していましたが、視聴回数が減ったため、比率が増加しました。

ところで、あなたが本物の人間なら、いいねを押してください。

それは今本当に助かっています。お願いします、いいねを押してください。あなたが汚いボットでないことを示してください、お願いします。

しかし、要点は、彼らがこのツールを使用して他のいくつかのチャンネルを分析し、そのようなグラフにレイアウトしたことです。Codexが私のために同様のものを作成できるかどうかを確認したかったのです。

私が選択したチャンネルからYouTubeからデータを引っ張り、いいねと視聴回数の比率が何であるかを把握するためにYouTube APIを使用するものを構築するように依頼しました。

これが思い付いたものです。たとえば、Sabine HossenfelderのチャンネルIDを入力すると、このように見えるでしょう。

そこにあります。ここで展開しましょう。ご覧のとおり、5%、6%、7%のいいねと視聴回数の比率があります。Tech Linkedでも同じことです。つまり、同様の数字です。

すべてがよく見えます。グラフのPNGも作成するので、見ることができ、自動的にそのフォルダーに保存されます。つまり、それでできることは非常にきれいで、それらのタスクを完了するのがかなり得意です。再び、非常にクールですが、次回はもっと厳しくやります。約束します。

OpenAI API音声アシスタント

次に、OpenAI APIを使用して音声アシスタントを作成できるかどうかをテストしました。

これがどのように見えたかです。話すためにEnterを押してください。何日ですか?今日は2023年10月3日です。他に何か手伝うことはありますか?

それはかなり良いです。Enterを押して音声を録音します。それを転写し、アシスタントが音声で応答します。再び、それはやや単純ですが、過去には、API、サウンド、インストールする必要があるさまざまなパッケージなどがあるため、このようなタスクでこれらのコーディングエージェントの多くが失敗していました。

ここで、音声で少し苦労しました。実際にOpenAI APIに接続するのは非常に簡単でしたが、音声出力は数回の反復が必要でしたが、最終的にそれを釘付けにしました。

Flappy Birdの完成とテスト

そして最後に、私たちのFlappy Birdです。ご覧のとおり、感情を追跡しています。最初、私はこれをすることになっていると思いましたが、それはうまくいきませんでした。

明らかに、あなたは本当に手を振ることになっています。できるかどうか見てみましょう。そこです。基本的に、手を振ると、鳥が翼を羽ばたかせます。驚くほど難しいです。

それは少しワークアウトだと言わざるを得ません。コンピューターの後ろで一日の大部分を過ごす人にとって、それは少しワークアウトだと言うべきです。

しかし、それを釘付けにしました。再び、以前のモデルからの飛躍です。あら、また始めてしまいました。しかし、このモデルに対してより困難で挑戦的なタスクを行う必要があります。

総括と今後の可能性

全体として、これまでの初期テストには非常に感銘を受けています。新しいおもちゃを見つけたような気がして、非常に興奮しています。ここで探索すべきことがたくさんあります。

ターミナルID、Web、彼らが言うように電話の間を行き来する能力、それは大きな出来事のように思えます。コンピューターから離れて非同期で物事を完了させ、電話で確認することができます。これはかなり大きな飛躍のように感じます。

今、これがみんなが本格的なソフトウェアを開発するために使用することを意味するかどうかはまだ確信がありません。

YouTubeで開発者であるテストした人はほんの一握りです。これまでのところ、非常に、非常に有望に見えます。実際の企業の本格的なプロジェクトでこれがどれほど良いかを教えてくれるのは彼らに任せます。

しかし、これが100%ゲームチェンジャーになるのは、たとえば自分のアプリでスタートアップをすることを考えている人々のためです。

彼らはシンプルなプロトタイプが必要です。昔なら作成するのは困難だったかもしれません。誰かが特定の領域で何らかの知識を持っているとします。彼らはその知識を活用するアプリを作成したいのですが、コーディングの背景がありません。過去には、開発者に開発してもらうために多くのお金を支払うか、スタートアップにするためにお金を調達するか、技術的な創設者と提携するか、自分でやる方法を学ぶために多くの時間を費やす必要がありました。それが変わりました。

今、特にシンプルなアプリの場合、独自のソフトウェアの作成を開始することが非常に簡単になっています。市場のトラクションがあるかどうかを確認するために友人にテストを開始してもらうプロトタイプが必要なだけです。ゼロから1への道。それははるかに簡単になりました。

それは基本的に全世界に創造性を開放します。

アイデアを持つ誰でも、多くのお金を投資することなく、かなり迅速かつ簡単に開発できます。Proプランを取得すれば、それは月額200ドルで、丸一ヶ月をランク付けに費やすだけで、おそらく200ドルでローンチできます。

より詳細なテストが近日中に来ます。しかし、今のところ、私が座っている場所から、これは非常に刺激的に感じます。

ここまで到達したなら、人間であることを証明するために親指を上げるボタンを押してください。次回お会いしましょう。

コメント

タイトルとURLをコピーしました