OpenAIがすべてのコーディングアプリを破壊した – Codex

11,148 文字

OpenAI just destroyed all coding apps - Codex

Work 30% faster with Vectal: start a business with AI Agents? Go here: DEVs, I'M HIRING!...

OpenAIは史上最強のAIコーディングエージェントをリリースしました。それはCodexと呼ばれ、すべてのVIPコーディングアプリに対する真の脅威です。この動画では、Codexの使い方をお見せし、大規模な本番コードベースでテストし、それを使って何でも構築する方法についても説明します。
Codexの使い方ですが、実際にはChatGPTの内部から使用します。ログインすると、左側にこのCodexボタンが表示されるはずです。表示されない場合は、プランをアップグレードする必要があります。それをクリックしましょう。これによりCodexインターフェースの新しいタブが開きます。
まだリサーチプレビュー段階とあるように、完璧ではありません。しかし、それでも非常に印象的です。この動画の後半で、このAIエージェントがいかに強力かがお分かりいただけるでしょう。OpenAIが言うように、Codexを使えばずっと速く作業を進めることができます。これはクラウドベースのソフトウェアエンジニアリングエージェントで、ローカルコンピューターで動作するのではなく、OpenAIクラウド上で動作します。
コードベースに関する質問に答え、コードを実行し、プルリクエスト全体を単独で非同期に作成できます。つまり、1つのタスクでも50のタスクでも問題なく処理できるということです。OpenAIクラウド上で非同期処理されるからです。では「始める」をクリックして、実際にCodexを試してみましょう。
Codexができることの簡単な概要をご紹介します。GitHub プルリクエストを並行して作成できます。コードベース内を移動してバグを探し、コードをレビューして改善を自律的に提案できます。リントやテストを実行して、作成するコードが実際に動作することを確認できます。そして、まったく新しいAIモデルによって駆動されています。詳細は後ほど説明します。
次のステップは多要素認証の設定です。2FAを設定すると、ボタンが「GitHubに接続」という表示に変わります。今すぐそれを行いましょう。このボタンをクリックするとGitHub接続が開きます。「CHGPD コネクターを認証」をクリックしてください。それを行うと、ついにCodex UIに入ります。
これをクリックしてから「GitHubアカウントを追加」をクリックします。個人アカウントか会社組織のどちらかを選択するオプションがあります。私の場合、Vectoralは私のスタートアップで、これは5万人以上のユーザーが使用している本番環境の大規模なコードベースです。
実際の本番コードベースで、OpenAI Codexがいかに優秀かをお見せしようと思います。Vectoralを選択して、インストールして認証します。これでリポジトリが接続され、ここで選択できるようになりました。リポジトリを選択してチェックマークが付いたら、下にスクロールして「環境を作成」をクリックします。
これによりOpenAIクラウド上に仮想環境が作成され、あなたのリポジトリを使用してテストを書いたり、デバッグを行ったりすることができます。これは電話からでも行えます。これが本当の魔法なのです。次に、OpenAIがあなたのコードを使用してモデルの訓練と改善を行うかどうかを選択できます。
そしてOpenAIは、Codexが実行できる3つの事前作成タスクを提案します。まず最初に、新参者にコードベースを説明できます。一般的な構造は何か、重要な点は何かといったことです。次にコードを書くこと、コードベースの重要な部分を選んでバグを見つけて修正することです。そして他の質問として、コードベースを調べて問題を見つけることです。
このままにして、これら3つのタスクを開始しましょう。これがCodexの動作方法です。複数のタスクを同時に実行できます。例えば、ランディングページのUIを改善する必要があると思ったら、それを書いてタスクを開始します。TSXファイルにバグがあると思ったら、それを書いてそのタスクを開始します。これらのタスクを非同期で実行できるのです。
複数のタスクを同時に実行し、あなたは本当にCEOのように働き、仕事を委任するのです。もちろん、バックエンド全体の完全なリファクタリングはできませんが、小規模から中規模のタスクについては、このAIエージェントが実際にできることの数に驚かれるでしょう。
今、3つの無料タスクがあり、Codexがそれらに取り組んでいるのが見えます。それが実行されている間に、ベンチマークを見てみましょう。これがCodex one、OpenAI Codexを駆動する新しいAIモデルの性能です。現在世界最高の推論モデルであるo3 highと比較したものです。
ご覧のように、Codexはo3 highよりもわずかに信頼性が高く、精度も優れています。内部のOpenAIソフトウェアエンジニアリングタスクでも同様で、Codex oneは75％の精度を記録し、o3 highは70％です。
これを見て、デイビッド、これは大きな突破口には見えないと思うかもしれません。ベンチマークの面では大きな飛躍には見えないし、それは正しいです。本当の突破口はインターフェースにあります。70の異なるタスクを開始して、友人とコーヒーを飲みに行っている間に自律的に処理してくれるのです。
タスクの1つが完了したようです。それはコードベース構造の説明です。クリックしてみましょう。2分19秒でこれを完了しました。答えはこうです。リポジトリにはFast APIを使用したPythonバックエンドとNext.jsフロントエンドが含まれています。正解です。ルートレベルには、backend、frontend、instructions、scripts、test promptsのディレクトリがあります。
これは本当にAIで学習を進める最良の方法かもしれません。初心者のプログラマーや中級者で、どこかの会社で働き始める場合や、オープンソースのリポジトリを学びたい場合は、それをCodexに読み込ませて説明してもらうのです。これよりもプログラミングを学ぶ良い方法はないと思います。
このタスクはかなり簡単で、コードベースを説明するだけだったことは認めます。戻って、実際のタスクを与えてみましょう。Vectoralのカンバンボードに実際にあるもの、私が実際にやりたいことです。
例えば、Vectoral内の検索で、結果が逆順になっているように感じることがあります。この問題をコピーして、Codexに戻ってこのタスクを説明します。ここでは、あなたの役割が重要になります。問題を明確にする必要があります。問題が何なのか、どこにあるのか、あなたの直感はどうなのかを言う必要があります。
ユーザーがタスク、ノート、アイデアを見つけるための検索で、結果が正しく順序付けされていないように感じることがあります。最も関連性の高いものが一番上にあるべきですが、時々一番下にあります。検索結果のランキング方法とフロントエンドでの表示方法を調査し、最も関連性の高い/正確な結果が常に検索結果の上位に表示されるようにしてください。
プロンプトに満足したら、どのブランチで作業するかも選択できます。メインブランチや本番環境にあるものを使用することは絶対にお勧めしません。ステージング環境やローカルで実行するだけのサイドブランチを使用してください。
ブランチを選択したら、別のオプションがあります。AIエージェントがコードを書く必要がない質問をするだけの高速モードを選択するか、codeをクリックするかです。プロンプトが質問なのか、このファイルを説明する、そのフォルダの構造を説明するといったものなのか、または現在のようにタスクなのかによります。
codeをクリックします。これは新しいタスクを開始するだけです。私の時間をブロックすることはありません。何をすべきかを伝えただけで、それを開始してくれます。この強力さをうまく説明できません。創業者として本当に力を与えられた感じがします。多くのアイデアを委任できるからです。
私は常にアイデアが浮かびます。文字通り、カンバンボードを見ると、バックログに346件、To-doに94件あります。Vectorでは改善したいことがたくさんあります。しかし、無限の時間も開発者もいません。しかし今、Codexがあれば、これらの小規模から中規模のタスクをすべて開始して、リスクゼロでCodexに委任できます。
考えてみてください。最悪の場合何が起こりますか？コードを書いてくれる。テストに通らない。悪いコードです。大したことありません。失敗しただけです。しかし、マイナス面はありません。50の異なるタスクを与えて、10％でも動作すれば、それは既に5つの完了したGitHubイシューです。そうでなければ私や開発者がやらなければならないことで、Codexがなければ完了しなかったであろうことです。
これが本当に次のプログラミングパラダイムです。これが将来のプログラミングの姿です。コードの行を読むだけではありません。あなたが会社のCEOとして、数百のAIエージェントを下に従えて、ソフトウェアの改善方法を考え、タスクを作成して委任するのです。確かに、より複雑なものには関与する必要があるかもしれませんが、簡単なものは多くあります。これらのAIエージェントによって自律的に処理できるのです。
興奮しすぎる前に、与えたタスクが実行中です。しかし、下にスクロールすると、タスク「バグを見つけて修正」が完了しているのがわかります。クリックしてみましょう。これが非同期作業の魔法です。あるタスクを与えている間に、他のタスクを完了してくれるのです。
このコードをレビューしている間、与えた他のすべてのタスクに取り組んでいます。これは本当に、本当にエキサイティングです。Codexを使ってさらに高速に構築することに対する興奮と、そうエキサイティングさを説明できません。これはVIPコーディング2.0です。これが次のアプリのパラダイムです。CursorやlOVABLEなどがありますが、まだ多くの作業を自分でする必要があります。
そして、Codexのような自律コーディングエージェントがあります。これは本当にAIの次のレベルです。次のパラダイムです。AGIと人間がAGIと相互作用する方法への大きなステップです。Codexがここで何をしたかを見てみましょう。
これはOpenAIが提案した事前作成されたプロンプトです。コードベースの重要な部分を選んでバグを見つけて修正してください。3分間作業して、トークンカウンティングユーティリティにフォールバックメカニズムを実装しました。これにより、オプションのtick tokenパッケージがなくてもアプリを操作できます。
これはクレイジーなことだとは言えません。何もしないよりは良いかもしれませんが、そんなに感銘を受けるものではありません。戻って、カンバンボードから別の実際のタスクを与えてみましょう。これが見たいものです。事前作成されたOpenAIのものではなく、実際の作業です。
私のAIスタートアップで実際の作業ができるかどうかを見たいのです。このスタートアップは今日何千人ものユーザーが使用しており、Codexが15〜20％でも信頼できるなら、月に数百時間も節約してくれる可能性があります。
これは良いものです。ノートからリマインダーへの変換があり、予測可能すぎると思います。このタスクを説明して、ほぼ常に7日ごとに設定されると言い、その後、もう少しランダムになるようにプロンプトを書き直すべきだと言います。常に7日ごとや14日ごとではなく、13日ごとや19日ごと、31日ごとなど、具体的な数字を選ぶように伝えてください。
そして、vibeコーディングでお気に入りのプロンプトの1つを使います。他の何も変更しないでください。これを担当するプロンプトを微調整するだけです。codeをクリックします。これで別のタスクを開始しました。その間に、前のタスクに結果が出ています。クリックしてみましょう。
これは検索結果の問題です。上にスクロールしましょう。検索で順序が間違っているように感じるという問題です。2分18秒間作業しました。ちなみに、Codexの内部にいるときは、右上で何個のタスクが作業中かを常に確認できます。
現在は1つですが、これを最大化すべきです。現在Codexは月200ドルのproユーザーのみ利用可能です。これは私が使用しているプランです。teamユーザーが最もコストエフィシエントな方法です。ChatGPT teamsを取得してもう一人誘うだけで、月60ドルを支払ってアクセスできます。月200ドルを支払う代わりにです。
プロチップ：Codexに最も安くアクセスしたい場合は、teamプランを使用してください。家族や友人を招待して、コストを分割すれば、ChatGPT Plusとほぼ同じ価格でCodexにアクセスできます。pro、team、enterpriseプランではアクセスできます。現在、freeユーザーとplusユーザーはアクセスできません。
何をしたかを見てみましょう。コードはクライアント側で結果をソートするようになりました。各オブジェクトに数値のrankフィールドが含まれると仮定しています。正しいかどうかわからない仮定をしています。コードを見てみましょう。
2行のコードを追加し、1行を削除しただけです。それは少し疑わしいです。そしてテストを書きましたが、テストは失敗しました。npm run lintはnextコマンドが見つからないため実行に失敗しました。これがCodexの素晴らしさです。実際にテストの結果を見ることができます。
フロントエンドの正しいフォルダにcdしました。実際、それは印象的です。そしてnpm run lintを実行しましたが、そのコマンドが見つかりませんでした。これは正直言って、OpenAIの設定の問題だと思います。私のコードベースやこのタスクとは関係ありません。OpenAIが環境に十分なパッケージを提供しておらず、実際にはできないコマンドを実行しようとしただけのようです。
繰り返しますが、Codexはリサーチプレビュー段階なので、完璧ではありません。理解してください。多くのバグがあると言わないでください。もちろん多くのバグがあります。私たちはAIの最先端にいるのです。これは可能性の限界を押し広げています。もちろんバグ、エラー、ミスがあります。しかし、私たちは未来がどのように見えるかを目撃しているのです。
本当にそれを評価してほしいのです。OpenAIは最近好調で、Codexは2025年これまでのお気に入りのリリースかもしれません。彼らは多くの機能をリリースしました。各タスクでは、右上にpushというボタンがあります。満足している場合は、GitHubで新しいプルリクエストを作成するか、下書きとしてプルリクエストを作成するか、git applyをコピーするか、パッチをコピーするかを選択できます。
満足している場合の4つの異なるオプションがあります。個人的には、存在しない可能性があるrankフィールドを仮定しているので、これには満足していません。戻って別のタスクを与えます。カンバンボードに行って、他の作業を見つけましょう。
これは興味深いかもしれません。チャットエージェントモードに基づいてチャット入力色を変更する。実際にこのプロンプトを改善しましょう。ユーザーがエージェントモードかチャットモードかに応じてアウトライン色が変わるように、チャット入力エリアのフロントエンドUIを更新したいです。エージェントモードの場合は、色をそのままにします。
しかし、チャットモードの場合は、チャット入力エリアの周りに薄い青いアウトラインを追加してください。プロンプトを改善して、何をすべきかを明確にしました。これもCodexでの体験に影響します。プロンプトが曖昧で混乱し、コードベースで何が起こっているかわからず、適切にガイドできない場合、悪い結果になります。
しかし、正しい方向に向けた正確なプロンプトを書けば、Codexでの精度がはるかに高くなります。このタスクを開始して、完了した前のタスクに戻りましょう。2〜3分ごとにタスクが完了し、新しいタスクを与えたり、最後のタスクをレビューしたり、正しかったかどうかを確認したり、正しくなかった場合は他のものを与えたりできます。
例えば、ここでrankフィールドが本当にあるのかと聞くことができます。なければ、この変更は欠陥があります。コードベースとsuperbase setup MDファイルを調べて、DBの構造を本当に理解してください。結果に満足していない場合は、そのタスクを諦めないでください。フィードバックを与えて、もう一度試してもらいましょう。
特定のタスクをクリックしてCodexが実行されているのを見たい場合の実際の様子です。インターネットがオフになっていると言っています。コンテナセットアップ完了後にインターネットがオフになります。興味深いです。まず環境セットアップを行います。次にインターネットをオフにします。そして私のプロンプトを送信し、何をしているかを言っています。agents.mdファイルを開いています。
これは見せておくべきものです。agents.mdファイルは実際にはシステムプロンプトです。Cursorを使用しているなら何を意味するかご存知でしょうが、グローバルのカーソルルールファイルのようなものです。Codex内のAIエージェントがどのように動作し、考え、振る舞うかを記述できます。
私たちの場合、ルートまたは2レベル以内にagents.mdがないとあります。追加しましょう。GitHubに戻って、agents.mdファイルを作成し、設定します。Codexを真剣に使用したい場合、これは非常に重要です。
ご覧のように、リポジトリでカーソルignoreとカーソルルールファイルと同じレベルにいます。ファイルを追加して新しいファイルを作成します。OpenAIが推奨するとおりに、正確にagents.mdと名前を付けます。ここにシステムプロンプトを記述します。これが本当にパンとバターであり、Codexの動作を制御できるようにするものです。
Cursorに切り替えて、数百時間をかけて最適化した418行の長いCursorルールファイルをコピーして、agents.mdファイルとして使用します。私の完全なCursorルールファイルと他のすべてのプロンプトと指示にアクセスしたい場合、これらすべてはnew societyのクラスルームで利用できます。
テンプレートプリセットの下にCursorルールファイルと他の多くの強力なプロンプトが表示されます。さらに、高度なAIチュートリアルセクションに入ると、実際にプロンプトエンジニアリングワークショップを受講できます。これは8モジュールのワークショップで、完全な初心者から99％の人よりもプロンプトエンジニアリングが上手な人になれます。
Codexを真剣に使用したく、OpenAI Codexで最高の結果を得たい場合は、プロンプトエンジニアリングのスキルをマスターしてください。そうすれば、このような強力なシステムプロンプトを書く能力を身につけ、AIエージェントのパフォーマンスを次のレベルに引き上げることができます。
プロンプトエンジニアリングをマスターしたく、new societyの他のすべての独占コンテンツにアクセスしたい場合は、必ず参加してください。動画の下にリンクがあります。完全にリスクフリーにするために、質問なしの返金保証があります。コンテンツやプロンプトが気に入らない、または感じが良くない場合は、お知らせください。お金を返金します。new societyに参加するには、動画下のリンクをクリックしてください。
agents.mdファイルに満足したら、もちろんいつでも変更できますが、「変更をコミット」をクリックしてこのファイルを作成します。下にスクロールすると、ルートレベルにagents.mdファイルがカーソルルールと一緒に表示されているはずです。
Codexに入って、すべての新しいタスクについて、過去のタスクには機能しません。既に実行されているからです。しかし、すべての新しいタスクについて、agent.mdファイルがあるかどうかを検索し、ある場合はそれを使用し、その指示に従います。
Codexに入って何が起こるかを見てみましょう。rankがあるかどうかのフィードバックを与えて、さらに2分半間作業し、検索を駆動するSQL関数が計算されたrankフィールドを返すと言いました。つまり、それはそこにあります。
これは実際に印象的です。これがどのように機能するかをよりよく説明するためにコメントを追加しました。それは本当に良いです。文脈として、これを構築したのは私ではありません。私の開発者の一人が構築しました。だから、ここのすべてのフィールドに詳しくないのです。しかし、提案した変更は正しかったようです。
pushして新しいPRを作成します。読み込み中です。新しいプルリクエストを作成します。これはGitHubプルリクエスト内で見ることができるはずです。すぐに表示されるはずです。ありました。再読み込みしましょう。プルリクエスト1です。クリックしてみましょう。
ここにあります。Codexタグで作成された検索ランクフィールド使用の明確化です。これがAIエージェントによって作成されたことがわかります。これが仕事の未来です。50のタスクを与えて、その半分をプルリクエストに変換し、最も上級の開発者がGitHub内でプルリクエストを素早くレビューして、受け入れたり拒否したりするのです。
本当に未来に生きています。もっと見る必要があります。Codexをもっとテストする必要があります。これは中毒性があります。すごいです。ノートからリマインダーへのリファクタも完了しました。クリックしてみましょう。これはとてもエキサイティングです。このように16時間働けるかもしれません。信じられません。
上にスクロールしましょう。ノートからリマインダーエージェントが予測可能すぎるという問題です。正しいプロンプト、適切なプロンプトを見つけました。現在のパターンメッセージ.mdを生成します。markdownファイルです。私の指示に基づいて、よりランダムまたは具体的に感じるようにプロンプトを書き直しました。
しかし、メインパートは、プロンプトの正しいファイルの正しいセクションを見つけて、正しく行ったことです。これがメインパートです。明らかにこれはクレイジーなことではありませんが、この変更が正しいことを既に知っています。push、新しいPRを作成します。
素晴らしいです。Codexのおかげでどれだけ速く作業できるようになるか理解していません。この月200ドルのサブスクリプションは、簡単に月数千ドル稼いでくれるでしょう。週に数十時間節約してくれます。カンバンボードのこれらすべてのものをCodexでテストできます。
明らかにほとんどを完了することはないでしょう。正直に言って、30％がCodexによって完了されるとしても、それでも月に数百時間節約してくれるでしょう。すごい、とても興奮しています。戻りましょう。
このタスクはレビューされました。PRを開いて、これを見てみましょう。チャット入力アウトラインの更新です。これはより多くのフロントエンドUIタスクです。2分11秒作業しました。ご覧のように、通常2〜4分間作業します。もちろん、もっと複雑なものを与えれば、もっと時間がかかります。
しかし、これが最も一般的です。ここで何が起こったかを見てみましょう。チャットモードをinput area TSXに渡しました。チャットモードの場合は、青いアウトラインを行います。もう1つのファイルがTSXで変更され、実際にチャットモードを渡します。types.ts内でも、チャットモードを渡します。
依存関係を認識しています。UIのファイルを変更しただけでなく、チャットモードを渡す必要がある他の3つのファイルを変更しました。linterテストに失敗していますが、これは本当にOpenAI側の環境のセットアップの問題だと思います。私のコードベースやこの特定のタスクの問題ではありません。しかし、これを変更したにもかかわらず、これは正しく見えます。pushをクリックして新しいPRを作成します。
戻りましょう。メインのCodexページ、つまりこのページにいるときは、実際にタスクのリストをクリーンアップできます。これらはOpenAIからの元のタスクでした。正直言って、みんなのために事前作成されたものなので、私はあまり気にしていません。私が気にしているのは、私のVectorリポジトリ用のこれらの特定のタスクです。
このアーカイブボタンをクリックできます。これらをアーカイブできます。そうすれば、タスクのリストがきれいになります。Vectoralと同じように、メインタスクが実際に最も重要なものであることを確認したいのです。
もちろん、アーカイブされたタスクを見たい場合は、そのためのタブもあります。そうすれば、何でもアーカイブを解除して、作業を続けることができます。これがChatGPT Codexです。これは2025年これまでで最も重要なAIエージェントかもしれません。軽々しく言っているわけではありません。
これはAGIへの大きな一歩です。これは大規模なことです。作業を委任できます。複数のタスクで非同期的に作業できます。10、20、50以上のタスクを一度に処理できます。ランダムな思考を取り、10〜15秒で説明し、AIエージェントに送ることができます。それがやってくれるかもしれませんし、やってくれないかもしれませんが、いずれにしても以前よりも進歩しています。
本当に、ビジネスを始めたり、AIスタートアップを構築することを考えているなら、今ほど良い時期はありません。私のテストと私のチームのテストから、ChatGPT Codexは本当に魔法のように感じるからです。私はCodexについてこれが最後の動画ではないという強い感触を持っています。
ChatGPT Codexについてもっと動画を作ってほしい場合、もっと詳しく調べて、本当に難しいリファクタリングや完全な大きな機能でテストしてほしい場合は、下にコメントして購読を忘れないでください。YouTube Studioによると、あなたたちの33％しか実際に購読していません。この動画で多くの人が購読するのを見れば、より多くのCodexコンテンツがあなたが望むものだとわかります。
これで終わりです。視聴ありがとうございました。素晴らしく生産的な一週間を過ごされることを願っています。また会いましょう。