OpenAIが初の本格的AIコーディングエージェントをローンチ

5,532 文字

OpenAI Just Launched the First REAL AI Coding Agent

OpenAI just dropped Codex; a powerful new coding agent that acts like multiple remote engineers in one. In this video, w...

今日は、私たちがソフトウェアエンジニアリングの行く先だと考えている方向への一歩を踏み出し、並行して多くのタスクを実行できるリモートソフトウェアエージェントという新システムをリリースします。このシステムをOpenAIの命名の伝統に従って「Codeex」と呼びます。
OpenAIが「Codeex」をリリースしました。これは複数のタスクを同時に処理できるクラウドベースのソフトウェアエンジニアリングエージェントです。直接OpenAIのインフラストラクチャ上で動作します。彼らの説明によると、各タスクはリポジトリがプリロードされた独自のクラウドサンドボックス環境で実行されます。これはCodeex 1によって駆動されており、これはソフトウェアエンジニアリング向けに最適化されたOpenAIのO3モデルのバージョンで、実際のコーディングタスクに関する強化学習を用いて訓練されています。
つまり、人間のようにコードを生成するように訓練されているのです。ベンチマークや実際の例に入る前に、この公式ライブストリームからの短いクリップを見て、このエージェントとの作業がどのようなものかを感じてみましょう。私のように開発者でない方には、一部理解しにくい内容かもしれませんが、それでも見ていて驚くべきものです。
これはAIがコードを生成しているだけではなく、実際の問題を解決し、ワークフロー全体を加速させ、さらに自ら変更を提案しているのです。こちらをご覧ください。
デモに直接入ります。通常であれば、GitHubアカウントを接続する必要がありますが、私は既にそれを済ませています。ここで私のリポジトリを選択します。オープンソースのリポジトリ、preparednessリポジトリを選択しました。これには私たちの素晴らしい準備チームが作成したフロンティア評価が含まれています。これは関連性があります。フロンティア評価はエージェントに関するものだからです。このような環境を使用します。
そして、どのリポジトリでも始めるのに良いと思われる3つのタスクが表示されます。最初は「ask」タスクで、コードエージェントCodeexに新しい人のためにコードベースを説明してもらい、一般的な構造を説明してもらいます。2つ目は「code」タスクで、リポジトリのどこかにあるバグを見つけて修正するよう依頼します。ご存知の通り、ほとんどのリポジトリにはバグがあります。Codeexエージェントがバグを見つけられるか見てみましょう。
私はそこにバグを入れていません。これは私たちが毎日扱うコードです。今日は2つのリポジトリを紹介します。一つはpreparednessリポジトリで、もう一つはcodeex CLIのリポジトリです。最後の1つは私が特に楽しみにしているもので、コードベースを探索するだけでなく、自分自身で行える積極的なタスクの提案も考えるよう依頼します。
それでは始めましょう。これで3つのCodeexエージェントが同時にバックグラウンドでこれらのタスクに取り組んでいます。また、私のお気に入りの一つとして「できるだけ多くのタイポや文法ミスを見つけて修正する」というタスクも行います。これは重要ではないかもしれませんが、私がタイポをしても指示を理解できるか見てみましょう。
このライブに入る前に、Codeexエージェントに興味深いことを尋ねるタスクをスケジュールしました。私の目標について尋ねました。「私のコードベースを保守しやすくバグのないものにしたいです。コードを読んで、この目標に役立つタスクをいくつか提案してください。TODOの強調はやめてください。TODOはコードベースのあらゆる場所にありますから。新しいアイデアが欲しいです。」そして、Codeexエージェントはコードベースを調査して、小さな環境の中でこれから見せるように、複数の問題を発見しました。
こちらを見てみましょう。一つは引数としての変更可能なデフォルトがあるようです。Codeexに修正してもらいましょう。これは確実に修正すべきです。スケジュールしましょう。変数のスペルを修正します。これは他のタスクの一部として修正されると思いますが、とにかくスケジュールしておきましょう。そして、タイムアウトの設定に一貫性がありません。一度は120に設定され、別の場所では60に設定されています。
ここでCodeexエージェントが自分自身のためのタスクを提案しています。つまり、委任の委任をしているわけで、これには毎回驚かされます。ここは120にしましょう。これが適切なタイムアウトだと思います。コードを書いてもらいましょう。
ご覧のように、これは非常に便利です。基本的に複数のリモートエンジニアにアクセスできるようなものですが、実際には複数のタスクを並行して処理する1つのAIエージェントにすぎません。提案された変更を各自のコードボタンとともに表示し、すぐに実装を開始できるようにする方法は非常にクリーンです。開発者でない私でも、その部分は問題なく理解できました。
さて、Codeexの動作を見ましたが、実際にはどれくらうまく機能するのでしょうか？OpenAIはSWEBench検証とOpenAI内部の実世界のソフトウェアエンジニアリングタスクの厳選されたセットという2つの主要ベンチマークでテストしました。
SWEBenchから始めると、Codeex 1はO3 Highを一貫して上回っており、特に初期の試みでは、8回目の試行までに80%以上の精度に達しています。最初の試行でも約72%のスコアを記録しています。これはこのベンチマークで今まで見た中で最高スコアだと思います。
また、OpenAIの内部スイートタスク、つまり会社内部の実際のエンジニアリング問題については、Codeex 1は75%の精度を達成し、70%のO3 Highを上回り、わずか11%の古いモデルO1を完全に圧倒しています。
これは確かに理にかなっています。このモデルはO3のソフトウェアエンジニアリング向けに微調整されたバージョンであることを覚えておいてください。だからパフォーマンスが向上しているのは驚くことではありませんが、これらのスコアは私たちが見た中で最高のものです。
数字を見ましたが、実際の世界ではどのように見えるのでしょうか？これがCodeexの実際の動作で、OpenAIエンジニアのワークフローを大幅に加速させています。
私の名前はNachoです。OpenAIでiOSとmacOSのエンジニアをしています。人間とコンピュータの相互作用について考えると、2つのボトルネックがあります。時には私の脳がボトルネックになり、また別の時には私の手がボトルネックになります。難しい問題に取り組んでいる時、私はそれについて考えるのに苦労しています。脳がボトルネックです。ホワイトボードを使ったり解決策について考えたりする時間をもっと費やす必要があります。
しかし、他の場合は手がボトルネックです。頭の中にコードがあり、比較的単純ですが、実際に書く必要があります。AIを使って些細なことに取り組むことができ、もはや私の手の速度によって制限されません。
CodexはiOSチャットアプリへのCodex統合を始めるのを実際に手伝ってくれました。Codexにこの足場を設定してもらいたいと思いました。デモをしましょうか？ぜひお願いします。例えば、別のSwiftパッケージを作成するようお願いしました。Codexはプロジェクトの基本をセットアップしてくれました。そのため、私が机に着くころには、それが始まっており、実際の機能に取り組むことができました。
見たいものの一つは、アーカイブされたCodexタスクです。今それを入力して、送信タップするだけでプロジェクトを開始してくれます。ライブアクティビティで進行状況を追うことができます。開発者として、一度に一つのことしかできませんが、5つのことをする必要があると分かっていれば、それらを開始することができます。そして、このタスクを終えるころには、次のタスクの出発点がすでに用意されています。
これはあなたのチームの別のエンジニアのようなものです。開発者がより多くのことをより速くできるという認識に興奮しています。これはすでに生産性と私の仕事方法に大きな変化をもたらしています。
タスクの高速化だけでなく、Codeexはエンジニアの実際のコラボレーション方法も変えています。特にコードレビュー中です。こちらはOpenAIのライブストリームからのもう一つのクリップで、それがどのようなものかを示しています。単にコードを生成しているだけではなく、開発者のワークフローの全体的な部分を自動化し始めています。
新機能の作成からバグのデバッグ、テストの実行、コードのリファクタリング、そしてプルリクエストの提案やレビューまで、Codexはソフトウェア開発サイクルのあらゆるステップに積極的に参加しています。
素晴らしいです。デモのおそらく最も運が悪い部分を担当します。タスクを開始するのではなく、Tibo、Hansen、Joshが開始したタスクを見て、それらが良いことを願います。これは実際にエンジニアリング作業が過去数年間でどのように変化したかを反映しています。多くの時間がコードを書くよりもレビューに費やされるようになりました。その意味で、私たちが望むことにモデルが非常に適合していることがさらに重要になります。いくつかのタスクを見ながら、アライメントを念頭に置いてこれらのモデルをどのように訓練したかについてお話します。
Tiboが開始したものをクリックしましょう。ここには3つの重要な部分があります。右側には、モデルによって生成された実際のコード出力があります。コードを見る際、コードレビューをする際には、合理的な変更をしているか、PRの説明に書かれた通りの内容で余計な変更がないかなどを確認します。コード全体に余計なコメントが散らばっていることは望ましくありません。これは私たちのモデルについて以前から聞いていたフィードバックです。そのため、コードの品質とスタイルを良くして、コードをレビューしやすくすることに本当に焦点を当てました。
もう一つ私たちが本当に焦点を当てたのは、解釈可能性と検証可能な出力です。左側には、モデルが行ったことの要約があります。ここでは、この関数のためのimportを追加したことが分かります。何をしているのか、なぜそれをしているのかを説明し、この引用ビューで行ったことについて話すときに参照していたコードを正確に表示します。
そしてテストセクションでは、モデルは実際にagents.mmdファイルで指示されたテストを実行しました。しかし、単にテストを実行するだけでなく、モデルはテストが合格したか失敗したかを報告します。この場合、作業ログのどこでテストが実行されたかを正確に見ることができ、それが成功したことを確認して検証できます。
もう一つのタスクを見てみましょう。ここではpreparednessリポジトリで行われた別のタスクがあり、このモデル出力を確認することができますが、最初は正しいように見えても、モデルのテスト出力からテストに合格しなかったことがわかります。
これを見ると、環境に依存関係が不足しているのかもしれません。おそらくpedanticがインストールされていません。このPRは私のコンピュータにチェックアウトして、ローカルでテストを再実行する必要があるものかもしれません。そして、これが価値あるものだと判断すれば、環境設定に戻って再インストールすることもできます。
最終的に、私たちはcodeexを自分たちの同僚と同じかそれ以上に信頼できると考えています。Andreが任意の日に何をしたかについて、ログや実際のテスト出力などのこのようなアクセス権はありません。AIがますます多くのコードを書く世界に向かうにつれて、このような検証可能性が本当に重要になると思います。
これがCodeex、OpenAIのクラウドベースのソフトウェアエンジニアリングエージェントです。現在、プロ、チーム、エンタープライズユーザーに世界中で展開されており、プラスサポートも間もなく提供予定です。ただし、OpenAIはこれをまだ研究プレビューと呼んでおり、場合によってはリモートエージェントに委任することでインタラクティブな編集よりも時間がかかることがあり、これに慣れるのに時間がかかる場合があると注意しています。
しかし将来的には、OpenAIはCodeexをリアルタイムのコラボレーションと非同期の委任の両方をサポートする完全なツールスイートに拡張する計画を持っています。基本的に、CursorのようなIDEの実践的な感覚と真のAIエージェントの自律性を組み合わせることになります。そして、OpenAIがWindsurfを約30億ドルで買収したことを考えると、彼らは単に実験しているわけではなく、来るべきAIコーディング革命を先駆けようとしていることは明らかです。
これは完全なエージェントソフトウェア開発に向けた大きな一歩だと感じます。Codeexはコードを書くだけでなく、人間と一緒に構築する方法を学んでいるのです。そして、これは最も初期の段階です。この解説が役に立ったら、いいねボタンを押して、新しい方は購読してください。いつも通り、次回またお会いしましょう。