OpenAIのCodexが完全に突き抜けている…

11,991 文字

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

今日、OpenAIはCodeexを発表しました。これは彼らがCodeexと名付けた他の10個のものと混同しないでください。このCodeexはCodeex 1によって動作しています。Samは今回は、もしこれが普及した場合に備えて、より良い名前を付けると約束していました。この時点で、彼が単に私たちをからかっているのは明らかです。
しかし、このプロジェクトの方向性、つまりこれがどこに向かっているのかは、非常に非常に興奮させられるものです。その理由を説明します。まず第一に、GoogleのIOが数日後に予定されており、彼らは独自のソフトウェアAIエージェントを発表する予定です。これはもちろん、OpenAIが彼ら独自のやり方で、いつものように、Googleがカンファレンスで発表する前に自分たちのものを発表することで、Googleの勢いを削ごうとしているのです。
Googleはソフトウェア開発ライフサイクルエージェントの開発を目指しています。つまり、最初から最後まで、ソフトウェア開発者が何を構築しているかに関わらず、それを手助けするようなものです。このようなものは、彼らがビルドしているあらゆるステップをサポートします。もちろん、90億ドルの評価を受けたCursorや、OpenAIによって30億ドルで買収されたWindsurfも見てきました。
Googleは急速にFirebase Studioを構築していますが、これは別の非常に興味深いプロジェクトです。目的は、できるだけ多くの開発者があなたのプラットフォーム上であなたのAIチャットボット、AIモデルを使って何かを構築するようにすることです。これにより、これらの企業はいわば全体のライフサイクルを見ることができるのです。なぜなら、あなたがChat GPTでコードを依頼して、そのコードをVS CodeやPyCharmなどにコピー＆ペーストしている場合、GoogleやOpenAIはそれを見ることができないからです。
彼らはコードが機能しているのか、どんな問題に直面しているのかがわかりません。ソフトウェア開発プロセス全体を一つのものの中に保つことで、彼らはより多くのデータを収集することができ、より良いコードを作成し、Googleが言うところの開発の「ライフサイクル全体」を扱えるモデルをより良く作成することができるのです。
Chat GPTのサブレディットでは、OpenAIのCodeexチームとのAMA（Ask Me Anything）がありました。ここには多くの面白い情報がありました。私もいくつか質問を忍び込ませることができ、その回答をすぐに見ていきますが、ある女性が「コードに関しては同僚よりもCodeexの方を信頼している」と言ったときの様子が面白いと思いました。
皆が神経質に笑いましたが、ある人が言うように、それがAGI（汎用人工知能）が到来した方法です。バンと言う音ではなく、唖然とした一時停止とともに。Codexは我々の同僚と同じくらい、あるいはそれ以上に信頼できるものになろうとしています。「私はAndreが特定の日に何をしたかについて、ログや実際のテスト出力などのようなアクセス権を持っていません。AIがますます多くのコードを書くこの世界に向かって進むにつれて、この種の検証可能性は本当に重要になるでしょう」
さて、GoogleであれOpenAIであれAnthropicであれ、みんなが何を構築しようとしているのかを完全に理解するために、ベンチマークやテストを見ることもできますが、実際に何が起きていて、これがどこに導くのかを本当に理解するために、私はYouTubeチャンネルの「Sentex」がこの最も興味深いユースケースの一つだと思います。
多くの人がこのチャンネルを知っていると思うので、紹介は省きますが、彼は基本的にUnitree G1 Eduロボット、人型ロボットを手に入れました。これがそれです。彼は配送された箱からピースごとに取り出しています。そしてこれがガントリーに吊るされている様子です。これはガントリーと呼ばれると教えてもらいました。
先ほどのライブストリームに参加してくれた皆さん、ありがとうございました。とても楽しかったです。気づかずにはいられないことの一つは、壁に刀やさまざまな剣が100万本ほどあることです。もしこのロボットが暴走した場合、一番近い武器はそう遠くないところにあります。
しかし話を戻しましょう。ここで興味深いのは、UnitreeのG1用のコードベースです。Unityが提供するドキュメントの多くはオープンソースです。しかし一つ問題があります。その多くはC++で書かれており、これは特に馴染みがない場合、非常に難しく要求の厳しい言語として知られています。
Sentexが言っていたのは、彼はC++を学ぶことにそれほど多くの時間を投資していない、少なくとも他の言語ほどには投資していないということだと思います。では彼はどうするのでしょうか？彼はロボットを制御し、新しいスキルを教え、それと対話できるようにしたいのです。ほんの数年前なら、選択肢はその言語を一から学ぶか、プロジェクトを放棄するかのどちらかだったでしょう。
しかし彼が実際にやったのは、Codexを使うことでした。彼はCodexのローカルインストールを使用しています。ここで見えるのは、OpenAIのモデルO3上で動作しているものです。Codexはほとんどオペレーティングシステムのように機能し、彼がコードベースと対話することができます。彼は質問して物事の説明を受けることができます。彼はさまざまなものを追加することができます。
彼は他の言語でプログラムを書いて、いわばその上に層を構築し、彼が好む言語で対話することさえできます。詳細を間違えている可能性があるので、動画を見ることをお勧めしますが、基本的にここで見えるのはO3モデルで、「このコードベースを説明して」とか「バグをチェックして」などと言うことができます。
例としては、ロボットを歩かせようとする機能があり、それが機能していませんでした。ここでユーザーが「R&D walkが今機能すると思う？」と聞くと、CodexのO3モデルが6秒間考えて「はい、今回の最後の変更で機能するはずです」と回答します。この連続的な歩行には以前に欠けていたコマンドがあり、それを追加したということです。そしてエンターキーを押した後に何が起こるかというと、何が起こるかを段階的に説明してくれます。
マニュアルを読み、コードベースを読み、それが何を意味するのかを理解し、今ではあなたが望むどのレベルでも分解して、段階的に説明してくれます。何が機能し、何が機能していないのか、なぜ以前は機能していなかったのか、そしてそれが機能するようにどのような修正を実装したのかを説明します。
「試してみてください。まだ機能しない場合は」と言って、このアプローチが機能しなかった場合のためにさらにいくつかのトラブルシューティングステップを提供します。そして次の動画では、ロボットが家の中を歩き回っているのが見えます。左上のカメラはロボットの視界です。これはカメラポイントなので、ロボットがどこにいるかがわかります。
そして私の推測では、これは家をマッピングするためのレーダーやLiDARのようなもので、家の中での位置をより良く理解できるようにするためのものです。中央にはデプスマップのようなものがあります。そしてこちらにズームすると、バックグラウンドで動作していると思われるCodexが見え、何が起きているかのプリントアウトを提供しています。
私が言っていることが理解できると思います。AIがオペレーティングシステムになるというとき、これが彼らが話していることです。なぜなら以前は、コードベースがあり、コードを入力してクリックして、すべてのことを自分自身で行う方法を知らなければならなかったからです。
そして今ではますます、CodexやあなたがもやもやがとしていたソフトコードをRefactorして美しいコードにしてくれる
それが複雑になりすぎていれば、機能を分割し、特定の機能を分離するように頼むことができます。データベースを歩いて深く理解するのを手伝ってもらえます。セキュリティの脆弱性を探してもらえます。コードレビューをしてもらえます。機能をテストするための様々なユニットテストを追加して、問題がないことを確認してもらえます。バグ修正、製品やUIの修正なども行ってくれます。
このバージョンのCodexについて本当に興味深いのは、以前にローカルで実行できるバージョンがあったことです。私はそれができることをいくつかの動画で紹介しましたが、それはClaud Codeに似ており非常に優れています。ターミナルを通じてコマンドを実行し、必要なパッケージをインストールすることができます。
GitHubリポジトリをクローンして、それを説明してもらい、そこにあるすべてのものに慣れてもらい、そして始めてコードを変更したり、必要なものを追加したり、バグをチェックしたりすることができます。興味深いことの一つは、インストールしたいGitHubプロジェクトがあるが、複雑な依存関係がたくさんある場合、CodexとClaud Codeはそれらすべてをインストールし、必然的に発生する問題をトラブルシューティングするのがかなり得意だということです。
例として、Factorio学習環境があります。インストールはロケット科学ではありませんが、簡単ではありません。これは公平に言えると思います。私はこれをClaud Codeでテストしました。これはCodexが出る前でしたが、Claud Codeはすべてをセットアップして実行できるようにするまで、90%程度できたと言えるでしょう。
一気にはできなかったし、20〜30分かかりましたし、支払わなければならないクレジットもかなりありました。それは事実です。しかし、90%まで進めてくれたと言えるでしょう。一つ非常に煩わしいことは、それが物事を考えて処理しているときに座っていなければならないことで、少し不便です。なぜなら、キーボードから離れてAFK（Away From Keyboard）で他のことをすることができないからです。使用している特定のローカルマシンに縛られないようにできれば素晴らしいでしょう。
ここが新しい波が興味深い部分です。GoogleのFirebase Studioはクラウドで、ブラウザで動作します。リモートで接続できます。それはあなたがどこか別の場所で自分のことをしている間も自分で動作させることができます。キーボードの前に座ってそれを見守り、それが止まるのを待って対話する必要はありません。
ここに向かっていることは明らかだと思います。この未来は、AIエージェント、つまり耳に話しかけるChat GPTの音声モードのような高度な音声モードを考えてください。あなたが店に行くなど自分の用事をしていると、「あなたのAIソフトウェア開発エージェントが、あなたが頼んだ最後のタスクを完了しました」と言ってくれます。
それが全てのものをインストールしたので、次は何をしたいですか？あなたは口頭で「このまま次の機能を続けて」と言えば、「了解しました。完了したらお知らせします」と言ってくれます。そしてその間、あなたは自分の用事を続けることができます。なぜなら、パッケージをダウンロードしてインストールし、チェックしてコードを書くには時間がかかるからです。
それには時間がかかり、コンピュータの前で待っていると、いつ終わるかわからないため離れることができず、それは不便です。テキストでやり取りしたり、リモートで対話できたりすれば、それが次のステップです。それが今後の方向性であることは明らかに思えます。クラウドに移行させるCodexやGoogleのFirebase Studioのようなものは、その未来に向けた中間的なステップだと思います。それが私の推測ですが、そこに向かっていると思います。
先ほど、Codexという名前のものがいくつあるかについて冗談を言いました。まず、Codex CLIがあります。これはターミナルで動作する軽量のコーディングエージェントです。FactorialをインストールしようとしていたものはClaud Codeでしたが、Codexは非常に似ており、オープンソースでローカルです。インストールしたら、Windowsでも何でも動作環境で「codex」を実行すると、このような表示になります。
これがO4 mini上で動作しているOpenAI Codex研究プレビューで、O3などに変更することもできます。このウィンドウを通して対話するだけです。デフォルトでは、何かをインストールしようとするとまず承認を求めてきます。完全に自動化して好きなことをさせることもできます。
そしてこれが危険かどうか確認してきますが、もし望むなら可能です。そしてこれがCodexです。これが今日リリースされたものです。これはブラウザで動作するものです。私はchatgpt.com/codex/onboardingにいます。まだセットアップしていません。
これはオンボーディングの一部です。基本的に、理解している限り、GitHubに接続する必要があります。そして多要素認証が必要なようです。しかし、すぐにテストする予定なので、私のテスト動画をチェックしてください。これが、これらのものが操作される未来だと思います。
Manis AIに非常に感銘を受けました。その核心は、オープンソースのオペレーティングシステム、この場合Ubuntuと呼ばれるLinuxディストリビューションです。それは自分の仮想マシン上に座っていて、好きなものをインストールし、ウェブを検索し、そのコンピュータの操作方法を知っている人間ができることをほぼすべてできます。
それは自分のコンピュータに座って研究をしたり、コードを書いたり、あなたが頼んだことを何でもして、その結果をあなたに伝えます。それが私には未来のように思えます。ある時点で、私たちは実際にオペレーティングシステムと対話することはなく、ますますチャットボットに似たものと対話し、それが私たちのために多くのことをやってくれるようになるでしょう。
チャットボットを通してAIモデルを実行するのと比較して、これがどれほど優れているかを見てみましょう。Codex CLIはローカルのものであり、Codexはクラウド内のソフトウェアエンジニアリングエージェントにタスクを委任できるものとして彼らが呼んでいるものです。
Codexは並行して多くのタスクを処理します。10のことをするように指示すると、クラウドで実行し始めます。座って「続けて、続けて」などと言う順序でやる必要はありません。機能を書き、コードベースについての質問に答え、テストを実行し、実際にコードをコミットすることができますが、おそらく何らかの警告があるでしょう。
明示的な許可なしに勝手にやることはありません。まだ試す機会がなかったのですが、ドキュメントにはかなり明確に書かれています。勝手に何かをすることはなく、承認が必要です。
私の知る限り、他のものが使用していない新機能の一つは、対話する二つの別々の方法があることです。「コード」と「質問」があります。それぞれが独立して処理され、別々の隔離環境で処理されます。これはおそらく、コードベースについて質問するだけで何も操作されるリスクをゼロにしたい場合のためです。その場合は「質問」を使用し、「コード」は使用しません。
Codexがタスクを完了すると、その環境での変更をコミットします。つまり、いわば自分のコンピュータで全てを行い、結果を確認して修正を要求するか、そのコードを必要な場所（例えばローカル環境）に統合することができます。そしてそれを可能な限り環境に近づけるように設定することができます。
コードを開発するために何を使用していても、その環境にできるだけ近づけることができます。Codexはagents.mdファイルによって導かれます。開発環境が設定され、信頼性の高いテスト設定、明確なドキュメントがあると、より良く機能します。そして、OpenAIの内部ソフトウェアエンジニアリングタスクにおける精度は次の通りです。
O4 mini highが67%、O3 highが70%、そしてCodex 1が75%です。最近取り上げた非常に興味深い論文があります。Absolute Zero Reasonerです。アイデアとしては、二つのモデルを使用し、一つは提案者、もう一つは解決者として、いわば自己訓練するようなものです。これはセルフプレイのようなアイデアです。
Sequoia Capital AIサミットで、OpenAIのチームメンバーの一人が、次の大きなスケーリングの波について話していました。それは強化学習の計算能力です。強化学習により多くの計算能力を投入するということです。このAbsolute Zeroでは、ゼロデータでの強化されたセルフプレイ推論と呼んでいます。
人間のデータや人間がラベル付けしたデータから離れ、モデル自身が合成データを生成してそれで訓練されるようにします。AlphaGoからAlpha Zeroまで、Deepseek R10も同様のアイデアがありました。基本的に私はOpenAIの全員に、彼らがこのAbsolute Zero論文のアイデアで何かをしているのかという質問を投げかけてきました。
これはCodexで働いたOpenAIの研究者の一人です。彼らは論文を認識しており、何らかの形で取り入れているようです。明確な回答ではありませんが、彼らはこれらの潜在的なアプローチに興奮しているようです。
別の質問では、OpenAI Codexチームの別のメンバーがこのアイデアを指摘してくれました。「注目すべき長期的な研究ベットとして、協力して作業する複数のエージェントがあります」と彼らは言いました。そのリンクはNome Brownに関するもので、彼はOpenAI X Metaにいて、これは実際に2024年9月19日のものですが、彼らは新しいマルチエージェント研究チームのための機械学習エンジニアを募集しているとのことです。
「私たちはマルチエージェントをさらに優れたAI推論への道と見ています」。Nome BrownはMetaのCicero外交AIに関わっていました。それは魅力的な研究プロジェクトでした。彼はスーパーヒューマンなポーカーAIやOpenAI O1にも取り組んでいました。彼は何らかのマルチエージェントセルフプレイか、あるいは彼らがそう呼んでいるものに取り組んでいるようです。
ここでの大きなポイントは、これがどこに向かうのかわからないので注意が必要ですが、私たちはいわばドットをつなげています。明らかに、この研究に取り組んでいる多くの人々、研究者たちは多くの情報を共有することができません。だから私たちが何かが出てくるのを見るとき、それは通常かなり遅れています。
彼らがそれを発見した後であり、発見してからかなり時間が経っている可能性があります。Alpha Evolveで非常に興味深いと思ったことの一つは、その結果が信じられないほど刺激的で、かなり大きな一歩前進のように思えることです。それらの発見はGemini 2.0モデル上で動作したものでした。
最新世代のモデルではありません。例えば、一般の人はGemini 2.5 Proにアクセスできます。そして私は、Google IOで次のレベルのモデルが発表される可能性が高いと思います。単なる推測ですが、おそらくGemini 2.5 Ultraか何か他のものです。そしてAlpha Evolveの結果は、1年以上前に様々なGoogleインフラストラクチャプロジェクトに実装されていました。
私たちは何が来るのかわかりませんが、推測すると、GoogleもOpenAIも他の企業も、超人的なコーディングエージェントを作るために必要なすべてのピースを組み合わせているように見えます。OpenAIのピースの一つは、彼らはCursorと話をしました。Cursorを買収しようとしました。
何らかの理由でそれは実現しませんでした。結局彼らは30億ドルでWindsurfを購入しました。その目的の一部は、ユーザーがプラットフォームを使用し、コードを改善する、このフライホイールを作ることでした。それによってOpenAIは、それがどのように使用されているか、何が機能し、何が機能していないかについてのデータが得られます。
それによって彼らはモデルをさらに改善することができ、それがもちろんユーザにとっての使いやすさを向上させ、モデルを改善し、それはこのフライホイール効果のようなものです。これはチャットボットインターフェイスを通してLLMとチャットして、そのコードを他の場所にコピー＆ペーストする場合には本当に存在しません。なぜなら、それはライフサイクルソフトウェア開発環境ではないからです。
あなたはビットやピースを引き出しているだけで、それは全体のフローを通して統合されていません。OpenAIとGoogleの両方が、最初から最後までそのフロー全体をキャプチャしたいと考えています。そしてCursorやCodex、WindsurfやGoogleのFirebase Studioなどは、そのエンドツーエンドのプラットフォームを構築する試みです。
それが一つの部分だと思います。二つ目の部分は、彼らが言うように、並行して動作する、クラウドで動作するものを持つことです。多くのタスクを並行して実行できます。繰り返しになりますが、このアイデアはズームアウトすると、Factorioのゲームをプレイしているようなものになるかもしれません。ズームアウトすると、あなたのことをやるためにあちこち走り回る小さなエージェントがたくさんあり、それぞれを監視する必要はありません。
彼らは必要なすべての小さなタスクをこなすために、100か200並行して動作しているかもしれません。Sam Altmanはこのウィル・デプースの投稿を共有しました。「仕事の未来はStarcraftやAge of Empiresのようになると思います。問題を修正し、情報を収集し、人々に連絡を取り、新しいシステムを設計するために、200のマイクロエージェントを指示することになります」
ところで、Deep Research機能がこれに組み込まれることも明らかに思えます。プロジェクトがより複雑な場合、最初にDeep Researchを行うことから始めることがあるでしょう。モデルに特定のソフトウェアの構築方法について深い研究をさせます。
そしてその研究結果を取り、コードを書くためのものに投稿します。これは同じモデル、O3などかもしれません。あるいはGoogleでDeep Researchを行い、その結果を取るかもしれません。私はそれを試したことがないのでわかりませんが、OpenEIを通じてコードの書き方についてDeep Researchを行い、O3にそれをコード化するように頼んだことはあります。
しかし、彼らが構築して実装しようとしているもう一つのピースだと思います。あなたがコンピュータの前にいる必要のない、並行して多くのことを実行できるというアイデアです。
そして多くの人々が何かこのようなことに取り組んでいると確信しています。強化学習のアイデア、それをスケールアップすること、セルフプレイを行うこと、Absolute Zero論文には明らかに多くの可能性があります。そこでの興味深い発見の一つは、これらのLLMがコーディングタスクを解決するように訓練されると、数学も上達するということです。数学に特化したタスクを全く行っていなくても、コーディングタスクを解決する練習が数学などの他の分野に一般化します。
これはSequoia Capitalでのプレゼンテーションです。これはOpenAIのDan Robertsで、以前は訓練時の計算能力がありました。これらのモデルを訓練するためにどれだけのハードウェアリソースを投入したかです。その後、テスト時の計算能力がありました。つまり、これらのモデルが考えるのを助けるためにどれだけのハードウェアリソースを投入したかです。訓練された後、質問に答えるとき、「これについてもっと考えて」と言うようなものです。
見てわかるように、これらは両方とも様々なベンチマークの精度を向上させるのに役立ちます。彼の講演中の一点で本当に目を引いたのは、彼が言うには、この白い円の前、それは事前訓練の計算能力でした。モデルの訓練にどれだけのハードウェアリソースを投入したかであり、赤は強化学習の計算能力でした。私たちがそれにやってほしいすべてのトリックを教えるためのものです。
ご覧のように、それははるかに小さいです。未来はどのようなものになるでしょうか？強化学習をスケールアップする可能性があります。私たちは強化学習をスケールアップしています。そして今、ご覧のように、強化学習の計算能力は事前訓練にどれだけのリソースを費やしたかを圧倒しています。なぜ彼らはそう信じているのでしょうか？私たちはわかりません。
しかし、良い推測としては、Absolute Zero Reasonerやセルフプレイなどのこれらのアイデア、マルチエージェント学習、そういったすべてのものが、強化学習をスケールアップすることを可能にすると考えられます。そこで私の質問は、AIエージェントの長期的な一貫性をどのように解決することを考えているかということでした。なぜなら、彼らは最初は本当にうまくいくようですが、時間とともに崩壊する傾向があるからです。
この回答をくれた人はCodexチームにいます。これはOpenAI Codexチームの研究者、Hansen Wangです。彼らは「はい、私たちはその方向で取り組んでいます。いくつかの長期的な研究ベットがあります」と言っています。これが昨年9月に投稿されたもので、6、7ヶ月後にこれを「進行中の研究」として言及しているという事実。
わかりません。私にとっては、それがまさに彼らが向かっている方向のように思えます。未来がどのようになるか、テクノロジーが私たちをどこに連れて行くかを知りたいなら、技術者たちが週末の自由時間に何をしているかを見る必要があるという表現がありました。
Sentexがやっていることは確かにそれに該当します。もちろん、私はナードと言いましたが、あなたを含む私たち全員のことであり、もちろん最も良い意味で使っています。親愛の情を込めた言葉です。しかし、あなたが見ているのは、Codexのようなものを使用していることです。これはどんどん良くなっていくように見え、それが本当に非常に非常に良くなることを確認するために多くのお金と研究が投入されています。しかし、私たちはこれらのオープンソースソフトウェアを使用して、私たち自身の家庭内でさまざまなタスクを実行するために人型ロボットをトレーニングしています。
これはまだ主流には程遠いです。これはニッチ中のニッチだと思います。しかし、1年後、2年後を考えると、C++を知らなくてもCodexなどのAIアシスタントを使用してコードベースと対話する誰かを見ています。
NVIDIAのものの多くは、彼らのロボットトレーニングとシミュレーションの多くが利用可能です。それはオープンソースです。2年後には、その時点でもっと手に入りやすくなるであろう家庭用ロボットを取り、自分の家の完全にシミュレートされた3Dレンダリングで何らかのタスクを訓練できる子供たちがいると思います。
Metaのオープンソースパートナープログラムを見たことがあるかもしれませんが、家庭などの様々な環境の3Dシーンを作成することができ、このようなものが様々なオブジェクトを拾い上げるためにトレーニングされ、いわばパートナーのようなものです。あなたと協力して掃除や他にやりたいことをします。
2年以内、もしかするともっと長いかもしれませんが、これがもっとアクセスしやすくなり、より多くの人々がこのようなことをするようになると思います。カスタムトレーニングされたロボットが皿洗い、洗濯、掃除、庭仕事をするでしょう。言っていて思ったのですが、このロボットにブロックの周りを犬と一緒に散歩させることを想像できますか？冗談でもそれをやってみなければならないと思います。
それを初めて見ることは誰かの心を吹き飛ばすと思います。あなたはどう思いますか？Codexについてどう思いますか？すべてが向かっているように見える方向についてどう思いますか？コメントを残してください。ここまで見てくれた方は、ぜひチャンネル登録をお願いします。
視聴いただき、ありがとうございました。私の名前はWes Rothです。また次回お会いしましょう。