
7,526 文字

皆さん、OpenAIが開発者向けソフトウェアエージェントツールであるCodexのアップデートをリリースしたばかりです。このアップデートは非常に特別で興味深いものです。なぜなら、プログラミングの日常、プログラマーの日常に直接影響を与えるからです。
これは私たちが慣れ親しんでいるものよりもはるかに高度なエージェントです。並行してタスクを実行し、テストのスケジューリングを行い、すべて検証可能な一連のルーチンを実行します。これにより、プログラミングだけでなく、あらゆる種類のタスクを実行するあらゆる種類のエージェントについて、人々がAIエージェントを理解する方法が革命的に変わるでしょう。
このアップデートについて一緒に理解していきましょう。非常に深いアップデートで、これから登場する知的エージェントの未来に大きな影響を与えるものです。さあ、一緒に見ていきましょう。いつものように、いいねを押してくれた皆さん、登録してくれた皆さんに感謝します。このAIチャンネルを支援してくれているメンバーの皆さんに特別な感謝を。
メンバーはWhatsAppとエージェントを統合するステップバイステップの独占動画や、先行公開動画にアクセスできることを忘れないでください。さて、OpenAIのCodexについて少し話しましょう。これは彼らが取り組んでいる小さなプロジェクトですが、とんでもなく良くなっています。彼らはこれを自分たちのプログラミングルーチンで使用しており、エージェントがどのように機能するか、タスクをどのように実行するか、スケジュールをどのように設定するかを見るのは非常に興味深いことです。
これはきっと、エージェントについての考え方、エージェントのプログラミング方法、そしてエージェントに何をしてもらいたいかという期待に影響を与えるでしょう。どんな状況なのかを理解するために、隣人が何をしているかをちょっと見てみるのは常に良いことです。先ほど行われたこのプレゼンテーションでは、彼らはOpenAIのチーム自身がこの新しいシステムを使用していくつかのデモを示し、すべての新機能を動作させました。
まず彼らが示すのは、まさに皆さんが見ているものです。このCodexエージェントをGitHub上のリポジトリに接続すると、作業環境のように使用できるプロジェクトが開かれます。リポジトリを選択したら、特定のタスクを実行できる段階に入ります。
例えば、彼らはここに3つの異なるタスクを用意しています。まだ開始されていませんが、タスクはすでに設定されており、非常にシンプルです。コードを新しく参加した人に説明するタスクと、コードを調査してバグの修正や誤字の修正などの重要な点を見つけるという3つ目のタスクがあります。
これが彼らが設定している3つのタスクです。下に「タスクを開始」というボタンがあり、これは同時に複数のタスクが起動されることを意味します。理解できましたか?これはプログラミング以外のどんなシナリオにも応用できます。
朝早くオフィスに着いて、いくつかの書類をチェックし、一日を始めるためにいくつかのルーチンや3〜4つのタスクを実行する必要があるとします。そうすると、これらのタスクがすでにスケジュールされているかもしれません。「タスクを開始」をクリックするだけで、エージェントがこれらのタスクを自動化しようとする様子を見ることができます。
これはすごいことです。ご覧のように、あの3つのタスクが起動されました。すぐに実行が始まりました。すべてが並行して実行されています。ここで彼は4つ目のタスクを書いています。そして、このリポジトリ内のタスク履歴にすでに完了したタスクもあります。
彼が起動したこの新しいタスクは、すでに実行されたものと非常によく似た誤字の検索も行います。この時点で、彼らはバグを探しているタスクを詳しく調べ始め、エージェントが報告していること、提起している問題点をすべて見始めます。
例えば、問題1では、「変更可能なデフォルト引数を避けるため」と述べています。さらにコメントで「これは変更可能なデフォルトです」と記載しています。つまり、何かがデフォルトであれば、それが変更できないほうが良いということです。デフォルトのものを変更するリスクを冒さないほうが良いでしょう。
この意味で、このタスクが要求しているコードレビューを行うだけでなく、問題を見つけ、関連する何かがあるファイルを示し、話している問題がどこにあるのかを明確にし、そのタイミングでその場所で行うべきだと思う提案を提供し、ここで提案している提案を実行するためのプレイボタンとコードボタンを提供します。
それだけでなく、彼は1つの問題だけでなく、いくつもの問題を見つけ、多くの解決策を提供し、いくつもの提案を提示します。これらは彼が今から行うように、あなたが修正することもできます。彼は「タイムアウトを一定にすることが興味深いでしょう。1つは120秒で、もう1つは60秒だからです」と言っています。
そこで彼はマウスをコード上に置いて、そのファイルの中で何を言っているのか、彼が言っている60秒がどこにあるのかを確認します。そしてここでタスクの提案を開き、エージェントが提案したものを確認し、さらに決定を下します。なぜなら60と120の間で選択する必要があるからです。
彼はここで提案コードに、デフォルトは60ではなく120にしたいと答えます。その後、彼はコードに移動して実行します。皆さん理解していますか?このツールは、AIの知性自体にそれほど関係があるわけではなく、AIが並行して行う作業を始め、ルーチンを非常に明確で理解しやすい形で提示することができる作業フレームワークの作成に関係しています。
彼らが後で述べるように、プロジェクト内で起きている変更に関するこの種の説明と文書化は、人間はこれほど明確に、追跡可能な方法では行いません。将来、私たちの仕事の多くがこのように追跡可能になることを想像できますか?さらに興味深いのは、エージェントがタスクを実行するにつれて、彼自身が提案した解決策を実行するためにエージェントが何をしているかを見るためにクリックできることです。
これはリアルタイムで見ることができます。人工知能があなたのために行っているすべてのステップバイステップを追跡することができます。これは単に素晴らしいことです。彼らがそこに置くそれぞれの新しいタスク、人工知能に作業するように命じるたびに、彼らは今や何が提案されたのか、人工知能が何をしているのかを追跡することができます。まるでより高度なバージョン2のようです。なぜなら、それははるかに追跡可能だからです。
それらは段階を非常によく記録し、コードを実行し、コンピュータ上で操作を実行することができ、あなた、私たち、そのプロセスの一部である人々を含む手順があります。承認、修正、会話、提案、共同作業などを行います。
これらすべてが起こっているのは、彼らが強化学習を使用し、チームが作業するのを観察し、何がうまくいっているか、何がうまくいっていないかを見ているからだということを理解することは非常に興味深いです。これらの例から、これらのツールを使用する人々から、彼らは長いコンテキストで作業するため、長いタスクで作業するため、そしてものごとをより広い範囲で整理し理解するためのますます知的な人工知能を作成するためのデータを得ています。
私たちは単にタスクを依頼して応答を受け取る人から、プロンプトエンジニアリングに非常に焦点を当てている人から、今や人工知能のパートナーになり、一緒に見て作業しています。これらのタスクのいずれかが完了したら、コードを書き直したり、いくつかのテストを行ったりした後、プルリクエストを行うことさえできます。このタスクを本番環境に送信するか、ここで作業を続けて、さらに変更を要求することができます。これは単に素晴らしいことです。
興味深いのは、より注意深く見ると、AIが実行しているタスク、例えば特殊文字のエラーを探して修正するというタスクですが、自分が行っていることの要約を作成し、テストを実行していることがわかります。面白いことに、AIが何かを見つけて、コードの一部を参照する要約を作成すると、あのかっこの上にマウスを置くと、AIが話している正確な部分が表示され、その部分で何を見たのかが正確にわかります。
そして同じことがテストにも当てはまります。人工知能は非常に追跡可能なテスト提案を行い、提案されたコードがテストに合格したかどうかを確認するために行ったテストの実行を示します。そしてそれは非常に追跡可能な方法です。
テストが意味をなすかどうかも理解できます。人工知能がどのようなものか知っているでしょう。テストを依頼するだけでは不十分です。なぜなら、AIは全く必要のないテストを作成する可能性があるからです。しかし、ここでは追跡可能なので、テストが悪ければ、そこに入って変更を加えることができます。
同じことが、変更を加えていて、テストが承認されなかった場合、例えばテストが失敗した場合にも当てはまります。このテストで何が起こったのか、なぜ承認されなかったのか、不足しているモジュールやライブラリがあったのか、インポートやインテグレートする必要があったのか、あるいは何かをする必要があるのか、人工知能がその部分を実行できるように手助けする必要があるのかを見ることができます。
彼らがここで示しているこのワークフローでは、すべてが非常にシンプルで、これらのすべての変更を行い、前進するための準備が整っています。ドキュメントを見ると、彼らはいくつかの重要なことを言っています。例えば、このシステムは今日からPro、Team、Enterpriseサブスクリプションで利用可能になり、まもなくPlusとEduアカウントでも利用可能になります。
彼らは次のように述べています:「CodexはCodex Oneによって駆動されており、これはソフトウェアエンジニアリング向けに最適化されたOpenAI O3のバージョンです。」つまり、ソフトウェアエンジニアリング向けにステロイドを打ったO3です。これはさまざまな環境での実際のコーディングタスクで強化学習を使用してトレーニングされ、人間のスタイルとPRの好みを密接に反映するコードを生成します。
指示に正確に従い、肯定的な結果が得られるまで反復的にテストを実行することができます。これはとても素晴らしいことですね。人工知能の進化において、最初の段階ではGPT-3.5やGPT-4から始まったベースモデルのような知的なAIを作ることに焦点が当てられていました。
次に、より深い推論を行うことができる推論モデルの第二段階が始まり、Claude 3やGemini 2.5 Proのような、推論を行うより高度なモデルが生まれました。しかし今、私たちは第三段階にあるように思えます。この段階では、日々の協力者である人工知能エージェントと協働するためのワークフロー、作業環境を準備しています。そして常に忘れないでください、私は以前にも言いましたが、Sam Altmanは何度も言っています。彼らはAIに到達するための主要なケーススタディとしてプログラミングを使用したいのです。なぜならコーディングは簡単にテスト可能だからです。コードが機能したかどうかを知ることができ、プロジェクトの進化中に起こることすべての追跡可能性を非常に明確に持つことができます。
これは強化学習のトレーニングを行う際に非常に良いことです。ここで興味深いことに注目してください。Codexはリポジトリに保存されているagent.mdファイルによって導かれます。これらはREADME.mdに似たテキストファイルで、コードベースのナビゲート方法、テスト用に実行するコマンド、プロジェクトの標準的なプラクティスに最適に準拠する方法をCodexに伝えることができます。
これは、Agent.mdファイルがあなたの人工知能と会話して、物事がどのように機能すべきかについてのより一般的なルールを渡す場所であることを意味します。そしてここで、内部のコーディングベンチマークのいくつかの評価は、agent.mdファイルなしでも強力なパフォーマンスを示しています。明らかにCodex 1はここで両方のケースで勝っており、Claude 3 Highよりも高いスコアを出しています。
ここで彼らはアップデートについて言及しています。先月、CodexのCLI、つまりターミナルで実行される軽量なオープンソースのコーディングエージェントがありました。これがGitHubのプロジェクトです。インストールしたい場合は、実行できます。これはエージェントが考え、タスクを実行する様子を示しています。
そして今、彼らが言っているのは、今日、私たちはまたCodex Oneの小さなバージョン、つまりCodex CLIの使用のために特別に設計されたA4 Miniのバージョンをリリースしています。この新しいモデルはCLIでのより高速なワークフローをサポートし、低レイテンシーのコード編集の質問と回答に最適化されており、指示とスタイルの追跡という同じ強みを維持しています。
つまり、Codex CLIでも使用できる新しいモデルがあります。これはCodex CLIのデフォルトモデルとして、そしてAPIではCodex Mini latestとして利用可能です。これがCodex CLIを実行する際に探すべきモデルです。また、開発者アカウントをCodex CLIに接続することも非常に簡単になりました。APIトークンを手動で生成して設定する代わりに、今ではChat GPTアカウントにアクセスして使用したいAPI組織を選択できます。
とても素晴らしいですね。ますます統合されています。APIキーを自動的に生成して設定します。Codex CLI経由でChat GPTにアクセスするPlusおよびProユーザーも、今日から次の30日間、それぞれ$5と$50の無料APIクレジットの引き換えを開始できます。
つまり、Plusユーザーは$5を引き換え、Proユーザーは$50の無料APIクレジットを引き換えることができます。サブスクライバーで$5を使いたい場合、少なくともPlusの場合は、このボーナスを使用するための30日間があります。このオンラインバージョンについて、今日から世界中のPro、Enterprise、Teamユーザーが利用でき、まもなくPlusとEducationユーザーもサポートされます。
ユーザーは今後数週間、Codexができることを探索できるよう、追加コストなしで寛大なアクセスを得ることになります。これは彼らが強調した部分です。今後数週間は追加コストはかかりません。もう一度言いますが、今後数週間は追加コストはかかりません。人々が言っているのは、あなたが好きなだけ、思う存分使えるということです。彼らはユーザーから学び、今後考える必要がある制限率を決定したいのです。
もし人々が大量に使用すれば、制限率は非常に小さくなるでしょう。そしてほとんど使用しなければ、多く使えるようになり、制限率は上がります。その後、レート制限付きのアクセスと、オンデマンドで追加使用量を購入できる柔軟な価格オプションを提供します。
Plus/Eduユーザーにも近日中に提供されます。Codex Mini latestを使用する人のために、このモデルはResponse APIで利用可能で、入力トークン100万につき$1.50、出力トークン100万につき$6、75%のキャッシュでコストがかかります。これはResponse APIであることを忘れないでください。Chat CompletionsではなくResponsesでです。Codex mini latestです。
Codexはまだ開発の初期段階にあり、研究プレビューとして、現在はフロントエンド作業のための画像入力や、実行中のエージェントのコースを修正する機能などの機能が欠けています。これらの制限があります。さらに、リモートエージェントに委任することは対話型編集よりも時間がかかり、慣れるのに時間がかかる場合があります。
あの言葉ですね、使用するにつれて、コツをつかみます。時間が経つにつれて、Codexエージェントとの対話はますます同僚との非同期コラボレーションに似てくるでしょう。モデルの能力が進化するにつれて、エージェントがより複雑なタスクをより長期間処理することを予測しています。
そして私が言ったように、人々がテストし、トレーニングし、より長いコンテキストで使用するにつれて、強化学習はより長いコンテキストでどのように機能するかを理解し始めます。これにより、AIはますます行われていることの長期的なビジョンを持つことができるようになります。
だから今後起こり始めることはこれです。人々が使用すれば使用するほど、人工知能はより広いコンテキストを理解するためのデータを得ます。そしてより広いコンテキストを理解すればするほど、それらのコンテキストでトレーニングされ、ますます長いコンテキストを理解できるようになります。
これは彼らが今日明確に解決しているプロブレムです。「Codexを試す」をクリックすると、chatgpt.com/codexというページにリダイレクトされ、Proを使用して試すことができます。これは今後はProサブスクリプションが必要であり、将来的にはPlusでも解放される予定ですが、今日はまだProサブスクリプションが必要であることを意味します。私の場合はまだそうではありません。
まさにこのCodexをテストするためにProにするかどうかをまだ決めているところです。なぜなら、それはそれなりのお金がかかるからです。Proをお持ちの方は、下にコメントしてください。価値があるかどうか、テストするかしないか?そこから物事が動き始めます。このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。
メンバーは知的エージェントの独占ビデオと先行公開ビデオにアクセスできます。いいねをお願いします。ありがとう。


コメント