OpenAIが新モデルを発表(これは私たち開発者のためのモデル)

OpenAI・サムアルトマン
この記事は約24分で読めます。

この動画では、OpenAIが新たにリリースしたGPT-5 Codexモデルについて詳細にレビューしている。開発者向けに特化したこのモデルは、小規模なタスクでは従来の約20分の1のトークン数で動作する一方、大規模なタスクでは2倍のトークンを使用して深く推論する特徴を持つ。レビューでは実際のコーディングタスクでの性能テストを行い、UIの生成品質やコードレビュー機能、検索機能の問題点について率直に評価している。特にCodexブランドの統一による混乱や、Webインターフェースと拡張機能の不具合について批判的な視点から分析している。

OpenAI just dropped a new model (this one is for us)
OpenAI just dropped a new model for agentic coding: GPT-5-Codex. Yes, they actually named another thing Codex 🙃Thank you...

OpenAIの新たな開発者向けモデル発表

04 Miniがリリースされた時のことを覚えていますか。私はOpenAIが突然開発者のことを気にかけ始め、他のモデル会社に対して戦争を仕掛け始めたという大胆な主張をしました。実際、私が予想していたよりもずっと先まで進んでいました。今日、OpenAIは私たち開発者向けのまた別の新しい製品を発表しました。

これは単なる製品ではありません。モデルなのです。私たちが毎日行う作業に特化したモデルです。OpenAIは開発者を大切にしているので、わざわざ私と数人の他の開発者に連絡を取り、ローンチの数日前にちょっと試してもらう機会を与えてくれました。何が得意で何が苦手なのか、そしてもっと多くのことを見ることができるようにです。

そして本当に、これで遊ぶのがとても楽しかったです。うまくやれることすべてを皆さんに見せるのが待ちきれませんが、それよりも重要なのは、うまくいかないことすべてです。しかし最初に、これが何なのかを知る必要があります。前に言ったように、これは新しいモデルで、明らかに新しい名前が必要です。だからこそ、Codeexを発表できることにとても興奮しています。

本当ですか?また?今度はCodexが10個になりました。2023年のC-pilotモデルがあります。CLIがあります。Webインターフェースがあります。拡張機能があります。今度は神様です。皆さん、名前は思いつけるでしょう。そんなに難しいことではありません。GPT-5に聞いてみてください。ほら、無料の名前がいくつか出てきます。私はあなたのサービスを使っているのです。

次回は他の名前にしてください、お願いします。とはいえ、数値は本当に、本当に良く見えています。コードリファクタリングテストでは、はるかに良い数値を得ています。そしてSWEでも、意味のある改善を示しています。それほど大きなギャップではありませんが、数値は本当に良いです。しかし、ここからが面白くなるところではありません。

モデルの根本的な違い

モデルの動作が根本的に異なっています。まだAPIでは利用できませんが、すぐに利用できるようになるはずです。本当にクールなのは、このモデルが私たちが使用するツールと密接に結び付いていることです。具体的には、Codex CLIとCodex Webインターフェースです。ああ、そしてCodex拡張機能もです。OpenAI、これを簡単にしてくれてありがとう。

この新しいモデルのクールなことと壊れていることすべてを皆さんに見せるのが待ちきれません。しかし最初に、OpenAIは私にお金を払っていないので、支払うべき請求書があります。今日のスポンサーからの簡単な言葉の後、すぐに飛び込みます。

すべてのソフトウェアの中で、他の何よりも必然的な技術が一つあります。そして、いや、それはAIではありません。現実的に言えば、それはJavaScriptです。それから逃れることはできません。HTMLツールがどれほど良くなっても、実際のWebページで実際のJavaScriptを実行する能力は常に必要になります。特に、情報を得るためにWebを閲覧するAIエージェントを構築している場合は。そして、それが今日のスポンサーがとても役立つ理由です。

Browserbaseは、クラウドでブラウザを設定する最良の方法です。エージェントにWebサイトにアクセスさせる必要がある場合や、どこかの在庫のスクリーンショットを取得する必要がある場合。コードでブラウザを制御する必要がある場合、選択肢は苦痛かBrowserbaseです。そして、もう苦痛を選ぶべきではないでしょう。PerplexityやVercelのような他の多くの会社がすでに移行しています。

本当です。Vercelのような会社なら、これらすべてのことを処理していると期待するでしょう。そして、ある程度はそうしていますが、V0のようなツールがWebを検索して特定のものを見つける能力を導入したかった時、既存のツールはそれに対応していませんでした。そこで彼らはBrowserbaseに移行し、とても満足しています。

特に、存在していたツールは十分に信頼性がありませんでした。CDNの課題が様々なものへのアクセスをブロックしていました。データの品質は完全にゴミで、並列化の制限に問題があったのは狂気的でした。なぜなら、これらの各インスタンスは実際のコンピューター上で実際のブラウジングを行う実際のプロセッサーが必要だからです。

どれほどシンプルかが気になりますか?ここにあります。彼らはすでにこのブラウザウィンドウにPlaywrightをセットアップしています。つまり、これはすべてブラウザで起こっています。window.playwright.chromium.connectを使ってCDPで接続文字列に接続します。これはダッシュボードから取得してコピー&ペーストするだけのものです。そして今、ブラウザの実際のコンテキストがあります。

操作できるページがあります。page.goToURL。今、あなたはWebを閲覧しています。AIはすでにPuppeteerの使い方を知っていますが、あなたのインフラにはそれを行うための良い信頼性のある方法がありますか?Browserbaseをまだ使っていないなら、おそらくないでしょう。ありがたいことに、それは修正しやすいことです。今日、zoyv.link/browserbaseで確認してください。

トークン効率の大幅な改善

前に述べたように、これら2つのベンチマークはかなりクールな数値を示していますが、それが私が最も興奮していることではありません。私がGPT-5について文句を言ってきたことを知っているなら、私たちがインターフェースに使用する表面領域の半分で壊れていたという事実以外に、開発者タスクでモデルが遅くてトークンを大量に消費する傾向があることが、私が最も迷惑に感じていることです。そして、それがこの変更の重点的な焦点の一つのようです。

異なるLLMに与えるタスクについて考える時、このタスクを解決するのはどれくらい難しいかということをよく考えます。どれくらいのトークンが必要か?問題はどれくらい複雑か?インターネットアクセスが必要か?これらすべての異なることが必要か?そして私が発見したのは、異なるタスクには、かなりの多様性があるということです。

モデルに質問をする場合、ここでスペクトラムがあり、左側が最もシンプルで、右側が最も複雑です。つまり、最もトークン、最少トークンに変更しましょう。10まで数えてというようなことをモデルに尋ねる場合、ほとんどのモデルはこのようなタスクにそれほど多くのトークンを使用しません。

しかし、15の異なる言語でコードを書くとか、「strawberry」という単語のRの数を数えるというような、より複雑なことを求める場合、かなり多くのトークンを使用することになります。代わりにここのどこかに来ることになります。しかし、これらのタスクに必要な出力トークンの範囲について考えると、このようなものは率直に言って10トークンになります。なぜなら10まで数えていて、各数字はおそらく1トークンだからです。

しかし、文字を数えるようなより複雑なもの、実際にはチャットインターフェースでコードを書くようなものは、100,000トークンのようなものまで高くなることがあります。この範囲はかなり大きいように見えますが、コードタスクの場合、範囲ははるかに大きくなります。一部のコードタスクは100トークンしか必要としないかもしれませんが、他のはるかに大きなコードタスクは100万トークンを必要とするかもしれません。

これは誇張のように思えるかもしれませんが、本当にそうであってほしいです。初期の実験だけで628,000トークン使用まで到達することができ、現在あまりコードを書けないので、過去にワンオフでコードタスクを試していた時に何度も100万を突破したことがあります。ええ、最近もう少しバイブコーディングをやっていて、これらの新しい特性のおかげで、これで遊ぶのがとても楽しかったです。

ほとんどのAIコーディングツールで最も不満だったことの一つは、それらが遅いということです。私はとても速いタイピストです。両手が適切に機能している時は、1分間に160から170語入力します。手術以来それができていないので、とても恋しく思っています。今は左手でスペースバーを押すことすらできません。

コマンドオプションとコントロールをかろうじて押すことができます。今はコピー&ペーストさえもできません。つらいです。だから、真のバイブコーダーとして、コードを読むことを避けるために最善を尽くしてこれを試してみることにしました。そして、しばらくの間本当にうまくやりました。プロジェクトについては後で見ていきますが、使用されているトークン数の範囲について、私をここに連れてきたものを見せたいと思います。

GPT-5を標準の高設定で使用していた時や、ClaudeやGemini 2.5 Proのようなモデルを使用していた時、タスクの最小トークン数はまだかなり高いことがわかりました。そして、モデルが速かったとしても、基本的な作業を完了するために非常に多くのトークンを生成していたため、まだ遅く感じられました。これについて話している動画がたくさんあります。

特に、Cursorの価格変更についての動画では、これについて本当に詳しく説明し、それを困難にしたすべてのことを説明しました。しかし、それがこれらの変更を楽しくするものです。具体的に小さなタスクを少量のトークンで処理し、大きなタスクを大量のトークンで処理しようとしているからです。OpenAIの従業員トラフィックで、モデル生成トークンでソートされたユーザーターンの下位10%を見ると。

つまり、従業員がモデルに与えたこれらのタスクを、各タスクが使用したトークン数でソートしています。GPT-5 Codexは、GPT-5よりも93.7%少ないトークンを使用します。つまり、これらのシンプルなタスクでは、ほぼ20分の1のトークンを使用します。それは驚異的な減少です。しかし、上位10%では、実際に大幅に多く使用できます。コードの推論、編集、テスト、そして一般的な反復に2倍の時間をかけています。

それは見ていて本当にクールです。これらの数値の間のギャップは重要で、結果がそれ自体を物語っています。同じプロンプトを2回実行します。一度は標準GPT-5を使用するCodexで、もう一度はGPT-5を使用しないCodexで。もちろん、クラシックなイメージスタジオを行います。これをここに送信し、別途新しいGPT-5 Codexバージョンでこれを立ち上げます。

特に気になるのは、このタスクにどれくらいのトークンを使用するかです。このタスクは、ページをスタイリングして見栄え良くし、モックアプリケーションを作成するだけなので、引用符付きで比較的シンプルなはずです。GPT-5でこれを行った時にどれくらいのトークンが使用されるかいつも少し心配でした。しかし今、GPT-5を先に開始したにもかかわらず、GPT-5 Codexバージョンよりも少ないトークンを使用しています。

これが複雑なタスクの一つかもしれないと考えるのは興味深いです。これらが実行されている間に、私が個人的に行ってきたより深いテストを皆さんに見せます。最初にこのプロジェクトを構築しようとした時、まあまあのUIを得ました。それで大丈夫です。いつもとは違っていました。後で戻って見せることができます。

それほど重要ではありません。しかし、その後、実際にサービスを実装するように求めました。以前にこれを試したことがあり、様々な運がありました。今回はConvexとFowlを使用するように言いました。そして、かなり遠くまで到達しました。しかし、いくつかの問題に遭遇しました。Next.jsを使おうと頑張りすぎて、さらに重要なことに、convex/s schemaからすべてをインポートしようとしました。これは奇妙でした。

これがConvexが以前にやっていたことなのかわかりませんが、今は確実にやっていないことです。convex/serverでなければなりません。そこで、この変更を自分で行わなければなりませんでした。その変更を行った後、Convexでビルドしてデプロイできましたが、クライアントとサーバーアクション間、Webインターフェース内、そしてConvex内での設定方法にエラーがあり、必要のない複雑な関係を構築しようとしていたため、コードは実際には実行されませんでした。

そこで、最初に、これは間違ってやった、もう一度試してと言いました。しかし今度は、それが何をしているかに注意を払いました。検索アクセスを与えましたが、最近まで気づかなかったのですが、コマンドライン引数でこれを行う必要があります。Codex CLIを使用する時にWebを検索する能力を持たせるために、d-searchと言う必要があります。

それを行った時、検索できましたが、検索が本当にひどく下手だということがわかりました。それが行ったクエリのいくつかを見せましょう。はい、どうぞ。foul client import foul from fileclient subscribe exampleを検索します。これは、最初にFowlをインポートして設定する方法にエラーがあったからです。

環境変数が適切に設定されていたので、その必要はなかったにもかかわらず、完全に間違ってやっていました。だから、かなり迷惑でした。ここでConvex Next.js setup guide 2025 official documentationを検索しました。それは良い検索でしたが、これはConvexを使用する正しい方法ではないと言った後にのみ起こりました。もう一度試してください。

公式のNext.jsセットアップガイドに従ってください。テンプレートの価値をますます見ています。フルバイブコードでエラーを貼り付けて、それらを修正するように言いました。しかし、しませんでした。わかりました、これが探していたものです。この完全にゴミな検索の山。FAI/FluxPro/V1.1 ultra API example file。

subscribe prompt aspect ratio guidance scale。私はこれらのどれも求めていません。なぜここでこんなに頑張っていたのかわかりません。また、convex react use query context provider example 2025。検索が下手です。どれほど悪いかに驚いています。少し迷惑です。クール。これらは両方とも終了しました。このバージョンは23.6Kトークンを使用しました。

これがGPT-5標準でした。高にもしていませんでした。標準だっただけです。そして、これがGPT-5 Codeexで27.8でした。高でテストすべきだったと気づきました。1分でテストします。これらでbun rundevして、どのように見えるかを見てみましょう。はい、どうぞ。これはGPT-5 Mediumが作ったバージョンです。

そして、これがGPT-5 Codexが作ったバージョンです。通常、ここでのUIの違いをそれほど読み取りませんが、異なることの多くは様々な実行を通して一貫しています。今度は確実にUIで異なる動作をします。まだ良く見えますが、物が互いに重なっているような、UIに奇妙なレイヤーがあるような、これらのタイプのエラーをより多く気づいています。

標準GPT-5を使用していた時にはそれほど見なかったバグです。それが何なのかわかりません。うまくいけば修正されるでしょうが、GPT-5の素晴らしかったことの一つがUIの優秀さだったので、少し心が痛みます。UI用に標準GPT-5に戻り、他のことにはGPT-5 Codexに行かなければならないとしたら、少し迷惑でしょう。

決定されます。これは、これらすべてを使って実際に動作するデモを構築していた時に作ったバージョンです。UIを嫌いにならない状態にするために、いくつかの版が必要でした。最初に始めた時にどのように見えたかを見せます。クイック、ここです。これは最初に立ち上げた時の見た目です。上部のここのエリアが大きすぎます。

これは大丈夫に見えます。テキストが多すぎます。そこで何をしているのかわかりません。物事が崩れるのは下部のここです。これは混乱です。何が起こったのかわかりません。本当にわかりません。これは私が知って愛しているGPT-5ではありません。言ったように、異なる方向でデザインするように言った時、うまく処理できました。

Codexから生成した最悪のものでさえ、ゼロからのUI作業に関しては、Cloudから生成できた最良のものよりも良く見えます。とはいえ、欲しいもののように見えるもののスクリーンショットを撮って、それを出発点として使うことをお勧めします。これは、これらのモデルがUIに対して持つネイティブな動作を実演することを意図しています。

前に述べていたように、ただ行って物事に取り組むように言った時は、最初はそれほど感心しませんでした。これらのツールはどれも、あなたのためにエンジニアリングを発明することはできないことを知っています。つまり、それらを導く必要があります。同僚のようなものです。実際、これがOpenAIによって私に売り込まれた方法で、彼らは本当にこの新しいモデルが、コードベースについてまだすべてを知らない、または正確にどう働くかを知らないかもしれないが、何かをするように指示され、あなたと一緒にそのことに取り組める良い同僚のように感じられることを望んでいました。

私が試した他のモデルよりもそれをはるかに多く感じましたが、まだ間違っていることに本当に強くコミットすることがあります。また、Codexでのサーチにもそれほど感心していません。Codexのサーチ自体が悪いからではなく、Codexモデルがコマンドラインインターフェースでサーチを行うのが下手だからです。

また、まだ台無しになっているUXの小さなことがたくさんあります。これを以前設定していた時のように、エージェントインターネットアクセスの動作方法は興味深いものでした。彼らがここでこの呼び出しを出してくれたことに感謝しています。インターネットアクセスを有効にすると、環境がセキュリティリスクにさらされます。ええ、本当のことです。しかし、インターネットアクセスを手動でオンにして、これをallに切り替えなければならず、必要な時に要求するプロセスがないというのは、この方法でそれを行う代わりに。良くありません。

そして、その時でさえ、環境を作成するプロセス全体のように、少し多すぎます。ちょっと遅くて退屈です。しかし、これをやったので、ここに入ってこれがどこに行くかを変更できるはずです。ああ、ここで自動更新されません。リフレッシュしなければなりません。それでも十分ではありません。ウィンドウをリロードしなければなりません。

そして、うまくいけば、エディターのCodexタブに行った時に、作成したばかりの環境が見えるでしょう。これがping.gg/T3 chatの下にあるのは興味深いです。ホバーオーバー。そして、ここで他のオプションが表示されます。これが異なる環境を選択することだということは明確ではありません。これらがping.gg/T3 chatの中にあるように見えますが、そうではありません。

ここを見てください。ローカル変更を使用。いいえ、メインに戻りたいです。また、npmを使用しましたが、これに迷惑しています。私がそれを使用しないことを理解できるはずですが、尋ねもしませんでした。私が間違っていると考えるものを使っただけです。また、このローカル変更を使用するというものは、UIの多くを壊します。

メインに切り替えることを確認してください。私のメインブランチはローカル変更のメインと同じですが、修正しなければならない小さなUXのことがたくさんあります。確かに迷惑です。これらの理由で、ほとんどの時間CLIまたはWebインターフェースを使用し、拡張機能はあまり使用しません。

Geminiモデルの追加とクラウドインターフェース

Gemini画像モデルを追加するように言います。Fowlを通じて画像を編集および生成するためのGemini画像モデルを追加します。そして今、同じ新しいモデル、同じCLIを活用しているクラウドインスタンスを立ち上げました。彼らは、異なるプラットフォーム間でCodexシステムとインターフェースを標準化しようと本当に頑張っています。

また、SDKも出す予定だということで、これは本当にクールかもしれません。誰でも独自のCodexのようなツールをクラウドで立ち上げることができるということです。他の誰も使えないものを作ることでこれに勝とうとしているようには見えません。正反対のようです。彼らは自分たちのモデルとプロトコルが、私たちがエージェンシックコーディングを行う方法を動かすことを望んでおり、だからこそその周りのほとんどすべてをオープンソースしています。

考えてみると、Codecに費やされている金額と時間、そしてそれが他の多くのことを動かしていることを考えると、ちょっとクレイジーです。彼らはそれをGitHubでMITライセンスで無料で提供しています。実際、ライセンスについて間違っているかもしれません。彼らはそれよりも寛大だったと思います。正しいです。Apache 2.0でした。

彼らがそのようなことをするのはちょっと狂気です。そして、彼らは文字通り今話している間に物事をマージしています。2分前です。そして、私は日曜日の午後9時にこれを録画しています。だから、これらの人たちがどれほど一生懸命出荷しているかがよくわかります。この巨大な邪悪なメガコーポレーションというよりも、小さなスタートアップのように感じられます。皆さんの多くがそのような雰囲気を持っていないことを知っています。理解します。

しかし、私はこれらの人たちと働くのが素晴らしく、彼らは私がここに座ってこれらすべてを通して半分ローストしているという事実に全く問題ないことを主張します。言及するのを忘れそうになりましたが、彼らがここでオープンソースの角度を行っている理由の大きな部分は、おそらくMicrosoftとの奇妙な合意です。

AGIに到達するまですべてのIPを取得するという合意です。私はいつもそれを奇妙な合意だと思っていて、特にここではWindsorf買収で傷ついたのと同様に傷ついています。彼らがこれをオープンソースにしなければ、Microsoftはまだこれらすべてにアクセスでき、それで何でもできます。しかし、オープンソースにすることで、他の皆もアクセスできます。

だから、その取引の回避策になる可能性があります。確実には言えません。これは純粋な推測です。考慮する価値があると思う可能性です。クラウドでこれがどうするかを見てみましょう。これをクリックすると、このタスクに連れて行ってくれますか?はい。はい。これがどのように物事を処理するかを見ていきます。特に、Convexのセットアップで本当に混乱しました。

特に、環境変数管理のようなものです。なぜなら、Convexでは環境変数を管理する必要がないからです。devコマンドを実行するだけで、サインインするように言われ、それで完了です。クラウドでそれをどのように処理するのか全くわかりません。すぐに見ることになります。これらのことを行った時に、何かがChatGPTアプリを開いたようです。

それはちょっとばかげていて迷惑です。とにかく、トークン化の詳細について。明らかに、彼らは5と5 Codexの間のミディアムを比較していました。これが疑わしいと思うかもしれません。私は思いません。なぜなら、個人的にほとんどハイを使用しないからです。10パーセンタイルの5ミディアムは93.7%少ないトークンです。しかし、90パーセンタイルでは、トークン数が2倍以上です。これが本当に気に入っています。

私たちが行う異なるタイプのタスクに基づいてとても柔軟であるという事実。とても良い兆候です。コードレビューを実施し、レビュー時に重要な欠陥を見つけるために特別に訓練されています。コードベースをナビゲートし、依存関係を通して推論し、正確性を検証するためにコードとテストを実行します。

彼らは私とのコールでコードレビュー側のことについて多く話していました。コードを取ってdiffを見るだけでなく、実際にクラウドのコンテナでコードを実行してテストし、バグを見つけるという事実に本当に興奮していました。潜在的に本当に、本当にパワフルです。正直に言うと、まだCode Rabbitを使っていますが、これは実際に使うことを考えるものです。良いピッチです。クールに見えます。

まだ全く評価していません。彼らは実際のオープンソースリポジトリでテストしています。各コミットについて、経験豊富なソフトウェアエンジニアがレビューコメントの正確性と重要性を評価しました。GPT-5 Codeexによるコメントは、間違っていたり重要でない可能性が低く、重要な問題により多くのユーザーの注意を向けることがわかりました。良いです。

私が使用してきたほとんどのAIコードレビューツールを通して言えることは、ナンセンスでそれほど価値のないことを吐き出すのが好きだということです。Code RabbitとうまくいけばGPT-5 Codexの両方がそれをより良くしてくれることに感謝しています。そして、それほど信頼性のないツールもGPT-5 Codexを使用でき、指を交差させて、より良いレビュー、PR当たりのコメントが少なく、より高いインパクトのコメント、間違ったコメントが少なく、約3分の1の間違ったコメントも持つでしょう。とても良い兆候です。

モバイルサイトでもはるかに優れています。とても楽しいです。入力として提供する画像やスクリーンショットを見て、進捗を視覚的に検査し、作業のスクリーンショットを表示できます。それは本当に、本当にクールです。まだそれで遊んでいませんが、新しいCodex Webインターフェースが進行中の作業のスクリーンショットを提供できるという事実。とても良い兆候です。

これがとても気に入っています。彼らはCodex CLIをよりエージェンシックになるように再構築しました。いつもそうあるべきでした。今、画像を添付して共有できます。ターミナルで画像を共有するのは好きではありません。なぜ人々がこれを好むのかわかりませんが、好きにしてください。CLIで直接やってください。超クール。今、to-doリストがあります。to-doリストをはるかに多く使っているのに気づいています。

起動時にコマンドと引数を介して行わなければならない検索は、まだ迷惑です。近い将来に変更されることでしょう。ああ、価格設定側での楽しい簡単な余談。彼らが私をこれを使用するために設定した時、私の会社アカウントを使用しました。これには購読がありません。ところで、まだT3 Chatを使用しています。

しかし、そのため、私の月額200ドルの購読は機能していませんでした。そこで行って、会社アカウントで20ドルのティアに登録しました。プロンプトを開始した直後に、彼らが行って修正し、正しいアカウントに入れました。しかし、20ドルのティアを使ってかなり一生懸命やっていて、制限に当たることはありませんでした。長時間にわたって十分に重い使用をすれば確実に当たるでしょう。

しかし、OpenAIのChatGPTプランの20ドルと200ドルのティアでのCodexプランは実際にかなり寛大であるようで、これはT3 Chatを使用しない別の理由であるため、傷つきます。とはいえ、より良いチャットインターフェースが欲しいなら、コードCOEXを使ってT3 Chatで最初の月を1ドルで取得し、他のすべての月は8ドルになります。

とにかく、そのクラウドインターフェースがどうしているかを見てみましょう。ああ、何もありません。ええ、これがクラウドインターフェースでの私の経験です。ただ半分壊れているだけです。ああ、変更を加えたようです。FAI Gemini Flash Gemini flashedit。それらがそれらのモデルの名前だとは思いません。ええ、実際にはFAI/Gemini 2.5 flasheditです。だから、検索しませんでした。

Webをチェックしませんでした。それらのモデルの名前を幻覚しただけです。正直に言うと、クラウド側はまだ少し駄目だと思います。クラウドのようなバックグラウンドエージェントのことで良い経験をまだしていません。しかし、これが基本的なチェック、リップグレッピング、ファイルと物の名前を探すだけで遭遇しているように見える問題の量。

モデルを追加するように言いました。つまり、それらはそこにありません。Webに行ってそれらを見つけるべきです。nodeモジュールをリップグレッピングするのではありません。それは選択です。ええ、これが私の懐疑心が入るところです。以前の撮影を終えた後にこの部分を録画しています。なぜなら、特定のことについて言及したいからです。

過去1時間半、私の電話でCodexの開始ピースを持っています。これによると、完了してPRを開く準備ができているにもかかわらず。彼らのライブ通知システムは完全に壊れています。開始以来ずっとです。本当にクールに見えます。全く機能しません。簡単にオフにする方法を見つけることができれば、この時点で機能しないので、絶対にそうします。

それが私のエコシステムでの問題です。ピースはそこに到達しているように感じられますが、パズルはまだです。そして、すべての部分は、それらをより多く一緒に使い始めると壊れ始めます。そして、その結束はこのようなことをするためにとても重要です。そして、それはまだそこにありません。GPT-5モデルがエージェンシックコードを行う最高の経験をまだしていることがわかりますが、特にWebインターフェースや私のエディターでの拡張機能のようなCodexツールセットが、より不器用なオプションの中にあることがまだわかります。

個人的に、CLIは意味のある改善をしていますが、Webバージョンでそれらの改善を見ておらず、エディターVS Codeのような拡張機能では確実に見ていません。しかし、すべてに一つの名前を使用すると、これが問題です。

人々がCodexという名前を聞いて、試しに行こうとする時、エディターバージョン、Webバージョン、CLIバージョン、または直接モデルのいずれのバージョンを試しているかが、それを判断する方法になります。そして、私がCLIとモデルを使用していて、あなたがWebインターフェースと拡張機能を使用している場合、本当に異なる経験をすることになり、それは私たちが異なる雰囲気を持つことになります。

OpenAIでこれを経験したことがあります。皆さんがおそらく覚えているように、GPTの立ち上げで、正しくラベル付けしない、何を得ているか得ていないかを知るのが難しすぎる、そしてオートルーターを台無しにして、今誰もが私が狂気だと思っています。ありがたいことに、私たちは皆今光を見て、GPT-5がコードで本当に優れていることを知っています。

しかし、Codexバージョン12はそれほど助けにならないでしょう。だから、それが私のフィードバックです。この方法で学ばなければならなかったことを申し訳なく思います。OpenAI、私は彼らに事前に承認のためにこのビデオを送っていませんし、うまくいけばそれで問題にならないでしょう。Webインターフェースを修正する必要があります。拡張機能を修正する必要があります。モデルを何か他のものに名前を付けるか、これらの他のサーフェスを何か他のものに名前を付ける必要があります。なぜなら、人々は混乱し、フラストレーションを感じるからです。

すべてを統一するという目標を評価しますが、長期的には混乱を減らすはずですが、今のところはただより多くを追加しているだけで、Webバージョンとバックグラウンドエージェントでこれほどがっかりな経験をした事実は、これらが将来どのようにブランド化されるかを再考するのに十分な理由です。

とはいえ、適切に推論すべき時により推論し、そうすべきでない時により少なく推論するコードでより良い新しいモデル。すべて本当に良く聞こえます。そして、私の短い遊びについては、全体的にかなり良い経験をしました。しかし、皆さんがどう思うか気になります。新しいCodexモデルで遊ぶ機会はありましたか?どう思いますか?どうでしたか?コメントで教えてください。

そして次回まで、平和ナードたち。

コメント

タイトルとURLをコピーしました