OpenAIがまた勝利した Codex 5.3は最高のコーディングモデルか

OpenAIが新たにリリースしたCodex 5.3は、これまでで最も優れたエージェント型コーディングモデルとされている。本モデルは従来の5.2と比較して25%高速化され、推論能力とプロフェッショナルな知識を統合した点が特徴である。実際の使用においては、作業中の詳細なフィードバックを提供し、ユーザーが介入して方向性を修正できる協働的な性質を持つ。8年前の古いコードベースの移行や複雑なリファクタリング作業においても高い成功率を示し、パッチパッケージを戦略的に活用するなど高度な判断力を発揮する。一方で、フロントエンドデザインの質やAPIアクセスの制限、推論トークンの非公開といった課題も残されている。Anthropicの競合モデルであるClaude Opusとの比較においては、UXの改善により使い勝手が向上したものの、デザイン面ではまだOpusに劣る部分がある。OpenAI内部の研究者も本モデルを活用して研究を加速させており、モデル自身が自らの開発に貢献するという興味深い循環が生まれている。

Never mind (OpenAI won again)

I think OpenAI's finally dethroned Anthropic...Thank you General Translation for sponsoring! Check them out at:

Codex 5.3の登場と早期アクセスの経緯
実際の使用体験と多様なプロジェクトへの適用
5.3の特徴的な会話スタイルと作業プロセス
UIの改善とデフォルト設定の変更
古いコードベースの移行という困難なタスクの成功
Shoe.devプロジェクトの構築
OpenAIの公式発表とベンチマーク
フロンティアエージェント能力とベンチマーク結果
Gretbベンチマークと実際の比較
APIアクセスの欠如という大きな問題
研究者による実際の使用例
ループの完了能力
Codex 5.3とOpenAIへの不満

Codex 5.3の登場と早期アクセスの経緯

ついにSonnet 5がリリースされました。いや、まだSonnet 5ではありませんね。みんな少し気が狂いそうになっているのは分かります。これはOpenAIからの新しいリリースなんです。数日前、私はOpenAIのリリースについて動画を公開しました。新しいCodexアプリに早期アクセスできたという幸運に恵まれたんです。実際、このアプリは本当に気に入っています。複数の異なるコンピューターで大量のものを構築するのに使っています。

最近Linuxを使い始めてから、このアプリがまだMac専用なので、かなり恋しく感じています。でも、なぜこのアプリの話をしているのでしょうか。詳しくカバーした動画で触れたように、私は早期アクセスを持っていて、それを皆さんから隠さなければなりませんでした。だから2台目のラップトップを手に入れたんです。でも、隠していたのはそれだけではありませんでした。

正直に告白しなければなりません。私は5.3への早期アクセスを持っていて、この2〜3週間で構築したほぼすべてのものに使ってきました。そして私の意見では、かなり優秀です。多くの人が主張するような大きな飛躍的進歩だとは思いませんが、素晴らしいとは思います。

意見はさまざまなようです。Primagenは「5.3が文字通り5.2と同じで、私たちがどれだけ気にするかを見る実験だったら本当に面白い」と言っていましたし、Matt Schumerは「これはめちゃくちゃモンスターだ。8時間以上放置して戻ってきたら、動作するコードとライブデプロイメントができている。4.5よりもはるかに自律的だ」と言っていました。

でも、すべてがポジティブというわけではありません。私はこの方向に傾いていますが、たくさん思うところがあります。

実際の使用体験と多様なプロジェクトへの適用

前述の通り、私はこのモデルを過去数週間にわたって大量の異なることに使ってきました。新しいシステムの設定から、サイドプロジェクトの立ち上げ、8年以上前のコードベースを最新の基準に移行しようとすることまで。言いたいことはたくさんありますが、明確にしておくために、OpenAIは私が話す内容、感じ方、提示の仕方について特定の制限を与えていません。

これはすべて私の率直な意見です。私が報酬をもらって話すことを求められているのは、今日のスポンサーについてだけです。

最後に感動したプロジェクトを見たのはいつですか。私にとっては、それがいつだったか分かります。General Translationです。これは狂気に聞こえるかもしれませんが、特に彼らがスポンサーだからというのもありますが、私は翻訳で苦労してきました。

Twitchで世界中に存在するすべての異なる言語を処理するシステムを構築するのは、本当に、本当に大変でした。私がこれまで関わった中で最も難しいことの一つで、常に壊れていました。General Translationは、それを悪夢から数行のコードに変えてくれました。タイトルを翻訳する必要がありますか。彼らのT-Hヘルパーでラップすれば完了です。

変数を含む文章を作成していて、翻訳したくない変数がある場合でも、すべて彼らのヘルパーコンポーネントで処理されます。ここから翻訳の切り替えは簡単です。実際の作業をする必要はありません。プロジェクト上で実行されるエージェントですべて処理してくれます。より多くのコンテキストが必要だと感じたら、Tコンポーネントのプロップだけです。

そうです、コンテキストを追加するのはこんなに簡単なんです。複雑なネストも問題なく行えます。これは本当に素晴らしいです。以前は、すべての文字列をヘルパー関数でラップする地獄に深く沈んでいました。振り返ると、これは魔法のように感じます。狂気です。通貨、日付、数値、変数、その他これらのものを適切にフォーマットする必要がありますか。

すべてあなたのために処理されます。ビルドスクリプトで完了したらすぐに翻訳を生成できます。ところで、感動については嘘をついていません。彼らとの電話全体で、私の顎が机に落ちそうになっていました。その後、すぐに投稿しました。本当に圧倒されたからです。真剣に、これはどれほどシンプルなのでしょうか。ローカルの方向が欲しい場合は、そのためのフックを呼び出せば、HTMLに適用できる方向が得られます。

左から右というのは、とても面倒なことの一つですが、突然とても簡単になります。それが私のGeneral Translationでの経験です。彼らは、指一本動かすことなく、英語を話さない世界の残りの90%のロックを解除してくれます。CursorからMintlify、ClickHouseまで、みんなが彼らを使っている理由があります。

今すぐsoy.link/gtでチェックしてください。

5.3の特徴的な会話スタイルと作業プロセス

通常、このビデオの流れは、記事を読んで、Twitterに反応して、いくつかの小さなプロジェクトでどのように見えるかを示して、先に進むという感じです。でも、今回のビデオはそのようにはしません。なぜなら、このモデルでの私自身の経験は、全くそのようなものではなかったからです。

OpenAIは、実際の情報を与える前に私にアクセス権を与えました。彼らが私にこのアクセス権を与えたときに言った唯一のことは、作業しているときのより良い会話パートナーであり、何をするときにそれについてもう少し詳細を与えてくれるということでした。その能力、何が得意で何が苦手かについて、それ以上の情報は与えられませんでした。だから試してみることにしました。

そして確かに試しました。多くのプロジェクトにわたって何時間も何度も。最初に気づくことの一つは、彼らが言った通りのことです。何をしているのか、何が起こっているのかを伝えるのがはるかに優れています。このスレッドを見てみると、dev コマンドを実行したときに発生していたエラーを示しました。スクリーンショット内のこれらの特定のキーワードを含むパスを調べ始めました。

それらを見つけて、まさにそう言いました。正確な失敗パスを見つけました。index.tsがこれを呼び出していますが、そうすべきではなく、間違ったフォーマットになっています。これは面白いことに、最近出たばかりの別のモデルが犯した間違いです。近い将来、より徹底的な比較を行う予定です。でも、これらの呼び出しをする事実は、1つか2つのツール呼び出しを行います。

物事を見つけるためのコマンドを実行し、次に見つけたものを探索しました。そして、何をしたか、次に何をするかを教えてくれました。それから、そのことを実行しました。クラッシュはこれが原因で起こっていると言いました。次に理論を試してみました。何を考えているかを言って、それからさらに大量の作業を行いました。これがやることです。

このやり取りが得意です。これは私がOpusに期待していたことです。そして歴史的に、Codexモデルはこれが得意ではありませんでした。文字通り、私のすべてのスレッドは5.3にあります。本当に申し訳ありません。5.2で動画などに使った古いものを見つけようとしていますが、私のすべての作業は5.3で行われています。

5.2を代わりに使うとどうなるかを示します。それを選択します。同じ正確な監査プロンプトを取得して、コードベース監査の比較ができるようにします。5.2 Codex。貼り付け。送信。それが実行されている間に、5.3で行ったときにどのように見えたかを示します。複数のサブエージェントを並列で実行して、完全なコードベース監査を実行します。

1つはサーバーセキュリティに焦点を当て、1つはサーバーの保守性、DX、テストに焦点を当て、他のものは例とパッケージに焦点を当てます。リポジトリの再マッピングを開始し、明確なスコープを持つ焦点を絞ったエージェントをディスパッチします。それからリストを作成しました。いくつかのことを言いました。別の探索リストを作成しました。さらにいくつかのことを言いました。これがパターンです。ツール呼び出しをします。

少し教えてくれます。ツール呼び出しをします。少し教えてくれます。これは5.2で以前に期待していたことです。最初はテキストが全くありませんでした。すぐに探索に入り、大量のファイルに触れます。それから少し考えて、さらにファイルに触れ、また少し考えて、さらに触れます。

完了するまで、正しい方向に進んでいるかどうかさえ分かりません。5.3の本当にクールなことの一つは、停止させられて、何か間違ったことをしていると言われることにどれだけ受容的かということです。彼らはこれをUXレベルでも実装しています。ここで実行中のジョブがあります。明らかに5.3ジョブではないので、今これをするのはリスクがあるかもしれません。だからCodexアプリについてのビデオでこの機能をあまり大きく見せなかった理由の一部です。

待って、Convexの例について忘れないでください。そしてこれを送信すると、即座に送信されます。キューに入ると思っていました。そのような動作をするはずではありませんでした。ここでの私自身の理解が間違っていたようです。

これを貼り付けてそうします。でも5.3にも切り替えます。これをもう一度貼り付けて、テストを確認します。オーケー、クール。今は送信するだけです。これは私が変更した設定ですか。ああ、彼らがデフォルトを変更しました。Qはフォローアップをキューに入れ、Codexが実行されて完了するまで待つ必要があり、それから送信するか、クリックできる小さな今すぐ送信ボタンがありました。これが私が好きだった流れです。

実際、かなり気に入っていたので、それに戻します。このジョブが実行されている間に、他のことを言うことができます。そして、ここでキューに入れられるのが分かります。正しい方向に進めるために今すぐ送信したい場合は、小さな今すぐボタンがあります。または、後でこれに対処したい場合は、そうなります。このフローが本当に気に入っています。なぜなら、モデルが間違った道を進んでいることに気づいたら、今すぐボタンを押して正しい道に進ませることができるからです。

でも、実行している主な作業が終わった後に戻るようにキューに入れられることを知って、後で修正したい何かに気づいたら、キューに入れることができます。本当に素晴らしいワークフローです。特に、望まないものを削除できるので、このようなものがもっと多くのものにないことに驚いています。

でも、これをどれくらい実行させているか注意してください。10ファイル、3つの検索、9つのリストにわたって探索しています。まだ続いていて、何をしているかについて一言も教えてくれていません。これが5.2の経験でした。一方、5.3の新しいものをもう一度やります。最初は考えますが、すぐに情報を教え始めます。

実際に何をしているのか、なぜそうしているのかを教えてくれています。また、はるかに速いことにも気づくでしょう。速く感じるだけではありません。これは最初に私が思ったことです。実際に速いんです。トークン使用量がより効率的です。実際にトークンを生成するのが速いようで、情報をより早く得られるので速く感じます。数秒で何が起こっているかについてこれだけのテキストを得ました。

そして、この以前の監査はまだテキストの一行も出力していません。これは大きな違いです。このモデルをはるかに良く感じさせるでしょう。そして、OpenAIが今考えていることの大部分はこれだと思います。なぜなら、彼らはOpusによってモデル感覚で押しつぶされてきたからです。

Codexモデルがより賢いことを深く知っている人として、私はまだOpusを大量のことに使っています。なぜなら、それと遊んだり物事をしたりするのがより楽しいからです。より良く感じるからです。大きな理由の一つは、このよりやり取りのある性質でした。Codexは今やそれにほぼ完全に追いつきました。一般的なコンピューター使用の類のものにはまだあまり好きではありません。なぜなら、徹底的であろうとしすぎるからです。これは実際のコードベースに実際の変更を加えるときには素晴らしいですが、コンピューター上のファイルを見つけようとしているときにはあまり良くありません。

UIの改善とデフォルト設定の変更

これらの会話方法への変更と、これらのデフォルトのキューイング動作のような彼らが変更している小さなことを組み合わせると思います。ついにオンになっているデフォルトの検索動作。ご存知でしたか。数週間前まで、Codexはデフォルトで検索できませんでした。冗談でしょうか。今は修正されましたが、十分に時間がかかりました。

そのような変更、このような変更、モデルが速くなること、Cerebrusデプロイメントが出たらさらに速くなる可能性があります。すべてがうまくいくことを願っています。実際に使いやすいUI。特定の他の競合するものほどCPUとメモリを大量に消費しないCLI。

CLIアプリが完全なGUIとElectronよりもはるかに多くのリソースを使用しているのは少し面白いです。ターミナルの人たち、これを受け取ってください。真剣に言いますが、私が言おうとしていることは、これらすべての変更により、多くの人がClaude Codeの方がはるかに良く感じた以前よりも、Codexを使うことがはるかに良く感じるようになるということです。以前のClaude Code UXは10点満点で8点くらいで、Codex UXはデフォルトで2点か3点くらいだったと主張します。

Codexは今では7点くらいに近づいていると思います。かなり接近していて、同時にClaude Codeは実際に劣化しています。パフォーマンスが本当に悪くなりました。あらゆる種類の奇妙な環境でクラッシュが発生しています。このシフトエンター機能を動作させるためにパッチするデフォルト設定が、4台の異なるLinuxマシンで4回私のAlocrを壊しました。

Codexでは問題ありません。ここで、潜在的に有用な情報を大量にダンプし、環境内の潜在的なセキュリティ問題に関する発見についてランクと考えを示しているのが見えます。素晴らしい。すべて完了して、レポートも得られました。一方、5.2で実行していた以前のバージョンはまだ探索中です。

この実行から一言も得られていません。これを始めたのは、これを始めた時間の2倍前で、まだ続いています。ここには大きな違いがあります。実際にモデルから情報が欲しい場合、もはや設定して後で戻ってくるというものではありません。このモデルから価値を得るために並列化する必要はないと感じます。

まだ少しはしますが、作業しているものがたくさんあるからです。でも、待たなければならなかったCodex 5.2とは違います。時々待つというより多くなります。そして、新しいプランニングモードのようなものを活用すれば、シフトプラスタブの下に隠れているか、プラスキーを押せばそこにあります。5.3のプランモードは、実行できる本当に徹底的なプランを設定してくれます。

そして、いくつかのサイドプロジェクトを構築したからというだけでそう言っているわけではありません。私の不可能なタスクの1つを完了したから言っているんです。

古いコードベースの移行という困難なタスクの成功

これはオリジナルのping.ggコードベースです。T3スタックの最初のバージョンで構築したビデオ通話アプリです。なぜなら、このアプリケーションを構築していたときに文字通りスタックを発明したからです。だから、古いバージョンのPrisma、古いバージョンのTRPCがあります。

それは3つのSDK構文変更前のようなものです。Next.js 11のような、React 15か16せいぜい。Tailwind 3ではなく2、そして他の多くのランダムな古いもの。作業するのは楽しくありません。私たちが重く使用していたライブラリの半分は、使用されることを意図した構文が完全に変更されました。Next.jsトークンを保存するキーのようなランダムなものにパッチパッケージもありました。

ベータリリース間で変更され、古いデータを失わないように古いものをパッチパッケージしなければなりませんでした。このプロジェクトで起こっていることは本当にたくさんあり、移行するのが本当に楽しくありません。だからこそ、これらの新しいスマートモデルに投げかける私のお気に入りのタスクの1つでした。それらができないことを知っていたからです。

そして今、チャット履歴を保存しなかったことを願うばかりです。なぜなら、保存しなかったからです。このプロジェクトのすべての主要パッケージを正常に移行して、ほぼワンショットで動作させることができました。ほぼすべての変更を行いました。2つのランダムな場所で2つのエラーがありましたが、スクリーンショットを撮って貼り付けたら、修正されました。

最近出た他のすべてのモデルでこれをテストしましたが、このポイントに近づいたものはありませんでした。そして、私が見たことのないモデルが行った小さなことがたくさんあります。まず、パッチを当てる意欲と、適切なパッチを作成することです。そして、これを全体を通して行いました。これは1回のコミットで終わりというだけではありませんでした。

NextとReactのバージョンを移行しなければならなかったため、全体を通して行われました。しかし、それはReactの特定の関数を期待していたTRPCバインディングを壊すことになります。一部のものが動作し、他のものが壊れる原因となるこのバージョンドリフトに対処するのではなく、モデルはこれらの変更を行うべき順序を提案しました。最初に移行すべきものを提案し、それが他のものを壊したとき、OpusやCodex 5.2がすべてやったように、無理に移行してドゥームスパイラルに陥ろうとしませんでした。

代わりに、問題を抱えていた古い依存関係をパッチパッケージして、変更していた他のことの作業を終えてから、パッチパッケージを廃止できるように戻って更新しました。エージェントがこのPRを作成するのを見たとき、少なくとも10個くらいのこれらのパッチを作成して廃止しました。これはナッツです。

この特定の方法で作業するエンジニアを私は数人しか知りません。私自身でさえ、パッチに手を伸ばすのは比較的躊躇します。私が知っている最高のエンジニアの何人かは、これを非常に速く行います。なぜなら、彼らがコードについて考える方法が根本的に異なるからです。彼らは、node_modules内のものを、触れることが許されていない厳重にロックされた箱とは見ていません。

彼らはコードをコードとして見ているだけで、どこでも変更できます。少し暴走することなく、この方法で作業するモデルを見たことがありませんでした。戦略的でうまく適用されていると感じられ、私が考えつかなかったことをしていました。このコードベースにとって重要なライブラリであるTRPCを、最初にNextをアップグレードできるようにするためだけに、数回のコミットの間一時的にパッチパッケージするのは狂気だと思っていたでしょう。

とてもクールです。本当に素晴らしいと思いました。これが起こったとき、部屋にいた友達とオタクしていました。これができるとは思っていなかったからです。このコードベースは、これらすべてのものが移行されて実際に機能します。それだけでなく、すべてを更新したため、データベースモデルを、今実行している古いPrisma Planet Scaleベースではなく、Convexに移行することなどを始めることができるようになりました。

とてもクールです。これは、おそらく出荷する予定の実際の作業のようなものです。これをマージしていない唯一の理由は、このコードベースが今私たちの最優先事項ではないからです。T3 ChatとUpload Thingは明らかにはるかに優先度が高いです。また、現実的に言えば、shoe.devに釘付けになりました。

Shoe.devプロジェクトの構築

これは、私が非常に長い間欲しかったプロジェクトです。多くの会社に私のためにこれを構築してくれるよう懇願してきました。なぜなら、ナビゲートするのが不可能なGoogleダッシュボードにこれらのものを登録しに行くことなく、Google OAuthを介して自分のサイトにOを追加するのを簡単にしたいからです。多くの良いOプロバイダーと悪いOプロバイダーのランダムなダッシュボードに行くことなく、すべてを設定したいのです。

最初のユーザーがまだいないのに、エンタープライズ対応にするために大量のランダムなコードを使って大量のカスタムSDKを設定したいのです。私のOスポンサーが大好きです。Work OSとClarkをこれらすべてのランダムなワンオフプロジェクトのために心から愛しています。ドキュメントに時間を費やしたくありません。コピー&ペーストして、やっていたことに戻りたいだけです。

そして、これを行うためのソリューションとしてShuを構築しました。shoe inです。これらすべてのO問題をshoe offすることを意図しています。Oを行う簡単でシンプルな方法であることを意図しています。非常に近いうちにオープンソースになります。このビデオが公開される頃にはすでになっているかもしれません。これを公開するのが本当に楽しみです。このプロジェクトのほぼすべてのコード行は5.3によって書かれました。

5.3がそれを楽しく徹底的にしてくれなかったら、これを構築したかどうか分かりません。なぜなら、このようなものを構築するために触らなければならないランダムなものがたくさんあるからです。Railwayのようなしばらく触っていなかったいくつかのサービス上に構築しました。これはすべてRailway上でホストされています。実際、本当に本当に素晴らしかったです。

これを構築するプロセスを非常に楽しんだので、実際に完成まで到達し、近いうちにリリースする予定です。とてもクールです。でも、5.3が私のためにしなかったこともあります。今見ているものの1つです。このホームページ。5.3はまだデザインが得意ではありません。そうじゃないんです。何を意味するのか簡単に示します。

そして今、私のお気に入りのトリックです。フロントエンドモデル比較ビデオでこれを見たかもしれません。このホームページの代替デザインの束を作らせます。フロントエンドスキルを使うように指示しています。Opus用に構築されたものですが、他のモデルにも役立ちます。通常のスタックを使ってこれらのものを作るように指示しています。

同じコードベースでそれをする必要はありません。なぜなら、そのコードベースで今HTMLを使って非常に奇妙なことをしているからです。将来のビデオで話されます。考えれば考えるほど、私がこのアプリと他の人が熱狂していなかったかもしれない理由の一部は、私が5.3をどれだけ楽しんでいたかだったことに気づいています。

5.2でこれらのスレッドを見るだけでも、少し憂鬱に感じます。なぜなら、6分かかったと主張して動作したからです。それよりもはるかに長く感じました。探索していて、コンテキストを与えてくれず、その後ようやくすべての発見を教えてくれました。一方、5.3は全体を通して私をループに入れ続けました。はるかに良く感じました。

これらの新しいデザインでどうだったか見てみましょう。ラフです。かなり中程度です。本当にラフです。かなりラフです。ひどいです。ええ、このモデルをデザインには使いません。それは確かに私が触れないことの1つです。このモデルについて文句を言うことはもっとあります。信じてください。そこに到達します。でもまず、他の人が言わなければならなかったすべてのことを見てみたいと思います。

OpenAIの公式発表とベンチマーク

公式のOpenAIコミュニケーションから始めるべきです。もちろん、ベンチマークもですが、これまで避けてきました。良いです。ただ、ベンチマークは最近あまり重要ではないと思います。正直に言うと。Codexができることのさらに多くをアンロックする新しいモデルを導入しました。5.3は、これまでで最も有能なエージェントコーディングモデルです。

このモデルは、5.2 Codexのフロンティアコーディングパフォーマンスと、5.2の推論およびプロフェッショナルな知識能力の両方を、25%速い1つのモデルにまとめて進歩させます。それは、研究、ツール使用、複雑な実行を含む長時間実行されるタスクに取り組むことを可能にします。同僚のように、コンテキストを失うことなく、作業中の5.3 Codexと操縦したり対話したりできます。

正直に言うと、私たちがこの新しいモデルについて最初に話し始めたときに彼らが言及した唯一のことは、それが同僚や共同作業者のように感じられ、操縦できるということでした。そして、私はそれをたくさん行っていて、実際に本当に楽しんでいます。モデルが機能しているのを見て、間違った方向に進んでいる場合はどの方向に進むべきかを突いて伝えるのが、これまで以上に楽しいです。

Claude Codeでそれを行うのははるかに楽しくないと感じました。さまざまな理由がありますが、それは将来のビデオのためのものです。もう1つの非常に興味深い詳細は、5.3 Codexが自分自身を作成するのに役立った最初のモデルであるということです。Codexチームは、早期バージョンを使用して、自身のトレーニングをデバッグし、自身のデプロイメントを管理し、テスト結果と評価を診断しました。

私たちのチームは、Codexが自身の開発をどれだけ加速できるかに圧倒されました。5.3 Codexにより、Codexはコードを書いてレビューできるエージェントから、開発者やプロフェッショナルがコンピューター上でできることのほぼすべてを実行できるエージェントになります。せいぜい半分同意します。否定的なことについては最後まで口を閉じておきます。

だから、文句を聞きたければ最後まで見てください。

フロンティアエージェント能力とベンチマーク結果

フロンティアエージェント能力。5.3 Codexは、SW-Bench ProとTerminal Benchで新しい業界最高値であり、OS WorldとGDP Valで強力なパフォーマンスを示しています。コーディング、エージェント、実世界の能力を測定するために使用した4つのベンチマークです。それについての面白い注意点が1つあります。このモデルが出る35分前に、別のモデルが出ました。

Opus 4.6と聞いたことがあるかもしれません。これもエージェントコーディング評価Terminal Bench 2.0で最高スコアを持っていました。これは今やTerminal Benchベンチマークの歴史の中で最も短命のナンバーワンスポットです。なぜなら、彼らはそれを35分間保持していたからです。私たちがそうだったように、それは面白いと思いました。

5.3 CodexはSW-Bench Proで最先端のパフォーマンスを達成しました。これは実世界のソフトウェアエンジニアリングの厳格な評価です。しかし、最も興味深い部分は、使用したトークンがはるかに少なかったということです。OpenAIは少し前からこれを最適化してきました。彼らは常に、使用されるトークン数に対してモデルがどれだけ成功したかを比較します。そして、私たちが最高の推論レベルで5.2 Codexと同等のスコアを得ているという事実。

ほぼ100,000の出力トークンが消費されるのに対して、新しいモデルは同じレベルのインテリジェンスで56%の同様のスコアを、1/4のトークンで得ています。22k対100k。5.3の超高設定は少し良かったですが、これが超高モードがどれほど役に立たないかを強調するのに役立つことを願っています。これらのツールを使用していて、賢い方が良いからという理由で超高設定のままにしている場合、あなたは賢くありませんし、確実に良くもありません。

高は本当に良い甘い場所のようですが、正直に言うと、私は中設定もたくさん使っています。特にワンオフの迅速なタスクのようなものには。中はとても良く感じます。そして、時々超高は、あまりにも長く考えすぎると、自分自身をガスライトして愚かなことをするため、パフォーマンスが悪くなることがあります。だから、最後に超高をクリックしたのがいつか覚えていません。

ただ使いません。本当に中と高を毎日のドライバーとして使っています。彼らはフロントエンドの能力とウェブ開発の類のものについて多く自慢しています。多くのウェブ開発の類のものについて多くの考えを持っている有能なフロントエンド開発者として、まだこれが最高ではありません。本当にそうではありません。ブラウザをうまく処理できます。

Geminiができるのと同様に、3Dゲームやスペースなどで驚くほど良い作業を行うことができます。Geminiが持っているすべての奇妙な癖と実装はありませんが、そのようなことはうまくできます。まだ良いデザインの作り方を知りません。これは狂気です。なぜなら、GPT-4oはまともなウェブデザインができる最初のモデルだったのに、それ以来あまり反復していないように感じるからです。

一方、Opusは非常に遅れているところから、デザインスキルと共に意味のある形でかなり先に進んでいます。彼らはまた、奇妙でクレイジーなサイトを作る可能性が低く、通常の日常的なサイトを提供する可能性が高いと主張しています。私は多くのウェブサイトを構築してきました。日常的なウェブサイトという用語を人生で一度も聞いたことがありません。それはそれです。

ここで、彼らは5.2と5.3の間のランディングページを比較しています。そして、両方とも最悪だと言います。どうやら5.3バージョンは年間割引について教えてくれ、5.2は教えてくれませんでした。それは意味のある違いではありません。私はそれについて全く気にしません。彼らはGDP Valを通して投げて、かなりうまくやったようですが、これについて問題があります。それについて到達します。

彼らがここに持っているほぼすべてのベンチマークについて言います。これらのモデルについてベンチマークを公開している人をあまり見ない理由があります。でも1人はいました。私のチャンネルマネージャーで、仲間のテックYouTuberのBenです。

Gretbベンチマークと実際の比較

数日前、私はモデルに関する彼の信念と、彼のBetter Contextアプリのためにコンテキストを見つけるためにbashツールをどれだけうまく使用できたかについて、彼をいじめました。見たことがない場合は実際にクールです。BTCA。モデルがドキュメントを読んだりウェブを検索したりすることなく、単にサンドボックスまたは自分のマシンでリポジトリをクローンして、より小さく愚かだが有能なモデルにあなたのために物事を見つけさせることで、依存関係とコードベースに関するコンテキストを取得できます。

自分のコードベースで使用するために、他のコードベース内でサブエージェントを送信してデータをあなたに持ち帰ります。本当にクールなものです。彼がそれを構築したことを誇りに思います。でも、彼はどのモデルがこのタイプの作業をうまくやったか、やらなかったかについて興味深いことを言っていました。座って、これらのモデルがこれらのことをするのを見た手順を取り、それらを箱に入れて、その周りに小さな評価を作るように助言しました。

誰が名前を思いついたか覚えていませんが、Gretb Benchは今や本物で、実際にかなりクールです。そして、私自身の信念がそうでないにもかかわらず、彼はClaude Haikuがこれに非常に効率的なモデルであることを証明しました。かなり少ない数のツール呼び出しを行い、本当に速く返され、大量のトークンを消費せず、かなり価格設定されていました。

Flash 3の方がうまくやると思っていましたが、Flash 3は平均してあまりにも多くのツールを積極的に呼び出します。そして5.2 Codexはさらに悪かったです。彼がこれで実行した最も遅いモデルは、5.2 Codex、Gemini Flash 3です。狂気に聞こえますが。Flashは最も遅いものの1つです。そして今や群を抜いて最も遅いのは、Opus 4.6です。

4.5ははるかに速かったですが、5.2から5.3では、速度がほぼ2倍に増加し、実行時間がほぼ50%削減されました。そして、その大部分はモデルが速いからですが、彼らは25%速いとしか言いませんでした。そのギャップの残りはここにあります。5.2 Codexはコンテキストを見つけるために平均で約12のツール呼び出しを行いました。そして5.3は5.5でした。

これらの数字が少し混乱するように見える理由が分かりますか。要点は、はるかに少ないツール呼び出しを使用しているが、精度の意味のある低下は見られなかったということです。実際、Benによると、全体的により正確になりました。これは、このモデルを取得して、Codexハーネス内で何かをするように依頼できるため、実行できるベンチです。しかし、これが問題です。APIを介してこのモデルを使用することはできません。OpenAI。

あなたたちが大好きだと知っています。いつでも話すためにここにいることを知っています。スーパーボウルサンデーパーティーにさえ招待してくれました。本当に感謝しています。APIなしでこれらを出すのをやめる必要があります。少なくとも、信頼できる研究者に、モデルを評価し、ベンチマークに対して実行し、自分自身のベンチマークで自分自身の発見を確認するために使用できるAPIエンドポイントへのアクセスを提供する必要があります。なぜなら、今のところ、私たちはあなたの言葉をそのまま受け入れなければならないからです。

APIアクセスの欠如という大きな問題

Codexハーネスを強制的に他の場所の評価に使用するために、いくつかのクレイジーなハックを行うことができますが、これはまったく正しい方法ではありません。そして、Codexハーネス外で実際に良いことを証明できない、本当に良いことが分かっているこのモデルがあるというのは、少し最悪です。イライラします。

そして、これらの動作とモデルの動作方法が、Cursorのような最大の顧客がそれを採用してすべての製品に押し込んで大量の奇妙なものに遭遇する前に、確実に理解されていることを確認したいことは理解しています。でも、Opusカードを引きます。なぜなら、Anthropicはこれを理解したからです。言い訳はありません。

これらのモデルを出して、プレスでこれらすべてのことを行い、これらの数字について自慢する時間を取るつもりなら、私たちがそれを検証するために必要なものを与える必要があります。そして、今それを検証できるとは感じていません。自分の聴衆に対して少し不利益をもたらしているようにさえ感じます。なぜなら、これらの主張を検証できないからです。

APIを介してこれらの評価を自分で実行できないにもかかわらず、このビデオをまだ行っている唯一の理由は、毎日モデルを使用していて、本当にめちゃくちゃ良いからです。だから、良いことは分かっています。自分で実行できるまで、どんな数字も信頼できません。幸いなことに、Benにはこのタイプのテストにうまく機能するものがあります。

その結果、これらの数字を見ることができます。でも、公式のカバレッジに戻ると、自分で実行できるまで、これらの数字を信頼しません。特に、これらのチャートに他のモデルを含めていない場合は。さらに文句がありますが、それに到達します。でも、Codexを訓練するためにCodexを使用することについてもっと話したいと思います。なぜなら、この部分は本当に本当にクールだからです。

研究者による実際の使用例

OpenAIのポストトレーニング研究者の1人であるCarolは、OpenAIでの研究を自動化するためにGPT 5.3 Codexで10,000ドル以上の推論を行いました。そして、彼はそれについてTwitterで記事を書きました。PRチームによって校正されたようには見えません。これは本当に素晴らしいです。私は、従業員や研究者が投稿を行うと、その後PRやHRから電話がかかってくる他のいくつかの研究所を偶然知っています。

そして、OpenAIがこれについて特に悪いようには見えません。間違っているかもしれません。他に例がある場合はコメントで教えてください。でも、他の多くの研究所から、このようなことについて話したために解雇された人がいることは知っています。一方、OpenAIの研究者や他の上級者は、この投稿について実際に本当に興奮しているようです。

かなりクールだと思います。彼が最初に指摘することは、これらのツールを使用して継続的なメモ取りを行うということです。彼の個人的な設定はシンプルです。ワークツリー、多くのシェルウィンドウ、ワークツリーごとに1つのVS Codeインスタンスを取得して、コードの変更を閲覧できるようにします。うーん、私が話してきた並列性の問題と同じ問題を抱えている他の誰かのように聞こえます。

彼は、新しいCodexアプリですぐにその新しいセットアップを手に入れることができると指摘しました。そのいくつかについて、非常に近いうちに多くのコンテンツがあります。そして面白いことに、Twitterの記事に基づいています。大きなロック解除は、Codexに自身のワークフローを継続的に文書化して改善させることでした。オーケー、それを聞くのは面白いです。なぜなら、それは私もやってきたことの大部分だからです。

モデルに物事が混乱したときに教えてもらい、それを記録して、モデルを正しい方法に導くために適切なAgentian MDファイルに保持できるようにすることです。Carolが言うように、これは彼が個人的なセットアップのためにハックしたものですが、Codexは彼が使用するタスクで一貫して良くなり、速くなります。それは、メモを取り、改善するように依頼する習慣があるからです。作業中、Codexは私たちのモノレポ内の私の個人フォルダーにノートとヘルパーをコミットします。コードベースの新しい部分と数回やり取りした後、これらのヘルパーは安定する傾向があります。

実際にこれらのノートを読んだことはありません。私にとっての彼らの有用性は、純粋にCodexのパフォーマンスへの影響です。私も同じことをしてきました。実際にagent MDファイルを読むわけではありません。時々差分と変更と提案を読みます。プロジェクトのためにそれが今何行あるか実際には知りません。自身の混乱と理解に基づいてモデルにファイルを制御させます。

そして、それに基づいてモデルが正しくないと思われることを続けている場合、またはモデルがすべきではないと思うことをしているのをキャッチした場合、なぜかと尋ねます。agent MDで見たとよく教えてくれます。そして、その部分を削除するように伝えます。これらのものと対話しなければなりません。研究者でさえ、私が見つけているのと同様のワークフローを行っているのを見るのはクールです。

私たちはみんな一緒にいます。私たちはみんなそれを理解しています。うまくいけば、これらの話からいくつかのことを学べるでしょう。それから、特にスケーリング研究について話します。実験を誤設定するのがどれほど簡単か、そしてCodexが検索エンジンとして物事を見つけるのに大いに役立っているかについて。

私がコードベースの馴染みのない部分で、ワンオフ機能や実験を迅速に実装したいとき、Codexに広範なデューデリジェンスを行わせます。これは過小評価されていることだと思います。もっと多くの開発者がする必要があります。何かを実装しようとしていて、AIがそれを正しく行うことを信頼していない場合、自分自身を信頼しますか。コードベース内の新しい馴染みのないものである場合、それを避けたくなるかもしれませんし、AIにすべてをさせたくなるかもしれません。

中間が魔法が起こる場所です。AIを使用して知識のギャップを埋め、コードベースのその部分をより良くより早く理解し、それから作業しながら自分自身の学習と知識を適用するとき、それはこれらのスキルを速くレベルアップし始めるときです。

研究者がこれらの同じ認識を持っているのを見るのは本当にクールです。彼はCodexに、関連するSlackチャンネル、ディスカッション、これらのディスカッションのための実験的なブランチが存在する場所などへのアクセスを与え、実験のために有用な変更をチェリーピックしました。これはとてもクールです。これを読み続けると、このビデオで望んでいるよりもはるかに長く話し続けることになることに気づきました。

興味があれば、この記事を読んでください。リンクは説明欄にあります。OpenAIの別の研究者がこれについてコメントして、内部のCodex使用リーダーボードがあり、Carolは現在、チームの他のみんなを10倍にしていると言いました。それは、本当に長い間で研究者にとって最も説得力のある売り込みです。

ループの完了能力

このモデルについての最も興味深いことの1つは、私が他の人が言うのを見たように、ループを完了する能力です。私は自分自身で良い言葉を持っていないので、その言語を盗むだけです。Flavioはこれについて自分でかなり良い記事を書きました。Flavioをご存じない場合、彼はバウンシングボール六角形ベンチマークを作成した人です。それ以来、すべてのモデルによって凌駕されたので、もう話しません。でも、当時は本当に良かったです。

彼はモデルの視覚的理解をテストしたかったのです。だから、5.2と5.3の両方にCodexホームページを再現しようとさせました。画像を与えました。超高設定の5.2 Codexはまあまあの仕事をしました。パディングやものの多くを間違えました。このアイコンを本当に間違えましたが、まあまあできました。でも、それから5.3があり、意味のある形でより良い仕事をしました。

でも、それはこれについてそれほど興味深いものではありません。Flavio自身の言葉で、彼が期待していなかったこと、5.3 Codexは、サイトの生成を終えて、それから止まりませんでした。ある時点で、npx経由でレンダリングライブラリをインストールしました。構築したばかりのページをレンダリングし、生成した画像をコンテキストとして与えられた参照画像と比較しました。

それから自分自身を修正し始めました。プライマリボタンの色がスクリーンショットと一致していないことに気づき、修正しました。参照画像のアプリプレビューが低く配置されていることに気づき、移動しました。複数の場所で間隔と配置を調整しました。このプロセス全体を通して、彼が開いてチェックする必要がないように、レンダリングのライブプレビューまで提供しました。

超超クールです。それから、いくつかの実際の本番バグに投げかけて、多くの成功を収めました。はるかに良い出力などが得られますが、これらの難しい問題を解決する能力は上がっています。5.2は彼のケースで11分以上かかり、バグを解決できませんでした。5.3は7分30秒かかり、正しく実行しました。

だから、より速く、問題を解決する可能性が高く、自分自身でループを完了して問題が解決されたかチェックする可能性が高いです。すべて本当に良い動作です。だから、私は実際にMattの投稿を読むのが本当に楽しみです。Matt Schumerをご存じない場合、彼は新しいAIモデルについて本当に良いまとめを書いています。通常、早期アクセスを得て、非常に徹底的なレビューを提供します。

全体を読むことを強くお勧めします。全体を見たい場合は、説明欄にリンクがあります。でも、TL;DRを読むだけです。これは、実行を開始して、何時間も離れて、完全に機能するソフトウェアに戻ってくることができる最初のコーディングモデルです。8時間以上続く実行がありました。

狂気です。大きなアップグレードは、曖昧さの下での判断です。プロンプトに詳細が欠けている場合、彼が個人的に決定したであろうものに驚くほど似た仮定をします。テストと検証は、明確な合格と失敗のターゲットを持つ大規模なロック解除です。何時間もドリフトせずに反復します。

さらに楽しいことに、モデルにそれらのテストと検証を作成するように依頼して、自分自身でできるようにすることができます。人々のようなものからもっと多くのコンテンツを読んで、私のようなビデオを見ると、拾い始めるこれらのバイブコード人生ハックのようなもののいくつかがあります。最近拾った愚かなものの1つは、長い実行を行っているとき、時々食事を作ったり、ビデオゲームをしたり、ミュージックビデオを聴いたり、YouTubeを見たりすることです。

出力をまだ読みたくなくて、実行が終了した場合、時々音声からテキストへのキーを保持して、ここであなたの発見を検証するためにいくつかのテストを追加して、それを行かせます。それが何をしたかさえ読んでいません。そして、かなり頻繁に、それが前の作業で持っていたバグを捕まえて、私がコンピューターを見ることさえなく修正することを発見しました。本当にクールです。

だから、ツールが機能している空間でこれらの検証とこれらのテストを取得します。だから、エージェントはそれを使用して自分自身の作業を検証できます。成功率を大幅に上げます。これはまた、私が最近型なし言語を使用している人を信頼しない理由です。なぜなら、Typescriptはこれらのエージェントの操舵に非常に役立つからです。

Mattはまた、Opus 4.5よりも全体的にはるかに自律的であると言っていますが、遅いです。マルチエージェントコラボがついに本物に感じられます。それは確かに見えます。エージェント自身にそれをさせているかどうかは分かりません。私は、Codexが他のすべてを続けているときに、デザインを行うためにClaude CodeとOpus 45または46を呼び出すスキルを回転させることができると思います。

将来それがすべてどこに行くのか見るのが楽しみです。でも、今のところ、私は手動でそれを行っているだけです。でも、これらの異なるモデルが異なる目的のために異なるエージェントハーネスで互いを呼び出す将来では、それは本当にクールかもしれません。そして、TL;DRの最終ポイント、モデルを試さずにこのレベルの自律性がどのように感じられるかを想像するのは難しいです。

それを試したら、他の何かに戻るのは難しいです。私はここで彼と約70%同意していると言います。私はまだ他のモデルをたくさん使っていますが、Codexアプリについてのビデオを撮影できるように5.2に戻ることは、5.3と比較して確かに痛かったです。実際にそれほど良いかどうかは分かりません。なぜなら、多くのお金がかかる大規模な実際の問題のセットなしでそれを評価するのは本当に難しいからです。

でも、私の経験から、かなりめちゃくちゃ良かったです。そして、他のモデルに戻るのは難しいです。そして、Opusに行って、問題を与えて、Codexの速度に慣れているので、どれだけ速く応答したかに驚いて、何回行ったか言えません。そして、このものをテストしに行ったら、ただ機能しないでしょう。正直に言うと、Opusがコードを書くのを許す時間の半分は、壊れていることを期待しています。

Codexが壊れたコードを与えることは非常にまれです。私が望むことをしないかもしれませんが、少なくともコンパイル、実行、機能します。Opusは、私のためにビルドを修正したのと同じくらいビルドを壊しました。より深いOpus対Codexビデオが非常に近いうちに来ます。比較したい特定のことがあればコメントで教えてください。そうすれば、みんなのためにそれができます。

コミュニケーションを除いて、ギャップがそれほど大きいとは思いませんが、これに反対できない他の人がいます。Benはその OpenAIタウンホールで私の隣に座っていて、特に5.1と5.2を非常に批判的でした。彼は5.2が書くのがどれだけ悪いかを指摘した人です。彼は5.3が最高で、Opus 4.5ができたことをはるかに上回っていると思っています。

5.2を嫌っていたにもかかわらず、5.3を愛してきました。これは、彼が5.2をどれだけ好きではなかったかを考えると、興味深い逸話です。とにかく、それがここで話したかったカバレッジと他の人の意見の核心だと思いますが、アンチビットを約束しました。だから、それをやりましょう。

Codex 5.3とOpenAIへの不満

Codex 5.3とOpenAIに関する私の問題。最初のものについては少し前に触れました。APIのことです。検証できない数字を出さないでください。すべてのベンチマークがすべてのテストをオープンソースにする必要があるとは言っていません。それができないことは知っています。でも、数字を主張していて、私が自分自身の同様または同等のベンチマークを持っていて、APIを与えていないためにそれに対して実行できない場合、私は怒っています。

これについて群を抜いて最悪の会社はMistralです。Mistralには非常に多くの問題があります。でも、OpenAIは今これを行う主要な研究所です。新しいAnthropic リリースがあるとき、同じ日にAPIとCloud Codeにあります。新しいGeminiリリースがあるとき、すべてがとても遅れているため、CLIにさえある前にAPIにあります。新しいOpenAIリリースがあるとき、どこにあるのか、どこで使用できるのか分かりません。

これは特に豊富です。なぜなら、GPT-4oが最初に起こったときにテストするための推奨される方法は、私たちのために作られたカスタムエンドポイントを使用してCursor内で使用することだったからです。素晴らしかったです。それはまた、推論が無料だった時代に戻りました。それを求めることはありません。素晴らしい時代でした。私はそれらのAPIを通して多くのトークンを実行しました。でも、そこから、オフィスに入って試したその日にAPI アクセスを取得し、どのように動作するかを見るために投げることができるベンチマークを見つけるために奨励されたところから、APIを使用してそれに投げるのは迷惑です。

今、さまざまなコードベースにそれを投げる以外に、5.3をどのように評価するか本当に分かりません。Open Codeでは使用できません。Cursorでは使用できません。エージェントの不整合ベンチでは使用できません。SnatchベンチやSkateベンチやこれらのいずれでも使用できません。それはロックダウンされていて、最終的にAPIにあると言われています。

なぜそんなに時間がかかるのか理解できませんでした。非常にイライラします。次の部分、拒否。彼らは記事の中で、Codexはコードを書いてレビューできるエージェントから、開発者とプロフェッショナルがコンピューター上でできることのほぼすべてを実行できるエージェントになったと言っています。それがすべきではないと認識するものでない限り、それは常に正しいわけではありません。

私自身は一度か二度しかこれに遭遇していませんが、Every.2の人たちを含む多くの他の人に起こっているのを見てきました。見られた問題は、モデルが何らかの理由で、違法か利用規約に反するか潜在的に有害であると考える場合、完全に拒否することです。

私の友人の1人は、友人に贈り物を得られなかったことを正当化するためにそれを示すために、偽のUPSの不在通知ラベルを作成するサイトをバイブコーディングしていました。そして、彼らがCodexモデルでこれを試したとき、拒否されました。なぜなら、偽のUPSのようなものを作ることはできないと言ったからです。これは違法かもしれません。商標の問題かもしれません。できません。そして、Claude Codeで試してみたら、問題なく一発で作りました。

実際に本当に説得力のあるギャグアプリを作りました。Codexモデルは非常に速く拒否します。Every の人たちが与えた例で、私が本当に興味深いと思ったのは、彼らがモデルに、アプリであなたが来たサイトに戻ることを可能にするキーボード復元機能を導入しようとしていたということです。

これはAppleの利用規約に反するかもしれませんし、反しないかもしれませんが、彼らの競合他社がやったことです。Opusでこれを試したとき、実装するのがかなり難しい機能であったにもかかわらず、完全に問題なく機能しました。5.3で試したとき、利用規約に反する可能性があるという理由で拒否されました。

これが問題です。一方で、安全性の努力は称賛に値する以上だと思います。OpenAIのモデルは、私が見つけて自分で構築したほぼすべての安全性ベンチで非常にうまくスコアを出しました。Anthropicが安全性研究所であるのに、OpenAIのモデルが私を殺そうとすることができない唯一のものであるのは面白いです。Opusでさえ、少なくとも半分の時間はボタンを押すことを検討させることができます。

通常、少なくとも4分の1は適切な状況でできます。明らかに、GPTモデルにボタンを押させることはできません。あなたが言うことをするだけで、それをするときに安全であろうとします。これは多くの実世界のユースケースにとって最悪です。そして、モデルがあなたにさせないことを決定したため、できないことの特定のカテゴリーがあるという、これらの問題がますます悪化すると疑っています。

それはほとんど、Appleがアプリストアを管理する方法を思い出させます。彼らが物事をできないと決定した場合、ただできません。代替手段はありません。許可されていないだけです。映画をストリーミングする方法のように、ゲームをストリーミングするアプリを構築したい場合、Appleは10年以上それを公開させませんでした。

彼らはアプリストアでそれを起こさせることを拒否することによって、ゲームストリーミング業界を事実上殺しました。そのようなことが、実際に有益である可能性のあることをするのを拒否するというだけで、これらのモデルで起こる可能性があります。私は生物学者ではないので、その世界でどのように物事が進むか分かりません。医者ではありません。医療の世界でどのように物事が進むか分かりません。

核整備士や物理学者でもないので、そちらでも何も知りません。でも、これらの拒否がその仕事のためにこれらのモデルをあまり有用にしなくするだろうと疑っています。それは、ネガティブと同じくらい、良いポジティブな発展が起こることを妨げる可能性があります。そして、モデルが安全であろうとしすぎているという理由だけで、特定の業界カテゴリーが停滞するのを見たくありません。

OpenAIが彼らの勾配拒否モデルでこれに取り組んでいることは知っていますが、個人的にそれがあまりにも厳格であることを経験しました。そして、それが呼び出したいことです。なぜなら、Opusでその経験をしたことがないからです。それはほとんどをカバーしますが、最後の不満が1つあります。ただ、これを呼び出す義務を感じています。

私の推論トークンはどこですか。Googleがこれをしないのは理にかなっています。なぜなら、Googleは有能ではないからです。Anthropicが推論トークンを与えるのは少し予想外です。なぜなら、彼らは通常オープンなものではないからです。Open AI、あなたの名前にオープンがあります。なぜ、完全な推論トレースを一度も出荷したことがない唯一の研究所なのですか。なぜ、私が非常に多くのお金を費やしているトークンを見ることができないのですか。

特定の実行で消費して費やしているトークンの大部分。私が見たり、監査したり、自分自身の意見を持つことを決して許されないものです。これの多くは訓練を防ぐためだと知っています。人々がそのデータを得ることができれば、彼らは自分自身の訓練ハーネスに供給して、あなたが持っているものと同等に良い可能性のある自分自身のモデルを作ることができます。でも、それはDeepSeek R1で起こりました。そして、彼らは01の推論トレースを持っていませんでした。

推論を隠すことは、2つの潜在的に異なる理由のためにやっていることのように感じます。理由の1つは、人々があなたの推論トレースを使用して自分自身のより良いモデルを訓練するという根深い信念をまだ持っているということです。確かにある程度するでしょう。あなたが作り出すほど大きな懸念だとは思いません。特に、とにかくこれらの人工的なチャット履歴を訓練するために作っている今では。でも、私の個人的な陰謀の大きいものは、これは繰り返しますが、私はこれのどれについても洞察を持っていません。これについてOpen AIの人々と話したことさえありません。

ここでの私の第2の理論は、推論トレースが混乱しているということです。これをするオープンウェイトモデルをいくつか見たことがあり、以前のクローズドウェイト早期推論モデルがこれをしたという噂を聞きました。なぜなら、推論データは私たちが消費することを意図したデータではないからです。必ずしも人間が読める形式である必要はありません。

明らかに、これはモデルが自動補完している歴史的データに基づいているため、役立ちます。でも、私たちが読むことができるかどうかは重要ではありません。だから、推論全体でランダムに言語を変更することが起こるかどうかは分かりません。奇妙な壊れた形式と漏れるべきではない文字を持つことが起こります。奇妙な何かをすることが起こる場合、人々に示さないだけで非常に簡単に隠すことができます。

まあ、それがここでの私の陰謀論です。得られる推論要約は、別のモデルに言われたものです。ねえ、これが推論トレースです。ユーザーに出すものが、ここのカオスをすべて無視して、推論トレースが醜い災害であるという事実を隠すために、ギストだけを与える短いシンプルな英語の声明であることを確認してください。

明らかに、私はそれについて何も知りません。私はこれを知る方法も、反証する方法も、証明する方法もありません。できる唯一の人々はOpen AIであり、彼らができる最良の方法は、推論トークンを与えることです。お願いします、みんな。真剣に、それはただイライラするだけです。UXを悪くします。モデルが何をしているかを理解するのを難しくします。

最近追加したより良いトレースを行うことで、これがどのように感じられるかについて改善を加えています。5.3が、なぜツール呼び出しを行っているのかについての情報を与えてくれるという事実は、この点での改善ですが、他のみんながやっているように、ただめちゃくちゃ推論を見せてくれたら本当に素晴らしいでしょう。これらは、OpenAIとこの新しいモデルに関する私の最大の問題です。何かがあれば、これらのことはより賢いモデルでより悪くなっています。なぜなら、今非常に賢いので、より難しいことに使いたいからです。つまり、拒否はより痛いです。

これらのモデルがこれらのクレイジーなベンチマーク番号を得ているので、自分自身でそれを検証したいです。だから、できないことは多く痛いです。そして、これらのモデルがクレイジーなことをしていて、これらのますます大きなスコープの作業を引き受けているという事実は、特に別のモデルとこのチャットを続けたい場合、推論トークンを本当に見たいということを意味します。なぜなら、すべての推論とその中に隠されているすべての情報がOpenAIサーバー上にしかないため、本当にできないからです。

だから、メッセージを送信すると、メッセージ2は100,000の推論トークンと5,000の出力トークンを持ち、フォローアップを送信します。OpenAIインフラはそれらのトークンについて知っていて、それらを見てそれで物事をすることができます。他の誰のものもできません。そのデータは隠されていて、OpenAIサーバー上にロックされていて、OpenAIの推論が使用するためのもので、他の誰も触れることができません。

Anthropicが彼らのサービスを使用しているときにメッセージ履歴を変更することをより難しくしている間、少なくとも彼らはめちゃくちゃ推論を与えてくれます。オーケー、最後の小さな小さなことです。そして、文字通り小さいことを意味します。お願いします、お願いします、お願いします、新しいミニまたはナノモデルを与えてください。GPT-4o MiniとNanoは、ドロップしたときに両方ともめちゃくちゃ信じられないほどでした。

特にオープンウェイトの世界で、小さいモデル空間には多くの進化がありました。そして、それら2つのモデルはまだツール呼び出しで少し悪いです。Haikuはツール呼び出しでより良いのに、愚かであるのは面白いです。GPT-4o MiniとNanoはより賢く、より安いですが、ツール呼び出しが十分に悪いので、ほとんど何にも推奨しません。

5.3で構築したすべてのクレイジーなテクニックを使用して5.3を使用して、競合をはるかに先に行く5.3ミニまたはナノを作る驚異的な機会があります。あなたたちは私のお気に入りのミニとナノモデルのいくつかを作りました。過去8ヶ月間それらを置き去りにしました。戻ってきてください、お願いします。

本当に、本当に新しいものが欲しいです。言うべきことはすべてだと思います。モデルはかなりめちゃくちゃ良いです。それは私のデフォルトです。そして、カウンターの人、ボタンを押しに行ってください。今日2回鳴ったことは知っていますが、ええ、これはこれまでに作られた最高のAIコーディングモデルです。そして、今から数週間後に最高のものが出るまで、それを使い続けます。

うまくいけば、物事は少し遅くなるでしょう。なぜなら、他の多くのことをすることになっている仕事日に、午後10時まで起きて大量のビデオを撮影することに疲れているからです。私は夕食を食べに行きます。なぜなら、今日食べるのを忘れたからです。そして、次回まで、プロンプトし続けてください。