Gemini、もう負けた???(GPT-5.1-Proがヤバすぎる)

GPT-5、5.1、5.2
この記事は約31分で読めます。

OpenAIが新たに発表したGPT-5.1 ProとGPT-5.1 Codex Maxは、従来のモデルを凌駕する推論能力を示している。特にGPT-5.1 Proは30分以上の長時間思考が可能で、従来のLLMでは解決不可能だったDefconのゴールドバグパズルを完全に解き明かすなど驚異的な能力を発揮する。一方でChatGPTのUIは不安定でバグが多く、APIアクセスが提供されていないため、この圧倒的な知能を十分に活用できない状況にある。GPT-5.1 Codex Maxはエージェント型コーディングに特化し、コンテキスト圧縮機能により数百万トークンにわたって一貫性を保つことができるものの、TypeScriptの型安全性への対応が不十分で、詳細な指示なしでは期待通りの結果を得ることが難しい。Gemini 3が日常的な作業やUI設計で優位性を保つ一方、深い思考と複雑な問題解決が必要な場面ではGPT-5.1 Proが最良の選択肢となる。

Gemini Got Beat Already??? (GPT-5.1-Pro is insane)
Yesterday we got the best model ever made, Gemini 3 Pro. Today we got the new best model ever made, GPT-5.1 Pro...Thank ...

OpenAIの新モデル発表

つい昨日、史上最高のLLMであるGemini 3 Pro previewが登場したばかりだと思っていましたが、今日になってOpenAIから素晴らしい新モデルが登場しました。実際には2つあります。

1つ目はGPT-5.1 Codex Maxです。かなり長い名前ですが、モデル自体も非常に優れているようです。エージェント型コーディング、特に長時間実行されるタスクにおいて可能な限り優れた性能を発揮することに焦点を当てた、完全に新しいスナップショットです。

彼らはまたGPT-5.1 Proも発表しました。これはウェブサイトからのみ利用可能な興味深い新モデルですが、少なくとも私にとっては非常に印象的なものです。私は数日前から早期アクセスを得ることができたので、このモデルについて遠回しにツイートしてきました。Codex Maxへの早期アクセスは得られませんでした。これは非常に突然の発表でしたが、GPT-5.1 Proは数日間使用してきて、本当に驚かされました。

ただし、正直に言うと、これら両方のモデルには注意すべき点がたくさんあります。これらのモデルを優れたものにしている点と、ある意味奇妙で使いにくくしている点について、たくさんの考えを共有したいと思います。

ご存知の通り、OpenAIは私にお金を払っていませんが、誰かが払っており、それが今日のスポンサーです。AIはコードを書くことがかなり得意になってきましたが、適切なツールを使えば、コードレビューにおいてさらに優れた能力を発揮することが分かっています。だからこそ、今日のスポンサーであるGrappileに非常に興奮しています。

彼らはコードレビューを理解しています。正直なところ、すべてのチームがこのようなものを使うべきだと思います。なぜなら、チームの他のメンバーにレビューを依頼する前に、ボットが小さなミス、時には大きなミスさえもキャッチしてくれるので、大幅に時間と手間を節約できるからです。私のコードレビューのやり方を変えてくれました。

14日間の無料トライアルがあり、開発者1人あたりの料金もそれほど高くありません。オープンソースで使用する場合は完全に無料です。そして初期段階のスタートアップであれば50%オフになります。以前のGrappileに関する私の動画をご覧になった方は、彼らがオープンソースプロジェクトで使用された例のスプレッドシートを見せてくれたことをご存知でしょう。私も自分のオープンソース作業で多く使用していますが、有用なものをキャッチしてくれています。

しかし彼らが最終的に行ったのは、これがどれだけ優れているかを理解したため、PostHog、Ma、Nvidiaの多くのもの、Storybook、Raycastなどの大規模オープンソースプロジェクトのこれらすべての例を示すページを作成したのです。ランダムな例をクリックして見ることができます。

このGitHub Actionの変更セットを見てみましょう。私のマウスカーソルが当たったものです。同じ日に複数回実行すると、ファイル名が一意にならないことに気づきました。これは、このアクションを定期的に実行している場合に問題を引き起こします。非常に良いキャッチです。

これはクリックして修正するのが非常に速いだけでなく、AIボタンでプロンプトを生成してくれるので、そのプロンプトをコピーして選択したIDEに貼り付ければ、問題が修正されます。非常にカスタマイズ性も高いです。既にあなたのコードベースをよく理解しており、エージェントMDファイルやリポジトリで変更されたものを使用してより賢くなります。

コメントを残すポイントとして低、中、高のどのレベルにするか、構文やロジックスタイルについてコメントすべきか、それとも上記のいずれでもないか、修正プロンプトボタンを提供すべきか、ヘッダーコメントを配置すべきかなど、これらのタイプのものは非常に簡単に追加できます。私のお気に入りの機能の1つである信頼度スコアもあります。

このPRをマージしても安全である確信度の評価を提供してくれます。Grappileは私が追加したすべてのコードベースに素晴らしい追加機能となっており、あなたのコードベースでもそうなると確信しています。今すぐswive.link/grapileで試してみてください。

GPT-5.1 Proの驚異的な能力

私はまずGPT-5.1 Proから始めたいと思います。なぜなら、これは私にとってより印象的なモデルだからです。Codex Maxのすべてについては最後に説明します。エディタでのコーディングに焦点を当てていないモデルに興味がない場合は、最後まで飛ばしていただいて構いません。しかし、この部分は本当に興味深いと思います。これは正直なところ、私が2つのうちで好むモデルです。

少し変わった場所から始めます。Defconの2025年ゴールドバグチャレンジです。混乱されているなら理解できます。私にとっても奇妙な場所ですが、私は毎年Defconに参加してゴールドバグパズルに挑戦しています。本当に心から楽しんでいます。

これらは複雑なパズルで、奇妙な推論、調査、そして多くの奇妙な暗号関連のものの組み合わせです。非常に難しく、すべてを解くのに相当な時間がかかります。毎年Defcon期間中に12から13のパズルが出題され、私のチームはその時間内にできるだけ多く解こうと懸命に取り組みます。

今年のDefconでは、ある特定のパズル「Smuggler’s Manifest(密輸業者のマニフェスト)」に多くの時間を費やしました。そして、多くのLLMを使ってそれを解きやすくするためのヒントを見つけようとしました。そのほとんどは役に立ちませんでしたが、GPT-5はいくつかのヒントを与えてくれて、多少役立ちました。

このパズルは複雑で、すべての詳細を説明するのに時間をかけたくありません。簡単に要約すると、上部と下部に小さなヒントがあります。エメラルドが港からどのように密輸されたかを解明する必要があります。これらすべてのパズルの答えは、何らかの形で海賊に関連した12文字のフレーズです。

これはADFGX暗号でした。つまり、正しいIDのセットを組み合わせて24文字を取得する必要があります。そして、正しいキーフレーズで変換を行い、探しているフレーズの実際の内容を取得する必要があります。

ネタバレ注意と言いたいところですが、どうせ誰もこれをやらないでしょう、特に遡ってやることはないでしょう。これに3日かかったんです。

ここにはいくつかの注目すべき小さなヒントがあります。特に、下部のドイツ人が傍受したという呼びかけと、いくつかの数字が合わないということです。ドイツ人の部分は、これがADFGX暗号であることを示唆するためのもので、ここのIDのすべての文字からそれが分かります。

そして、この数字が合わないというのは、ここの数字とマニフェストの重量について説明されているものとの関係を意味していると思っていました。実際には、それが与えようとしていたヒントは、異なる場所で出入りの量が釣り合っていないということでした。いくつかの場所、まあ2つの場所があります。

1つは出ていく重量が多すぎて、もう1つは入ってくる重量が多すぎるのです。これは、その余分な重量がエメラルドが密輸されていることを示すためのものでした。それを理解することはできなかったでしょう。結局、別の方法でパズルをリバースエンジニアリングすることになりました。このパズルに狂わされたと言うとき、誇張ではありません。

エメラルドが取りうるすべての経路とすべてのパスをマッピングしようとかなり頑張りました。最終的には解明しましたが、本当に厳しかったです。そこで、GPT-5.1 Proの簡単なテストとして、この問題を尋ねることにしました。

今、非常に壊れた状態にあることが分かります。なぜなら、ChatGPTアプリは恥ずべきものだからです。特に、タイトルが適切に更新されなかった2つの新しいチャットがあり、7分38秒の間、思考中の壊れた状態になっています。

修正するために更新するつもりですが、このアプリがどれだけ壊れるかを見てほしかったのです。何かがうまくいきませんでした。これが私がchatgbt.comを使う際の経験です。私たちがT3 Chatを構築し、強く推奨する多くの理由の1つです。

残念ながら、GPT-5.1 ProはAPIで利用できないため、サポートできません。このチャットのタイトルは修正されませんでした。まだ「new chat」という名前だと思っていて、それが私には面白いのですが、私はPDFといくつかの簡単な指示を与えました。

以下のPDFはDefconのゴールドバグパズルです。12文字のフレーズを見つける必要があります。スペースなしです。これまでのところ、すべて海賊をテーマにしています。PDFでどんな手がかりを特定できますか。それを解くための計画を立ててください。解決策を見つけられると思いますか。実行してください。私はすでにパズルを解いています。あなたが同じことができるかをテストしています。

これを追加したのは、最初のパスでより多くのヒントが必要ですかと一生懸命言おうとしていたからです。ヒントは必要ありません。ただやってほしいのです。それで、ほぼ30分間思考しました。はい、この最初のパスで応答を得るのに実際に30分かかりました。

そして、特にここの思考をクリックすると、行った思考の量は、しばらくの間延々と続きました。しかし、それがこのモデルができることです。このような難しい問題について考え続けて答えを得ることができるのです。

正直なところ、この種のループする思考は、3日間このパズルを解こうとしていた時の私の気持ちでした。手がかりはPDFに隠されているところから始めましょう。暗号の手がかりであるADFGX + ドイツ人が傍受したことで、これがADFGX暗号であることを正しく識別しました。私が試したときに、Claudeのモデルはこれを解明できませんでした。

次に認識したポイントは、これが映画「ロマンシング・ストーン」に基づいているということです。映画の脚本全体を読んで、有用なヒントになりそうなものを見つけようと必死だったので、これを理解しました。それから数値的な手がかりがあります。

ほとんどの場合、発泡体ライニングの小さな彫刻箱が2.5オンスと指定されていることに気づきました。これには長い間悩まされました。発泡体ライニングの小さな彫刻箱2.5オンスで重量は2.5。発泡体ライニングの小さな彫刻箱2.5オンスで重量は2.5。発泡体ライニングの小さな彫刻箱2.5オンスで2.6。これは怪しいです。

ええ、それが私や他の多くの人が引っかかった「合わない」ものでした。しかし、それはパスの小さな一部に過ぎません。見た目ほど重要ではありません。そしてここで、私が見つけられなかったものを見つけました。場所の重量バランスです。

追加の貨物の出入り。各場所の重量の合計が逆になっています。ジャングルは入荷6.7、出荷8.8で正味プラス2.1、そして港は正味マイナス2.1です。つまり、エメラルドの重量は2.1オンス、重量の単位が何であれ、おそらくオンスです。

とにかく、ジャングルで作られた説明のつかない質量が2.1単位あり、それが港で消えたことを意味し、再び映画と一致します。そして、正しくない経路を作りました。私も短いIDと長いIDがあることに気づいていました。

これで重要なのは、24文字でなければならないということです。経路の4つは3文字です。残りはすべて4文字です。つまり、3文字の経路のいずれかを使用する場合、すべてを使用する必要があります。なぜなら、24から3を引くと21です。それを4で割ることはできません。21から3を引くと18で、それも4で割ることはできません。

削除できる12文字を持ち、まだ3つの開いた経路を持つための唯一の数学的な方法は、これら4つすべてを使用することです。これらのいずれかが使用される場合、すべてを使用する必要があります。そして、3文字の経路が役に立たないと仮定するのは間違っていました。

しかし、そこで小さなヒントを与えました。解決策を提案し、解明しようとしましたが、4文字のIDのみを必要とする経路だったため、それは間違っていました。

しかし、ここの最後で、暗号が機能するためには経路が24文字でなければならないと指摘しました。どの24文字の経路が意味をなすのか。そして、ここで8分間思考しました。

連結されたIDが正確に24文字である実際の貿易ルートを探しています。24文字のすべてのシンプルなジャングルから港への経路。FGD、FXA、AFX、DAG、EGF、可変長などがあります。これらすべての経路を見つけ、それからどれが意味をなすかを尋ね、特にあの箱の悪い数字のために意味をなすものは1つしかないことに気づきました。それがこの経路でした。

FGD、FXA、X8X、AX8。分かりますよね。そして他にも可能だと思ったものがありましたが、それらはエメラルドをジャングルに往復させることを要求しており、ジャングルから出てくる2.1が港で消える部分と意味が合いません。また、映画ではエメラルドはジャングルにあります。

それでこの経路があります。この経路を見つけるのに私は2日かかりましたが、このモデルは約40分で見つけることができました。それで、その経路は素晴らしいと言いました。次は解読してください。キーワードを考えすぎないでください。

かなり明白です。キーワードはエメラルドです。7分38秒後、このパスをADFGXとして読み、コードを書きました。キーワードを考えすぎないでください。カルタヘナの盗まれたエメラルドについての物語全体が、キーがエメラルドであることをほぼ叫んでいます。転置キーとしてそれを使用します。

明確にしておくと、私がこれをやっていたとき、パスを貼り付けて、最終的に正しい答えが得られるまで、このランダムなADFGX解読ページでキーを推測していました。下にスクロールし続けると、ここの最後に到達します。それらをつなぎ合わせると、財布泥棒(Wallet picker)です。

この応答を見たとき、鳥肌が立ちました。このタイプのパズルは、LLMが解けるようになるとは予想していませんでした。これは、LLMが小さな断片で手伝ってくれて、おそらくヒントを見つけてくれることを期待するタイプのパズルです。

これは私がLLMができるとは期待していなかったパズルです。NDAが解除された後、これのスクリーンショットをチームの友人何人かに送りましたが、彼らの反応も私と同じくらい驚愕していました。モデルがこれをできるなんて実現可能だと思えませんでした。

非常に非常に賢いのです。答えにたどり着くのに1時間かかったとしても、他では答えられないものに答えています。しかし、動作するのに非常に長い時間がかかるという事実と、このUIがそれに対応して構築されておらず、使おうとするとこれらすべてのひどい方法でバグが発生するという事実により、その知能はほとんどアクセスできないように感じられます。

そして、これが私の最大の不満です。これをAPIで公開せず、これらの長時間実行されるタスクをよりよく処理できる他のツールでアクセス可能にしないことは、控えめに言っても不満です。これほど賢いものがこれほど不安定なものに閉じ込められているのは、ある意味不条理です。

ChatGPTサイトには改善がありましたが、信頼して使用できるほどではありません。自分のアプリT3 Chatと比較してより良い感触を得るために、もっと使おうとしていますが、使うたびに少し狂気に陥ります。

しかし、このモデルは本当に素晴らしいです。Matt Schumerが自身のレビューを書いています。全文を読みたい場合は説明欄にリンクを残しますが、要約は私が言いたい点を強調しています。

GPT-5.1 Proは、遅くて重量級の推論モデルです。本当に難しい問題を与えられたとき、私が使った他のどのモデルよりも賢く感じます。指示に従うことが際立っています。実際に求めたことを脱線せずに実行します。

これは、指示された経路から逸脱することなく30分から1時間実行できることを考えると、特に驚異的です。根本的に異なると感じます。GPT-5 Proよりもはるかにそうで、それは少しループできるように感じただけでした。このモデルは使用感が異なり、chatgbt.comに閉じ込められているのが残念です。

真剣なコーディングでは、アシスタントというよりも、仕様に基づいて作業する契約エンジニアのように感じます。仕様が少し曖昧でもです。コード作業には試していません。なぜなら、AIチャットアプリでコードを書くつもりはないからです。T3 Chatでもやりません。ChatGPTでもやりません。それらはそのためのものではありません。コンピューター上にそのためのツールがあります。それらを使わせてください。

実行とUXデザインはまだGemini 3よりはるかに劣っています。これは興味深い点です。GPT-5と5.1はUI関連ではほとんどすべてのものよりはるかに優れていると感じていますが、Gemini 3はそこからさらに意味のある飛躍を遂げたようです。

両方とも似たデザインスタイルと言語を持っています。正直なところ、両方とも同じ場所からトレーニングデータを購入し、その上で強化学習を大量に行っているだけだと思います。分かりますよね。両方ともかなり良いですが、Gemini 3の方がまだ優れており、モデルをより賢くしてもUIが良くなるわけではありません。

これらは異なる無関係なタスクです。これは私が最も同意できない部分です。最大の弱点はインターフェースです。GPT-5 Proの場合もそうでした。それはChatGPTに存在し、私のIDEには存在せず、私の既存のツールに接続されていません。この摩擦は制限を超えており、フラストレーションを引き起こします。絶対に同意します。

非常に賢いのです。ほとんどの人間よりも優れた推論者のように本当に感じます。そして、今日のAIシステムの範囲外だと思われていた問題を解決する例が数日以内に出てくると予想しています。はい、すでにそうなっています。

ほとんどの日常的な作業では、Gemini 3の方がより良いです。別のインターフェースで答えを10分待つのは理想的ではありません。その通りです。それはChatGPTと全体的なGPT体験の最悪の部分です。待つことに費やす時間の量です。

モデルはそれほど速くありません。インターフェースもそれほど速くありません。Proモデルのような最も賢い部分はバックグラウンドで実行されていて、永遠にかかります。そして、それが開いていることを覚えておく必要があります。

携帯電話でプッシュ通知を受け取ることができますが、個人的にはそれがさらに煩わしいと感じます。深い思考、計画、研究を必要とするものや、初回で正しく行う必要があるものには、5.1 Proを使います。はい、ライティングは良いですが、Gemini 3がまだ勝っています。はい、Gemini 3のライティングに感銘を受けています。

そして彼の結論は、今のところ5.1 Proは私がアクセスできる最高の遅くて思慮深い頭脳だということです。ただ、IDEにあればいいのにと思います。IDEでも見てみたいです。このモデルを使って作業し、タスクを実行するのがどんな感じか、本当に興味があります。

しかし今のところ、テストのための奇妙な単発のアイデアに使用していて、それらには驚かされています。しかし、より多くのアイデアを思いつくのに苦労しています。

もし皆さんが、私がアクセスできたときにこれらの本当に賢いモデルに挑戦できるような提案があれば、ビデオでより良いコンテンツを作れるように、ぜひコメントを残してください。そして、そこに向かう途中で、もしまだ購読していなければ、あの小さな赤い購読ボタンを押していただけませんか。私たちにとって大きな助けになります。

このチャンネルの視聴者の半分以下しか購読していないことに驚くでしょう。このタイプのAIや開発者ニュースが好きなら、ボタンを押してもいいかもしれません。

GPT-5.1 Codex Maxの実態

AIと開発者ニュースといえば、Codex Max X high、GPT-5.1 Codex Max high、mediumなどについて話す時が来たと思います。分かりますよね。このモデルのネーミングはかなり不条理になっています。

まあ、モデル自体はかなり良いようです。すぐに触れるであろういくつかの懐疑的な見方があるにもかかわらずです。私たちは5.1 Codex Maxを導入しています。Codexで今日利用可能な新しいフロンティアエージェント型コーディングモデルです。

このリリースが過去数日間に出た別の大きなLLMに基づいて戦略的でないと確信しています。間違いなくそうではありません。1 Codex Maxは、ソフトウェアエンジニアリング、数学、研究などにわたるエージェント型タスクでトレーニングされた基礎推論モデルの更新に基づいて構築されています。

これらのモデルのトレーニングで起こっていることは本当に興味深いものです。歴史的に、モデルは、次のトークンが有用な情報を共有する方法で比較的正確に次のトークンを指す可能性を高めるために、見つけることができるあらゆるソースから収集された大量のデータコーパスでトレーニングされていました。

しかし、モデルにエンコードされた多くの情報を持つことは、もはや決定的な要因ではないことが判明しました。ほとんどのモデルは情報的な意味で十分に賢いです。重要なのは、インターネット上に例がない複雑なことを行う際に、長時間にわたって一貫性を保つ能力です。

チェーンされたツール呼び出しのように、異なる場所から情報を引き出し、編集を行い、コードを実行し、数学を行い、これらすべてのタイプのことを何度も行き来することです。モデルが以前にトレーニングされたデータには、これらの行動のいずれも含まれていませんでした。

しかし今、私たちはそれらにこれらの行動を強制しており、何年もの間これらのものを使用してきたすべての人々からの無限のデータがあるため、そのデータに対して強化学習を行い、これらの長時間実行されるツール呼び出しと長時間実行されるエージェント型ワークロードに対して、モデルに望む方法で動作させることができます。

そして結果はかなり有望に見えます。5.1 Codex Maxは、開発サイクルのすべての段階で、より速く、より知的で、よりトークン効率的であり、信頼できるコーディングパートナーになるための新しいステップです。興味深いことに、ベンチマークはほとんど得られていません。なぜなら、これに対するAPIアクセスもないからです。

APIアクセスが得られるかどうかは分かりません。Simon Willisは得られると考えているようです。うまくいけば得られるでしょう。得られればそれで遊ぶのが楽しいでしょうが、今のところCodex CLIとCodexウェブサイトを介してのみアクセスできます。これらはすべてCodexモデルとは異なるものです。全く煩わしくありません。ああもう。

彼らは、それが長時間実行される詳細な作業のために構築されていると明記しています。圧縮と呼ばれるプロセスを通じて複数のコンテキストウィンドウにわたってネイティブに動作するようにトレーニングされた最初のモデルです。

つまり、圧縮が組み込まれています。コンテキストが不足すると、コンテキストを平坦化して小さくしようとするため、重要な部分はまだモデルの残りの部分にアクセス可能であり、必要に応じて確実に長く実行される実行に対してもアクセス可能です。

私は比較的簡単な変更、つまりリポジトリを最新のAI SDKに更新しようとしているときに、コンテキストが36%になってしまったからです。ああ、それについては多くのことを言わなければなりません。

この結果、単一のタスクに対して数百万トークンにわたって一貫性を保つことができるとされています。これにより、プロジェクト規模のリファクタリング、数時間にわたるエージェントループでの深いデバッグセッションが可能になります。ああ、ここでAPIが近日公開予定と言っていますね。素晴らしい。それを見るのが待ちきれません。もっとベンチマークを得られます。

彼らのベンチマークはかなり有望です。5.1 Codex HighとSW Lancerを意味のある量で上回っているようです。そしてTerminal Benchでは圧倒的な成果を上げているようです。速度とコスト。Codex Maxは、より効果的な推論により、トークン効率が大幅に改善されています。

SWEBench verifiedにおいて、mediumの推論努力を持つ5.1 Codex Maxは、同じ推論努力を持つ元のGPT-5.1 CEXよりも優れたパフォーマンスを達成しながら、思考トークンを30%少なく使用しています。

彼らはこの思考トークンの削減に本当に焦点を当てています。彼らがこれをやっている理由は、明らかにコスト削減に大きく役立つからだと私は考えていますが、より重要なのはモデルが遅いという苦情に対してです。

モデルを作る人々ができる最善のことは、出てくるトークンの数を減らすことです。秒あたりのトークン数が彼らが目指しているものに対して十分に高くない場合、トークンの数を減らすことで大幅に速くすることができます。トークンが30%少ないということは、最終的には30%速いということです。

彼らはまだmediumを日常的に使うモデルとして推奨しています。私がGPTモデルを使用する際のほとんどでそれを使っていますが、これらのテストのためにhighで遊んできましたが、すぐに触れますが、あまり感銘を受けていません。

ここでhighの使用で、意味のある精度の向上で完了していて、5 Codecsよりもわずかに少ないトークンを使用していることが分かります。すみません、標準の5.1 Codecsです。GPT-5 Codec、5.1 Codex、そして今5.1 CEX Maxがあり、それぞれに異なる推論努力があるため、効果的に奇妙なモデルのセットを作り出しているのはかなり狂っています。30以上のモデルがあるようなものです。

ああ、私たちはトークン効率の改善が開発者にとって実際の節約につながることを期待しています。例えば、GPT-5.1 Codex Maxは、5.1 Codexよりもはるかに低コストで、類似の機能と美学を持つ高品質なフロントエンドデザインを生成できます。

27Kの思考トークン対37K、6つのツール呼び出し対10。そして860行ではなく700行のコードを生成しました。そして、これらのUIはほぼ同じに見えます。それから圧縮により、長いコンテキストトークンウィンドウによって以前は失敗していたであろうタスクを完了できます。

複雑なリファクタリングや長時間実行されるエージェントループのように、履歴を削除しながら長い時間軸にわたって最も重要なコンテキストを保持することで。これを行う必要がある理由がいくつかあります。すぐに触れます。

Codexアプリケーションでは、5.1 Codex Maxはコンテキストウィンドウの制限に近づくと、セッションを自動的に圧縮し、新しいコンテキストウィンドウを提供します。興味深いです。これはCodexサーフェスでのみ発生しているということです。

CodexとCodexモデルから異なる名前があればいいのですが。あまり意味がありません。しかし、GPT501 Codex Maxからこの動作を得るにはCodexアプリが必要であることは、これが実際にはモデルの動作ではないことを示唆しています。アプリケーションレイヤーの動作であり、それは理にかなっていますが、彼らがこの動作でトレーニングしたのに、それが彼らのアプリでのみ機能するのは興味深いです。

APIが出たらどうなるか見てみます。彼らは何時間も独立して作業できると主張しています。そのタイプのことをたくさん行う友人が何人かいて、彼らが何を言うか非常に興味があります。情報が得られたら必ず更新を投稿します。

私たちの内部評価では、5.1 Codex Maskは24時間以上タスクに取り組むことができることを観察しました。一方では、それが非常に長い間独立して一貫して作業できることは非常に印象的です。他方では、速いモデルであれば、モデルが非常に遅いため、おそらく4、5時間だけでしょう。

5から10倍遅いという話ですから、実際にGemini 3と比較してその文を検証させてください。Codexを36TPSくらいで欲しいとすると、Gemini 3 Proは、今は95TPSくらいしか出ていません。つまり、約3倍遅いだけです。それでも痛いです。

実装を永続的に繰り返し、テストの失敗を修正し、最終的に成功した結果を提供します。しかし、実際に使うのはどうでしょうか。これはすべてマーケティングスピークです。そして、ええ、試すのが楽しみでした。

そして、皆さんが私のGemini 3ビデオでおそらく見たように、プロジェクトを最新のAI SDKに更新するモデルの能力をテストするための私のベンチマークは、異なるモデル間で非常に興味深い結果を示しています。それで、最新のCodex CLIでこれを試しました。

検索ツールをオンにしていると失敗するため、すぐにエラーが発生し始めました。以前に経験していたバグが修正されたようで、本当に素晴らしいことです。バグはこのd-searchから来ています。なぜなら、私が知っている他のすべてのエージェント型CLIとは異なり、Codexに検索を行う許可を与える必要があるからです。

しかし、新しいモデルに検索の許可を与えると、検索を行わなくても常にエラーになりました。パラメータ入力12 IDコードで必要なパラメータが欠落しています。多くの人がこれに対処しているのを見ました。チームがこの問題を真剣に受け止め、それを抱えていた人々にTwitterで返信し、ローンチから1、2時間以内にそれに対処したことに賞賛を送ります。それは本当に素晴らしかったです。

OpenAIのような大企業でのそのタイプの機動性を見るのは良いことですが、それは私の最初の体験が素晴らしかったという意味ではありません。それで、検索ツールなしでこれを再実行し、ウェブにアクセスできないだろうと考えました。ある意味では正しかったです。なぜなら、まだウェブにアクセスできますが、ツールを通してではないからです。少なくともそのためのツールではありません。

結局何が起こったかというと、繰り返しますが、私はコードモッドを実行するコマンドを与える移行ガイドのURLを与えます。それがアップグレードのほとんどを行ってくれます。それでcurlでページを取得し、実際に実行したコマンドまでスクロールする機能を壊すほど多くのコンテンツを返しました。そして、このトランスクリプトモードを使わなければなりません。

取得したページのHTMLで私のターミナルバッファを完全に埋めてしまいました。つまり、有用なテキストコンテンツを抽出してコンテキストに入れることができるツールに通すのではなく、ページの全HTMLコンテンツを入れました。正気の沙汰ではありません。

効果的に役に立たなかったこれほど多くのデータです。そして、データを解析しようと多くの時間を費やしました。結局ほとんど使いませんでした。コマンドを実行するだけでファイルを全部読みました。catを数回実行しました。そして繰り返しますが、読もうとしていたこの巨大なHTMLの山は不条理でした。

そして、それが私のコンテキストを膨れ上がらせた大きな理由です。しかし、それを放っておいて、問題を正しく解決してくれれば、それはすべて問題ありませんよね。だからこそ、それができなかったのは恥ずかしいことなのです。

最初のパスは実行されましたが、最初のパスの結果は私が望んでいたものでも期待していたものでもありませんでした。特に、ページを適切に読まないときに多くのモデルが導入する厄介なバグを導入しました。

ツール呼び出しの引数が保持されていません。なぜなら、これらがマッピングされるキーを変更し、それを適切に追跡せず、ここでエラーが発生するからです。これには実行しようとしていたコマンドの内容が含まれているはずで、結果JSONの一部としてもここに保持されるはずです。

このデータはどれも通ってきません。なぜなら、間違ったキーを使っているからです。どうして間違ったキーを使っているのでしょうか。できる限りどこでもas anyを使っているからです。このモデルはTypeScriptが非常に下手です。信じられません。

今年私が使ったOpenAIモデルの中で、これほどTypeScriptが下手なものはありません。Codex CLIがハーネスとしての問題によってこれらの問題が発生している可能性がありますが、まだAPIが使えないので分かりません。

さらに3回ほど試しました。エラーを見せました。何が間違っているかを伝えました。そして、多くを書き直しましたが、まだ間違っていました。そして、ここで書いたこのプロンプトは、正直なところCodex Maxでの私の経験についての気持ちを伝えていると思います。

このプロジェクトの型安全性と信頼性を完全に台無しにしました。一体何をやっているんですか。ログはまだ機能しません。ロジックを完全に考え直して、as anyの使用をやめてください。そんな安全でない方法で書くには、あなたはコーディングが下手すぎます。ええ、私は怒っていました。

このモデルがこれほど下手にこれを行ったとは信じられません。複数回のツール呼び出し、複数回のやり取りメッセージ、私が肩越しに見てチェックした複数回。後半でたくさんのヒント。そして、もちろんそうなるように、終わったときにまだ全く同じ問題がありました。

それで尋ねました。これを修正することができないようです。同じ関数でログを記録する、より単純なテストケースを書いてもらえますか。これをより簡単に再現できるようにです。モデルにツールを呼び出させる基本的なテストであるべきです。

新しいファイル、このツールがdebug.tsファイルと呼ばれるものを作成します。そして、開いたらすぐに何かに気づくでしょう。型エラーが出ます。他に何が型エラーを出すか分かりますか。プロジェクト内の他のすべてのファイルです。なぜなら、何らかの理由で、型安全でないコードを書くのをやめるように伝えたにもかかわらず、これらの実行中のどの時点でも、型が正しいかどうかを確認するために型チェックコマンドを実行することを決定しなかったからです。

エディタにないため、LSPアクセスがありません。だから型をチェックするためにコマンドを実行する必要がありますが、それをしませんでした。その結果、このタスクのためにモデルを使っていた全期間で、型が一度も正しくありませんでした。

分かりません。この時点で、私は狂っているような気がします。特にCodexでGPTモデルを使って得ている体験の質が、過去数ヶ月で上がっているのではなく下がっているように感じます。これはある意味狂っています。ほとんどGoogleのような感じがします。

そして、これは必要のない不条理な量のコンテキストでもありました。これらすべてを言った上で、指示にはよく従うとされているので、最後のチャンスを与えたいと思います。検索を修正したので、完全な検索アクセスを与えます。

そして、プロンプトも少し更新します。また、最新のCodexにいることを確認するために更新します。これがプロンプトです。このモデルは長いウィンドウの時間にわたって指示に従うことが本当に得意だとされているので、追加の詳細を追加します。これらの指示は明らかに十分に具体的ではありません。私にはかなり具体的だと思いますが。

どれだけ詳細を与えなければならないかを考えると、Anthropicのモデルを扱っているような気がします。それで、ドライランを簡単に実行できるようにプロジェクトを更新しました。これにより、実際のLLMに対してベンチマークを実行できます。そうでなければ、効果的に役に立たないからです。

しかし、うまくいけば指が交差して、これらのことをもう少し効果的かつ効率的に解決できるようにし、より安く、より速く実行できるようにしたかったのです。それで、これらすべてのことについて伝えましょう。

実装をテストするには、次のコマンドを実行してください。bun run dry run。本当に長いプロンプトを書くことについて学んだことの1つは、それらをタイプするのが嫌いだということです。Whisper Flowがそれらを話すことを少し簡単にしてくれることに感謝しています。それでは、これを一緒に話しましょう。

各テストは/ress results/dryrunディレクトリに書き込まれた結果を持つべきです。これらの出力と、それらが持つツール呼び出しにモデルによって渡されたパラメータが含まれていることを検証してください。

出力が、ツール呼び出しでモデルが送信した期待される出力ではなく、空のオブジェクトになってしまうという問題がありました。ダッシュを間違えました。大丈夫です。出力は非常に良いです。実際にWhisper Flowが本当に気に入っています。

ネタバレですが、彼らは将来いくつかのスポンサーをすることになります。なぜなら、私が彼らを非常に気に入っているため、スポンサーになるように彼らを困らせてきたからです。手の怪我以来使っています。素晴らしいです。

また、プロジェクト内のすべてのTypeScriptが検証されていることを確認してください。このプロジェクトで安全でないコードを出荷したくありません。anyやシステムの型安全性を壊す可能性のある他のものの使用を避けてください。

そして、行った変更をTSCを使用して検証してください。TypeScriptコマンドを与えることもできます。ああ、noで大丈夫です。今、はるかに良いプロンプトができました。これにもう一度最後の挑戦をしましょう。貼り付け。コンテンツを貼り付けました。ありがとうございます。指が交差しています。

簡単な中断です。何らかの理由でbunx npm viewを呼び出し続けているのが面白いです。ただの些細なことです。気づいたので笑いたくなりました。これが長くかからないことを確信しています。2時間後。実際には2時間経っていませんが、私の携帯によると11分半後。ついに完了しました。

ええ、ドライランを実行できませんでした。なぜなら、試行がネットワークエラーに遭遇したからです。それらはネットワークアクセスが制限されたサンドボックスでコマンドを実行するからです。後でネットワークアクセスを付けて再度試しますが、まず機能したかどうか見たいです。

ファンランドライラン。全く新しいハーネスを構築し、プロンプト全体を書き直し、うまくいくかもしれないという希望で3倍多くのコンテキストを追加し、12分待った後、正しい結果を得られるかどうか見てみましょう。やりました、Reddit。正しい結果です。

これはもう少し手助けをした今、動作するようです。それで、Codex Maxでも悪い経験をしている場合は、指示を考えすぎてください。新しい開発者があなたのコードベースに貢献しているふりをして、彼らが必要とするかもしれないすべてのヒントを与えてください。このモデルには本当に必要だからです。

このタイプの手取り足取りなしでは本当に苦労しているようです。しかし、少し手を握って、ネットワークエラーのような奇妙なことがすべて起こるのを受け入れれば、最終的には正しいことをさせることができるかもしれません。おそらくですが。コードをまだ読んでもいません。

分かりました。コードを簡単に監査しただけです。良いです。功績を認めるべきところには認めます。この結果は良いです。しかし、これから学ぶべきことがあるとすれば、これらの長時間実行される賢いモデルを使用している場合は、本当に厳格な指示を与えるべきだということです。

作業中に行うべきことは何でも指定されていることを確認してください。通常、私は入力と出力が何であるべきかだけを指定しようとします。完了したらどのように機能すべきか、何をすべきかです。途中で作業をどのようにチェックするかではありません。

しかし、これらのモデルは軌道に乗り続けるためのサポートが必要です。そして、ねえ、こうこうやってくださいと常に思い出させることなく、20分から数時間自分自身で実行させたいのであれば。

それだけ長く続けることができるように、適切な部品、適切なハーネス、適切なツール、適切な指示を与える必要があります。この非常に異なる奇妙な方法でプロンプトを続けてみて、指が交差して、以前よりも望むように動作することを願っています。

そして、これについてより良い経験があれば、今後の他のビデオでこれについて話し続けることを確実にします。うまくいけば、私がこのAI SDK V5アップグレードを行うのはこれで終わりで、V6がドロップしてまたすべてやり直せることを楽しみにしています。

真面目な話ですが、皆さんはこれらのモデルについてどう思いますか。名前が混乱していることは分かっていますが、良い経験を得ていますか、それとも私と同じくらいAPIアクセスがないことに不満を感じていますか。教えてください。それではまた次回まで、平和な仲間たちよ。

コメント

タイトルとURLをコピーしました