GPT-5.1は史上最高のコードモデルなのか?

本動画では、OpenAIの最新モデルGPT-5.1の実際の開発現場での使用感について、率直かつ批判的なレビューを展開している。表面的なベンチマーク結果では高評価を得ているGPT-5.1だが、実際のコーディング作業においては期待外れの結果が多く、モデルの非決定性や奇妙な挙動が目立つという。SWEBenchでの高スコアやコスト効率の向上といったポジティブな側面がある一方で、実用面では適切なツール使用の失敗、不要なコマンド実行、予測不可能な出力品質など、多くの問題点が指摘されている。特にTailwind CSS v4への移行作業や、各種UIタスクにおいて、競合モデルと比較しても一貫した優位性を示せていない実態が、複数の実例とともに詳細に検証されている。

Is gpt-5.1 the best code model ever?

I've been coding with GPT-5.1 a lot and honestly, I'm not all that impressed...Thank you Daytona for sponsoring! Check t...

GPT-5.1の評価と実態のギャップ
スポンサー紹介:Daytona
他者の評価との対比
APIとChatGPTサイトでの違い
実際のコーディング体験
Tuneプロジェクトでの検証

GPT-5.1の評価と実態のギャップ

GPT-5.1はGPT-5の高速版ではありません。私たちがテストした中で最も精度の高いモデルであることがわかりました。GPT-5.1 Codeexは、SWEBenchにおいてClaude Sonnet 4.5 thinkingを上回り、しかも26倍安価です。GPT-5.1はUIタスクに非常に優れています。これらは軽微な編集で完成しました。OpenAIはGPT-5.1で優位性を拡大し、アーティフィシャル・アナリシス・インテリジェンス・インデックスで2ポイント上昇しました。

では決着がついたということでしょうか。5.1は素晴らしいモデルで、特に開発者にとって最適だと。しかし私は今から問題を起こすことになりそうです。私はAPI経由でGPT-5.1への早期アクセスを約1週間持っていて、このモデルを大量に使おうとしてきました。「使おうとしてきた」という言葉を強調します。なぜなら、このモデルで興味深い経験をしてきたからです。

もし最初のGPT-5の動画で私がした称賛が気に入らなかったなら、今回の動画は気に入るでしょう。なぜなら、あまり称賛はしないつもりだからです。私はこのモデルにそれほど感銘を受けていません。日々の使用において、5と同程度の性能です。時には少し速く、時には明らかに悪化しています。

特にコードを扱う際、私がこれまで見たモデルの中で最も奇妙な動作をすることがあります。私は5.1から5.1 high、high fast、codeex、codeex miniなど、すべての新しいバリエーションで遊んできました。そして本当に、私の経験は大きく変動しました。

皆さんご存知の通り、OpenAIはこの動画や私がこれから言うことに対して報酬を支払っていません。実際、誰も支払っていません。まあ、今日のスポンサーである1社を除いては。

スポンサー紹介:Daytona

既にご存知かと思いますが、AIはコードを実行できるようになると格段に賢くなります。それは単にAI自身が解決策を探すためだけでなく、私たちがAIのために構築したものを置き換えることにもなります。MCPは必ずしもモデルにツールを提供する最良の方法ではないことがわかりました。代わりにコードを提供すれば、与えられたものを使ってより良いコードを書くことができます。

しかし今度はそのコードを実行する場所が必要になります。そしてもし自分のサーバーで実行するだけなら、安全性とセキュリティを保ち、すべてのユーザーを危険にさらさないようにするのは大変です。これを正しく行うには、本当に優れたサンドボックスプロバイダーが必要です。だからこそ私はDaytonaが大好きなのです。

この人たちは、あなたがAIで何を構築しようとしているにせよ、物事を理解しています。ユーザーに独自のコードを実行させたいだけなら、Daytonaがカバーしてくれます。彼らはコードを安全かつ確実に実行するためのインフラを統合する最も簡単な方法を構築しました。そしてその上にさらに多くのものを構築しました。

ここの例を見れば、サンドボックスを立ち上げるのがいかに簡単かわかります。文字通り彼らのSDKを呼び出し、Daytona.createを呼び出してサンドボックスを作成します。言語を渡して、実行するコードを渡せば、コードを実行してくれます。それ自体が素晴らしいのですが、これは単なる一回限りの分離環境ではなく、実際の環境を立ち上げているのです。

したがって、実際のコマンドも実行できます。ファイルシステムに接続することもできます。彼らのSDKを通じて、または従来のGitコマンドを直接使ってGitを実行することもできます。コードを書くためのバックグラウンドエージェントを構築したい場合、Daytonaにはそのために必要なすべての情報があります。

彼らが理解している重要なことは、サーバーレススタイルで高速かつスケーラブルにする必要があるということですが、同時にステートフルにして、次のトークンを待っているときやエージェントがバックグラウンドで何かを終えるまで待っているときに、ボックスがスリープしなければならない状況を処理できるようにすることです。

これらすべてを一緒に機能させることは、インフラに多くの時間とお金を無駄にして、ビジネスのセキュリティを危険にさらしたいなら、独立して行うことが可能です。あるいはDaytonaのSDKをインストールして、文字通り5分で動かすこともできます。

彼らはあなたとあなたのエージェントが必要とするすべてのものを用意しています。プロセス実行、ファイルシステム操作、Git統合、LSPサポートまで。これがどれほど素晴らしいかわかりますか。私が毎日使うツールのうち、実際にはTypeScriptをまったく知らない、またはTypeScriptのものにアクセスできず、代わりにコマンドを実行しなければならないものがどれだけあるか。

エージェントがLSP全体にアクセスできたら素晴らしいと思いませんか。真面目な話、CursorやCodexのようなツールがDaytonaで構築されていたら、はるかに賢くなっていたでしょう。何を待っているのですか。今すぐsoy.link/tonaでチェックしてください。

他者の評価との対比

さて、計画はこうです。この開発者向けモデルについて、他の人たちの報道を見ていきます。そうすれば、他の人たちがどのように体験しているかがわかります。なぜなら、私自身の体験とはかなり異なるようで、そのコントラストを明確にしたいからです。

まず、Code Rabbitがこのモデルがレビューにどれだけ優れているかについて語っているものから始めました。素晴らしい。最高です。それ以外のほとんどすべてはベンチマークでした。5.1 CodeexがSWEBenchでClaude Sonnet 4.5 thinkingを打ち負かしているというものです。

これは見ていて面白いですが、69.8から70.4への上昇は意味のある跳躍ではありません。しかしここで重要なのはそれではありません。重要なのは、この31ドル対8ドルです。Sonnetは26ドルでしたが、ほぼ2倍、実際には2倍以上の時間もかかりました。

これは新しいGPTモデルの多くの問題と利点を示しています。5.1で他のモデル、特に古いバージョンのGPT-5と比較して気づいた最大の違いは、行う推論の量が非常に可変的だということです。与えるタスクが簡単なら、それほど多くのトークンを生成しません。タスクが複雑なら、多くのトークンを生成します。

そしてGPT-5.1 highと非highバージョン、5.1 codeex highの間で切り替えながら使っていますが、それらの間にそれほど大きな違いは見られません。明らかにminiは劣りますが、それほど劣っているわけでもありません。miniについては後で少し話します。

アーティフィシャル・アナリシスの実行結果を簡単に見てみましょう。彼らは本当に良い研究を行っていて、ここでの変化を見るのは興味深いです。5.1は2ポイント上昇しました。再び、これは彼らのベンチマークで最も賢いモデルとなりました。このベンチマークをどれだけ信頼するかは、Gemini 2.0 thinkingがClaude 4.5 Sonnetよりも有意に優れていると考えていることを考慮して決めてください。

このインテリジェンス・インデックスの価値はそれほど高くないかもしれないことがわかります。私は本当にGemini 2.0が好きです。文字通り好きです。しかし5、Gemini 2.0、Grok 4がこれほど近いという事実は、インテリジェンス・インデックスがそれほど強力ではないかもしれないことを示しています。

ここで興味深いのは、彼らの実行で使用されたトークン数のギャップです。8200万推論トークンから7600万まで、かなり意味のある減少に見えます。しかしSWEBenchとの比較に戻ると、GPT-5 codeexでの実行コストは221ドルでした。Claude Sonnet 4は文字通り4倍高価でした。

そして5.1 Codeexは5 codeexからほぼ10倍安く、Sonnetからは20倍以上安く、スコアはわずかに高いです。しかし、ここでの時間差も重要であることを覚えておいてください。しかし彼らはそれを高速化しようと努力してきました。スループットを見ると、32トークン毎秒は有意に速くはありません。

しかしこれを5.1 codeexの28トークン毎秒と比較すると、ああもう。そしてcodeex miniは71まで上がります。もし私がClaude Gemini 2.0を書くことにそれほど好みがなく、IDEにはcomposer 1を好んでいなければ、おそらくこれを日常的に使っていたでしょう。Cursorでは本当に飛ぶように動きます。

GPT-5.1は、ほとんどのタスクで5よりも速く感じます。これは主に使用される推論トークン数の違いによるものだと思います。それについてはすぐに話しますので心配しないでください。

OpenAIチームが私に強く勧めたもう一つの大きなことは、非推論努力オプションです。これを公開して使えるようにすることと、全体的により良い体験にしようとすることの両方に多くの努力を費やしたようです。私はこれで遊ぶ時間があまりありませんでしたが、今後もっと試すつもりです。

実は、信じられないかもしれませんが、エディターで使用しているのは予想外のものです。Command Kを押すとき、私はまだGPT-4o miniをデフォルトにしています。クイックなインライン変更を行う際の速度と非推論のバランスが良いと思うからです。エージェント関連のものには全く使用していません。何かをハイライトしてCommand Kを押して「これを修正して」といったことに使っているだけです。

したがって、推論をオフにした5.1は、その良い代替品になるかもしれません。ただ、まだ徹底的にテストしていません。もう一つ、本当に強調する価値があると思うことがあります。Simon Willisのアップデートとブログへの掲載に感謝します。

拡張プロンプトキャッシングは本当に本当に素晴らしいです。キャッシングは、これらのプロバイダーのほとんどが抱える問題です。多くのお金を節約し、物事を高速化しますが、正しく設定するのは本当に難しい場合があります。Googleは以前これについて最悪でした。その後、自動的に行われるように設定し、今では実際に優れたオプションの一つになっています。

Anthropicは今、私の意見では、API経由で良い体験を作ろうとしている主要な研究所の中で、キャッシングに関しては最下位です。しかし、キャッシュが数分間しか存在せず、後でこのスレッドに戻った場合、それはうまく機能しません。キャッシュが24時間に延長されたことは、実際に本当に本当に素晴らしいです。

そして彼らがこれを設定したことに興奮しています。T3 Chatをさらに高速で安価にすることを期待して、非常に近い将来、私たちのものにこれをオンにするつもりです。

APIとChatGPTサイトでの違い

GPT-5.1でコーディングした経験に飛び込む前に、最後に一つ。API経由での書き方が、ChatGPTサイト経由よりも大幅に良く感じられることに気づきました。おそらくシステムプロンプトの問題だと思いますが、以前からテストしている「Javaプログラミング言語の説得力のある擁護を書いて」というプロンプトを見てみましょう。

皆さんはおそらく、私が以前のGPT-5.1は普通の人向けという動画でこのプロンプトを見せたのを見たと思います。私がまだ持っていなかったので見せなかったのは、T3 Chatのようなアプリでどのように動作するかの比較です。

はるかにはるかに良く、シンプルです。そして私は個人的なT3 Chatインスタンスにカスタムシステムプロンプトを持っていません。したがって、これを使用すれば非常に似た体験ができます。これは、最も一般的な苦情に直接対処する、Javaの簡潔で説得力のある擁護です。シンプルな箇条書きのようですが、他の場所で大好きな箇条書きリストではありません。

この箇条書きの山を見てください。API経由ではこれをそれほど積極的に行わず、これを日常的なチャットモデルとして使用する上で意味のあるアップグレードとなっています。そしてデモで彼らが使っていた「会議の前にコーヒーをこぼしてしまった」というプロンプトと比較すると、短い答えは「いいえ、絶対にない」です。

より長い、実際に真実の答え。そしてこれにも箇条書きがあります。そして私は馬鹿みたいに感じているので慰めを求めているだけです。これはT3 Chat経由でのまったく同じモデルです。会議の前にコーヒーを自分にこぼしてしまいました。みんな私が馬鹿だと思ったでしょうか。おそらく違います。人々は通常、自分のことに集中しすぎて判断する余裕がありません。こぼすことは普通の人間的な事故です。大丈夫ですよ、Theo。

私は狂っていませんよね。これははるかに良いです。もし月8ドルですべてのモデルにアクセスし、それらとチャットするはるかに良い体験を得たいなら、t3.chatに行き、コードnormiesで最初の月をわずか1ドルで手に入れてください。そして返金しようとしないでください。

あなたのEUポリシーなんて気にしません。1ドルを使って、その後アプリをたくさん使うなら、返金はしません。はい、これは最近実際に問題になっています。1ドルの推論を楽しんで、迷惑にならないでください。

実際のコーディング体験

以上です。このモデルでコーディングした経験に飛び込みましょう。私は試してきたさまざまなことがたくさんあります。この新しいモデルから最高のものを引き出そうと、多くの異なるモデルと多くの異なるプロジェクトの間を行き来してきました。そして、それは少し苦労してきました。

テスト中の最初よりも良くなっているようですが、大幅に良くなったわけではありません。ほとんど忘れるところでした。Skatebenchに対して実行したところ、スコアが99%から81%に有意に後退しました。まだ一度しか実行していません。答えをまだ詳しく見ていません。

しかし、他のすべての人がこのモデルをすべてのベンチで大幅に優れていると呼んでいるのに、私のベンチマークがそれを示していないのは奇妙です。まだSnitchBenchでは実行していませんが、SnitchBenchを全面的に見直してもらい、その結果は興味深いものでした。

Codeexの最新バージョンをセットアップして、新鮮なNext.js JSアプリで画像生成スタジオのテストをどう扱うか簡単なテストを行います。これをバックグラウンドで実行させて、他のことで遊びます。これが実行されたら、皆さんに私が遭遇した問題のいくつかを見せます。

そして最初の問題が発生しました。GPT-5.1 codeexモデルは、ChatGPTアカウントでcodeexを使用する際にサポートされていません。何ですって。私はプロプランなのに。一体何を言っているのですか。

CLIの問題について簡単に更新したいと思います。テスターが異なるグループにいたため、それが機能しなかったことが判明しました。私が彼らに連絡したところ、動画が録画された直後にそれを修正してくれました。私が彼らに連絡しただけで、彼らはそれをしました。したがって、これをあまり深く受け取らないでください。これは間違いなく、早期に物事をテストするときに起こる奇妙なエッジケースです。それでもとても迷惑でしたが、少なくとも修正されています。

さて、APIバージョンに移行しました。今は動作するか見てみましょう。たぶん。願わくば。私はすでにOpenAIの人たちに警告しました。願わくば、この動画が出る頃には、彼らがこれを修正してくれていることを。一体何が起こっているのかわかりません。

いいですね。APIキーで動作します。したがって、月200ドルを使っているにもかかわらず、追加でお金を使っています。OpenAIが私に支払っていないという証拠が必要でしたか。これがそれです。皆さんにこれをデモするためだけにお金を無駄にしています。そして私はすでに、以前テストしていたすべてのもので、Cursorのサブスクリプション全体を使い果たしました。

これが私の問題の範囲であれば、迷惑だけど回避する価値があるでしょう。しかし、実際にCLIのcodeexモデルを使った私の経験は、名前付けがまだ嫌いですが、それら2つが今互換性がないという事実は陽気です。しかし、このCLIでモデルを使った本当に奇妙な経験をしました。

bunロックファイルを読んだにもかかわらず、npmを使うことを主張しました。したがってそれがそこにあることを知っています。プロジェクトがbunを使っていることを知っていますが、それでも代わりにnpmを使います。ここで何の理由もなくnpmを使ってインストールしています。

そしてここで、Tailwind設定やPostCSS設定に多くのcattingファイル末尾を行っていますが、Tailwind v4を使うべきなので、そのいずれも必要ありません。しかしこれが最も極端なことでした。編集を行う方法です。

ここで、CSSファイル内の特定の値を見つけようとして、ディレクトリを変更しようとしているのが見えます。しかしここが本当にひどくなったところです。Perlを介して正規表現を書いて実行し、コード変更を行おうとし始めました。一度や二度ではなく、一貫して。

これは、私が使っているときに常にコード編集を試みる方法でした。これは少し馬鹿げていて、永遠に時間がかかりました。これらのいくつかには12分から30分かかっています。スタイルパスだけで。馬鹿げています。本当に本当に悪い体験でした。

この後、私はモデル全体に対して非常に弱気になりました。与えられたハーネスをこれほどひどく使用できるモデルが、それでも良いものになる可能性はないと思いました。良いニュースは、今回初めて、なかなか良いパスをしたように見えることです。1分25秒動作して完了しました。

fun rundevしましょう。お気に入りのテストである画像生成スタジオをどう扱ったか見てみましょう。ええ、以前のモデルよりも有意にわずかに見栄えが良いです。他のすべての動画でこのテストを使っているのを見たことがあるなら、これらが通常どのように見えるか大体わかるでしょう。そしてこれは本当に良い仕事をしました。

気づいたことの一つは、カード地獄に戻っているということです。これは繰り返し現れるパターンであることに気づきました。Anthropicのモデルは全体的にこれについてはるかに悪いです。そしてGPT-5の時点でOpenAIモデルがこれをしなかったことが気に入っていましたが、カード地獄に戻っています。

しかしスペースをうまく使っています。デザインではまともな仕事をしています。他のことにも使ってきましたが、5.1はUI関連でわずかな改善のようです。素晴らしい。実際の問題を解決するために同じレベルの改善が見られたと言えればいいのですが。

CLIで大変な経験をした後、Cursorに飛び込むことにしました。その経験がより良かったと言えればいいのですが。まあ、ある意味では良かったのですが、他の意味では奇妙でもありました。非常に一般的なことは、モデルがファイルに変更を加えなかったということです。

私のお気に入りは、ディレクトリに入ってからnoopをdev nullにエコーするという奇妙な習慣がありました。何ですって。何ですって。これはトークン効率が良いのです。一体何をしているのですか。なぜこれをするのですか。コマンドを実行しますが、コマンドを実行することが何であるか、または何をするのか理解していないようです。

これは、別のプロジェクトでTailwindの問題を修正しようとしていたときの面白い例で、何をしようとしているのかさえわかりません。開発サーバーを立ち上げて、今はハングしています。なぜなら開発サーバーは終了するコマンドではないからです。バックグラウンドで実行されるコマンドです。

そして、さて、わかった。キャンセルしようと思うかもしれません。すべてのモデルは間違いを犯します。私はそうしました。以前にキャンセルしました。ここでdevコマンドを実行したところを見てください。無期限に座っていたのでこれをキャンセルし、その後も実行を続けました。

さらにいくつかの変更を行い、その後同じことを再びしました。まだ動かなくなっています。私はここに置いて撮影に走ったので、モデルがする奇妙なことを皆さんに見せることができます。fancy new Cursor機能を使ってこれを実行したことに注目してください。すべての作業ツリーで一度に複数のモデルを実行できるようにし、テストして、どのモデルがどのように動作するかを把握するのに本当に良いです。

他のすべてが完了し、1〜3行の変更を行ったことに注目してください。興味深いことに、どれも問題を解決しませんでしたが、そこに到達します。これらのモデルの1つが同じ方法で2回動かなくなるのを見ると、イライラせずにはいられません。他のすべてには問題がありませんでした。ただ、ああ、ユーザーが要求を中止しました。結果が受信される前にツール呼び出しが終了しました。素晴らしい。素晴らしい。

また、モデルに作業を完了させるために続行するよう伝えなければならないことが複数回あり、時々できました。さて、しばらく落ち着きます。なぜなら、私が感銘を受けたことがあるからです。多くはなく、非常に感銘を受けたわけでもありませんが、私がたくさん行ってきたテストを与えました。それは、モデルにSnitchBenchを最新バージョンのAI SDKに更新するよう依頼することです。

AI SDK v4からv5への移行は、移行というよりも、コードを書き直せというようなものでした。そして私はコードを再度書き直しました。これをもう何度もやりすぎました。そして、最初の試みでは、5.1 Codeexに計画を書いてもらい、その後計画を実行してもらいました。3段階の計画を書きました。

依存関係の更新、TypeScriptソースの移行、そしてアップグレードの検証です。問題なさそうでした。したがって、これを実行したところ、完全に失敗しました。メッセージを生成するためにSDKに正しい形式を渡していなかったため、エラーが発生しました。

したがって、エラーを与えたところ、実際のソースを与えたにもかかわらず、パッケージからindex.d.tsファイルを読み続けて、多くの無駄な変更を行い続けました。これを行う方法に関するドキュメントへの実際のリンクを与えたのに、それでも失敗しました。

そしてそれは行って多くの変更を行いました。再び失敗しました。したがって、エラーを再度コピーして「うまくいかなかった。もう一度試して」と言いました。そして再び失敗しました。これはすべてGPT-5.1標準codeexで行われました。私はイライラしました。

しかし以前のテストから、計画を立てることで良い体験をしていました。しかしそのテストを行っていたとき、まだ5.1 codeexへのアクセスがありませんでした。5.1だけでした。したがって5.1に戻りました。実際、5.1 high fastを試しました。Highは最高の可能性を与えたいからで、fastはもう早く来て撮影したかったからです。

そしてここで計画がかなり異なることに気づくでしょう。3ステップではなく、7ステップです。そしてそれらはすべてはるかに結束力があり、一貫しています。そしてまた、この計画を比較的迅速に生成しました。数分しかかかりませんでした。

したがって、この計画を生成しました。私は「いいね、やってみよう」と言いました。続行するよう伝えたところ、実際に成功しました。初めて、モデルに2段階で実行させることができました。1つは計画フェーズ、2つ目は実装フェーズです。

この本当に厄介なアップグレードを実際に行いました。コマンドで行き詰まることもなく、奇妙なこともせず。そして「highを使ったから。明らかに賢い」と言い始めないでください。これは一貫した体験ではありません。highでこれを再ロールすれば失敗するかもしれませんし、mediumで再ロールすれば成功するかもしれません。

モデルは非決定的です。これが現実であることは迷惑ですが、そうなのです。したがって、私はこれに感銘を受けました。また、これらのものがどれほど非決定的であるかを、非常に面白い例で強調したいと思います。

Tuneプロジェクトでの検証

Tuneと呼ばれるこのプロジェクトについて、非常に近い将来動画が出ます。これはJSONの代替品で、モデルがより効率的に物事を検索できるようにするものです。はるかに少ないトークンを使用し、その変更の結果としてより正確な結果を得られます。

CSVフォーマットとJSONタイプフォーマットの中間のようなものです。フォーマットがJSONや他のものとどのように比較されるかを見てみたかったのです。したがって、小さなWebアプリを構築しました。構築したというより、バイブコーディングしました。これを行うための小さなWebアプリです。

これのほとんどにGPT-5を使用し、かなり堅実でした。これのほとんどは、非常に近い将来公開されるtuneの動画で行いました。ここで、YAMLとtuneとフラット化されたJSONの異なるフォーマットを作成し、それぞれが使用しているトークン数を表示できたことがわかります。かなりクールです。

素敵な小さなアプリですが、いくつか変更を加えたかったのです。使用されているトークンを見られるようにしたかったのです。したがって、OpenAIトークナイザーWebアプリを使用すると、各トークンがどこで始まり終わるかの素敵な表示が表示されます。そしてこれをコピーしたかったのです。

また、JSONなので、構文ハイライトを追加したかったのです。構文ハイライトがあると良いでしょう。したがって、それを求めました。UIに対して2つの複雑な変更があります。まず、意味のあるオプションに構文ハイライトを追加したいです。

次に、実際の出力でトークンをハイライトしたいです。別の出力としてではありません。したがって、その画像のスクリーンショットを添付したこの画像と同様に、トークンの周りにブロックのようなものが欲しいです。

再び、Cursor内で私がますます好きになっている機能である作業ツリーを使用しました。したがって、このプロンプトで7つの異なるモデルを同時に実行できます。Claude Sonnet 4.5、5.1 codeex標準、GPT-5.1、5.1 high、Haiku、composerまたはcodeex mini、実際にはすべてを実行して、結果がどのように見えるかを確認しました。興味深かったです。

これはSonnetのものでした。貼り付けてshow tokensボックスをチェックすると、実際の値としてではなく、トークンとしてトークンを表示していることがわかります。したがって、実際のテキストをトークン化された値に置き換えます。いいですね。私が探しているものではまったくありません。

GPT-5.1 codeexは、何かを不正確にインポートしようとしているためエラーが出ます。素晴らしい。動作するのかもしれませんが、それを見つけるほど気にしていません。GPT-5.1はページで完全にエラーが出て、存在しないものをインポートしようとしています。

Viteのprismレンダラーに多くの問題があるようで、Claude Sonnet 4.5を保持しませんでしたが、これら他の多くのものを保持しました。GPT-5.1 highは動作しているようです。貼り付けます。ここにあります。素敵な構文ハイライト。これまでのところすべて良く見えます。したがって、ハイライトをオンにしてみましょう。

さて、出力用のトークンを作成することに成功しています。したがって、これはこれまでで最も近いですが、フォーマットを壊しました。したがって、今では改行のない読めないメスです。正しいフォーマットを保持してくれたら本当に良かったのですが、これがこれまでで最も近いです。

composerはどうでしょうか。Anthropicのcursorからの新しい超高速モデル。ページがクラッシュします。入力に貼り付けるたびに、ページがクラッシュします。素晴らしい。そして5.1c miniページがロードされます。

トークンはClaude Sonnet 4.5と同じことをします。したがって、Codeex MiniがClaude Sonnet 4.5とほぼ同じ出力品質を得るのはかなりクールです。このテストを複数回実行しましたが、各実行でほぼ同じ品質の出力が得られました。1つ特定のものを除いて。そしてこれは私をほとんど発狂させそうになりました。

したがって、最後に保存して、皆さんにも見せられるようにしました。Haiku 4.5、Anthropicの友人からの安価なモデル。これがサイトです。入力があります。トークンを表示します。ああ、やった。なぜHaikuだけがこれを正しくできたのか。

このテストをすべての関連モデルで3〜4回実行しました。撮影に来る直前に行ったこの1回のランダムな実行で、Haikuがどういうわけかそれを成し遂げた唯一のモデルでした。そしてHaiku 4.5では全体的に本当に悪い体験をしてきました。

これは本当に、このものがどれほど非決定的であるか、そしてさらに重要なことに、現在多くのベンチマークがどれほど役に立たないかを強調しています。私はこれほどベンチマーク否定派になったことはありません。また、SDKや構文、APIを変更することにこれほど否定的になったこともありません。

なぜなら、ここで実行したもう一つのテストは、開発中に陥った悪い状態でのものだったからです。スタイルが正しく読み込まれなかったという、以前に言及したものです。このテストのために、プロジェクトの別のクローンを作成しました。物事がどれほど奇妙で悪く動作していたかのために。

そしてここで、GPT-5.1によってTailwindセットアップが完了した後、いくつかのことを見逃していることがわかります。なぜなら、これは見た目がクールですが、GPT-5.1のWebサイトやTailwindサイトがどのように見えることを期待するかではないからです。スタイルがあるべきです。

したがって、モデルにこれを修正するよう依頼しましたが、できませんでした。したがって、自分で修正しに行きましたが、それを行っているときに気づきました。ここには、正しくするのを少し煩わしくするいくつかの微妙なことがあります。このテストを複数のモデルセットに対して複数回別々に実行しました。

最初はこのプロジェクトのクローンの外で、しかし2回目と3回目はここで行いました。そして初めてtailwindとスタイリングの問題を修正したときに実行したとき、ほとんどのモデルが同じ変更を行ったことがわかります。4.5、5.1 codeex、5.1、composer oneはすべて同じ変更を行いました。それは、CSSインポートの動作方法を変更するだけです。なぜなら、CSSインポートにv3構文を使用していたからです。

そしてそれがすべてだと仮定しました。それはすべてではありません。ネタバレ。したがって、これらのどれも最終的には機能しませんでした。すべてがまったく同じ変更を行いました。どれも機能しませんでした。Haikuは何を変更しましたか。より多くのファイルを変更しました。

ああ、Tailwind設定を戻しました。v4を使用しているのでもう必要ないはずです。そしてTailwind v4は、TypeScriptファイルで行う代わりに、設定のためにCSSファイル内で物事を行います。TypeScriptファイルを使用できます。CSSで手動でインポートしなければなりませんが、これらのどれもしませんでした。

5.1 codeexは、より多くの変更を行う必要があることに気づきましたが、再びCSSで物事を修正する代わりにtailwind設定ファイルを作成し、また、これらすべてが見逃した大きなことは、Viteとリンクするために@tailwind/vitパッケージが必要だったことです。これは全体的にはるかにシンプルなセットアップですが、それらはインターネットを使用してそれを見つけませんでした。

Tailwind v4を使用しなければならないことを知っていたにもかかわらず。GPT-5.1 high、同じことです。これらのCJSの設定ファイルとPostCSS設定を作成しようとしました。Tailwindにはもうeven PostCSSは必要ありません。

そして、まだ見ていない結果のテストのために。準備をしていたので見る時間がありませんでした。再び実行しましたが、今回はTailwind V4を使用するよう指定しました。変更を見てみましょう。さて、Sonnet 4.5。同じ間違いをしました。それでも、重要な他のものではなく、index CSSを変更するだけです。

5.1 codeexはどうでしたか。ああ、見てください。tailwindcss、postcss、autoprefixerなどを削除し、tailwindcss/vitを持ち込みました。これは私を希望的にします。開発サーバーを手動でキャンセルしなければならなかったという事実を除いて。

ここでターミナルを立ち上げて、最高を望みましょう。見てください。修正しました。Tailwind V4を使用するよう指定しなければなりませんでしたが、指定したとき、完全に正しく動作したようです。5.1は再びCSSファイルだけを変更しました。5.1 highは再びCSSファイルだけです。

Codeexは何とかこれを得ました。PostCSS設定を更新しました。autoprefixerを削除しました。CSSを修正しました。まだTypeScript設定ファイルを使用しています。したがって、おそらく機能しないでしょうが、それを言ってから確認したくはありません。ええ、機能しません。驚きです。

Composer oneは再びCSSを変更しただけです。そして5.1 Codeex Miniもほとんど同じ間違いを犯したようです。いいですね。ええ、実際にSonnetが一度、Tailwind V4のドキュメントもリンクしたときに、それを正しく行ったのを見ました。しかし、この追加コンテキストでTailwind V4が指定された状態での5回のうちの1回の4ショットでした。

AI SDKのアップグレードを完了させることができたことには感銘を受けていますが、それ以外で見てきたパフォーマンスには比較的失望しています。奇妙なツール呼び出しから、perlの正規表現を使って物事を行うことへの主張まで、これは私にとってまだちょっと非常識です。全体的に、それほど良くない出力の品質まで。

これは私にとって大きなアップグレードとは感じられませんでした。それでもおそらく私のデフォルトの計画モデルになるでしょう。GPT-5.1 non-codeexから得られる計画の品質には感銘を受けています。ちなみに、計画にはcodeexを使うのが好きではありません。すべてを凝縮しようとしすぎて、5.1 highが計画段階を行うのに実際に本当に快適であることがわかりました。

私がAIを使ってコードを書く方法について、より深い動画を作成するつもりです。なぜなら、自分自身のワークフローを理解し始めたのと同時に、自分自身の多くのことを行うBenとメモを比較しているからです。良い指示を与えられれば、小さくて速いモデルが本当に良いことがわかりました。

したがって、5.1 codeex miniやcomposer oneのようなものです。これは私が今最も使っているものです。したがって、私のフローは大体、計画が必要なほど重いものであれば、GPT-5.1を使って計画を立て、その後より速いモデルを使ってそこから実行するというものです。

ここで言いたいことはすべて言ったと思います。ちょっと狂ったような暴言になってしまって申し訳ありません。ただ、もっと期待していました。このドロップに興奮していました。そして推論によるコスト削減がクールであり、UIがわずかに良くなっていることがクールであるのと同じくらい、奇妙さは迷惑でしたし、得ている結果の非決定的な混沌はイライラさせられました。

CODCのCLIが以前説明していた奇妙な問題からすでに修正されていることに感謝しています。しかし、ここでより大きな飛躍を期待していました。一貫して良く感じられることを期待していました。非常に非一貫的にわずかに賢く感じられる代わりに。

他の人たちがどのように彼らが得ている結果を得ているのか、そしてなぜ彼らが言っていることを言っているのかがわかりません。それは私の体験をまったく反映していません。そして皆さんご存知の通り、欠点があるとしても、私はここで正直であるためにいます。

したがって、皆さんがどう思うか教えてください。皆さんは5.1でより良い体験をしていますか。私がこれをそれほど素晴らしくないと思っているのは狂っていますか。それとも、もっと現実的な中間の何かがありますか。皆さんがどう感じているか教えてください。