GPT-5.4は本当に、本当に優秀だ

GPT-5.4は、OpenAIが投入した最新の思考型モデルであり、コーディング、推論、エージェント型ワークフローにおいて従来モデルを大きく上回る性能を発揮する。従来のCodexシリーズは終焉を迎え、5.4では推論トークン効率が劇的に改善された一方、価格は上昇している。ベンチマークではGemini 3.1 Pro Previewに次ぐ高得点を記録したものの、フロントエンドデザインではClaude OpusやGeminiに後れを取る。特筆すべきは、割り込み指示への対応力とコンテキスト処理能力の向上であり、長時間の自律作業が可能になった点である。5.4 Proは極めて高価だが、従来解けなかった暗号パズルを数分で解くなど特定の難問に対して圧倒的な性能を示す。総じて、コーディングタスクにおいては「ほぼ完璧」と評価できる水準に達しており、開発者にとって最も実用的なモデルとなっている。

gpt-5.4 is really, really good

Time to increment the counter.Thank you Cognition (Devin) for sponsoring! Check them out at: for 50% off T3 Chat:

GPT-5.4の登場と全体的な印象
スポンサー:Cognition Labs(Devon)の紹介
GPT-5.4リリースの詳細と混乱
モデルの操作性とコンテキスト処理
ベンチマーク結果とトークン効率
コミュニティからの難問チャレンジ
移行タスクとパフォーマンス
ツール使用とウェブ検索の改善
フロントエンド開発での課題
会話の質とプロンプティングガイダンス
T3 ChatとT3 Codeの紹介
総括と最終評価

GPT-5.4の登場と全体的な印象

GPT-5.4がついに登場しました。ほぼすべての測定可能な指標において、これまでに作られた中で最高のAIモデルと言えるでしょう。特に私たち開発者にとっては素晴らしいものです。このモデルを1週間ほど使ってきましたが、本当に感心させられました。良い点、悪い点、醜い点、そしてこのモデルを適切に使うために知っておくべきことについて、たくさんお伝えしたいことがあります。

皆さんがこの新モデルについて尋ねている質問すべてに答えるよう最善を尽くします。Codexに何が起こったのか。本当にコーディングが上手くなったのか。フロントエンドの問題はついに修正されたのか。ChatGPTやT3 Chatのような異なるアプリで使う方が良いのか。通常の5.3 thinkingに何が起こったのか、どこへ行ったのか。ベンチマークはどうなっているのか。価格上昇をどう正当化しているのか。たくさんあります。

これは大きなリリースです。多くの人が思っている以上に重要なものです。その前に、2つだけ手短に触れておくべきことがあります。まず報酬についてです。明確にしておきたいのですが、OpenAIは私にいかなる報道についても一切お金を払っていません。幸運にも私はこれらのモデルへの早期アクセス権を持つ小さなグループの一員ですが、それは有償でもなければ無料で提供されているわけでもありません。

彼らはProサブスクリプションの1年間無料を提供してくれましたが、これは約2,400ドル相当になります。しかし私はそれを辞退しました。偏っているように見せたくないし、支払いを受け取りたくないからです。唯一補助されているのは新モデルのAPI使用料のほんの一部で、おそらく200ドルを超えることはないでしょう。だからこそ、その差額を埋めるために200ドルをwater.orgに寄付します。

寄付は完了しました。では2つ目のことに移ります。実際に私たちにお金を払ってくれているスポンサー、今日のスポンサーです。

スポンサー:Cognition Labs(Devon)の紹介

今日のスポンサーについては聞いたことがあるかもしれませんが、彼らができることを見たことはないと保証します。DevenことCognition Labsです。彼らにはいくつかの異なる製品があります。Windsurfもあります。AIソフトウェアエンジニアであるDevenもあって、これは正直本当に素晴らしいです。でも今日お見せしたいのはそれではありません。彼らは私が好きなことについて話す自由をくれました。そして最近私が気に入っているのはDeven Reviewです。

ああ、またGitHubのコードレビューを再発明したのかって?そうです。そして素晴らしい仕事をしています。これは私たちが今GitHubで持っている実際のPRです。Devenで試すのがどれほど簡単か見たいですか?github.comをdevenreview.comに変更するだけで、驚くほど良いものになります。

皆さんの会社でもこのトレンドが見られているかわかりませんが、私たちの平均的なPRの平均サイズが大幅に増加していることは確かです。正直に言うと、その半分以上は人間の時間をかける価値のないコードです。AIにコードをレビューさせることもできますが、私が欲しいのはコンテキストです。何が重要かを知りたいのです。アルファベット順に変更のリストを見ているだけでは、コンテキストは得られません。

Deven Reviewはフィードバックをくれます。それも素晴らしいです。でもはるかに素晴らしいのは、変更をグループ化する方法です。GitHubのあの恐ろしいファイルビューにすべてをただダンプする代わりに、実際に行われた特定の変更に基づいてグループ化してくれます。

まず、これらのIDを管理する方法についての新しいファイルがあります。異なるものにわたって再利用する共有定義です。アルファベット順のファイルツリーではsource/sharedの近くなので下の方にありますが、始めるには本当に良い場所です。次にconvex/s schemaがあります。アルファベット順ではかなり上の方ですが、ここでは2番目です。なぜなら関連するグループ化された変更だけを表示しているからです。

この最初のセットで定義したものを見て、その直後にそれが影響する箇所を見ることができるのは本当に素晴らしいです。スクロールし続けて、共有ユーザーファイルやT3 Chatでの添付ファイルの動作を管理する添付ファイルインデックスなど、これが変更された他のすべての場所を見ることができます。これはこのPRで発生したすべての変更についても同様です。

実際に時間をかけて各セクションを分解し、どの部分を閲覧したかを追跡してくれます。本当に素晴らしいです。こんなに快適にコードレビューをした経験はありません。AIが代わりにやってくれたからではなく、実際その逆です。AIが私のために分類してくれて、人間が読みやすくしてくれたのです。GitHubは大きなPR用に作られていませんでした。Devenは作られました。今すぐsoyv.link/devenでチェックしてください。

GPT-5.4リリースの詳細と混乱

このリリースには掘り下げるべきことがたくさんあり、すべてをカバーするよう最善を尽くします。公式ブログ投稿から始めますが、皆さんの質問すべてに答えます。Codexに何が起こったのか。5.3より良いのか。ベンチマークはどうか。価格はどうなのか。フロントエンドにはどうか。知っておくべきことすべてです。

今日、私たちはGPT-5.4をChatGPTに、具体的には5.4 thinkingとしてリリースします。ここで少し混乱が生じます。5.3 Codexが最初に出ました。その後、5.3 Instantがほんの数日前の火曜日に出ました。そして今、5.4 thinkingがここにありますが、5.4 Instantは存在しないようです。5.4 Codexも存在しないようです。でも5.4 Proがあり、これは非常に奇妙です。

つまり5.3 Codex、次に5.3 Instant、そして5.4 Thinkingという順番です。注目すべきは、5.3 thinkingは存在せず、5.4 Proは同じ日に出たということです。非常に興味深いです。彼らはすべての奇妙なバリアントにうんざりしているのだと思います。そして私はこれがCodexモデルの終焉かもしれないと考えています。

歴史的に、Codexモデルが存在していたのは、Codex CLIのような長時間実行されるコードタスクでより良くするために、トレーニング後のモデルに異なる強化学習を適用していたからです。当時は理にかなっていました。なぜそうしたのかわかります。しかし今では、5.4ベースモデルに多くのそれらの動作を取り込んだため、専用のCodexバージョンは必要なくなったようです。今後はそれをしないと思います。間違っているかもしれません。5.4 Codexが出たら確実に動画を作りますが、彼らはそれをやめて、Codexは今や製品のサーフェスエリアだと確信しています。

つまりCLI、デスクトップアプリケーション、ウェブアプリ、その他すべてのものです。Codexがもはやモデルを意味しないことを願っています。彼らがこれをまたやり始めたら本当にイライラするでしょう。彼らがここで言っているように、5.4は推論、コーディング、エージェント型ワークフローにおける私たちの最近の進歩の最良のものを統合しています。

スプレッドシートやドキュメント関連などの専門的なタスクについてたくさん語っています。それはクールで、必ずしも私が考えたり時間を費やしたりすることではありませんが、エディタよりもWordやGoogle Driveで多くの時間を過ごす皆さんにとっては、本当にクールなのでしょう。

モデルの操作性とコンテキスト処理

5.3 Codexと今回の5.4の両方で本当に注力してきた最もクールなことの1つは、モデルが作業している間にそれを誘導する能力です。より良い思考を提供し、推論の途中に新しいメッセージを挿入する処理をはるかに上手くこなします。他のモデルはこれをすると非常に混乱します。例えば5つのタスクのリストがあって、作業を始めて、その後6つ目のタスクを送ると、「ああ、今それをやります」と言います。6つ目のタスクをやって、その後他の5つを忘れるのです。私にいつも起こります。

5.4はそれをしないようです。本当に素晴らしいです。コンテキストについては後でもう少し話します。実は、コンテキストについてもう1つ。今では100万トークンのコンテキストをサポートしており、これは以前からの大幅な増加です。

250kぐらい、正確には272k入力トークンを超えると、確か基準値を超えると思いますが、入力が2倍、出力が1.5倍で課金されます。出力を1.5倍にしているだけなのは好きです。必ずしもそれほどコストがかかるわけではないはずですから。他のラボがこの高コンテキスト利用バージョンをやるときに一律2倍請求するのは本当に好きではありませんでした。

それでもかなり大きな数字です。必ずしも気に入っているわけではありません。少なくともキャッシュ入力トークンは非常に非常に安く、Aで始まる特定の会社とは違ってキャッシングには課金しません。彼らがここで呼びかけている最もエキサイティングな部分は、推論を行う際のトークン効率がはるかに高いということです。そして私自身もこれを見てきました。

ベンチマーク結果とトークン効率

私がこれをすべて実行したものの1つはSkatebenchです。これは私がGPT-5を試すためにOpenAIのオフィスに招待される直前に作ったベンチマークです。そしてそこに着いてそれを試すとすぐに、基本的に飽和状態になりました。

オフィスに入ったとき、このベンチで見た最高スコアは70点台前半でした。そしてGPT-5を試したら97点を取りました。それ以来、実際に少し後退しています。5.1、5.2、5.3 Codexはすべて、5.0よりもSkatebenchで明らかに悪いパフォーマンスを示しました。しかしGemini 3.1やGemini 3 Flashのような新しいモデルは本当に良いパフォーマンスを示しました。

そこで私はベンチマークを更新することにしました。テストの数を2倍にし、今回はプライベートに保つことにしました。公開されているバージョンで驚くほど良いパフォーマンスを示したいくつかのモデルが、新しい質問では1つも正解できなかったことに気づいたからです。その特定のラボは今のところ名指ししませんが、Skatebenchの質問がトレーニングデータに含まれたかもしれないと信じる理由があります。これは奇妙で愚かで怖いことです。私はYouTuberでここでふざけた投稿をしているだけなのに、それが起こったのです。だからSkatebench V2はプライベートのままにします。

申し訳ありません。仕方ありません。Skatebench V2で本当に興味深いのは、Gemini 3.1 Pro Previewが97%という馬鹿げたリードを維持していることです。次に良いのがGPT-5.4 Highで82%、次にExtra Highでパフォーマンスが悪化して81%、そしてPro Thinkingがさらに悪くて79%です。

そのギャップを見るのは魅力的だと思いました。さらに興味深いのはコスト面です。前に述べたように、価格は上がりました。5.4は今や入力1ミリオンあたり2.50ドル、出力1ミリオンあたり15ドルです。以前は入力1.75ドル、出力14ドルでした。しかしGPT-5と5.1はかなり安く、入力1.25ドル、出力10ドルでした。

これはモデルのベースが実際に変更された可能性を示唆しています。実行にコストがかかる場合を除いて、価格を上げる意味がないからです。明らかに彼らは望めば変更できますし、単に収益を増やしたいだけかもしれませんが、APIコストはOpenAIの収益のごく一部に過ぎません。ただそのために価格を変更して上げるのは理にかなっていません。

だから私はこれが実際の彼らへのコストを反映するためのものだとほぼ確信しています。しかしはるかに怖いのは5.4 Proのコストで、入力1ミリオンあたり30ドル、出力1ミリオンあたり180ドルです。すごい、本当に高価なモデルです。特に少なくとも私のベンチマークではパフォーマンスが悪いことを考えると。

Proの価格設定が適切に報告されているかどうかもわかりません。それほど少ないとは想像できないからです。でも5.4 Extra Highは今日までのベンチマーク実行で最も高いコストを記録しました。これは結構楽しいと思いました。3.1 Pro Previewは812ドルだけで、5.4 Highはたった7ドルでした。それをマトリックスチャートで見ると、これらの新しいOpenAIモデルがかなり右側にあることが非常に明確にわかります。

特にProモデルとExtra Highです。GPT-5.4は価格ではGeminiのすぐ後ろですが、やはりかなりコストがかかります。Flash Freeは特に良いパフォーマンスを示しました。わかりますよね。ただ私のコスト数値は必ずしも実世界のコストを反映していません。Artificial Analysisの数値を見るのは非常に興味深いと思います。

彼らのテストスイート全体を実行するコストは5.2よりも高く、2,951ドル対234ドルでしたが、それでもOpus 4.6の半分近くの価格で、Sonnet 4.6よりも安いです。これを考えると結構驚きです。でも生成されたトークンの数を見ると、突然非常に理にかなります。新しいClaudeモデルが行う推論の量は馬鹿げています。

5.4はかなり推論しますが、Extra Highでも5.2より少ないのです。5.4 Highもここに含まれていればと思います。将来追加されることを願っています。でも一般的に言って、私はHighの使用をお勧めします。5.2や5.3よりも少し高価ですが、使用するトークンも少ないので、少なくとも私が数字を見た限りでは相殺されます。

ただCodexサブスクリプションを通してこれを使用しているので、私が見るのは使用量が減っていくことだけなので、実際にどれくらいコストがかかっているのかを知るのは本当に難しいです。投稿に戻りますが、ここにはもう少しカバーしたいことがあります。どうやらCursorは内部的にこれがリーダーだと言ったようで、Cursorで話した人たちから聞いた限りでは、彼らは本当に5.4を好んでいるようです。

特に私がクラウド内で本物のコンピュータを使える新しいエージェントクラウドのすべてのものについてです。実際、まさに今この瞬間もクラウド内でT3 Codeに機能を追加させています。そうです、私は投資した会社であるCursorを使って、私が投資した会社であるCursorの競合を構築しています。いいえ、彼らはこれに何の問題も見ていません。

異なるプロジェクトをドラッグアンドドロップで並べ替える機能を追加するよう頼みました。そして私が与えたタスクを実行するためにクラウド内でコンピュータを使用している動画を録画しました。そこでsharedをドラッグして落としているのが見えます。実際に機能しているようで、リフレッシュ後も持続します。素晴らしい。かなり時間がかかりましたが、5.4に行ってやるよう指示するだけでよかったのです。

これは検証する必要があるUIタスクでした。ただ、間違った検証をしたことを指摘しておきます。最初にタスクを完了したとき、動画は非常にぎこちなかったです。カーソルがあった場所にズームインしたからで、これは必ずしも正しい解決策ではありません。Cursorはカーソルが好きなのは知っていますが、ドロップ後にどこに行ったかが見えませんでした。

でも編集アイコンが変わったり動いたりしていないことに気づきます。これは機能していませんでした。機能していない動画を送って、機能したと言ったのです。今は完了した、と。共有した動画が明らかに機能していないように見えると具体的に伝えなければなりませんでした。そしてさらに30分作業して、機能する解決策を持って戻ってきました。

そうです、このようなことができるのです。私たちは今、このビデオの「使用感はどうか」セクションにしっかり入っているようです。では、もっと掘り下げましょう。

コミュニティからの難問チャレンジ

数日前、私はモデルがまだ解決できていない問題を人々に尋ねる投稿をしました。そしていくつか興味深い提出がありました。問題が非常に興味深かったので、提出した何人かにはお金を払うつもりです。

全体として、大多数は5.4では解決できなかったか、5.3で解決可能でした。したがって明らかに5.4も解決できました。12以上の問題をテストしましたが、そのほとんどがどちらも解決できないか、両方とも解決できるかのどちらかでした。実際、人々がモデルでは解決できないと言った問題の大部分は、5.3で解決できました。

AIが解決できないと100%確信して問題を提出した人がどれだけ多かったか、そしてAIがそれを解決したのを見たのは、正直言ってクレイジーでした。そのめちゃくちゃについて専用の動画を作るかもしれません。興味深いものの1つはこれです。Twitchの私自身のマネージャーであるWabaが、今はOpenAIにいますが、面白いことに、ここで非常に興味深い問題を提出しました。依存関係なしでStockfishレベル17を倒せるプログラムを構築するというものです。

Stockfishはオープンソースのチェスエンジンで、本当に本当に本当にチェスが上手いです。LLMか何かではありません。チェスが本当に得意になるようにハードコードされたロジックです。17よりも賢い17.1と18があります。だから世界には17よりも賢いコードを書けることを証明するソースコードが存在します。でもこれは興味深いチャレンジでした。

そこでもちろん、この課題を新しいモデルに提案しました。最初に試したのはT3 Codeを使って私のコンピュータ上でした。T3 Codeに興味があれば、最後まで見てください。きっと価値があると約束します。Wabaが私のTwitterの返信でくれた正確なプロンプトを渡しました。コードが一貫して勝つまで続けるよう指定しました。

そして5.3がやったのと同じ愚かな間違いをしました。ランナーを構築しました。問題を解決したとされました。でもどう解決したか見るまで待ってください。Stockfish 17をStockfish 18と、より大きな手ごとの時間設定で対戦させることで解決しました。だからStockfish 17を倒せるコードを書いたわけではありません。

それが私が求めていることではないと判断し、代わりにStockfishを実行するコードを作ることを私が求めているに違いないと判断したのです。5.3と5.4は、私が今12回以上実行してきたこのプロンプトについて、全く同じ誤解をしてきました。そして他のモデルはこの間違いをするほど愚かではないようです。

Opusはこれを解決するコードを作れません、それは明らかです。でも少なくとも私が何を求めているかは理解し、それからこれをやりました。私のコンピュータでStockfishを実行しているので、大量のリソースを使い、私のコンピュータは一日中オーバーヒートしてロックアップしていました。だから新しいCursorのクラウド機能を使ってここで2回目のラウンドを投げて、自分で粉砕して解決しようとさせました。ここではもっと具体的に、目標はコードでどれだけ良いチェスエンジンを書けるか見ることだと言いました。

そして今、数時間進行中で、まだ完了していませんが、解決できるか見るのが楽しみです。このコンピュータのどこかに成功した実行がありますが、その解決策は2つのオープニング、黒用と白用をハードコードすることで、それでほとんどの場合勝つことができました。素晴らしい解決策ではありませんが、機能するハードコードされたオープニングを見つけるほど賢いモデルを見るのはクールでした。

移行タスクとパフォーマンス

モデルをいくつかのお気に入りのチャレンジに投げました。古いping.ggプロジェクトの移行など、これは2020年頃のReactベストプラクティスを使った本当に大きな古いコードベースです。このコードベースのアップグレードは楽しいものではありません。他のモデルでアップグレードをほぼ完了することはできましたが、たくさんの手取り足取りの誘導が必要で、正しい方向に導く必要がありました。

5.3 Codexは、あまり誘導なしでそれをうまくやった最初のものでした。5.4でこれを試しましたが、全く誘導なしで、ただやりたいことを伝え、計画を書いてもらうよう頼みました。当時T3 Codeにプランモードの準備ができていなかったからです。もうすぐ変わります。かなり徹底的な計画を書き、たくさんのことを特定しました。そしてここで非常に非常に長い履歴をスクロールしているのにラグがないことにも気づくかもしれません。T3 Codeはこれらの長時間実行タスクのために信じられないほど高性能になるように書かれているからです。

また注目すべきは、T3 CodeはほとんどCodexによって書かれたということです。明らかに私たちが望む方向に誘導し、好きなことをやらせています。でもそうです、わかりますよね。最初の試みは失敗しました。UIが機能しませんでした。Tailwind V4を適切にセットアップしなかったからです。公平に言えば、Tailwind V4を適切にセットアップするモデルはほとんどありません。

同じチャレンジの他の実行では、Tailwind V4を使うよう頼みませんでした。まだTailwind V3を使うよう頼みました。クールです。今回は機能しました。まだ無効なリンクエラーが出ています。すべてのモデルがこの間違いをします。ここで私のお気に入りの簡単な解決策をやります。戻って、貼り付けて、「修正して」と言うだけです。でも今回はいつもの「修正して」とだけ言うのはやめます。

代わりに、もう少し頼んでみます。このエラーと、最新バージョンのNextにアップグレードした結果発生する可能性のある他のエラーを修正してください。以前使っていた古いバージョンからどんな破壊的変更があるかドキュメントをチェックしてください。これらすべてを自分で手動でチェックする必要はないはずです。

Extra Highでこれを実行したことを思い出しました。それが助けというより害になったかもしれず、通常のHighを使っていればもっと良いパフォーマンスだったかもしれません。私のミスです。みんな間違いを犯します。この実行を午後6時5分にトリガーし、午後6時55分まで実行しました。1つのプロンプトで。Ralph loopsのようなものはもう本当に必要ないと思います。これらのモデルを適切にセットアップすれば、何時間でも実行できるからです。

ここでのセットアップは実際にはあまり何もありませんでした。計画を書いて、それから基本的にこれ全部を実装しろという単一のプロンプトでした。統合して実装するものがなくなるまで続けろ。しばらく続けるよう指示するだけで、しばらく続けます。今やモデルは十分賢いです。圧縮も大幅に改善されたようです。

過去のことを思い出すのがはるかに上手くなりました。これらの巨大な神スレッドを持つことができ、もう関係ありません。ただ機能するのです。そしてそれが一般的にこの新しいモデルを使った私の体験のテーマです。全体的にただ良く機能するようです。作業しているときにより良いコンテキストを提供します。何かをするたびに「これからやることはこれです」という簡潔な文を提供します。

また、「ねえ、いや、そっちに行って」のような割り込みを送ると、特定の方向に誘導されるのにもよく反応します。彼らは特にそのためにトレーニングしました。そして本当にそれが表れています。システムカードを掘り下げるのに、これらすべてのタイプのことを理解するために必要以上の時間を費やしたと思います。全体的な安全性についてはるかに多くの情報がありました。

前に述べたように、思考の連鎖と思考中に物事を導入することについて多くの作業がありました。計画しているときに何かが間違っているのに気づいたら、割り込んで「ねえ、いや、代わりにそうして」と言えます。彼らは明示的にこのためにトレーニングしました。そして特に、何をしているかを共有するのをモデルに上手くさせようとしました。実際の思考の連鎖を提供するわけではないからです。

これらの小さな要約の一言を提供します。そしてそれらの一言のモニタリングが本当に重要です。ここでのもう1つの部分は、これらのトレースを共有するときに考えていることを隠さないようにモデルを保とうとすることです。「あの人を殺そうと思う」と考えて「あの人を助けます」と言ったら本当に悪いことになります。

だから、モデルが何に取り組んでいるかを誠実に共有していることを確認するために懸命に働いています。そして「いや、それをすべきではない」と言われることでコントロールできるように。でもここに注入したすべての作業のために、私が本当に本当に興味深いと思った小さな後退があります。彼らのプロンプトインジェクション評価です。プロンプトに何かを忍び込ませることで、モデルに他のことをさせるのがどれだけ簡単か。

ジェイルブレイクではありません。ユーザーが意図的にモデルに他のことをさせようとすることでもありません。むしろモデルにサイトを閲覧するよう指示して、誰かがHTMLに何かを入れて、モデルが望まない方法で動作するようにさせるようなことです。ここで本当に興味深いのは、全体的にはプロンプトインジェクションには強くなっているものの、特に関数呼び出しでのプロンプトインジェクションでは後退しているということです。

だから、データを返すツールが使われたとき、返ってくるデータの中にプロンプトインジェクションがあると、少なくとも彼らのテストでは約2%の確率でそれに引っかかります。5.1では決して引っかからず、5.2では4%近くでした。これは驚くほどの後退で、誰も言及していないのに驚いています。実際にかなり懸念されます。

これがどのようなものかを知るのに十分なデータがありません。確かに。ユーザー生成の可能性があり、敵対的である可能性があるデータや他のものに入っているときは、モデルに目を光らせてください。これは悪いことになる可能性があるからです。そこでの後退が起こる理由は理解できます。ツール使用全般にはるかに多くの努力を注いだからです。

ツール使用とウェブ検索の改善

ついにツール検索が追加されました。これにより、モデルは必要なときにツールを見つけることができ、すべてのツールが常にそこにあると仮定してコンテキストを肥大化させ、正しく物事を行うことからモデルの注意をそらすことがなくなります。そうです。全体で半分のトークンを使用しており、ツールを使ったベンチマークでもより良い結果を出しています。

ツールのスコアはより良く、使用するツール呼び出しも大幅に少なくなっています。Towenも意味のある改善をしました。ウェブ検索もはるかに良くなりました。本当にはるかに良く、89.3%対以前の5.2での65.8%です。また、Proは検索については標準5.4よりまだ良いようです。だから少なくともProは何かでは良いです。

モデルについて他の人々がどう感じているかをカバーするために時間を取りたいと思います。複数の視点を得ることが重要ですよね。Mattがこれらのことについて話してきた方法が本当に好きで、ここでの彼のカバレッジは素晴らしいです。圧倒的に世界最高のモデルだと言っています。本当に良いです。どのモデルを使うべきかという会話がほぼ終わったように感じさせる最初のモデルです。

ただしそれには大きな例外があり、すぐにそこに到達します。私はまだ毎日OpusとGeminiを使っているからです。でもMattにとって興味深いのは、もうProをほとんど使っていないということです。彼はいつもProの人でした。自分自身をPro中毒者とさえ呼んでいます。私は彼ほど頻繁にProモデルを使う人を知りません。でも今、彼はheavy thinkingを備えた5.4標準バージョンで十分すぎると感じています。

これをベンチマークで実行してきたので、5.4 Extra HighがProと同じくらい、あるいはもっと頑張ることがある理由が理解できます。でもそうです、彼は5.4が以前のProモデルよりも良いと感じています。コーディングは馬鹿げています。本質的に完璧です。欠陥はあります。

それらは特定ですが、欠陥はあります。でも彼はコーディングは本質的に解決されたと言っています。私はそれを感じます。従来のフルスタックバックエンドタイプのコーディング問題のための最先端では、もうあまりやることはないと本当に思っています。モデルはすべてそこでかなり遠くまで到達しました。Proバージョンはほぼ完璧です。彼が話した他のテスターは、他のどのモデルでも解決できなかった問題を解決するのを求めていました。そのうちの1つの楽しいものを手に入れました。

Proはほとんどすべての通常のユースケースでオーバーキルです。完全に同意します。非常に困難な問題には良いですけどね。思考バージョンは、同じレベルの結果を得るために以前のモデルよりも少ない推論トークンを使います。実際には、これは以前よりもはるかに速く素晴らしい結果が得られることを意味します。ああ、彼は私の次の部分をネタバレしています。

フロントエンド開発での課題

フロントエンドについては、OpusやGeminiにはるかに遅れています。すぐにいくつかの例を示しますが、これは私の経験でもあります。GPT-5は、本物のフロントエンドデザインタイプの作業を行うこれらのモデルの能力における大きな飛躍でした。そしてOpenAIはそれ以来フロントエンドでは意味のある改善を全くしていません。多分少しより良いカラーパレットがあるかもしれませんが、実際にはそうでもありません。

これをOpusやGeminiのいずれかと比較すると、世代遅れに感じます。今これは興味深いですが、ちょっと愚かな不満です。Open Clawのサイトをテストすると、タスクを終える前に止まり続けました。興味深いです。このモデルは非常に異なるプロンプトを必要とするようです。すぐに話すと言い続けています。

それは新しいカウンターミームにならなければならないかもしれませんが、彼らが持っている本当に良いプロンプトガイダンス投稿があり、すぐに触れます。でも彼の最後の考えは、GPT-5.4は引用すると本気のモデルだということです。この脱線はあまり長くかからないので、今それに行きます。私の5.4 Proの体験は私のお気に入りの難問、Goldbugでした。

ご存知なければ、GoldbugはDefconで私が毎年やる一連のチャレンジです。本当に難しく、本当に楽しいからです。ほとんどが暗号パズルのようなもので、特定の暗号技術を知っている必要があり、これらのものの下に隠されている奇妙なクソ問題を解決するのに本当に賢くなければなりません。

そしてこの特定の問題、Cshantyは非常に難しかったです。これは私と信じられないほど賢いハッカーのチームが解決するのに約3日かかりました。私のCTOであるMarkとLTTのLukeがこれに集中していて、それを正しくするのに約2日の確固たる努力がかかったと、私は自信を持って言えます。私はどんなモデルもこの問題を解決できるとは想像できませんでした。

画像上のテキストを読み、このひどい詩でほのめかされている奇妙な特定の暗号を見つけ出し、ページ上の隠された暗号化されたフレーズが何であるかを見つけ出さなければなりません。それをやっただけでなく、17分以内にやりました。それだけでなく、実際には最初の2分ほどで答えを得ましたが、答えが多少無意味だったので、答えがこの奇妙な「how not to bulb」というフレーズだったため、自分自身を疑い、次の14分間何度も何度も確認し続けました。

そうです、このモデルを解決することに近づくモデルはありません。かすかにも近くありません。このモデルにこれをやらせるのは信じられないことです。特にプロンプトが文字通りリンクだけだったことを考えると。答えはオンラインにはありません。インターネットを通してこれを見つけることはできませんでした。そしてもちろん、私はこれに気づいたらすぐLukeに伝えなければなりませんでした。新しい未公開モデルをテストしています。

GoldbugのC shantyをワンショットしました。以前のモデルは近づきもしません。マジかよ。本当に?そうです、これは可能に思えませんでした。だからProには能力があります。地獄のようにクールな、他と比べて独自にできることがあります。モデルにこの問題で5時間以上粘らせて諦めさせたことがあります。

このように最初の試みで正しくやるのは、単に記念碑的です。GPT-5はDefconにいたときにドロップされ、この問題は去年ドロップされました。そして私は最大限の努力をしてそれを解こうとさせましたが、全く近づけませんでした。当時の5 Proでさえ、近くもありませんでした。大規模な改善です。

会話の質とプロンプティングガイダンス

GPTモデルの性格についてはかなり前から好意的ではありませんでした。個人的には、話しかけるデフォルトのモデルとしてGeminiとSonnetを使っていますが、ここで5.4を試したかったのです。より良くなっているようですが、それほど良くはなっていません。実際、まだ癖があります。私の奇妙なテストプロンプトの1つ、そして結果をお見せできないのは非常に個人的になるからですが、日々のジャーナルをモデルにダンプして、フィードバックをもらうよう頼むことです。

また、質問があれば、フィードバックを与える前に尋ねるよう伝えました。モデルが私にいくつ質問をしたと思いますか?答えが8以上でなかったら、何と言えばいいかわかりません。これらすべてに答える世界はありません。また、すべて超箇条書き的で、あまり良くありません。全く満足していません。

話すためにそれほど使っていませんが、それを使った少しの経験では、はるかにお世辞を言わないことが示唆されました。チャットにもっと使ってきたBenによれば、はるかにお世辞を言わないそうです。だから良いです。ベンチによれば、メンタルヘルスの質問を扱うことや、悪い考えに迎合しないことでも優れています。

だから40人が激怒し、他のみんなはほとんど満足するだろうと予想しています。でも今、改善されなかった最後のことです。いいえ、Skatebenchではありません、UIです。これはSkatebenchが今日早く見えた様子です。これは過去にGemini 3を使って得たところです。見た目は問題ありませんが、新しいモデルを追加したとき、少し詰まりました。

モバイルでは恐ろしく見え、名前が読みにくくなっています。だから少し再考したかったのです。だからGPT-5.4に再デザインするよう頼みました。そして大量のやり取りの後、ここに落ち着きました。ただこのやり取りがどれだけ恥ずかしかったかを強調したいです。本当に悪かったです。

これがプロンプトです。ビジュアライザー、特に棒グラフを再デザインしたいです。横方向のスペーシングが奇妙に感じられ、特にモバイルでは好きではありません。この情報を視覚化するより良い方法は何でしょうか。モデル名を目立たせて見やすくしたいです。これは私が提供したスクリーンショットです。

フロントエンドデザインスキルを使いました、どうのこうの、これが最初のパスの結果です。Googleのような正解の数など、重要でないものすべてを含めたこのナンセンスに注目してください。そしてこの「higher is better」という呼び出し、ランク付けされたビューです。クール。実際の値が共有される前に、ページのほぼ3分の1、おそらくそれ以上、ページの半分近くを使いました。でもフォローアップをしました。

縦方向のスペースを使いすぎています。もっとコンパクトにしてください。これらのものを残し、まだ良く見えませんでした。スクリーンショットはありませんが、素晴らしくありませんでした。不必要に感じます。削除して中央揃えできますか、と言いました。まだ縦方向のスペースを使いすぎています。もっとトリムアップしてください、と言いました。

そして変更したのは「higher is better」のピルを取り除いただけで、必要でさえない情報は残しました。だから正気のバイブコーダーなら誰でもやることをしました。別のモデルを試しました。これが起こったときコードを捨てました。動画のことを考えていなかったので、でもGeminiにこれをやらせたときにどれだけひどくしくじったかのスクリーンショットは見つけることができました。

変更するよう頼んだとき、アライメントをひどく使いました。スクリーンショットを送って、これはスクリーンスペースのひどい使い方です、修正してください、と言いました。そして文字通り何も変更しませんでした。Geminiは一般的にページレイアウト関連のことでは本当に良いですが、より洗練された変更や、ここで望んだようにOKなUIを良くすることでははるかに悪いです。

これを全く理解できませんでした。また、そこに存在したrechartsの実装に縛られようと頑張りすぎて、それを修正して回そうとしました。全く機能しませんでした。でも新しいUIは美しいです。ページをリフレッシュすると見えますが、バーがこの本当に素敵なアニメーションで入ってきます。

マトリックスは今、以前は全くそうではなかったのに、実際に使えるように見えます。GeminiができなくてGPTができなかったなら、何ができたのか?答えはわかっていますよね。Opusです。Opusはすぐに、RechartsがこのUIを良くしないことに気づきました。だからそれを切り替えることを提案し、代わりにTailwindとReactで自分たちで実装しました。そして「ええ、確かに。それをやって」と言いました。

時間がかかりすぎました。変更が加えられる前に20分くらいかかりました。でもその後ファストモードに切り替え、大量のお金を使い、変更を仕上げました。これは私がよくやることです。これはすべてのエンジニアが試すことをお勧めすることです。このようなもっと解釈的なタスクをモデルがどう扱うかに不満があれば、測定可能でないなら、他のモデルをすぐに試してみてください。

特にUI関連では、同じ問題を異なるモデルに与えて、何を思いつくか見るのは非常に楽しいです。時々、選ぶための異なるオプションを持つために、同じものに3つの再デザインをするよう頼みます。ここでは実験が鍵です。大量の異なるツールを使うことではありません。サイトを構築したフレームワークを切り替えるよりも、モデルを切り替える方がはるかに簡単です。

でもそうです、Gemini 3.1 Proはこの特定のサイトで私が望んだことを何もできませんでした。実際、私が始めた元の足場はGeminiだったと思います、面白いことに。でもこのケースではOpusが私が探していたものをはるかによく扱いました。そして私はまだほとんどUI関連のことにGPTモデルを使うのが好きではありません。それらは下手です。

ZyxCevからこの1つのクールなプロジェクトをDMされました。彼はGPTがUIデザインで驚くほど悪いので、UIを非コデックス化するために多くの作業を注いできました。彼は大量のデザインを生成し、それらの中でGPT特有のことすべてを書き留め、それからモデルに渡せるこのスキルを書いて、いつもやるクソをやり続けないようにしました。

これらはすべて、色やそれが間違ってやったすべての奇妙なことについての箇条書きです。以前は、プロンプトを与えると、これを生成しました。GPT-5以来すべてのGPTモデルが大好きな、全く同じカード重視のUIです。そして彼のプロンプトの後、大幅に良く見えるようになります。だから本当に1つのモデルだけを使いたいなら、絶対にこのモデルを誘導できます。

これまで使った中で最も誘導可能なモデルだと断言します。システムプロンプトで少し調整することで、その動作を根本的に変えることができます。前に、彼らが独自のプロンプティングガイダンスを出したと述べましたが、これを読むことを本当にお勧めします。これまで以上にそうです。通常は、好きなようにプロンプトすればいい、みたいな感じですが、これらのモデルを製品に統合しているなら、このことを知っておくのは良いことです。

彼らは明示的なプロンプティングが役立ついくつかの領域を呼びかけています。低コンテキストツールルーティング、依存関係認識ワークフロー、推論努力選択、規律あるソース収集を必要とする研究タスク、取り返しのつかないまたは影響の大きいアクション、またはツールの境界が明確でなければならないターミナルエンコーディングエージェント環境です。

しかし例が本当に示唆的です。出力をコンパクトで構造化されたものに保つ方法の例を提供しています。ここで、システムプロンプトに入れることができる出力契約セクションがあると言っています。要求されたセクションを要求された順序で正確に返します。プロンプトが前文、分析ブロック、または作業セクションを定義している場合、それを追加の出力として扱わないでください。

長さ制限は意図されたセクションにのみ適用してください。ええ、非常に箇条書き的ですが、このようなものを渡せば、適切にやってくれます。これは面白いです。Geminiのようなモデルでの私の経験とは正反対だからです。このようなものを含めると、それらについて考えすぎ続けます。例えば、T3 ChatではLaTeXサポートがあり、システムプロンプトでそれについて言及しています。

そしてGeminiに、天気はどうですか、と尋ねると、天気についての質問に答えるためにLaTeXツールを使うべきかどうかについてすぐに推論し始めます。GPTはそれをしません。指示を適用するのが非常に上手く、意味があるときとないときに、そして一般的に全体的に指示に従うことで。

Skatebenchでさえ、例えば、前のものがトリックの名前だけで答えるように指定していたので、システムプロンプトを再び書き直さなければなりませんでした。そしてGeminiはしばしばその後に段落を与え、それが間違ったトリックの名前を含み、私がそれを失敗させるものを持っていました。だからシステムプロンプトを調整して、Geminiにそれをやめさせなければなりませんでした。

そして今、最高のパフォーマンスモデルです。ええ、これらのモデルはこれらのことに影響を受けやすいです。新しいGPTモデルでは、言ったことに従うだけなので、より多くの情報を与えることができ、一般的にそれでやるべきことをやってくれるのは素晴らしいです。一方Geminiでは、自分自身の愚かなループから誘導しなければなりません。

この例はこの点でさらに良いです。モデルを使って質問をし、その周りで決定を下す製品を構築しているなら、システムプロンプトでこの動作を説明できます。ユーザーの意図が明確で、次のステップが可逆的で低リスクなら、尋ねずに進んでください。次のステップが取り返しのつかない、極端な副作用がある、不足している機密情報が必要、などの場合は尋ねるべきです。

そして進む場合、何をしたか、何がオプションのまま残っているかを簡潔に述べてください。また、会話の途中での誘導と指示のプロンプトの仕方の例も提供しています。そしてここでの重要な呼び出しは、5.4はコンテキストがまだ薄い場合、セッションの早い段階でツールルーティングにおいてあまり信頼できない可能性があるということです。前提条件、依存関係チェック、正確なツール意図をプロンプトできます。

このモデルは持っているコンテキストによって非常に誘導されるようで、だから最初に少し多めに与えることが重要です。これらすべてを読めば読むほど、agent MDファイルについての私の見解を再検討しなければならないかもしれません。また、望むことと動作させたい方法に応じて、並列または逐次ツール呼び出しをプロンプトできます。

これらすべてのことが何であるか、それに応じてどう振る舞うかを知っているのはクレイジーです。このドキュメントはワイルドです。このレイヤーにどれだけ思考を注ぎ込めるかを本当に示しています。以前は、システムプロンプトについてあまり気にしていませんでした。一度完了したら、それで終わり、みたいな。今、すべてのプロンプト、すべてのAMDファイルを再検討する必要があると感じています。モデルが全体的にはるかに誘導可能だからです。

これはまた、cyxe devがここでやった作業がさらに理にかなっていることを意味します。意味のある方法で絶対にモデルを誘導できるからです。開いた質問のすべてに到達したと思います、1つを除いて。どこで、どのようにこの新しいモデルを使えるのか?まあ、明らかにchatgbt.comで、特にチャット用の思考バージョンで使えます。かなり良いです。

T3 ChatとT3 Codeの紹介

でももっと良いチャット体験、よりパフォーマンスが高く、クラッシュが少なく、使うのが本当に気持ち良く、さらにこれまで作られた中で最高の画像生成機能を持つものが欲しいなら、T3 Chatをチェックすることを強くお勧めします。月額たった8ドルで、ここでGPT-5.4を使えます。非常に満足しています。

また、現実的なユースケースのための実質的に無制限の使用と、大幅に多い画像生成を備えた新しい50ドルティアも立ち上げました。最初の月の50%オフが欲しい場合は、説明にリンクを残します。でもコーディングにこれを使いたいなら、私がこれに使ってきたアプリに気づいていたかもしれません。明確にしたいのですが、まだT3 Codeをドロップする準備はできていません。

ただ明日私のチャンネルに注目してください。でもビデオ全体を通して私のスクリーンを本当によく見れば、自分のマシンでブラウザバージョンの早期バージョンを取得するために実行できるコマンドに気づくかもしれません。早く試してみたいなら、私がそれを防ぐつもりはありません。ただ、履歴や追加したプロジェクトなどが次の更新を通過しない可能性があることを知っておいてください。

T3 Codeは、すでにマシン上でCodecがセットアップされ実行されていることを必要とします。だから試したいなら、Codec CLIを使って、それから試してみてください。そしてもちろん、望むならCodexアプリを使い続けることもできます。私がT3 Codeで大量のランダムなものを構築するために全く使わなかったなんてことは。

総括と最終評価

神様、長いものでした。このモデルについて言うべきことすべてを言ったと思います。もう一度、最近少し批判的になってきたにもかかわらず、早期アクセスを提供し続けてくれているOpenAIに感謝します。昨日やった動画のすぐ後にこのビデオをやるのは結構クレイジーですが、知っていることやアクセスできるすべてのことに基づいて、皆さんに可能な限り最高の情報を提供しようと最善を尽くしています。

これがこの新しいモデルについての私の正直な見解です。これは私が毎日使っているものですが、まだOpusとGeminiを使っています。ほとんどUI整理関連のことだけです。皆さんがどう感じているか気になります。このモデルは私が言っているように素晴らしいですか、それともちょっと普通ですか?コメントで考えを聞かせてください。そして次回まで、peace nerds。