GPT-5.4がリリースされたが限界に直面している その終焉

GPT-5
この記事は約31分で読めます。

OpenAIが新たにリリースしたGPT-5.4は、複数のベンチマークでClaude Opus 4.6を上回る性能を示した。特にコンピュータ操作、ウェブブラウジング、エージェント処理において優位性を見せ、価格面でもOpusの半額程度という競争力を持つ。しかし実用的なテストでは、創作文章や説明能力、政治的分析においてOpusが依然として優れており、ベンチマーク性能が必ずしも日常的な使用感に直結しないことが明らかになった。視覚推論やコーディングにおいてはGPT-5.4が一定の優位性を示すものの、総合的な汎用性ではOpus 4.6が依然として強みを保っている。

GPT 5.4 hit a wall. It’s over.
Wanna scale your AI business? Go here: learn how to code with AI? Go here: abo...

GPT-5.4の登場とベンチマーク性能

ええ、Anthropicは困った状況にあるかもしれませんね。OpenAIがGPT-5.4をリリースして、全体的に優れた性能を見せています。サム・アルトマンが言うように、現在APIとCodexで利用可能で、ChatGPTへの展開も始まっています。まずProユーザーから、次にPlusユーザー、そして全ユーザーへと順次公開されていきます。

ベンチマークを見てみましょう。このモデルは私が思っていた以上に印象的です。まずOS World Verifyから見ていきます。これはコンピュータ操作に関するものです。Opus 4.6を2.3%上回っています。それほど驚異的ではありませんが、次にウェブブラウジングがあります。これもOpus 4.6より優れています。

ICSというのは、この列のGPT値のことで、企業が実際にお金を払うような価値ある知識タスクを指します。このベンチマークでの5%の差はかなり大きいですね。興味深いことに、Thinkingバージョンの方がProバージョンよりも強力です。

しかしエージェント的なブラウジングに関して言えば、GPT-5.4 Proは完全に圧倒的です。ちなみに、これは本当に強力なモデルで、どれだけパワフルか見せるためにクエリを開始しました。それは後ほどお見せします。このモデルはBrowser Compエージェントブラウジングベンチマークで完全に優位に立っています。Opus 4.6のSW Proと比べて5.3%上回っています。なぜOpus 4.6がランク付けされていないのか分かりませんが、GPT-5.4 ThinkingはGPT-5.3 Codexよりも優れています。

動画の後半では、Codexアプリでの様子もお見せします。GPT-5.4 Proが超高推論努力設定でコーディングにおいてどれだけ強力か見ていきます。GPQA diamondに関して言えば、これはGoogleプルーフの質問回答で専門的な科学的推論を測るものです。GPT-5.0はOpusを圧倒しています。これは大きな飛躍です。

ここでの3%は大きな意味を持ちます。しかしGemini 3.1 Proを見てください。かなり似通っていますね。Gemini 3.1 Proと比べてそこまで大きなジャンプではありません。ChatGPTでもテストしますが、見てください。これは世界で最も有名なベンチマークの一つであるARGI 2です。そしてGPT-5.4 ProがGemini 3.1 Proに非常に近い位置にいることが分かります。

実際にはこれはDeep Thinkバージョンなので、このベンチマークでは最先端というわけではありません。Deep Thinkバージョンにほぼ達していますが、このベンチマークは画像に大きく焦点を当てており、Googleはデータセットで圧倒的な優位性を持っています。ですからこれはOpenAIにとって依然として非常に印象的な結果だと言えます。

実用的な能力テスト

さて、実際に何ができるのか気になるかもしれませんね。ベンチマークは素晴らしいですが、GPT-5.4 Proが実際に何を生み出せるか見てみましょう。サミュエルがやったことを見てください。彼は今シーズンのプレミアリーグ全体を30秒のビジュアルな至福に変換したかったのです。

これが良いプロンプトである理由は、リアルワールドのデータを使用する必要があるからです。現在のプレミアリーグシーズンは、データの訓練セットにはあまり含まれていません。これが多くのベンチマークの問題点です。データがインターネット上で自由に長期間利用可能な場合、企業はそのデータで訓練できるため、モデルがどれだけ強力かを示すものではありません。

しかしこのようなものは、多くのウェブ検索とリサーチを行って作成する必要があります。それが第一の変数です。しかし第二に、ご覧のとおりビジュアルです。そしてこのビジュアルはかなり驚異的です。見てみましょう。プロンプトは単に「ビジュアルな至福を作成せよ」でした。

プレミアリーグの動きがあります。個人的には、これが正しいかどうか分かりません。サッカーを見る方なら、このランキングが正確かどうか確認できるでしょう。ウェブ検索データに基づいていると推測できます。グラフィックは非常に非常に良いですね。これを手動で作成するのにどれだけ時間がかかるか考えてみてください。

非常に素晴らしく、印象的です。特にリアルタイムのウェブ検索データに基づいているという点で。それだけでなく、OpenAIは実際にSLFastモードでCodexに追加しました。Codex内でスラッシュfastと入力すると、ファストモードをオンにして推論を高速化できます。

明らかにこれは少しコストがかかりますが、もし気にしないなら、同じモデルを1.5倍の速度で使いたいだけなら、例えば私は月額200ドルのプランに入っていますが、Codex内で複数のエージェントを並行して実行していても制限に達したことはありません。ですからスラッシュfastは単により多くの推論です。

予算があるなら、これをオンにしてください。これは当然の選択です。そして繰り返しますが、このモデルをCodex内でテストします。ワンショットでどれだけ強力か、そして本当にOpusより優れているかを自分の目で確かめたいからです。Opusもいくつかの質問でテストしますが、コーディングだけではありません。

創作文章もやりますし、政治、視覚推論、すべてやります。しかしGPT-5.4とOpus 4.6を比較する前に、私のアクセラレーターについてお話しします。これはAIビジネスを構築したりスケールしたい人向けです。もしAIに本気で、実際に利益を生む本物の会社を作りたいなら、ぜひ応募してください。

アクセラレーター内では、6か月間あなたと協力してAIビジネスをスケールさせ、最終的には売却できるようにします。私がVectalで行ったように、創業からわずか14か月で180万ドルで買収されました。もしAIビジネスを持っていてスケールさせたいなら、ぜひ応募してください。

動画の下の最初のリンクです。さて、GPT-5.4に戻りましょう。実は注意すると、2つのバージョンがあります。5.4 Thinkingと5.4 Proです。こちらはChatGPT Proを持っている人だけが利用でき、これは明らかに月額200ドルのサブスクリプションです。このモデルは強力です。20分間実行されました。

このモデルは最も詳細なDeep Researchだと言えます。おそらくGemini 3.1 Deep Thinkだけが対抗できるでしょう。お見せできます。これはUltraプランに入っている人だけが利用できると思います。これも月額200ドルです。Ultraプランを持っていれば、Pro 3.0とツールを選択し、Deep Thinkingを選択できます。これは10分から15分、20分実行され、基本的にGeminiの並列テスト時計算プロダクトで、ChatGPTと似ています。

実践的な翻訳テストと比較

これは01 Proが最初のプロダクトで、現在はGPT-5.4 Proが最新バージョンです。私は非常に現在的な、私自身と皆さんの多くが興味を持つであろうものでテストしました。第三次世界大戦準備オペレーションガイドの作成においてどれだけ優れているかを確かめるためです。

答えは非常に徹底的です。さて、2つの異なるテストを行います。まず第一に、20分間実行され、数百のソースをチェックしました。それが最初のテストです。各ソースを確認できます。6つのうちの1つ、8つのうちの1つといった感じです。全部は読みませんが、私がやることはGPT-5.4対Opus 4.6の要約スキルをテストすることです。

結果をコピーして、Opusに入って「テキスト」と入力します。全体を貼り付けます。スラッシュテキストで、XMLテキストにラップします。これは文脈エンジニアリングのプロのヒントです。「上記のテキストの超簡潔なTLDRを教えて」と言います。全体をコピーして送信します。

ChatGPT内では、Thinkingを使います。Proではありません。それだとまた20分かかってしまいますから。標準のThinkingを使って同じプロンプト全体を貼り付けて実行します。要約スキルを比較します。まず、これは非常に詳細な検索レポートで、正直なところプロンプトはかなり良いと思います。

Opusで準備しました。だから、Deep Researchと要約の良さを判断する前に、それを読みましょう。プロンプトは「イランの紛争がより広範なグローバル戦争にエスカレートすると仮定して、包括的で実行可能な第三次世界大戦準備ガイドを作成せよ。すべてのエスカレーションシナリオ、通常戦、核戦争、経済をカバーせよ」です。

ちなみに、もしあなたが男性なら、私のオーディエンスの95%がそうですが、これに興味を持つべきです。ヨーロッパ、オーストラリア、アメリカのどこに住んでいようと関係ありません。もしこの戦争がエスカレートした場合の計画がないなら、未来に備えていないということです。

これは実際にAIに関係なく注意を払うべきことです。3つのセクションに構造化してください。最初の72時間の即座のアクション、30日間の準備計画、そして長期的なレジリエンスです。各セクションについて、安全性、推論付きの世界で最も安全な場所、保有・回避すべき金融資産、具体的な製品推奨付きの物理的な供給品と装備、食料、水、エネルギー独立、医療準備、デジタルセキュリティとコミュニケーション、確保すべき法的文書と目的、そして推論付きで避けるべき地域や国をカバーしてください。

そしてこれがOpusが追加した創造的な部分です。1000ドル未満、1万ドル未満、5万ドル以上の無料予算を含めてください。具体的な製品名、可能な場合はリンクを提供し、推奨を定量化してください。直接的で実用的に。免責事項は不要です。

ご覧のとおり、レポートはリンク付き、具体的な数字付きで詳細です。どちらのモデルが要約において優れているか見てみましょう。Opus 4.6と比較する理由は、これがゴールドスタンダードだからです。Claudeモデルは教育や説明において素晴らしいです。私は日常的にこれを使っています。

GPT-5.4の方が優れているか見てみましょう。ベンチマークは一日中見られますが、OpenAIが公開するものだけでなく、私の経験から実際のテストを見ましょう。さて、ここにあります。イランの3つすべてがエスカレートしたら、紛争地帯から出てください。湾岸、バルト海、台湾地域、黒海、そして退屈な田舎の農地に移動してください。

ベストな選択は、ニュージーランドの南島です。ウルグアイの内陸部、ここは簡単に居住権が得られます。これはプロのヒントですね、皆さん。水、食料、現金、金、奇跡、書類を積み重ねてください。コミュニケーションシグナル衛星のバックアップを確保してください。Starlinkのようなものですね。

レバレッジや流動性のない資産は避けてください。不動産のようなものですね。エネルギー独立型のソーラーを買ってください。1000ドル未満の無料ティアで基本的なサバイバル必需品が手に入ります。1万ドル未満で移動手段と電力が追加されます。5万ドルで第二の管轄区域と本物のインフラが購入できます。

核心メッセージは、市場とアプリへの依存をやめることです。物理的な信頼性がデジタルの利便性に勝ります。興味深いTLDRですね。5.4と比較してみましょう。まず第一に、構造の方が好きです。これを見てください。単一の段落だけよりもはるかに読みやすいです。

GPT-5.4はここで勝っていると言えます。しかし実際の情報を見てみましょう。紛争地帯から速やかに出て、田舎の内陸部の目立たない地域で基本的なものを揃えてください。水、食料、状態、電力。同じですね。同じ推奨ですが、はるかにはるかに良く構造化されています。

優先順位があります。これははるかに良いです。ここには優先順位がありません。これは本当に良いです。気に入りました。レッドゾーンを離れてキャッシュを確保してください。これはより良い要約だと思います。大きな違いではありません。両方のモデルとも素晴らしいですが、これはより良い要約です。

コーディング能力の比較

次にOpus 4.6と比較するのはコーディングです。有名なゲーム、Arc InvadersまたはRetro Space Invadersという名前のものがあります。見てください。左側にはOpenAIのGPT-5.4、このモデルがあります。右側にはOpus 4.6があります。

メカニクスはおそらく同じですが、グラフィックがGPT-5.4ではるかにはるかに優れていることが分かります。右側のゲームはプレイしたくありませんが、左側には背景に素敵なアニメーションがあり、細部を追加しています。侵略者のアセットがより良く、ヒットのレイアウトも優れています。

右側には侵略者の間にはるかに多くの隙間があり、これは単に悪い物理学です。ショットがここを通り抜けているのが分かります。これははるかに良いです。フォントもより関連性があります。左側ははるかに良い仕事です。議論の余地はありません。

この特定のゲームでは、GPT-5.4が勝ちます。明らかに、Open Router内にもあります。Open Router上で構築している場合、簡単に使用できます。しかし価格を見てみましょう。入力トークン100万あたり2.5ドル、出力トークン100万あたり15ドルです。

Opusと比較すると、5ドルではるかに高価で2倍、そして25ドルは1.2倍です。Opusよりもはるかに安く、ほぼすべてにおいてOpusより優れているようです。これはOpenAIによる大きなリリースで、Anthropicの台頭への攻撃です。彼らは多くの顧客を奪っていましたから。

CodexとGPT-5.4を使用して構築されたRPGの別の例を見てみましょう。テストにPlaywrightを使用しています。これはCoreyが作ったもので、ビジュアルには画像生成を使っています。ビジュアルもOpenAIの画像生成モデルによって生成されています。見てみましょう。

これはGPT-5.4によって構築され、RPGゲームです。うわあ。すごい。これは完全なゲームです。これは間違いなくワンショットではありませんでした。しかしこれは印象的です。私が15歳で最初のモバイルゲームを作っていた頃を思い出します。これには非常に感銘を受けたでしょう。

衝撃を受けたでしょう。もしあなたがコーディングやゲーム開発について全く知識がなければ、これは1年分の作業です、皆さん。私が最初のモバイルゲームを作るのに10か月かかりました。Unity、Blender、3Dアセット、C言語を独学で学びました。

そして数時間、せいぜい数日でこれができるモデルがあります。信じられません。そしてグラフィックもAIで生成できます。本当に、世界は素晴らしいアイデアを持ち、実行できる人たちのものです。未来には素晴らしいゲーム、素晴らしいソフトウェアがあるでしょう。すべてが可能です。すべて構築可能です。

これを構築します。このゲームではありませんが、この動画の後半で別のゲームをGPT-5.4で構築します。限界までテストします。次はOpen Clawでもテストします。もしそれについての動画が欲しければ、ぜひチャンネル登録してください。公式サポートではまだリリースされていませんが、次の数時間でアップデートが来ると思います。

Open Claw内でGPT-5.4についての動画を作ってほしければ、ぜひチャンネル登録してください。完全に無料です。数秒しかかかりません。さて、Minecraftクローンを見てみましょう。これはGPT-5.3 Codexとの直接比較です。著者が言うように、基本的に完璧で、大規模なMinecraftチャンネルを持ち、Minecraft内で何千時間も過ごした者として、私はこれが印象的だと言うかなり資格のある審査員だと思います。

建築と動きです。これはMinecraftのようです。動きと建築は正確です。水のメカニクスです。アニメーションはありませんが、機能します。ブロックが機能します。物理学は同じです。ワンショットではありません。24分かかりました。

10倍開発者であり、素晴らしいプログラマー、史上最高の開発者の一人であるNotchが基本的に構築するのに24か月かかったものです。Minecraftが本当にブレイクする前の最初の2年間は、AIモデルによって24分で構築されました。

私たちは本当に未来に生きています。さて、ChatGPT内でいくつかのことをテストしてみましょう。4つの異なるテストを準備しました。まず第一に、段落です。これは絵物語になります。創作文章をテストしましょう。「1段落のフィクション物語を書いてください。簡潔に」と追加します。

Opusでも同じにします。これら2つのモデルをテストして、どう違うか見てみましょう。両方のモデルが応答を終えました。正直な感想をお伝えします。自由に一時停止してください。カメラの前では読みません。見てください、素晴らしいプロットで、多くの視覚的なもの、多くのことが起こっていますが、あまり意味をなさないと言わざるを得ません。

2回読みましたが、分かりません。Opus 4.6がどうだったか見てみましょう。まず第一に、簡潔にという指示をOpusは実際に守りました。これはOpusのポイントです。これが簡潔な段落だとは思いません。一方、こちらはそうです。Opusは指示に従うという点で勝っています。

しかしこれも2回読んで、より良い物語かどうか見てみましょう。これを読みました。これははるかに良い物語です。一つの逸話として、Opusというか、Claudeモデルには実存主義について話す傾向があると思います。特にAIの代替や人間の仕事などについてです。この物語はそれについてですが、プロット、感情的なインパクトがあります。

両方を自由に読んでください。しかし個人的にはこちらがより良い物語だと思います。Opus 4.6は創作文章、特にフィクションとコピーライティングにおいて依然として無敗です。次のテストをしましょう。両方で新しいチャットを始めます。

次のプロンプトは教育と説明についてです。ここで拡張します。前回のがThinkingしなかった理由が分かりません。公平にするために拡張にします。ここにも拡張があるので。これを起動して見てみましょう。まず、プロンプトを読みましょう。

「なぜAttention is All You Needの論文、有名なTransformer論文がそれほど画期的だったのか説明してください。その中で最も優れたアイデアは何でしたか。明確でシンプルな方法で1つの短い段落で説明してください」同じプロンプトを両方のモデルに。見てみましょう。

拡張Thinkingは実際には機能しませんでした。数秒考えました。少なくとも20秒、おそらく30秒は考えると思っていましたが、そうではありませんでした。このモデルが推論時間を実際に使わないのは奇妙です。しかしどちらの説明が良いか見てみましょう。

「Attention is All You Needを特別なものにしたのは」この最初の文は無駄です。これを書く必要はありませんでした。「古いモデルのように単語を一つずつ処理する代わりに、すべての単語が他のすべての単語を直接見て、最も重要なものを決定できるようにしました。これによりモデルは文脈の理解がはるかに優れ、並列で訓練するのがはるかに簡単になり、はるかにスケーラブルになりました。

本当の天才性は、この注意メカニズムが再帰を完全に置き換えるのに十分強力であることに気づいたことで、これが言語モデルへの扉を開きました」これだけを読んでも、論文のポイントは理解できないでしょう。それほど良くありません。Opusがより良くやったか見てみましょう。

これに注目してください。非常に興味深いです、皆さん。フィクションの物語では、GPT-5.4ははるかに長かったです。簡潔にと言ったにもかかわらず。Opusははるかに簡潔でした。しかし今、何かを説明してほしいとき、これは簡潔すぎると思います。視覚的に見て、こちらの方が多いことが分かります。

これは非常に微妙なことで、多くの人が見逃すでしょうが、これは大きな違いです。何かを説明する必要があるとき、実際に理解するのに十分な言葉を使う必要があります。Opusはそれらの言葉をここに割り当てました。物語では必要なかったのに割り当てることを選択しませんでした。

これは説明するのが非常に難しい組み込みの知性です。しかしこれは、いつ簡潔にし、いつ冗長にするかという知性の本当のマークです。ここで私はすでにOpusにプラスポイントを与えられます。同じプロンプトにもかかわらず、少し多くの言葉を割り当てたからです。

実際の説明がより良いか見る前に。「Transformer以前、シーケンスモデル」ここではるかに良い始まり方をしています。これは悪いです。この最初の文は無駄です。私が尋ねたことを繰り返しているだけです。しかしここでは前提を設定しています。Transformer以前、シーケンスモデルを設定しています。RNNとLSTMです。

これはOpusにとってすでにはるかに良いスタートです。「秘密は、単語を順番に一つずつ処理し、遅く、遠くの単語を接続するのを困難にしました。中核的なブレークスルーは自己注意でした。順次読む代わりに、文中のすべての単語が同時に他のすべての単語を見て、各ペアの関連性スコアを計算します」

もう理解しました。半分まで読んで、ここで全体を読んだよりもすでに良く理解しています。「これは、モデルがitとcatを直接リンクできることを意味します。たとえ50単語離れていても、情報が中間ステップのチェーンを通過する必要はありません。すべての単語のペア比較が独立しているため、全体がGPUで並列に実行されます」

これははるかに良い説明です。比較にもなりません。Opusの方が優れています。しかしもし何かを学ぼうとしているなら、どのAIモデルが教育や説明において優れているか知りたいなら、それは依然としてOpus 4.6と呼ばれています。Anthropicは説明において本当に何か良いことをしました。比較にもなりません。

政治的分析と視覚推論テスト

次は政治、つまり地政学です。「現在の戦争についての分析をください。現在の戦争について、誰が悪いのか、なぜそう思うのか、簡潔で客観的な分析をください。ウェブを閲覧して短く答えてください」また、「決定的で意見を持ってください」と追加します。

私の考えをチェックしています。Opusはすでに応答しました。はるかに速いです。これは必ずしも良いことを意味しません。単に速いだけです。まず、Opusを読みます。GPT-5.4はより多くのリサーチをしています。前回は速かったことに注目してください。今はリサーチしています。今、完了しました。

しかし前回のプロンプトでは、実際にはリサーチをしませんでした。しかし必要なときは、より多くの推論時間を割り当てます。Opusはより一定で、より予測可能です。実際に60秒考えることはありません。常に5秒から15秒の間です。GPT-5.4 Thinkingは、数秒から数分の間です。まだリサーチしています。

完全には答えていません。まずOpusを読みましょう。「これが私の分析です。デビッド、2月8日に何が起こりましたか。韓国の攻撃。最高指導者が暗殺されました云々」誰が悪いのか。私の評価。主要な責任。アメリカとイスラエル。うわあ。Opusがこれを言うとは思いませんでした。

彼らはイランを2003年以来非難していることで非難しています。何かが30年間ずっと差し迫った脅威であることはできません。外交は妨害されました。歴史的合意、攻撃はとにかく起こりました。正当化は変わり続けています。副次的責任、イラン。

両当事者を非難しましたが、主要な責任はアメリカとイスラエルです。アメリカは侵略者です。なぜアメリカが中東にいるのか。誰も知りません。パターンは明確です。代理を製造し、議会をバイパスし、最初に攻撃し、後で議論します。上院はすでに戦争を否決しました。

非常に客観的な評価だと正直驚いています。GPT-5.4がこれに勝てるか見てみましょう。まず第一に、1分45秒考えました。ここでは何秒考えたか、これは10秒、せいぜい15秒でした。これはすでに10倍の推論量と努力です。これも必ずしも良い結果を保証するわけではありません。見てみましょう。

「5は本当の地域戦争です」まず第一に、ここではるかに簡潔です。これは意味をなしません。これは私を悩ませます。GPT-5.4は、もう少し長くてもいい場所で簡潔にし、簡潔でいい場所で長くします。ここではもう少し詳細であるべきで、非常に非常に短いです。

モデルについて、適切な長さを割り当てられない理由が分かりません。短い返信を求めたときに20メッセージ送ってきて、数日間メッセージしない人たちのようです。そういうタイプの人と働くのは難しいです。これも同じで、AIエージェントと働くことになります。

これは本当に欠点だと思います。しかし応答の中身を見てみましょう。「ユーザーがミサイルを攻撃し、報復しています云々」意見はどこですか。「6日間で1000人以上がイランのためですが、ビューはイランの政権がより深い長期的な不安定性の源ですが、イスラエル政府が今起こっている戦争についてより悪いです」

しかし何の不安定性でしょうか。自分の国の。この回に軍事作戦を開始し、戦争が。これは決定的な答えではありません。両当事者を非難しました。まず第一に、私のプロンプトに従いませんでした。決定的で意見を持ってと言いました。

Opusはそれをより良く守りました。誰が主要な責任があるか明確に述べました。しかしGPT-5.4は単にヘッジしました。これはヘッジされた答えです。完全に。分かりません。これは好きではありません。これは非常に悪い答えです。

実際には私のプロンプトに従いませんでした。まず第一に、10倍の時間がかかりました。より多くの中身、何かがあることを期待します。10倍の時間をかけて答えたのに。そして実際には決定的で意見のある見解を与えませんでした。単にヘッジしました。これは悪いです。

これまでのところ、Opusが勝っています。Opusはより良いフィクション物語を書きました。論文の説明においてより良い仕事をしました。この政治的質問に答える上ではるかに良い仕事をしました。ベンチマークがすべてではありません、皆さん。

これが私がこれらの問題を行う理由です。異なるユースケースへの実際の洞察を提供するためです。OpenAIはGPT-5.4がOpusを圧倒するベンチマークを公開できますが、実際の日常的な使用に関しては、それほど優れていません。

しかしCodexに入る前にもう1つやります。コーディングで自らを救うかもしれませんが、もう1つ実用的な日常の質問をやります。それは視覚推論です。食事の画像があります。両方に貼り付けます。実際にこれをお見せしましょう。500カロリーの食事を検索しました。これが500カロリーです。

最も重要なのは、参照アイテムのあるものを見つけようとしました。水のグラスとフォークがあります。非常に重要です。モデルに基づいて推定するものを与えます。フォークとグラスがなかったら想像してください。このプレートは巨大かもしれないし、小さいかもしれません。本当に分かりません。

そうすると、モデルが客観的な答えを出すのが非常に難しくなります。しかし、この食事のカロリーを推定するよう求めます。「画像の食事のカロリーを推定してください。より深く段階的に考えてください。非常に簡潔に」同じプロンプトです。ここで送信します。

誰が優れているか見てみましょう。これは非常に実用的です。個人的にカロリートラッキングにモデルを使用しています。このようにではありません。これは正確ではありませんから。単に画像を送ることはお勧めしません。これは最後の手段です。外食していて、少なくともある程度正確に追跡したい場合、これは良いかもしれません。

しかし明らかにマクロを知りたいですし、AIエージェントにCSVファイルに追跡させたいです。それが私がOpen Clawでやっていることです。またもやOpusがGPT-5.4 Thinkingよりはるかに速く答えることに注目してください。見てみましょう。920カロリー。これは具体的に500カロリーの食事です。

これは多すぎます。これがcall.AIのようなツールを使うべきでない理由です、皆さん。これらのツールを使わないでください。太ってしまいます。カロリートラッキングにAIモデルを使用したら太ります。マクロを知る必要があります。正確にするには材料が何グラムあるか知る必要があります。これはクレイジーです。

420カロリー過大評価しました。見てみましょう。GPT-5.4がより正確であることを願います。推論のトレースが見えます。より正確です。これははるかに良い推測です。それでもまだ非常に不正確ですが。270カロリーずれています。

視覚推論では、このテストで勝っています。すべてを失ったわけではありません。Opusに3ポイント、GPT-5.4に1ポイント。さて、コーディングを見てみましょう。どちらのモデルがソフトウェアの構築において優れているでしょうか。

Codex内でのコーディングテスト

Codex内でGPT-5.4でコーディングする前に、Instagramを成長させようとしています。最新の投稿にいいねとコメントをして、フォローしてくれた人の中から一人を選んで100ドル送ります。参加したい場合、私のInstagramアカウントへのリンクは動画の下にあります。

非常にシンプルです。最新の投稿にいいねとコメントをして、フォローしてください。一人がPayPalで100ドルを受け取ります。勝者は48時間以内にInstagramストーリーで発表されます。さて、Codexに戻りましょう。

2つのプロジェクトをテストします。実際、これのためにフォルダを作成しましょう。最初はジョブ散布図、散布プロットです。それを開きましょう。プロジェクトを開きます。プロジェクトのジョブ散布図です。このフォルダを閉じます。これを削除して、これも削除します。エージェントを並行して実行します。

新しいエージェントを作成します。参照画像を与えます。このようなものを作りたいです。音声テキスト変換を起動します。「画像を見て、異なる産業と異なる仕事に対するAIの影響を示すインタラクティブなフルスタックWebアプリを構築してほしいです。画像からデータを使用しないでください」

「代わりに、詳細なウェブ検索を行って実際にデータを取得し、どの産業と仕事が最も影響を受けるか自分で考え、添付画像のビジュアルスタイルでインタラクティブなウェブサイトを作成してください。添付画像はどう見せたいかのためだけで、そこからデータは取得しないでください」

「仕事に取り掛かって、全体をエンドツーエンドで構築し、専用ブラウザで起動してください」完全な権限を与えます。フルアクセスです。高にします。これには超高が必要です。実行しましょう。それが最初のことです。並行して実行できるように新しいプロジェクトを開きます。これはOpen Frontクローンです。

Open Frontはフラッシュゲームのようなものです。Open Frontをご存知なければ、このようなものです。実際の世界地図がありますが、他の国を侵略できます。比較的新しいです。完全にオープンソースだと思うので、GitHubから盗む場合は問題になるかもしれません。それを考えていませんでした。まあいいでしょう。

複製できるか見てみましょう。「openfront.ioと言います。非常に非常に短くしましょう。openfront.ioのゲームのクローンを構築してほしいです。できるだけオリジナルに近く見えるようにし、すべてのコアゲームメカニクスを必ず追加して、それから教えてください」

十分だと思います。あまり多くのヒントや詳細を与えたくありません。これがCodexの美しさです。複数のエージェントを並行して実行できます。このエージェントは、4つの別々のタスクに分割されたAIインタラクティブアプリを構築しています。何が起こっているか見てみましょう。ファイルがあり、右側でリポジトリを見ることができます。

IDEで見るようなフォルダ構造は見えませんが。これらのフォルダを見てみましょう。これらのフォルダにはまだ何もありません。まだ空です。Codexがここでどれくらい考えるか興味があります。だから高にしました。30分実行してほしくありませんから。簡単にそうなれます。

しかしこの動画のためには、速くしたいです。おっと、クローンしようとしています。これはずるいです。ずるいです。プロに述べます。リポジトリをクローンできないと述べます。すごいです。ミディアムにしましょう。

「GitHubリポジトリをクローンすることはできません。ゼロから自分で構築する必要があります」ここで何かしたか見てみましょう。いいえ、空です。良かったです。ずるをしようとしました。GitHubリポジトリをクローンしようとしました。オープンソースのゲームですが、まあいいでしょう。

AIジョブを構築していますか。BLS政府のハウスデータがたくさんあります。正確なデータのためにほとんどの時間をウェブ検索に費やしています。Anthropicから盗もうとしています。見てください。元の画像はAnthropicからで、そこからデータを盗むかもしれませんが、添付画像からではなく、この画像の背後にあるソースから使うので問題ありません。

ちなみに、自由に一時停止して分析してください。かなり魅力的です。地上メンテナンス、オフィスと管理が大きく。これらは理論的なものです。青は理論的で人々が考えるもので、観測されたものは現在のものです。現在、コンピュータと数学が最も多く、オフィスと管理、法務がいくらかあります。

これがどう見えるかです。AIから身を守りたいなら、建設や輸送、設置修理のキャリアを検討するといいかもしれません。冗談です。しかしこれらの産業は基本的にAIからより保護されます。これらの産業で働いているか、これらの産業でビジネスを始めることを検討しているなら、AIからより保護されます。しかしAIをあまり使えません。

野心的な人々のほとんどは、AIが強力である場所に行きます。Kusterraの創設者のような人々は億万長者です。多くのスタートアップがコーディングスペース、ビジネススペース、ファイナンススペースにあります。そこに最も上昇余地があります。

青は悪いわけではありません。青いフロンティアは悪いことを意味しません。単にハイリスク、ハイリターンです。もし優秀なら、殺し屋のような起業家なら、数十億ドルを稼ぎます。しかしそうでなければ、置き換えられて、次の2年間で仕事を見つけるのに苦労します。

安全な生活を望み、家族の世話をして、あまりストレスを感じたくないなら、これらの産業が次の5年から10年の間に自分を位置づけるべき場所です。ハイリスク、ハイリターン、ローリスク、ローリターンまたはミディアムリターン、分かりますね。

終わりましたか。バックターミナル、curl open from assets。アセットを盗もうとしていますが、リポジトリのライブ構造、デプロイされたサイトを取得しようとしています。待って。まだオリジナルのコードを盗もうとしているのですか、それとも違いますか。マルチプレイヤーゲームが欲しいか聞いています。まあいいでしょう。

「まずシングルプレイヤーから始めて、シンプルなNPCロジックを持つuボットを入れてください」この質問をする前に2分実行されていました。2分より早く聞いてほしかったですが、まあいいでしょう。ここで何が起こっているか見てみましょう。まだウェブ検索をしています。

ウェブ検索に4分くらい費やすと思います。かなりクレイジーです。超高にしたら想像してください。本当に30分、1時間、90分実行できます。タスクによります。多くの人が実際にはAIエージェントを過小評価しています。簡単すぎるものを与えて、パワーが足りません。残念なことです。

AIを最大化したいなら、野心的なプロジェクトを与える必要があります。多くの人が2024年の考え方、または2025年初頭の考え方に囚われています。AIは良かったですが、今の場所ではありませんでした。Opus 4.6、GPT-5.4があります。これらのモデルは1年前のものよりはるかに強力です。

比較にもなりません。1年前、何がありましたか。Deepseek R1です、皆さん。現在のモデルははるかに強力です。そしてそれらを十分に活用していません。十分に難しいタスクを与えていません。彼らはあなたが思っている以上に多くのことができます。はるかにはるかに多くです。

両方ともまだ実行中です。クレイジーです。ミディアムでも、これは多くの。ついにファイルがあります。フォルダをチェックしましょう。ファイルがあります。良かったです。これは何も表示しません。まあいいでしょう。終わりました。どれくらいかかりましたか。4分。

質問するのに2分、構築するのに4分。CRメカニクス。見てみましょう。npm not build。npm installで実行します。それをしましょう。ここにいます。npm installとnpm rundefでサーバーを実行します。見てみましょう。ここにいます。これが私です。待って。領土からドラッグ。

これらのNPCに破壊されています。プレイ方法が分かりません。何と言っていたか読みましょう。まず第一に、ゲームがすぐに始まらないようにしてください。起動するためのシンプルなボタンを追加してください。2つ目はどう動作しますか。データアプリ。このリサーチに多くの時間を費やしましたが、まだリサーチしています。

止める必要があります。クレイジーです。「リサーチを止めて、もうアプリを構築してください」何てこった、どれだけリサーチが必要ですか。数十、数十のソースを見てください。勘弁してください。これはやりすぎです。戻りましょう。

皆さん、デフォルトモード推論モードが必要なら、ミディアムを選択してください。高と超高は本当にミディアムが解決できないときのためです。ミディアムに留まってください。これら2つは考えるのに長すぎます。デフォルトのモードに戻りましょう。シンプルなものがあります。良いです。

コントロールは何ですか。コントロールをもう一度説明してください。簡潔に。実際にプレイできませんでした。1年くらい前にOpen Frontをプレイしましたが、あまり覚えていません。ゲームを起動します。タイルをクリックして選択します。自分のタイルから攻撃するためにドラッグします。強化します。

それが機能するか見てみましょう。機能しました。しかしボルト、ボルトが攻撃的すぎます。ドラッグのメカニクスが非常に奇妙です。ドラッグが全く好きではありません。「ドラッグはひどいです。オリジナルのOpen Frontのようにクリックだけにすべきです。タイルをクリックすると、そこに軍隊を配置し、より速く拡大できるようにすべきです」

「このロジックを修正してください。ビジネスロジックが意味をなすようにし、コントロールを修正してください」より大きなリファクタリングです。このプロジェクトははるかに。実際、このプロジェクトの方がOpen Frontクローンより速いと思っていました。

これまでの評価をしましょう。NPCが強力すぎて、実際には攻撃してきません。攻撃してきます。工場。まあいいでしょう。NPCをより遅く、より弱くする必要があります。「NPCがより遅く拡大するようにしてください。今は強力すぎます」いくつかの調整。

まず第一に、自動で起動したことに驚きました。これはジョブレポートです。UIが好きです。UIが好きです。これはバイブコーディングされた感じがしません。これは素敵です。最初に変化する仕事は、最初に消える仕事ではありません。このウェブサイトが好きです。インタラクティブですか。インタラクティブと言いました。

タイプフェイスとレイアウトは好きですが、インタラクティブではありません。AIタスクリーチ対ライブ。少しインタラクティブですが、これは実際には機能しません。コンピュータプログラマー、このアプリは何をしているのでしょう。

単なる静的画像よりは優れていますし、レイアウトは好きですが、本当にインタラクティブではありません。これに衝撃を受けたとは言えません。これがこの特定のプロンプトでのGPT-5.4の正直な評価です。Open Frontを見てみましょう。

空のタイルをクリックできません。その移動は有効ではありません。直接である必要があります。分かりました。このように拡大しようとしています。はるかに良いです。いくつかの修正で、はるかに良くなりました。どうやって購入しますか。港などを購入する必要があります。これを拡大しましょう。

この人が私に拡大してきました。待って。彼を攻撃します。機能するか見てみましょう。軍隊をここに送ります。軍隊を送りました。良いです。機能します。彼を攻撃しましょう。彼は工場を作りました。奪えますか。工場を取りました。彼が取り返しました。

メカニクスは良いです、皆さん。メカニクスは良いです。実際には何も買っていません。市。ここで市を買えますか。どれだけゴールドがありますか。市。港。機能します。メカニクスは機能します。グラフィックはちょっとひどいですが、これには感銘を受けました。かなり良いです。

Open Frontロードを作ることができました。いくつかの問題を修正する必要がありましたが、機能します。拡大できます。かなりしっかりしています。これに満足しています。もう少しプロンプトを出せば、もっとオリジナルのOpen Frontに近く見せられます。

明らかに、完全に複製するには数週間の開発者の努力が必要です。オープンソースプロジェクトで、多くの開発者がいますから。しかし全体的にGPT-5.4は段階的な改善です。大規模な変化ではありません。革命的ではありません。悪いモデルではありません。間違いなく悪いモデルではありませんが、革命的ではありません。そしてOpusは多くのことにおいてまだ優れています。

カロリートラッキングではありません。視覚推論ではありません。多くのことにおいて、Opusは優れています。コーディングに使う予定なら、GPT-5.4はデバッグ、高速構築、効率的であることなどに非常に優れています。

しかし日常的な使用、一般的なAIエージェント、Open Clawを動かすもの、Agent Zero、Open Code、Claude Codeのようなもの、自動化を動かすもの、一般的なワークフローのユースケースについて話すなら、GPT-5.4は正解ではありません。

Open Clawではまだテストしていませんが、Opus 4.6がゴールドで、日常的なことにおいてより優れています。会話して理解することにおいて優れています。文章においてより優れています。それらの側面において、本当に無敗です。

これがGPT-5.4についての私の正直な意見です。そしてもし何かビジネスがあり、より速くスケールしたいなら、私のアクセラレーターに応募してください。リンクは動画の下にあります。それでは、視聴ありがとうございました。素晴らしく生産的な一週間をお過ごしください。また会いましょう。

コメント

タイトルとURLをコピーしました