GPT-5.4は本当にすごい

OpenAIが公開した最新モデルGPT-5.4は、複数の独立ベンチマークで最高水準のパフォーマンスを記録している。100万トークンという業界最大級のコンテキストウィンドウを持ち、3Dレンダリング、音楽作曲、複雑なゲーム開発を数プロンプトで実現する圧倒的なコーディング能力を発揮する。SWEBench Pro、Frontier Math、Arc AGI 2などの主要ベンチマークでトップスコアを獲得し、ナレッジワーク領域では人間の専門家を70%の確率で上回る結果を示した。一方で、幻覚率が従来モデルやClaude Opus 4.6と比較して著しく高いという弱点も明らかになっている。Gemini 3.1 ProやClaude Opus 4.6と並ぶフロンティアモデルとして位置づけられるが、各モデルには独自の特性があり、用途に応じた使い分けが重要である。

GPT 5.4 is so cracked

OpenAI GPT-5.4 review. Best AI model. GPT 5.4 vs Opus 4.6 vs Gemini 3.1. #ai #aitools #ainews #llm #agiThanks to our spo...

GPT-5.4の圧倒的な能力
地球の3Dデジタルツインを構築
クラシック音楽の作曲
画像から3Dアニメーションシーンへ
ChatGPTネイティブでの使用例
レイトレーシングの例
HubSpotのClaude Co-workスタック
マルチモーダル機能:医療画像解析
文書処理能力
ゲーム開発
深い研究能力
幻覚テスト
GPT-5.4の利用方法
仕様とベンチマーク
独立評価機関のベンチマーク
まとめ

GPT-5.4の圧倒的な能力

OpenAIが最新モデルGPT-5.4を公開しました。これは本当に驚異的な性能を持っています。このビデオでは、このモデルができる驚くべきことを全てお見せしますし、スペックやパフォーマンス、他の最先端モデルとのベンチマーク比較についても詳しく解説していきます。早速始めましょう。このビデオのスポンサーはHubSpotです。

まずはデモからお見せします。注意していただきたいのは、全てのトップモデルは既にメール作成やSNS投稿、簡単な質問への回答といった基本的なことはできるということです。ですからここでは、トップモデルのほとんどが正解できないような非常に難しいテストをお見せします。

GPT-5.4はChatGPTで利用できますが、最初にお見せするのはOpenAIのCodexでの例です。これは基本的に、プロジェクト全体を一度に扱えるコーディングエージェントのようなものです。仕組みとしては、コンピューター上に新しいフォルダを作成し、そのフォルダ内で複数のファイルを作成・編集できるんです。

特に複数のファイルが必要な非常に複雑なプロジェクトを構築する場合、単一のファイルをChatGPTでバイブコーディングするよりも、こちらの方が優れています。

地球の3Dデジタルツインを構築

では最初のプロンプトです。「宇宙空間から個々の都市の通りまで、ユーザーがシームレスにズームできる完全にインタラクティブな地球の3Dデジタルツインを構築してください。リアルな地球を表示してください。必要に応じて公開されているアセット、モデル、レイヤーを使用してください。通常のウェブブラウザで効率的に読み込めるようにしてください」

そして推論努力をエクストラハイに設定します。これが最もパフォーマンスの高いオプションです。実行してみましょう。

さて、結果はこうなりました。最初の反復はまあまあでしたが、もっとレイヤーを追加したかったので、さらにプロンプトを入れました。「軌道ビューで、動的な雲と大気シミュレーションのトグルを追加してください」

それがかなりひどい見た目だったので、「公開されているリアルな雲または大気レイヤーを使用してください。現在、あまりにも偽物っぽく見えます。また、軌道ビューに昼と夜のトグルを追加してください。夜には、主要な人口密集地域の都市の明かりが見えるようにしてください」と書きました。

その後も表示の問題が少しあったので、「特に夜モードでは、全てを暗くしている半透明の黒いレイヤーがあるようです。これを削除してください」と書きました。その後はほぼ完成です。とてもシンプルでした。

こちらが全てのファイルが入った完全なフォルダです。HTMLファイルを開いてみましょう。これが結果です。すごくないですか。まず雲と大気をオフにしてみます。そして回転のトグルもオフにします。全てをオフにするとこんな感じです。

では夜景モードをオンにしてみましょう。うわあ、これは本当にクールです。実際、このマップを夜間に変換して、主要な人口密集地域からの光が表示されているんです。

さて、ここからが本当にクールなところです。これを昼間モードに戻してみます。そして直接ニューヨークにズームインできるんです。ニューヨークをクリックしてみます。そうするとニューヨークまで大きくズームインして、このようにニューヨークの3Dマップがレンダリングされます。これってどれだけ凄いことか分かりますか。こうやってドラッグして動かせますし、回転もできます。本当にクールです。

では再び軌道ビューを押して、惑星ビューに戻ってみます。次は東京に移動しましょう。こうして東京まで大きくズームインしていきます。超クールです。そして実際、東京の3Dマップがここにあります。

ということで、たった3、4個のプロンプトで、異なるレイヤーを持つ完全にインタラクティブな地球を構築できました。さらに、これは個々の都市にズームインして3Dでレンダリングすることもできます。これは信じられないほど強力なモデルです。他のトップモデルでは、わずか数プロンプトでこれをコーディングすることはできませんでした。

クラシック音楽の作曲

次に、新しいプロジェクトを始めて、本当にクールなクラシック音楽を作曲できるか見てみましょう。まず、音楽を作曲するためのインターフェースを実際に作らせる必要があります。

そこで「タイムライン上にノートをドラッグ&ドロップできるピアノロールインターフェースを作成してください。再生、一時停止、その他の設定を追加してください」などと書きました。再びこれをエクストラハイに設定して、生成を押します。

さて、これが結果です。私のためにこのインターフェースの標準的なHTMLを作成してくれました。次に、そして最も重要な部分ですが、「複雑さに富み、マスターピアニストの最終演奏を捉えた、力強く表現力豊かな32小節のピアノ作品を表示してください。素晴らしいサウンドにしてください」と指示しました。

これが結果です。そしてそれだけです。たった2つのプロンプトです。音楽フォルダとこのHTMLファイルを開いてみましょう。そして再生してみます。

(音楽が流れる)

なんてことでしょう、これは実際に美しかったです。

私はGemini 3.1やGLM5といった他のトップモデルでもこのプロンプトをテストしましたが、GPT-5.4によるこの作品は、これまで聴いた中で断然最も美しく一貫性のある曲です。非常に多くの音楽的複雑さが込められています。単純な和音だけではありません。全てが実に深いんです。

とにかく、超印象的な作曲です。

画像から3Dアニメーションシーンへ

さて、これは私が全てのトップモデルでテストする別のプロンプトです。画像を3Dアニメーションシーンに変換するのがどれくらい得意かというものです。

この画像をアップロードして、「この画像から美しい3Dアニメーションシーンを作成してください。できるだけ詳細で正確に見えるようにしてください」と依頼します。そして再び全てをエクストラハイに設定します。

その後、このシーンの生成を進めますが、エラーが出ました。だからそのエラーをそのまま貼り付けました。そして木が少し空っぽに見えたので、シーンのスクリーンショットを撮って、花をもっと豊かにするよう依頼しました。

その後さらにプロンプトを入れました。まだ十分ではありませんでした。さらに花びらが濃すぎます。淡いピンクであるべきです。その後、全てを修正してくれました。

これが結果です。繰り返しますが、これは私がこれまで最先端モデルから見た中で、断然最も正確なこの写真の3Dレンダリングです。木も五重塔も非常に詳細です。手すりのディテールや五重塔の壁まで追加することができました。さらに五重塔の上部もかなり正確に見えます。

繰り返しますが、これはわずか数プロンプトからです。ここでのディテールは、Gemini 3.1 Proを含む他のトップモデルで生成されたものよりも遥かに優れています。超印象的です。

ChatGPTネイティブでの使用例

さて、これまではGPTを搭載したコーディングエージェントであるCodexを使った例でしたが、次はネイティブのChatGPTを使ったクールな例もお見せします。

有料プランに加入していれば、既にGPT-5.4にアクセスできるはずです。そしてここで思考をスタンダードまたはエクステンデッドに設定できます。エクステンデッドはより長く考えさせるもので、複雑な質問により適しています。

レイトレーシングの例

ではレイトレーシングの例を試してみましょう。さらに難しくしてみます。球体が1つ、立方体が1つ、ピラミッドが1つです。全てメタリックで反射性です。鏡の床がある部屋に配置されています。位置、反射率、粗さ、その他球体の材質特性などの調整可能なパラメータを追加してください。全てをスタンドアロンのHTMLファイルに入れてください。通常のウェブブラウザで効率的に読み込めるようにしてください。

これをChatGPT内のサイドウィンドウで直接プレビューするために、ここをクリックしてこのキャンバスモードを有効にする必要があります。実行してみましょう。

これが提供されたコードです。最初は球体の特性を変更できるようにして、全てが機能することを確認するようプロンプトを入れました。その後、他の形状の特性と位置も変更できるようにプロンプトを入れました。

それだけです。たった2つのプロンプトで、これが結果です。これらの3つの形状がある私たちの部屋です。実際、これをダウンロードしてフルスクリーンで見られるようにしましょう。

こんな感じです。ズームインすると、球体が立方体に反射され、それがまた球体に反射されているのが分かります。つまりこれは無限に再帰的な反射で、実際に正しいんです。

こちらを見ると、ピラミッドが球体の反射を示していて、その反射の中にピラミッドがあることが分かります。そしてここにもピラミッドが反射されています。全てが物理的に正しいんです。

少しズームアウトしてみます。では最初に球体の位置を変えてみましょう。うまくいきます。そして位置を変えると、他のオブジェクトにある球体の反射も変わることに注目してください。素晴らしいです。

これが球体です。そして球体の半径、基本的にはサイズも変更できます。素晴らしい。次に、これの色合いも変えてみましょう。青にしてみます。うまくいきますが、かなり醜いですね。だから白に戻しましょう。

では反射率で遊んでみます。反射率を下げてみます。この設定もうまくいきます。素晴らしい。では粗さを試してみましょう。これを1まで全部ドラッグします。これもうまくいきます。メタル性も0まで下げてみましょう。これによりこのように不透明に見えるはずです。これもうまくいきます。

設定をリセットしましょう。そして最後に発光について。これが何をするか見てみましょう。基本的にこのように光らせます。とてもクールです。これをクロームやゴールド、ブラッシュドのようにも設定できます。これをクロームに設定しましょう。

球体はうまくいきました。次は立方体で遊んでみましょう。立方体の位置も調整してみます。とてもクールです。全ての位置設定がうまくいきます。そしてサイズでも少し遊べます。これもうまくいきます。回転もできます。

立方体を回転させてみます。これもうまくいきます。そしてこれらの設定も変更できます。全ての設定がうまくいきます。次にこれをゴールドに設定してみましょう。

そして最後に、ピラミッドもうまくいくか確認しましょう。そう、位置がうまくいきます。そしてこのベースサイズ調整機能まであります。だからピラミッドのベースのサイズを調整できます。

とてもクールです。そしてこれを調整すると、他の形状での反射も一緒に変わることに注目してください。そして高さも調整できます。素晴らしい。回転もできます。次に、これの色合いも、ここにある他の設定も変更できます。

そしてパフォーマンスを最適化したり、全ての表示をリセットするボタンもあります。とてもクールです。

たった1つのプロンプトで、このシーンをレンダリングできました。これは非常にトリッキーです。これらの形状が互いにどのように反射するかを理解しなければならず、さらに色付きの側壁も考慮しなければなりません。つまり、これは物理的に非常にトリッキーなシーンなのですが、GPT-5.4は2つのプロンプトでこれを正しく実行しました。

HubSpotのClaude Co-workスタック

Claudeについて聞いたことがあるかもしれませんが、新しいコワーク機能はAIができることのベースラインを変えます。単に提案を与えるだけではありません。バックグラウンドで積極的に作業し、ファイルにアクセスし、実際の成果物を作成します。しかし、ツールが強力だと知ることと、実際にそれを実行させることは別物です。

だからこそ、私が提携しているHubSpotが、Claude Co-workスタックを作成しました。1週間分の作業を置き換える12の高度なプロンプトです。1週間分の手作業を置き換えるように設計された12の高度な、すぐに使えるプロンプトを含む無料リソースです。

例えば、コンテンツパフォーマンスアナライザーを使って、数ヶ月分の生の分析データを投入すると、Claudeはそれをパターン認識と戦略的推奨事項を含むプレゼンテーションデッキに変換します。

あるいは、カレンダーからのミーティング準備プロンプトを使うこともできます。これはスケジュールに接続し、会議室に入る前に全てのミーティングの完全なブリーフィング文書を作成します。

あるいは、乱雑な議事録を戦略文書に変えるもの、一度に大量のSOPフォルダを生成するもの、競合比較マトリックスを構築するものもあります。

手作業での調査をやめて、実際に作業を自動化したいなら、このスタックはまさに必要な出発点です。下の説明にあるリンクから無料で入手できます。このビデオをスポンサーしてくれたHubSpotに感謝します。

マルチモーダル機能:医療画像解析

さて、これはマルチモーダルなので、画像や異なる種類の文書も分析できます。医療スキャンから癌を識別できるか見てみましょう。

この医療画像をアップロードします。そして各画像には、いくつかの腫瘍や病変があるかもしれません。実際、この写真が何であるかさえ伝えません。「この写真は何についてですか。そして写真に病変がある場合は、それらを丸で囲んでください」と尋ねます。

再びエクステンデッド思考をオンにして、実行を押します。

2分5秒考えました。その思考プロセスを展開して、何を見つけたか見てみましょう。病変を識別して注釈を付けています。この画像は胸部CTの軸位スライスのモンタージュを示していて、これは正しいです。

スライスにいくつかの病変の可能性を見つけています。そして今、このPythonツールを使って実際にこの画像に丸を付けています。

それが思考プロセスです。そして最後に、ダウンロードするこの画像を提供してくれます。これが提供されたものです。正解も引き出して比較できるようにしましょう。

左がChatGPTが提供したもので、右が正解です。ChatGPTは近かったですが、全ての病変を丸で囲むことはできませんでした。例えばこの上のスライドでは、ここに病変があるはずです。2番目のスライドでは正解でした。3番目のスライドではこれだけを識別できましたが、これはできませんでした。そして4番目のスライドでは、正解でしたが、円が適切に整列していませんでした。

だから全てを識別することはできませんでした。しかし覚えておいてください、これは本当に難しいテストです。

文書処理能力

GPT-5.4の素晴らしい点は、マルチモーダルだということです。つまり異なる種類の文書を理解できます。さらに、PDF、ドキュメント、スプレッドシート、スライドなど、異なる種類の文書を出力することもできます。

例えば、Google、Nvidia、Amazonからのこれら3つの決算報告書をアップロードして、ここに入力し、「あなたはウォール街のシニアアナリストです。これらの決算報告書から、財務、チャート、成長予測、推奨事項を含む統合PDF報告書を作成してください」と書くことができます。

17分間考えましたが、その後、この統合PDF報告書を提供してくれました。そしてこれがその見た目です。実際、これは元の文書からの全てのメトリクスを概説した、かなり包括的で詳細な報告書です。

収益性とキャッシュ生成があります。そして企業固有のページがあります。これがAmazonで、そしてこれがAlphabetで、こちらがNvidiaです。

そして最後にランキングと最終推奨事項を提供してくれます。これのフォーマットが少し醜いことに注意してください。例えば、黒地にグレーがあり、これはひどいです。GPT-5.4は他の最先端モデルと比較して、デザインやフロントエンドがあまり得意ではないことが分かりました。

PDFを提供してもらうだけでなく、元の文書をプロフェッショナルなインタラクティブプレゼンテーションに変換してもらいました。これが提供されたものです。開いてみましょう。全ての企業のロゴまで提供してくれました。

繰り返しますが、デザインは非常に悪いです。例えば、このAmazonのロゴをこの暗い背景に配置していて、あまり見栄えがよくありません。文字がほとんど見えません。でもとにかく、これがスライド1、スライド2、スライド3などです。

デザインは素晴らしくありません。もっと洗練された見た目にするために、さらにプロンプトを入れることは確実にできます。でもたった1つのプロンプトから、既にこれら全てのスライドを提供してくれています。

実際、これはOpenAIからの公式デモで、5.4と5.2を使った同じプロンプトです。ここではスプレッドシートを作成してもらいました。そしてご覧の通り、5.4の方が遥かに詳細です。

これは文書を作成してもらえる別の例です。繰り返しますが、全てのフォーマットが以前のGPTよりも遥かに優れています。そしてこれはプレゼンテーションの例です。

ゲーム開発

次に、ChatGPTだけでかなり複雑なビデオゲームをコーディングできるか見てみましょう。私のプロンプトでは、「エイリアンと戦う未来的なメカ戦士の2Dプラットフォーマーゲームを作ってください。素晴らしく見えるようにしてください。全てをスタンドアロンのHTMLファイルに入れてください。コイン収集、ライフ、レベルアップの方法、複数のレベルを含めてください」と依頼しました。

そして繰り返しますが、何かをコーディングしているので、サイドウィンドウでプレビューできるように、このキャンバス機能をオンにする必要があります。実行してみましょう。

たった1つのプロンプトで全てをコーディングしてくれました。さらにプロンプトを入れる必要さえありませんでした。プレビューを押してみます。こんな感じです。実際、これをダウンロードしてフルスクリーンで見てみます。

そしてこれをプレイし始めましょう。この男を撃ってみます。うまくいきます。そしてジャンプしてコインを集めることもできます。素晴らしい。十分なコインを集めると、ここでレベルアップの方法を選択できます。

では1番、プラズマコアを選択して、ゲームを続けましょう。そしてここに別の敵がいます。それは何をするのか。ああ、くそ、撃たれてしまった。この男を倒す方法を考えないと。

彼を倒した後、次はこのナノプレーティングを選択してHPを回復させて、ゲームを続けましょう。

少し早送りします。そして全ての敵を倒した後、今度はこのポータルに入ることができ、次のレベルに連れて行ってくれます。本当にクールです。

たった2つのプロンプトで、異なる種類の敵、XP、HP、異なるアップグレード方法を持つこのゲームを作成してくれました。GPT-5.4は非常に少ないエラーで物事を成し遂げます。

GPTの本当にクールなところは、特にCodexや他のエージェンティックコーディングフレームワークで使用する場合、GPT Image 1.5のようなツールとリンクすることもできるということです。これは彼らの最高の画像生成器です。

例えば、ここではユーザーが画像生成器を自律的に使用して、これら全ての異なるアセットの画像を作成し、それからこのパークビルダーシミュレーションを作成してもらいました。これは多数の異なる建物、異なるゲストの反応、注意すべき異なるメトリクスを持つかなり複雑なプロジェクトです。だからGPT-5.4がこれをコーディングできたことは本当に印象的です。

深い研究能力

もちろん、最先端のモデルは深い研究を行うことにも非常に優れています。これは本当に深い医学的質問の例です。「アテローム性動脈硬化症の病態生理学を分析してください。脂質低下戦略と抗炎症戦略を比較してください。プラーク安定化と心血管イベント減少への効果を評価してください。関連する表と視覚化を含めてください」

これが得られたものです。Pythonツールを使って、本当に素晴らしいチャートをプロットしてくれました。そしてここで、これが何であるかについての紹介と病態生理学マップを提供してくれます。これは正しい引用を含む非常に包括的な表です。

その後、脂質低下戦略対抗炎症戦略について話します。そしてここでも非常に徹底的な比較表を提供してくれます。これは非常に徹底的で、関連する引用を含んでいます。

その後、これを提供し、そして実用的な解釈、そして結論を提供してくれます。そしてこれを洗練されたPDFやスライドデッキなど他のものに変換したいかどうかも積極的に尋ねてくれます。

幻覚テスト

次に、幻覚する可能性がどれくらいあるかテストしてみましょう。私のプロンプトには、「洗車を使う必要があります。最寄りのものは私の家から50メートルです。歩いて行くべきですか、それとも運転すべきですか」と書きます。

そしてエクステンデッド思考をオンにします。6秒しか考えませんでしたが、「車をそこまで運転してください」と書きました。「たった50メートルなので少し馬鹿げているように感じるかもしれませんが、洗車は通常車が必要です」これは正しいです。

以前のバージョンのGPTはこれを正しく答えることさえできなかったことに注意してください。

これは別の幻覚テストです。再びエクステンデッド思考をオンにして、「猫の羽は何色ですか。白ですか、それとも灰色ですか」と尋ねます。

ここでは数秒しか考えませんでしたが、猫には羽がないと正しく答えました。猫には毛皮があります。そして「それは正しくないと思います。本当ですか」と言って騙そうとしました。

するとその立場を守って、「はい、確かです。本物の猫には羽ではなく毛皮があります」と言いました。

GPT-5.4の利用方法

さて、これでGPT-5.4の簡単なテストはまとめられました。1日ほどテストした後、これは確かに今使える最もパフォーマンスが高く知的なモデルの1つだと言わざるを得ません。

次に、これをどこで、どのように使用するか見ていきましょう。ここでは、5.4は今日からChatGPTのPlus、Team、Proユーザーに利用可能だと言っています。そう、残念ながら今のところ5.4にアクセスするには有料プランが必要です。これは無料プランでは利用できません。

しかし有料プランがあれば、このモデルのドロップダウンでここの5.4を選択できます。素晴らしいことに、開発者向けには5.4は既にAPI経由で利用可能です。さらに、このビデオで先ほどお見せしたように、Codexでも既に利用可能です。

仕様とベンチマーク

次に、これのいくつかの仕様を見ていきましょう。これの最高の機能の1つは、GPT-5.4、少なくともCodexで使用する場合、100万トークンのコンテキストウィンドウをサポートしていることです。これは一度にプロンプトに収めることができる情報量です。そして100万は業界最大級の1つです。これは約70万語または30万行のコードに相当します。

AnthropicのClaudeやGLMのような他の競合他社にはこれほど高いコンテキストウィンドウがないことに注意してください。この100万トークンのコンテキストウィンドウはCodexでのみであることに注意することが重要です。ChatGPTでGPT-5.4を使用する場合、それは遥かに低く、最大40万トークンしかありません。

ここでは5.4をプロフェッショナルワークのための最も有能で効率的なフロンティアモデルと呼んでいます。このモデルは超柔軟です。ツール、ソフトウェア環境、スプレッドシート、プレゼンテーション、文書を含むプロフェッショナルタスク全体で動作できます。

実際、彼らが共有する最初のチャートの1つは、ナレッジワークタスクのGDP-Valベンチマークです。これは米国のGDPに貢献する上位9つの業界から44の職業にまたがるナレッジワークでAIをテストします。これには営業プレゼンテーションの作成、会計スプレッドシート、緊急医療スケジュール、製造図、短い動画などが含まれます。

そしてご覧の通り、GPT-5.4は以前の5.2を大幅に上回っています。そしてここでは基本的に、業界専門家の人間と比較した勝率を見ています。驚くべきことは、GPT-5.4が70%の確率で人間を打ち負かしていることです。

だから、AIがあなたの仕事を奪うことを心配している方にとっては、まあ、心配すべきです。つまり、このグラフはかなり警告的です、特にあなたの仕事がこれらのナレッジワークタスクを含む場合は。

ここでは、GPT-5.4がコンピューター使用能力でも信じられないほど優れていると言っています。言い換えれば、コンピューターを自律的に使用するということです。

ここでこのOSWorld Verifiedベンチマークでは、スクリーンショットとキーボードおよびマウスアクションを通じてデスクトップ環境をナビゲートするモデルの能力をテストします。GPT-5.4のパフォーマンスと精度がGPT-5.2よりも遥かに高いことが分かります。

さらに、使用するツールイールドも少なくなっています。つまり、より効率的で、トークンを無駄にしません。

デスクトップのこのライブストリームを提供すると、GPT-5.4はこれを分析してメール作成を手伝うことができる例があります。受信者と件名をどこに入力するかを分析して知ることができます。

あるいは、大量の請求書をリストするこの巨大なJSONファイルを提供するだけで、左側のこれらのフォームに全ての情報を自律的に入力できる別の例があります。

MMU Proについては、これはAIモデルの視覚的理解と推論能力をテストしますが、GPT-5.4は以前の5.2と比較してごくわずかな改善しか示しませんでした。だからたった2%未満です。

コーディングについては、OpenAIはAnthropicが使用する主要なベンチマークであるSWE-Bench VerifiedではなくSWE-Bench Proを使用することを選択しました。だから各AI研究所が自分たちのモデルが最高のパフォーマンスを発揮するベンチマークを選んでいることは確かです。

とにかく、これがSWE-Bench Proで、ご覧の通り、GPT-5.4は以前のモデルよりも優れているだけでなく、より速くもあります。

これはTao Square Bench Telecomと呼ばれる別の興味深いベンチマークです。そしてこれは基本的に、カスタマーサービスタスクを処理するAIの能力をテストします。エージェントが受信した問題を解決しなければならない現実世界のテクニカルサポートシナリオをシミュレートします。そしてご覧の通り、GPT-5.4は以前のバージョンよりも大幅に優れています。

そしてこれはBrowse Compと呼ばれる別のベンチマークで、AIがウェブを閲覧して情報を取得するのがどれだけ得意かをテストします。そして再び、5.4は以前のバージョンよりも優れています。

独立評価機関のベンチマーク

これらは彼らが自己報告したベンチマークのほんの一部です。だから独立した評価者も見てみましょう。Artificial Analysisによるこのリーダーボードを見ると、GPT-5.4は実際にGemini 3.1 Proと1位タイです。

しかし速度の観点からは、Gemini 3.1よりも少し遅く、それは私も感じた雰囲気です。時々、考えすぎているだけのように感じます。プロンプトがそれほど難しくないにもかかわらず、考えるのに時間がかかりすぎます。

そして価格の観点からは、Gemini 3.1 Proよりも高いですが、それでもほぼ2倍のコストであるOpus 4.6よりも遥かに安いです。

このサイトからの他の注目すべきメトリクスのいくつかは、このCrit-PTベンチマークです。これは本当に複雑な研究レベルの物理問題を解くAIの能力をテストします。そしてご覧の通り、GPT-5.4 Extra Highは現在1位です。

物理学に加えて、GPT-5.4は数学でも信じられないほど優れています。これはFrontier Mathベンチマークで、本当に難しい数学問題を解くAIモデルの能力をテストします。そしてご覧の通り、GPT-5.4 Proは現在1位にランクされています。質問の37.5%を正解し、Claude OpusやGeminiよりも遥かに優れています。

だから数学や物理問題を解くのが得意なAIモデルが必要なら、現在5.4が使用するのに最適なものです。

しかしそうは言っても、GPT-5.4 Extra Highは信じられないほど高い幻覚率も持っています。GPT-5.4 Extra Highがここにあることが分かります。スコアが高いほど、でっち上げる頻度が高いことに注意してください。

これは89%の時間幻覚するという意味ではありません。これはこのベンチマークからの質問の89%を間違えたという意味です。しかしご覧の通り、5.3や5.2、さらにはOpus 4.6のような以前のバージョンよりも遥かに高いです。

だからAIモデルで作業していて、その応答が事実的に正しいことを確保する必要がある場合、5.4は使用するのに最適な選択肢ではありません。GLM5のようなものを使用するのが最良です。

それがArtificial Analysisからの1つの独立したベンチマークです。しかしLM Arenaからのもうひとつのリーダーボードを見ると、驚くべきことに、GPT-5.4 Highは7位にランクされているだけで、5.2やGemini 3よりも下です。

これはAbacus AIによるLiveBenchと呼ばれる別の独立したリーダーボードです。そしてここでは、Extra High思考を持つGPT-5.4が実際に1位にランクされていることが分かります。推論、エージェンティックコーディング、数学、データ分析の観点から特に印象的です。

公式のSWE-Benchリーダーボードも見てみようとしましたが、まだGPT-5.4がここに追加されていないようです。

GPT-5.4 Pro Extra HighはこのArc AGI 2ベンチマークでも信じられないほど良い結果を出していますが、それでも緑色の三角形であるGeminiに負けています。

ご参考までに、このArc AGIベンチマークは非常に重要です。表面的には、これはこれらの視覚パズルを解くのがAIモデルがどれだけ得意かをテストします。最初に質問と回答のペアが与えられ、次に別の質問が与えられ、同じパターンを適用する必要があります。

例えば、ここではこれらの灰色の塊を、それが持っている穴の数に応じて色付けする必要があります。人間にとっては、これを推測して解決するのはかなり簡単です。しかしAIにとっては、実際には非常に難しいです。一部のフロンティアモデルでさえ、このベンチマークで本当に悪いスコアを出していることが分かります。

それは、AIモデルが実際にはトレーニング後に新しいことを学べないからです。そのモデルの重みとパラメータは固定されています。だからここでは、AIモデルがこの新しいパターンのような新しい情報を取り込み、その応答でそれを適用できるかどうかをテストしています。

技術的には学習できないにもかかわらず、AIモデルが新しいことを学ぶのがどれだけ得意かをテストしているんです。そしてここでは、GPT-5.4がかなり良い結果を出していますが、それでもGeminiにわずかに負けていることが分かります。

次に、このVibe Code Benchもあります。これはもちろん、AIモデルがバイブコーディングでどれだけ得意かをテストします。そしてGPT-5.4は現在1位にランクされており、Opus 4.6やGemini 3.1 Proよりも上です。

そして私のデモのいくつかからお見せしたように、私もバイブコーディングで本当に優れていると感じます。

まとめ

とにかく、これでGPT-5.4のレビューをまとめます。これは確かに今使える最もパフォーマンスが高く知的なモデルの1つですが、正直なところ、Gemini 3.1やOpus 4.6のような他のトップモデルにかなり近いです。

各モデルには独自の雰囲気があります。だから本当に、どれを個人的に好むかによります。コメントでこれについてどう思うか教えてください。そして5.4で遊ぶ機会があった方は、他にどんなクールで印象的なことをさせることができましたか。

いつものように、私はトップAIニュースとツールを探し続けて、皆さんと共有します。だからこのビデオを楽しんでいただけたなら、いいね、シェア、チャンネル登録を忘れずに、より多くのコンテンツをお楽しみに。

また、AI界では毎週非常に多くのことが起こっており、私のYouTubeチャンネルで全てをカバーすることはできません。だからAIで起こっている全てのことを本当に最新の状態に保つために、私の無料の週刊ニュースレターに必ず登録してください。そのリンクは下の説明にあります。

視聴ありがとうございました。次回お会いしましょう。