OpenAIがサブエージェントとCodexの発表翌日にリリースした新モデル、GPT-5.4 MiniとGPT-5.4 Nanoは、エージェント的なタスクに最適化された革新的なモデルである。特にGPT-5.4 Miniは上位モデルに迫る性能を維持しながら、レイテンシを半分以下に抑え、価格も約3分の1という圧倒的なコストパフォーマンスを実現している。SWE-benchで54.4%のスコアを記録し、コンピュータビジョンやコードレビュー、デバッグといったタスクにおいて実用的な性能を発揮する。Claude Opus 4.6やGemini 3.1 Proと比較しても極めて競争力の高い価格設定となっており、大量処理が必要なシナリオやサブエージェント運用において有力な選択肢となる。

GPT-5.4 MiniとNanoの登場
サブエージェントとCodexを発表したわずか1日後に、OpenAIは2つの新しいモデルをリリースしました。これらはGPT-5.4ファミリーの新メンバーで、GPT-5.4 MiniとGPT-5.4 Nanoです。
正直なところNanoの具体的なユースケースは私もよく理解できていないのですが、GPT-5.4 Miniはエージェント的なタスクやコンピュータビジョンのタスク、そして日常的なOpenClawやNicoClawといった使い方において非常に役立つモデルになるでしょう。
ベンチマークと性能
ベンチマークについて見ていきましょう。GPT-5.4 Miniには思考レベルが設定されており、GPT-5.4 Mini X-High、つまり極めて高い思考レベルに設定した場合、これは上位モデル、つまり母体となるバージョンというか父体というか、まあ兄貴分のバージョンと言えばいいでしょうか、GPT-5.4とほぼ同等の性能を発揮します。
SWE-bench Proで見てみると、GPT-5.4は57.7%のスコアを記録していますが、GPT-5.4 Miniは54.4%、そしてGPT-5.4 Nanoは52.5%というスコアです。Nanoモデルでさえ、SWE-bench ProのGitHubイシューの50%以上を解決できているんです。他のすべてのベンチマークを見ても、徐々に性能が下がっていく様子が分かりますが、GPT-5.4 Miniを見る限り、本当に有能なモデルだと言えます。
GPQA Diamondでは88%のスコアで、これは93%と比較してのことです。Terminal Bench 2.0では、GPT-5.4 X-Highが75%のスコアを記録している一方で、Miniは60%のみとなっています。
最適な用途
全体的に見て、これはエージェント的なタスクに適したモデルです。ビジョン能力を持つ優れたモデルですし、ソフトウェアレビューやデバッグといった、実際にソフトウェアコードを積極的に書く必要はないけれど、コーディング能力を使いたい場合のタスクに向いています。
レイテンシの優位性
レイテンシについてですが、このモデルを使いたいと思う主な理由の1つは、明らかにレイテンシの低さにあります。レイテンシを比較してみましょう。横軸が推定レイテンシ、縦軸が特定のベンチマークの精度を示しており、この場合はSWE-bench Pro Publicです。
GPT-5.4 Extreme High、つまりX-Highは右上の端に位置しています。これはモデルが非常に高精度であることを意味しますが、同時にモデルが極めて遅いということでもあります。レイテンシが高いということは、モデルが遅いということです。
一方、GPT-5.4 Miniはわずか430.7秒で54%のスコアを達成しています。上位モデルは57%のスコアですが、この3パーセントポイントの差のために、2倍以上の時間がかかるんです。いかにこのモデルが速いかが分かりますよね。
価格の競争力
このモデルは、GPT-5.4と比較した場合、極めて安価でもあります。上位モデルは高額です。もっとも、上位モデル自体も競合と比較すれば比較的安価なのですが、それでもGPT-5.4 Miniは、GPT-5.4よりもはるかに、はるかに安いんです。
他のモデルと価格比較をしてみましょう。GPT-5.4の上位モデルは、100万トークンあたり15ドルかかります。出力のみの話をしますね。一方、GPT-5.4 Miniはわずか4.5ドルです。これは約3分の1の価格です。そしてGPT-5.4 Nanoはさらに安く、さらに3倍、いや2.5倍くらい安くなっていて、1.25ドルとなっています。
Claude Opus 4.6は、おそらく現時点で世界で最も高額なモデルですが、同じ100万トークンの出力に対して25ドルかかります。Claude Sonnet 4.6は100万出力トークンあたり約15ドルです。Gemini 3.1 Proは100万出力トークンあたり約12ドルです。Claude Haiku 4.5は、Claudeファミリーの中で最も安価なモデル、Anthropicのモデルの中で最も安いものですが、それでも5ドルかかります。そしてGemini 3.1 Flashは、私が大ファンのモデルですが、約1.5ドル、つまり1.50ドルとなっています。
実用的な活用シーン
もちろん、あらゆる戦略にこのモデルを使うわけではありません。Claude Codeに関連したタスクにこのモデルを使うこともないでしょう。しかし、平凡で平均的なLLMを必要とするタスクについては、目をつぶってGPT-5.4 MiniかGPT-5.4 Nanoのどちらかを使えばいいと思います。
正直なところ、Nanoをタスクに使うことには非常に懐疑的ですが、GPT-5.4 Miniは大量処理が必要なタスク、低レイテンシが求められるタスク、そして1つや2つのミスがあっても気にしないようなタスクにおいて、極めて優れた候補となります。
サブエージェントとの親和性
動画の冒頭で述べたように、サブエージェントは昨日発表されたばかりの機能です。このモデルはサブエージェントにとって極めて優れた候補なんです。
Codex環境内でサブエージェントを展開する場合、タスクに応じてGPT-5.4 MiniまたはGPT-5.4 Nanoを使うことができます。たとえば、レビューやデバッグをしたい場合、このモデルを使えますし、ドキュメント作成についても、これらのモデルをそうしたタスクのサブエージェントオーナーにすることができます。
仕様とアクセス方法
このモデルには40万トークンのコンテキストウィンドウが備わっており、全体として100万入力トークンあたり0.75ドル、100万出力トークンあたり4.5ドルとなっています。これも上位モデルと比較すると非常に安価です。
このモデルにアクセスしたい場合、ChatGPTとChatGPT Proで利用できます。Proサブスクリプションまたは無料サブスクリプションを持っていて、思考機能を有効にすれば、このモデルがセッションに追加されます。もし開発者であれば、platform.openai.comでモデルにアクセスできます。
新しいプロンプトセクションに移動して、モデルとしてGPT-5.4 Miniを選択すれば、モデルとチャットできるようになります。このモデルには異なる思考努力レベルが用意されています。中程度の思考努力、つまり推論努力を選べます。思考なし、低思考、中思考、高思考、極めて高い思考といった選択肢があり、モデルはあなたがやりたいことに応じて動作します。
推奨される使用シーン
OpenAIは、このモデルの使い方や、どのようなシナリオでモデルを使うべきかについてのガイドも公開しています。ぜひチェックしてみてください。
簡単にまとめると、ビジョンタスク、バッチ処理タスク、低レイテンシが必要な場合、エージェント的なタスク、そして大量の処理がある場合には、GPT-5.4 Miniを使うことをおすすめします。
GPT-5.4 Nanoをいつ使うべきかについては、まだ私自身も理解しようとしているところです。しかし今のところ、これらはOpenAIからの素晴らしいリリースであり、極めて競争力のある価格設定がなされています。
この件についてどう思うか、コメント欄で教えてください。それではまた別の動画でお会いしましょう。良いブラウジングを。


コメント