GPT 5.4はOpus 4.6キラーとなるか

GPT-5
この記事は約10分で読めます。

OpenAIが新たにリリースしたGPT 5.4は、100万トークンのコンテキストウィンドウを持ち、コンピュータ使用やビジョンタスクにおいて業界最高水準のベンチマークを記録したモデルである。特筆すべきは、思考プロセスを途中で中断して新しい方向に誘導できる業界初の機能を搭載している点だ。これまでAnthropicのOpus 4.6がコーディングモデルとして開発者コミュニティで最高評価を得ていたが、GPT 5.4はGAIAやSWEBench Proなど主要ベンチマークでOpusを上回る成績を示している。米国防総省との契約をめぐるOpenAIへの批判が高まる中でのリリースとなったが、技術面では大きな進歩を遂げたモデルと言える。

Is GPT 5.4 the Opus 4.6 Killer?
GPT‑5.4 in ChatGPT (as GPT‑5.4 Thinking), the API, and Codex. It’s our most capable and efficient frontier model for pro...

GPT 5.4の登場と背景

OpenAIがGPT 5.4を発表しました。これは最も期待されていたGPTモデルの次期バージョンです。このモデルのリリースは、OpenAIに対する大きな反発を背景としています。OpenAIが米国国防省と契約を結んだのに対し、Anthropicは契約書の文言に問題があるとして同じ契約への署名を拒否したことが発端でした。

こうした状況の中、OpenAIはベンチマークによれば世界最高のモデルをリリースしたことになります。この新しいGPT 5.4には、いくつかの非常に優れた機能が搭載されています。

まず、このモデルには100万トークンのコンテキストウィンドウが備わっています。なぜコンテキストウィンドウやコンテキストサイズが重要なのか疑問に思うかもしれませんね。これらの大規模言語モデルには短期記憶があり、それがコンテキストウィンドウと呼ばれるものなんです。

これは非常に重要な要素です。なぜなら、モデルがどのような会話をしているのか理解できる範囲は、コンテキストウィンドウのサイズに大きく依存するからです。例えば大量のファイルのリポジトリがあるとしましょう。オープンソースプロジェクトや職場で取り組んでいるプロジェクトがある場合、そのファイル全体のサイズがLLMのメモリコンテキストウィンドウに収まるかどうかが重要になります。

100万トークンのコンテキストウィンドウということは、モデルがより良く物事を理解できるということです。コードベース全体についてより良い可視性を持ち、様々なことができるようになります。

マルチモーダル機能とコンピュータ使用

2つ目の特徴として、このモデルはおそらくOpenAIのモデルの中でマルチモーダルやビジョンタスクにおいて最高のものでしょう。このモデルは文字通り、あなたが見ている画面のスクリーンショットを撮り、それに基づいてアクションを実行できます。

単にスクリーンショットを撮るだけで、コンピュータ使用に関しては約90%の精度を持っています。このモデルはこれら2つの点で優れていると思います。

しかし、多くの思考型モデルが抱える最大の問題は、モデルが大量のトークンを使用する傾向があり、思考プロセスに多くの時間的遅延が発生することです。

モデルはこの螺旋状の思考プロセスに入ってしまいます。「ユーザーはこれを尋ねていると思う。いや、でもユーザーはこれを尋ねている」といった具合です。モデルには内部的な思考の連鎖があり、それが内部的な葛藤に変わってしまうんです。

思考プロセスの制御機能

今、OpenAIはその操舵性の問題を解決しようとしています。このモデルの思考プロセスを中断し、モデルが良い仕事をしていないと感じた場合に、モデルを別の方向に誘導できるようにするというものです。

これはおそらく業界初だと思います。思考プロセスを停止して、最初からやり直すのではなく誘導できるようにしたのは誰もいなかったと思います。

また、モデルはより少ないトークンを使用します。つまり、モデルはより高速になるということです。モデルはより大きなコンテキストウィンドウを持っています。モデルは思考中に中断できます。モデルはおそらくより短い時間思考するでしょう。

全体的に見て、これは素晴らしいモデルリリースだと思います。ベンチマークを見て、このモデルがどれだけ優れているか理解しましょう。

ベンチマーク比較

このモデルを現時点での業界標準と比較してみます。AnthropicとGoogleがあります。Anthropicは少なくとも開発者コミュニティの観点から、おそらく最高のコーディングモデルを持っています。

誰に聞いても、Opus 4.6はおそらく間違いなく最高のコーディングモデルだと言うでしょう。このモデルは素晴らしいです。モデルはコードを台無しにすることなく、ほとんどの場合、ほとんどのことを正しく処理します。

Google Gemini 3.1 ProとAnthropic 4.0のOpus 4.6を、OpenAIのGPT 5.4 ThinkingとGPT 5.4 Proと比較してみましょう。2つの異なるモードがあります。Proはしばらく無視して、Thinkingのみに焦点を当てます。これが大多数の開発者が使用することになると思います。

OS World Verifiedでは、これはコンピュータ使用のベンチマークです。モデルにコンピュータを使用することが期待されます。このモデルは75%のスコアを記録し、Opus 4.6は72.7%でした。

Web Arenaでも、ウェブブラウジングのベンチマークです。単にコンピュータを使用するだけでなく、インターネットのようなウェブサイトを使用するようモデルに求めます。このモデルは67.3%を記録しました。

Opus 4.6については、OpenAIはベンチマークがなかったと主張しており、私もOpus 4.6のローンチを確認しましたが見つかりませんでした。Sonnet 4.6は66%でした。Opus 4.6はこれよりもはるかに高いスコアを出していたと思いますが、今のところこれがGPTとしては最高のモデルです。

GAIAベンチマークと実世界タスク

正直なところ、このベンチマークはまだよく理解していません。これは実世界のタスクの集まりのようなもので、典型的な知識労働者を想定して様々なことをやってもらい、同じタスクセットをこのLLM大規模言語モデルに与えるものです。モデルは83%を記録しました。

これはClaude Anthropicが達成したものより5パーセントポイント高いです。歴史的に、少なくともGAIAではAnthropicのモデルが常により良い成績を出していました。ですから、おそらくこれが初めてOpenAIのモデルがより良い成績を出したと言えると思います。

以前のスコアは70や71だったことがわかります。そして、ベンチマーク最適化は行われていないと考えています。

さらにエージェント型ブラウジングのベンチマークがあります。Browse Compと呼ばれるもので、この場合OpenAI、GPT 5.4は82.7%を記録し、Opus 4.6は84%でした。これを見ても、Opus 4.6がいかに優れたモデルであるかが理解できます。

コーディングベンチマークSWEBench Pro

SWEBench Proについてです。SWEBenchは一連のGitHub issueで、LLMに解決を求めるものです。しかし、いくつかの問題がありました。GitHub issueの問題ではなく、ベンチマーク自体の問題です。そこで人々は短縮版を作成し、SWEBench Verifiedを作りました。

SWEBench Verifiedが飽和し始めたので、そのバリエーションとしてSWEBench Proが作られました。SWEBench ProでGPT 5.4 Thinkingは57.7%を記録しました。

他のベンチマークはありません。例えばGemini 3.1 Proは54.2%でした。GPQAについては言及しません。このベンチマークの存在を忘れていますし、他の数学のベンチマークでもモデルがより良いスコアを出していることがわかります。

もう1つ非常に興味深いユースケースはToolthonです。これはエージェント型のツール使用ケースで、ここでモデルは54.6%を記録しました。またOpusのデータはなく、Sonnet 4.6は44%でした。

これらすべてのベンチマークを見て際立っているのは、OpenAIがこのモデルをすべてのベンチマークで最高のモデルにしたということです。

GPT 5.4 Proを忘れて、それを考慮しなくても、製品を開発している場合やCursorやCodexと一緒に使用する場合に、あなたや私が最終的に使用することになるであろうGPT 5.4 Thinkingだけでも、このモデルはOpenAIが強調しようとしているすべてのベンチマークで最高のモデルです。

実用的な改善点

これにはいくつかの微妙な点があり、このビデオで強調したいと思った非常に魅力的なものがあります。GPT 5.2とGPT 5.4の単純な比較を見てみましょう。

これがGPT 5.2が作成したスプレッドシートです。一方、GPT 5.4はこのスプレッドシートを作成しました。これははるかに複雑で、フォーマットが整っており、よりプロフェッショナルです。

Wordドキュメントについても同様ですが、そこでは大きな違いは見られません。しかし、プレゼンテーションを見ると、再びPPTがはるかに成熟しており、よりプロフェッショナルで、より詳細です。豊富なコンテンツを持っています。GPT 5.2も良かったですが、GPT 5.4がやったことには全く及びません。

実世界のユースケース、特にGAIAのようなタスクでは、思考モードが有効になっている新しいモデルGPT 5.4が、はるかに優れた仕事をしていることがわかります。特にドキュメントの作成、Excelシートやスプレッドシートの作成、スプレッドシートの理解といったタスクに従事している場合は顕著です。

これは非常に興味深いデモで、モデルにカレンダーの招待状を作成してもらったり、エグゼクティブアシスタントのように振る舞ってもらいたい場合です。

ここでは、モデルが単に画面のスクリーンショットを撮るだけで、何が起こっているかを理解しようとし、ナビゲートのようなブラウザ呼び出しを行い、実際にカレンダーの招待状も作成します。これは大きな違い、コンピュータ使用の面での大きな改善だと思います。特にローカルデスクトップのコンピュータを制御したい場合やブラウザを制御したい場合、このモデルはおそらくベンチマークで主張されているように最高のモデルです。デモからもかなり良い仕事をしていることがわかります。

ゲームシミュレーションのデモ

これも非常に興味深いデモで、モデルがたった1つのプロンプトでこのゲーム全体やシミュレーションを作成したものです。プロンプトを見ていただくと、基本的にはこう書かれています。

「PlaywrightインタラクティブとImagenを使用して、ブラウザで構築してナビゲートできるインタラクティブなアイソメトリックテーマのシミュレーション、テーマパークシミュレーションゲームを作成してください」

プロンプトの残りの部分は画面に表示しますので読んでください。しかし、1つのプロンプトからこの種のゲームシミュレーションを作成するというのは、再び非常に興味深い側面です。

以前、Opusがこの種のことをエラーなしで最初から解決するモデルだったのを見たことがあります。しかし、OpenAIはついにコーディングアルゴリズムを解決したようです。

このモデルがプログラミングやその他すべてのタスクで良い仕事をしているのがわかります。先ほど言ったように、モデルはより少ないトークンを使用します。

思考中断機能の革新性

個人的にこのモデルで最も気に入っているのは、モデルが思考している間に中断できるという新しい機能です。私の最大の問題は、これらのモデルに長く考えさせると、モデル内で螺旋状の会話に入ってしまい、最初にずっと早く見つけ出した答えにたどり着くのに、その答えを私たちに返すまでに非常に長い時間がかかることでした。

今、このモデルでは初めて、間違っていたら訂正してください、初めてモデルが思考している間に新しいメッセージで中断でき、モデルはあなたが与えた新しい方向に誘導されます。

これは素晴らしい研究だと思います。みんなが期待している継続学習にはまだ全く及びませんが、モデルが現在の方向で考えるのを一時停止し、思考プロセス全体を再作成したりトークンを無駄にしたりすることなく、新しい方向に向けることができるという事実は重要です。

モデルはまた、はるかに少ないトークンを使用することになっています。全体として、このモデルリリースは素晴らしいリリースだと思います。

モデルへのアクセス方法

モデルにアクセスしたい場合、モデルは後でChatGPTに来る予定です。しかし今のところ、開発者でモデルにアクセスしたい場合は、プラットフォーム、OpenAIプラットフォーム、開発者プラットフォームに行けます。ここをクリックして検索すると、5.4 Proがすでに利用可能であることがわかります。

3月5日の5.4 Proが利用可能です。5.4の通常バージョンもここで利用可能です。ここに行って、必要なツールを追加すれば、モデルとチャットを始めることができ、かなり多くのことを完了できます。

モデルはCursorでもすでに利用可能です。Cursorを使用している場合は利用できます。モデルはCodexでもすでに利用可能です。モデルとのコーディングにOpenAI Codexを使用している場合、このモデルはすでにそこで利用可能です。

まとめと今後の展望

これは素晴らしいリリースだと思います。ChatGPTをアンインストールするというOpenAIに対する大きな反発があったため、人々がどれだけ受け入れるかはわかりません。このモデルが何らかの形で運命を変えるのか、それとも外部のこうした騒音にもかかわらず人々はOpenAIに固執するのかはわかりません。

しかし、純粋に技術的な観点から見ると、これは素晴らしいリリースだと思います。OpenAIがベンチマーク最適化を行っていないことを願いますが、フォローアップビデオでこのモデルを徹底的にテストするつもりです。ビデオでお会いしましょう。ハッピープロンプティング。

コメント

タイトルとURLをコピーしました