GPT-5.4が登場——そしてあなたのコンピュータを制御できる!

GPT-5
この記事は約9分で読めます。

OpenAIが新たにリリースしたGPT-5.4は、ネイティブなコンピュータ制御機能を搭載した初のOpenAIモデルである。100万トークンのコンテキストウィンドウを持ち、OS Worldベンチマークで人間のパフォーマンスを上回る75%を記録した。ナレッジワークの指標であるGDP Wallでは83%を達成し、スプレッドシート、文書、プレゼンテーション作業で顕著な性能向上を見せている。前世代のGPT-5.2と比較して約20%の性能向上を実現しながら、トークン効率も大幅に改善されている。コーディング能力では特にUI設計において強化され、ツール検索機能の導入によりトークン使用量を47%削減することに成功した。推論中のモデルへの介入やリダイレクトが可能となり、より柔軟な操作性を提供する。価格面ではGPT-5.2よりやや高額だが、トークン効率の向上により実質的なコスト増加は抑えられている。

GPT-5.4 Is Here — And It Can Control Your Computer!
OpenAI skipped GPT-5.3 entirely and went straight to GPT-5.4 — their first model with native computer use, scoring 75% o...

GPT-5.4の主要機能と性能概要

OpenAIがGPT-5.4をリリースしました。このモデルについて知っておくべき全てをお伝えします。このモデルはネイティブなコンピュータ制御機能を備えており、OpenAIとしては初めてコンピュータを操作し、UIをクリックし、デスクトップをナビゲートできるモデルとなっています。OS Worldでは75%のスコアで人間のパフォーマンスを上回っています。

コンテキストウィンドウは100万トークンで、APIのCodecsでは実験的なサポートが提供されており、これは以前の27万2000トークンから大幅に増加しています。このモデルは高度に制御可能です。

GPT-5.4が作業中に思考を中断させ、最初からやり直すことなくリダイレクトできるようになりました。これは思考の連鎖の中で行われます。また、ツール検索も導入されています。つまり、すべてのツール定義を事前に読み込むのではなく、モデルが必要に応じてツールを検索するようになり、トークン使用量が47%削減されます。

おそらくこれが最も重要な部分でしょう。GDP Wallで83%のスコアを記録しています。これは現在ナレッジワークにとって最も重要なベンチマークの1つであり、かなり急速に飽和状態になってきています。スプレッドシート、文書、プレゼンテーションにおいて本当に優れた性能を発揮しています。

コーディング能力とトークン効率の向上

全体として、コーディング能力はUI設計に重点を置いて向上しています。前世代と比較してトークン効率が大幅に向上しています。GPT-5.2と比較するとやや高価ですが、Codecs内で有効にできるファストモードも用意されており、GPT-5.4のはるかに高速なバージョンを利用できます。

まずベンチマークについてお話ししましょう。ただし、最初に独立したものから始めます。

GPT-5.2と比較すると、GPT-5.4は実際に大幅な改善となっています。このモデルは現在はるかにコスト効率とトークン効率が良くなっているため、同じコストで簡単に20%のパフォーマンス向上があると言えるでしょう。他のすべてと比較すると、やはりGPT-5.4 Proのエクストラハイ設定が最先端のモデルです。

ただし、通常設定ではGemini 3.1 Proに遅れを取っています。このリリースについて本当に興味深いことがあります。汎用GPTモデルでは5.3を完全にスキップしました。Codecsバージョンはありましたが、それから直接5.4に移行しました。

ベンチマーク性能の詳細分析

注目すべき2つ目のベンチマークはBench Proです。これは大規模言語モデルのコーディング能力を本当に示すものです。

この場合、コード専用モデルだったGPT-5.3 Codecsに非常に近い性能です。彼らはその性能を汎用モデルに持ち込むことができたわけで、これはかなり驚くべきことです。しかし最も興味深いのは、このプロットを見ると、ミディアム推論努力の方がハイ推論努力と比較して精度の向上が大きいという点です。

これが重要なのは、速度と精度の良い妥協点を提供するからです。そしてこれはエクストラハイ設定のGPT-5.2に非常に近い性能のようですが、約83%高速化されています。コーディングタスクに関しては、その速度が重要なのです。

さらに独立したベンチマークについてお話しすると、GPT-5.4はデザインアリーナベンチマークのミディアム設定で9位です。これはGPT-5.2エクストラハイからほぼ9ポジションのジャンプアップです。ですから、優れたデザインや優れたUIを期待できるはずです。おそらくGemini 3.1 Proやフロントエンドデザインスキルを持つClaude Opus 4.6のレベルではないでしょうが。

実際にいくつかの機能を見たい場合は、GPT-5.4で構築されたさまざまなアプリを紹介する新しいウェブサイトが用意されています。

実用例とアプリケーション

これらのいくつかは本当に、本当に素晴らしく見えます。ですから、実際にこれらをテストしてみることを強くお勧めします。適切なプロンプティングを使えば、このモデルで何が可能かという感覚が得られますから。

動画の残りの部分では、リリースブログ投稿のいくつかの興味深い部分をお見せしたいと思います。そして、能力やこれらの最先端ラボが向かっている方向において、本当に収束しているように思えます。

個人的に最も重要だと思うベンチマークは、彼らがここでカバーしているGDPです。これはOpenAIによって開発されたベンチマークで、プロフェッショナルのレベルでナレッジワークを行う際にこれらのモデルがどれだけ優れているかという考え方に基づいています。米国のGDPに貢献している上位9つの業界から44の職業を調査しました。

興味深いことに、これは本当に難しいベンチマークでした。しかし今では、このベンチマークを飽和させることが本当に得意になってきているようです。なぜなら、このベンチマークがリリースされた当初は、質問の半分も正解できなかったのですが、現在ではGPT-5.2からGPT-5.4でほぼ12%の向上があり、これは驚くべきことだからです。

リリースペースとコンピュータ制御能力

OpenAIからのモデルリリースのペースも大幅に増加していることを覚えておいてください。GPT-5.1は11月にリリースされました。つまり3、4ヶ月以内に3つの異なるリリースについて話しているわけで、それらすべてが主要なリリースなのです。

特にコンピュータ制御のために、強化学習で事後トレーニングを行ったことは間違いありません。Playwrightのようなライブラリの使用においてはるかに優れています。Playwrightはブラウザを制御できるツールであり、コンピュータ制御機能には不可欠です。そしてこれは効果を発揮したようです。

OS World検証スコアを見ると、エクストラハイで75%を獲得しています。GPT-5.2は47%しか獲得していませんでした。つまり、単一バージョンのジャンプでほぼ30〜40%の改善について話しているわけで、これはクレイジーです。

コンピュータ制御機能が重要なのは、人間が使用するのとまったく同じようにコンピュータやエージェントがコンピュータを使用できるようになるからです。つまり、人間とまったく同じUIと対話しているのです。これは、エージェント専用にこれらのシステムを設計する必要がないことを意味します。既存のシステムを使用でき、モデルを人間のように動作するようにトレーニングするだけです。

コーディング性能の詳細比較

コーディングに関しては、ここで非常に興味深いことになります。GPT-5.2と比較すると、大幅なジャンプです。しかし、GPT-5.3 Codecsと直接比較すると、それほど大きなジャンプではありません。ここにベンチマークがあります。Sweepbench Proを見ると、約58%のスコアを獲得しています。Codecs 5.3は約56%または57%のスコアです。GPT-5.2 thinkingは約56%です。

非常に似たパターンが見られます。コーディングやエージェント的なユースケースのパフォーマンス向上は、GPT-5.2と比較すると劇的に優れていますが、GPT-5.3 Codecsと比較するとそれほどではありません。コンピュータ制御、つまり先ほど見たOS World検証ベンチマークを見ても、わずか1%の改善です。より優れた全体的なモデルのようですが、コーディング能力に関しては大きなジャンプではありません。

推論努力をミディアムに設定すると、他の推論努力と比較して、GPT-5.3 Codecsからの大きなジャンプのように見えます。そしてこれが重要なのは、コードを生成するためのより高速な速度で、トークン効率の良いモデルが必要だからです。そのため、おそらくほとんどの人はミディアム努力で使用することになるでしょう。

ツール検索機能の導入

効率的であること、つまりトークン効率について話すと、彼らはツール検索という概念も導入しました。これは新しい概念ではありません。Anthropicはこれを行ってきました。通常、これらのエージェント的なコーディングシステムは、すべてのツール定義をコンテキストウィンドウに読み込み、それからどのツールを使用するかを決定します。そしてご覧のとおり、コンテキストウィンドウを汚染しているという固有の問題があります。

Anthropicは、ツールを検索するためにコードを使用することを推奨しており、OpenAIも今まったく同じ方向に進んでいるようです。彼らはこのツール検索ツールを導入しました。これは基本的に少数のツールをコンテキストウィンドウに読み込み、それらのツールを使用して、手元のタスクに必要な最も関連性の高いツールを探すことになります。そして予想通り、コンテキストウィンドウでより多くのトークン効率が得られます。

この特定のケースでは、ツール検索を有効にすると、使用されるトークンの数がほぼ半分に減少することが実際にわかります。残りのベンチマークでは、特にエージェント的なツール使用においてパフォーマンスの向上が示されています。また、コンピュータ制御機能がコンピュータ使用に関わるあらゆることでモデルが向上するのを助けているため、ウェブ検索においてもはるかに優れているようです。

モデル制御と価格設定

リリースビデオで強調していたことの1つは、モデルを操舵できるということです。つまり、GPTでは、思考中にモデルを中断し、動作を操舵するさらなる情報を提供できます。これはかなりクールです。これを試してみて、おそらく別の動画でカバーすることになるでしょう。

さて、最後にカバーするのは価格設定です。GPT-5.2と比較すると、これはより高価です。トークン効率が向上していることを考えると、実行コストがそれほど高価になったり、より高価になったりすることはないと思いますが、入力価格には確実にいくらかの増加があります。GPT-5.4 Proに関しては、大幅に高価です。

しかし、これらは汎用目的の使用のためのモデルではありません。これらはおそらくよりハードコアな科学研究タイプのものです。ですから、一般ユーザーとして、Proについて本当に心配する必要はないと思います。

さて、以上です。今日発表されたGPT-5.4リリースに関するすべての簡単なまとめでした。おそらくモデルのコーディング能力をテストするビデオをいくつか作成することになるでしょう。

それに興味がある方は、チャンネルを購読してください。とにかく、視聴ありがとうございました。いつものように、次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました