OpenAIの新型GPT-5.4 Proが世界最高のAIに

GPT-5
この記事は約19分で読めます。

OpenAIの最新モデルGPT-5.4は、数学的推論やサイバーセキュリティ能力において従来の最先端モデルを上回る性能を示している。特にFrontier Mathベンチマークでは20年間未解決だった問題を解決するなど、質的な飛躍を遂げた。また、投資銀行や法律業務といった専門職タスクでも52%の成功率を記録し、わずか数週間で従来の倍の性能に到達している。一方で価格面では高コストであり、サイバーセキュリティ能力が「高」リスク分類に達したことで、将来的なモデルリリースには本人確認などの規制が導入される可能性が示唆されている。

OpenAI’s New GPT-5.4 Pro Is Now The Smartest AI In The World.
🎓 Learn AI In 10 Minutes A Day - your Free AGI Preparedness Guide - 🐤 Follow Me on T...

GPT-5.4の驚異的な性能

GPT-5.4が登場しましたが、これは本当に驚くべきモデルです。早速詳しく見ていきましょう。ベンチマークの話ばかりで退屈させるつもりはありませんが、驚くべきことにGPT-5.4 thinkingは多くの分野でClaude Opus 4.6を上回り、Gemini 3.1が最先端とされる領域でさえそれを凌駕しています。

どういうことかと言いますと、現在ご覧いただいているベンチマークは、GPQAのような標準的で退屈なものではありません。GPQAも含まれてはいますが、これらのベンチマークは基本的に飽和状態です。私が注目しているのは、Frontier Math、OSWorld、BrowseCompといった、AIの次なる進化を測定するベンチマークです。

その中の一つ、BrowseCompをお見せしましょう。これは一見すごく見えないかもしれませんが、重要なのは次の点です。このベンチマークは、AIモデルがウェブ全体からリアルタイムデータを取得し、それを自律的に実行できるかどうかをテストするように設計されています。

GoogleのGemini 3.1 Proモデルは、Googleという検索エンジンによって支えられているのだから最先端だろうと思うでしょう。しかし違います。GPT-5.4 Proが実際に約89.3%を獲得してそれを上回っているのです。繰り返しになりますが、全体的に見れば純粋な能力という点ではそれほど大きな差ではありません。しかし、特定の企業が得意とするはずの領域があるという事実を考えると、少し懸念すべきことかもしれません。

懸念と言うのは、実はGoogleや他の企業にとってのことです。なぜなら、OpenAIはこの分野でまだこのような進歩を遂げるはずではなかったからです。他の研究所を出し抜くために何ができたのか、私にはよくわかりません。

高額な価格設定の問題

もちろん、他のモデルより優れているかもしれませんが、現在世界最高のモデルと言えるGPT-5.4 Proの問題は、このモデルがかなり高額だということです。このモデルがどれほど高額か見てください。入力価格が100万トークンあたり30ドル、出力は180ドルです。100万トークンですよ。これは本当に驚異的です。

GPT-5.4のPro版を使う場合、かなり高額になります。もちろん、ほとんどの人はPro版を使いたいでしょう。しかし、主要なAIモデルと比較してみると、Claude Opus 4.6を見れば、推論なしのGPT-5.4だけを見る場合は、もう少し妥当に見えます。

もちろん、人によって異なるモデルを選ぶ理由はさまざまでしょう。しかし、価格がここでの重要な要素になると思います。この状況がとても面白いのは、この分野に長くいる方なら、多くの人が「インテリジェンスが安すぎて計測できない」という状況について話していたことを覚えているでしょう。

つまり、場合によってはAIの価格が下がっているかもしれませんが、私はAIと推論の価格は実際には上がっていると主張します。そして場合によっては、現在の入力レベルでGPT-5.4は実際にClaude Opus 4.6を上回っています。つまり、多くの場合、標準版のGPT-5.4を使用する方が費用対効果が高い可能性があります。

価格の問題は、今後も引き続き大きな問題になると思います。価格対性能の点で最高のモデルがどれであれ、おそらく多くの市場シェアを獲得するでしょう。Claudeを使っていてクレジットを使い果たすのがどういうことか、皆さんご存知でしょう。それはほとんどの人にとってかなり頻繁に起こることです。

将来的にどのように管理するのか気になるところです。控えめに言っても興味深いでしょう。

Frontier Mathでの画期的な成果

最も興味深いベンチマークをお見せしたいと思います。これは単に「このモデルがこれより10%優れている」というものではなく、これらのベンチマークは新たな領域を切り開いているものです。

GPT-5.4 ProはFrontier Mathで新記録を樹立しました。なぜそれが印象的なのかわからない方のために説明すると、Frontier Mathは問題集、正確には専門の数学者によって設計された問題セットで、研究レベルの思考を必要とするものです。教科書的なものではなく、本当に新しい難しい問題です。

ローンチ時、トップモデルは約2%のスコアでした。ティアを見ると、GPT-5.4 Proが完全に支配しています。極めて高い推論能力を持つGPT-5.4が完全に支配しています。ここで多くの人が見逃すであろう一つのことを付け加えたいのは、他のモデルがすぐ後ろに迫っているように見えますが、少し違うということです。

なぜなら、OpenAIは数学において革新的な何かを持っているからです。モデルのトレーニング方法について何をしているのか正確にはわかりませんが、彼らはFrontier Mathの問題でずっとリードを維持し続けています。そして、数学者たちが実際にChatGPTのバージョンを使って方程式や数学を解いていると聞き続けています。

これは本当に興味深いことになるでしょう。そして将来的には、思っているよりずっと早く実際にクレイジーなブレークスルーが得られるかもしれません。最も難しい問題であるFrontier Math Tier 4でも、GPT-5.4 ProがこのベンチマークでOpus 4.6よりはるかに優れた成績を収めています。

ただし、そこにGemini 3.1 Proは見当たりません。もちろん、それを待つ必要があるでしょう。皆さん、このFrontier Mathベンチマークは、基本的に数年間数学に抵抗するように設計されたベンチマークでした。非公開の問題セットでした。だから、これを不正に操作する方法は本当にありませんでした。

彼らがこれほど一貫して進歩を遂げているという事実は、私に言わせればかなり驚くべきことです。これを見ると、本当に驚くべきことです。しかし、GPT-5.4 Proに関する最もクレイジーなことを知りたいですか。だから私はこれをベンチマーク動画にしすぎたくないと言ったのですが、これはかなりクレイジーです。

20年未解決の問題を解決

ベンチマークをテストしていたとき、この方がこう言っています。「ついに起こった。私個人のムーブ37、あるいはそれ以上だ。私は深く感銘を受けた。解法は非常に美しく、クリーンで、ほとんど人間的に感じられる。」先週新しいモデルをテストしている間、これが来ると感じていました。

このベンチマークが重要な理由について、単なる標準的な数字ではなく実際に話すと、数学者のBartosは実際に個人的に問題を作成していました。これはベンチマーク問題ではありませんでした。20年間誰も解けなかった問題で、かなりクレイジーです。つまり、インターネットからこれをスクレイピングすることはできませんでした。

彼は実際にムーブ37に言及しています。これは2016年のAlphaGoの有名なムーブ37への直接的な言及です。これは基本的に地球上のすべての囲碁プレーヤーを驚かせた手で、人間なら誰もそれを打たないでしょう。しかしそれは天才的であることが判明しました。その瞬間は、AIが複雑な領域で本当に超人的なことをした最初の時として広く考えられています。

そして、この研究者は基本的に、GPT-5.4がまさにその個人版を実行したと言っているのです。つまり、この数学者は20年間、20年間この問題を抱えていて、GPT-5.4がそれを解決したのです。彼が非常に美しく、ほとんど人間的に感じられると表現する解法で。

興味深いのは、彼らが最も難しいティアの問題でGPT-5.4を10回実行して38%を獲得したということです。それは、以前どのモデルも解けなかった問題を解くことができた実行の一つでした。これは単なる段階的な改善ではなく、質的な閾値が越えられたということです。

つまり、これがシンギュラリティではないかもしれませんが、AIが個々のフロンティアを越え始めていると思います。そして今、彼はまったく新しいレベルで作業しています。それがどれだけ続くのか気になります。だから私は、ベンチマークについてあまり話したくないと言ったのですが、モデルがこれほど優れている場合、今見ているのは異なる種類のベンチマークであることを理解することが重要です。

人間の能力に急接近

GPT-5からGPT-5.2、GPT-5.3 Codex、そしてGPT-5.4まで、どれだけ改善があったかを簡単に見てみたい場合、改善が続いており、極めて困難な多くの分野で人間の能力に急速に近づいていることがわかります。

その一つはもちろんARC AIベンチマークです。人間のベースラインが約85%で、GPT-5.4 Pro Highが約83〜84%に達しているので、これはすでに人間のベースラインを超えたと主張できるかもしれません。そしてタスクあたり約30〜50ドルかかっています。

考えてみると、それはかなり高額です。しかしクレイジーなのは、このモデルが実際にGemini 3.1 DeepthinkまたはGemini 3 Deepthinkのすぐ近くにあることです。それがとても驚くべきことである理由は、Gemini Deepthinkモデルは本当に本当に大規模だったからです。

もちろん、Googleはかなり長い間数学に取り組んできました。だから、OpenAIとGoogleがARC AI2ベンチマークでほぼ互角に戦っているのを見るのはかなり興味深いです。皆さん、ARC AGI2ベンチマークは、記憶された知識ではなく、本物の推論と流動的知性をテストするために特別に設計されています。

これは最も難しく、最も尊敬されているベンチマークの一つです。タスクあたり30ドルかかりながら83%にしか到達しないという事実はかなりクレイジーです。他のモデルの方が少しコスト効率が良いように見えるとは言えますが、結局のところ、インテリジェンスはインテリジェンスであり、ハイスコアはハイスコアです。

専門職タスクでの飛躍的進歩

ベンチマークを見ていて、かなりクレイジーなものに出会いました。このベンチマークが何を意味するのか疑問に思うかもしれません。お見せしましょう。

この引用を見ました。「GPT-5.4は私たちがこれまで試した中で最高のモデルです。専門サービス業務のモデルパフォーマンスを測定するApex agentsベンチマークのリーダーボードでトップになりました。スライドデッキ、財務モデル、法的分析などの長期的な成果物の作成に優れ、トップパフォーマンスを提供します。」

なぜこれが重要なのでしょうか。私が個人的にこれらが重要なベンチマークだと信じる理由は、他のベンチマークがほぼ飽和状態だからです。違いを実際に見分けることはできません。しかしここで重要なのは、GPT-5.4が、これまで見た中で最も難しい実世界の専門的ベンチマークで52%を記録したことです。

これは彼らが50%を超えた初めてのことです。投資銀行家、コンサルタント、弁護士によって実際の日常業務を表すように設計されたタスクです。これはMerkcoによって構築され、2026年1月にローンチされました。

33のシミュレートされた作業環境にわたる480のタスクでした。実際の専門家、銀行員、コンサルタント、弁護士がいました。彼らは5〜10日かけて、実際のファイル、ツール、ソフトウェアを使って現実的なシナリオを構築しました。モデルは、人間のジュニア従業員と同じ方法でタスクを完了しなければなりません。助けを求めることなく、基本的にワンショットです。

財務モデリング、スライドデッキ、法的メモ、市場分析などが含まれます。クレイジーな文脈は、これがいかに速く動いたかです。このベンチマークが2026年1月に実際にローンチされたとき、最高スコアは24%でした。そして今、GPT-5.4は基本的にそれを約6〜8週間で倍増させました。

これがほとんどの人が気づいていないことです。これは、皆が警告し続けているベンチマーク進捗曲線なのです。実世界のタスクでのクレイジーなクレイジーなベンチマークです。これは単なる数学のベンチマークではありません。これは、人々が実際にオフィスで行う作業の種類における本当の質的な違いであり、かなりクレイジーです。

もちろん、52%は依然として専門的タスクのほぼ半分で失敗していると主張できますし、これらのタスクにはインターネットアクセスがなく、明確化も許可されていません。実際の仕事ははるかに複雑で、モデルはおそらくこれらのツールを使ってもっとうまくできるでしょう。

ベンチマークはオープンソースなので、研究所はおそらくそれに最適化するでしょう。しかし皆さん、これは具体的にAIがジュニアホワイトカラー労働者、投資銀行アナリスト、ジュニアコンサルタント、パラリーガルをどれだけ置き換えるかに近いかを測定するように設計されました。これらは標的にされている役割であり、6週間で24%から52%に進んだということは、これが本当に速く加速しているということです。

皆さん、仕事の混乱について話している場合、これは考えるべきことです。

GDP評価ベンチマーク

もちろん、重要なベンチマークがあります。私は以前これを見て、次にOpenAIがモデルをリリースするときに注目するセクションはこれだと思いました。これがGDP評価です。

基本的にOpenAI自身の内部ベンチマークです。彼ら自身が作成したことは注目に値します。これは基本的に、米国のGDPに最も貢献する9つの産業における44の職業にわたる実際の知識労働者に対するAIの知識をテストします。営業プレゼンテーションの作成、スプレッドシートの構築、スケジューリング、法務、財務分析などです。

チャートが示しているのは、点線が同じタスクを実行する人間の専門家であることです。そのチャート上のすべてのモデルがそれを上回っています。GPT-5.4は83%の時間で人間と同等かそれ以上であり、GPT-5.4 Proは82%です。

最も重要な統計は、これらのモデルが人間の専門家より約100倍速く、100倍安くタスクを完了するということです。

正直な注意点は、これがワンショットであることです。モデルは明確に定義されたタスクに対して1回の試行を得ます。実際の仕事には、時間をかけた双方向の反復とコンテキストの構築が含まれます。したがって、83%はもちろん非常に印象的であり、明日専門家を置き換えることを意味するわけではありませんが、モデルの能力が高校のベンチマークを飽和させることから、人々が実際に行っている実際の仕事に移行したという理解を皆さんに与えるべきです。

モデルがこれを行えることはかなりエキサイティングです。もちろん、基本的に何でも好きなことに使用できるからです。しかし同時に、彼らがこれほど速く能力を高めているのは少し懸念されます。

金融業務への特化

OpenAIがここで言っていることを見ると、これは金融ワークフローに最適化されたAIモデルだと述べています。GPT-5.4 thinkingは、財務的推論、Excelベースのモデリングに理想的な最も先進的なモデルであり、アナリストが完了するのに数日または数時間かかることが多い実世界の金融ワークフローでGPT-5.4を改善するために業界の実務者と協力しています。

そこのグラフを見ると、改善の面で上昇しているだけで、それは実際に驚くほどOpus 4.6より優れています。

いくつかの比較を見たい場合、モバイルでは最高品質ではないかもしれませんが、基本的にここで見ているのは、モデルが質問をどのように分解し、そのデータをどのように提供するかに関して、はるかに詳細で、より正確なものです。

それだけでなく、Wordドキュメントにある場合、皆さん、実際にこれらの拡張機能をインストールできるようになりました。App Storeに行けば、Co-Pilotボタンの代わりに、インストールすればChatGPTボタンが表示されます。私は現在Claudeのものを持っていますが、もちろんお好きなものをインストールできます。そしてもちろん、プレゼンテーションにもあります。

私は以前これを実際に使用しましたが、それほど良くありませんでした。しかし、GPT-5.4モデルが再び改善されたようです。だから私は、これらが多くの人が行っているタスクの種類だと言っているのです。もちろん、これはクリエイティブスイートがどのように影響を受けるかを示しているだけです。

クリエイティブライティングの改善

クリエイティブライティングを実際に見てみたい場合、これは本当に重要だと思います。なぜなら、創造的に書けない、または人間と意味のある基盤で実際に関わることができないモデルは、話すのがかなり迷惑だからです。それが以前のモデルで私たちが持っていたものです。したがって、クリエイティブライティングで非常に低い理由です。

しかし今、GPT-5.4 highがクリエイティブライティングの点で実際に2位にランクされていることがわかります。以前、サム・アルトマンが実際にステージに上がって、「見てください、実際にGPT-5.2を台無しにしました。あれは台無しにしたと確信しています」と言いました。

彼らは基本的に、「私たちは数学とコーディングに集中しようとしていたので、モデルが実際にどのように応答するかを台無しにしてしまいました」と言いました。それは、実際に話すことができるモデルというよりも、一つの巨大な計算機のようなものでした。

今、彼らはそれを修正したようです。そのしわを解消し、これをはるかに丸くしました。もちろん、これは人間の投票です。つまり、390票しかありません。だから、より多くの投票が入ってくると、モデルは実際にナンバーワンになる可能性があります。

クリエイティブライティング分野でこれを絶対にテストすることをお勧めします。おそらく思っているよりも少し良い成績を収めるでしょう。私自身テストしましたが、かなりまともです。数週間前よりもはるかに良いと言えます。それは確かに数週間前は非常にイライラするものでした。

もちろん、モデルの使い方に本当に依存します。

コーディング能力とコンピュータ使用

もちろん、コーディングがあります。単一の軽く指定されたプロンプトからGPT-5.4で作られたテーマパークシミュレーションゲームがあり、実際にPlaywrightインタラクティブブラウザをプレイテストと画像生成に使用しました。

これはかなりクールでした。私がこれをとても気に入っている理由は、彼らが基本的にモデル自体をテストさせるフレームワークを使用できたからです。本当にクールだったのは、ほとんどの人がこれについて気づいていないと思うことは、今私たちには完全なものがあるということです。モデルが画像を取り込むだけでなく、それらの画像を使って何かをコーディングし、コーディングし、テストし、再生できる完全なループがあります。

もちろん、それはおそらく広範なトークンを消費するでしょう。しかし、この種のことは驚くべきです。なぜなら、これらすべてのベンチマークが1〜2か月ごとに15%改善している場合、1年または2年後に見られるジャンプは、将来を見据えて想像できたものをはるかに上回るでしょう。

プレイテストのためにインタラクティブブラウザを使用し、ゲームの視覚的スタイルのために画像生成を使用して、GPT-5.4で複数のターンにわたって作成された戦術的RPGがもう一つありました。

また追加できることは、このモデルが基本的にネイティブのコンピュータ使用能力を持つ最初の汎用モデルであるということです。どうやらこれは、開発者とエージェントの両方に向けた最初の大きなステップを示しています。そして現在、ウェブサイトやソフトウェアシステム全体で実際のタスクを完了するエージェントを構築する開発者にとって利用可能な最高のモデルです。

このモデルは、視覚的に物事を見て、コンピュータを使用する点で本当にうまく機能します。ここでは、モデルが基本的に情報を読み取って請求書取り込みマシンに入力していることがわかります。

これについてのクレイジーなことは、これが実際にリアルタイムであるということです。ビデオのこの部分は高速化されていません。これは私にとってかなり驚くべきことです。なぜなら、現在AIにタスクを実行させると、通常は比較的遅いからです。

しかしここでは、モデルのパフォーマンスと柔軟性が本当に本当にうまく見えます。基本的にスクリーンショットとキーボードおよびマウスアクションを通じてデスクトップ環境をナビゲートするモデルの能力を測定するOSWorldベンチマークで、GPT-5.4はGPT-5.2を超えて75%で最先端を達成しています。

これはクレイジーに見えないかもしれませんが、これは多くの人がおそらく再び使い始めるモデルの一つになると思います。

研究論文からの興味深い発見

私が聞いたことから、多くの人がこのモデルが純粋な能力、エージェントでできること、コーディング能力の点でも優れていると感じています。しかし、もちろん、今から研究論文を読んで見つけた本当に奇妙なことについて話します。

興味深いと思ったのは3つだけでしたが、今からそれらに入ります。その一つは非常に興味深かったです。これは最も興味深いスライドの一つかもしれないからです。OPQAは基本的にOpenAIの実際のチームが1日以上かけて解決したような実際の内部問題です。予期しないパフォーマンスの後退、トレーニングのバグ、異常なメトリクス、本当に難しい新しいエンジニアリング問題、教科書的なものではないものです。

実際にここのチャートが示しているのは、GPT-5.4 for thinkingが4%のスコアを記録していることです。これは実際にチャート上の他のすべてのモデルよりも悪いです。GPT-5.2 Codexは8%のスコアを記録し、GPT-5.4 thinkingは4%で最下位でした。

OpenAIは実際にこれを自分たちの技術レポートに載せました。隠しませんでした。それが示すのは、本当の推論を必要とする本当に新しい難しい問題において、この場合のモデルはゼロをわずかに上回るスコアしか取れず、現在退行しているということです。

これは少し奇妙です。なぜこうなっているのかわかりません。おそらく少し変わったものだからかもしれません。おそらく単なるノイズかもしれません。しかし、これは興味深いと思いました。

サイバーセキュリティ脅威レベル「高」への分類

しかし次のことは、皆さん全員がこれに注意を払うべきだと思います。これが2027年、2028年、2029年の状況を本当に変えることになると思うからです。本気でそう思っています。

彼らは今、このモデルを高リスクとして扱っていると述べており、基本的にサイバーセキュリティ脅威のためにそうしています。GPT-5.4 for thinkingは、サイバーセキュリティにおける高い能力に対する特定の安全対策の実装を必要とした最初の汎用モデルです。

彼らがこのモデルを専門レベルのCapture The Flagチャレンジに対して投入したとき、88%の成功率を達成しました。シミュレートされたネットワーク環境では、モデルは脆弱なAzure Webアプリを悪用して認証情報を盗み、ネットワーク内を横方向に移動するためにコントロールを変更するなど、複雑な複数ステップの攻撃を正常に実行しました。

ここで理解しなければならないのは、彼らの準備フレームワークでモデルを高として分類する場合、それは強化されたターゲットに対するエンドツーエンドのサイバー攻撃を自動化できる可能性があると彼らが信じていることを意味します。

ここでの問題は、これが根本的に未来を変えると思うことです。なぜなら、このモデルが彼らが言うことができると主張することができるなら、それがGPT-6にとって何を意味するか考えてみてください。すべてのサイバーセキュリティベンチマークは、モデル世代ごとに上昇しています。GPT-5.2は47%、GPT-5.3は80%、GPT-5.4は73%でした。傾向は上向きです。

問題は、GPT-6、GPT-7があれば、それが臨界レベルに達することを意味するということです。その臨界レベルとは、自律的に壊滅的で大規模な損害を引き起こす可能性があることを意味します。

つまり、OpenAIの現在のフレームワークの下で、臨界的なサイバーセキュリティ能力とは、モデルが重要な国家インフラ、電力網、水道システムへの攻撃を意味のある形で可能にする可能性があることを意味します。GPT-6が彼らがその判断を下さなければならない最初のモデルである場合、それは超興味深いことになるでしょう。

なぜなら、彼らはおそらく本人確認を取得しなければならなくなるからです。現在、APIキーを持っている人は誰でもGPT-5.4にアクセスできます。そして、社会の他の部分がどのように機能するかを考えると、それは本当に意味がありません。

論理はかなり単純です。銃を手に入れるには身分証明書を使います。銀行口座を開設するために運転免許証を取得するには身分証明書を使います。大規模に洗練されたサイバー攻撃を自律的に実行できるモデルは、最低限そのリスクです。

今、私はこれを提唱しているわけではありません。起こるべきだ、起こるべきではないと言っているわけではありません。私はただ未来について考えてくださいと言っているだけです。おそらくそれは起こるでしょう。政府がAnthropicと彼らの強力なモデルに対して何をしたか、すでに見てきました。

コメント

タイトルとURLをコピーしました