OpenAIが新たにリリースしたGPT-5.2は、プロフェッショナルな知識労働と長時間稼働するエージェント向けに構築された最先端のフロンティアモデルである。GDP valベンチマークで70.9%を記録し、実際の業界専門家を上回る性能を示している。コーディングベンチマークではSWEBench Verifiedで80%、GPQA Diamondで92.4%を達成し、Gemini 3 ProやClaude 4.5 Sonnetを凌駕する結果となった。特筆すべきは、ARC AGI 1で86.2%、ARC AGI 2で52.9%という驚異的なスコアであり、これは汎用人工知能の核心要素とされる問題解決能力の飛躍的向上を示している。実世界のタスクにおいても、ワークフォースプランニングや投資分析、プロジェクトサマリーなどで、より洗練されたアウトプットを生成する能力を持つ。長文コンテキスト処理能力の向上により、数十万トークンにわたる文書やマルチファイルプロジェクトの処理が可能となり、ホワイトカラー労働の自動化が加速することが予想される。ビジョン機能も大幅に強化され、チャート解析やソフトウェアインターフェース理解におけるエラー率をほぼ半減させている。価格設定も競争力のある水準で提供されており、Google Gemini 3 Proとの比較において優位性を主張できる性能を備えている。

GPT-5.2の登場とその衝撃
GPT-5.2が登場しましたが、これは本当に期待を裏切りません。OpenAIはこれを、これまでで最も先進的なフロンティアモデルと呼んでいます。プロフェッショナルな知識労働と長時間稼働するエージェント向けに構築されています。そしてベンチマークを見れば、その理由がわかります。
GPT-5.2はGDP valで70.9%のスコアを記録しています。これは本質的に、明確に定義された知識労働タスクにおいて、モデルがどれだけの頻度で実際の業界専門家を打ち負かすかを測定するベンチマークです。スプレッドシートの生成、パワーポイントの作成、文書の分析などのタスクですね。
このベンチマークにおける他のフロンティアモデルのスコアを見つけることはできませんでした。私たちが公開されている情報として持っているのは、9月の数値だけのようです。これにはOpus 4.1、Grok 4、Gemini 2.5、そしてGPT-5が含まれています。そして明らかに、これらのどれももはやフロンティアではありません。
それでも、これらの古い数値を使っても、わずか数ヶ月で最先端の性能が約22%ジャンプしていることがわかります。実際の生産性タスクを中心に構築されたベンチマークにとって、これは驚異的な進歩です。そして私たちはすでに人間の専門家のベースラインをはるかに超えています。
ベンチマーク結果の詳細分析
さて、完全なベンチマークに戻ると、やや厄介なのは、OpenAIがここに他のモデルのスコアを含めておらず、GPT-5.1だけだということです。そこで、私たちはGemini 3 Proのベンチマークを参照することにします。これにはClaude 4.5 Sonnetも含まれています。
まずコーディングベンチマークから見ていくと、非常に堅実な改善が見られます。SWEBench Proで55.6%、SWEBench Verifiedで80%です。Googleの表にはSWEBench Proは含まれていませんが、SWEBench Verifiedにおいて、GPT-5.2のスコアはGemini 3 ProとClaude 4.5 Sonnetの両方を上回っています。ただし、Claude 4.5 Opusはまだわずかに優位だと思いますが。
次に、博士レベルの科学問題であるGPQA Diamondで92.4%を記録しています。これも再び、Gemini 3 Proの91.9%を上回っています。そしてClaude 4.5 Sonnetの83.4%を圧倒しています。
次はAmyでツールなしで100%です。つまり、このベンチマークは基本的にこの時点で完了したということです。これはそれほど驚くことではありませんね。
それからFrontier Mathで40.3%です。これは実際かなり驚異的なスコアです。Frontier Mathは文字通り、専門家が考え出せる最も難しい数学問題の集大成です。以前の最高スコアは37.59%で、Gemini 3 Proが保持していました。ですから、ここでのわずかな上昇でさえ大きな意味があります。そしてGPT-5.2はほぼ3パーセントポイント丸ごと追加しています。
さらに難しい問題のためのTier 4タブもあります。そしてそれらにおいては、Gemini 3 Proが実際にGPT-5.2を上回り、18.75%を記録しています。
ARC AGIにおける驚異的な成果
しかし今、彼らは本当に最高のものを最後に取っておきました。なぜならGPT-5.2のARC AGIスコアは実際に驚異的だからです。ARC AGI 1で86.2%、ARC AGI 2で52.9%です。これらの結果はArc Prize自身によって検証されました。
そして彼らは、GPT-5.2 Pro Highがタスクあたり11.64ドルでARC AGI 1で90.5%を獲得することさえ示しています。彼らは、これがわずか1年で約390倍の効率改善を表していると述べています。これは実際に驚異的です。そしてARC AGI 2では、GPT-5.2 Proがタスクあたり15.72ドルで最大54.2%まで達成しています。
そうですね、これらのモデルが人間の効率に匹敵するまでにはまだ長い道のりがありますが、明らかに一般化においてどんどん良くなっています。
ご存じなかったかもしれませんが、ARC AGIベンチマークは文字通り、完全に未知の環境における問題解決能力をテストするように設計されています。多くの研究者は、これが汎用人工知能の核心的な要素だと考えています。そして、このベンチマークが飽和していくスピード、特に今年の終わりに向けてのスピードは、見ていて本当に驚異的です。
すべてのベンチマークが飽和するのは本当に時間の問題のように感じられます。また、人類の最後の試験でのスコアが気になる方もいるでしょうが、彼らはそれをメインのベンチマーク表から都合よく除外しましたが、ここの最後に含めています。34.5%を記録しており、Gemini 3 Proより3パーセントポイント下です。
おそらくそれが含まれなかった理由だと思います。
実世界タスクにおける顕著な進化
さて、これらがベンチマークでしたが、このモデルで本当に際立っているのは、実世界のタスクを完了する能力です。実際の知識労働タスクにおける、GPT-5.1とGPT-5.2の比較をいくつか見てみましょう。
最初のものはワークフォースプランナーです。プロンプトは、人員数、採用計画、離職率、予算への影響を含むワークフォースプランニングモデルを作成せよ、というものでした。そしてご覧の通り、GPT-5.2のアウトプットは見た目がはるかにプロフェッショナルです。
もう一つあります。モデルは投資銀行アナリストであると告げられ、創業者と既存投資家の所有権とリターンを理解するためのウォーターフォール分析をまとめなければなりません。
そしてこの場合、より綺麗に見えるだけではありません。確かにそうなのですが、OpenAIによると、GPT-5.2は実際にすべての計算を正しく行ったのに対し、GPT-5.1はそうではありませんでした。
そして最後のこれでは、プロジェクト進捗サマリーを生成するよう求められています。そして再び、GPT-5.2のアウトプットは、はるかに洗練され、読みやすく、クライアントに渡す準備ができているように見えます。
ですから、OpenAIは最近、実世界の能力に本当に注力しています。そして、まだ見えていないかもしれませんが、これはホワイトカラー労働者、つまりホワイトカラーの人間労働者にとっての終わりの始まりです。
長文コンテキスト処理能力の向上
さて、GPT-5.2について言及する価値のあるもう一つのことは、長文コンテキスト推論がはるかに優れているということです。これは実世界の能力の向上という全体像に直接結びついています。彼らはここにこう書いています。
実用的な観点から見ると、これによりプロフェッショナルはGPT-5.2を使って、報告書、契約書、研究論文、トランスクリプト、マルチファイルプロジェクトなどの長い文書を扱うことができ、数十万トークンにわたって一貫性と正確性を維持できます。
ですから、これはもちろん、AIにまだ残されている主要なボトルネックの一つです。限られたコンテキストウィンドウですね。そして、これについて進歩を遂げるにつれて、より多くの仕事が自動化可能になるだけでなく、これまで決して可能ではなかった全く新しい科学的ブレイクスルーも解放されるでしょう。
生物学のような分野について考えてみてください。もし私たちがいつの日か、モデルに私たちのゲノム構造全体、加えて関連するすべての生化学的経路、加えて臨床履歴、加えて環境変数を入力できるなら、突然シミュレーションを実行し、疾病リスクを予測し、個別化治療を設計することができるようになります。今日では基本的にSFのようなことです。
ビジョン機能の大幅な強化
最後に、まだあまり話していない価値のあることは、GPT-5.2のビジョン機能です。OpenAIは、GPT-5.2 Instant Thinkingが彼らのこれまでで最強のビジョンモデルであり、チャート推論とソフトウェアインターフェース理解におけるエラー率を約半分に削減したと主張しています。
そして、これが日常的なプロフェッショナルな使用にとって意味するのは、モデルがダッシュボード、製品スクリーンショット、技術図、またはビジュアルレポートをより正確に解釈できるということです。視覚情報が中心である金融、オペレーション、エンジニアリング、デザイン、カスタマーサポートにおけるワークフローをサポートします。
総合評価と今後の展望
ですから、全体的にこのモデルは非常に印象的に見えます。そして私自身が広範囲にテストしたわけではありませんが、私たちが今見てきたすべてに基づいて、Gemini 3 Proと肩を並べていると言えるでしょう。正直なところ、どちらが優れているかの主張は可能です。ただし、使用ケースによりますが。
可用性と価格設定の観点から、本日より、GPT-5.2 Instant ThinkingとProがChatGPTで展開されており、有料プランが最初にアクセスできます。APIでも利用可能で、価格は入力トークン100万あたり1.75ドル、出力トークン100万あたり14ドルで、キャッシュされた入力には90%の割引があります。これは実際にGoogleの価格設定と非常に競争力があり、驚くべきことです。
ですから、これがOpenAIの新しいフロンティアモデル、GPT-5.2について知っておくべきことのほぼすべてです。
皆さんは、OpenAIがGoogleからリードを取り戻したと思いますか、それともGoogleがまだ最高の座を保っていますか。それとも判断するには早すぎるでしょうか。コメント欄で教えてください。
とにかく、ご視聴ありがとうございました。皆さんがこの解説を楽しんでいただけたことを願っています。もしそうなら、いいねを押したり、チャンネル登録ボタンを押してください。そしていつものように、次の動画でお会いしましょう。


コメント