OpenAIが最新の大規模言語モデルGPT 5.2をリリースし、業界トップの座を奪還した。このモデルはプログラミングとエージェント型タスクに最適化されており、AME 2025ベンチマークで外部ツールなしに100%の正答率を達成するなど、驚異的な性能を示している。40万トークンのコンテキストウィンドウと最大12.8万トークンの出力を持ち、スプレッドシート作成やUI生成において特に優れた能力を発揮する。ベンチマークでは多くの項目でClaude Opus 4.5やGemini 3 Proを上回る結果を記録しているものの、処理速度の遅さと高額な価格設定が課題として残る。特にProバージョンは入力100万トークンあたり21ドル、出力100万トークンあたり168ドルと非常に高価である。全体として、OpenAIの技術力を示す印象的なリリースではあるが、実用面ではコストと速度のトレードオフを慎重に検討する必要がある。

GPT 5.2の登場
OpenAIがGPT 5.2という最新のLLMをリリースし、トップの座を奪還しました。しかし、それにはどんな代償が伴うのか、この動画で探っていきます。この動画では、この新しいモデルとは何なのか、そしてCursor内でGPT 5.2を使った私の個人的な体験をお見せします。
まず最初に、GPT 5.2には非常に印象的な特徴がたくさんあります。ベンチマークを見る前に、この特定のモデルに関する基本情報から始めましょう。このモデルは、他のすべての企業と同様に、主にプログラミングとエージェント関連のタスクに最適化されています。他のすべてのラボもこの方向に進んでいるようで、OpenAIもここで栄光を目指していることは間違いありません。
このモデルはテキストと画像の入力、そしてテキストと画像の出力を持っています。これはGemini 3.0 Proと非常に似ていますが、Gemini 3.0 ProはMP3や他のモダリティ形式も受け取ることができます。つまり、この場合はテキスト入力と画像入力、そしてテキスト出力と画像出力のみですが、画像出力がどのようなものになるのかについての情報はありません。
コンテキストウィンドウに関しては、このモデルは40万トークンのコンテキストウィンドウを備えています。2025年12月の時点で40万トークンのコンテキストウィンドウには多くの方が感動しないでしょう。そして最大出力トークンは12.8万トークンで、これは現時点では業界標準のようなものです。しかし繰り返しになりますが、大規模なコードベースを表示したい場合や、たくさんのPDFファイルがある場合、40万トークンのコンテキストウィンドウは素晴らしい選択肢ではないかもしれず、何らかのRAGソリューションを使う必要があるかもしれません。
そして最も良い点は、このモデルの知識カットオフが2025年8月31日であることです。これにより、OpenAIがこの知識をポストトレーニング段階で注入したのか、あるいはこれが完全に新しい事前学習モデルなのかについて多くの憶測が生まれています。それについての情報はありませんが、これは非常に興味深い側面です。そして明らかに、これは推論モデルであり、つまり推論トークンの側面があり、推論を行った後にモデルが最終的な出力を提供するということです。
モデルの機能とバリエーション
モデル自体に関しては、OpenAIがリストアップしている最高の機能として、一般知能、指示に従う精度、マルチモダリティ、コード生成、主にフロントエンドのUI作成、ツール呼び出しとコンテキスト管理、そしてスプレッドシートの理解と作成があります。モデルのリリースページでも、このモデルはスプレッドシートに優れているという例を見ることができます。
開発者向けには、今日リリースされた3つの異なるバリエーションがあります。1つはGPT 5.2で、GPT 5.2はGPT 5.1のドロップイン置換です。GPT 5.2 chat latestは、アプリケーションとしてChatGPTを動かしているモデルです。そしてGPT 5.2 Proは最も高価で、より多くの計算を使用するモデル、つまりより長く考えることができ、多くの異なるベンチマークで非常に優れた結果を出しているモデルです。
どのようなUIができるかについて、たくさんの例が提供されています。すべての異なる種類のUIを見ることができます。誰もがこの伝統的な紫のグラデーションUIから離れようとしており、このモデルがシミュレーションでうまく機能していることがわかります。また、このモデルがミニマリスティックなUIインターフェースでも優れていることがわかります。
ベンチマーク性能
モデルのベンチマーク性能に戻ると、すべてのベンチマークでこのモデルはほぼ最先端の性能を示しています。私たちを非常に驚かせている唯一のベンチマークはAME 2025です。これは2025年の競技会で、ツールは使用されていません。初めての方のために説明すると、モデルが評価される際、これらの企業は時々LLM内でツールを使用します。たとえば電卓やPython REPLなどです。しかし、この場合、AME 2025でGPT 5.2 thinkingは100%を達成しました。外部ツールなしで完全にすべてを解決したのです。外部の電卓は必要ありません。Python REPLも必要ありません。インターネットも必要ありません。つまり、外部ツールへのアクセスなしに100%を達成したのです。これは非常に、非常に印象的です。
また、ベンチマークを個別に見るのではなく、他の最先端モデルと比較してみましょう。AnthropicのClaude Opus 4.5、GoogleのGemini 3 Proです。AME 2025を見ると、OpenAIのGPT 5.2 thinkingが100%を達成していますが、今日の最高のモデルと言えるのはGemini 3 Proで、一般モデルで95%です。
現時点で最高のコーディングモデルはClaude Opus 4.5だと思いますが、GPT 5.2 thinkingはSweepbench Proで55%のスコアを記録し、Claude Opus 4.5はSweepbench Proで52%のスコアを記録しています。繰り返しになりますが、なぜこのモデルが完全なコーディングタスクには最適なモデルではないかもしれないという点については後で触れます。UIには良いモデルかもしれませんが、バックエンドに使用することはお勧めしません。その理由については後で説明します。他のすべてのベンチマークでは、このモデルは本当に、本当に優れています。
OpenAIが特に強調している1つの特定のベンチマークはGDP valと呼ばれるものです。基本的には、実世界で人間が行うべきタスク、経済成長に貢献するようなタスク、たとえばスプレッドシート作成などのタスクの集まりで、OpenAIの最新モデルGPT 5.2 thinkingは70%だと言っています。他のすべてと比較した場合です。
このモデルが他のすべての競合を完全に圧倒しているもう1つのベンチマークはARC AGI2です。1年でモデルの能力がどれだけ増加したかという点で、非常に大きな向上です。彼らは、コストが下がる一方で、モデルがそれを解決する方法について約350倍の効率性があると主張しています。
スプレッドシート機能の強化
これらすべてのことを述べた上で、ここに行ってもっと多くの情報を読むことができます。YouTube の説明欄にリンクを貼っておきます。OpenAIが強調している非常に興味深い点の1つは、このモデルが本当に優れたスプレッドシート理解能力を持っているということです。
GPT 5.1 thinkingがこのスプレッドシートを作成し、GPT 5.2 thinkingがこのスプレッドシートを作成しました。これらのスプレッドシートがどのように作られているかの大きな違いを見ることができます。これはほとんどインターンのようで、こちらはたとえばコンサルティング会社でアナリストとして働いている人のようです。
プロンプトは「人員計画ヘッドモデル、従業員数、採用計画、離職率、予算、影響を作成してください。エンジニアリング、マーケティング、法務、営業部門を含めてください」というものです。キャップテーブルがあり、違いがわかります。プロジェクト管理があり、このモデルが特にスプレッドシートやパワーポイントプレゼンテーションのような生産性ツールをどのように作成するかの違いを見ることができます。モデルのスプレッドシートとパワーポイントプレゼンテーションの能力は、正直言って驚異的だと言わざるを得ません。
実際の使用体験
このモデルを使ってみました。今日、このVeritasiumの動画を見ていて、この動画で彼らは実際に森林火災モデルシミュレーターを作っていました。彼らはべき乗則を説明しようとしていて、これを示したかったのです。そこで私がしたことは、Cursorを開いて、Cursorを開いたときに非常にシンプルなプロンプトを与えただけです。
ここで私のプロンプトを見ることができます。プロンプトは非常にシンプルです。「落雷と森林火災と成長の影響を理解する美しいUIで、描画可能な森林火災モデルのシミュレーターを作成してください」というものです。私はそこから文字通りコピーしただけです。私がそれをした瞬間、モデルはすべてを作成し、結果を提供してくれました。
これがモデルが私に与えたものです。成長確率を上げることができます。落雷確率を上げることができます。そして明らかに、落雷が多ければ火災も多くなります。落雷が少なければ火災も少なくなります。森は成長し続けるだけです。落雷確率を上げ始めると、火災が多くなります。
しかし、私がこれについて気に入ったのは、何もする必要がなかったということです。私がしなければならなかったのは、単に名前を与えるだけで、それからゼロショットでこれを作成したのです。ここでの注意点は、このモデルは応答を返すのに非常に時間がかかるということです。たとえばClaude Sonnet 4.5、Gemini 3 Pro、あるいはClaude Opus 4.5にも同じプロンプトを与えることができたでしょう。そして、このモデルがしたことよりもはるかに速かっただろうと断言できます。これはProモデルでさえありません。これは単に中程度の推論バージョンであることがわかります。それでもこのモデルは非常に多くの時間を要しており、中程度の推論モデル、最高レベルのモデルでも最高の計算モデルでもないのに、応答を返すのに非常に多くの時間がかかっているのを見るのは非常に驚きです。
コーディング性能の比較
Code Arenaのリーダーボードを見ると、このモデルはまだ1位ではありません。Claude Opus 4.5 thinkingモデルが1位です。つまり、ClaudeまたはAnthropicはコーディング関連タスクにおいて依然として最高の企業であることがわかります。しかし、それ以外のすべてのことについては、これは一般的に使用できるモデルです。コーディングとは関係なく、普通の世界レベルの情報、医療情報のようなもののための一般的な目的であれば、Gemini 3.0 Proを使って質問することをお勧めします。
もう1つ興味深いデモを見ました。これはイーサン・モリックという教授からのものだと思います。プロンプトは「アプリ内で実行できる視覚的に興味深いシェーダーを作成してください。嵐の海に部分的に沈んだネオゴシック様式の塔の無限の都市のようにしてください。大きな波も入れてください」というものです。これはすべて1つのプロンプトだけで、モデルの出力がこれです。非常に印象的なものです。
コストと速度の課題
今まで見てきたのは素晴らしいものばかりですが、このモデルの最大の問題は、すでに議論したようにモデルの速度です。モデルのコストがどうなっているかを見なければなりません。このモデルは安くありません。このモデルの最も安価なバージョン、つまりGPT 5.2の場合、100万入力トークンあたりの入力料金はほぼ2ドルを支払う必要があります。100万出力トークンあたり、ほぼ14ドルを支払う必要があります。そしてGPT 5.2 Proは入力が21ドル、出力が168ドルです。これは膨大です。
実際、GPT 5 Proと比較しても、これははるかに高いです。OpenAIは多くの人々が使用することを期待していないと思います。しかし、使用する人々にとっても、この価格はClaude Opus 4.5よりも安いです。そしてこの価格はClaude Opus 4.5よりもはるかに高いです。もしあなたがこのチャンネルを見ているなら、たとえば何らかの薬を作成しようとしているような、世界で際立った何かを作ろうとしているのでない限り、Proモデルは必要ないかもしれません。これらのモデルがそれをできるかどうかは、完全に別の話題です。
しかし、このモデルは非常に高価です。このモデルは計算的に高価だと思いますし、遅いです。全体として、これはOpenAIからの素晴らしいリリースです。OpenAIは再び全体的なLLMリーダーボードでトップの座を獲得することに成功しました。このモデルは、先ほど言ったように、特にプログラミングとエージェント関連タスクに最適化されています。この特定のベンチマークから見ることができます。
まとめ
もしあなたがGPTシリーズのモデルが好きなら、OpenAIのファンであるなら、これはあなたが祝う時です。一般的にAIが好きなら、これは素晴らしいリリースだと思います。結局のところ、私たちは皆このモデルを使用して、何かクールなものを構築することになるでしょう。この特定のモデルについてのあなたの考えを教えてください。GeminiやxAI、あるいはClaude OpusやClaude Sonnetと比較して、あなたの意見ではどうですか。また別の動画でお会いしましょう。ハッピープロンプティング。


コメント