OpenAIの新型GPT-5.2がリリースされGemini 3超えを約束 – 今度こそ実現するのか?

GPT-5
この記事は約12分で読めます。

OpenAIが新たにGPT-5.2をリリースし、Gemini 3との熾烈なAI競争が新たな局面を迎えている。GPT-5.2はArcade AIベンチマークで52%を記録し、Gemini 3 Pro Refineの54%に迫る性能を示しつつ、コストは半分に抑えられている。特に知的作業タスクにおいて従来の40%から70%へと大幅な性能向上を実現し、ビジネス用途に特化した改良が施されている。数学、プログラミング、画像認識、長文コンテキスト処理など多岐にわたる分野で顕著な進化を遂げ、エラー率も6.2%まで低下した。ユーザーは平均して1日40〜60分、ヘビーユーザーは週10時間以上の時間節約が可能になるとOpenAIは主張している。このリリースは、最近の調査でチャットGPTの人気が急落している状況への対応とも見られ、サム・アルトマンも積極的にメディア出演を行っている。GPT-5.2は有料プラン向けに段階的に展開され、APIでは既に全開発者が利用可能となっている。

NOVO GPT-5.2 da OpenAi LIBERADO e Promete SUPERAR o GEMINI 3 - Será Que Agora Vai?
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

OpenAIがGPT-5.2をリリース、Arcade AIベンチマークでトップに

皆さん、私が話していた通り、木曜日はリリースの日でして、OpenAIがGPT-5.2を発表したばかりです。見てください、Arcade AIのトップで輝いているのがGPT-5.2 Highです。そしてGemini Proがどこにいるかというと、ここです、下の方にいます。これは本当なんでしょうか? それともベンチマークの話に過ぎないんでしょうか?

Opus 4.5はここで首位を維持していますが、Gemini 3 Pro Refineがここにいて、54点を記録して、前に出ているように見えます。では、何が起きているのか理解していきましょう。GPT-5.2とは一体何なんでしょうか? 一緒に見ていきましょう。

チャンネルの紹介と今日のトピック

それでは皆さん、いつもいいねを押してくれたすべての方、チャンネル登録してくれたすべての方に感謝しています。この人工知能チャンネルをスポンサーしてくれているチャンネルメンバー全員に特別な感謝を送ります。

メンバーの皆さんには、インテリジェントエージェントに関する限定動画へのアクセス権があり、そこでMCP、WhatsApp、PDFの読み取り、スプレッドシートとの統合方法を教えていますし、事前公開動画へのアクセスもあります。もしあなたが会社に人工知能を導入することを考えているなら、カスタマーサービスアシスタントを設置したい、読まなければならない大量のプロセスの官僚主義を取り除きたいと思っているなら、Maximiza IAの人たちがそのプロジェクトを実現するのを手伝ってくれます。リンクは説明欄にあります。

今日のテーマはこれです、皆さん。GoogleとチャットGPTの間でのAI競争における首位争いです。私がアンケートを取ったところ、チャットGPTが驚異的に急落しているようです。するとサム・アルトマンがインタビュー番組に出始めて、慌てふためきながら説明しようとしています。

色々なことが起きていて、彼らの反応がこれなんです。GPT-5.2、これはOpenAI自身によれば、知識ベースの専門的な作業において現時点で最も能力の高いモデルだということです。

GPT-5.2の特徴と性能向上

彼らは何と言っているでしょうか? ここを見てください。平均的なユーザーは1日あたり40分から60分節約できると言っています。そして最も頻繁に使用するユーザーは、チャットGPTを使用することで週に10時間以上節約できると言っています。

そして重要な部分ですが、GPT-5.2は人々にさらなる経済的価値を生み出すように設計されています。スプレッドシートの作成、プレゼンテーションの作成、コードの記述、画像の認識、長文の理解、ツールの使用、そして複数段階の複雑なプロジェクトの処理においてより優れています。

お分かりですね? ここではビジネス的なことに焦点を当てていますが、それでも他のすべての機能も改善されています。では、何が起きているのか注意深く見ていきましょう。

彼らは5.2と5.1を比較しています。このベンチマークの名前を見てください、PBVです。これは知的作業タスクのテストです。ほぼ40%から70%に上昇しています。つまり、彼らの努力は本当にここにあるということです、これらの知的作業タスクにおいてです。

彼らは本当にチャットGPTを私たちのために働かせることに集中していて、仕事をする時に価値を提供しようとしています。これらが強みです。これには本当に注意を払わなければなりません。なぜなら、例えば他のものを見ると、50から55、76から80に上昇していて、それは良いことですが、40から70に上昇する時は、そこに特別なものがあるということが分かります。

特にここです、AIME 2025では、数学コンテストですが、既に100%を達成しています。つまり、何も間違えていないということです。100%を達成し始めた最初のモデルたちです。これについてどう思いますか?

ここの高度数学でも30から40に上がっています。10%の増加がある時は、ここは興味深いですよね? 数学には注意を払う必要があります。

しかしここで最も注目を集めているのは、間違いなくArcade AI 2です。17%から52%に上昇しています。なぜこのArcade AI 2のテストがそれほど重要なのでしょうか? なぜならこのテストは、答えを暗記して回答することができない数少ないテストの一つだからです。推論をリアルタイムで行わなければならないからです。

つまり、ここで高得点を取っているこれらのモデルは、インターネットで既に答えを見て結果を知っているようなモデルではないということです。いいえ、ここではその場でやらなければなりません。本当の論理演習なんです。

コスト効率とパフォーマンスの比較

つまり、どうやらここにリーダーがいるようです。そして冒頭でコメントしたように、Gemini 3 Pro Refineがここにいて、タスクあたり30ドルのコストで54%の正解率を出しています。そしてここでは54.2%の正解率を出しています。0.2%高いですが、タスクあたりのコストは1ドルです。

結局のところ、0.2ポイント差でリードしていますが、タスクのコストはここで半分になっています。彼らはここでこう述べています。チャットGPT 5.2のInstant ThinkingとProは今日から実装が始まり、有料プランから始まります。APIでは既にすべての開発者が利用可能です。

まだ表示されていない場合は、週の間に表示され始めます。私の場合、まだバージョン5.1のままです。まだ最新版にアクセスできていないので、辛抱強く待ちましょう。

ここでGDP Valを見ると、これは業界のプロフェッショナルに対して何回勝利したかの割合です。濃い青が勝利で、薄い青が引き分けです。古いGPT-5を見ると、最大でもここで38%でした。そしてここのエキスパートレベルは約50%です。

どうやら5.2 Proと5.2 Instant Thinkingは既に60%から50%を達成していて、専門家のレベルに到達しています。そして引き分け、つまり両者が同等の場合を合わせると、74.1%の正解率と言えます。これは基本的に、言い換えると、彼らはこれが既に人の代わりに働くことができると言っているのです。

かなり議論の余地がありますが、事実です。これらの数字が言っていることです。実際にこれが起こるかどうかは、まだ確かめなければなりません。

実用的な改善点

5.2をここの5.1の表と比較すると、はるかに丁寧で、はるかに正確な仕事ができるようになっています。この2つの表の違いを見てください。実際、5.1がやっていた不正確なことも、今では5.2は間違えなくなっています。

タスク管理では、この違いを見てください。COバージョンがここで超基本的な表を作っているのに対し、5.2 Instant Thinkingはここで、日付、タスクを含む追跡システム全体を作成していて、はるかに複雑で、はるかに興味深いものになっています。アイデアは本当にプロジェクト管理ツールを作ることだと思います。

コーディングの面では、5.2は旧世代のすべてを上回っています。そして、私たちのプログラミングテストでは、一般的にGPT 5.1でさえ優れていますが、ClaudeやGeminiと比較するとそれほど目立ちません。この小さな改善が何か意味を持つかどうか見てみましょう。

OpenAIには、自分のモデルと他のモデルとの比較を決して示さないという習慣があります。自分のモデル同士でしか比較しません。だから、何が起こるかはテストしてみないと分かりません。

彼らはここで生成されたプログラムのいくつかの例を残しています。例えば、このタイドシミュレーターでは、下に潮があって、例えば風速を上げたり下げたりできます。すると潮が動き始めます。

波のサイズを大きくすることができます、大きな波です。すると波がずっと大きく揺れています。照明も制御できて、照明を増やしたり、海の反射を減らしたりできます。見てください、興味深いですね。ここの波の光の反射を見てください。今はどうなっていますか? とても明るいです。そして今、照明を取り除くと、より不透明になります、ほとんど気づけません。

そして彼らはここでプロンプトを置いています、海の波のシミュレーターであるHTMLでアプリを作成するというものです。どう思いますか?

業界からの評価と技術的改善

それからWindSurf、そしてここにたくさんの人たちがいます。JetBrains、Klein、Killo、Azad、Charlie Laboratoryなど、みんながここで好意的に話していて、お世辞を言っています。

OpenAIがかなり長い間話し続け、主張し続けていて、改善し続けていることがあります。それがエラー率です、クエリレスポンスレベルでのエラー率です。

ここでは、低いほど良いですね? 5.2のエラー率は6.2%で、5.1が8.8%だったのに対し、エラーはさらに低くなっています。

長いコンテキストのテストでは、これが最も重要なテストの一つです。彼らが4つの針でこのテストを行っている時、この結果を見てください、皆さん。5.2 Instant Thinking、濃い青、一番上のこれは、ほぼ100%ずっと続いています。ここでコンテキストが256,000トークンに増えても、ほぼ100%で機能し続けています。実際には98%です。

つまり、彼らが言っているのは、あなたがその巨大なコードや途方もなく長いテキストを送る時、テキストが非常に長くても対応できるということです。

そして同じテストが、長いコンテキストのために8つの針で行われています。5.2のパフォーマンスは、ここの最後のコンテキストレベルで70%に下がりますが、5.1が30%に下がっていたのに比べてはるかに高いです。つまり、40%の改善です。これは祝うべき改善ですね、皆さん。

ビジョンタスクでは88.7%を達成しています。非常に興味深い、8%の改善です。そしてスクリーンキャプチャでも大幅な改善があります、皆さん。

見てください、64から86へ、20%以上の改善です。つまり、インテリジェントエージェント、何かをするように命令するもの、コンピューター使用、インターネットでナビゲートし始めるものは、ここで大幅なパフォーマンス改善があるはずです。

画像認識とツール使用の進化

彼らが5.1と5.2の画像検出の比較をここで行うと、5.1はかなり一般的なものです。USBポートがここにあり、VGAポートがここにあり、残りはすべてマザーボードです。

そして5.2ではかなり正確な説明をしています。チップセットが何か、PCIの拡張スロット、CPUブロック部分、メモリ、HDMIが何か、USBが何か、RJ45が何かをここに示しています。つまり、画像検出の部分では、物事がはるかに深くなっています。

ツールの使用に関しては同じことです、皆さん。ここから、47、49という以前のバージョンの値から98、95%のパフォーマンスを達成するまで上昇しています。これはインテリジェントエージェントがタスクの実行においてより良くなるはずだということを意味します。Codexではかなり改善するはずです。

彼らはここで例を挙げています。例えば、パリからニューヨークへのフライトを逃した人がいて、荷物が紛失していて、ニューヨークで一晩過ごす必要があると言っています。医療上の理由で最前列の特別な座席が必要です。手伝ってもらえますか? するとチャットGPT 5.1はここで非常に短く、非常にシンプルな回答をします。

そしてバージョン5.2では、その人が求めているすべての要求を含む、はるかに完全なものを作成します。つまり、あなたのカスタマーサービスアシスタントがより複雑なタスクを処理できるようになることを期待してください。これが基本的に彼らが言っていることです。

科学と数学の部分では小さな改善がありますが、そういうものです。88から93というのは、改善したと言うための小さな改善です。

しかしそこにあります、レベル1と3の高度数学でここに示されています。31から43へというのはほぼ10%の改善です。つまり、数学の部分は非常に良くなることを期待してください。

リリース情報と利用可能性

そして彼らはここでコメントしています。今日から5.1の実装が始まります。既にコメントしましたが、ここで繰り返しましょう。有料プラン、Plus、Go、Business、Enterpriseから始めます。

つまり、徐々にみんなに表示され始め、チャットGPTをできるだけアクセスしやすく信頼性の高いものに保つために、実装は段階的になります。確認するためにF5を押したばかりですが、まだ表示されていませんでした。まだ見つかりませんが、大丈夫です。

すぐに表示されない場合は、後でもう一度試してください。5.1はレガシープランでさらに3ヶ月間利用可能で、その後5.1は無効になります。つまり、5.1が好きだった人は、楽しむためにあと3ヶ月あります。

APIを使用している場合、3つのモデルがあります:instant、思考、そしてproです。Instantは日常的な作業と学習のためのもので、質問や情報検索、チュートリアルにおいて大幅な改善があります。一般的なことです、日常的なより速いもの、一般的な質問などです。

Thinkingはより複雑な作業のためのもので、より精度の高い、より詳細なタスクを与えるためのものです。これは一般的にエージェントにうまく機能します。

Proは、彼らによれば、高品質の回答が待つ価値のある難しい質問のための最も賢く信頼性の高いオプションです。これはあれですね、時計に片手を、財布にもう片方の手を置く、なぜならこれには時間がかかることが分かっているからです。

まとめと今後のテスト予定

さて、皆さん、どう思いますか? もう5.2をテストできた人がいたら、もう表示された人がいたら、下にコメントしてください。私のところで利用可能になり次第、すぐにテストします。だから、おそらく明日にはあなたたちが好きなテストをする動画が公開されるでしょう。

今回は念入りにテストをしたいと思います。なぜならGeminiとのこの競争が非常に激しくなっていて、このテストはチャットGPTを使い続ける価値があるかどうかを判断するために、非常によく行われる必要があるからです。なぜなら、私が言ったように、私たちが行ったテストでは、チャットGPTの下落は非常に大きかったからです。

人工知能の使用に関する調査と別の調査の間で、Geminiとほぼ並んでいた2位から、最後の方でGrokとほぼ並んでいる3位に落ちました。それでは、OpenAIが幸せなクリスマスを迎えることができるのか、それとも猛烈にGeminiを追い越そうとして、加速して年を始めるのかを見てみましょう。

そして、このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーにはインテリジェントエージェントの限定動画と事前公開動画へのアクセス権があります。それでは、いいねをお願いします。ありがとうございました。

コメント

タイトルとURLをコピーしました