GPT-5.2への反発は研究に値する

GPT-5、5.1、5.2
この記事は約12分で読めます。

OpenAIが発表したGPT-5.2は、ベンチマーク上では過去最高の性能を記録し、コーディング、長文推論、ビジョン、エージェント的ツール呼び出しなど、あらゆる測定可能な指標で大幅な向上を示した。しかし、オンラインでの反応は祝福や興奮ではなく、懐疑、不信、さらには反発という奇妙な混合であった。この反発は無知からくるものではない。批判している多数のユーザーは数値を理解しており、だからこそこの反応は興味深い。GPT-5.2は確かにGPT-5.1より強力であり、専門的な知識労働、ソフトウェアエンジニアリング、数学、科学、長文推論、ビジョンなど、あらゆる領域で実質的な進歩を遂げている。しかし、ユーザーが感じているのは「ベンチマーク疲労」である。過去のリリースで培われた信頼の損失、そしてGPT-5.2が明確に企業向けの生産性タスクに焦点を当てており、会話の温かさや創造的自由といったユーザーが個人的に重視する要素が同じペースで改善されていないという認識である。AIの評価基準は変化し、もはや純粋な知能だけでは不十分であり、使用感、予測可能性、コントロール、関係の安定性が重要となっている。AIは企業向けの生産性システムと人間に優しい協力的システムという2つの道に分岐しつつあり、次世代のモデルが能力と快適性のギャップを埋められるかどうかが真の課題である。

GPT 5.2 Backlash Needs To Be Studied
OpenAI New GPT 5.2 AI model looks like a clear upgrade on paper, with big gains in reasoning, coding, long-context work,...

GPT-5.2の数値と反応のギャップ

さて、GPT-5.2について、そしてより具体的には、それに対する反応がなぜ奇妙に感じられるかについて話しましょう。なぜなら、紙面上ではこれは勝利の周回であるべきだったからです。OpenAIがGPT-5.2をリリースし、すぐに私たちがこれまで汎用モデルから見た中で最も強力な数値のいくつかを投稿しました。専門的なベンチマークでの新記録、コーディングでの大きな飛躍、大規模スケールでついに使用可能に見える長文コンテキスト推論、明らかにより信頼性の高いビジョン、そしてデモ対応ではなく本番対応に見え始めるエージェント的ツール呼び出しです。

測定可能なあらゆる指標において、OpenAIが示すことを選んだGPT-5.2はGPT-5.1よりも優れており、大幅に優れています。しかし、オンラインでの反応は祝福ではありませんでした。興奮でもありませんでした。どの研究所が勝っているかについて議論する通常の誇大宣伝サイクルでさえありませんでした。代わりに、続いたのは懐疑、苛立ち、ジョーク、不信、そして明白な反発という奇妙な混合でした。

Redditのスレッドは、もうベンチマークなんて気にしないと言う人々で溢れています。Twitterの投稿は、これらの数値が実際の製品を反映しているのかどうかを疑問視しています。開発者たちは「いいね、でも体感できたら信じるよ」と言っています。長年のユーザーは再登録したけれど、まだ信用していないと言っています。研究に値するのはこの部分です。なぜなら、この反発は無知についてのものではないからです。

GPT-5.2を批判している人々のほとんどは、実際には数値を理解しています。彼らはブログ投稿を読んでいます。チャートを見ています。これらの飛躍のいくつかがどれほど大きいかを知っています。そして、それがまさに反応が興味深い理由です。早い段階で一つのことを片付けておきましょう。そうしないと、この会話全体がすぐに脱線してしまうからです。

GPT-5.2の実際の性能向上

GPT-5.2は本当にGPT-5.1よりも強力です。これはマーケティングの誇張ではありません。OpenAIはいくつかのことを調整して新しいバージョン番号を貼り付けただけではありません。データは、スプレッドシートの作成、プレゼンテーションの作成、スケジュール、図表、ビジネス成果物の作成など、44の職業にわたる実際の専門知識労働を評価するGDPにおいて、実質的な進歩を示しています。

GPT-5.2 thinkingは、約71%のタスクで人間の業界専門家を打ち負かすか同等の成績を収めています。これはGPT-5.1 thinkingの約39%から上昇しています。そして、OpenAIが速度とコストを見たとき、GPT-5.2は同じタスクを人間の専門家より11倍以上速く、コストの1%未満で完了しました。これは微妙なものではありません。

ソフトウェアエンジニアリングにおいて、GPT-5.2 thinkingはSWE-proで55.6%という新しい最先端を設定しています。このベンチマークが重要なのは、以前のテストよりもゲーム化が難しいように設計されており、Pythonだけでなく4つのプログラミング言語にまたがっているからです。業界比較で広く使用されているSWE-Bench verifiedでは、GPT-5.2は約76%から80%に達しています。これは、半分完成したパッチが減り、エンドツーエンドの修正が増え、大規模なコードベースをリファクタリングする際の監視が少なくなることを意味します。

進歩はそれを超えて続いています。記憶に抵抗するように設計された大学院レベルの科学ベンチマークであるGPQA Diamondでは、GPT-5.2 Proは93%以上に達し、thinkingはすぐ後ろの92.4%です。ツールなしの競技レベルの数学であるAME 2025では、GPT-5.2は完全な100%に達しています。専門家レベルの数学問題に焦点を当てたFrontier Mathでは、ティア1から3の問題で約31%から40%以上への飛躍を示しています。

それからArc AGIがあります。これは多くの研究者がスクロールを止めさせたものです。パターン想起ではなく抽象的で新規な推論を分離するように設計されたArc AGI 2 verifiedでは、GPT-5.1 thinkingは約17.6%のスコアでした。GPT-5.2 thinkingは52.9%に跳ね上がり、Proはさらに高くなります。これは通常の漸進的改善ではありません。これは傾きの変化です。

長文コンテキスト推論も実質的な飛躍を遂げます。モデルが極めて長い文書に散在する情報を統合できるかどうかをテストするOpenAIのMRCR version 2評価では、新しいモデルは最大256,000トークンの最も難しいバリアントでほぼ完璧な精度に達します。

実用的な意味では、これは大規模なレポート、契約書、トランスクリプト、または複数ファイルのプロジェクトを投げつけても、途中で崩壊しないことを意味します。ビジョンも改善されています。Chart ReasoningやScreen Spot Proのようなベンチマークでは、GPT-5.2はGPT-5.1と比較してエラー率を約半分に削減しています。チャートの読み取り、ダッシュボードの理解、ソフトウェアインターフェースの解釈、画像内の空間レイアウトについての推論がより優れています。

並列比較の例では、新しいモデルはランダムな断片にラベルを付けるのではなく、コンポーネントが互いにどのように関連しているかを実際に理解しています。ツール呼び出しは、もう一つの静かだが重要なアップグレードです。Tao-2 Bench Telecomでは、マルチターンカスタマーサポートシナリオで98.7%の精度に達しています。推論努力を下げても、以前のモデルを上回ります。

これは、API呼び出し、データの取得、分析の実行、そして途中で崩壊することなく最終的な出力を生成しなければならない長時間実行エージェントを構築している場合に重要です。ですから、いいえ、これは悪いモデルではありません。これはおそらくOpenAIがこれまでにリリースした中で最も強力な汎用システムであり、それが反発をさらに物語っています。

コンテンツ制作の秘密

物語の深部に飛び込む前に、コメントで見続けているものがあります。どうやってこれほど速く多くのコンテンツを制作できるのかと尋ねる人々です。見てください、2025年だけで、このチャンネルは3200万回の視聴を獲得しました。それは運ではありません。もっと懸命に働いているわけでもありません。新しいAIの画期的な進歩がリリースされるたびに、それを私たちのワークフローに直接組み込んでいるからです。ほとんどの人はAIニュースを見て先に進みます。

私たちはそれをすぐに使用します。そこで、これまで共有したことのないものをリリースすることにしました。2026 AIプレイブック。AI時代を支配するための1000のプロンプトです。これは、AIコンテンツを消費するだけから、実際にAIを使用して自分自身のために本物の不公平な優位性を構築する方法です。4時間ではなく20分で提案書を完成させましょう。

先延ばしにし続けているサイドビジネスを立ち上げましょう。会社で半分の時間で2倍の仕事をする人になりましょう。創設メンバーアクセスはまもなく開始されます。説明欄のウェイトリストに参加してください。さて、動画に戻りましょう。

ベンチマーク疲労という問題

最初の主要な摩擦点は、多くの人が言語化するのに苦労しているものです。ベンチマーク疲労です。

何年もの間、すべての主要なAIリリースにはチャートの壁が付いてきます。各チャートには最先端と書かれています。それぞれがきれいな上向きの線を示しています。そしてある時点で、それらの数値は技術的には依然として重要であっても、人々を感情的に説得することをやめました。ユーザーがベンチマークが無用だと思っているわけではありません。彼らがベンチマークが日常体験にきれいにマッピングされるとは限らないことを学んだということです。

人々が最大推論努力で実行とか高推論といったフレーズを見るとき、もはや即座の反応は興奮ではありません。疑念です。それは実際に製品で得られるものなのか、それとも評価に勝つために調整された研究所設定なのか。これは反応の至る所で見ることができます。

グッドハートの法則についてジョークを言う人々。より賢く感じるようにではなく、良いスコアを取るように訓練されているモデルについてのコメント。トークン使用量についての質問、そしてOpenAIが競合他社の通常の構成に対して最良ケースの実行を比較しているかどうか。これらの批判が単純化されすぎている場合でも、その背後にある感情は本物です。ベンチマークは以前は進歩を示していました。

今では、進歩が起こっていないからではなく、ユーザーが以前に傷ついたことがあるため、しばしば懐疑を引き起こします。これが第二の摩擦点につながります。

過去のリリースからの信頼の損失

過去のリリースからの信頼の損失です。GPT-5とGPT-5.1は痕跡を残しました。多くの人々は、初期の興奮に続いて微妙な行動変化、スロットリング、拒否、そして多くの人が神経質と認識したものを覚えています。

すべての苦情が公平だったかどうかはもはやほとんど問題ではありません。重要なのは、その後形成された期待です。多くのユーザーは現在、新しいリリースに防御的にアプローチしています。彼らは最良のバージョンが持続しないと想定しています。彼らは何かがダイヤルバックされると想定しています。彼らは今日テストするモデルが1か月後に同じように動作しないと想定しています。だからGPT-5.2が印象的な数値で到着すると、最初の反応はワオではなく、どのくらいの間かです。

その考え方はすべてを変えます。人々が劣化を期待すると、改善はデフォルトで一時的に感じられます。本物の利益でさえ疑いを通してフィルタリングされます。

企業向けへの最適化と個人ユーザーの違和感

第三の摩擦点、そしておそらく最も重要なものは、GPT-5.2が明確に改善に焦点を当てた場所です。このリリースのほぼすべての主要な利得は同じ方向を指しています。専門的な企業グレードの仕事、スプレッドシート、スライドデッキ、エージェントワークフロー、ツール呼び出し、長文書、コーディング、データ分析です。これらは経済的に価値のあるタスクです。これらは企業契約とAPI支出を正当化する種類のものです。そしてGPT-5.2は間違いなくそれらでより優れています。

同時に、多くのユーザーは、彼らが個人的に気にかけていることが同じペースで改善されなかったと感じています。会話の温かさ、創造的自由、柔軟性、ポリシーを実施するシステムではなく協力者と話しているという感覚。多くの人々はGPT-5.2をより冷たく、より構造化され、より企業的で、仕事をするのはより優れているが、一緒に仕事をするのが快適に感じるのはより悪いと説明しています。

これはOpenAIが何か間違ったことをしたという意味ではありません。それは彼らが選択をしたということを意味します。GPT-5.2は創造的なコンパニオンではなく、ジュニアアナリストを置き換えるように最適化されたモデルのように感じます。そして、ユーザーの大部分にとって、そのシフトは不快です。

その上に、安全性と拒否をめぐる継続的な苛立ちを重ねると、反応は理解しやすくなります。多くの人々は混沌や無制限のナンセンスを求めているわけではありません。彼らはより少ない摩擦、より少ない講義、より少ない不必要なブロック、大人として操作できるというより多くの信頼を求めています。だから、GPT-5.2がより強力な推論で到着しても、依然として同じ安全性の緊張を抱えているとき、そしてアダルトモードの変更が再び遅延しているとき、知能の利得は感情的に完全には着地しません。

非常に賢いモデルでさえ、フローの途中であなたを止め続ければ賢く感じません。タイミングもここで役割を果たしています。このリリースをめぐる文脈を無視するのは難しいです。Gemini 3が着地し、突然OpenAI内部でコードレッドの話があります。

優先順位がシフトし、リソースが移動し、アダルトモードのような機能が2026年に延期され、GPT-5.2が速くロールアウトされます。それはGPT-5.2を偽物にしたり、ずさんな意味で急いだりするわけではありませんが、ビジョナリーではなく反応的に感じさせます。ユーザーはその違いを感じ取ることができます。ポジションを守るためにリリースされたモデルは、風景を再定義するためにリリースされたモデルとは異なって感じます。

変化した評価基準

これらすべてが、反発が重要である理由です。GPT-5.2が失敗したことを意味するのではなく、人々が現在AIを判断するために使用する基準が変化したことを示しているからです。生の知能はもはや十分ではありません。チャートもそうです。技術的に正しいこともそうです。より頻繁に、人々はモデルを使用するときの感じ方、どれだけ予測可能か、どれだけのコントロールを持っているか、そして関係が安定していると感じるかどうかを気にかけます。

GPT-5.2への反応は摩擦と懐疑をもたらします。それは、彼らの期待が満足度よりも速く動いたために、ユーザーが反発しているということであり、それがおそらく最も重要な信号です。AIは2つの道に分かれ始めています。一つの道は、生産性、効率性、経済的産出のために最適化された企業グレードのシステムに向かっています。GPT-5.2は明確にその道を前進させます。

もう一つの道は、人間に優しい知能、協力的で、柔軟で、日常的な使用において信頼できると感じるシステムについてです。今後の本当の質問は、モデルがより賢くなり続けるかどうかではありません。それらはそうなります。質問は、次世代が能力と快適性の間のギャップを閉じることができるかどうかです。

なぜなら、知能が上昇し続ける一方で信頼が横ばいのままであれば、このような反応は例外ではなくなるからです。それらが標準になるでしょう。GPT-5.2はOpenAIがこれまでにリリースした最も賢いモデルの一つかもしれませんが、それに対する反応は、知能だけではもはや成功を定義しないことを示しています。

コメント

タイトルとURLをコピーしました