OpenAIがリリースしたGPT-5.2に対して多くのパワーユーザーから批判が噴出している状況を分析した動画である。Googleの Gemini 3への対抗としてリリースされたこのモデルは、ベンチマーク上では優秀な成績を示しているものの、実際の使用感では前バージョンのGPT-5.1より劣化したという声が相次いでいる。この矛盾の背景には、ベンチマークへの過学習やデータ汚染の問題があり、モデルが特定のテストでは高得点を取れても、実世界のタスクでは期待通りに機能しないという構造的課題が存在する。OpenAIがGoogleとの競争圧力から早期リリースを余儀なくされた可能性や、実際にはこのモデルが完全版ではなく初期チェックポイントであったことも明らかになっており、AI業界における評価指標と実用性のギャップ、そして激化する企業間競争の実態が浮き彫りになっている。

新しいChatGPTへの批判の嵐
どうやら皆が新しいChatGPTを嫌っているようで、これについて話す必要があります。GPT-5.2がリリースされましたが、リリース時にはGreg Brockmanの言葉を引用すると、プロフェッショナルな仕事や長時間稼働するエージェントのための最も先進的なフロンティアモデルでした。これは基本的にOpenAIがリリースしたモデルで、Googleの Gemini 3への事実上の反撃となるものでした。
モデルがどのようにリリースされたかご存じない方のために説明すると、Gemini 3は数週間、あるいは数日前にリリースされていました。そして多くの人々が非常に驚いたため、ChatGPTのサブスクリプションをキャンセルしてGoogleに乗り換えたのです。なぜならGoogleは基本的にAIスタックの全てを持っているからです。
さて、このモデルがリリースされた時点では、最も先進的なモデルとされていました。ベンチマークを見ると、解像度について申し訳ないのですが、これはあなたのスマホやノートパソコンの問題ではなく、私が持っている画像の問題です。しかしポイントは、GPT-5.2 thinkingが他のすべてのモデルより一歩上にあるはずだったということが分かります。
何が起きたのか
それで私は疑問に思いました。一体何が起きたのでしょうか。日常的にChatGPTを使っている方は、ユーザーからの苦情やモデルに関する何か変なことに気づいていないかもしれません。しかし多数のパワーユーザー、いや声の大きい少数派と言うべきでしょうか、彼らは5.2が思っているようなモデルではないことに気づいたのです。
そしてなぜそうなのか正確に説明していきます。そして私はその理由を正確に知っていると思います。そして動画の後半でのさらなる疑惑が、OpenAIがどこに向かっているのかをお見せすることになるでしょう。
もちろん、他の人々も同じ結論に達しているか見てみたかったのですが、5.2がどれだけ悪いかについてのツイートが非常に多くありました。ただし、彼らがかなり誇張していることは述べておかなければなりません。なぜなら「なんてこった、GPT-5.2はおそらく彼らがこれまでリリースした中で最悪のモデルだ。彼らが何をしたのか全く分からない。これが私のグループがテストしたアルファモデルであるはずがないし、5.1にさえ近くない。これは私がこれまで見た中で最大のナンセンスだ。5.1より悪く、すべての評価で失敗した。OpenAIは完全に終わりだ」と言っているからです。正直に言いましょう。これはちょっと誇張です。
彼らはたくさんの良いモデルをリリースしてきました。これまでにリリースした中で最悪のモデルだとは思いませんが、最高のモデルではないかもしれません。
パワーユーザーからの批判
さて、先ほど言ったように、これはこの人だけではありませんでした。パワーユーザーだけでもありませんでした。私は声の大きい少数派のパワーユーザーの広範な合意を見ました。彼らは5.2が単に最高のモデルではないと述べていました。最高のモデルではないというだけでなく、ある意味奇妙な形でモデルに対する本当の嫌悪感があったのです。ツイートから分かるでしょう。
「GPT-5.2 instantは壊れたモデルだ。カスタム指示やメモリを無視し、思考の前にコンテキストを汚染する。モデルは2つ目のメッセージごとにセーフガードを発動する。思考モードは全く別の動物で、少なくとも同等に良い」という人もいます。
「GPT-5.2はひどすぎる。GPT-5は非常に嫌われていたので5.1がアップグレードのように感じられた。そして5.2はあまりにひどいので、実際に5を良く見せている」と言う人もいます。
信じてください、もっとたくさんのツイートがありました。これは動画を作るためだけにツイートを選んでいるのではありません。たくさんの異なるツイートがあり、その多くが異なる「いいね」を獲得していました。私は単に、人々が実際にモデルが悪いと思った様々な理由をお見せするために、異なる種類のツイートを紹介したかっただけです。
ベンチマークの矛盾
それで、あなたはこう思うかもしれません。モデルはリリースされた、Gemini 3への反撃としてリリースされた。では一体どうやってOpenAIはこれを台無しにしたのか、実際に何が起きたのか。
さて、お見せしたかったことの一つはSimple Benchです。なぜならこのモデルについて本当に奇妙なことが一つあるからです。正直に言うと、それはベンチマークの不一致です。GPT-5.2 Proは様々な異なるベンチマーク全体で驚くほど一貫性がありません。つまり、GPT-5.2は特定のベンチマークでは成功し優秀な成績を収めますが、他のベンチマークではテストに完全に失敗するのです。
例えば、Simple Benchは賢いモデルが解けるはずのベンチマークで、現実世界の理解が良いモデル向けです。実はこれについては後で戻ってきます。しかし言いたいポイントは、Simple Benchはモデルを引っかけ問題で騙そうとするように設計されたベンチマークで、モデルが実際に質問の全体に注意を払っているかどうかを確認するものです。単に何かを暗記しているだけではないかを見るのです。そしてSimple Benchベンチマークでの順位は9位でした。
正直に言って、これは良くありません。なぜなら Gemini 3 Flash、他のClaude Opusモデル、GPT-5 Proより下だからです。つまり、ここ6月にリリースされた Gemini 2.5 Pro previewよりも下なのです。
それで、Googleより数ヶ月後、Grokより数ヶ月後、Claudeより数ヶ月後にリリースされたモデルが、どうやって基本的にモデルの真の推論能力をテストするテストの一つで失敗しているのでしょうか。真の推論と言うときに、私は数学やコーディングやそういった定量的なベンチマークについて話しているのではありません。人間が行うような方法で世界を理解することについて話しているのです。
多くの人々が言っています。「たくさんのツイートがあったことを覚えていますか」信じてください。ある人は「これが私たちが5.2を嫌う理由だ。人間のように役割を演じることについて話していて、本当にひどく聞こえる」と言いました。
感情的知性の評価
先ほど言ったことを思い出してください。5.2は信じられないほど賢いモデルです。しかし一部のベンチマークでは完全に崩壊するように見えます。そしてその理由が正確に何なのか掘り下げていきます。しかし5.2がなぜこんなに奇妙なのか、そしてOpenAIが物事をどう進めていると私が考えているかに入る前に、最後の例をお見せしたいと思います。それはEQ Benchでの成績です。
多くの人々が5.2は感情的なベンチマーク、つまり人間と話すのがどれだけ上手か、性格をシミュレートするのがどれだけ上手かという点で完全にひどいと言っていました。しかしEQ Bench 3を確認したところ、GPT-5.2は能力において3位で、これは完全に驚きです。
なので正直、ベンチマークに何が起きているのか分かりませんが、何かが起きていると思います。
過学習の可能性
最近かなり議論されていることの一つで、これがいくつかの理由から最も理にかなっていると思うのは、過学習の可能性です。
ある人が「OpenAIのOは過学習(Overfitting)のOに違いない。5.1を本当に愛していた者として、これは大きな後退のように感じる。答えが急いでいるように感じる。ニュアンス、深み、創造性がない」とツイートしました。
過学習が何か知らない方のために、できるだけシンプルに説明します。このツイートを引用します。信じてください、これはたくさんのテキストですが、超簡単に要約します。このツイートは約2000リツイートを獲得しました。これは基本的にIlya Sutskeverの最近のポッドキャストを引用しており、彼はAIが例題を非常に熱心に学習し練習すると、一般的なパターンを学ぶ代わりに基本的にそれらを暗記してしまうという事実について話しています。
そしてトレーニング中に見たベンチマークでは非常に賢く見えますが、新しい未見のデータでは基本的に非常に悪いパフォーマンスをするのです。
「つまり、人々は評価から着想を得るということが意図せず起こるのです。『リリース時にモデルが本当に良いパフォーマンスをしてほしい。評価が素晴らしく見えてほしい。このタスクで役立つRL訓練は何だろう』と言うわけです。私はそれが起こっていることだと思いますし、多くのことを説明できる可能性があると思います。
これをモデルの汎化が実際には不十分であるということと組み合わせると、私たちが見ているものの多くを説明する可能性があります。評価パフォーマンスと実際の現実世界のパフォーマンスとの間の断絶、これは今日私たちがそれが何を意味するのか正確には理解していないものです」
学生の例えで理解する
この例を使って考えてみてください。読むために一時停止したい場合はそうしてください。しかし、実際の科目内容を理解する代わりに、去年の試験の正確な答えを暗記する学生を想像してください。教師がそれらの質問を少しでも変更すると、突然、学生はテストで悪い成績を取ることになります。なぜなら彼らは根底にあるアイデアや概念を決して学ばなかったからです。
AIでも基本的に同じことです。過学習したモデルは基本的にトレーニングデータに過度に適合しているだけで、実生活では決して繰り返されないランダムなノイズや癖も含めてです。そしてそれらを学ぶので、テストやそういったものに関しては本当に良いパフォーマンスをします。しかし現実世界では単に失敗するのです。これがこのツイートが指摘していることです。そして私はこれが最大の問題を要約していると思います。
将来これはかなり変わると思います。なぜなら、研究チームにはベンチマークスコアを上げるために設計された新しい強化学習トレーニング環境を作ること以外何もしない部門全体があると話しているからです。彼らはSW bench、MMLUを標準化テストのように扱います。そしてモデルはそれらのテストを猛勉強し、その後プロダクションで単純なバグを修正できず、2つの新しいバグを導入してしまうのです。
競争プログラマーの例え
Sutskeverの例えは完璧です。学生Aは1万時間の競争プログラミングを猛勉強し、すべてのアルゴリズム、すべてのエッジケースを暗記して、世界一の競争プログラマーになります。しかし学生Bは100時間練習しますが、直感、センス、そして新しいことを素早く学ぶ能力を持っています。どちらがより良いキャリアを持つでしょうか。学生Bです。なぜなら現在のAIモデルはすべて学生Aだからです。
研究によると、データ汚染が人気のあるベンチマークでモデルのスコアを20%から80%膨らませることが示されています。これは本当です。私たちは、いや私たちではありませんが、これを示すような論文を見てきました。データ汚染は、正直どうやって解決するのか分かりません。なぜなら特定のベンチマークは単にそこにあり、これらのモデルは基本的にすべてのものでトレーニングされるからです。
あなたは理解しなければなりません。ある引用があります。誰からかは覚えていませんが、「インセンティブを見せてくれれば、結果を見せよう」という言葉です。そしてすべてのAI企業には、彼らの新しいモデルが次の最高のモデルよりもベンチマークで良いパフォーマンスをするというインセンティブがあることを理解しなければなりません。
もし彼らがそれをしなければ、認識は「ああ、このモデル会社は廃業するだけだ。彼らはひどい。前のものより良いものをリリースしなかった。戦争だ」などとなります。そして私はこれが多くの人にとって悪い考え方だと思います。なぜなら、必ずしもより良いパフォーマンスをするモデルではなく、専門タスクでより良いパフォーマンスをするモデル、つまり世界の真の理解を持つモデルの方がおそらく良いからです。
経済的パズルの説明
そしてこれが私がこのツイートから見た最高の引用です。だからこそこの動画に含めなければならなかったのです。「これは私が指摘した経済的パズルを説明します。モデルはAME 2025で100%のスコアを取れます。GDPバリューで70%に達し、人間の専門家を打ち負かします。これは経済的に価値のある仕事のベンチマークです。しかし企業はまだAIモデルから価値を引き出すのに苦労しています。
ベンチマークのパフォーマンスは天才的ですが、損益計算書はそう言っていません。そのサンプル効率のギャップがすべてを物語っています。人間のティーンエイジャーは10時間後にどんな車でも運転することを学びます。AIモデルは何百万もの例が必要かもしれず、それでもわずかな変化で失敗します。人間は概念を一度学び、どこでも適用します。
モデルは正確なパターンを何千回も学ぶ必要があり、それでもフォーマットがわずかに変わると詰まるのです。これは絶対に真実です。モデルは超天才のように見えます。これに戻ると、これはMMLUだと思いますが、GPT-5.2 thinkingは超超賢いことが分かります。しかし現実世界では、これらのモデルは単にランダムなことではそれほど良いパフォーマンスをしません。
あなたの奇妙な仕事のタスクに対してモデルを使う場合、それは単に理解しません。時々本当に苦労します。これらのモデルが経済的に価値のあるタスクで完全に役に立たないと言っているわけではありません。ベンチマークが主張するほど実際に賢い人がいたら、それらのAIシステムよりもはるかに多くのことができるだろうと言っているだけです。
なのでモデルがIQ140を得たからといって、コンピューターの中にIQ140の人がいるのと同等ではないのです。本当に1対1のマッピングではないのです。
さらなる批判と業界の圧力
もちろん、多くの人々がGPT-5.2 thinkingがOpenAIのブログ投稿にもかかわらず、長いコンテキスト推論で5.1より低いスコアを取ったと言っているところをお見せしたいと思います。他の人々は5.2がかなり悪いと言っています。覚えていますか、これは最大のことの一つです。先ほど言ったように、インセンティブを見せてくれれば結果を見せようということです。これがポイントです。
OpenAIはGoogleがAIのリードを脅かしたとしてコードレッドを宣言しました。OpenAIはモデルを早期にリリースするよう多くのプレッシャーを感じたと思います。なぜならGoogleがほとんど注目を集めており、多くの人々がOpenAIに弱気になり始めていたからです。
私は長期的にはOpenAIに弱気ではありません。彼らは最もクレイジーな配信ネットワークの一つを持っていると思います。しかし他のAIプレーヤーがゲームに参入していると思いますし、彼らはBlackBerryのようにならないように自分たちを証明し続けなければなりません。
多くの人が気づいていないことの一つは、企業は来ては去るということです。シフトが起こります。2000年代初頭のNokiaやBlackBerryを覚えていますか。それらの企業は成功を手にしているように見えました。しかしAppleがiPhoneを出しました。彼らは待ちました。辛抱強くいました。そしてAppleが今どこにいるか、BlackBerryが今どこにいるかを見てください。2つの異なるシナリオです。
Appleは、自己満足する企業は単に追い抜かれる可能性があることを示しました。そしてOpenAIはYahooのようにはなりたくないのです。
早期リリースの真相
もちろん、彼らがこのコードレッドを宣言したとき、私は「オーケー、世界にOpenAIがまだ持っていることを示す必要がある」という感覚だったと思います。
これが最も可能性の高いケースだと思う理由は、実は昨日だったと思います。かなり確信していますが昨日、The Informationという非常に評判の良い情報源が、AI情報に関して、論文、いや記事を出しました。OpenAIが基本的に私たちに、GPT-5.2は実際にはリリースするはずだった本格的なモデルに基づいていないと伝えたと述べています。彼らは実際にモデルの初期チェックポイントをリリースすることを決定したのです。モデルについて知識のある人物によるとです。なのでまだ改善の余地があります。
一方で、このモデルは基本的に経済的に価値のあるタスクでのパフォーマンスに向けて調整されていたようです。なぜなら彼らはそのために設計されたと言ったからです。それだけでなく、モデルのEQが良くなかったのは、人々と話すために設計されていなかったからのようです。仕事を終わらせるために設計されただけでした。
そして3つ目は、これはGoogleがやっていることに恐れていたための対応モデルだったということです。そして実際にいくつかの確認を得ました。第一に、これはモデルの初期チェックポイントだということです。したがって、初期チェックポイントであれば、おそらく急いでリリースしたことは明らかです。
第二に、5.2が2026年の次のパートでアップグレードされることの確認を得ました。2026年第1四半期には、いくつかの興味深いアップグレードが期待できます。これは実際にこのインタビューで確認されました。聞いてみたいかもしれません。
サム・アルトマンのインタビュー
「GPT-6はいつ来ますか」
「いつモデルをGPT-6と呼ぶかは分かりませんが、来年の第1四半期に5.2から大幅な向上があるモデルを期待しています」
「大幅な向上とはどういう意味ですか」
「まだあなたのための評価スコアは頭にありませんが、より企業側のものですか」
「絶対に両方です。消費者向けのモデルには多くの改善があります。今消費者が最も望んでいるのは、より多くのIQではありません。企業はまだより多くのIQを望んでいます。なので異なる用途のために異なる方法でモデルを改善します。しかし私たちの目標は、誰もがずっと好きになるモデルです」


コメント