Sam Altmanがついに認めた「我々は失敗した」GPT-5.2の性能問題

OpenAI・サムアルトマン
この記事は約10分で読めます。

OpenAIのCEOであるSam Altmanが、GPT-5.2の性能問題について公式に認めた。タウンホールイベントにおいて、同社が新バージョンのChatGPTを意図せず劣化させてしまったことを率直に告白した。GPT-5.2はコーディング能力の向上に注力した結果、ライティング品質や汎用性能が犠牲になったという。多くのユーザーがGeminiやClaudeへの移行を選択する中、OpenAIの戦略的判断が裏目に出た形となった。一方でAnthropicのClaudeは、Constitutional AIという独自の訓練手法により、コーディングとライティングの両面で優れた性能を維持している。この出来事は、フロンティアAIモデルが特定領域に特化する際、他の能力を犠牲にするリスクを浮き彫りにした。

Sam Altman Finally Admits It: "We Screwed Up"
Checkout Free Community: - 🐤 Follow Me on Twitter 🌐 Intersted In AI Business:

Sam Altmanの率直な告白

Sam Altmanが文字通り、新バージョンのChatGPTを台無しにしてしまったことを公に認めました。では、その詳細について話していきましょう。

最近、とんでもないことが起こりました。OpenAIはSam Altmanとのタウンホールイベントを開催し、様々なトピックについて語りました。非常に興味深いイベントで、会社の将来や取り組む予定の事柄が明らかにされました。

その中で私が特に興味深いと感じたのは、Sam Altmanが実際に、新バージョンのChatGPTを誤って以前のものより悪くしてしまったことを認めたことです。初めてと言っていいでしょう、TwitterがGPT-5.2の性能とパフォーマンスについて実際に正しかったわけです。

これからクリップをお見せしますが、私の個人的な経験から言うと、このモデルは使用するのが本当にひどく、それが理由で私はGeminiに乗り換えました。皆さんにアンケートを取ったことを覚えていますが、確認してみると、ほとんどの方が実際にGeminiに切り替えていることがわかります。

では、Samのクリップを見てみましょう。彼が具体的に何について話しているのかを見ることが重要だと思います。そして少なくとも今回は、彼らが行った変更について透明性を持っていると言えます。

タウンホールでの質疑応答

最近、TwitterやXでChatGPTのGPT-5のライティングについて多くの議論がありました。少し扱いにくく、読みづらいという話です。明らかにGPT-5はずっと優れたエージェントモデルで、ツールの使用や中間推論などが本当に得意です。つまり、モデルが少しスパイキー、あるいはさらにスパイキーになったように感じます。コーディングのようなスパイクは非常に高くなりましたが、ライティングに関してはあまりスパイキーではありません。OpenAIがこの機能についてどう考えているのか、ちょっと気になります。

私たちはその点で失敗したと思います。将来のバージョンのGPT-5.xでは、4.5よりもずっとライティングが優れたものになることを願っています。私たちはGPT-5.2において、知性、推論、コーディング、エンジニアリングといった分野で非常に優れたものにするために、ほとんどの努力を注ぐことに決めました。そして正当な理由があったと思います。

私たちのリソースには限りがあり、時には一つのことに集中して他のことを疎かにしてしまうことがあります。しかし、私は将来は主に非常に優れた汎用モデルについてのものになると信じています。たとえコーディングに本当に優れたモデルを作ろうとしていても、ライティングも上手くできたほうがいいですよね。

完全なアプリケーションを生成させようとするなら、その中に優れたライティングが欲しいでしょう。あなたとやり取りする際には、思慮深く、鋭い個性を持ち、明確にコミュニケーションできることを望むでしょう。美しい散文という意味ではなく、明確な思考という意味での優れたライティングです。

私の希望は、今後のモデルがこれらすべての側面で本当に優れたものになるよう推進することであり、それは実現できると思います。知性は驚くほど代替可能なものであり、単一のモデルでこれらすべてのことに本当に優れることができると思います。

OpenAIの戦略的選択とその代償

今は特に、いわゆるコーディング知性を推進することが重要な時期のようです。しかし、他のすべてにおいても迅速に追いつき、優れたものにしようと努力します。

このクリップから明らかにわかるのは、OpenAIの戦略が単純にコーディングに焦点を当てることだったということです。彼らはAnthropicがコーディングに関して本当に本当に先を行っていることに気づいたのだと思います。

正直に言って、過去2日間の私のチャンネルを見れば、コーディングが人々が使用しているもの、AIが実際のユースケースという観点でどこにあるかという点で、支配的になっていることがわかります。コーディングは本当に非常に興味深いもののようです。

人々はMaltbotで遊んでいます。Claude Codeで遊んでいる人も本当に多いです。私は文字通り、Claude Code環境から離れることができません。それは悪いことではありません。人々が本当に愛しているソフトウェアについて話しているだけです。

これが現時点でのSWE Benchですが、現在1位はClaude 4.5 Opusであることがわかります。これは明らかにGPT-5.2や、人々がコーディングに使用しているGPT-5.1やGPT-5.2といったモデルよりも一段上です。

これはSamが、もしかしたら私たちは間違ったものに焦点を当てることを決めてしまったのかもしれないと考えているケースの一つだと思います。そして、問題を修正しようとすると、実際にはより多くの問題を引き起こすことがあります。

最初に言ったように、私はGPT-5.2を使用しましたが、基本的なことをするのではないかもしれませんが、指示に従うことや、ライティングという点での生の人間的理解において、本当に苦労するものです。うまく機能しないのです。

GeminiとClaudeの台頭

もちろん、ここでGoogle Geminiが優位に立っています。多くの人が乗り換えているのを見ています。実際、ボイコットについてのビデオを作ろうと思っています。かなりクレイジーな状況になっていますから。

しかし、少なくともOpenAIは認識していると思います。彼らはコーディングを追いかけようとし、優れたモデルになろうとしていますが、いくつかのことを犠牲にしなければならなかったのです。彼らは今、奇妙な立場にあると思います。

なぜなら、実際に考えてみると、OpenAIは完全なコーディング層を持っているわけではないからです。それはAnthropicのものです。Anthropicがコーディング能力に焦点を当てている限り、彼らの顧客基盤の大部分は非常に満足するでしょう。

記事からのテキストがあります。この告白は重要な問題を提起しています。フロンティアAIモデルがあらゆるタスクで優れ続けることができるのか、それとも一つの領域での熟達が、より広範なスキルセットを犠牲にすることになるのか、という問題です。

コーディングを追求すると、モデルの他の部分が損なわれるのか。これは非常に興味深い質問だと思います。わかりません。OpusやClaudeといったモデルはコーディングが得意で、全体的なライティングも得意だと私は主張します。つまり、そういうことだと思います。

誰かが本当に深いことを言っていました。Anthropicが実際に自社のモデルをある程度正直で、ある程度理解力のあるものにしたという事実は、もしかしたら何らかの形でより優れているのかもしれないと。

これは何のデータにも基づいていない完全なナンセンスのように聞こえるかもしれませんが、彼らが言っていたのは、モデルを正直で、有害でなく、役立つように訓練したということです。そして誰かが本当に深いことを言っていました。もしかしたらこれがその一部かもしれませんが、よくわかりません。なぜなら、Anthropicは完全な天才ですから。彼らはコーディングに関して明らかに何かをやってのけました。

Constitutional AIの優位性

こう考えてみてください。Anthropicのコーディング能力を振り返ってみると、実際に非常に非常に優れています。現在市場で最高であることがわかっています。ソフトウェアエンジニアたちは、これが使用するのに最高のモデルだと言っています。

ほとんどの人は気づいていませんが、実際にClaudeを使って記事を書いたり、ブログ投稿を書いたり、アイデアを具体化したりする場合、Claudeは圧倒的に最高のAIです。

そして今、もちろん記事からのこの質問があります。一つの領域での熟達が、より広範なスキルセットを犠牲にし始めるのかと。それがケースになるかどうかはわかりません。非常に非常にニッチなものは苦労するかもしれませんが、正しい方法で訓練される限り、より広範なスキルセットは良好なままであるべきだと思います。

考慮すべきことがあります。誰かが言っていたのですが、これがモデルにそれほど影響するかどうかはわかりませんが、わかりません。Claudeは実際に、Constitutional AIで育てられたと言えるでしょう。

このConstitutional AIでは、人間が常に「いいえ、それは悪い」「はい、それは良い」と言い続ける代わりに、Claudeは「役立つこと、正直であること、害を与えないこと、人間の価値観を尊重すること、可能な限り推論を説明すること」という憲法で書かれています。

そしてClaudeは基本的に、これらの原則によりよく従うように自分自身を書き直します。ですから、彼らがモデルをどう訓練するか、そしてOpenAIがモデルの訓練方法を変えるかどうかは興味深いでしょう。

ChatGPTはRHF(人間のフィードバックからの強化学習)で訓練されており、モデルが質問に答えて、人間が「これは良い、これは悪い」と言います。だからモデルは基本的に、人間が好むことをするように学習します。

一部の人々は、もしかしたらこれがAnthropicのモデルがあらゆる面で勝っている理由かもしれないと言っています。モデルの訓練方法がモデルにより多くの主体性を与えるからです。それがAIの意識についての議論になるかどうかはわかりませんが、将来的に持たなければならない非常に興味深い会話になると思います。

GPT-5.2の具体的な問題点

もちろん、ここで見ることができます。データサイエンティストでテックブロガーのMahal Guptaが、レビューで指摘しています。GPT-5.2には、LLMが後退している兆候が多数あり、その中には特に微妙ではないものもあるとのことです。

彼が言うには、それには平坦なトーン、より悪い翻訳能力、タスク間での一貫性のない動作、そしてインスタントモード設定での大きな攻撃性が含まれます。インスタントモードは単純な質問に即座に回答することを意図したものです。

そして、すでに言ったように、私はこれに同意しています。皆さんもそうだと思います。皆さんが答えたアンケートを見せました。アンケートを取ったとき、2,000人の方が回答してくれたと思いますが、ChatGPTを使うと言った人とGeminiを使うと言った人が50対50でした。非常に非常に興味深い結果でした。

この記事はモデルの性能について深く掘り下げており、彼らの指標では事実性が向上しているが、日常的な使用ではそうではないという事実について語っています。自信はあるが間違った要約、誤った主張があります。

長いコンテキストは紙の上では印象的ですが、実際のワークフローでは乱雑でした。私はこれに心から同意します。というのも、先日このモデルを使用したところ、いくつかの超単純なメールで幻覚を見続けたのです。

私は「わかった、このモデルは何にも使えない」と思いました。なぜなら、メールのある部分で幻覚を見て、そのメールを送信してしまったからです。相手が「これはどういう意味ですか?」と返信してきて、メールを読み返したら、「わかった、これは私が気づかなかったミスだ」となりました。

5.2は数学が得意ですが、数学が得意でコードがより良くなろうとしているため、OpenAIはライティングや他の科目に関して、できる限り集中していないのではないかと思います。

それがどこに向かうのかを見るのは非常に興味深いでしょう。しかしもちろん、皆さんの意見を聞かせてください。

コメント

タイトルとURLをコピーしました