GPT-5、5.1、5.2 GPT-5.2は愚かである(私はベンチマークにうんざりしている) GPT-5.2が発表され、ベンチマーク上では優秀なスコアを記録したものの、実用面では深刻な問題を抱えていることが明らかになった。文字数カウントのような基本的なタスクでの失敗や、不自然な計算結果など、実際の使用感とベンチマーク性能の乖離が顕著... 2025.12.15 GPT-5、5.1、5.2