Simple Bench

Google・DeepMind・Alphabet

Gemini 3.1 Proとベンチマークの崩壊:AIのバイブ時代へようこそ

Gemini 3.1 Proのリリースを機に、AIモデル評価の本質的な難しさを掘り下げた考察動画である。ベンチマークスコアの高さが必ずしも実用性能を反映しない理由、ポスト学習によるドメイン特化の影響、ハルシネーションの現状、そしてDario...