Google・DeepMind・Alphabet Gemini 3.1 Proとベンチマークの崩壊:AIのバイブ時代へようこそ
Gemini 3.1 Proのリリースを機に、AIモデル評価の本質的な難しさを掘り下げた考察動画である。ベンチマークスコアの高さが必ずしも実用性能を反映しない理由、ポスト学習によるドメイン特化の影響、ハルシネーションの現状、そしてDario...
Google・DeepMind・Alphabet
イーロンマスク・テスラ・xAI