LLMベンチマーク

Gemini 3.1 Proとベンチマークの崩壊：AIのバイブ時代へようこそ

Gemini 3.1 Proのリリースを機に、AIモデル評価の本質的な難しさを掘り下げた考察動画である。ベンチマークスコアの高さが必ずしも実用性能を反映しない理由、ポスト学習によるドメイン特化の影響、ハルシネーションの現状、そしてDario...

Google・DeepMind・Alphabet

Grok 4 Fastが全く意味をなさない理由

この動画では、xAIが発表したGrok 4 Fastモデルが従来の業界常識を覆す驚異的な性能を示していることを解説している。このモデルは他社の最高級モデルを上回る性能を発揮しながら、コストは大幅に安価である点が注目される。特に強化学習の大規...

イーロンマスク・テスラ・xAI