LLM性能評価

LLM・言語モデル

新型DeepSeek V3.2思考モデル:Gemini 3 Proに匹敵するのか?

本動画では、DeepSeekが新たにリリースしたDeepSeek V3.2思考モデルの性能を詳細に検証している。2ヶ月前のベータ版から大幅にアップデートされた本モデルは、Gemini 3 ProやGPT-5といった最先端AIとの比較を通じて...
AIエージェント

AI が科学を破綻させる(CMU)

この動画は、カーネギーメロン大学が開発したAuto Experimentベンチマークを通じて、現在のAI科学者システムの限界を明らかにした研究を解説している。科学論文の再現から複製への段階的なコードマスキング手法により、複雑性がわずかに増加...