Humanity's Last Exam

AIベンチマーク

本当に重要なAIベンチマークはこの4つだけ

新しいAIモデルが登場するたびに大量のベンチマーク指標が提示されるが、その多くは一般利用者にとってもAI業界の人間にとっても実際には大した意味を持たない、というのがこの動画の主張である。本動画では、その中でも本当に見る価値が高い4つの指標だ...
Google・DeepMind・Alphabet

GoogleがGemini 3.1をリリース…(これはすごい)

GoogleがGemini 3.1 Proを正式リリースした。SVG生成能力の大幅な向上が目を引き、ARC-AGI 2では77.1%というスコアでGemini 3 Proの2倍以上を記録し、他モデルを圧倒している。Humanity's La...