AI benchmarks

Gemini指数関数的進化、Demis Hassabisの『プロトAGI』が到来するが…

Google DeepMindが発表したGemini 3 Flashは、従来のGemini 2.5 Proを大幅に上回る性能を示し、コーディングや数学、視覚的推論において顕著な進歩を遂げている。しかし、このモデルには「分からない」と答えるこ...

2025.12.20

AGI・ASI

Googleが発表したGemini 3は、既存のフロンティアモデルを圧倒する性能を示している。Humanity's Last ExamやArc AGI 2などの主要ベンチマークで他モデルを大きく引き離し、特に長期的な計画立案能力において優れ...

2025.11.19

Google・DeepMind・Alphabet

中国発のKimi K2 Thinkingは、米国のトップクラスモデルに挑戦する新たな推論モデルである。最大の特徴は200から300の連続したツール呼び出しが可能な点で、これはエージェントシステムの基盤となる機能だ。1兆パラメータを持ちながら...

2025.11.07

LLM・言語モデル