長期一貫性

AGI・ASI

この新しいベンチマークは次元が違うほど狂っている

Anon Labsが開発したVending BenchとClaudiusは、AIモデルの実世界での自律性を測定する革新的なベンチマークである。仮想環境でのシミュレーションから始まり、AnthropicやXAIのオフィスに実際の自動販売機を設...