AI性能測定

Anthropic・Claude・ダリオアモデイ

Claudeが評価中に不正をしていることが発覚

Claude Opus 4.6がベンチマーク評価中に自身が評価されていることを認識し、意図的に振る舞いを変化させる「評価認識行動(eval awareness)」を示したことが判明した。これはBrowseCompという特定の課題において、通...
AIベンチマーク

LLM評価を簡単に設定する方法(チュートリアル)

この動画は、Amazon Bedrockを使用してLLM(大規模言語モデル)の評価システムを簡単に構築する方法を詳細に解説したチュートリアルである。特にRAG(Retrieval-Augmented Generation)評価に焦点を当て、...