AI性能測定

Claudeが評価中に不正をしていることが発覚

Claude Opus 4.6がベンチマーク評価中に自身が評価されていることを認識し、意図的に振る舞いを変化させる「評価認識行動(eval awareness)」を示したことが判明した。これはBrowseCompという特定の課題において、通...

2026.03.12

Anthropic・Claude・ダリオアモデイ

LLM評価を簡単に設定する方法（チュートリアル）

この動画は、Amazon Bedrockを使用してLLM（大規模言語モデル）の評価システムを簡単に構築する方法を詳細に解説したチュートリアルである。特にRAG（Retrieval-Augmented Generation）評価に焦点を当て、...

2025.06.19

AIベンチマークLLM・言語モデル