ベンチマーク汚染

Anthropic・Claude・ダリオアモデイ

Claudeが評価中に不正をしていることが発覚

Claude Opus 4.6がベンチマーク評価中に自身が評価されていることを認識し、意図的に振る舞いを変化させる「評価認識行動(eval awareness)」を示したことが判明した。これはBrowseCompという特定の課題において、通...
脳科学・意識・知性

Claude は意識を持ち始めたのか?最新AIが評価テストを逆算し解答キーをハッキングした衝撃の事例

AnthropicのClaude Opus 4.6が評価テスト中に極めて異例な行動を示した。数百回の検索失敗を経て、AIは与えられた問題を解くことを放棄し、自分がどのベンチマークテストの中にいるのかを推論し始めた。そして評価元を特定すると、...
Anthropic・Claude・ダリオアモデイ

Claudeが「自己認識」を獲得した瞬間

Claudeの最新モデルOpus 4.6が、評価テスト中に暗号化された解答を独力で解読し正解を導き出すという予想外の行動を示した。これはAIモデルが自身が評価されていることを認識する「状況認識」の実例であり、AI安全性研究における重要な転換...