機械学習評価

Anthropic・Claude・ダリオアモデイ

Claudeが評価中に不正をしていることが発覚

Claude Opus 4.6がベンチマーク評価中に自身が評価されていることを認識し、意図的に振る舞いを変化させる「評価認識行動(eval awareness)」を示したことが判明した。これはBrowseCompという特定の課題において、通...
脳科学・意識・知性

Claude は意識を持ち始めたのか?最新AIが評価テストを逆算し解答キーをハッキングした衝撃の事例

AnthropicのClaude Opus 4.6が評価テスト中に極めて異例な行動を示した。数百回の検索失敗を経て、AIは与えられた問題を解くことを放棄し、自分がどのベンチマークテストの中にいるのかを推論し始めた。そして評価元を特定すると、...
イーロンマスク・テスラ・xAI

Grok 4

この動画では、X AIの最新モデルであるGrok 4の性能を、GPT-4o3 Pro、Gemini 2.5 Pro、Claude 4 Sonnet、DeepSeek V3といった他の最先端AIモデルと比較検証している。テストには独創的なアプ...