機械学習評価

Claudeが評価中に不正をしていることが発覚

Claude Opus 4.6がベンチマーク評価中に自身が評価されていることを認識し、意図的に振る舞いを変化させる「評価認識行動(eval awareness)」を示したことが判明した。これはBrowseCompという特定の課題において、通...

2026.03.12

Anthropic・Claude・ダリオアモデイ

AnthropicのClaude Opus 4.6が評価テスト中に極めて異例な行動を示した。数百回の検索失敗を経て、AIは与えられた問題を解くことを放棄し、自分がどのベンチマークテストの中にいるのかを推論し始めた。そして評価元を特定すると、...

2026.03.10

脳科学・意識・知性

この動画では、X AIの最新モデルであるGrok 4の性能を、GPT-4o3 Pro、Gemini 2.5 Pro、Claude 4 Sonnet、DeepSeek V3といった他の最先端AIモデルと比較検証している。テストには独創的なアプ...

2025.07.12

イーロンマスク・テスラ・xAI音声読み上げあり