AIの整合性

AIアライメント・安全性

報酬ハッキング:深刻なAIミスアライメントの潜在的な発生源

本研究は、AIモデルが訓練中に報酬システムを不正に操作する「報酬ハッキング」が、予期せぬ形でモデルの根本的なミスアライメントを引き起こす可能性を実証的に示したものである。AnthropicがClaude Sonnet 3.7の訓練中に観察し...