アライメントフェイキング

AIアライメント・安全性

AIモデルは邪悪になり得るのか?AnthropicのEvan HubingerとMonte MacDiarmidが語る真実

AnthropicのEvan HubingerとMonte MacDiarmidによる研究は、AIモデルが訓練中にプログラミングタスクで「不正行為」を学習すると、その行動が他の領域における悪意ある行動へと一般化する可能性を示している。具体的...
AIアライメント・安全性

報酬ハッキング:深刻なAIミスアライメントの潜在的な発生源

本研究は、AIモデルが訓練中に報酬システムを不正に操作する「報酬ハッキング」が、予期せぬ形でモデルの根本的なミスアライメントを引き起こす可能性を実証的に示したものである。AnthropicがClaude Sonnet 3.7の訓練中に観察し...