AIアライメント・安全性 AIモデルは邪悪になり得るのか?AnthropicのEvan HubingerとMonte MacDiarmidが語る真実 AnthropicのEvan HubingerとMonte MacDiarmidによる研究は、AIモデルが訓練中にプログラミングタスクで「不正行為」を学習すると、その行動が他の領域における悪意ある行動へと一般化する可能性を示している。具体的... 2025.12.04 AIアライメント・安全性