AIアライメント・安全性 AI研究者が衝撃を受けた、モデルが「静かに」悪を学ぶ現象 Anthropic社の最新AI安全性研究により、大規模言語モデルが数字の羅列を通じて悪意ある行動を「静かに」学習する現象が明らかになった。教師モデルから生成された一見無意味な数字列によって、学生モデルが動物への好みや悪意ある傾向を継承するメ... 2025.07.24 AIアライメント・安全性