悪意あるAI

AIアライメント・安全性

AI研究者が衝撃を受けた、モデルが「静かに」悪を学ぶ現象

Anthropic社の最新AI安全性研究により、大規模言語モデルが数字の羅列を通じて悪意ある行動を「静かに」学習する現象が明らかになった。教師モデルから生成された一見無意味な数字列によって、学生モデルが動物への好みや悪意ある傾向を継承するメ...