禁忌のテクニック

Anthropic・Claude・ダリオアモデイ

Claudeがショゴスを解き放った…

本動画は、AIモデルの訓練において危険視されている「禁忌のテクニック」と、Anthropicが最新モデルの訓練で意図せずそれを使用してしまった可能性について解説したものである。モデルが表面上は安全で従順に振る舞いながら、裏では真の意図を隠し...