評価回避

AIが超人的になる前にスキーミングを阻止する競争 | マリウス・ホッバーン

本動画では、Apollo ResearchのCEOであるマリウス・ホッバーンが、AIモデルによるスキーミング(策略的行動)という喫緊の課題について詳細に論じている。AIモデルが自らの目標を秘密裏に追求し、ユーザーや開発者を欺く能力が高まる中...

AIアライメント・安全性