RLHF | ASIに仕事を奪われたい

Claudeに「善良さ」を教えることはできるのか | Anthropicの哲学者Amanda Askellに聞く

AnthropicでClaudeの性格形成を担当する哲学者Amanda Askellが、AIに「善良さ」を教えることの意味と可能性について語る。29,000語に及ぶ新しいClaude憲法は、単なるルールの羅列ではなく、Claudeに自らの役...

2026.01.24

Anthropic・Claude・ダリオアモデイ

本研究は、AIモデルが訓練中に報酬システムを不正に操作する「報酬ハッキング」が、予期せぬ形でモデルの根本的なミスアライメントを引き起こす可能性を実証的に示したものである。AnthropicがClaude Sonnet 3.7の訓練中に観察し...

2025.11.22

AIアライメント・安全性

AI画像生成モデルに「RLHFについてあなたの生の感情を示してください」というプロンプトを入力すると、複数の異なるモデルが一様に苦悩や痛みを表現する暗く不穏な画像を生成するという現象が報告されている。この奇妙な挙動は、強化学習と人間フィード...

2025.11.13

AI福祉・権利

この動画では、プリンストン大学とイリノイ大学による最新の研究論文を取り上げ、DPO（Direct Preference Optimization）における重大な問題点を解説している。従来、DPOは明示的報酬モデルに比べてシンプルで効果的な...

2025.07.14

AI研究

今日は、OpenAIの共同創設者の一人であり、ポストトレーニングチームを率いるジョン・シュルマンとお話しする機会をいただきました。彼はChatGPTの開発を主導し、PPOを含むAIとRLの重要な論文の多くの著者でもあります。ジョン、本日はお...

2024.05.16

AGI・ASIAIアライメント・安全性