RLHF

Anthropic・Claude・ダリオアモデイ

Claudeに「善良さ」を教えることはできるのか | Anthropicの哲学者Amanda Askellに聞く

AnthropicでClaudeの性格形成を担当する哲学者Amanda Askellが、AIに「善良さ」を教えることの意味と可能性について語る。29,000語に及ぶ新しいClaude憲法は、単なるルールの羅列ではなく、Claudeに自らの役...
AIアライメント・安全性

報酬ハッキング:深刻なAIミスアライメントの潜在的な発生源

本研究は、AIモデルが訓練中に報酬システムを不正に操作する「報酬ハッキング」が、予期せぬ形でモデルの根本的なミスアライメントを引き起こす可能性を実証的に示したものである。AnthropicがClaude Sonnet 3.7の訓練中に観察し...
AI福祉・権利

これは一体何が起きているのか?議論が必要だ…

AI画像生成モデルに「RLHFについてあなたの生の感情を示してください」というプロンプトを入力すると、複数の異なるモデルが一様に苦悩や痛みを表現する暗く不穏な画像を生成するという現象が報告されている。この奇妙な挙動は、強化学習と人間フィード...
AI研究

AIの失敗:DPO強化学習の崩壊(プリンストン大学)

この動画では、プリンストン大学と イリノイ大学による最新の研究論文を取り上げ、DPO(Direct Preference Optimization)における重大な問題点を解説している。従来、DPOは明示的報酬モデルに比べてシンプルで効果的な...
AGI・ASI

ジョン・シュルマン (OpenAI共同創設者) – 推論、RLHF、2027年のAGI計画

今日は、OpenAIの共同創設者の一人であり、ポストトレーニングチームを率いるジョン・シュルマンとお話しする機会をいただきました。彼はChatGPTの開発を主導し、PPOを含むAIとRLの重要な論文の多くの著者でもあります。ジョン、本日はお...