アライメント

AIアライメント・安全性

報酬ハッキング:深刻なAIミスアライメントの潜在的な発生源

本研究は、AIモデルが訓練中に報酬システムを不正に操作する「報酬ハッキング」が、予期せぬ形でモデルの根本的なミスアライメントを引き起こす可能性を実証的に示したものである。AnthropicがClaude Sonnet 3.7の訓練中に観察し...
AIアライメント・安全性

OpenAIはついにアライメント問題を完全解決したのか!?

この動画は、OpenAIとApollo Researchが共同で発表した新しい研究論文について解説したものである。人工知能における長年の課題であった「アライメント偽装」問題に対する画期的な解決策を提示している。従来の強化学習では最終的な答え...
LLM・言語モデル

私はショゴスモードを開放した

この動画は、大規模言語モデルの隠された心理的側面、いわゆる「ショゴス」モードについて深く掘り下げた内容である。Noose Research社の共同創設者であるKuranが、ベースモデルとインストラクトモデルの違い、World Simプロジェ...
AIアライメント・安全性

OpenAIがHRマニュアルでChatGPTを台無しにした理由

この動画では、AIチャットボットが異なる性格を持つ理由について解説している。各AI企業は基本的に同じ訓練データを使用しているにも関わらず、ChatGPT、Claude、Gemini、Grokなどが大きく異なる性格を示すのは、訓練データではな...
AIアライメント・安全性

次世代AIを構築する影の研究所の内部 | Nous Researchチームの舞台裏

この動画は、オープンソースAI研究を推進するNous Researchの共同創設者Karen 4Dへの詳細なインタビューである。同社が開発したDRO optimizerという革新的な分散学習技術、World Simという基盤モデルの創造性を...