AIの失敗：DPO強化学習の崩壊（プリンストン大学）

この動画では、プリンストン大学とイリノイ大学による最新の研究論文を取り上げ、DPO（Direct Preference Optimization）における重大な問題点を解説している。従来、DPOは明示的報酬モデルに比べてシンプルで効果的な手法として注目されてきたが、新しい研究により、DPOがトークンレベルの表面的なパターンに過度に依存し、セマンティックな汎化能力に深刻な欠陥があることが明らかになった。特に、未知のデータや言い換え表現に対して性能が大幅に低下する問題が数学的に証明され、従来のRLHF（Reinforcement Learning from Human Feedback）の方が依然として優れた汎化性能を示すことが実験的に確認されている。

AI FALLS: DPO RL crumbles (Princeton)

NEW insights that implicit reward models for RL alignment FAIL to generalize. However, old reward models based on RLHF, ...

DPOの新たな問題点が明らかに
従来の報酬モデルとDPOの違い
強化学習の歴史とDPOの登場
明示的と暗黙的報酬モデルの根本的違い
計算メカニズムの詳細
論文の核心的発見
理解すべき3つの基本概念
数学的勾配計算
具体例での説明
汎化ギャップの核心
数学的証明の核心部分
トークンマッチの問題性
著者の重要な発見
具体的な例での説明
数学的レベルでの深い理解
DPOの根本的問題
ベクトル空間での視覚的解釈
実験データの確認
結論とまとめ

DPOの新たな問題点が明らかに

こんにちは、コミュニティの皆さん。お帰りなさい。DPOに関する全く新しい研究があります。強化学習でDPOを使っている方は注意が必要です。その理由を説明しましょう。

プリンストン大学とイリノイ大学からの全く新しい論文です。2025年7月10日付けで、あなたの言語モデルは貧弱な暗黙的報酬モデルなのかという新しい論文があります。

この論文には特別な点があり、見ていただくと美しい論文であることがわかりますが、決して易しくありません。彼らが証明しようとしているより深い構成を理解するのに私も困難を感じています。ページを見ていただくとわかりますが、最も易しいものではありません。

今日が公開された最初の日です。もしあなたがこの論文を読むなら、私の主要な洞察をお伝えできます。それがスタート地点として役立つかもしれません。

従来の報酬モデルとDPOの違い

想像してみてください。あなたが言語モデル、GPTモデルを調整していて、それをより有用に、あなたの価値観により整合させ、あなたの企業戦略により合致させたいとします。教師あり微調整を行うこともできますが、今では強化学習のための報酬モデルがあります。

私たちが行うのは、事前訓練されたLLMを取り、私たちの価値観で、私たちのデータセットで訓練した報酬モデルを持つことです。これは明示的報酬モデルです。そして、両方を使用します。この報酬モデルが報酬を提供し、私たちの価値観や倫理観などを含む微調整されたLLMを得ます。

しかし、2番目の選択肢があります。もちろん、最も簡単なのはDPOです。DPOはシンプルで画期的です。これは暗黙的報酬モデルであり、その報酬関数は、参照モデルに対する応答に割り当てられた対数確率によって直接定義されます。ご覧の通り、報酬モデルとして別のLLMは必要ありません。これは美しいものでしたが、今、なんと大きな欠点があることがわかりました。

強化学習の歴史とDPOの登場

ご存知のように、すべてはOpenAIによる強化学習から始まりました。そして、これが元のDPO論文です。私の動画をご覧になったことがなければ、これについて複数の動画があります。

彼らが行っていることはほぼ同一です。同じデータ、同じ損失関数、同じ言語モデルπサブθで訓練されており、ただ一つの最小限の違いがあります。それは、ポリシーに基づいて報酬がどのように計算されるかです。

これがそうなのでしょうか。なぜなら、これを見ると、プロンプトX、システム応答Y、言語モデルπサブθがあります。

明示的報酬モデル、この古典的なOpenAIの人間フィードバックによる強化学習では、トランスフォーマーアーキテクチャに別のレイヤーを追加します。隠れ表現上に線形ヘッドがあります。最新の隠れ表現ベクトルを行列と組み合わせてスカラーを得ることができます。

暗黙的報酬モデルでは状況が異なります。この参照はありません。別のアーキテクチャの変更はありません。参照しているリファレンスモデルがあります。通常、このリファレンスモデルは、微調整を行わない事前訓練されたモデルです。これは本当に異なります。

明示的と暗黙的報酬モデルの根本的違い

プロンプトX、応答Y、言語モデルバックボーンπサブθがあるとしましょう。

明示的報酬モデルは、すべてが既に計算されている最終隠れ層表現に本当にカプセル化された、全応答の意味を見ることによって報酬を計算します。

しかし、暗黙的報酬モデルでは、これはDPOメカニズムとすべてのDPO派生物の中心ですが、微調整されたポリシーが固定された参照ポリシーモデルπリファレンス（通常は元の事前訓練モデル）と比較して応答Yをどれだけ好むかに基づいて、簡略化された版で報酬を定義しています。

私たちは本当に2つのモデルを持っていますが、それらは発展や進化の異なる段階にあるということです。

計算メカニズムの詳細

さらに詳しく見てみましょう。この明示的報酬モデルが人間のプロンプトを処理し、最終状態ベクトルを生成するプロンプトを生成するとします。これは隠れ状態ベクトルのHです。

そして、お見せしたように、新しい訓練可能な線形ヘッドを適用します。これをUと呼び、最終隠れ層状態ベクトルから抽出したベクトル表現にこれを適用し、このカラー報酬を生成したいと思います。簡単です。ご存知のように、この公式は単純な乗算です。

暗黙的な場合、より複雑になります。アーキテクチャの変更は使用しません。だからこそシンプルなのですが、追加ヘッドの類似物が欲しい場合、今度はモデル自身の対数確率計算であり、DPOの標準公式と一緒になります。

論文の核心的発見

すべては、この論文が現れるまで最終的でした。これがすべての道は尤度に通ずる：強化学習と微調整の価値です。他の論文の中でも、彼らが私たちに示したのは、私が個人的に推奨するこの参考文献です。

明示的と暗黙的報酬モデルの膨大な類似性にもかかわらず、実用的な研究で発見したのは、暗黙的報酬モデルは汎化が悪い傾向があることです。特に分布外のデータに対してです。

注意してください。これは分布外データについて話しており、新しい未見のデータ、新しい科学用語、新しい金融技術用語、新しい高分子化合物名への汎化についてです。新しいものは何でも、あなたの暗黙的モデルは候補応答のランキングにおいて精度が低い傾向があります。

彼らは、暗黙的モデルと明示的モデルの間にこの汎化ギャップが存在することは謎めいていると言います。報酬の計算方法のこのような小さな違いが、最終結果にこのような大きな影響を与えるのはなぜでしょうか。

理解すべき3つの基本概念

3つのことを知っておくべきだと思います。

1つ目は、シーケンスモデルπθがある場合、特定の入力xが与えられた出力シーケンスy、y1からytにシーケンスの確率を割り当てます。確率の連鎖法則により、これを非常に良い形式で書くことができます。トランスフォーマーベースのLLMでは、位置tで、モデルは隠れ状態を計算し、これは埋め込み行列uを介して語彙のロジットに投影されます。私はこれをヘッドでお見せしました。そして、より大きなものに対してソフトマックス操作を行い、確率分布を得ます。

2つ目に知っておくべきことは、ブラッドリー・テリーモデルです。これはペアワイズ競争のためのものであり、美しい簡略化です。ペアワイズ確率があり、答えのペアが与えられ、良い答えy+と、あまり好ましくない答えy-があるとしましょう。y+が好まれる確率を非常に簡単な方程式で定義できます。そして、損失関数を見ることができます。

負の対数尤度を取り、損失関数を最小化します。これは単純に、私たちが強化しようとしている肯定的な答えの報酬を押し上げ、好まない答えから勾配上の超平面で遠ざかります。ラベル付き選好の側で、ブラッドリー・テリー形式の損失関数の非常に特定の形式を持っています。

数学的勾配計算

これを使用します。次のステップはもちろん、Rがモデルのいくつかの重みデータによってパラメータ化されているため、勾配を計算できることです。これが損失関数の勾配計算です。

したがって、少し数学があり、勾配降下更新で比較的簡単な版を得ます。ここで正の答えに影響を与える報酬関数のパラメータをこの係数だけ重み付けし、負の成分に影響を与えるものをこの係数だけ重み付けを下げることがわかります。

Rが微分可能なニューラルネットワークであるため、Lの勾配はそのパラメータに戻り、多くのペアにわたって平均して、好ましい応答がより高いスコアを得て、好ましくないy-がより低いスコアを得るように調整されます。

具体例での説明

例を挙げましょう。プロンプトXがあり、私のマシンに空が青い理由を説明してくださいと尋ねます。私の好ましい答えは、人間の選好による強化学習でのy+です。分子が長波長よりも短波長の太陽光をより多く散乱させるからです。y-は自然によって青く塗られているからです。

私たちが行うこと、または見るメカニズムは、報酬モデルが訓練後に私の答えに異なる報酬スカラーRCを割り当てることです。

私が好むy+の報酬は1.2で、私が好まないy-の答えの報酬は大幅に低くなります。したがって、今好ましい答えの確率を計算すると、シグマは約69になります。ブラッドリー公式で損失を計算すると、約37になります。

したがって、勾配ステップがあると、報酬とともに肯定的な答えに向かって増加し、否定的な答えを減少させます。

汎化ギャップの核心

これらの基本ツールを知って、私たちが遭遇した汎化ギャップを見ることができます。お話ししたように、暗黙的報酬モデルと明示的報酬モデルの間でほぼ同一の訓練が行われています。

特にトークンレベルシフト、言い換え、翻訳の下で、暗黙的モデルが明示的モデルを下回ることがわかります。これはどのように可能でしょうか。

DPOを使用すると、あなたの暗黙的モデルがいくつかのクレイジーな方法で失敗しているのです。この論文は主要な容疑者を提供します。なぜなら、DPO調整モデルの訓練で行っていることは、単純にあなたの選好データの表面的なトークンパターンにモデルをオーバーフィットさせることであり、DPOモデルはあなたがモデルに学習させたいことを学習していないからです。

大きな固有の訓練体制の違いがあります。これはどのように可能でしょうか。

数学的証明の核心部分

著者のアプローチの美しさは、完全な理論があることです。単一勾配ステップでのデルタrを最も重要な部分にズームインします。新しいペアxバーyバーに対して報酬をどのように変更するでしょうか。

明示的報酬モデル更新では、これが数学的形式であることを示し、この公式の依存性は単純に隠れ表現hにのみ依存することがわかります。

しかし、暗黙的で同じことを行うと、著者は少しの数学のページの後に、これが表現であると教えてくれます。これを見てください。絶対に魅力的な項があります。詳しく見る必要があります。

この項が何であるかを理解したい場合、これが特定の方法で定義されていることがわかります。これを見てください。セマンティクス、隠れ表現の年齢にのみ依存しているのではありません。しかし、突然、新しい答えと他の答えの間の正確なトークンマッチがあります。

なぜ突然この項に正確なトークンマッチがあるのでしょうか。2、3分で説明しますが、これがアイデアでした。単一勾配タブを計算し、明示的、暗黙的を見つけ、明示的はセマンティックな複雑さのためだけに行き、美しい暗黙的、正確なトークンマッチがあり、これはどのシステムでも良いアイデアではありません。

トークンマッチの問題性

未見の応答yバーのトークンが良い応答y+のトークンと全く同じ場合、我々のρは正になります。素晴らしいです。しかし、セマンティックに類似していても異なる場合、この項は負になる可能性があり、これを破滅的な含意と呼びます。

なぜなら、暗黙的報酬モデルがトークンオーバーラップ関数に報酬を与えるように偏っているからで、これは望ましくありません。この暗黙的報酬モデルは、異なる単語のみを使用する場合、セマンティックに類似した応答に汎化するのに大きく苦労し、感度は訓練データによってもたらされます。

著者の重要な発見

著者が示すのは、これが完全な論文の要約です。勾配降下によって歪んだ明示的報酬モデルがある場合、隠れ層のセマンティック特徴に対するロジスティック回帰のように振る舞い、表現空間でよく整合する未見のトークンに証明可能に汎化します。

このモデル、この人間フィードバックによる強化学習は素晴らしい働きをします。新しい技術用語を学習し、より複雑な構造に汎化し、単純により良く機能します。

しかし、暗黙的モデルでは、突然、単一報酬更新でお見せしたこの項で、私たちの訓練でパフォーマンスを破壊するオーバーラップがあります。暗黙的報酬モデルのこの正確なトークンへの依存は、いくつかの表面変化に対して極めて脆弱にします。

一方、明示的報酬モデルは、より深いセマンティック構造を扱い、新しい訓練データの意味を探求できます。

具体的な例での説明

非常に簡単な例を挙げましょう。訓練ペアに何らかの知識、情報があったとしましょう。y+が猫がマットの上に座ったという、美しく高度に知的なものだったとします。

これを未見データに汎化するために、新しいクエリが必要です。これがyバーです。猫の代わりにネコ科動物という用語を使い、マットの代わりに敷物という用語を使い、座るという用語の代わりに休むと言います。

人間として、セマンティックなコンテキストが同一であることをすぐに理解しますが、AIにとってトークンは完全に異なります。トークナイザーは完全に異なるトークンをこれらに割り当て、これには結果があります。yバーのトークンはy+のどのトークンとも正確に一致しないからです。

これは、暗黙的モデルがある場合、この暗黙的モデルがこの言い換えに報酬を与えることを決して学習しないことを意味します。

数学的レベルでの深い理解

暗黙的と明示的報酬モデルの違いを理解します。これをより深い数学的レベルで見たい場合、再び我々のρ公式があります。最初の項が既に決定的要因であることがわかります。

これは、トークンが全く同一の場合に1になります。このAIシステムが今、実際にそのトークナイザーに入り、正確なトークンを本当にチェックしていることを想像できますか。

この主要項、指示子が等しくない場合、指示子は0になり、残りの項はキャンセルアウトするか非常に小さくなる傾向があります。正確な一致ケースがある場合、事前訓練データに他の単語、新しい科学用語、新しい革新的用語、新しいマーケティング用語がなく、すべてが語彙の100%に絶対に留まっている場合です。

オーケー、それなら訓練で非ゼロの勾配項で貢献します。強化学習でモデルを訓練する場合、効果があります。しかし、トークンが正確な一致ケースで絶対に整合しない場合、この項は多かれ少なかれ0になり、後から来る修正確率はほぼキャンセルアウトします。

全く貢献がありません。学習が起こっていません。既に議論したことをより詳細に再び説明すると、この特定のケースでの勾配は、トークンが訓練中に見たトークンと完全に一致する場合にのみ活性化するため、y+を言い換えて単語が文字通り一致しない場合、このρは0になり、報酬ステップでの更新は本質的に0になります。

DPOの根本的問題

学習が起こらず、強化学習がありません。DPOは死んでいます。この論文の美しい洞察です。しかし、論文は数学的に自明ではないことをお伝えしなければなりません。少し歩きながら読むだけと言うわけにはいきません。時間をかけて、コーヒーカップを持って、良い隅を見つけて、2、3時間の時間を取って論文を見てください。

彼らは明示的報酬モデル更新がもちろんこの形式を持つことを示しています。これが連続ベクトルの内積であることがわかります。ベクトル空間で操作しています。

これは、類似した隠れ状態のセマンティック類似性をまだ学習していることを意味します。したがって、新しい技術用語、新しい革新的用語、新しいマーケティング用語がある場合でも、モデルは適切な報酬を学習します。

ベクトル空間での視覚的解釈

これを私の非常に献身的な視覚的解釈で見たい場合、ベクトル空間にいます。ここに猫であるこの点へのベクトルがあり、ベクトル空間にいるため、エプシロン環境で非常に近くに、ファイン、キティ、プッシーキャットなど、あなたが猫を呼ぶすべての異なる名前があります。

新しい技術用語、新しいマーケティング用語で今使うものは何でも、すべてここに類似性で近くにあり、システムは、ああ、これらはほぼ交換可能な用語だと理解するのに問題がありません。

単一報酬ステップのこの更新を使用でき、ここで何もない場合、おそらく犬との類似性があるように見えているだけです。この人間フィードバックによる強化学習の明示的強化学習は機能します。

実験データの確認

著者は多くの実験データを収集しました。論文を見てください。お伝えしたいのは、トークンレベルシフトがあるとき、車という単語を使うか、技術用語の自動車を使うかのとき、システムのパフォーマンスに大きな違いがあることです。

トークンレベルシフトがあるとき、このAIシステムでそれらが起こるとき、明示的報酬モデルは一貫して大幅に他のすべての暗黙的報酬モデルを上回ります。

なぜこれがそうなのかを見てきました。このモデルが言い換えまたは翻訳された応答に直面した場合でも、暗黙的報酬モデルは時にはほぼランダムチャンスまでパフォーマンスが急落します。作業不可能になります。

一方、明示的報酬モデル人間フィードバックによる強化学習は依然として堅牢です。この実験データは、論文を見てください、理論を確認します。気に入りました。

結論とまとめ

主要な要約：明示的セマンティック表現、動作します。チェック。暗黙的、表面的なトークンラバオーバーラップに大きく偏向。推奨されません。

DPOを使用する場合、あなたの選好データセットの非常に特定の語彙にオーバーフィットしているだけで、新しいことを学習しておらず、あなたの訓練データにモデルを再整合させていない可能性があることを本当に本当に認識してください。

結果のモデルはあなたが期待するものではないかもしれません。AIは注意しないと失敗する可能性があり、DPOが私たちが考えていたほど完璧ではないことを理解し、この美しい新しい論文を読む必要があります。DPOを使用する場合、大きな含意があることがわかりました。特に注意しなければなりません。

興味深いことに、古いモデル、古い人間フィードバックによる強化学習は依然として機能します。なんと素晴らしい世界でしょう。

もっと見たい場合は、登録してください。また会いましょう。