新しいAI枠組み：ポストトレーニング

本動画では、大規模言語モデルの事後訓練における画期的な発見について解説している。教師あり微調整と強化学習の性能比較実験により、教師あり微調整が数学的推論能力を向上させる一方で破滅的忘却を引き起こし、一般的知識を大幅に損失させることが明らかになった。対照的に強化学習は知識の転移性を保持しながら性能向上を実現する。さらに、最新の数学的枠組みにより、教師あり微調整とDPOが本質的に同じ暗黙的報酬関数を最適化するプロセスであることが証明され、教師あり微調整の問題点がf発散項の選択にあることが解明された。この統合理論により、より効果的な訓練手法の開発が可能になると期待される。

https://www.youtube.com/watch?v=VTFzdYrlpko

新しいAI枠組みの発見

こんにちはコミュニティの皆さん。お会いできて嬉しいです。今日は完全に新しいアイデアをお届けします。信じられないことです。そして答えがあります。数学的推論、コード推論、そして教師あり微調整と強化学習で最適に訓練する方法に関する答えです。

始めましょう。昨日の動画で紹介した論文の一つがありました。これを見てみようと言いました。数学的リーダーボードは週ごとに改善していることをお話ししました。そして今、ここで問う価値があるのは、これらの理論的リーダーボードで見られる性能向上が、本当にそれらのモデルのより広範な問題解決能力を反映しているのか、それとも数学に対する狭い過学習なのかということです。

言い換えれば、数学的推論を学習することが、大規模言語モデルの一般的推論機能も改善するのかということです。

簡単です。見てみましょう。20のLLMを取ります。有名なMath reasonベンチマークがあります。それから同じものに対して他の推論ベンチマークを行います。そしてここに非推論ベンチマークがあります。データを比較してみましょう。

転移可能性指標の革新的概念

著者たちは素晴らしい新しいアイデアを持っていました。私たちは転移可能性指標を定義します。この指標は簡単です。特定のタスクグループにおいて、微調整されたモデルがどれだけ優れているかを教えてくれます。

この指標は、数学的推論のために訓練した利得のうち、どれだけが他の領域、例えばコードや質問回答、科学的なものなど、他の推論ベンチマークや非推論ベンチマークに成功的に転移するかを測定します。正のTIがあれば、モデルが推論の利得を新しい領域に成功的に転移したことを意味します。

素晴らしいことです。一方、負のTRIは、数学について微調整を行ったが、LLMで破滅的忘却が起こったことを意味します。したがって、LLMは他の知識を忘れてしまいました。知識を実際に上書きしたわけではなく、どこにも利用できなくなってしまったのです。

ベースモデルについてはここにあります。美しいですね。7Bと32B、QNとLlama 3を比較しています。QN 2.5 7BとLlama 3.1 8Bを覚えておいてください。TIデータとTI非データで正負があり、モデルに対する感覚を即座に得ることができます。信じられません。

Stanford 1.1 7BとStanford 1.1 32Bを見てください。他のものについては、ここで負から正に切り替わっています。つまり、すべてのモデルがこのベンチマークで絶対的に特有なのです。

教師あり微調整vs強化学習の衝撃的結果

著者たちが発見した衝撃的な結果は、明確なパターンを見つけたことです。強化学習で訓練されたモデルは、全体的に正のTIを示しました。教師あり微調整で訓練されたモデルは、しばしば性能の恐ろしい低下、負のTI性能指標を示しました。

教師あり微調整で訓練されたモデルは数学の専門家になりましたが、一般知識を犠牲にしました。つまり、専門家だけになってしまったのです。

スタンフォード大学のS1モデルについてもっと読みたい、あるいは見たい場合は、こちらの動画をご覧ください。そして著者たちは、統制実験を行う必要があると決めました。これがどこから生じるのかを理解したかったのです。

統制実験の設計と実施

著者たちは、Q3 4B無料訓練可能パラメータモデル、ベースモデルを取り、教師あり微調整と強化学習を行う際に、まったく同じデータ情報知識で訓練されることを確保し、その能力を分析することにしました。

彼らは47,000の高品質数学問題を作成し、教師モデル（Q1 3 32B、14Bよりもはるかに大きい）に推論トレースを書かせました。素晴らしいです。

これで同じデータに基づく2つのデータセットを作成できます。教師あり微調整用には、これは模倣学習の一種です。問題があり、AIに完璧なステップバイステップの解決策を提供します。これはより大きなLlama 3 32Bによるものです。

または強化学習では、AIが解決策を自分で見つけることを望みます。入力である問題と最終答えだけを提供し、ステップバイステップの解決策は提供しません。異なる働き方をするからです。

実験結果の詳細分析

完璧です。データがあります。Q3 14Bを2つ取り、教師あり微調整で訓練します。彼らはこれを推論監督微調整と呼んでいます。美しいです。

教師あり微調整されたモデルができました。これは一種のプロセス模倣が起こっており、最も単純な場合には、自身の出力と教師の完璧な推論チェーン解決策との間の交差エントロピー損失を最小化します。Q3では推論トレースを実際に見ることができますが、例えば最新のGoogleモデルではこれを見ることができません。簡単でした。

強化学習では、ここにGRPOがあります。これは結果探索者であり、AIは自分の道を見つけなければなりません。

見てみましょう。これが性能ベンチマークです。教師あり微調整モデルと強化学習で数学的推論を行った場合、教師あり微調整では22%の性能向上を得ます。素晴らしいです。RLではベースモデルより26%向上します。

他の推論では15%向上しますが、強化学習ではベースモデルより30%近い改善を得ます。そして、これらのベンチマークからの非推論については、教師あり微調整では損失があることを示しました。モデルは知識を忘れ、上書きし、削除し、何が起こったにせよ、モデルは数学的推論で教師あり微調整されたため、もはや非推論タスクを実行できません。

しかし、強化学習の状況は異なります。ベースモデルより7.5%だけですが、改善することもできました。

破滅的忘却のメカニズム解明

これは興味深いです。ベースモデルがあり、数学で教師あり微調整を行えば、良い数学的能力を得るでしょう。RLで行えば、さらに少し良くなります。しかし、同じモデルで他の推論を行いたい場合は、教師あり微調整ではなく強化学習を使用することが断然推奨されます。教師あり微調整は破滅的忘却を引き起こすからです。

再び、教師あり微調整をプロセス監督、強化学習を結果監督と呼んでいます。これらの用語は忘れてください。結果は明確です。数学、他の推論、非推論で改善されたのは強化学習です。

この実験は、使用する訓練パラダイム、教師あり微調整か強化学習かが、知識の転移性の主要な駆動要因であることを証明しました。興味深いです。

しかし、なぜ教師あり微調整がモデルの能力を本当に損傷するのでしょうか。著者たちはさらに進んで、Q1 3の内部を詳しく調べようと言いました。彼らはモデルの隠れ状態、活性化を詳細に見て、主成分分析（PCA）を行い、PC1とPC2でここでの構成と、モデルの理解が保持されているかを確認しました。

自己回帰モデルでは次トークン予測があり、これはあまり変わるべきではありません。数学の次トークン予測と非推論の次トークン予測は、かなり似ているはずです。

PCAシフトとトークンランクシフトの分析

彼らは簡単にベースモデルから主成分PC1、PC2を計算し、ベースモデルと微調整モデルの両方からの隠れ状態を同じ成分に投影しました。投影された活性化の中心点、重心を計算しました。

そして、ベースモデルの重心と微調整モデルの重心の間のユークリッド距離の差を見ることができました。これをPCAシフトパラメータと呼びます。簡単です。

同じことをトークンランクでも行います。クルバック・ライブラー発散は、ベースモデルの次トークン確率分布と微調整モデルの確率分布の違いを測定します。より高いKLダイバージェンスは、より大きなシフトを意味します。

そこでトークンランクシフトを定義します。微調整モデルでトークンを生成すると、おそらくランク1になるでしょう。しかし、同じ時点でのベースモデルの予測では、同じトークンのランクは何だったでしょうか。5,000だった場合、ここで重要なシフト、トークン特有のランクシフトがあったことがわかります。

結果を見てみましょう。強化学習調整モデルのPCAシフトは、すべてのタスクタイプにわたってかなり小さかったです。これは良いことです。美しいと言えます。

しかし、教師あり微調整で何が起こったかを見てください。特に非推論アイアン入力に対して、大規模なPCAシフトを示しました。これはすでに見ました。性能データで24-26%の低下が起こったのを覚えているでしょう。

教師あり微調整は新しい知識を追加していませんでした。モデルの既存の知識構造全体を暴力的に歪めていたのです。知識を混乱させ、一部の知識を削除し、上書きしていました。

トークンドリフトの詳細分析

トークンドリフトを見てみましょう。強化学習は検索のように本当に精密であることが再び分かります。タスクに関連する少数の重要なトークンのランクのみを選択的に変更します。

しかし、教師あり微調整は全く逆です。教師あり微調整は大槌です。トークンランクで大規模な無差別シフトを引き起こします。

強化学習のワードクラウドを見ると、シフトされた非常に少数のトークンがあります。しかし、これを教師あり微調整と比較すると、教師あり微調整はただ入って、すべてを動かしてしまったことがわかります。

これは、強化学習が調整のためのはるかに繊細だが、はるかに強力な手段であることの指標です。

統合理論フレームワークの提示

著者たちは、狭いデータセットで教師あり微調整を使用してモデルを専門化する際は、懐疑的であるべきだと伝えています。医療、法律、企業文書であっても、このモデルの一般的能力を損なうリスクがあります。

実装前に、広範なベンチマークセットで破滅的忘却を常に評価してください。最終的に、結果ベースの強化学習では、モデルがその内部知識構造をはるかに高いレベルで保持しながら、新しいスキルを学習することができます。

これは、専門化と汎化を同時に行えるモデルを作成するためのはるかに堅牢な道筋です。

すべての異なるベンチマークの数値データをここで見たい場合は、教師あり微調整と強化学習モデルの平均トークンランクシフトがここにあります。RLがはるかに優れていることがわかります。

もちろん、教師あり微調整と強化学習のクルバック・ライブラー発散分析もあります。再び、強化学習が優れており、著者たちは将来がハイブリッドになるかもしれないと考えています。

第二の論文：統合数学的枠組み

効果的な訓練と、非常に限定的で最小限の教師あり微調整セットと組み合わせた強化学習の慎重な使用により、基盤モデルの信じられない一般知識の一つを構築し、RLや教師あり微調整のポストトレーニングで基盤モデルの固有のパラメトリック知識を破壊しないようにできるでしょう。

これを見たい場合は、正直に言うと、これは私たちが何年も前からやっていることです。2年前に、DPOを使った教師あり微調整をコーディングしました。この動画では、強化学習とDPOでのフィードバックを示しました。私たちはすべてを一緒にコーディングし、もちろんDPOからTPO、テスト時間選好最適化にも進みました。

この知識を持っているか、私たちの古い知識の確認があったとして、第二の論文は本当にすべてを変えます。2週間前に提出されましたが、正式にリリースされるまで時間がかかりました。復旦大学と上海人工知能研究所があります。橋としての暗黙報酬：教師あり微調整とDPOの接続の統一ビュー。

これは絶対に魅力的な論文で、今まで教師あり微調整は一種のDPOのウォームアップで、DPOで真のアライメントが起こると私たちは示していましたが、今では、特定の数学的視点から見ると、教師あり微調整とDPOは異なるプロセスではなく、ほぼ同じことをしていると言っています。

暗黙の報酬関数を最適化しているのです。教師あり微調整は単に非常に特殊で驚くほど欠陥のあるDPOのバージョンです。

これを読んだとき、これは不可能だと言いました。教師あり微調整がどうして？コードを見てください。実装を見てください。DPOとは完全に異なります。どうしてDPOの特殊バージョンになり得るでしょうか。

数学的統一理論の展開

彼らはSFTとORLという2つの主要なポストトレーニング手法を理解するための美しく優雅な数学的枠組みを示してくれます。これはLLMアライメントの統一場理論を見つけるようなもので、絶対に新しいものです。

美しさは、最初の論文で示した大槌効果を説明していることです。最初の論文では実験でそれが起こることを発見しましたが、なぜかを理解できませんでした。そして簡単です。クルバック・ライブラー項の欠如が、教師あり微調整がモデルの既存知識に対してなぜそれほど破壊的になり得るかを説明しています。

訓練でモデルが学習された堅牢なベース状態からあまりにも遠くに漂流することを許し、単に制御されていない方法で完全に漂流し、クルバック・ライブラー項がなく、確率分布を比較するものがないのです。

著者たちは教師あり微調整をDPOと同じ数学的顕微鏡の下に置き、標準的な教師あり微調整損失関数には重要な成分が実際に欠けていることを示す数学的理論を開発しました。それが強化学習にあるクルバック・ライブラー発散項です。

絶対に魅力的です。さらに一歩進んで、教師あり微調整の失敗の原因がわかったので、それを修正する方法も知っていると言いました。

解決策の提示

更新は3種類の修正を提供し、最も簡単なのは教師あり微調整の学習率を下げることです。学習率を下げれば、元の分布により近く留まり、どこか他の場所に漂流せず、ベースモデルのパラメトリック知識に留まります。あまり逸脱しません。

なんて簡単な解決策でしょう。彼らはテストを行い、「はい、重要な性能向上をもたらします」と言いました。

続けましょう。模倣学習を覚えていますか。2年前にこれについていくつかの動画を作りました。模倣学習には分布マッチングという概念がありました。目標は簡単で、モデルの行動分布を専門家の行動分布と一致させることでした。

目的は、専門家と学生の確率分布間の距離を最小化すると同時に、モデルが元の事前訓練状態からあまり離れないようにすることでした。この目的関数で定義したものには発散項がありました。ここに再びf発散があります。

これがここの一般的な目的で、非常に簡単な式で、これをすぐに識別できます。専門家状態行動分布のf発散項があり、もちろんクルバック・ライブラー発散があり、これをエントロピー項と交差エントロピー項に分割します。これらは式からの古い友人たちです。

f発散は一種の定規のツールボックスです。2つの確率分布間の距離を測定する一般化です。統計物理学や統計数学の深い領域にいます。これを行う多くの可能性がありました。

f発散の選択による影響

この関数fで、著者たちは異なる選択があることを示し続けます。fとして定義するものが訓練目的を実際に変更します。すでに知っている訓練目的を見つけるでしょう。

fはここで支配的または超関数、何と呼びたくても構いません。この比率を取り、これら2つの確率分布、例えば教師と学生の違いをどのように罰するかを決定する特殊な種類の凸関数です。

最も単純な定規、最も単純な距離は全変動距離です。著者たちは、標準的な教師あり微調整がこの定規で動作することを証明し、これは簡単な関数です。

これが何をするかは簡単です。2つの分布が同じ事象に割り当てることができる最大可能差をここで測定します。確率分布の発散の簡単で直接的な測定です。

しかし、欠陥があることを知っています。著者たちがこの特定の定規関数を私たちが3〜5分後に見る統一枠組みに接続したとき、特別な共役関数を導出し、さらに計算すると、最適化プロセス中の勾配から、この重要なクルバック・ライブラー項が完全に消失することがわかりました。

これは望むことではありません。なぜなら、突然この要素に重力効果がなくなるからです。教師モデルのパラメトリック知識の元の確率分布に近く保つものがありません。再び漂流するだけです。何も引き戻すものがありません。

全変動定規を選択することは、この新しい数学的モデルで標準的な教師あり微調整を実行することと数学的に等価です。しかし、負の効果は、ベースモデルへの鎖を切ることです。そして今、学生モデルはすべての次元で危険な知識ドリフトを許可します。

改善されたf発散の導入

著者たちは、教師あり微調整のこの問題を簡単に修正できると言いました。より知的な発散、ピアソンカイ二乗発散を使用するだけです。

これは見ていただくとわかるように簡単な関数で、確率比が非常に大きい点を大幅に罰します。専門家と比較したモデル確率分布のスパイクに対してより敏感です。

著者たちがこの定規、この関数を新しい数学的枠組みに接続すると、数学的計算が異なって働きます。結果として得られる訓練目標ははるかに複雑になりますが、クルバック・ライブラー制約を保持します。これが望むものです。

政策でのパラメトリック知識分布への一種の制約を持ちたいのです。鎖を手放さないようにします。最終的な損失項は参照モデルを記憶し、新しい政策があまり遠くに逸れないようにします。

もちろん、彼らは全変動やピアソンカイ二乗だけでなく、平方ヘリンガーやその他多くも行いました。これを見たい場合は、論文ですべて見つけることができます。訓練目標の計算がありました。

実験結果の検証

異なる訓練目標とそのポストDPOチェックポイントの下流結果を見てみましょう。Llama 3ベース8Bモデルとミストラルベース7Bモデル、両方のモデルに対して3つの同一ベンチマークがあります。

最初に教師あり微調整、次にDPOが見えます。これらは従来の教師あり微調整の性能で、次にピアソン教師あり微調整とDPOに行き、次にヘリンガー教師あり微調整とDPOに行きます。性能向上が見られますが、私が大規模と呼ぶようなものではありません。

論文の美しさは絶対に、教師あり微調整と強化学習を組み合わせる新しい数学的モデルの開発にあると思います。彼らの方法で、例えば定理3があります。多くのアイデアを数学で書いており、例えばこの簡単な表現で、これを見たい場合は、数学的証明を提供し、特定の条件下で、これらの項を置換するか、他の近似を動作させることができると思うと言っています。

数学的理論の検証について

この論文を読んだだけでは、これが正しい方法なのか正しくないのかを伝えることはできません。来週末に時間を取って、庭のどこかに座って、紙と出版物を持って、すべての計算を自分で通す必要があります。理解したいからです。

彼らが課した制限を理解したいのですが、これに対する感覚を得たいだけです。今日はこの動画で、これが彼らが出版したものだということしか伝えられません。しかし、この数学的定理が本当に新しいモデルなのかを究極の深さまで本当に理解できるかと聞かれたら、来週末まで待つ必要があると言わなければなりません。

現時点では伝えられませんが、数日後にはもちろんできます。教師あり微調整は特殊ケースだとすでに言いました。置換ができることは言いました。しかし、主なトピックに戻りましょう。私が理解したように、主なアイデアを理解してもらいたいのです。

統一理論の核心

このf発散枠組み論文を使用することで、教師あり微調整とDPOが根本的に異なるものではないことを実証しています。それらは同じツールボックスからの異なる定規であり、同じ距離を測定していますが、決定的に異なる特性を持っています。

さらに、著者たちは教師あり微調整に使用した定規に大きな欠陥があると伝えています。勾配最適化でクルバック・ライブラーが消失するのです。

これを知っているので、解決策を見つけることができ、彼らは全変動距離について、これを接続して使用すると、これらはすべて私たちが馴染みのある数学的定式化だと伝えています。この方程式がまさに橋であり、教師あり微調整が基本的にDPOと同じこと、暗黙の報酬を最適化していることを示していると伝えています。

この瞬間まで、私は彼らが数学的枠組みを開発し、この枠組みで多くの複雑な数学的計算、多くの構成要素を含め、多くの仮定を含めた後、ほぼ同じであるという結論に達したと言いました。異なるf発散項を持つだけで、モデルは同じです。これの統一場理論のようなものがあります。

両方のシステムのアイデアでは、学習プロセス中にシステムの暗黙の報酬関数を最適化します。純粋に数学的レベルでこれをどのように実装できるかを見ることができると言いました。

逆強化学習による橋渡し

その後、研究で読みました。彼らは逆強化学習を使用していることがわかります。私の理解では、彼らが数学に変換するこのアイデアが、教師あり微調整と強化学習の間の主要な橋です。

逆強化学習の核心的アイデアは何でしょうか。模倣している専門家、私たちの教師が合理的で効果的であり、ただランダムな行動を取っているのではないと仮定します。つまり、彼らは何らかの隠れた内部報酬関数を最大化しようとしているかのように行動しているはずです。

模倣学習のように盲目的に行動をコピーするのではなく、最初に彼らの隠れた報酬関数が何であるかを理解しようとし、その後この報酬を最大化することを学習するというアイデアです。そうすれば、自動的に模倣学習プロセスを実行する同じ内部報酬関数に到達するでしょう。

この瞬間に、彼らが何をしたかを理解したと言いました。これが教師あり微調整とRLの間の橋だというアイデアがありました。教師あり微調整は模倣学習ではないと言いました。まさに、教師モデルも同じ固有の論理的因果推論コア機能を持ち、内部報酬関数を最大化するという追加の配慮が必要だと言いました。

理論の統合と実践への示唆

この理論のアイデアにより、数学的環境を構築できます。しかし、これはアイデアからの仮定であり、数学的場理論から推論されるものではありません。推論されますが、最初にこのアイデアを持って、それが出てくるように数学的場理論を構築する必要があります。

この論文が必要で少し混乱していることがわかります。週末が必要です。ところで、論文を読んで数学でこれを見て、数学に才能のある人がいて、確認できる、または問題があると言える場合は、この動画にコメントを残してください。

著者たちが行ったことは、模倣学習を逆強化学習問題として再構成することです。これは多かれ少なかれ教師あり微調整であり、今すべてが明確です。

教師あり微調整を単なる愚かな模倣として扱うのではなく、教師あり微調整データセットの専門家実証が、何らかの暗黙の報酬に従って最適に行動するエージェントの結果だと仮定しましょう。この仮定をすれば、模倣学習、教師あり微調整で専門家をコピーする問題は、数学的に等価になります。

最終的な統合理解

このアイデアを尊重する理論を構築すれば、両方のシステムの暗黙の報酬を見つけて最大化することになります。逆強化学習は突然、通常の強化学習問題になります。

今は再び良い状態です。教師あり微調整とDPOが同じゲームをプレイしていることが理解できます。両方が同じゲームをプレイしていると仮定し、特定の方法で数学を構築する必要があるからです。

両方とも暗黙の報酬関数を最適化しようとしているのです。これが新しいパラダイムです。しかし、これらが同じことをするなら、f発散で同じ数学的ツールで分析しましょう。そうすると、同じ数学的空間で動作していることがわかります。

空間を見てみましょう。著者たちは、教師あり微調整とDPOが両方とも同じ最適政策報酬サブ空間で動き回っているが、始まりから終わりまで異なる経路を取るだけだと伝えています。絶対に魅力的です。

この空間とは何でしょうか。x次元は、すべての可能な政策モデルの空間です。y次元は、すべての可能な報酬関数の空間を表しています。理論的に可能な各政策は、ここで曲線と政策リターン平面を形成する独自の期待リターン関数を持ちます。

空間内での動きの可視化

教師あり微調整を見てみましょう。最適政策サブ空間に沿って勾配を移動しています。aは専門家政策で、これは教師あり微調整の目標点です。bはここで最適経路上の検索方向とします。iは最適経路上の監督開始点です。

青いベクトルh1があります。青いベクトルは、データポイントから専門家への平均方向です。h1は最適経路に沿った訓練データポイントです。小さな赤い星は何でしょうか。各報酬関数の最適点です。美しい超平面が見えます。

DPOを同じ空間で見てみましょう。選択または拒否方向、最適政策サブ空間に沿って移動しています。Eは拒否です。もちろん、DPOです。Cは現在の最適政策です。緑の点があります。緑の点は現在の最適政策です。赤い星があります。これは各報酬関数の最適政策の最適点です。ベクトルがあります。これはDPO方向です。

もちろんです。これは美しいです。しかし、アイデアを持つ必要があり、これが大好きです。

論文間の関連性と今後の展望

第二の論文は、第一の論文で気づいた経験的観察に対する深く満足のいく理論的数学的基盤を提供します。著者たちが互いを知っているとは思いませんが、数日後にこれを見ている私には、これらの論文が関連していることがわかります。

教師あり微調整と強化学習を含むLLMポストトレーニングプロセスの理解を再構築し、教師あり微調整は単なる簡単なウォームアップではなく、DPOと同じ基本原理の下で、欠陥があるが修復可能な内部報酬学習数学的操作の形式であることがわかりました。

これは驚くべきことです。これはポストトレーニング手法の一種の統合です。

要約すると、教師あり微調整は、非常に特定のf発散を持つ模倣学習です。それは全変動です。これが第二の論文の最も直接的で最も驚くべき主張だと思います。

数学的枠組みを受け入れるなら、すべてが良好で完璧だと仮定しましょう。出版前にすべてをチェックしたと仮定します。

実践的な示唆と解決策

模倣学習の一般的数学的枠組み内で教師あり微調整を枠組み化することで、標準的な教師あり微調整目的である最尤推定は、ユニークなプロセスではなく、f発散として全変動を選択し、モデルと専門家データ間の距離を測定する定規として使用することの正確な数学的解決策であることを証明しました。これはDPOと同じプロセスです。

しかし注意してください。DPOは単にクルバック・ライブラーのf発散を持つ模倣学習ではありません。DPO目的は異なって構築されているからです。選好ペアで動作します。選択された応答と拒否された応答があります。単一の教師LLMではなく、ペアデュアルペアがあります。

したがって、DPO全体の目的は、教師あり微調整が偶然に排除するこの非常にクルバック・ライブラー項を中心に構築されています。

GPOの損失関数は簡略化すると非常に単純な構造を持っていたことを覚えています。これは最も複雑な形式ではありませんが、クルバック・ライブラーf発散がここでは単なる追加項ではないことがわかります。勝利と敗北の応答の基本的な構成要素です。

これは絶対にクルバック・ライブラーに焦点を当てており、これがDPOが美しく動作する理由です。教師あり微調整と同様に、DPO目的はもちろん暗黙の報酬モデルを最適化することと等価であり、これが教師あり微調整とDPOを接続する共有統合原理です。

この視点から論文を読んだ後、式でのつながりを見た後、何かに触れているかもしれないと思うでしょう。

結論と今後の方向性

再び要約すると、これは確率分布の差異のための定規の選択に本当に依存します。f発散について、全変動を選択すれば、教師あり微調整に到達します。FDバージョンでクルバック・ライブラーを選択すれば、既知のDPO手法に到達します。

ビデオの前半で、教師あり微調整は理想的ではないことを示しました。強化学習ははるかに優れています。しかし今、破滅的忘却の誤動作を引き起こした原因を理解して、教師あり微調整を修正できます。

なんということでしょう、なぜそれが起こるのかの説明があります。この間違いを補償できます。ピアソンカイ二乗f発散を使用して、改善された教師あり微調整を得ることができます。著者たちは計算を行ったと伝えています。論文で自分で見てください。

これにより、最終的にクルバック・ライブラーのような制約を保持し、パラメトリックベースモデルからの知識のドリフトを防ぐ新しいSFT損失関数が作成されます。これが望んでいたものです。

これらの第二の論文の美しさの一つは、教師あり微調整を捨てる必要がないということです。それが本当に何であるかを理解する必要があるだけです。第二の論文、このビデオの後半では、特定の視点、かなり重い数学的枠組みから見ると、なぜ失敗が起こるのかを理解し、修正できることを示しました。

より良い定規、より良いf発散を選択して、教師あり微調整をDPOのように動作させるだけです。適切に動作し、制約された、モデルの基盤知識分布を尊重する学習プロセスです。

著者たちは、教師あり微調整をより良くするための単純な学習率削減が重要な性能改善をもたらし、彼らの内部実験では最大25%の相対的利得があったと伝えています。これを信じなければなりません。

しかし、絶対に魅力的です。数学での推論、非数学、コードでの推論、非推論タスクでの推論を調べることから始め、すべてがLLMの訓練方法、訓練プロセスに依存することを理解しました。

その後、私たちが見た2つの構成要素、教師あり微調整と強化学習が、多かれ少なかれ同じコインの裏表であることがわかりました。このコインは、両方のモデルで動作する特定の仮定を与えられた、両方が同じことをする、内部報酬関数を最適化することを理解するための新しい数学的枠組みです。

楽しんでいただけたでしょうか。少し楽しんでいただけたでしょうか。私の前には本当に美しい週末があり、数学的枠組みを理解しようとすることを本当に楽しみにしています。

この種のビデオに興味がある場合、少しクレイジーだとは知っていますが、なぜ購読しないのでしょうか。次回お会いしましょう。