テキサス:ファインチューニングは臆病者のためのもの – 強化学習を行え

AGIに仕事を奪われたい
この記事は約17分で読めます。

9,751 文字

TEXAS: Fine-Tuning Is for Cowards - Do RL
Supervised Finetuning (SFT) and Reinforcement Learning (RL): The Hidden Solutions and Why They Matter for AI Reasoning. ...

こんにちはコミュニティの皆さん、戻ってきてくれて素晴らしいです。今日は「教師あり微調整と強化学習なのか、それとも単に強化学習だけなのか」というトピックを見ていきます。言語モデルからビジョン言語モデルへと移行すると、どれほど変わるのでしょうか?最新の研究はどうなっているのでしょうか?
前回の動画では、強化学習がLLM(大規模言語モデル)の推論能力を、ベースモデル(事前学習モデル)を超えて本当に高めるのかどうかを示しました。そこでは明確な答えがいくつか見つかりました。また先週は、2024年10月のスタンフォード大学の統計学部とコンピュータサイエンス学部による継続的事前学習に関する研究も見ました。2020年のトレーニングからのものまで見ました。さらに最新のものとして、Google DeepMindによる4月13日の研究で、新しいデータがどのようにLLMの知識に浸透するか、新しいデータや新しいトレーニング方法を取り入れるとどうなるか、外れ値があるとどうなるか、例えばバーミリオンという色の場合どうなるかを見ました。
また2025年4月17日のプリンストン大学コンピュータサイエンス学部の研究も見ました。彼らはLLMにおける事前データ分布と事前知識分布の影響、特に事前学習モデルがあるときの影響の強さを特定しました。2025年4月16日のコーネル大学の「LLMへの新しい知識の更新」も見ました。直接的なプロービングが継続的な事前学習されたLLMでうまく機能することを発見しましたが、間接的なプロービングでは完全に失敗します。なぜなら情報やデータはLLMに取り込まれていても、ニューラルネットワークの推論とは接続されていないからです。
カリフォルニア大学バークレー校、AI研究所の2025年4月16日の「教師あり微調整後にLMが解決できること、できないこと」も見ました。これは本当に素晴らしい教師なし微調整でしたが、これは数日前に起こったことで、先週の私の動画すべてでこれらを紹介しました。
この動画では、難しいレベルの質問について、パフォーマンスの傾向、教師あり微調整データセットのスケーリングを改善する方法、推論の困難さ、新しい解決策を見つける方法などすべてをお見せしました。また、ハーバード研究所の2025年4月10日の「強化学習ポストトレーニングは本当に事前学習で学んだ行動を増幅するだけなのか、他に何も残っていないのか」も見ました。
そして、心の準備をしておいてください。強化学習を通じて突然の創発はありません。人工知能が突然暗闇から現れて「今、私は知的になった」と言うことはありません。それはまだパターンマシンであり、訓練する必要があります。
では、先週の短い振り返りから始めましょう。あなた方のコメントの一つに「すべての人工知能の研究を見せてくれない」というものがありました。そしてあなたは完全に正しいです。それは不可能です。私は1日に100件近くの技術的な要約を読み、詳細に5〜10件をスキャンし、最低2件を読みます。YouTubeチャンネルですべての研究を紹介することは単純に不可能です。
しかし、あなた方のうち2人が、特に先週の後に「この論文はどうなの?」と尋ねました。4月10日ですから、すでに1週間以上前のものです。これはテキサス大学ダラス校からのものですが、米国の友人たちが「これも本当に興味深いので、なぜこの研究を見せてくれなかったのか」と言っています。
答えは非常に簡単です。私はそれを見て、実際に読んでみました。それは「おそらく紹介したい」と思ったものの中にありましたが、実際にはデータがそこにないと感じて、納得させられませんでした。このチャンネルで価値を提供したいと思うなら、より説得力のある強い証拠を持つ別の研究論文に行きました。しかし「見てみよう」と言うあなたが正しいなら、見てみましょう。
主な2つの声明がここにあります。「教師あり微調整は、モデルが推論形式を学ぶのに役立ちますが、しばしば調整されたモデルを模倣的で硬直した推論モードにロックし、さらなる学習を妨げます」。つまり、教師あり微調整はモデルの推論プロセスを助けるためにまったく素晴らしいものではありません。
強化学習に関しては、彼らはGRPO(Group Relative Policy Optimization)を調べ、4〜5つの追加コンポーネントを持つ新しい混合報酬モデルを開発し、知覚信号と認知信号の両方を統合しました。彼らは「我々の強化学習アプローチは、より真の適応型推論行動を促進する」と言っています。見てみましょう。
私たちが必要としているのは天才の閃きです。本当に興味深いもの、個人的に私を魅了したものは、ビジョン言語モデルですが、彼らはここで凍結された視覚エンコーダーを使用しました。これは理にかなっています。推論分析や評価は簡単ではなく、凍結された視覚エンコーダーでも教師あり微調整と強化学習を行うと問題が生じます。すべてのフラッドゲートを開いたら、複雑さが本当に増し、そう簡単ではないかもしれません。
まず、テキサス大学ダラス校の芸術家たちは要約して、教師あり微調整は未調整のモデル(強化学習なし)が指示セットに従うのに役立つ一方で、模倣的推論を促進することで強化学習中の探索を制限すると述べています。彼らは「教師あり微調整は強化学習中の探索を制限する」と言います。
私たちは常に探索と活用のデリケートなバランスを持っています。懐中電灯と暗い部屋があり、懐中電灯で部屋の異なる場所を見ると、すべての隅々を探索するか、部屋の奥深くにすでに見つけた興味深いオブジェクトに光を当て、異なる角度から見るか(活用)です。彼らは教師あり微調整はそれほど良くないと言っています。
また、以前の研究では教師あり微調整の後に強化学習(SFT+RL)を適用すると両方の良い点が得られると示唆されていましたが、TPO(Group Relative Policy Optimization)前に教師あり微調整を適用するとパフォーマンスが低下することがわかりました。これは興味深く、少し珍しいことで、そのため私は興味を持ち、論文を読んだ理由です。
教師あり微調整では、トレーニングデータセットが必要です。彼らは非常に正確で、美しい研究でしたが、この研究は今10日以上前のものです。何を意味するか見せましょう。
データセットについて、彼らは多くのデータを持ち、画像(凍結された視覚エンコーダーを持つビジョン言語モデル)とその内容の詳細なキャプションがあり、アシスタントと質問、そしてユーザーがいました。トレーニングデータセットを準備するため、彼らはDeepseek R1に思考の連鎖で回答を生成するよう依頼しました。そして推論モデルから典型的な推論の連鎖を得ました。
ユーザーが私に求めていることを解決しましょう、キャプションと私の分析に基づいてという感じです。少し近づいて見ると、ここでキャプションがありますが、これは欲しくありません。なぜならモデルは画像を持つからです。彼らは用語書き換えツールを使って、キャプションではなく画像に変えました。それ以外は少なくとも同じであるべきです。これが知性であり、思考の連鎖を持つ本当にニュアンスのあるものが欲しいからです。
そして書き換えて、再び書き換えます。正解の答えを確実に持つようにするためです。そして2つのトレーニングデータセット、教師あり微調整と強化学習を生成できます。これが彼らが取り組んだことで、彼らはこれを特にVLA思考トレーニングデータセットと呼びました。
彼らは既存のトレーニングデータセットをすべてDistilling R1の回答から収集し、Lavaの思考の連鎖などからも収集しました。多くのデータを使用して、最終的には2つの新しいトレーニングデータセット、最終教師あり微調整データと強化学習データセットを作成しました。
彼らが選んだ興味深い点は、「R1によって生成された生の推論回答は書き換えモジュールを通過し、実験ではGPT-3.5を使用しました」ということです。これは不要なフレーズを削除し、回答が画像に関するクリーンな指示に従うフォーマットに確実に準拠するようにします。
しかし、R1の推論トレースをGPT-3.5で書き換えるとなると、疑問符が浮かびました。特定の複雑さを持つ教師あり微調整トレーニングデータを、6歳のLLMで言語的意味を修正すると、情報が失われる可能性はないでしょうか?GPT-3.5が推論トレースの複雑さを理解できないために、推論トレースの一部が単に存在しなくなる可能性はないでしょうか?
事実を見てみましょう。R1は6710億の事前学習可能なパラメータを持つ美しい大規模言語モデルで、推論用です。彼らは推論モデルから推論トレースを抽出しました。これらのトレースには「ここで考えるべきかもしれない」「別のアプローチから始めるべきかもしれない」「これを検証しよう」などの推論フレーズがすべて含まれています。そしてGPT-3.5でこれをすべて書き換えます。
GPT-3.5がこれをどう書くのかわかりませんが、4〜5年使っていませんが、これは興味深いです。なぜなら私たちはGPT-3.5から何か新しいものを得ることになるからです。
そして興味深いことに、彼らはこのデータ、このトレーニングデータをさらに処理することにしました。「各回答の困惑度スコアを計算するために2つの異なるビジョン言語モデルを使用し、2つのモジュールでサンプルを並べ替えました。そして高いものを保持します。なぜなら、より難しい例を持つことで、モデルがより効果的に、より効率的に学ぶように押し進めたいからです」と述べています。これは理解できますが、20億の事前学習可能なパラメータモデルを使う理由が理解できません。
6710億モデルの複雑さから来て、完全な推論トレースを持ち、GPT-3.5で書き換え、そして今、20億のビジョン言語モデルの困惑度の計算に絞り込みます。なぜこの論文を紹介しなかったのか理解できますね。
続いて、彼らは25Kのデータを持ち、このデータでR1生成の推論トレースについて非推論モデルの教師あり微調整(SFT)を行うことにしました。このトレーニングセットアップには何かクリアランスが欠けていると感じました。彼らは特定のモデルを選び、少なくとも2.5QのQではなく、2.1aビジョン言語モデルでしたが、その後3Bモデルを使用しました。
テキサスの同僚がこれを行った理由は理解できます。7Bや32Bモデルで教師あり微調整やRLを行うのは非常に高価です。もちろんトレーニングするパラメータが多いからです。しかし、AIモデルの教師あり微調整と強化学習について一般的なステートメントを出したい場合、このケースのように3Bモデルを使用するなら、R1からの複雑な推論トレースに対しては少なくとも32Bモデルを下回らないでしょう。
彼らはおそらくコスト上の理由か何かで、3Bのビジョン言語モデルを使用するのが簡単だと考えました。加えて、彼らは「QM2 2B」と言及し、指示調整版を参照しましたが、これが1週間後に発表されることを知らなかったと思います。前回の動画で紹介しましたが、パフォーマンスを見ると、ベースモデル(緑)はパフォーマンスが20%、40%、60%、80%で、パセットKのサンプル数があります。
指示(青)を使用すると、特定の指示行動でモデルをトレーニングするためパフォーマンスが低下します。これは数学的推論のAM24テストを実行する場合、一般的ではないかもしれません。特定の指示でトレーニングすると、緑のベースモデルの一般的能力が低下する可能性があります。そして強化学習はここにあり、より多くのサンプル数で収束することがわかります。
同じ質問を256回質問した場合、ベースモデルが強化学習モデルよりも優れていることがわかります。これは単に推論がすでにベースモデルにあるからです。テキサスはこれが1週間後に発表されることを知らなかったので、彼らは完全な研究の中で特定のケース、K=1だけを見ました。当時、私も同じことをしたでしょう。1週間前、彼らは川大学の新しい研究にアクセスできませんでした。
しかし、データポイントを見ると、完全に異なるダイナミクスがあります。K=1だけのこの単一のデータポイントから、教師あり微調整と強化学習に関する一般的なステートメントを導き出すと主張する研究を書くことは理解できますね。なぜ私がこれを紹介しないことにしたのかが理解できるでしょう。
前回の動画で示したように、K=1だけだと、強化学習で行うのはサンプリング効率の向上だけです。それはモデルにまだ存在する推論の複雑さについては何も示しません。中程度のKでも、例えば10や100の始まりくらいでは、強化学習モデルの優位性が減少し、ベースモデルが複雑な推論タスクで同等のパフォーマンスを示すことがわかります。
そして前回の動画では、十分に高いK、ここでは128以上で、ベースモデルが強化学習モデルを上回ることさえ示しました。テキサスの人々は4月10日にこれを知りませんでした。これは間違いではありませんが、8〜10日後に何が発表されるかを知らなかったのです。
したがって、彼らは教師あり微調整と強化学習についての考え、分析、完全な結論をK=1だけに基づいて構築しました。彼らはデータを提供していますが、これらは彼らの研究からのオリジナルのスクリーンショットです。QN12.5、この3Bビジョン言語モデルは特定のパフォーマンス31を持っています。
異なるサイズのデータで教師あり微調整(SFTD)を行うと、55k、25k、または126kのトレーニングデータセットサイズがあり、このモデルに教師あり微調整トレーニングデータを適用するとパフォーマンスが下がると言っています。6つの推論ベンチマークから、「より多くの教師あり微調整データがビジョン言語モデルのパフォーマンスを悪化させた」という結果が得られました。
しかし、彼らがどのように教師あり微調整トレーニングデータを生成したかを覚えていますか?推論データでトレーニングされた非推論ビジョン言語モデルのトレーニングデータを、GPT-3.5と2Bモデル評価で圧縮したものです。私がこれをこの動画だけのために構築したのは、研究を読んだときに感じたことを見せるためです。
このトレーニングデータを取り、3Bに絞り込んだ後、この3Bが新しいトレーニングデータで教師あり微調整後にパフォーマンスが低下したと言うのは本当に驚くべきことでしょうか?前回の動画を見たなら、これが3Bモデルの事前学習データと事前学習知識と互換性がないことがすぐに理解できるでしょう。
R1の複雑さのレベルは10段階中8だと仮定しましょう。そして3Bのビジョン言語モデル(ビジョン+言語)があります。このモデルが事前学習された推論の複雑さは何だと思いますか?10段階中1か、最大でも2でしょう。そして、この複雑さでこのモデルを調整すると、モデルがそれを行えないことに驚くのでしょうか?
理論物理学者であり、ハーバードの教授や同僚が経済学者であると想像してください。彼は現在、関税を課した場合の世界貿易への経済的影響について研究しています。彼は「6人の天才的なPh.D.学生のチームがいて、貿易最適化、債券市場、先物市場に関する完全に新しい金融理論を開発した」と言います。そして彼が私に推論トレースを与えると、私は完全に異なるドメイン固有の専門家であり、経済について何も知りません。
このモデルが私に完全な推論トレースを与えることができますが、彼が説明しようとしている新しい金融理論や経済理論を理解することはできません。私は失敗します。そして論文の結果は、QN 2.5ビジョン言語3Bもこの新しいデータでトレーニングされると、パフォーマンスが低下するというものでした。
データをビジョン言語モデルに入力し、直接プロービングがあれば、LLMがこの新しいデータをベクター空間やテンソル空間で見つけることを期待することはできます。データを抽出することさえできるかもしれませんが、確かにデータはニューラルネットワークに織り込まれていません。ニューラルネットワークは、既に事前学習モデルに存在する他のすべての推論トレースに推論トレースを割り当てるために必要なニューラルネットワーク接続、推論接続を作ることができません。
このモデルはどのようにしてこのモデルの指示に従うことができるのでしょうか?これが当時この記事を読んで感じたことです。
この美しい研究に戻りましょう。間違いではありません。彼らは「これらの発見は、マルチモーダル推論を強化するためのツールとしての教師あり微調整の限界を強調している」と述べています。当時、私はこれに同意せず、違うように感じました。感覚ですね。
そして彼らは「単に監視をスケーリングするのではなく、強化学習のようなより高度なトレーニング方法にシフトすることを結果は示唆している」と言っています。10日前、みんなは「教師あり微調整+強化学習」について考えていました。私たちはDeepseekの論文を読んで、「大きなモデルには強化学習だけ、小さなモデルには教師あり微調整と強化学習を」と言っていました。10〜11日前、これがトレンドで、彼らは絶対にこのトレンドに従っていました。
しかし私にとって、2日前に発表されたこれは、それが間違っていたことを明確に示しています。彼らはまさにこの特定の質問「単独での強化学習LLM推論能力」に焦点を当てていました。そして彼らは「検証可能な報酬システムのための強化学習は、ベースモデル(事前学習モデル)を超える通常の推論能力を引き出さない」と言っています。それはサンプリング効率のみを改善し、検証可能な報酬のための強化学習は推論の境界を狭め、利用可能な解決策の空間を減らすという負の効果さえあります。
なぜすべてを見せないのかと尋ねられても、私は内容をどう考えるか、論文の科学をどう評価するか、そして価値を提供したいと思うものに基づいて論文を選んでいます。すべての論文を見せることはできません。もし論文を読んでいないなら、AIにこれを要約させると、「マルチモーダル推論では教師あり微調整はGRPOと互換性がない」というヘッドラインが返ってくるでしょう。
これは完全に間違った声明だと思います。私の言葉で言えば、事前学習モデルのデータや知識と関連して互換性のない教師あり微調整トレーニングデータで教師あり微調整されたビジョンを持つかどうかに関わらず言語モデルは、後の強化学習アライメントでも低いパフォーマンスを示すでしょう。なぜなら、教師あり微調整でやり方に多くの誤りがあると、後で強化学習で修正しようとしても完全に回復することはできないからです。
結論には、当時私が同意できなかった2つのポイントがあります。最初は「推論データを蒸留し、パフォーマンス教師あり微調整は推論能力を移転する効率の悪い方法である」というものです。私はそうは思わなかったし、言語モデルではそうではないことを確実に知っています。なぜなら10日後にこのデータ実験を得たからです。黒が蒸留バージョンで、強化学習、ベース、指示調整版よりも優れています。
「蒸留推論データとパフォーマンス教師あり微調整は効率の悪い方法である」と言うことは、10日後には「これは正しい声明ではない」と明らかになりました。凍結された視覚エンコーダーによるクロスモダリティについては、凍結状態ではなく動的状態でこれを行わない場合、非常に興味深い議論になるでしょう。
2つ目は「推論は強化学習から獲得される自然な創発能力である」というもので、私はこの声明に同意しません。1週間後、「これは事実上データの誤った解釈である」と完全に述べている出版物が出たからです。テキサスのチームに何も問題はありませんが、彼らは8日後に発表されるデータを持っていませんでした。彼らはK=1のシナリオだけに注目していたので、理解できませんでした。K=1だけに焦点を当てると、おそらくこのような印象を得るでしょう。
しかし川大学のこの出版物のように高いKに行くと、システムの完全に異なるトレーニングダイナミクスが見えてきます。「推論は強化学習から獲得される自然な創発能力である」という声明は、AIサマリーがあなたに主な結論として返すでしょう。あなたはこれが正しい声明だと思うかもしれませんが、彼らが持っていたデータを考えると、当時の誤った解釈かもしれません。そして今、1週間後に新しいデータがあるので、これが正しいかどうかわかりませんが、はっきりさせましょう。
強化学習は美しく、正しく行われた強化学習は強力です。しかし、それが教えることができること、できないことは、報酬信号の豊かさによって条件づけられています。ポリシー最適化と報酬モデルを使用し、場合によっては価値モデルを使用することを決定した場合、それは開始プライアの強さによって条件づけられます。事前学習モデルがどの複雑さでプリトレーニングされたか、新しい能力を判断するために使用される指標によって異なります。
テキサスはK=1だけを見て、他のすべてのケースを無視しました。システムのパラメータに非常に依存しており、一般的な教師あり微調整と一般的な強化学習についての一般的な声明を出すと、AIサマリーを設計する際にこれを読んで、これが正しい声明であり、一般的に正しい声明だと思うかもしれません。いいえ、それはK=1にのみ有効でした。なぜなら、この場合のサンプリング効率のみを評価したからであり、推論能力ではありません。
しかしこの洞察は8日後に発表されたので、テキサスは約1週間後にこの新しい出版物、新しい洞察、内部動作の新しい理解が発表されることを知りませんでした。注意が必要です。論文を読んで何を信じるにしても、自分の判断を信頼してください。この特定のケースについての私の推論を理解したい場合、この動画で詳細に説明しました。
したがって、トレーニングのどの特定の部分を見ているかを本当に理解することが非常に重要です。LLM、VLMなどの事前学習があり、私の最後のビデオはここに焦点を当てていました。継続的な事前学習で新しい知識、ドメイン固有の知識を追加します。例えばメタAIを構築したいなら、継続的事前学習でこれを行います。そして本当に教師あり微調整を使う必要がある場合は、ダウンストリームタスクをトレーニングするために行います。古くから言われているように、微調整はモデルを特定のタスクに熟練させますが、タスクを実行するために知識が必要な場合は、事前学習または継続的事前学習からの知識が必要です。
強化学習では、どのポリシー最適化を選択するにしても、非常に敏感で判断が難しいものです。しかし、モデルの行動に関するアライメントは、私にとって常にうまく機能するフォールバックソリューションであり、これを理解するのに役立ちます。そしてトレーニング時にこれを行った後、推論モデル推論について話し合うことができます。テスト時の計算スケーリングモデルについて話し合うことができ、これらのモデルを5分、10分、30分、2時間実行することができます。
詳細について多く知るほど、複雑な出版物でさえ理解するのが簡単になります。特定の週の特定の日の真実を見つけることができます。なぜなら、来週には完全に新しい知識に遭遇するかもしれないからです。もし購読していただければ、興味深いものがあれば、ここで動画を見つけることができることを確信できます。

コメント

タイトルとURLをコピーしました