RLHFの欠けていたピース：QwenのワールドモデルがAIと人間の価値観を整合させる（GRPO）

8,375 文字

RLHF’s Missing Piece: Qwen’s World Model Aligns AI w/ Human Values (GRPO)

After multiple Qwen3 models now Qwen published a new world model (WorldPM) for human preferences (RLHF) and further expl...

こんにちはコミュニティの皆さん。昨日Qwenが新しいAIモデルを公開しまして、私はこれは見なければならないと思いました。ここに真新しい研究論文WorldPMがあります。これは素晴らしいものです。本日は2025年5月16日で、彼らはここに新しいWorld Preference Modelがあり、ここでスケーリングポテンシャルを強調していると言っています。
そして私は「これは素晴らしい」と言いました。なぜなら私の前回の動画はここのニューラルスケーリング、小さな言語モールについてでしたが、その翌日にはもうQwenからの新しい出版パックがあったからです。見てみましょう。そこでGitHubに行って見ました。昨日からのリードミーで、星が9個。何が起こっているのでしょうか。そしてHugging Faceを見てみましょうと言いました。ここにあります。6時間前に更新されたばかりです。ここにはWorldPM-72BとリインフォースメントラーニングフロムUNフィードバックとウルトラフィードバックがあります。これは興味深いですね。
これを見てみましょう。そしてここを見ると、WorldPM-72Bのダウンロード数は0です。6時間前に公開されましたが、ダウンロード数は0です。何が起こっているのでしょうか。そしてコードを見ると、はい、利用可能です。AutoTokenizer configurationとAutoModelです。ここからHugging FaceのQwenWorldPM-72Bを使います。
モデルとトークナイザー、会話、出力、スコアを取得します。そして私は「ちょっと待ってください」と言いました。そして今ここを見ます。今私たちはそれが何であるかを理解しています。これは報酬モデルです。これは全く新しいリインフォースメントラーニングモデルです。これは今魅力的です。彼らが考案したものは何でしょうか。何が新しいのでしょうか。見てみましょう。
これを覚えていますか。500年以上前、レオナルド・ダ・ヴィンチがここにルオ・ヴイアノを描きました。ウィトルウィウス的人間は約1490年頃です。そしてご存知のように、500年以上前の当時、これはハイルネッサンスの典型的な代表でした。これは現代人、現代の人間、ルネッサンスの完璧なシンボルでした。
そしてご存知でしょうか。これがまさに私たちが話そうとしていることです。なぜならこれが今AIにおける私たちのWorldPMだからです。あなたは「何のことを言っているのですか」と言うかもしれません。まあ、それはかなり簡単です。なぜなら500年前、これらは完璧な比例でした。これはあなたが望むなら完璧な人間でした。そして今、私たちはここで人間フィードバックによるグローバルリインフォースメントラーニングを見ています。
そして私たちも言います、「完璧な人間の態度とは何でしょうか。完璧な人間の思考とは何でしょうか。そしてAIはここでどのように機能すべきでしょうか」と。私たちがここで時間を遡ると、今日私たちがここで行っていることを知っているからです。私たちは小さなドメインを持っています。そして各小さなAI LLMに対して、サブフィジックスのドメインに対する人間フィードバックからのリインフォースメントラーニングがあります。そして医療の何かに対する人間フィードバックからのリインフォースメントラーニング、またはソーシャルメディアプラットフォームの何かに対する人間フィードバックからのリインフォースメントラーニングがあります。
しかし今、このアイデアがあります。「AIに対するグローバルな新しい人間の人間フィードバックからのリインフォースメントラーニングを今ここで定義してはどうでしょうか」。絶対に魅力的で、私はここでChatGPTやQwenのようなLLMを持っていることを知っています。そしてそれらのAIモデルをアライメントしなければならないことを知っています。なぜならそれらは箱から出してすぐには正しく動作しないからです。
そこで私たちはここにアライメントプロセスを持ち、これらのAIを人間にとって有用で、無害で、正直なものにします。そしてOpenAIは数年前、人間フィードバックからのリインフォースメントラーニングと呼ぶ方法論を導入しました。非常に簡単に、人間フィードバックからのリインフォースメントラーニングは今別のAIモデルの訓練を含み、それは報酬モデルと呼ばれます。
この報酬モデルの非常に特定の形式は選好モデルと呼ばれます。なぜでしょうか。なぜなら古き良き時代には、人間が座って選好を見ていたからです。人間はAI生成の出力を答えAまたは答えBから持ち、そして人間は「私は答えAに対する選好、または答えBに対する選好を持っています」と言いました。だから選好モデルですが、それは単に報酬モデルです。
今、2つのAI生成応答のうちどちらを人間が好むかを予測し、もちろん私たちは今日これを合成的な方法で行います。そこで私たちは今ここに選好モデルまたは最も正確に言えば報酬モデルを持ち、それが今LLM、大規模言語モデルを人間がAIに望むような、人間の期待に沿ったより良い出力を生産するようなフレンドリーで無害で正直なものになるように、独自のアライメントで導きます。
そこで今私たちが持っているのは、人間の期待により一層アライメントしたいLLMと、そしてここに報酬モデル、報酬モデルまたは選好モデルと呼ぶAIモデルがあります。私にとってPMは首相の略です。ちょっとブリティッシュですが、気にしないでください。まず報酬モデルを訓練しなければなりません。すぐにどのようにこのアーキテクチャを構築するかをお見せしますが、これはかなりシンプルです。しかし、それが何であるか、何を組み込んでいるかを考えてください。
この報酬モデルは、500年以上前のレオナルド・ダ・ヴィンチのウィトルウィウス的人間のように、ここで人間の基準を定義します。倫理的で、道徳的で、フレンドリーで、正直で、真実の。これはここで、人間がAIが提供する選好を記入することを望まない場合です。これはここでもしあなたが望むなら、レオナルド・ダ・ヴィンチのここから現代の選好モデルへの転置を組み込んでいるY報酬モデルです。
そして今、言語モデルが再び「与えられたクエリに対して答えAと答えBを与えます」と言った場合、私たちは座って「Aの方が良い」と言う人間を持たず、この報酬モデルを持たず、これははるかに費用効果的です。そして私たちは続行し、別の答えを持ち、このモデルは「ここでBの方が良い」と言い、アイデアを理解していただけるでしょう。
つまり、この報酬モデルは、あなたが望む人間の倫理、人間の道徳、人間の基準、人間がLLMの、GPTの、Geminiの、何であれの開発を導くためにどう反応するかを定義します。そしてもちろん、人間フィードバックによるリインフォースメントラーニングで報酬モデルがあれば、ここでリインフォースメントラーニングアライメントを使用できます。標準で行くと言いましょう。これについてもっと学びたい場合、特にここの選好ベースの報酬モデリングのためのBradley Terryモデルについて、私は2025年1月のこの出版物をお勧めします。
そして「私たちは本当にここで立ち往生しているのですか」を見たい場合、私たちは既にここではるかに良い方法論を持っています。私のチャンネルからの2つの動画があります。LCPOまたはDAPOで行けます。そしてVAPOさえもあります。だからここでの継続は、私たちは高速AI研究開発が進行中です。だからさらに情報を得たい場合。
そして今、Qwenによるこの新しい論文は、スケーリング法則を見て、「この人間代替品の理想的なサイズは何ですか」と言います。「30億フリートレーナブルパラメータモデル、14Bまたは32Bですか」と。そして彼らは出てきました。彼らの研究を読んでください。それは美しい論文です。彼らは「完璧な均衡は722億フリートレーナブルパラメータAIモデルです」と言います。これは私たちに報酬モデル、PMにとって最良の結果を与えます。
だからそれについて考えると、このWorldPMは今、人間がどの応答を好む可能性が高いかを予測することを学びます。しかしまず、このAIモデルを訓練しなければなりません。いいえ、訓練データが必要です。しかしここから始めましょう。ここでの入力またはここでの出力は各応答のスコアで、スコアの差は選好の強さを示しました。
だから今、大規模言語モデルからスケーリング法則の概念を報酬モデルまたは選好モデルに拡張し、実際に著者はLLMでの私の前回の動画のように、スケーリング法則をここで見つけるだけでなく、今報酬モデルでもここで類似の法則を見つけます。そして私は既にここで結果を与えました。70Bモデルが完璧な均衡であるようです。
彼らはまた「すべてのLLMがここで巨大なテキストコーパスで事前訓練されている」と言い、今著者も同じように、ここで報酬モデル、PMをパブリックフォーラムからの大量の選好データで事前訓練しました。なぜならどのように現代の男性、現代の人間、現代の女性のアプローチを定義したいか、それは何が道徳的でフレンドリーで倫理的で真実で正直か、AIのためにこれをどう定義するかです。
だから彼らはここでパブリックフォーラムに行きました。幸い、Facebookやそのようなものではありません。そして彼らはRedditを調査しました。ええ、今Redditには多くのAIが溢れています。Redditが使用不可能になるまで、またはQuoraやStack Exchangeまで何日あるか分かりませんが、彼らはここで1500万の選好ペアを収集しました。それは多くのデータ収集でした。
そして彼らは、訓練データとベースモデルサイズ72Bが増加するにつれて、PMが欺瞞的または事実的に不正確な応答を識別することで一貫してより良くなることを発見しました。そして彼らは72Bで有意な改善を言い、ここでより小さなものは本当に苦労していて、あなたのより小さなサイズのPMを推奨しないでしょう。
そして私は「それなら何でしょうか」と言いました。それで私たちは事前訓練されたWorldPMを持ち、これは今LLMと全く同様にここで基盤モデルとして機能します。なぜならこの事前訓練されたWorldPMは、より小さなドメイン固有の人間注釈付き選好データセットで微調整できるからです。
コールセンターや金融センターや医療応答センターや何でもあなたが持っているものがあるかもしれませんが、あなたは知っています。小さなデータセットで一からPMを訓練するよりも、より良いパフォーマンスとサンプル効率をもたらすと彼らは言います。だから巨大な事前訓練されたワールド報酬モデルを持つことは有益です。特に人間フィードバックのためのリインフォースメントラーニングのようなことを行う場合、より良いアライメントが得られます。
そしてこのより正確なPMは、今LLMに人間が好むより整合した出力を生産するために、はるかに良い方法を提供できます。より良いスタイル、人間によるより良い受容、より良い会話ユーザーインターフェースです。だからそれは彼らが見ているウィンウィンの状況です。
だから私にとって興味深いです。なぜなら今私たちは常に事前訓練されたLLMを、次のトークンを予測する自己回帰タスクの基盤モデルとして、さまざまなテキスト生成タスクに持っていたからです。そして今初めて、彼らはQwenのためにここで言います。私たちはこのワールド報酬モデルを作成したいのです。これは人間の選好のための基盤モデル、人間がAIとコミュニケートしたい方法の理解、そしてAIが人間との相互作用でどうあるべきかの基盤モデルを目指しています。
今、報酬モデルまたは選好モデルのアーキテクチャは非常にシンプルです。私のチャンネルの購読者なら、これを知っています。なぜなら何という驚きでしょう。事前訓練されたLLMから始めます。QwenやGPTやあなたが好きなものでもいいです。そして最終層のトークン予測前の隠れ状態、これは既に入力テキスト、つまりプロンプトと応答のかなり凝縮された要約を含んでいます。
そして今、LLMを報酬モデルに変える方法は基本的です。それはとても簡単です。今あなたは単に元の言語モデリングヘッドを削除します。だからこれはNXトークンを予測するLMの部分です。そして最後に、あなたは単に新しいシンプルなヘッドを追加します。単一の線形層で活性化はありません。それは最終隠れ状態または複数の隠れ状態のプールされた表現を取り、それを単一のスカラー値にマップします。そしてこのスカラー値が私たちの報酬スコアであることを推測してください。それほど簡単です。
ええ、一般的な損失関数は、数分前に推奨したここの研究論文で見ることができるBradley Terryモデルです。しかし気にしないでください。それは完了しています。しかし最も重要なのは今データです。データ品質、データ量、データ相互作用。そして彼らはここで決定しました。彼らはすべての異なるものを見て「Stack Exchangeは本当に興味深い」と言いました。
ここにStack Exchange数学があります。問題があり、投票し、答えがあり、ビューがあり、アップボートまたはダウンロードできます。または個人金融とお金にここで行きます。そして見てください。だからそれは本当にコミュニティプラットフォームですが、Facebookやこのナンセンスのようなすべてのまあ言ってみればBSを持つソーシャルメディアプラットフォームではありません。
しかしこれは本当に、人々が本当に解決策を見つけることに興味を持ち、解決策を提示し、私の401k金額はどうなるかやどうなるかというような、もう少し挑戦的なタスクを持つところです。だからこの研究の著者は今本当に深く行き、ここで複数のソースを分析しました。あなたが見たStack Exchange、ここでSEとして、そしてReddit、Quora、Help tooやすべての異なるソースを見ました。ここでコミュニティ相互作用があります。とても興味深いです。
私は非常に興味深いポイントがあるかもしれないと思います。たとえばヨーロッパのユーザーがこれらの異なるプラットフォームでどのくらい活動しているか、またはアジアの友人がこの特定のプラットフォームでどのくらい活動しているかは分かりません。そして英語だけを見ると、これは本当に人間フィードバックによるグローバルリインフォースメントラーニングの代表的なサンプルなのか分かりません。しかしとにかく、どこかから始めなければなりません。
だから私は彼らが達成しようとしたことを正確に理解します。彼らはグローバルプラットフォームに行き、それを見て、それらで訓練しました。そして彼らは今これと品質とすべてを分析しました。そして彼らは、Stock Exchangeの他のソースと比較した優れた品質を考慮すると、ここでワールド選好をモデリングするための代表的なフォーラムデータソースとして選択したと言いました。
そして私はこれは絶対に興味深い声明だと思います。そして私たちは一緒に来て、アメリカ文化、ヨーロッパ文化、東南アジア文化にどのような共通分母を持つことができるかをもう少し議論すべきだと思います。インドと中国、日本、韓国の間には文化的違いがあると思います。だから本当にグローバルレベルでこれを確立したいなら、話し合うべきことがあると思います。将来やるべき仕事はたくさんあります。しかし気にしないでください。
そして私の最後の動画を見たなら、私が今感じていることを正確に知っています。世界中からのオープンソースデータが入ってくるのを見ると、セキュリティリスクは極端です。しかし気にしないでください。私たちはAIで前進を続けています。しかし良い夜の睡眠を取りたくない場合は、この動画を見てください。そうすればその夜は眠れないでしょう。
ベンチマークデータです。彼らは、私たちは今WorldPMを内部の人間フィードバックによるリインフォースメントラーニングパイプラインに統合し、リインフォースメントラーニング最適化アルゴリズムGRPOを採用したと言いました。そして彼らは2つの72Bモデルでこれを行い、もちろん絶対に彼らの文化的背景でWorldPMありとなしで社内ベンチマークを使用し、そしてWorldPMありで、彼らは社内ベンチマークとArenaとBench on Alpakaでのオープンソースベンチマークでこれを行いました。
そしてここで結果を見てください。太字でWorldPM報酬モデル選好モデルありで、彼らは至る所でより良いパフォーマンスを持っていました。今あなたは91から93に尋ねるかもしれませんが、これは既に100に近いです。だから彼らが今達成したことはかなり印象的だと思います。
彼らはQWQ32BでQPOアライメントを行いました。気にしないでください。そして彼らは、私たちの発見は今WorldPM初期化を示していると言います。だからこのワールド報酬モデル選好モデルから始めて、それからいくつかの微調整を行い、それからここでドメイン固有の人間の選好でこれをさらに行います。
合計で、私たちは人間の選好とのより良いアライメントを得て、全体的に改善されたアライメント効果を持ちます。そしてこれが正確にリインフォースメントラーニングを行う理由です。だから本当に興味深いアプローチ、本当に興味深い洞察です。しかし洞察について話すと、これをお見せしたいと思います。これは私を魅力しました。
これはここの勾配ノルムと訓練データサイドと訓練損失です。訓練中に彼らは悟りの瞬間を観察したと言います。なぜならここで訓練損失を見てください。ええ。下がって下がっています。しかしここで何かが起こっているのを見てください。これを見ますか。そして勾配ノルムを見ても同じです。
そして彼らは約1260万の訓練サンプルで臨界転移を観察したと言いました。損失の急激な落下は、ここで勾配の鋭いスパイクと一致し、すぐに収まります。そして彼らはここでの訓練で何が起こったかについて今解釈を持っています。そして彼らは、これは機能が新機能において成功した転移だと考えていると言います。
だからこれは、モデルがより一般的で効果的な選好表現、内部表現を発見したことを意味します。それはここで自分自身を最適化し、異なる選好シナリオ間でより強い一般化能力につながる可能性があります。これが私が魅力的だと思うことです。訓練データで単なる線形動作ではなく、不連続性があり、突然新しい解空間構成、特に新しい表現にいることを見る場合です。これは良いです。
いつものように、私の動画の最後にオーケストラに声を与えたいと思います。そして私はこれは非常に興味深い段落だと思いました。彼らは今自分たちで言います。報酬モデルのルールの未来は何でしょうか。私たちはこれをますます統合し、広範なエンジニアリング努力のおかげで、私たちが気にかけるほとんどの客観的次元を信頼性を持って監督できるようになり、一般的に報酬モデルへの依存を著しく減らしています。
だから報酬モデルの未来は何でしょうか。彼らはさらに微調整できる基盤モデルとしてのこの良い解釈を見つけて、より良いパフォーマンスを得ました。しかし私たちは報酬モデルが必要でしょうか。より良い代替案はありますか。より高度な技術はありますか。絶対に魅力的です。次の数日または数週間でAI開発パイプラインを見る場合。
だからここにあります。私があなたに「人間が新しいAIモデルを公開し、彼らは新しいワールドモデルと呼んでいる」と言った他の動画を始めました。そして私はそれが何であるか全く分かりませんでした。今15、20分後、私たちはそれが正確に何であるか、なぜQwenがそれを開発したか、Qwenが次のモデルのためにこれをここでどう実装するかを正確に知っています。そして私たちは次のモデルのためのEIDEパイプラインでここの展望さえも持ちました。
このチャンネルに興味があれば購読してください。次の動画でお会いしましょう。