この動画は、視覚言語モデル(VLM)における強化学習の最新動向を解説したライブストリーム配信である。特にGLM 4.1V ThinkingとNvidiaの長編動画推論に関する2つの研究論文を詳細に分析し、DeepSeekのGRPO(Group Relative Policy Optimization)アルゴリズムがいかに視覚的推論モデルの開発において標準的な手法となっているかを明らかにしている。配信者は両論文の共通点として、大規模データセット構築、カリキュラム学習、そして3段階の訓練パイプライン(事前訓練、長い思考過程での教師あり微調整、強化学習)を指摘し、次世代AI開発における視覚モダリティの重要性を強調している。

VLM RL – 視覚言語モデル強化学習の最前線
YouTubeでのテストを行っています。YouTubeでのテストです。よろしい、YouTubeは動作しています。Xを待ちます。Xでのテストです。Xでのテストです。OnXでのテストです。ここでタイトル画面を保持しましょう。GPT YouTubeからの素敵な生成画像ですね。いいですね。調子はどうですか?87gn
まもなくライブ配信が開始されるはずです。さあ、始まりましょう。Xでのテストです。Xでのテストです。よろしい、Xも動作しているようですね。さて、YouTubeでライブ配信中です。Xでもライブ配信中です。始めましょう。
皆さん、またのHoopoストリームへようこそ。今日のストリームは「VLM RL」と呼ばれています。つまり、視覚言語モデル強化学習ですね。ここに我らがマスコット、白いベンガル猫のBuuが迷路を見下ろしている素敵な画像があります。これは思考の連鎖、おそらく何らかの推論を示唆しているのでしょう。今日は2つの論文を見ていきます。
今日はこちらの2つの論文への深い掘り下げになります。GLM 4.1V thinkingは、おそらく史上最悪の名前の一つですが、JIPU AIとSinquaによる「スケーラブルな強化学習による汎用マルチモーダル推論に向けて」という論文、そして類似の論文である「長編動画へのRL拡張」です。つまり、強化学習が視覚の世界に入り始めているということですね。現在LLMの世界で非常に人気があるだけでなく。
皆さんにお知らせしておくと、これらの論文はHugging Face Daily Papersから来ています。これは私が使っている多くの論文ソースの一つです。こちらのdocsリポジトリで見ることができます。私が論文をソースする場所がいくつかあります。これが4番目のものです。このDaily Papersに入って、選択することができます。
日次、週次を選択でき、私は月次を選択しました。そして最初の2つがこちらで、これらが今日レビューする論文です。一般的に私がここに来るとき、このような他の集約サイトもありますが、最初のこれら2つが十分に関連していたので、良いアイデアだと思いました。
多くの場合、論文を読むときは、読みたい論文を一つだけでなく、関連する類似の論文をいくつか持つことが有用です。小さなベン図のように考えると、それらの論文すべてが共有する領域が、おそらく真実により近いのです。さて、今日読むのがこれらです。調子はどうですか、Jamal?始めましょう。
論文の概要分析
まず最初に、もちろん両方の要約を見ていきましょう。GLM 4.1V thinkingは視覚言語モデルです。これは2次元画像や動画(2次元画像フレームの連続)を消費できる言語モデルで、視覚エンコーダーを持っています。そこからVが来ています。
推論中心の訓練フレームワークの開発における重要な発見を共有します。もはやインターネット上に存在する人間が生成したデータだけで訓練するのではなく、インターネット上でデータを生成する他の誰かは分かりませんが、現在はこれらの推論中心の訓練に入っています。これが実際に意味するのは、訓練するトークンの多くが実際に言語モデルによって生成され、何らかの最終的な結論に導くような方法で生成されているということです。
正しい結論に導く長い推論チェーンをフィルタリングすることで、正しい結論への推論チェーンを作成できるモデルが得られます。大規模事前訓練を通じて、この推論なしで有能な視覚基盤モデルであるVLMを開発します。そして、カリキュラムサンプリングを伴う強化学習を提案します。これは、AIに投入するデータの種類と訓練のどの時点でそれを行うかについて非常に注意深いという、ちょっと派手な言い方です。
これが両方の論文でテーマになっていることがわかります。非常に注意深いデータキュレーション、そしてカリキュラムです。これはデータミックスだけでなく、具体的にそのデータミックスをどのように使用し、訓練の過程でモデルにそのデータミックスをどのように露出させるかを指します。これは非常に重要です。
フルポテンシャルを解き放ちます。いくつかの異なるタスクがあります:STEM問題解決、動画理解、コンテンツ認識、コーディング、グラウンディング、GUIベースのエージェント、長文書理解です。彼らはGLM 4.1v9b thinkingをオープンソース化します。つまり、小さな9bの視覚推論モデルで、これは我々のバックポケットに持っておくのに非常に良いものです。
DeepSeekのような強力なオープンソース推論モデルがありますが、画像を消費する能力がありません。ついに画像を消費できるオープンソースモデルを手に入れました。28のベンチマークにわたる包括的評価で最先端のパフォーマンスを達成し、Quen 2.5VLを上回ります。一般的に論文が最先端を主張する場合、少し疑ってかかる必要があります。通常、彼らは少し古い結果、おそらく彼らが得意とする特定のベンチマークのみと比較しているからです。これが実際に最先端のモデルだとは思いません。これは少しアスタリスク付きの最先端です。調子はどうですか、Binks?
GPT4oなどのクローズドソースモデルと比較して競争力のある、または優れたパフォーマンスも実証しています。コードとモデルの詳細情報はこちらでリリースされています。ここでこれらの種類のベンチマークグラフの一つを見ることができます。これはどのモデルが優れているかを視覚化する方法です。これらの形状はそれぞれ1つの特定のモデルを表しています。緑色はQuin 2.5VLです。
そして、これらはそれぞれ異なるベンチマークです。基本的にこれと同じグラフです。この情報をバーチャートのように表示することもできたでしょう。しかし、この円で行うことで、背景の大きな青い形を見ることができ、これがこれらの個々の次元のそれぞれでこのモデルが優れていることを示しています。
では、この2番目の論文を見てみましょう。この要約を読んでみましょう。これはNvidiaの論文です。MITやUC Berkeleyなどのいくつかの学術機関も関与していることがわかります。これらの論文の両方を、実際にここのリリース日を見ると、比較的最近の論文です。だから月次に載っているのです。
視覚言語モデルにおける推論をスケールアップするフルスタックフレームワークを紹介します。同じアイデアです。推論と推論訓練のアプローチを視覚ドメインに拡張しているのです。特にここでは長編動画で、これらには独自の問題セットがあります。画像、特に画像を使用した強化学習の最大の問題の一つは、非常に非効率的だということです。
強化学習は既にかなりサンプル非効率的で、常に訓練するためのより多くのデータを生成しているため、多くの訓練が必要です。基本的に無限に訓練できます。しかし、テキスト情報だけでなく視覚情報を消費するときはいつでも、そうすることに対する巨大な計算負担があります。
この論文では、それを少し高速化するための素敵な小技があります。これがMRSPシステムで、2.1倍の高速化を実現します。MRSPはマルチモーダル強化シーケンス並列化です。そこでのキーワードはシーケンス並列化です。多くの異なるタイプの並列化があります:データ並列化、モデル並列化、テンソル並列化。これはシーケンス並列化です。
これについてもう少し深く掘り下げますが、通常最初のページの最初の図が、この論文で最も重要なことのアイデアを与えてくれることがわかります。この論文を書いた人々は、最初の画像が何になるかについて決定を下さなければなりません。
最初の画像は、ほぼ常に全体を設定し、論文を理解する必要がある場合、その最初の図を読むだけで、この論文の約90%について分かります。この最初の論文で彼らが本当に紹介しようとしているのは、彼らの最先端性だと思います。さまざまなベンチマークでの我々のスコアです。
彼らが最も誇りに思っているのは、これらのベンチマークでのスコアです。このNvidia論文、これらの著者が最も誇りに思っているのは、シーケンス並列化を使用して達成したこの高速化です。ここでグレーのバーがこのMRSPで、そして黄色と赤がシーケンス並列化の異なるバージョンありとなしです。
そこで高速化を見ることができます。明らかに赤いバーはその約半分の高さで、ある時点で、特に多くのフレームを持つ長編動画を扱っているとき、GPUのメモリが不足します。このシーケンス並列化を使用することで、複数のGPUに分散させることができ、機械学習で働く人にとって恐ろしいエラーであるOOMを回避できます。これはOut of Memoryを意味します。
基本的に、GPUに収めようとしている数値の量が、そのGPUのメモリに対して大きすぎることを意味します。モデル、バッチサイズ、おそらく勾配、これらの機械学習モデルの訓練に関連する他の多くの異なる数値の組み合わせを、GPUメモリのサイズ内に保つ必要があります。
しかし明らかに、すべて一緒に動作する多くの異なるGPUがある場合、それらのメモリを組み合わせることができます。これが並列化の全体的なアイデアです。調子はどうですか、Lil KM?ストリームを待っていましたね。うまくいけば期待に応えられるでしょう。
データセットとトレーニングパイプライン
要約に戻りましょう。大規模データセット長編動画推論は、多様なドメインにわたる高品質推論アノテーションを伴う52k長編動画QAペアで構成されています。これは始めに私が言っていたことと似ています。このような2つの類似論文を見ることで、最も重要な部分と重要でない部分についてのアイデアを得ることができます。
これらの論文の両方で、論文の多くがデータセットキュレーションと、どのようにデータを選択するか、どの訓練段階でどの時点でモデルに供給するかというカリキュラムのアイデアに専念されています。高品質推論アノテーション、データセット作成の整理、データセット錬金術と考えることができます。
ストリームありがとう、Hoopo。感謝します、Sid。思考連鎖教師あり微調整と強化学習でVLMを拡張する2段階訓練パイプライン。思考連鎖教師あり微調整は微調整ですね。そして教師ありとは、微調整するものを与えているということです。思考連鎖教師あり微調整とは、基本的にフィルタリングして正しいことを確認している思考連鎖で微調整していることを意味します。
基本的にモデルに「これは微調整するのに良い思考連鎖です」と伝えているのです。一方、RLは少し一般的で、何らかの報酬システム、おそらく異なる検証者、おそらく異なる報酬の組み合わせを使用して、微調整データセットに投入するのに良いコードが何かを決定します。
ちょっと鼻をかませてください。
この訓練インフラストラクチャMRSP、長編動画に合わせたVLLMベースエンジン。これは実行できるもう一つのことです。このVLMベースエンジンを見てください。VLMは基本的に推論を行うことを可能にするソフトウェアフレームワークです。これを最初に見たのは実際に…忘れてください。
これら両方のコードがあります。Envy Labs long RLとこのGLM 4.1 V thinkingです。2週間前、先週を見ることができます。つまり、まだこれらにコードをプッシュしています。2日前、3日前。これらはアクティブなコードベースです。しかし、ここのrequirements.txtに行くと、両方ともtransformersを使用していることがわかります。これはHugging Faceです。
torch visionも見えます。これは画像を処理し、画像にデータ拡張を追加し、画像を画像エンコーダーに供給できるテンソルに変換することを可能にするPyTorchモジュールです。しかし、このVLMがここにあります。VLMが見えて、NV labsでも、要件をここで見てください。ここにもあります。
実際に両方ともこれを使用しています。あ、いえ。こちらは少し新しいバージョン0.9.2を使用しています。こちらは0.9.1を使用していますが、ここでパターンが見え始めています。皆がこのVLMを推論、特に強化学習パイプラインでの推論に愛用しているのです。これをHugging Control T Hugging Face gpoで見ました。
これがそれかどうかはわかりませんが、ここで見たのはそこで、基本的に強化学習を行っていて、8×8 H100クラスターのようなもの、これらのH 8 8GPUクラスターの一つで、GPUの一つが完全に推論専用でした。
基本的にそこに座って、これらの思考連鎖を作成し、それをモデルに勾配をプッシュするために使用します。これがこのVLMと組み合わせて見ているパターンです。
long villaも強力なパフォーマンスを達成し、Video R17Bを上回り、Gemini 1.5 Pro(現在は古いモデルですが)とも肩を並べます。シーケンス並列化により2.1倍の高速化があり、1時間の長編動画36,000フレームまたは3600フレームでのRL訓練をサポートします。
これを行っている間、実際にこの論文をGPT Grok 4とGemini 2.5 Proに供給し、最も興味深いアイデア、新規な貢献、実用的洞察について尋ねました。ここで一般的なものをいくつか得ました。しかし、実際にエージェントにアクセスがあり、皆がアクセスできるかわかりません。これを少し簡単に行ってみましょう。人々がそれに興味があると思うからです。
実際に行うのは、コードについて類似の質問をすることです。これらの論文のコードベースを分析してください。共通の依存関係、類似の設計パターンを見つけてください。他には何を行いましょうか。共通の依存関係と類似の設計パターン。これをそこにコピーします。そして、このコードベースもここにコピーします。両方のコードベースを与えます。理解しました。コネクタをオフにします。
GitHubを設定したからだと思います。最初に行うことはデスクトップの設定で、基本的にクラウドでの何らかのDockerコンテナーのスピンアップを意味します。使用しているブラウザーは永続的にそこに留まるブラウザーではありません。一種の一時的なブラウザーで、ある時点でこの質問が回答されるか、この小さなセッションが終了すると、ただ消えます。
そのブラウザーに蓄積されるクッキーがあっても消えます。このDockerコンテナーで中間のPythonファイルを作成しても消えます。これは、ゴミを蓄積し続けたくないので有用です。ここで小さなマウスを動かしているのが見えます。これらのコネクタでデータにアクセスしようとしています。GitHubにアクセスする方法は何らかのAPIを介してのようです。
ちょっと変だと感じることの一つ。このように進行して何をしているか見ることができます。そこには興味深い小さなビューがあります。しかし、このエージェントについて私を悩ませることの一つは、あなたがそれが何をしているかを見ることに非常に多くの努力が注がれていることです。
この丸い角を持つここでのこの小さなライブストリームのアイデア、何をしたかをスクロールできることのデザインに、どれだけのデザインが投入されたかを考えてください。ホバーしてここで小さな内部思考連鎖を作成するという事実。これは実際の思考連鎖ではありません。思考連鎖の何らかの要約です。
これが奇妙だと思う理由は、最終的にこれらのエージェントは画面外でこのすべての作業を行うからです。エージェントのポイント全体は、私が見ていないときに何かをすることです。では、なぜライブコンテキストでエージェントの視覚的プレゼンテーションにこれほど多くの努力を注いでいるのでしょうか?
1年後にGPTエージェントを使用するとき、理想的には全体のポイントは、タスクを与えて、基本的にそれにやらせることです。まるでエージェントが働くことを観察する体験ではなく、エージェントが5時間働いて戻ってくる体験のために最適化するようなものです。しかし、これは現在エージェントがほとんど作業をしているのを観察しているという現実だと思います。
同じ質問をここのGrokに与えて、同じ質問をGemini 2.5にも与えます。3つすべてが進行中です。Grokがここで推論要約を持っているのが見えます。Geminiにはそれがありません。いや、実行します。ただ隠しているだけです。戻りましょう。
ローディングバーは基本的にユーザーに落ち着きを与えます。それは良いポイントです、87gn。しかし、私にとってはある時点で実際にはローディングバーが必要ではないようなものです。ローディングバーのアイデア全体も、常に画面を見ている世界から来ています。
なぜローディングバーを追加したのでしょうか?何かをインストールしたり、何らかのプロセスを実行したりするときに、そのプロセスでどこまで進んでいるかを見る必要があったからです。そのプロセスが起こるのを画面を見て待っているという暗黙の仮定があります。
しかし、コンピューティングパラダイムは、ほとんどコンピューターを使用しない方向に完全にシフトするようです。プロセスのどこにいるかを見るために画面を見ることは実際にはありません。ある時点で、エージェントがすべてを自分で行っていることを信頼する必要があります。
ある時点で、エージェントは、それが行ったことの全プロセスを実際に見る必要がないほど十分に良くなるでしょう。最終的な答えのためにそこに行くだけです。しかし、まだこのローディングバーの考え方にいるようです。「エージェントがそれまでに行ったすべてを見ることができる必要がある」という検証プロセスのようなものです。
直接アクセスできません。ここでGeminiが問題に遭遇しているのが見えます。実際にrequirements.txtをクリックして読むことができないからです。その特定のファイルを実際に要求するための何らかのGitHub APIがないと思います。しかし、ここで両方ともtransformersを使用しているのが見えます。これはかなり明らかな推測です。
NumPy、Torch Vision、PyTorch image models、Tim TIMM、集中訓練。すべてかなり標準的なものに見えます。両方のリポジトリが推論用スクリプトと訓練用スクリプトを提供しています。これは重要です。オープンソースと呼ぶなら、訓練と推論の両方を持つ必要があります。
推論のみのオープンソースが多くあります。ここが推論スクリプト、ここがモデルの重み。このモデルを実行できます。しかし、モデルを訓練できるようになりたいし、訓練した正確なデータを見て、それを自分で複製したいのです。これらの論文の両方がそれを行っています。データは両方のストーリーの大きな部分です。
これはまだ進行中です。この画面の意味は何でしょうか?黒塗りのスクロールが見えますが、おそらく偽物でしょう。私は何を見ているのでしょうか?Transformers、VLM、PyTorch、およびTorch Vision、NumPy。ここで大きなものはRayです。
Rayは人気のある分散強化学習ライブラリです。これは実際にはかなり古いライブラリです。ChatGPTのずっと前にこれを使用していたのを覚えています。しかし、分散RLのアイデア、つまり2つの異なるタイプの計算タスクを含む強化学習を行っています。実際の生成または探索である推論があります。
ビデオゲームのコンテキストでは、実際にモデルでゲームをプレイしているインスタンスがあり、データや経験を生成し、モデルに勾配をプッシュして重みを更新するインスタンスがあります。これらは強化学習コンテキストで必要な2つの異なるタイプの計算タスクです。
1つのマシン、1つのGPUしかない場合、基本的に交互に行う必要があります。経験を収集し、その経験で訓練し、経験を収集し、その経験で訓練し、経験を収集し、その経験で訓練するということを基本的に繰り返す必要があります。
しかし、複数のGPUがある場合、それらを並列で実行できます。経験を収集するマシンと訓練するマシンを持つことができます。それは非常に多くの複雑さを追加します。常に更新されている何らかのデータストアが必要で、そのデータストアで経験をソートする何らかの方法が必要です。
良いデータ、低報酬データを知り、そこからサンプリングする何らかの方法が必要です。これがRayが解決することで、カリキュラムの全体的なアイデアに入り始めます。経験のリプレイバッファ、そのデータストアから実際にモデルをより良くする勾配をモデルにプッシュするインスタンスが時間とともにどのようにサンプリングするかです。
Sidからの質問です。現実のタスクでエージェントが10%の不整合の可能性を示したので、それが暴走している場合に表示または停止するためにリアルタイムでより透明にしたのかもしれません。それは透明性、説明可能性の良い議論だと思います。エージェントが100%の時間働かないので、正しく行っているかを検証するために検査する必要があります。
私が言っているのは、エージェントが50%の時間働くときのUIは、エージェントが99%の時間働くときのUIとは大きく異なるということです。OpenAIは、エージェントが50%の時間しか働かないという仮定に基づいてエージェントUIを設計したようです。あなたが望むことを正確に行う堅牢性がないので、常に検証する必要があります。
しかし、エージェントが99%以上の時間働くようになると、UIは完全に異なるでしょう。画面さえ見ないかもしれません。完全に音声ベースかもしれません。それはクレイジーでしょうが、時にはすべてが少し時間がかかります。
強化学習とGRPOアルゴリズム
続けましょう。我々の訓練フレームワークは、スケーラブルな強化学習を通じてモデルの推論能力を包括的に向上させる統一目標を中心に構造化されています。大規模クロスドメイン推論能力を推進するために、カリキュラムサンプリングを伴う強化学習を導入します。
RLCSは、カリキュラム学習と難易度認識サンプリングを組み合わせたマルチドメイン強化学習フレームワークです。モデルに供給する特定のデータバッチに対して、どのようなデータポイントを具体的に選択するかについてもう少し認識することのアイデアです。バッチはますます重要になってきています。
ここで1つのことについて話しましょう。これらの論文の両方がGRPOを使用しています。これらの両方の間のもう一つの興味深い共通点です。GRPOまたはGroup Relative Policy Optimizationは、基本的にDeepSeek R1と一緒に出てきたRLアルゴリズムです。これは強化学習を使用した推論モデルをリリースした中国のスタートアップでした。
オープンソース強化学習の旗艦となり、これらの論文の両方がそれを使用しています。以前にこれについてストリームを行ったことがあります。「オープンソースDeepSeek」と呼ばれ、GRPOとその由来を示すいくつかの素敵なスライドがありました。ここでそれらのスライドを再利用しています。
GRPOはPPOの変種で、おそらくすべての強化学習アルゴリズムの祖父であるREINFORCE(全部大文字)から来る最も単純な強化学習アルゴリズムの一つです。PPOはそのより現代的なバージョンです。
興味深いのは、これらの言語モデルでのRLの最初の使用であるRLHFがPPOを使用していたことを示しています。皆がPPOを使用したのは、最も単純なものだったからです。そして、GRPOが出てきた今、皆がGRPOを使用しています。
そこには多くの創造性や探索はありません。皆が何がゴーツーRLアルゴリズムかについてのコンセンサスがあり、それを得ると皆がそれを使用するようです。
しかし、GRPOが基本的に行うことは、PPOを取って、計算するのが煩わしいものを取り除くことです。ここでの共有用語はPolicy Optimizationです。Policy Optimizationは、モデル(ポリシーはモデルです)を作っているという派手な言い方で、最適化はある損失関数に関して勾配をプッシュしていることを意味し、その損失関数があなたを良くするタスクでより良くしています。
Policy Optimizationは基本的にモデル訓練を意味します。PPOとGRPO、GRPOのGroup Relativeとは何を意味するのでしょうか?いくつかの異なる可能な思考連鎖や可能な出力があり、それらのグループがあり、報酬はそれらのものの相対的報酬に基づくということを意味します。
4つの可能な出力を作成し、報酬に基づいてそれらの出力をランク付けし、最も報酬を得たものと最も報酬が少なかったものに基づいて勾配をプッシュします。バッチ内でのグループ全体の他に対する相対的報酬に基づいて、良いトレースと悪いトレースを決定していると考えることができます。グループはただの小さなチャンクです。
この論文では、実際に使用する正確なチャンク サイズを教えてくれます。与えられた各質問に対して、ポリシーモデルは候補応答のグループを生成します。これらの小さな緑の線、これがプロンプトです。この場合、DeepSeek論文では、すべてテキストトークンでした。
つまり、一連のテキストトークンがあり、ここでの補完も一連のテキストトークンです。これら2つの論文では、画像があります。これらのいくつかは視覚トークンです。質問を表すいくつかのテキストトークン、画像を表すいくつかの画像トークン、次のフレーム用のさらなる画像トークンなどがあります。ここでの出力はテキストトークン、テキストでの回答になります。
これらの候補応答には対応する報酬があります。これが強化学習の難しい部分です。「これに対する実際の報酬は何か?」と言う何らかの方法が必要です。ビデオゲームのようなものでは、かなり簡単です。スコアがあります。数学の問題でも、かなり簡単です。最終回答が正しかったかどうか。コーディングでも、似たようなことができます。
これらの論文の両方がDeepSeek報酬を使用しています。DeepSeek報酬は形式と正確性に基づく2部構成の報酬でした。元のDeepSeek論文では、これは強化学習で非常に一般的で、1つのグローバル報酬を持ってそれに向けて最適化するのではなく、複数の異なるタイプの報酬を持ち、ハイパーパラメータでそれらのバランスを取る方が良く働きます。
これは最終的に報酬ハッキングと報酬エンジニアリングとして知られるようになったもので、基本的に異なる報酬項目のそれぞれに対する小さなハイパーパラメータが何かを把握し、さらに多くの報酬項目を追加する方法に時間を費やすことです。
この形式報酬は、基本的にthinkトークンに続いてanswerトークンを挿入することによって強制切り捨てを強制して、モデルに構造を強制します。DeepSeek論文では、thinkタグがあり、モデルに喋る能力を与え、dash think endsがそれを終了します。
これらの論文の両方が、同じDeepSeek形式と正確性のデュアル報酬を使用しています。これらの論文の両方が基本的にDeepSeekをコピーしているだけで、DeepSeek論文がどれほど新規で興味深いかを示しています。オープンソースをフロンティアモデルのレベルに戻すだけでなく、オープンソースにとって大きな勝利だったからではありません。
半年後のここで見ることができるように、視覚言語モデルの強化学習論文の両方が、DeepSeekアルゴリズムであるGRPO、GRPO形式正確性報酬を使用しています。あなたの論文とアイデアがそのように粘着性がある場合、それは良い論文だと分かります。実際にDeepSeek論文がどれほど良かったかを実現しています。
モデルはその後、次の目的関数を最大化することによって最適化されます。これはπθです。これがあなたのポリシー、つまり実際のモデルです。ここに持ってきて実際に見ることができるようにしましょう。これは基本的に、高報酬完了を出力する確率対低報酬完了を出力する確率のようなものと考えることができます。
強化学習で実際に行っているのは、高報酬トークンシーケンスを生成する条件付き確率を低報酬トークンシーケンスに対して変更することだけです。高いものと低いものは、そのグループでサンプリングするものによって決定されるだけです。これがカリキュラムがこのGRPOアルゴリズムの重要な部分になる理由です。各グループが高報酬と低報酬を持つことを確実にすることがますます重要になるからです。
興味深いことがここにあります。KL損失を破棄します。テキストのみのモデルと比較して、視覚言語モデルは通常、強化学習中にKL発散のより速い増加を経験します。しかし、この増加を明示的に抑制するためにKL損失を適用すると、モデルの能力が顕著に制約されます。したがって、KL損失を削除します。
これは非常に興味深いです。KL損失はここのこの項目で、複数成分報酬関数を持つときと同じように、各報酬が互いにどれほど重要かを決定するハイパーパラメータが必要です。この報酬はその報酬の2倍重要だという場合、そこに0.5を置くようなことです。
このKL項は実際には追加の報酬関数のようなもので、基本的にKL発散が行うことです。KL発散のきれいな画像があるかもしれません。見てみましょう。このスライドにはないかもしれません。しかし、KL発散は基本的に2つのものがどれほど似ているかです。
ここでDKL policy reference policyが見えます。参照ポリシーは基本的にポリシーの古いバージョンです。この項目が行っていることは、基本的にこの分布とこの分布の間の距離を言うことです。基本的に、現在のポリシーがこのポリシーからどれほど異なるか、つまりほんの数回の勾配更新前のポリシーからどれほど異なるかです。
現在のポリシーがほんの数回の勾配更新前のポリシーと大きく異なる場合、ポリシーが劇的にシフトしたことを意味します。ほぼ完全に異なるモデルになったのです。そしてそれは望ましくありません。モデルが突然シフトすることは望ましくありません。比較的安定していることを望み、ゆっくりと動くことを望みます。
これが勾配降下の全体的なアイデアで、少しずつ動き、少しずつ動くことです。このクリッピングもここでそれを行っています。これは適用する実際の勾配更新です。ステップをクリッピングしています。それについて良い画像があるかもしれません。
ここです。勾配ベースの最適化を実行するときはいつでも、実際に行っていることは、この風景で小さな小さなステップを取ることです。超高次元空間を想像できます。移動している多様体があります。損失関数、この場合は報酬が方向を指し示しています。
あの方向に移動、あの方向に移動、あの方向に移動、重みをこの方向に調整、重みをこの方向に調整。大きなステップを取ると、この高次元空間の完全に異なる部分に終わります。以前に学んだすべてのものがもはや関連しないかもしれません。どのように動き回るかについて非常に注意深くありたいのです。
このKL項は、あまりに遠くに移動することを防ぎます。そして、このクリッピングも、大きすぎるステップを取ることを防ぎます。この論文で興味深いのは、実際にはより速く動きたく、モデルをあまりに変更することをそれほど気にしたくないことに気づいたことです。
この論文では、それを行わないことに決めました。上部クリッピング境界を増加させるので、より大きなステップを取ることができます。これらの個々の小さな勾配ステップの各々で、大きなステップを取ることができ、また、基本的に「あまりに遠くに行くな」と言ってモデルに追加しているこの種の鎖も取り除きました。
最終的にどこに行くのでしょうか?強化学習について考える一つの方法は、現在強化学習はこの小さなポスト訓練ステップの種類として見られていることです。それを示すのに最良のものはgrulls訓練プロットです。
今まで、強化学習の多くは基本的にこの小さな追加のポスト訓練でした。モデルインテリジェンスのほとんどは、インターネット全体で訓練するこの事前訓練計算から来ています。次のトークン予測があります。そして、強化学習はその上のほんの少しでした。
しかし、それから離れたくはありません。この小さなRLを行う場合、この参照(事前訓練されたモデル)からどれだけ離れても、これがゴミになる可能性があるということを非常に認識しています。
常にこの種の傾向がありました。「あまりに遠くに移動しないようにしよう。KL発散を入れよう。ステップをクリップして、このRLから出てくるモデルが常にそれに入ったモデルとほぼ同じになるようにしよう。あまりに遠くに移動しないように。」
しかし、現在はRLを自由に実行させるパラダイムに移行しています。RL前のモデルとRL後のモデルはほぼ完全に異なるモデルです。この計算の大部分をこのRLに費やしているパラダイムに移行すると、参照ポリシーからあまりに遠くに漂うことの恐れはもうありません。それを行うのは完全に大丈夫です。
ここで見ているのがそれです。screw it。RLリワード関数からこれらの勾配をプッシュするときにモデルが大きく変わるでしょう。それは完全に良いことです。
Max Mali、コードでこれらの論文が大好きです。データがあることがチェリーオントップです。そして、一歩下がって、これは中国語です。気づいたことの一つは、中国の学術機関と企業がこのオープンソースアイデアにとても買い込んでいることで、私は間違いなくオープンソースの大きな支持者です。
集合的人類として進歩する方法は、基本的に何をしているか、どのようにしているかを人々に伝え、彼らにもそれをさせることだと思います。知識の断片はあなたが共有する知識であるべきです。秘密のアイデア、知的財産のアイデアなど、これらのアイデアはすべて私には良くありません。
本質的に非常に有毒です。「この アイデアは持てるが、あなたは持てない」というアイデアや、知的財産は「これは私のアイデアで、あなたは使えない」という概念です。これは非常に文化的なものです。中国では、より集団主義的な文化的エートスがあります。私が言っていることと共鳴し、知的財産のようなものは「いや、アイデアを所有することはできない」ということです。
むしろ、そのアイデアを共有したいはずです。すべてのこれらのアメリカのフロンティアモデルとアメリカの研究所がますます秘密主義になっているという発散が間違いなく見られます。どのデータで訓練されているかを教えてくれません。残念ながら、これをLlamaで見ています。
Llamaが死んで、この超知能チームに置き換えられます。超知能チームは何で訓練しているかを教えてくれません。モデルをオープンソース化さえしないかもしれません。しかし、アメリカにとって必ずしも良い傾向ではありません。しかし、幸運なことに人類にとって、中国の研究所はすべてをリリースすることにかなり決心しています。
ここで見ることができます。実際に訓練データに行ってみましょう。調子はどうですか、Ed?調子はどうですか、Saskia?中国がAIで今アメリカを先行していることに完全に同意します。
彼らは既に先行しています、皆さん。人々はこのコピウムバブルに住みたがりませんが、最近のKimmyオープンソースLike DeepSeek、これらの論文の両方がGRPOを使用しているという事実だと思います。
XAIが何を使ったと思いますか?XAIがPPOを使用していると思いますか?いいえ、おそらくGRPOを使用しているでしょう。彼らはおそらくGRPOとVLMを使用しているでしょう。同じ人々が同じ正確なものを使用しているようなものです。
彼らが説明するこのスタックはおそらく文字通り皆が使用しているスタックです。このスタックが見えるかどうか見てみましょう。このスタックです。Ray(基本的にオーケストレーションのようなもの)、推論用のVLM、そしてGRPO。それがスタックです、皆さん。XAIが使用しているスタック。おそらくOpenAIが使用しているものです。
そして、それらは何ですか?それらは基本的にDeepSeek中国RLアルゴリズムです。どこにいましたか?GRPOについて話していました。KLの除去とクリッピングについて、または少なくともそれを緩めることについて話しました。モデルがこの強化学習プロセスを通じて異なるモデルになることを可能にし、事前訓練アトラクターベイシンに存在することをあまりに制約しないことです。
シーケンス並列化と効率化
これがシーケンス並列化です。マルチモーダル入力に対応するために、カスタムシャーディング戦略を開発しました。シャーディングについて考える最も簡単な方法は、何かがあって、それをシャードに分解することです。シャードという言葉の由来です。石の破片がシャードです。黒曜石の一片を取って、何かにぶつけます。今、2つの黒曜石のシャードがあります。
この場合、データセットをシャーディングしています。モデルをシャーディングしています。基本的に「ここに1つの大きなものがある、それを複数のものに分割する」と言っています。ここには3つの異なるGPUがあり、SP通信との互換性とバランスの取れた負荷を確保しています。
効率的な動画埋め込み再利用とVLMロールアウト加速戦略が、密な動画フレームに対するポリシーモデル事前充填の要求を満たしながら実装されています。VLMロールアウト加速戦略について何を話しているのでしょうか?計算の流れは基本的に左から右に進みます。
動画から始めます。長編動画の全体のポイントです。動画はフレームの束です。動画の各フレームは画像です。視覚言語モデルでは、最初にその画像を取って画像トークンに変換する必要があります。
この小さな四角がそれです。画像を変換し、ビジョントランスフォーマーを通して供給しました。昔は、CNETのようなものだったでしょうが、通常は何らかの自己教師ありタスクで事前訓練された計算の塊、おそらく画像のマスクされた部分を埋めるものです。
おそらくクリップのようなもので、キャプションからも勾配をプッシュしています。効果的に世界についての意味的知識を持っています。この小さなトークンでこの画像の要旨を与えることができます。この小さな四角がそれです。しかし、そのビジョンタワーは通常かなり大きいです。
このビジョンタワーは、他のすべての機械学習モデルと同様に、大きくするほど、このビジョントークンはより良くなります。このビジョンタワーを可能な限り大きくするインセンティブがあります。しかし、大きくするとある時点で、GPUにかろうじて収まります。
画像のバッチをビジョンタワー、またはビジョンエンコーダーという別の言葉に供給するときはいつでも、GPUのメモリは両方を収める必要があります。画像とそのビジョンタワーのすべての重みを収める必要があります。ここで行うことは、そのビジョンタワーを複数のGPUに分割することです。
これは、非常に大きなビジョンタワーを取って異なる部分に分割するモデル並列化のアイデアに入ることができます。異なるGPUで異なる部分のビジョンタワーです。しかし、ここで行っているのはシーケンス並列化です。分割しているのはビジョンタワーではなく、3つのGPUすべてで同じビジョンタワーですが、分割またはシャーディングしているのはシーケンス次元に沿ってです。
基本的に動画はフレームのシーケンスです。そして、「動画の最初の3分の1は最初のGPUに行く。動画の2番目の3分の1は2番目のGPUに行き、動画の3番目の3分の1は3番目のGPUに行く」と言っています。そして、この動画に関連付けられた質問であるテキストプロンプトも取得します。
3つのGPUすべてが推論を実行します。ビジョントークンを作成します。しかし、今これらすべてがそれぞれの異なるGPUに住んでいます。今、このall gatherを行う必要があります。All gatherは基本的に、すべてのGPUからこれらのビジョントークンを行って収集することを意味します。
All gatherの由来です。これらのビジョントークンをすべて取る必要があります。これらのビジョントークンは現在各GPUのメモリにあり、CPUに移動して、そのコンピューターから取り出し、ネットワーク経由で他のすべてのGPUと共有し、すべてを収集して戻す必要があります。
現在、すべてのGPU、または異なるGPUセットが、ビジョントークンとこのテキストプロンプトの完全なシーケンスを持っています。これがここにあるものです。ビジョントークンとテキストトークンがあります。それらをコピーしています。
現在、すべてのGPUが完全なシーケンスを持っています。シーケンスを分割し、シーケンス全体で並列化し、今はすべてを組み合わせました。今、再び完全なシーケンスがあります。VLMエンジンロールアウト1、ロールアウト2、ロールアウト広告。
ロールアウトは、ここのGRPOで起こっていることのもう一つの用語です。ここのGRPOの画像を覚えていれば、プロンプトであるビジョンとテキストトークンのシーケンスがあり、補完があり、多くの異なる補完があるというアイデアがあります。補完はロールアウトと同じです。推論の別の言葉です。
これが強化学習が一部の人々にとって混乱する理由の一部です。強化学習は、従来の機械学習とはほぼ完全に別の学問分野だったからです。そのため、強化学習は数十年間、各部分に対する用語を作成しました。ポリシーのアイデア、ロールアウトのアイデア、アドバンテージ、報酬関数のアイデア、これらはすべて基本的に機械学習世界に存在する同じ概念です。
強化学習世界では、報酬関数、価値関数、報酬があります。機械学習では、同等の概念は損失関数のアイデアです。自己教師あり、教師ありの違い、これらはすべて非常に似た概念ですが、強化学習世界から来ているか機械学習世界から来ているかによって、両方に異なる用語があります。
すべてがはるかに簡単になると思います。強化学習と機械学習は、基本的に同じ非常に似た抽象化を指す異なる用語セットであることを理解すれば、はるかに簡単になります。ポリシーとモデル、これらは同じものです。
ここでこのシーケンス並列化についてもう少し深く掘り下げましょう。各GPUは独立してビデオのスライスを処理し、フレームのサブセットのみをエンコードします。結果として得られるビデオ埋め込みは、all gather操作を介してテキスト埋め込みと集約されます。
この戦略はエンコーディング負荷を分散します。複数のGPUがすべて同時にビデオをエンコードするために働くことができます。1つのGPUで全体のビデオをエンコードするのではなく、3つのGPUに分割することで、各一つが1つのシーケンスチャンクを行うため、3分の1の時間で実行できます。
並列エンコーディングは、ビジョンタワーのバランスの取れた利用を確保し、スケーラブルな長編ビデオ処理を可能にします。ビデオ埋め込みがグローバルに収集された後、RLパイプライン全体で下流使用のために再利用されます。
ここでのもう一つの重要なトリックは、各訓練ステップでの各インスタンスに対して、通常リサイクルせずに8から16のロールアウトを実行するということです。同じビデオは、ステップごとに数十回再エンコードされる必要があり、訓練速度に深刻な影響を与えます。
キャッシュされた埋め込みを再利用することで、MRSPはこの冗長性を除去し、訓練を大幅に加速します。これが意味することは、このエンコーディングプロセスが非常に計算重いということです。本当に一度だけ実行したいのです。ロールアウトで、これらのビジョントークンが再び出現する可能性があります。
このビデオの特定フレームに関連付けられたビジョントークンが必要な他の状況があるかもしれません。ナイーブに、「ビデオフレームがメモリにあるから、ビジョントークンが必要になるたびにそのビデオフレームからビジョントークンを再計算する」と言うことができます。
つまり、利用可能なのはビデオフレームで、ビジョントークンが必要になるたびに、毎回再エンコードするだけです。しかし、問題は、同じフレームを常に再エンコードすることになることです。同じ計算を再実行するときはいつでも、効率の機会があります。
ここで行うことは、基本的にすべてのビデオを事前エンコードすることです。すべてのビデオとビデオの各フレームをこれらのビジョントークンに変換します。これが機能する理由は、これらのビジョンタワーが通常凍結されているからです。この強化学習からの勾配がこれらのビジョンタワーを通って流れることを許可した場合、ビジョンタワーは時間とともにわずかに変化します。
そのビデオを含む別の経験バッチをサンプリングしたとしましょう。将来、再びビデオをエンコードしたいときに、ビジョンタワーが変化しています。今、再エンコードする必要があります。しかし、これらのビジョンタワーを凍結し続けるか、あまり変化しないように勾配を十分にクリップする限り、一度エンコードして、その後ずっとビデオのエンコードされたバージョンを使用できます。
ビデオ、ビジュアルトークン、これらの小さな4つの四角は、保存と転送に必要なメモリの総量の観点から大幅に小さいです。これらのall gatherや、これらのGPU間で情報を共有するときはいつでも、その情報を送信する必要があるからです。
全体のビデオを送信するよりも、このビジョントークンのシーケンスを送信する方がはるかに簡単です。大好きです、これらの論文と読み聞かせ。ありがとうございます。Max Sid、前の図でP2PE通信とは何でしたか?
P2Pは、この意味ではピアツーピア通信を意味するだけだと思います。ここで、これを理解しようとしましょう。グローバル入力埋め込み収集、シーケンスシャーディングをローカルGPUにパディング。
シーケンスがあります。この場合、このBSはこの次元でバッチサイズを意味すると思います。バッチサイズはロールアウトを指します。これです。この4つの可能な出力があるという事実。実際の数学に行くと、これが出力のセットがあるという事実です。
出力を生成します。候補応答のグループ。O1、O2からOGまで。これが01、O2からOGまでです。この場合、4つあります。なぜここで異なる長さがあるのでしょうか?この一つが超長くて、この一つが超短いのはなぜでしょうか?
時にはモデルが最終回答に数ステップで到達するトークンのシーケンスを生成するからです。この長さは基本的に推論チェーンの長さです。時にはモデルは5分間考えて、このトークンを出力し、それが最終回答です。時にはモデルは20秒だけ考えて、これが最終回答です。
思考連鎖、または強化学習用語を使用してロールアウトは、長さが可変です。可変長のものがある場合、並列計算パラダイムでの扱いが非常に煩わしくなります。並列で何かを行うときは、長さが同じでなければならないからです。
これらの3つのビデオチャンクを想像してください。チャンク3が大幅に長い場合はどうなるでしょうか?GPU 1とGPU 2が非常に迅速に終了し、GPU3がチャンク3を終了するまでそこに座って待つ必要があります。そして、all gatherを取得します。
GPU3がそのチャンクを終了するのにかかる時間とこれら2つのチャンクを比較すると、他の2つがただそこに座って待っている時間です。だからこそ今、パディングトークンのアイデアがあります。「これらのパッドトークンを置いて、今すべてが同じサイズになるようにしよう。同じサイズになったら、全体のパイプラインがより効率的になる」ということです。
事前充填について他に何か言うことがあるかどうか見てみましょう。あ、いえ、これはpoint-to-pointで、peer-to-peerと同じだと思います。Light seekやRing attentionなどのリングベースアテンションシステムはpoint-to-point通信を使用し、DeepSpeed Ulyssesはall to allプリミティブを使用してアテンション計算を最適化します。
All to allとpoint-to-point。これは基本的に計算システム内の異なるノード間の通信を指します。このall gather、これはすべてがすべてを待つようなものです。すべてのGPUがすべてのGPUの出力終了を待ち、それらをすべて収集し、すべてを収集した後、すべてのGPUがこのビジョントークンのシーケンスを取得します。
これは実際に、XAIトークを覚えていれば、XAIチームが言及することの一つは、100,000 GPUのこのクラスターがあり、すべてがこのタイプのall gather操作を行っている場合、すべてのGPUが何らかの計算を終了するのを待ち、それからすべてが同時に通信し、それからすべてが同時に計算します。
つまり、これらの巨大な電力スパイクを得ることになります。すべてが同時に停止し、それからネットワークハードウェアがクレイジーになります。すべてが情報を共有しているからです。そして突然、すべてのGPUが同時にバッチをプッシュします。今すべてがデータを持っているからです。
突然、大きな電力、それからネットワークハードウェアがそれほど多くのメモリを消費しないか、それほど多くのエネルギーを消費しないため、すべてが通信している間はゼロになります。ほとんどのエネルギー消費は実際のGPU自体であり、その周りのネットワーク関連のものではありません。
そして突然、すべてのGPUがこのall gatherやall reduceまたは何らかのall to allを通じて得た情報を使用するため、再び巨大な電力スパイクです。電力消費の大きな巨大な前後を持つことになります。
このpoint-to-pointやpeer-to-peer、これは基本的にすべてのGPUがすべて互いを待っているわけではないことを意味します。すべてが個別に通信しており、待つ必要がなく、すべてが同時に取得する方法です。
データセットキュレーションと多段階訓練
ちょっと意味があります。あなたの質問に答えたと思いますが、わかりません。非常に具体的なことについての微妙な理解が欲しい場合は、YouTubeストリーマーよりもモデルがはるかに良い答えを与えてくれると思います。私は、モデルが私よりもはるかに良い答えを与えるほど謙虚です。
並列エンコーディングを伴うロールアウト。データセットについて少し話しましょう。これが両方の論文の大きな部分だと思うからです。データキュレーション。まず18,000の長編ビデオをキュレートし、詳細説明されているように思考連鎖の高品質自動アノテーションパイプラインを適用します。
これは何度も何度も見てきたことです。これらの自動アノテーションパイプラインのアイデア、半自動ですね。通常、このプロセスに人間が関わっているからです。これは本当に古いです。2010年代半ばまで遡ります。
ImageNetのようなものを訓練していた時代、誰かがそれにラベルを付けました。誰かがそれらの画像の各々を見て、「これは犬、これは猫」と言いました。そして、2010年代後半にこれらの自動システムが見え始めました。一種のパワーユーザーがいました。
例えば、Facebookから出たSegment Anythingモデルは、これらのパワーユーザーを使用してラベル付けされました。Facebookがこれらの人々にお金を払って座ってもらい、Segment Anythingモデルが初期にセグメンテーションを作成し、良いマスクと悪いマスクをクリックする人がいました。
このようにして、データの品質を向上させます。データにラベルを付け、画像情報と対になったテキスト情報を人間によって監督された方法で追加します。現在、特定の画像や動画と対になったほとんどの情報やテキスト情報が完全に自動化されて行われるところまで来始めています。
この時点で、ある程度人間が検証しているかもしれませんが、圧倒的多数が視覚言語モデル自体で行われています。高品質画像テキストキャプションは、世界知識を備えたビジョンモデルに注入するために重要です。細心のキュレーションパイプラインを通じて大規模高品質キャプションデータセットを構築します。
Leyon、dataccom、DFN、Wukongなどの公開データセットから始め、ウェブ検索エンジンからのデータで補完します。このランダムな中国企業でさえ、基本的に常にインターネットをスクレイピングしています。
まず、画像解像度、色検出に基づいて過度に低品質なサンプルを破棄するための一連のルールベースフィルターを適用します。基本的にゴミデータを取り除きます。比較的簡単に行えます。基本的にヒューリスティックに行われます。
意味的一貫性を強制するための関連性フィルタリング。事前訓練されたクリップモデルを使用して、画像テキストの類似性を計算します。このキャプションデータで訓練されたクリップモデル。言語と画像が一緒に混ざるこの埋め込み空間を作成します。
任意のキャプションや任意の画像をこの高次元空間の点に変換でき、その高次元空間での距離を使用して類似性を決定できます。このテキストはこの画像に似ているか?この画像はこの画像に似ているか?このテキストはこのテキストに似ているか?
クリップモデルのような巨大な事前訓練済みモデルの凍結された埋め込み空間を使用して類似性を決定し、このデータセットをフィルタリングして、重複排除もクリップモデルでよく行われます。この場合、データセットを種類別に分割するために使用しています。すべての自然画像とすべてのバスケットボール画像かもしれません。
概念バランス。概念の固有のロングテール分布を軽減するために、meta clipからインスパイアされたリサンプリング戦略を採用します。これはクリップですが、metaによって訓練されたものだと思います。視覚概念に富む包括的語彙を使用して、概念カバレッジとバランスを向上させるためにフィルターデータを再重み付けします。
今、カリキュラムの世界に入り始めています。これは昔から人々が行っていたことです。犬と猫の分類器があったとしましょう。99の犬画像と1つの猫画像で訓練したくはないでしょう。そこでバランスを取りたいでしょう。50の猫画像、50の犬画像。
ここでも似たようなことです。バスケットボール画像と比較して自然画像が多すぎることは望ましくありません。データの等しくバランスの取れた多様性を望みます。調子はどうですか、Aspire Belle?バスケットボールファン?残念ながらバスケットボールについてはあまり知りません。
事実中心の再キャプション。さらに、キャプションの記述品質と情報密度を向上させるために、事実中心の再キャプションモデルを反復的に訓練します。このモデルは、元のキャプションをノイズ除去し、豊かにし、ソーステキストの事実的正確性を保持しながら、新しい、より正確で詳細な説明を生成するように設計されています。
これを何度も何度も見てきました。Stable Diffusionの論文で見ました。生成画像や生成動画の論文は一般的に何らかのキャプションを使用し、通常この拡張キャプションを行います。例えば、この枢機卿の鳥の写真があり、これが関連付けられたキャプションかもしれません。歌っている北部枢機卿。
それを再キャプションして、よりニュアンスを得ることができます。澄んだ青空を背景にした木の枝に止まっている北部枢機卿。視覚トークンと関連付けられた追加のテキストトークンをすべて追加しました。各画像をより詳細に理解するための表面積をモデルに提供しています。テキスト情報が非常に得意だからです。
各画像をより良く記述できるほど、表面積のアナロジーが好きです。モデルがその画像の中に何があるかを深く理解するための表面積が増えます。これは山だと思います。3つの山の文字。何か何か何か山何か。これは愚かです。知らないふりをします。
このデータパイプラインに続けましょう。インターリーブ画像テキスト。リッチなインターリーブ画像テキストビジョン言語は、ウェブページや書籍などのコーポレートで見つけることができます。ウェブデータ処理パイプライン。大規模オープンソースデータセットから始めて、広告やQRコードなどの一般的なノイズ要素を除去します。
学術書籍処理。1億冊以上のデジタル化された書籍を収集します。まずこのコレクションをフィルタリングして、特定のドメインに関連する書籍を選択し、PDFパーシングツールを使用して深いパーシングを実行します。
合成ドキュメント。さまざまなフォントを使用して言語事前訓練からテキストをレンダリングします。これらのレンダリングされたテキストは、その後、多様な画像背景に構成され、レイアウトデータセットのためにソースされます。OCR用の合成画像データセットの作成です。
OCRは画像内のテキストを見つけるタスクです。看板の写真かもしれません。看板は何と言っているでしょうか?モデルが画像の看板を読めるようにしたい場合、基本的に画像形式のテキストの何百万、何百万もの例を与える必要があります。それを合成的に作成することは、それを行う非常に簡単な方法です。
自然シーンテキスト画像。自然画像の膨大なコレクションを処理し、テキストコンテンツを抽出するためにPaddle OCRを利用します。結果データはフィルタリングされ、学術ドキュメント。Nougatからインスパイアされた処理方法論を採用します。
これは論文で、読んだかどうかわかりませんが、基本的にアーカイブをモデルに供給することでした。HTMLに変換し、PDFとそれに対応する構造化されたソースマークアップの高品質データセットを持つことです。実際にPDFを見ることでPDFを読みたいモデルがある場合。
PDFを読む一つの方法は、基本的にすべてのテキストを抽出して、巨大なテキストの塊を持つことです。しかし、PDFを読む別の方法は、実際にOCRを使用することです。実際に文字通り画像にチャンクし、視覚エンコーダーに供給し、ビジョントークンを使用してそのPDFの中に何があるかを実際に理解することです。
考えてみると、それは非常に激しいことです。しかし、それを行うのに十分大きなデータセットがあれば、その能力を得ることができます。アーカイブはそれを行うのに完璧なソースです。大量のPDFドキュメントがあり、関連付けられたテキストの断片があるからです。調子はどうですか?Eeky Phoenix、またはPhoenix?
グラウンディングデータ。基盤データセットとしてLeyon 115 milを利用します。Glip v2フィルターを適用して、少なくとも2つの有効なバウンディングボックスを含むもののみを保持します。GUIグラウンディング。Common CrawlスナップショットからURLを抽出し、対応するウェブページスクリーンショットをキャプチャすることによって、新しい大規模データセットを構築します。
ビデオデータ。何と言っているか見てみましょう。厳格なフィルタリングを実装します。学術、ウェブ、専有ソースから多様なコーパスをキュレートします。すべてを教えてくれるわけではありませんが、ここに入っているデータの量は巨大です。そんなに多くの異なるものがこのビジョン視覚言語推論モデルに入っています。
人々がこれについて十分に興奮していないと思いますが、テキストトークンだけを使用してどこまで行ったかを考えてください。基本的にAGIに到達したと言えるでしょう。ChatGPTがAGIだったと思います。しかし、テキストデータのみでの次トークン予測だけの自己教師あり学習目標によってAGIに到達しました。
しかし、本当に考えてみると、はるかに多くの視覚データがあります。YouTubeについて考えてみてください。画像の量について考えてみてください。はるかに多くの情報があります。視覚世界、音声世界で、今まで背景に留まっている高い情報価値コンテンツがはるかに多くあります。
誰も実際にそれをこれらのモデルに供給していませんでした。世界からまだ活用できる多くの知能があると思います。Iliaが言ったことを覚えているなら、「事前訓練データ、インターネットはデータの化石燃料のようなもので、既に枯渇している」と。私は「いえいえいえいえ」と言います。全く別のレベルがあります。
YouTubeでの次トークン予測と同じアイデアについて考えてみてください。モデルにYouTubeの最初の5分を供給し、その後何が起こるかを推論させます。それが基本的にここで行っていることです。
例えば、サッカーゲームからの最初の30分のビデオセグメントが表示されます。スコアは2-2のまま、選手の身体的状態、戦術的行動、感情的状態に基づいて、どちらのチームがペナルティーシュートアウトで勝つ可能性が高いでしょうか?
ここで実際に何をしているのでしょうか?これは次トークン予測のようなものですが、ビデオ世界でです。どれだけ多くのことができるか考えてみてください。すべてのYouTubeビデオから、そこで多くの情報を抽出できます。
「この人のランダムなYouTubeビデオです。この人は次に何を言うでしょうか?この人は顔を触るでしょうか?この人は左を向くか右を向くでしょうか?」と基本的に言うことができます。
この文の次の単語を予測できれば、インターネットのすべてのテキストを供給し、その反対側で汎用知能が出てくるという魔法があるのと同じ方法。視覚でも同じことができます。「ビデオの最初の20分を供給します。ビデオの次の10分で何が起こりますか?」と言うことができます。
「ビデオの最初の10分を供給します。ビデオの次の10分で何が起こりますか?」視覚モダリティの背後にあるデータがまだ使用し始めていないデータが非常に多くあると思います。ここを見てください。同じDeepSeekが見えます。ここでthink書式報酬です。
基本的に、thinkトークンがあり、これが思考連鎖、推論チェーン、何と呼びたくてもです。モデルが何らかのコンテキストを構築できるテキストトークンのシーケンスで、ここのanswerトークン内で、はるかに短いシーケンスで答えることができます。
長編ビデオ推論のデータ分布。長編ビデオは18,000のビデオと52Kの合成QA推論で構成されています。旅行、スポーツ、人々、音楽、コメディー、エンターテイメント、映画、ゲームなど、すべてがあります。空間推論、時間推論があります。
時間推論は「このビデオで次に何が起こるか」のようなものかもしれません。空間推論は「左下隅の人は誰ですか?彼らは何をしていますか?」かもしれません。プロットと物語推論のように「牛に何が起こると思いますか?」
ビデオから学習できる次トークン予測タイプのタスクや信号を作成する非常に多くの方法があります。
LeCunの見解とエージェントの活用
Lunの見解について最後に、JeepaとDino表現の使用について。Lunが正しいかどうかわかりませんが、彼は正しくもありません。Yan Lecun、適切に言うなら、間違いなくビジョンモダリティでの自己教師あり訓練フレームワークに対するフェチがあります。
彼は間違いなくコンボリューション派です。テキストモダリティよりもビジョンモダリティを明確に好みます。また、自己教師あり手法に対するフェチもあります。基本的に人間が何かにアノテーションを付けることを含まない何らかのタスクを作成する方法です。
バウンディングボックス検出では、基本的にすべてのデータポイントに対してバウンディングボックスにラベルを付ける人間が必要です。次トークン予測は自己教師ありです。つまり、タスクを自動的に無料で得られます。任意の文を取り、文の最初の部分。文の次の部分を予測するように求めると、そのデータポイントを作成するために多くの作業を行う必要がありませんでした。
入力とこれが出力であるところ。データポイントは自然に生まれます。これが自己教師ありのアイデア全体です。Yan Lecunは、ビジョン世界でそれを行うことがすべてです。人々が行う一般的なものはマスキングです。
「この画像の最初の4つのビジョントークンです。この画像の次のビジョントークンを予測できますか?」または「この画像のブラックアウトされたボックスです。この画像のブラックアウトされたボックスの中に何があるかを基本的に再作成できますか?」
画像の任意の部分をブラックアウトする任意のボックスを作成できます。人間の入力を必要としない、または多くの人間の入力を必要としないラベル付きデータポイントを作成する方法を作成しました。
DinoとJeepaは基本的にそれの変種です。何らかのビジョンベースの自己教師ありフレームワーク。しかし、Lecunが間違っていると思うのは、彼がLLMを本当に好まないことです。現時点で起こっていることは、彼が自分自身を隅に追い込んだと思います。
これは観客捕獲の一種だと思います。Gary Marcusのようなものです。最初に新しいアイデアが出てきて、非常に迅速に人類がこのアイデアをテストする必要があると決定します。そのために、非常に高い資格を持ち、良い意見を持ち、分野を理解している多くの人々がいます。
彼らはこのアイデアについてどう思いますか?Gary MarcusやYan Lecunのような人々は、「LLMです。突然非常によく機能しているが、これらすべての問題があります。彼らが良いアイデアだと思わないYan Lecunと、なぜ良いアイデアだと思わないかの理由があります。」
しかし、実際に起こっていることは、人類がYan LecunにLLMに対する反対派であることに対して報酬信号を与えているということです。基本的にLLM反対派であることで報酬を与えられ、注目を集めています。それは彼のLLMヘイターであるという自己アイデンティティを強化しています。基本的に起こったことは、残念ながら我々が彼をこのLLMヘイターに変えてしまい、彼はLLMをそれほど嫌う理由が、最初にLLMに反対していたことで報酬を与えられたからだということを自覚していないかもしれません。
しかし今の問題は、反LLMの人としての彼が作り上げたアイデンティティが、この時点で彼を毒してしまったということです。そして彼はそれによって盲目になり、最初にLLMの欠点について正しかったことから来る名声によって毒されているため、自分の意見について客観的になることがおそらくできないのです。
音が小さくなっていませんか?音量を上げることができます。文字通り最大になっています。実際のマイクをオンにできるか見てみましょう。どうですか?それは少し良くなりましたか?Chep Khaledに教えてください。わかりません。
それがYan LeCunに対する私の意見です。彼が多くの仕事をしたので常に尊敬すべきだと思いますが、この時点で彼は単なる老人のようなもので、ぶつぶつ言って、長い間自分のクールエイドを飲みすぎて盲目になり、もう何が起こっているかを見ることができないのです。
調子はどうですか、Dimma Okaji?つまり、ここで私もレビュアーですよね。現在このコンテキストで、私はYouTubeで論文をレビューする人です。この種のレビューの枠組みから、Yan LeCunについてこの意見を持つことができます。しかし、もし彼に直接会ったら、大ファンのようになるでしょう。「やあ、大ファンです」と言うでしょう。
なぜなら、実際にそうだからです。彼らの悪い点を指摘することと、実際に彼らを憎むことは違うと思います。実際に一度、会議でYan LeCunの隣に座ったことがありました。これはChatGPT以前の時代でした。ロボティクス会議にいて、ワークショップがありました。
通常、メイン会議ホールは巨大な場所で、何百万人もの人がいます。しかし、ワークショップでは、小さなサイドルームのようなものです。クラスベースの座席のようなもので、おそらく20〜30人が座っています。彼が私の真隣に座って、携帯を持ってこのようにして、ステルス写真を撮ろうとしていたのを覚えています。
彼は私が誰かを全く知りません。私は誰でもありません。有名ではありません。しかし、時々これらの人々に物理的に近づくことができました。
データセットに戻りましょう。これらの論文の両方が巨大なデータセットを持っています。次に話したいことは何ですか?訓練パイプラインについて話しましょう。
訓練パイプラインと命名規則
ここがlong VA R1訓練パイプラインです。実際にGRPOとフォーマット、報酬モデルまたは報酬戦略もDeepSeekから盗んだだけでなく、命名規則も盗んでいることがわかります。
DeepSeekは、DeepSeekと呼ばれ、その後DeepSeek R1がありました。これは基本的にその上に強化学習を行ったDeepSeekモデルでした。こちらのDeepSeek R1です。それは基本的にこの白いバーであるDeepSeekモデルで、黄色いバーがR1です。
彼らが今行っているのと似た命名スタイルです。long va with R1で、私はこれが好きです。基本的に見始めているのは、訓練スタイルに基づく命名規則です。この名前long villa R1を読むだけで、これが何かのアイデアが得られます。これはVAモデルです。VAモデルから始めます。そして、long vaを行います。
ここが推論ウォームアップです。基本的にこれらのthinkトークンを持つ長い思考連鎖があるデータを導入し始めます。この時点で教師あり微調整です。微調整に入るものを監督しており、良いと知っている特定の長い思考連鎖を決定し、それらをこのlong villaに供給し、勾配をプッシュして、VAモデルがlong vaになります。
ある種の長い思考連鎖に慣れている、または少なくとも見たことがあるモデルを持ったら、その上にRLを置き始めます。これが事前訓練です。今、この長い思考連鎖微調整があります。そして、RLが最後にあります。ここで-R1を追加します。
今、GRPOを使用してモデルに勾配をプッシュし、特定の思考連鎖を奨励し、他の思考連鎖を阻止しています。これが3部構成のパイプラインです。ここで行うことと非常に似ていると思います。正確な訓練パイプラインを取得できるか見てみましょう。
いい画像がありますか?いいえ。ここにあると思います。訓練レシピは、マルチモーダル事前訓練と長いコンテキスト継続訓練の2つの連続段階で実施されます。マルチモーダル訓練は、一般的なマルチモーダルの強力な基盤モデルを構築します。2way tensor parallelismを使用してすべてのモデルパラメータ120,000ステップを訓練します。
グローバルバッチサイズ1536。基本的にこれが事前訓練段階です。ここの部分と同等です。実際にこのvillaの前にあるものは何ですか?このvillaは既に訓練されています。この前にステップがあります。ゼロから始まって、このvillaを訓練しています。
その前にも実際にステップがあります。視覚モダリティでは通常、画像をエンコードするために使用しているそのdinoやclipモデルを誰かが訓練しなければならなかったからです。画像エンコーダーを作成する事前訓練ステップもあります。
全体のVLMを訓練する事前訓練があります。それの最後で、VAを取得します。それの最後で、ここで呼ぶものを取得します。そして、RLを行います。長いコンテキスト継続訓練。それが基本的にRLです。高解像度画像へのモデルの能力を拡張するために継続訓練段階を実行します。
訓練データをビデオ入力で拡張します。これはRLではないかもしれません。ここの長い思考連鎖での教師あり微調整かもしれません。これはその後のRLかもしれません。それほど明確な区別ではないかもしれません。RLが実際に何をしているのでしょうか?
RLは基本的に「この思考連鎖は良い、この思考連鎖は悪い」と言っているだけです。この思考連鎖を奨励し、この思考連鎖を阻止する勾配です。長い思考連鎖での教師あり微調整で何をしているのでしょうか?同じようなことです。基本的に「良い思考連鎖です。良い思考連鎖です。それに勾配をプッシュしてください。もっとこれを。もっとこれを。もっとこれを」と言っています。
非常に似ています。私たちの目には有名です。どれほど有名かわかりません。ゼロ有名だと思います。テストがあります。機械学習会議を歩いたら、誰も私が誰かを知らないと思います。Yan LeCunや他の似たようなタイタンに夢中になるのに忙しすぎるでしょう。しかし、有名になりたいとは思いません。通常、名声はかなり悪いものだと思います。
短いCOTデータにSFTを適用する以前のワークフローとは異なり、このステップを省略します。SFTの役割を、より効果的な思考と回答スタイルと既存のビジョンを調整することと見なします。この長いcoott SFTで行っていることの一部は、実際にモデルをこの形式にすることです。
汎用事前訓練から出てきたとき、モデルはこのthink answer形式を持っていません。これらのVLMは、これらの小さなキャプションタイプのものと通常の小さな短い視覚質問回答で訓練されているため、基本的に出力するトークンの量は非常に小さくなります。回答は短く、小さく、画像に焦点を当てます。
しかし、このthink answer think answerのようなものを引き出すために、RLはあなたをそこに連れて行きません。RLがこのthink answerパラダイムを発見するのではなく、ある意味でそれをこのthink answerパラダイムに強制し、既にそのthink answerパラダイムにあるときに、RLを持ち込んでthink answerパラダイムでさらに良くします。
しかし、モデルは自然にそのthink answerパラダイムに入ることはありません。それに強制する必要があり、これはRLHFでも起こったことと実際に非常に似ています。ChatGPTの魔法は、事前訓練されたトランスフォーマーGPTを取り、このassistant answer assistant user assistant answerのようなものを使用してそれをプッシュし、このチャットエージェントやチャットボットになることでした。
ここでも似ています。VLMはデフォルトでこの推論think answer形式を持つことはなく、100万の異なるビデオを供給してもそこに到達することはありません。ある時点で、それに強制する必要があり、そのモダリティ、その頭の中の空間にあるときに、RLを使用してそれを少し良く調整し始めることができます。
推論データセットは、長いcootサンプルの高品質データのワイドキャリーにわたります。各回答は標準形式に従います。colt開始データセットの品質は、RL訓練の安定性にとって重要です。実際には、不適切に構築されたデータが訓練の不安定性や崩壊につながる可能性があることがわかります。
これを軽減するために、厳格なデータクリーニングパイプラインを実装します。基本的に、この論文も似た発見があると思いますが、初期のcoott SFTサブセットは高品質のcoot推論プロセスを特徴とし、モデルの推論能力の第1段階でのウォームアップ訓練のための豊富なリソースを提供します。
これらの論文の両方が、初期の長いcootデータセットが非常にクリーンである必要があることを強調しています。多段階訓練パイプラインの一部である非常にクリーンな長いcootデータセットとは何でしょうか?それはカリキュラムです。
基本的に、このカリキュラムのアイデアの周りで踊っています。この多段階訓練パイプラインの各段階をどのように設計するか、各段階でデータをどのようにキュレートして、モデルが前進しながら進歩することを確実にするかです。
微積分を教える教科書と同じです。非常に特別である必要があります。非常にクリーンである必要があるからです。高レベルの概念を理解するために、最初の微積分教科書が良い必要があります。ここでも同じことです。
ここでカリキュラムについて話すとき、このRLCSがあるので、もう少し微妙になっています。実際にそれを見てみましょう。RLCS。報酬インフラストラクチャデータ準備。RLCSはどこですか?ここです。RLCS。
GRPOで最適化された所定の比率で各マルチモーダルドメインからデータをブレンドします。1つの課題は、RL訓練が進行するにつれて、この能力が向上するにつれて、モデルの効果的学習効率が必然的に低下することです。多くの例が些細すぎて、さらなる学習を促進しません。
例えば、GRPOでは、すべてのサンプルが正しく回答されるロールアウトバッチは有用な勾配を生成しません。ここで意味することは、gRPOでは、グループ相対であるということです。バッチは、グループ全体に基づく報酬に基づいて整理されています。
最も高い報酬を持つロールアウトまたはシーケンス、最も高い報酬を持つ補完が、低い報酬を持つ補完と異なるバッチです。このグループ内で、最も高いものと最も低いものの間の相対的報酬には大きな違いがあります。
彼らが言っているのは、gRPOを使用する場合、サンプリングするグループやバッチ、これらのロールアウト、これらのシーケンスに、高報酬の例、低報酬の例、そしてその間のすべてがあることを確実にする必要があるということです。
それらの間の相対的報酬がすべて同じようなバッチやグループがある場合、基本的に有用な勾配が得られません。これらのレイヤーノルムやバッチノルムを常に行っているため、この1つとこの1つの間の報酬の違いは最小限ですが、すべてがグループ相対であるため、モデルが何らかの500 IQの理由を見つけることになります。
「この1つはこの特定の時点でこのトークンを使用している。だから、勾配をプッシュするときだ」と。この特定のグループで最も高い報酬を得る方法が、実際には汎用化できない超複雑なものに基づいて勾配をプッシュしているのです。
実際にモデルをより賢くする方向ではなく、実際にはどこにも行かない奇妙で任意の方向に、これらの報酬がすべて同じだからです。これは、より微細なレベルのカリキュラムです。データミックスと訓練パイプラインのレベルでカリキュラムについて話していましたが、実際のバッチのレベルでもカリキュラムがあります。
バッチからバッチへバッチへ。そのバッチの特定の例をどのように選択しているかです。すべてのプロンプトの半分以上が90%の精度を達成します。ロールアウト効率のロールアウト効率は残りのボトルネックです。訓練時間の大部分はロールアウトによって消費されます。
これらの人々は、実際にこれらの人々が行ったことを使用できたかもしれません。これらの人々、Nvidia論文を覚えていれば、ビジョントークンをキャッシュして再利用することで、基本的にロールアウトを高速化できます。おそらくこれらの人々はそれを使用できたでしょう。
オンラインサンプリングにカリキュラム学習の洞察を適用するRLCSを提案します。サンプリングは再び、一部のGPUがそのVLMフレームワークで推論を実行している分散システムがあり、多くのチェーンを作成しています。そして、それらすべてのチェーンからどのようにサンプリングしますか?
モデルの進化する能力に一致するように訓練サンプルの難易度を継続的に調整する適応カリキュラムを採用し、各更新が最大限に情報的であることを確実にします。オンラインとオフラインの両方でサンプル難易度を評価します。
いくつかの確立されたビジョン言語モデルまたは以前のRLチェックポイントでフルデータセット全体でpass K評価を書くことによって、すべてのサンプルの固有の難易度に対処します。これらの定量的スコアをマージします。このプロセスは、データを複数の層に分割する難易度ラベルを生成します。
興味深いですね。この論文で、彼らが実際にKLを取り除いたことを覚えていれば、このKL発散で、クリッピングも取り除きました。これは、モデルがどこまで行けるかを制約するために以前のバージョンのモデルこのpyrefを使用することを気にしないという論文でした。
しかし、彼らが行っているのは、データセットをキュレートするために以前のバージョンのモデルを使用することです。ここで、以前のチェックポイントからのpass k結果に基づいてロールアウトからラベル付けまたはサンプリングを行うと言いました。
勾配更新の方向と大きさを制約するために以前のチェックポイントモデルを使用していませんが、GRPOで使用される補完のグループをキュレートするために以前のモデルを使用しています。ある意味で、同じことを行っているようなものです。
基本的に以前のバージョンのモデルを使用して、これらのどれをサンプリングしてこのバッチに入れるかを決定し、最終的にここのレイアウトがそのバッチからの勾配が何になるかを決定し、その勾配更新でどこに移動するかを決定します。興味深いです。
ここで質問があります。Open room XYZ。なぜ人々は基本的にルールを使用して無限の演習を手続き的に生成し、それを英語に翻訳して戻すことをしていないのでしょうか?なぜデータが不足しているのでしょうか?データセットの未来は、古典的プログラムを書いて大量のテキスト無限データを生成し、オーバーフィッティングすることで手続き的に生成されると思いますか?
基本的にここで起こっていることです。事前訓練計算を見てみましょう。この白いバー、これは人間によって生成されたデータで行われた計算です。この黄色いバー、今RLを追加しているところですが、勾配をプッシュするために使用しているデータはどこから来ているのでしょうか?
この黄色いバーのデータはどこから来ているのでしょうか?モデルから来ています。これらのロールアウトから来ています。すべてがRLであるこの世界に移行するにつれて、訓練しているデータの大部分がモデル自体によって生成されています。
これは文字通りAlphaGoで起こったことです。この1つが見つかるかわかりませんが、このAlphaGoについて考えてみてください。AlphaGoが訓練されたデータは何でしたか?AlphaGoが訓練されたデータの大部分は、人間によって作成されたゲームではありませんでした。完全にAIゲームです。
自分自身が生成したゲームです。超人間的なGo性能に到達した方法は、最高の専門家ゲームのみの超クリーンなデータセットを作成することではありません。基本的にシステムに独自のゲームを生成させ、強化学習を使用してそこから有用な信号を得ることです。
超人間知能またはASI(人工超知能)に到達する方法は、非常にクリーンな人間データのデータセットをキュレートすることではありません。多くのロールアウトをサンプリングし、独自のデータを作成し、グループ相対報酬を決定できるGRPO、RLアルゴリズムなどの戦略を使用することです。
「この1つは高報酬、この1つは低報酬、このようなチェーンをもっと、このようなチェーンを少なく」と言って、それが無限データフライホイールです。これが苦い教訓に行きます。計算でスケールできる戦略を見つけることができれば、その戦略が時間とともに勝ちます。これが苦い教訓の学習です。
人間データのキュレートは計算でスケールしません。明日100万のGPUを与えても、人間データのより高品質なデータセットを得ることはできません。作成された人間データの量によって制限されるからです。
しかし、基本的に独自のデータを作成する強化学習ベースの戦略を行っている場合、GPUの1つにこのVLMがあります。なぜ訓練論文に推論依存関係があるのでしょうか?独自のデータを生成する必要があるからです。基本的に独自のデータを生成し、そのデータで訓練しています。
AlphaGoの初期バージョンのように、多くが人間によって生成されたまたは人間のゲームでの事前訓練のようなもので、そこから得られた最高のものは人間に近いものでした。最終的にAlphaGo Zeroのようなシステムに到達しました。これらのものは基本的にゼロ人間データを持っていました。
完全にRLが独自の合成生成データで行われています。テキストやビジョンでも同じ場所に行きます。すべての計算が生成されたデータで行われる世界に移行し、ビジョンでも同じになります。これらのビデオ生成ビデオモデルが、これらの視覚理解VLM推論モデルに供給されるビデオを生成することになります。
無限データすべて生成。異なる難易度カテゴリーの異なるdefの異なる難易度カテゴリーと訓練反復の粒度の異なるサンプリング比率を継続的に再重み付けします。カリキュラムはバッチのレベルにあります。
事前訓練、次にこのSFT、次にRLがあるような高レベル訓練のカリキュラムのようなものですが、訓練反復の粒度でもカリキュラムについて考えることができます。各個別データポイントのように、このバッチまたはモデルに勾配をプッシュするために使用するこのデータポイントのグループの一部になるために、この特定のデータポイントをどのように選択しているかです。
RLCSがモデル開発の改善を大幅に加速し、一貫してパフォーマンス向上につながることを観察しています。
実践的な学習と技術的改善
マルチモーダル強化学習のパフォーマンス上限を改善するために、次の拡張を提案します。論文がこれを行うとき、私は大好きです。彼らが読んだHugging Face論文があると思います。彼らのVLMと ロボティクスのものだと思います。
これを正確に行ったいくつかの異なるHugging Face論文があり、彼らはここに我々の学習がありますと言って、基本的にすべてをあなたのために要約します。これが大好きです。あなたのためにすべてを要約します。それが言いたかったことです。
マルチモーダルマルチドメインデータを混合するとき、長期的により高いパフォーマンス上限を達成するために、比較的大きなバッチサイズが推奨されます。比較的大きなバッチサイズは、基本的にこれらをもっと作ることです。より多くのロールアウトを持つことです。それが安定させます。
ロールアウトが少しだけの場合、この風景でステップを取るときに移動する方向は非常にノイジーになります。そのサンプリングされたバッチに条件付けられているからです。バッチを大きくするほど、この風景を通って勾配降下で移動するときにより一貫性があります。これが直感です。これは古い発見でもあります。
学習率を上げるな、バッチサイズを上げろ、または学習率を下げるな、バッチサイズを上げろのようなものがあります。非常に古い論文ですが、似たような直感です。エントロピーとKL損失の両方が除去されると、比率EMAを介した動的サンプリング、完全に正しいまたは完全に間違ったロールアウトバウチは有用な勾配を提供しません。
すべて正しいまたはすべて間違ったこれらの割合が成長または変動するにつれて、効果的なバッチサイズは大きく変動し、トレーニングの不安定性を劣化させます。意図的なオーバーサンプリング係数でロールアウトを実行し、難易度が最もバランスの取れた例のサブセットを選択します。
これは訓練反復ごとのカリキュラムアイデアです。強制回答。思考プロセスが過度に長くなると、ロールアウト長制限によって切り捨てられる可能性があります。モデルがしばしば答えを生成できないため、通常ゼロの報酬が割り当てられます。
基本的に起こることは、推論チェーンの長さに制限があり、自動的にゼロになる場合、非常に長いチェーンがあり、付随する報酬がゼロの場合、モデルは基本的に非常に長いチェーンは悪いことを学習しています。
非常に長いチェーンは常にゼロの報酬になるため、非常に長いチェーンを望まないのです。モデルに長い推論チェーンを持たないように伝えています。どのように修正しますか?そのような長い推論は必ずしも間違っているわけではありません。
このような切り捨ては、ロールアウト予算を無駄にするだけでなく。これに対処するために、thinkに続いてanswerを挿入することによって強制切り捨てを強制し、モデルに最終回答を出すよう促します。彼らはただそれを強制します。
締切を与えることです。人間心理学のすべてのこれらのもののように、機能するものは興味深いです。誰かに何かを実行する締切を与えると、通常それは彼らに何かを作成することを強制し、締切を与えないよりもはるかに良い結果を得ることがあります。
これらのモデルでも同じことで、ある時点で「考えるのをやめろ。答えは何だ?」のように。KLを破棄して、高いクリップ。我々は既にそれを読みました。RL段階でのピークパフォーマンスは、コールドスタートSFTモデルのパフォーマンスと完全に相関しません。
コールドスタート訓練を1,000から2,000ステップに増やすと、ポストコールドスタートパフォーマンスが約2ポイント向上します。しかし、RL後、両方のチェックポイントはほぼ同じパフォーマンスに収束します。コールドスタート後のより高いスコアは、より大きなRLポテンシャルを保証しません。
適切な訓練により、RLは等しい固有ポテンシャルのベースモデルを同じピークまで向上させることができます。これは非常に興味深いです。基本的に、このステップは全く重要ではないかもしれないと言っています。
このストリームで以前に話したように、この長いcoott SFTは全くスケーラブルではありません。これに対して非常に注意深く、非常にキュレートされたデータセットを作成する必要があるからです。この長いcoottには多くの人間キュレーションが入ります。
しかし、これらの人々がここで言っているのは、このモデルを取ってRLで訓練し、その後同じモデルを取って長いcoottを行い、その後RLで訓練すると、同じ場所に終わるということです。おそらくこれをスキップできるでしょう。
これは費用のかかるステップだから良いでしょう。人間が多く関与し、このデータセットをキュレートする必要があり、SFT訓練パイプラインがあり、RLトレーニングパイプラインとは異なり、多くのオーバーヘッドがあります。RLが何を与えても取って同じ場所に終わるなら、おそらく訓練でそのSFTステップをスキップまたは削減できるでしょう。
誰か質問がありますか?ここで開きます。人々はエージェントに何を入れたいですか?エージェントモード。398残り。皆さんは私に何を入れてもらいたいですか?
そうです、Ed。ウォームアップは必須です。そうでなければ、どのように思考連鎖を生成するでしょうか?つまり、文字通りこのストリームで私は自分自身と矛盾しています。この論文の一部は、長いcoottが必要だと言っています。さもなければ、その中で考えることはありません。そして、論文の異なる部分は、おそらくそれは必要ないと言っています。
ある程度は必要だと思います。この表現の仕方は、基本的に増やしても…少しのSFTを行えば、それでも大丈夫だということです。多くのSFTを行う必要はないかもしれませんが、まだいくらかのSFTを行う必要があります。これらの人々が言っていることです。Edに同意します。
完全に取り除いたら、おそらくゴミになるでしょう。いくらかは必要ですが、基本的にモデルへの突っつきを与えるだけです。しかし、それは良いことです。信じられないほど複雑ではなく、1,000の長いcoot sftまたは長いcoottデータ、その1,000対10万を集めることがどれほど簡単かを想像してください。はるかに簡単です。
少しだけ必要なら、それは良いことです。SFTの品質を改善する安定性は重要な影響を与えます。ゴールドスタートデータに大量の無意味な思考パスが含まれている場合、結果として生じるモデルは深刻な不安定性を示します。多様性を促進するためにエントロピー損失を組み込むと、モデルが文字化けを生成し、最終的に訓練につながる可能性があります。
エントロピー損失を除去します。これがKLです。KL発散とエントロピーは実際に非常に似た概念です。より小さな完全語彙を使用して、稀なトークンの学習不足を防ぎ、クリーンな出力を維持する代わりに。
基本的にこれは、ロールアウトしているとき、最新のモデルで推論を使用してこれらの推論チェーンを作成する実際の生成や探索を行うとき、その推論にはすべて同じ推論パラメータがあります。温度は何ですか?
実際にこの緑のトークンをどのように選択していますか?そこにどのくらいのランダム性を入れていますか?温度を上げて、これらのチェーンを自由に行き、多くの異なるチェーンを持つことは、通常強化学習により良いです。人々はこれを常に行います。
ロボティクスで、実際のロボットではないかもしれませんが、シミュレートされたロボットでは、常にこのランダム化要素があり、強化学習の探索部分であるここでの推論部分の奇抜さをサンプリングする方法を追加しています。
その奇抜さの中で、おそらく新しい知識を見つけるからです。そこにノイズを追加する必要があります。ある程度の混沌を追加する必要があります。そのように考えたいなら。これが彼らがここで言っていることです。バランスがあります。
サンプルごととトークンごとの損失計算方法を比較し、サンプルごとの平均報酬で有意差を観察しませんでした。各サンプル内でトークン損失を平均化し、その後サンプル全体で平均化し、その後バッチ内ですべてのトークンを平均化し、その後バッチ全体で平均化するトークンごと。
ここでの異なるタイプの正規化です。各トークン内で正規化し、その後内で正規化していますか?正規化をどのように行っているかの操作の順序のようなものです。
フォーマットベースの報酬は出力を正しい構造に向かわせるのに役立ちますが、コールドスタート中にモデルが必要な出力フォーマットを完全に学習することを強く推奨します。我々の経験では、フォーマットエラーが頻繁に発生する場合、ミックスチャーフォーマットと正確性報酬が訓練を不安定化する可能性があります。
基本的にこのフォーマットがあります。このthink thinkそしてanswerフォーマット。このフォーマットを強制しています。あなたのcoot sft訓練段階がそのフォーマットをモデルに強制するからです。RLHFがここでassistant userパラダイムを強制するのと同じ方法で、think answerパラダイムを強制しています。
しかし、GRPO DeepSeekスタイルは、追加の報酬信号としてフォーマットも使用します。正確性または報酬とフォーマットの両方を実際に使用しています。ここで彼らは、フォーマットエラーが頻繁に発生する場合、そのモデルに勾配をプッシュするために使用されている報酬が、フォーマットエラーによって時々混乱する可能性があると言っています。
それは良くありません。そのフォーマットにいることを望みます。RLを開始する前に、思考回答フォーマットで安定していることを望みます。さもなければ、RLは時々報酬に基づいて勾配をプッシュし、時々勾配が報酬関数のフォーマット部分から圧倒的に来て、訓練を不安定化させます。
Deadly data、まだストリームを行っているのを見るのは素敵です。感謝します。Georgia Techで大学院を始めました。Georgia Techは良いです。最終的にシミュレートされたゲームにRLを適用することに焦点を当てたいです。それは非常に人気のあるRLです。
RLのほとんどはシミュレートされたゲームで行われたと言えるでしょう。今になって、そのニッチを出始めているのを見始めています。
フライトやその他の無用なものを予約するエージェントを作るエージェントをどのように作るか。これをここに入れます。フライトやその他の無用なものを予約するエージェントを作るエージェントをどのように作るか?エージェントが何を見つけるか見てみましょう。デスクトップを設定しています。
Josh Phillips、主に視覚埋め込みをエンコードするときにテキスト思考連鎖に崩壊することが問題になるようです。ここでの思考連鎖も潜在空間にあるべきではないでしょうか?思考連鎖は常に潜在空間にあります。
これらの各々をトークンと呼びます。私たちには小さな各トークンが文字を表します。例えば、このトークンはCOMを表すかもしれませんが、それはモデルが見るものではありません。モデルにとって、この小さな緑のボックスは、おそらく1,000の数値のベクトルのようなものです。
モデルの観点から、これらの小さなトークンの各々は既に埋め込み空間にあります。それは既にはるかに不明確な高レベルの概念です。それらを取って特定のトークンとこれらの特定の文字に割り当てるのは、私たちの視聴の喜びのためだけです。
トークンのシーケンスをモデルに供給するとき、モデルは私たちにとってそれが3つの文字に見えるよりもはるかに高いレベルの概念を持っています。それは既にはるかにニュアンスに富んでいます。それは既に潜在空間にあります。
早期融合の利点を捨てているように感じます。早期融合対後期融合。これをもう少しよく理解しましょう。早期融合対後期融合は、実際の言語モデルに入る思考連鎖またはシーケンスをいつ実際に融合または作成するかのアイデアです。
ビジョン言語モデルでVLM chameleon早期融合を行いましょう。これが最良かわかりません。新しいタブで画像を開きます。これがchameleonペーパーで、通常これらのビジョン言語モデルの動作方法は、その画像をこの画像エンコーダーに供給し、画像エンコーダーがこれらの視覚トークンにトークン化されます。
これらを一緒に融合するとき、またはテキストと画像を持つ実際のシーケンスを作成するとき、実際にはかなり遅いです。これは既にこれで、これは視覚トランスフォーマーですが、ここのトランスフォーマーとここに到達するために起こっていることの間にクロスアテンションはありません。
画像を完全に別々にエンコードし、ここに到達することとは別に視覚トークンを作成しています。早期融合は、それを引き下げるのはどうでしょうか?より早く取得するのはどうでしょうか?
ここでこのchameleonで起こっていることです。Chameleonは、すべてのモダリティを離散トークンとして表現し、インターリーブ混合モーダルデータでエンドツーエンド方式で最初から訓練された統一トランスフォーマーベースアーキテクチャを使用します。
結果として、Chameleonは任意の混合モーダル文書を推論し、生成することができます。実際にこれらのモダリティを組み合わせる前にどこまで低く行くか、または計算チェーンの高いところで各モダリティを別々に扱ってから結合するか、または低いところで行うかのようなものです。
なぜ早期を行わないのでしょうか?早期融合の問題は、これらの視覚エンコーダーが非常に良いことです。この種の早期融合を行うとき、一種の最初からこれを訓練する必要があります。既に行われた事前訓練をすべて行う必要があります。
clipのようなものを作成するために入ったすべての計算について考えてください。すべてのその計算がそこに保存されています。この画像エンコーダーに保存されたすべてのこの知能があります。早期融合のようなものを今行いたい場合、基本的にそのすべての計算をやり直す必要があり、この1つほど良くならないかもしれません。
これらの視覚エンコーダーが実際に行っていることの一つの見方は、無料の計算を使用するようなものです。新しいGinga V4がそれらを使用し、非常に良いと思います。大きなフロンティアラボであれば、この種のことができると思います。多くの追加費用がかかるからですが、ほとんどの他の人にとっては、画像エンコーダーを使用した方が良いかもしれません。
エージェントが何をしたか見てみましょう。そこで始まりました。ユーザーが興味を持っています。記事を読みます。その後別の記事を読みます。その後Mediumの記事を読みます。その後別の記事を読みます。その後別の記事を読みます。
このような記事を読んでいるビデオを実際に見る必要がありましたか?それは何でしょうか?問題ドメインを理解してください。エージェント オーケストレーション フレームワークを選択してください。クール。プロダクト人は奇妙です。それが私が言っていることです。
実際に何を見ているかを考えてください。実際にその記事を見てもいません。その記事を実際にどのように読んでいるかを見せてくれたら、役に立つでしょう。しかし、これは偽の事前アニメーションされた偽のスクロールアニメーションのようなものです。これは実際の記事ではありません。
つまり、何を見ているのでしょうか?これはタブさえありません。複数のタブを開いているのを見たいのに、ここの最後に開いているすべての異なるタブを見ることができるようにしたいのです。しかし、それすら見せてくれません。すべてのタブを別々に使用しています。
この動画から実際に何を得ているのかわかりません。クールで、プロダクトスライドで素晴らしく見え、小さな話で素晴らしく見えます。Sam Altmanがこれを見せる小さなPowerPointを持つことができれば、素晴らしく見えます。
しかし、実際にこのエージェントをタスクを完了するのにより有能にしているでしょうか?そうは思いません。外部の磨きを作成しているようなものです。実際に必要なところに到達するのではなく、5時間働いて戻ってくるエージェントのような。
なぜ異なるバッチの同じ状態コピー用のビジョンタワーを実際にパーツに読み込むのではなく、これは実際にランダム電力スパイクを与えないと言われました。別の誰かによって訓練されたこの別の視覚エンコーダーを持つ利点は、勾配をプッシュしないでしょう。凍結します。
つまり、今あなたのすべてのビデオ、何であれ18,000の長いビデオを取って事前エンコードできます。今、すべてトークンです。すべての計算を事前に行い、今重要な計算を行うことができます。これらの視覚トークンのシーケンスから始まり、RLを使用してロールアウトを生成し、それらのロールアウトを使用して言語モデルに勾配をプッシュすることです。
それが重要な計算です。より早期融合のような種類のエンドツーエンドのようなものと比較して、ほぼすべての計算を事前に行います。ビジョンタワーが言語モデルに混合されているため、毎回その計算をやり直す必要があります。
ビジョンエンコーダーを勾配を受け取らない別々に行われた別のものにすることによって、基本的にそのすべての計算を事前に行うことができ、RLはこれらの視覚トークンを消費してから適切な答えを得るために適切なことを行う方法を理解するのがより良くなっているだけです。
これらのビジョンタワーは既にかなり良いです。それらを使用して、そのままにしておくのが良いかもしれません。
計算効率と並列処理
DP データ並列全体でのロードバランシングシーケンス長。ここで彼らが抱えていた同じ問題です。異なるシーケンス長です。異なるロールアウトのシーケンス長は変わります。未知になります。
したがって、非常に長いシーケンスといくつかの本当に短いシーケンスの問題があるかもしれません。任意の計算並列世界でそのようなものがある場合、それは非常に煩わしくなります。フォワードバックワードパスが狭い範囲内に留まるように、ランク全体でシーケンス長と計算負荷の両方をバランスします。
しかし、これも素晴らしくありません。Kolmogorov複雑性の観点からも、いくつかの問題ははるかに速いからです。いくつかの問題では、非常に長い推論チェーンは必要ありません。推論チェーンの非常に特定の長さを制約しているようなものです。
推論チェーンが答えに到達する非常に短い場合、モデルが学習することは実際にfluffのようなものかもしれません。2文で既に答えを知っているが、さらに30文ほど座ってしゃべってから答えを与えます。
特定の思考連鎖長を強制し、特定の長さに正規化する何かがある場合、計算の観点からは簡単になります。つまり、思考連鎖が常にほぼ同じ長さであることを知っているため、プロダクトを作成するときに、どのくらい時間がかかるかを知っているため、ユーザーエクスペリエンスが良くなります。
訓練にとっても良いです。ロールアウトするたびに、ほぼ同じサイズになるからです。しかし、この種のしゃべりを強制しているかもしれません。「答えが何かは既に知っているが、あと20分話す必要があるので、あと20分ゴミについて話す」のような。
訓練はサンプルから分離されています。これらの評価に入るつもりはありません。評価について気にしないからです。これらのベンチマークは、ある種のゴミでもあるだけでなく、重要でない多くのゴミとしか比較していません。
Gemini 1.5って何?誰がこれを使うの?これは何を意味するの?なぜGPT40がそんなに?これらの数字はすべてあちこちにあり、これらのベンチマークのいくつかは、とにかくある種のゴミです。あまり大きくないからです。
そこには基本的に2、3の例があり、それらの例を正しく得ると、基本的に勝ちます。ImageNetがクレイジーな割合で犬だったようなものです。犬の品種を特定するのが非常に得意であれば、基本的にImageNetをゲームして本当に高いスコアを得ることができました。
しかし、超汎用的に知的であっても、犬についてあまり知らない場合、ImageNetスコアはゴミになります。ここでこれらのベンチマークでも同様の効果があると思います。多くの場合、1つの特定の狭いタイプの質問を正しく得るだけで、それは実際にどれほど効率的であるか、または汎用的に知的であるかと相関していません。
1つのH A100 GPUで訓練効率比較を実施します。Nvidiaの人々がA100で訓練しているのはなぜでしょうか?これは2025年にリリースされたNvidia論文で、8x A100で訓練しています。みなさん、少なくともH100にいるべきです。これは悲しいです。
これらの人々に良いGPUを与えてください。A100はゴミではありませんが、Nvidia論文としては、おい。スーパーペーパー、スーパーモデル、またはスーパーGPUを使用すべきです。
ほぼ終わりです、皆さん。クロスドメインを調査しています。ここで興味深いことがありました。クロスドメイン実際の汎化。5つのRLデータセットデータ設定全体でSFT段階モデルを評価します。各モデルはVベンチマークスイートでテストされます。
グリッドの値は、ドメインごとの平均パフォーマンス改善とセルの色を示しています。基本的にこれは、時間の始まりからこの時点まで知っていることです。しかし、クロスドメイン汎化があります。基本的にSTEMでRLを行うと、OCRでわずかに良くなります。
光学文字認識とチャート認識の空間でのみ強化学習を行っているが、STEMベンチマークでスコアを上げています。GUIエージェントの空間でのみRLを行っているが、グラウンディングベースの視覚推論タスクで良くなっています。これはバウンディングボックスのようなものです。
「犬は何匹いますか」または「この画像の犬は座っているか立っているか」のような。これがすべての重労働を行っています。現在、Grok 4のようなエージェントでは、RL計算は答えがある数学とコードのような検証可能なドメインに制約されているからです。
それが数学とコードのドメインでのみ改善されているだけなのに、なぜより知的な何かと話しているように感じるのでしょうか?理由は、一般的に1つのドメインで知的になると、異なるドメインで改善するというプラトニックな無料ランチがあるからです。
1つのことで良くなると他のことで良くなる知能の一般的なアトラクターベイシンがあります。理論的には、すべてで神モードである1つのモデルがあります。しかし、今、高度に疑わしい予測に入り始めています。
しかし、少なくともZ100はZ1 Z100は本物ではないと思いません。GH GH200がベストだと思います。GH200です。そしてGB200。これが本当の男の子たちです。ウェイトリストに参加してください。ミニ版を入手できます。Nvidia Sparks。
これが私が待っているものです。小さな小さなボックス内のBlackwellです。しかし、少し過度に高価です。約4Kで、ちょっとぼったくりですが、見てください。デスクに小さな小さなBlackwellを置くことができます。それは最高になるでしょう。
モデルがすべてのドメインで同時に訓練されるミックスすべて設定は、5つの領域のうち3つで任意の単一ドメインRLよりも明確な利得を提供します。それは何を意味しますか?数学だけでなく、コードだけでなく、テキストだけでなく、視覚ドメインなど多くの異なるドメインでRLを開始すると、今よりもはるかに遠くに行くということを意味します。
RLはタスク完了率を向上させますが、推論品質を一貫して改善しません。特定のインスタンスでは、モデルは正しい答えを生成しますが、正しくない推論ステップに依存します。プロセス監視のようなことができますが、それは少し複雑で、その複雑さは時間とともに消えると思います。
RL アルゴリズムには必要のない多くの複雑さがあると感じます。GRPO がそれを示していると思います。基本的に PPO を簡素化し、それがより良くなりました。欠陥のある、または幻覚推論チェーンが正しい答えを生成するため、不注意に強化される可能性があります。
RL訓練は不安定性を示します。残りの感度は、大規模RL最適化のより深い課題を示しています。ここにそれに取り組んだすべての人がいます。
この論文の最後に行きましょう。何か他に見逃したものはありますか?推論ありなしでのフレーム数精度。これは理にかなっています。基本的にテスト時計算スケーリングまたはテスト時訓練、テスト時計算スケーリングです。
テスト時により多くの計算を持つほど、つまりより多くの計算を置くほど、つまりより長い推論チェーンほど、一般的により高い精度を得ます。制限事項、境界の影響。より広い影響であるべきです。
高品質の長編ビデオを作成する最善の努力にもかかわらず、推論の定義はさらなる改善とより包括的な結論を必要とします。現在、推論は基本的にthinkセクションを持ち、answerセクションを持ち、thinkセクションでしゃべらせることを意味するだけです。
しかし、確実に、そこにはより微妙な何かがあります。これらの人々は、このプロセス監視で同じポイントに来ています。おそらくそこにはいくつかの知的なアイデアがありますが、それが問題の一部で、強化学習はまだかなり原始的です。
例えば、オリジナルの愛しい強化学習アルゴリズムであるPPOでは、このアドバンテージがあり、そのアドバンテージはこの割引報酬から来ます。基本的にここでこの割引係数ガンマがあり、これが行うことは、最終報酬に基づいて中間報酬を基本的に割り当てることです。
この答えが正しい場合、ここでの報酬は1で、ここでの報酬は0.9 * 1、つまり0.9になります。そして、0.9 * 0.9 * 1、次に0.9 * 0.9 * 0.9 * 1を得ます。この割引された将来の報酬に基づいて中間報酬を割り当てています。
しかし、それは完全にゴミです。実際には意味をなしません。実際にそこにははるかに多くのニュアンスがあります。実際にこの推論ステップは良く、この1つは悪く、この1つは良く、これら2つは悪いということがあるかもしれません。
この報酬を取って、すべての前のステップにそれを割り当てる方法について、はるかに微妙な何かがあるべきです。GRPO が実際に行ったことは、それを取り除いたことです。基本的に「この割引係数のゴミは行わない。勾配を得る方法として、グループ内の相対的立場を文字通り使用しよう」と言いました。
しかし、ある時点で、実際にこれらのどれが良く、どれが悪いかについて、もう少し微妙な方法を見つける必要があると信じています。または、おそらくそうではありません。フルgpoに行って、スケールがすべての問題を解決するかもしれません。
ビジョン言語モデルにイベントシーケンスを処理し推論する能力を装備することで、拡張フレーム上で因果関係と物理的関係を推論できるAIシステムの基盤を築きます。長編ビデオ推論は、エンボディッドAIとロボットを大幅に向上させることができます。
より多くのデモをクルーします。20分のStarcraftマッチが描かれています。これを見ました。これに行きましょう。これはかなりクレイジーでした。Starcraftマップがあります。これを推論を持つこの視覚言語モデルに供給し、質問を与えています。
「Starcraftゲームの最初の20分です。可能性の高い戦略的意図は何で、誰がマッチに勝つ可能性が高いでしょうか?」このストリームから何かを得るとすれば、人々がGPTのコアアイデアについて十分に興奮していないという私へのこのコアアイデアです。
Generative Pre-trained Transform、それは実際に何を意味するのでしょうか?基本的に次のトークンを予測することがAGIを得るのに十分だということを意味します。テキスト世界での次のトークンを予測するだけでテキストでAGIを得るのに十分だったとすれば、この種のことではるかに多くの知能がどれだけあるかを想像してください。
「最初の20分です。次に何が起こりますか?」ボールはどこに行きますか?すべてのサッカーゲームを供給してください。これらのモデルは私たちの世界をとても良く理解し、クレイジーになるでしょう。
視覚世界でこの次のトークン予測のようなことを開始すると、彼らはとても賢くなると思います。Josh、これによりより多くの人々がbeach スタイルモデルに向かう傾向になると思いますか?人々がビデオ訓練から非ビデオ使用ケースで価値を得るにつれて。
おそらくわからりません。学術界がどれほど政治的になり得るかを過小評価していると思います。Yan LeCunのような人々と関連付けられたJeepaやVJEPAのようなものがあると思います。Metaのような組織内で政治的権力を失っています。
誰もそれと関連付けられたくありません。新しいものを持ちたいのです。人々が何に取り組むかを決定し、どの戦略で取り組むかを決定するのには、これらすべての政治的要因があります。
人AがアプローチAで知られ、人BがアプローチBで知られ、人Aが解雇された場合、誰もアプローチAを行いたがりません。アプローチBがアプローチAより悪いからではなく、アプローチBと人Bと関連付けられたいからです。
人々が使用している技術、彼らが焦点を当てることを選ぶ領域の多くは、人間階層内での自分の立場と、その階層を上る欲望、認識への欲望などに基づいています。
VJAが良いアイデアであっても、政治的権力を失っているmetaの機械学習世界の特定の部分と関連付けられているため、実際に値する注意を得ないかもしれません。
ZZ ZZ ZZ ZZ ZZ ZZ ZZZ 報酬分布にアテンションを適用できるかもしれません。おそらくアブレーションが最強の貢献リードアップを明らかにできるでしょう。そのようなことができるでしょう。
ここに行ってこのシーケンスのこの点に到達し、この点から10の異なる可能なものをサンプリングし、「ここから10をサンプリングすると、4つが、6つが良い。ここから10をサンプリングすると、2つが、8つが良い。」と言うことを想像してください。
つまり、この1つがこの1つよりも何かを与えてくれたということです。毎シングルトークンが出てくることは、この巨大な可能なパスの木の1つの可能なパスだからです。ここでのすべての単一ステップは、この木の1つのパスの選択です。
数百万はありませんが、トークン語彙が何であれ、行くことができたすべてのこれらの可能な木があります。この1つを選択しています。いつでも「この時点で可能な木をサンプリングして、サンプリングした可能な木のうち、ほとんどが良かったか、ほとんどが悪かったかを言う」ことができます。
実際に私はあなたのアイデアzzzを説明しようとしてGRPOを文字通り導出しました。基本的に「このグループ内での相対的立場を使用して、どれが良く、どれが悪いかを決定できるか?」のようにGRPOをゼロから導出しました。それは基本的にGRPOです。
すべてのトークンでGRPOのようなことを行えば、基本的にどのトークン、どの推論ステップが実際に有用で、どの推論ステップがそうでないかを決定できます。
まとめと将来展望
画像でのコードの解釈。それは実際に超賢いです。それは本当に興味深いアイデアです。画像でのコードの解釈のような視覚推論タスクが、テキストのみのコーディングタスクのパフォーマンスを向上させることができるかどうかを理解することは、有望な研究方向です。
一度このようなマルチモーダルモデルを持つと、問題をテキスト形式で供給するか、テキストの画像を作成してその画像を供給し、問題を解決できるかどうかを見ることができます。
それは実際に超賢いです。無限のデータを作成する方法だからです。無限のコーディング問題を作成するのと同じ方法で、コーディング問題なので、答えが何かを知っています。検証可能なドメインです。
コーディング問題の無限の画像を作成でき、コーディング問題だと知っているので答えが何かを知っています。そして、それが時間とともにゆっくりと視覚推論をより良くするかどうか疑問に思います。それはかなり賢いです。
それがほぼすべてです。この水を設定してから終了しましょう。ここでほぼ時間通りだと思います。要約です。
今日のストリームはVLM RLと呼ばれました。これは、Hugging Faceで過去1か月間最も人気のある2つの論文をレビューしました。基本的にDeepSeek強化学習スタックを使用している2つの論文で、基本的にVLM transformers torch visionで、これらの確実の一つはRayを使用しています。
もう一方はRayを使用していないと思いますが、1つのクラスターがあったからです。いずれにせよ、DeepSeek GRPOアルゴリズムで、基本的にテキストと画像トークンの両方を消費できるこれらの視覚推論モデルを作成するために使用しています。
これらの画像トークンは、単一の画像またはビデオ(画像のシーケンス)から来ることができ、それからDeepSeekスタイルのthinkそしてanswerを行います。モデルに多くのスペース、多くの計算表面積を与えて、多くのコンテキストを作成し、良い答えを作成する可能性を高めます。
これらの論文の両方について、基本的に3ステップパイプラインがあります。モデル自体を作成する事前訓練があります。キャプション付き画像とキャプション付きビデオで、基本的にウォームアップし、ゼロから開始します。
それから、この長いcoot sft。教師あり微調整訓練段階があり、基本的に非常に注意深くキュレートされたデータセットを供給しています。「長い思考連鎖があり、thinkそしてdash think、そして正しい答えがあります。」
この事前チェーニングの後、この長いcoottでthink answerパラダイムに強制しています。そして、そのthink answerパラダイムに焼き込まれたら、GRPOを使用して強化学習を投入し、基本的にロールアウトまたはここで呼ばれる補完をサンプリングし、それらから報酬を決定し、グループ相対ポリシー最適化、ポリシーはモデルなので、供給しているグループ内の各推論チェーンの相対報酬に基づいて、モデルを最適化したり、勾配をモデルにプッシュしたり、モデルを訓練したりしています。
時間とともに、モデルはますます賢くなり、ますます良い推論チェーンを生成でき、視覚ドメインでますます多くの質問に答えることができるようになります。「サッカーゲームです。最後の10分で何が起こるか教えてください。Starcraftゲームです。何が起こるか教えてください。犬のビデオです。」
犬は何をしますか?基本的に次のトークン予測の進化です。この論文で追加のクールなことがありました。カリキュラムとカリキュラムサンプリングのアイデアについて話しています。
どのデータセットを使用しているかという意味でのカリキュラムだけでなく、訓練の各部分のデータミックスは何か?しかし、ほぼ粒度のあるバッチごとのサンプルでのカリキュラムも、そのGRPOの特定のバッチに使用している特定の補完やロールアウトをどのように選択しているか?
非常に細かくなっています。しかし、2つの素敵なオープンソース論文。コードはオープンソース。両方とも訓練スクリプトがあります。両方とも推論スクリプトがあります。それがほぼすべてです。
皆さん、ありがとうございました。Ed、Josh、Zzz、Sidに感謝します。実際に、Zからの質問があります。最新のVLMを使用したStarcraft 2とDota競技をもっと見たいです。
VLMを審判として使用することは巨大になるでしょう。VLMがスポーツイベントを見て、審判のようになったり。VLMが何と呼ぶか、Starcraftゲームの実況のようなもの。ショウトキャスティングまたは何かのように呼ばれます。キャスティングまたは何かのようなもの。
しかし、最終的にそれはVLMによって行われることになるでしょう。Sid Ed、ありがとう。Spyrobel、ありがとう。Roslon。ありがとう。Open room XYZ、Dimma、Octagi、Icky、Phoenix、Minas、Chamomlu、Sid、Spyro、87GN、Lil Cam、Binks、Jamal、Siraj。
皆さん、ありがとうございました。素晴らしい週末をお過ごしください。また後でお会いしましょう。


コメント