合成データのスケーリング

この動画は、兆スケールの前訓練における合成データのスケーリングに関する重要な研究について解説している。主にBeyond Webという論文を中心に、従来のインターネットスクレイピングデータから合成データ生成への移行と、データ品質の重要性について詳しく分析している。リフレージング、要約、形式変換といったテキストデータ拡張技術の効果を実証的に検証し、データの壁を突破する新たなアプローチを提示している。また、Genie 3のような生成的世界モデルの台頭により、従来のシミュレーション技術が置き換えられる可能性についても言及している。

Scaling Synthetic Data

Like 👍. Comment 💬. Subscribe 🟥.🏘 Discord:

YouTube配信テスト開始
配信準備と設定
Beyond Web論文の紹介
前訓練データの概念説明
データの壁問題
データ品質の重要性
リフレージング戦略
生成戦略の多様性
モデルサイズと効果の関係
合成データ生成のコスト
二つの主要アプローチ
ソースリフレージング手法
最先端モデルでの使用状況
Beyond Webの詳細機能
実験設計の説明
最初の実験結果
技術インフラの選択
評価方法と結果
スケーリング効果の分析
データ品質と多様性の重要性
合成データの体系的評価
研究質問とアプローチ
Cosmopediaと要約の比較
データの壁を突破できるか
シードデータの品質
分布スタイルマッチングの重要性
スケール全体での多様性の重要性
多面的アプローチの有効性
その他の関連論文
バイアスの懸念
データミックスの分析
視覚推論への応用
エラー修正データセット
VLMの現状について
ロボティクス論文
計算効率について
VLMとMixture of Expertsについて
Genie 3の計算効率について
モデルの想像力と世界モデル
制御とアクション
配信のまとめ
最後の質問への回答

YouTube配信テスト開始

YouTubeでテストしとるで。YouTubeでテストしとるで。YouTubeでテストしとるで。テスト。テスト。テスト。よっしゃ。YouTubeは動いとるな。今度はXに行ってテストしてみよか。Xでテストしとるで。Xでテストしとるで。よっしゃ。Xも動いとるな。完璧や。もうTwitchは確認もせんわ。たまに誰かがフォローしとるって表示されるのが不思議やけどな。よし、このYouTubeは切っとこか。バックグラウンドで動かしとくのもアレやし。

調子はどないや、Pritique？テスト、テスト。よし、始めよか。今日はゴンドールの角笛をやるで。音楽やな。よっしゃ。これの方がマウスピースが小さいから、ディジェリドゥの大きなマウスピースより長く吹けるんや。ルームXYZを開こか。えーっと、技術的には新しい角笛やないけどな。

配信準備と設定

ちょっと前から持っとったやつや。何回か他の配信でも使ったことあるけど、ディジェリドゥほどの深い響きはないんや。よし、今日の配信は「合成データのスケーリング」っていうタイトルや。ええ感じのサムネイルやろ。これも実はFluxで作ったんや。サムネイル用にいろんな画像生成モデルを試しとるところなんや。

今はもうほとんどのサムネイルをワンショット生成しとる。タイトルとプロンプトを入力するだけで、毎回完璧に出来上がるんや。ちょうど1年前のことを思い出すと、こんなことできへんかったで。1年前は複雑なパイプラインを組んで、基本的にセグメント化して、テキストを載せて、まあ基本的にサムネイルを作るためにワークフローが必要やったんや。

今はもう、最先端の画像生成器のほとんどが、テキスト付きのかなり複雑なサムネイルをワンショットで作ってくれる。完璧やで。ほんまにすごいもんや。調子はどないや、Mark B？

Beyond Web論文の紹介

兆スケール前訓練における合成データスケーリングからの教訓。これはData AIチームのもんや。ちょっと変わった名前やな。SEO的にはあんまりよくないかもしれん。

けど、ここでこのチームを見てみよか。こういうチーム紹介セクションは気に入っとる。タイトルページに50人もの名前を詰め込むんやなくて、タイトルページは要約と図1だけにして、チームメンバーの名前は別のページにまとめとる。そうすると構成がよく分かるし、実際かなり大きなチームやな。

Beyond Webって何やろ？Beyond Webは、前訓練用の高品質な合成データを生成する合成データ生成フレームワークや。オープンなウェブデータでの訓練と比べて7.7倍も速いんや。

前訓練データの概念説明

最終的にこの論文の結論は、高品質な合成前訓練データを生成するための銀の弾丸は存在せんということや。まず前訓練データって何なのか話そか。前訓練データは基本的にインターネットからスクレイピングしたデータセットのことや。テキストモダリティで集められる最大のデータソースやな。

インターネットデータでの前訓練が、今のAIハイプサイクル全体を始めたんや。モデルのサイズを大きくして、スクレイピングしたインターネットデータの巨大なデータセットで訓練すると、AGIっぽい知能が得られることが分かったんや。まだ幻覚もあるし、いろんな問題もあるけど、詩も書ける、医学のことも分かる、フランス語も話せるっていう、とんでもない汎化能力があるんや。他のモデルではできへんかったことや。

これは本当にインターネット規模のデータを使うという突破口から生まれたもんなんや。でも、この新しいAIハイプサイクルが始まって5年ほど経って、いわゆるデータの壁に突き当たり始めとる。基本的にサーチできるインターネットデータを使い果たしてしもたんや。調子はどないや、Ed？

データの壁問題

この予測可能なレシピ、つまりどんどん大きなモデルを指数関数的に大きなインターネットスクレイピングデータセットで訓練するというやり方が、勢いを失い始めとるんや。人々はもっとデータを取り込むためのいろんな方法を試しとる。今人気なのは強化学習や。これは効果的に合成データを作るんやけど、環境と相互作用することで合成データを作っとるんや。

強化学習は環境を作って、その環境で動作するエージェントを用意することで、無限にデータを収集できる方法なんや。でも、データの品質にも問題があるんや。何かが欠けとる感じなんや。みんなもこれは分かっとると思うけど、囲碁のゲームを10兆回プレイしたり、RLで作って絞った数学問題を10兆問集めたりしても、同じもんにはならんのや。初期の2020年代のインターネットスクレイピングで得られたような効果は得られんのや。

データ品質の重要性

データ品質が重要なんや。高品質データを言い換えると、低品質ソースを使うより利益があるということや。分布スタイルマッチングが重要や。ウェブデータには会話コンテンツが2.7%しか含まれてないのに、チャットが主要な推論用途になっとる。

だから、この人たちは合成数学データや合成囲碁データじゃなくて、RLタイプの合成データ生成戦略じゃなくて、合成インターネット前訓練データを作ろうとしとるんや。それが全ての始まりやったからな。

リフレージング戦略

いろんな戦略を使っとるんやけど、主要なものの一つがリフレージングや。既存のシードデータ、つまり元の恐竜についてのブログ投稿とかを取って、それを会話形式に言い換えるんや。恐竜についての一般的なブログ投稿を、オートリグレッシブトランスフォーマーの前訓練時に次のトークン予測に食わせるんやなくて、同じ恐竜のブログ投稿を二人の間の恐竜についての会話に言い換えるんや。

情報は基本的に同じやけど、単語、もっと重要なのはトークンの分布が元の恐竜ブログ投稿とは違うんや。これはデータ拡張みたいなもんやな。

オープンルームXYZ、君の角笛をサンプリングしてニューラルネットワークのクローンを作るべきやな。そうやな、Hoopo角笛コレクション全体をコレクティブルセットとして売る必要があるかもしれんな。

生成戦略の多様性

生成戦略の多様性と変化が、合成データから継続的に利益を得るために重要や。ここで変化と多様性がデータ品質を理解する上で非常に重要な部分やということが分かるで。

リフレーザーファミリー全体でほぼ一貫しとって、リフレージングは汎用的な能力で、リフレーザーモデルの効果を予測するのは難しいんや。3Bパラメータを超えてリフレーザーのサイズを増やしても、収穫逓減が観察される。

モデルサイズと効果の関係

この論文でちょっと同意できへん発見があったんや。後で詳しく説明するけど、リフレージング用のモデルのサイズ、つまり恐竜についてのブログ投稿を恐竜についての会話に変換するモデルについて、8Bモデルと3Bモデルを使っても、訓練するモデルの知能を向上させる効果的なオリジナルシードデータの変種を生成する点では、どちらも大体同じやということが分かったんや。

これが必ずしも真実かは分からん。隠れた話として、このリフレージングタスクをヒルクライムするためにRLを使う方法があるんちゃうかと思うんや。これは測定可能で定量化可能なタスクやからな。4つの異なるモデルがあって、全部がこの元のシードデータをリフレージングして、そのリフレージングのうちどれが実際に最も賢いモデルを作るのに最も有用かを見ることができるんや。

つまり、それを使ってリフレーザーモデルを改善する方法があるということや。これが将来的な展開かもしれん。インターネットを通り抜けて、新しいデータが出るたびにそれを20通りの方法でリフレージングする超人的なリフレーザーがある未来やな。

合成データ生成のコスト

合成データ生成の単純なアプローチは、ほとんど利益をもたらさないか、害を与えることさえあり、かつ生成のために相当な計算コストがかかる。インターネットにはある程度のコストがあるんや。通常、人間にお金を払ってウェブスクレイパーを作ってもらって、実際にスクレイピングして、品質を判断するために作業してもらう必要がある。

データを通して品質フィルターでフィルタリングするために、ある程度の計算量を費やすこともある。だから、インターネットデータセットを集めてスクレイピングするのにも、すでにある程度の計算コストがかかっとるんや。

合成データの場合も同じで、ちょっと直接的やな。多くの合成データ生成は文字通り生成されるからや。だから、これらのリフレージングを生成する必要があると、実際にGPUに対してお金を払うことになる。ウェブスクレイパーは必ずしもGPUを必要とせん。ただいろんなところにpingして情報をスクレイピングするだけやからな。

でも、実際にこのデータを生成するにはある程度のコストがかかる。だから、これとも向き合わなあかん。生成したデータがモデルをより良く訓練できるようになるけど、そのデータを生成するのにお金がかかって、またそれを訓練に使う必要がある。データが多いほど訓練コストも高くなる。だから、パレート境界みたいなもんがあるんや。最適化しなあかん複数の要素があるから、無限の予算で無限のデータを生成することはできへんのや。

二つの主要アプローチ

ジェネレーター駆動パラダイム、2つのアプローチの物語。合成データを生成する主要な2つのアプローチがある。ジェネレーター駆動とソースリフレージングや。どちらもテキストに限定されとる。

この論文全体はテキストに限定されとるけど、後でこれがより広いモダリティにどう適用できるかを示すために、いくつかの他のモダリティに拡張してみるで。

ジェネレーター駆動パラダイムは、大規模モデルを使ってゼロから訓練データを生成し、これらのモデルに埋め込まれた知識をカプセル化するもんや。これが一番胡散臭く感じるんや。本当に幻覚に振り回されるだけやからな。

例えば、GPT-4に恐竜についてのブログ投稿を作ってもらうとする。そこで起こっとることは、生成されたブログ投稿の恐竜についての全ての情報が、モデル自体、つまりGPT-4の内部の知識から来るということや。GPT-4は通常、これらの多層パーセプトロン、FFNの中に情報を保存しとる。

だから、そのFFNの中の恐竜情報が正しくて、恐竜についてのブログ投稿を実際に生成するときに、導入してしまう幻覚がないことを期待しとるんや。これらのモデルの幻覚がどんどん少なくなっとるから、この仮定はどんどん良くなっとるけど、まだ必ずしも素晴らしいとは言えん。

また、このパラダイムは強力な既存モデルを知識バンクとして使うことに依存していて、GPT-4のような最先端ジェネレーターへのアクセスの高い計算コストに制約されとる。だから、恐竜ブログを生成するコストがGPT-5、GPT-6と上がっていくと、このジェネレーター駆動パラダイムはちょっと魅力的やなくなって、そこでソースリフレージングパラダイムが出てくるんや。

ソースリフレージング手法

ソースリフレージングの変種をウェブリフレーズ拡張前訓練と呼んどる。これはリフレージングによって前訓練を拡張する、つまりデータ拡張のもう一つの言い方や。これは既存のウェブドキュメントを活用して、より小さなモデルを使ってこのコンテンツをより高品質で構造化された、ターゲット化された形式にリフレージングするんや。

これは安いんや。GPT-5やGrok 4のような最も高価なモデルから生成するんやなくて、すでに存在するデータを取って、3Bモデルや8Bモデルのようなずっと小さなもので言い換えるからや。だから、多くの変化を生成するのが安くなる。

これは実際に画像拡張でも起こっとることと同じように考えることができる。最近のDINO V3みたいなもので画像拡張を使うときには、確実に画像拡張が使われとる。DINO V3みたいなモデルで使われる画像拡張は、GPT-4みたいな超ハードコアなもんやない。基本的にフリップやガウシアンブラーフィルターみたいな、ハードコードされたアルゴリズムなんや。

これらのハードコードされた小さなアルゴリズムがデータセットを拡張できるようになっとる。だから、このソースリフレージング、確かにモデルやけど、非常に小さなモデルや。だから、これはテキストの場合やけど、画像拡張にちょっと近い感じで、この種の拡張の計算コストが低いんや。

オープンルームXYZ、1冊か2冊の本から本を生成して、本を要約して、新しい本を書く。データセットでのエラー修正が鍵になる。エラー修正って実際何を意味するんやろうな？これもここで聞くべき重要な質問やな。

最先端モデルでの使用状況

リフレージングがKim K2、Qwen 2.5、Grok、GPT-5のような最先端LLMで相当な使用や意味のある向上を報告して、主要なパラダイムになっとる。だから、この人たちはOpenAIやxAIチームとのつながりがあるかもしれん。でも、これを載せるほど自信があったみたいやから、潜在的に真実やろう。

基本的にGrok 4とGPT-5（これらは今我々が持っとる最も進歩したモデルや）が、このソースリフレージングを相当かつ意味深く使っとるということや。だから、リフレージングを使ったこの種のデータ拡張は、すでにフロンティアラボで広く使われとるようやな。予想はできたけど、ここでそれをほぼ確認しとるみたいやな。

Beyond Webの詳細機能

Beyond Webの紹介。形式変換、ウェブコンテンツを質問回答ペアに変換、スタイル修正、情報密度とアクセシビリティを向上させるためのコンテンツ再構築。

今、このリフレージングパラダイムの中にいるときに、実際には多くのニュアンスと複雑さがあるんや。具体的にどうやってリフレージングするのかとか、ここでいろんな方法を紹介し始めとる。修正して、より教育的にする、つまり基本的に学習しやすくするために使う単語を変えることやな。

一文ずつ一つの単語を選んで、その単語を似たような別の単語に変えるだけでも、このテキストベースの拡張をするためのたくさんの異なる戦略がある。

実験設計の説明

この論文の構成は実際かなり巧妙で良いんや。基本的に彼らがやった実験を順番に説明してくれる。これから入る各セクションは、基本的に実験を提示して、結果を提示するという構成や。

この形式が本当に気に入っとる。実験プロセスの一部になったような感じがするし、最終的にデータから自分なりの結論を導き出すことができるからや。彼らはただ「こんな実験をして、こんな結果が出ました」と提示しとるだけなんや。

最初の実験結果

最初の実験では、合成データと非合成データを比較しとる。インターネットスクレイピングと比較して、具体的にはRed Pajamaを選んどる。これは最小限のキュレーションでよく確立されたベースラインやからや。それを合成データセットと比較しとる。

具体的には、270億トークンのCosmopedia、1.5兆トークンのNemo Synth。これはNvidiaのもので、高品質分類器選択入力に多様なリフレージングプロンプトを適用することで生成されとる。ここで2つのことがある。分類器選択入力があるということは、フィルタリングがあるということや。

テキストベースの分類器があって、テキストのチャンクを受け取って、「これを高品質、低品質、その他の異なるクラスに分類せよ」と言って、フィルタリングしてからリフレージングしとるんや。Nvidiaがやっとることやな。

Cosmopediaは混合された役割を使って、事前定義されたトピックセットをカバーするウェブ由来プロンプトで生成されたストーリーや。これはもっと生成的、ジェネレーター駆動パラダイムで、それからRAPがある。これはLlama 3.1 8BでリフレージングされたRed Pajamaや。

技術インフラの選択

合成生成インフラ。これは興味深かった。彼らが使った具体的な技術とフレームワークについて話しとる。最初はH100のAWS HyperPod上でSlurmを使ったけど、システムが硬直的で、反復が遅く、配備制約があって、実験選択の追跡が困難やった。

AWS HyperPodの経験はないけど、他のAWSサービスの経験はあって、一般的にかなり大変や。Slurmは学術界で人気や。Slurmを使っとる学術ラボをいくつか見たことあるけど、実際RayとKubernetesとvLLMの方がずっと現代的やと思う。だから、RayとKubernetes上のvLLMを使った解決策への移行に同意するのは興味深い。

vLLMは推論用で、Rayは基本的にジョブを作成してスピンできるようにしてくれる。Rayは一種のオーケストレーションフレームワークで、たくさんのコンピューターを制御して、実際に行われるタスクに対して計算を抽象化するもんや。

評価方法と結果

評価設定では多肢選択問題を使って、相対スコアリング方法を使っとる。これがモデルの知能を決定する方法や。実際の結果がここにある。

Cosmopediaは生成パラダイム、Nemo Synthはリフレージングとフィルタリングパラダイム、QA WRAPもリフレージングパラダイムや。それからRPJは純粋なインターネットデータのベースラインや。

リフレージングパラダイムと生成パラダイムは、必ずしもそんなに違わんということが分かる。これらは異なるベンチマークを選んどる。合成データ生成でモデルを必ずしも狭めるだけやないということを示したかったんや。

多くの人が合成データの批判として、生成する合成データは通常狭い分布から来るから、その狭い分布の合成データでモデルを訓練すると、合成データの分布に関連するベンチマークでは性能が向上するけど、汎化能力の一部を失うと言うんや。

だから、幅広いベンチマークスイートを選んで、「合成データで訓練しとるけど、まだモデルの汎化能力を維持しとる」ということを示したかったんや。特定のタスクに特化させるだけやないということやな。

Beyond Webがここで全部を上回っとるのが分かる。これが最初のテーブルである理由は、彼らの結果がどれだけ強いかを本当に示したかったからや。ここではかなり印象的な向上を得とる。

スケーリング効果の分析

ここではサイズにも依存しとるということに注目や。いくつかの異なるスケールで試してみて、小さな領域でより顕著な違いがあるように見える。まあ、これはどっちの方向にでも読めるやろうけど、そこから何を読み取るかは自由や。

ここでの物語の大きな部分は、Beyond Webが前訓練中に相当な計算節約を可能にするということや。彼らが言おうとしとることは、Beyond WebがRed Pajamaの120Bトークン性能を、わずか23.2Bトークンで一致または上回るということや。

彼らが言おうとしとることは、最終的にこんな関係が確立されとるということや。「このサイズのモデルがあったら、これだけのトークンで訓練して、この品質の出力を得る」という関係やな。これがチンチラスケーリング法則の由来や。

実際、後でここで言及されとる。結論に行ってみよか。チンチラを検索してみよう。そうそう、ここや。チンチラ最適計算の50倍。これは前から言い続けとることやけど、チンチラスケーリング法則は基本的に糞やと思うんや。

人々はそれに飛びついたけど、実際に元の論文を見ると、非常に特定のモデルアーキテクチャ、非常に特定のサイズ、非常に特定の実験やった。人々はこのチンチラ最適計算のアイデアをほとんど全てに外挿しようとしたけど、実際の適用範囲は人々が思っとるよりずっと狭いと思うんや。

この論文はそれを示しとる。同じサイズの別のモデルで、ずっと大量のデータで訓練されたレベルに、8Bモデルで到達できるということや。チンチラは特定のサイズのモデルを何トークンで訓練できるかを教えてくれるけど、ここでは8Bモデルで、Red Pajamaの180Bトークンを食わせたのと同じところに到達したけど、23.2Bトークンしか食わせる必要がなかったということや。

つまり、全てのデータが同じやないということや。一部のデータは、モデルに何かを学習させるという点で、情報密度が格段に高いデータがあるということや。

データ品質と多様性の重要性

これは必ずしも新しい概念やない。Andrew Ngによる古い論文があったと思うんやけど、mini datasetsとかそんなタイトルやった。たとえばImageNetを取って、小さなImageNetみたいな疑似ImageNetデータセットを作って、その小さな疑似ImageNetデータセットで訓練して、全体のImageNetで訓練したのとほぼ同じくらい良いものを得るという古い論文がある。

だから、データセットを蒸留するというアイデアや。蒸留という用語を使いすぎとるかもしれんけど、蒸留には別の意味があるからな。でも、大きなデータセットを取って、高品質な部分だけにキュレーションしたり、この場合はリフレージングして、ほぼ圧縮することで前訓練を削減できるという考えや。これは非常に現実的な効果で、何度も何度も見続けとる。何かがあると思うんや。

教訓は、誰かがチンチラについて何か言ったら、「それは基本的に糞や。そこには何もない」と言えるということや。

Saskia Luton、こんにちはHoopo。今クーイングしとるだけや。調子はどないや、Saskia？

性能向上は少数の際立ったベンチマークだけに制約されへんで、高品質で多様な合成データによって可能になった汎化性を反映して、広く分布しとる。合成データは全部が同じやない。高品質な合成データもあるし、多様な合成データであることも確認したい。

合成データの体系的評価

合成データの体系的評価。現代の前訓練予算は高品質ウェブデータの規模を超え始めとる。つまり、基本的にデータが足りなくなっとるということや。データの壁があるんや。

ウェブデータの最も一般的な3つのスタイルは、個人ブログ、商品ページ、ニュース記事や。一方、配備されたモデルは主に会話や指示形式で相互作用しとる。

彼らがここで注意を向けようとしとることは、最終的に我々はこれらのモデルをチャットボット的な能力で使っとるけど、前訓練の大部分はそのチャット形式やないということや。

だから、このスタイルマッチングのアイデアに何かがあるかもしれん。「前訓練で使う全てのデータを取って、このチャット形式に言い換えたら、モデルがすでにそのチャット形式になっとるから、前訓練の終わりにずっと早く到達できるかもしれん。データセットを効果的に圧縮できるかもしれん」ということやな。

研究質問とアプローチ

実験がここにある。研究質問1。これが話しとった実験や。ジェネレーター駆動アプローチは、既存の知識をより簡潔で情報豊富な表現に要約、再構築、蒸留することで近似されるか？

実際、既存の知識をより簡潔で情報豊富な表現に蒸留すると言うとき、それはモデル蒸留と多くの類似点があるんや。モデル蒸留では、通常より大きな教師モデルを取って、より小さな学生モデルを教師モデルに効果的に一致するよう訓練するんや。

その一致のやり方は、通常実際のトークンやなくて、その教師モデルに存在する表現の一部を一致させようとするんや。最後の層みたいなもんやな。その最後の層は、基本的にその大きなモデルへの入力が何やったかの高次元だけど極めて簡潔で情報豊富な表現やな。

この種のモデル蒸留をするとき、小さなモデルに出力トークンを一致させようとするんやなくて、それは非常に疎な信号やからや。ずっと密度の高い何かを一致させたいんや。

我々がみんな馴染みのある蒸留、つまり大きなモデルから小さなモデルへの蒸留の中でさえ、「最も簡潔で情報豊富な表現を損失関数として、小さなモデルに入る勾配として使いたい」という全く同じ概念がすでにあるんや。

だから、ここでも同じことがある。「このデータセットを取って、まだトークンのシーケンスやけど、その中のセマンティックな要素という点でより簡潔で情報豊富なトークンのシーケンスに蒸留できるか？」ということや。

オープンルームからの質問。GPUが豊富やない人がデータセットを作ってHugging Faceで公開することで、AGI開発を加速できると思うか？

そうやな、実際それはかなり良い方法やと思う。何かニッチな知識があったら、昆虫の専門家やとしよう。全ての昆虫知識を取って、非常に高レベルな昆虫データセットを作り始めて、既存の昆虫データをフィルタリングすれば、AGIやASIに到達する速度を上げる方法やと思う。

我々はすでにAGIを持っとると言いたい。AGIはChatGPTやったと明確に言っとるけど、専門家が頭の中にある知識全てを、モデルが訓練できるデータセットに入れることで、ASIにより早く到達できるんや。

Cosmopediaと要約の比較

2つのアプローチを考える。Cosmopedia、これは大きなモデルに概念を説明または教えるよう促すもんや。知識をコンパクトで教育的に最適化された出力に再編成する。

Cosmopediaはリフレージングで、要約は、長さを減らしながら重要な情報を保持することを目的としたプロンプトを使って既存のテキストを圧縮するもんや。

ここで比較しとるのは、基本的にこのリフレージングパラダイムの中で、圧縮に向かう傾向のあるリフレージングがあるということや。それがこの要約で、「元のシードデータと同じ知識を持つ新しいトークンシーケンスを小さなモデルに効果的に作らせることができるか？長さは短く」ということや。ブラックボックス圧縮のようなもんやな。

Cosmopediaは必ずしも圧縮しようとしとるんやない。出力を整理して最適化しようとしとるだけや。「このものを少し違った方法でリフレージングしてくれ。でも必ずしも半分に圧縮しようとする必要はない」ということや。

ここで分かることは、シンプルな要約がジェネレーター駆動手法と一致するということや。要約アプローチは、より洗練されて計算集約的なCosmopediaアプローチの性能とほぼ一致する。

ここに実際のプロットがある。平均精度で、高いほど良い。だから、これはこれよりも賢いモデルや。下の「Token seen billion」は、基本的に訓練にどれだけの計算を投入したかや。ここではモデルは短時間だけ前訓練されて、ここではモデルはより長時間前訓練されとる。

RPJ、Red Pajama HQが見える。HQはRed Pajamaの高品質サブセットで、ベースラインとして機能しとる。文字通りベースラインの定義がここにある。ベースラインは、文字通りベースを形成する線から来とるんや。プロットでは、ベースにある線や。良いベースラインになる理由は、底辺の線やからや。語源を愛することができるで。

ここでsummary対cosmopediaを見ると、cosmopediaにわずかな優位性があるけど、ほぼ同じやということは何かを示しとる。単純な要約でさえ、Cosmopediaと同様の相当な改善を達成するということを示しとる。

だから、3Bモデルや、この場合APIモデルを使って要約する、つまりRed Pajamaを通して「恐竜についてのブログ投稿がある。これを恐竜についての段落にしてくれ」と言うことでさえ、比較的鈍いモデルを使ってそれをやって、その出力で訓練すれば、実際に何かを得ることができるんや。

データの壁を突破できるか

RQ2、合成データはデータの壁を突破できるか？2つ目のタイプの実験や。合成データは限られた高品質現実世界データを効果的に補償できるか？合成データを通じて克服できない、モデル性能に根本的な限界が存在するかを探る。

データ分割とコーパス構築戦略の図解。フルデータ、2倍リピート、継続。ここに行こう。異なるデータ拡張戦略との性能比較。濃い青の線がbeyondを表しとる。彼らは常にこれをここに持っとる。Beyond Webは基本的に、彼らが使う異なる合成データ生成技術のミックスやからや。

だから、ほぼ異なるアプローチの組み合わせのようなもんや。この全てのプロットと、ここにはたくさんのプロットがあるけど、常にこのBeyond Webが上にある。Beyond Webは基本的に、彼らがここで言及する全ての異なる合成データ技術の上位集合を表しとる。

基本的に、これらのプロット全ては、全てのアプローチの組み合わせと、狭いバージョンのようなもんや。アブレーション実験のようなもんやと考えることもできる。

シンプルな継続は反復に対して限定的な改善しか提供せず、データの壁を突破できない可能性がある。合成データはよく設計されなければならない。

彼らがここで言っとることは、継続は生成パラダイムの一種で、基本的にランダムなWikipedia記事の前半を取って、そのWikipedia記事を基本的に続けてもらうことや。幻覚の可能性、ベースモデルや継続に使うモデルの知能に限定される、幻覚になりやすくないように潜在的により大きなモデルなので高価、といった問題がある。

その種の継続は、フルデータをかろうじて上回るか、2倍リピートとほぼ同じや。2倍リピートは基本的に少量のデータを取って、そのデータを複数回エポックするだけや。一般的にやっとることやな。

大規模前訓練実行では多くのエポックはやらんと思うけど、機械学習のほとんど、特に他のモダリティでは多くのエポックを見る。だから、2倍リピートは基本的にそのデータを2回通るだけやけど、ここでは本当にそんなに違いがない。

より多くのデータを持つか、前訓練予算が高くなるにつれて、より顕著になり始める。モデルがどんどん多くのデータを見るにつれて、同じデータを繰り返すことは、フルデータほど効果を得られないけど、継続はそれ以上の効果を与えない。これが重要やな。

メッセージが取り消された。どうしたんや、オープンルーム。LLMから記憶を除去して、汎化が損失を下げる唯一の方法になるほど多くのデータを与えるべきやという感覚がある。

そうやな、もうそのパラダイムにいると思うで。それがすでに起こっとることやと思う。今持っとるモデルで何が起こっとるかを見るとき、モデルに入る訓練トークンとモデル容量を見ると、そこには大きな違いがあるんや。

機械学習の魔法は、これらのニューラルネットワークと関連するアーキテクチャが、ほぼ任意の関数を学習できることや。任意の関数を学習できる関数近似器やな。でも、与えとるデータがモデルの容量よりもずっと大きいから、モデルは実際に全てを記憶するんやなくて、何らかの汎化可能な低レベルの知識を学習せざるを得ないんや。

だから、モデルサイズに対してデータセットサイズを絶対的に巨大にすることで、モデルが過適合しないよう強制しとるパラダイムにすでにいるんや。「データセットを絶対的に巨大にしたら、モデルは全てのデータポイントを記憶できなくて、代わりにこの奇妙な小さなAGIカーネルのようなものを作る」というパラダイムにすでにいるんや。

それは何やろう？インターネット全体を、インターネット全体より小さなニューラルネットに圧縮しようとすると、なぜそれがほぼ人間のような儚い性質を持つものになるのか？誰もその質問に答えてない。ちょっと魔法やな。

でも、すでにそれをやっとる。だから、この論文で答えようとしとることは、それを完全に合成データでできるかということや。汎化する能力のあるモデルを作る合成データを設計するとはどういう意味か？かなり奇妙になってくる。

シードデータの品質

合成データはよく設計されなければならない。別の実験がここにある。シードデータの品質はどれくらい重要か？シードデータは、スクレイピングした実際のデータを指していて、その元のシードデータをリフレージングするんや。

まだ根本的な制限があるんや。前に言ったように、データの品質が高くなければならない。データの多様性が高くなければならない。高い多様性をどうやって得るか？既存のインターネットデータセットの多様性を活用できる。

このシードデータを使ったリフレージングパラダイム全体は、基本的に「インターネット全体である前訓練データのランダムなチャンクや文章のランダムなチャンクから始めて、それをリフレージングする。つまり、リフレージングされた合成データセットは、元のインターネットデータセットと同じ分散や多様性を持つ。それはおそらく、集合的人類が今まで作った最高の多様性データや」ということや。

この実験では、異なる品質の組み合わせにわたって比較をしとる。HQは高品質、LQは低品質を指す。明らかに、底にベースラインがある。低品質ウェブプラス高品質ウェブや。上には、全てのアプローチの組み合わせである種のトップラインとして機能するBeyond Webが再びある。

今本当に比較しとるのは、基本的に低品質synthと高品質synthや。これらの2本の線がここにある。これは興味深い。低品質ウェブプラス高品質ウェブは、低品質synthプラス高品質ウェブより大幅に低い。

でも、高品質synthと高品質ウェブは、低品質synthと高品質ウェブとほぼ同じや。これは何を教えてくれるか？これらの結果は、リフレージング用の入力データの品質を向上させると、元の入力データと重複があっても、リフレージングされたデータが改善されることを示しとる。

でも、入力品質の改善は、最高品質の合成データを生成するのに十分やない。基本的に、HQウェブがあっても、低品質な方法対高品質な方法でそれをリフレージングする場合、シードの品質が重要やということや。

多様性のためにシードデータに依存しとるからや。多様性は品質の最も重要な部分の一つや。品質は、実際にそこにゴミがあるかということやけど、真のデータセット分布を均等にサンプリングしとるかという分散や多様性の種類も意味する。

シード用にHQウェブに依存しとるなら、そのHQウェブの品質が重要になる。そのHQウェブの多様性が重要になる。高品質や低品質のsynth リフレージングのどれだけでも、必ずしも大きな影響を与えることはない。高品質なソース材料を使うことが重要や。

みんな調子はどうや？大丈夫か。ある言語から別の言語に翻訳して戻すのも、おそらく素晴らしいやろうな。

それは実際に非常に良いポイントや、オープンルームXYZ。ちょっとサイドクエストに使ってみよか。このサイドクエストに行こう。ここにある論文に行こう。Dupoと呼ばれとる。

Discordで投稿されたんやけど、このチャンネルの名前Hoopoに似とるからや。でも、これは今話しとることと非常に似とるんや。今日のメインコースはこのBeyond Web論文で、合成データのスケーリング、つまり前訓練の改善のためにインターネットからスクレイピングしたデータをリフレージングするアイデアについて話しとった。

これは似たようなアイデアで、10倍複雑に聞こえるけど、効果的には同じアイデアや。テキストデータのデータ拡張のようなもんや。この論文を理解する最良の方法は、例えばこの図やと思う。数学的季節推論でのDupo。

ここでprimal taskと呼んどるけど、primal taskは効果的にシードデータと同じや。数学教科書から来た元のタスクがあって、dual task oneとdual task twoを作る。基本的に、これらはこのprimal taskの2つの異なるリフレージングや。

これは正しい答えを知っとるタスクで、人間が設計したもんや。非常に良い高品質シードデータポイント、またはこのDupo論文の用語では、非常に高品質なprimal taskや。今やりたいことは、これからもっと合成データを作る方法を見つけることや。

この場合、合成データは効果的にdual task oneとdual task twoと呼ばれるリフレージングされたバージョンや。基本的にそれがこの論文や。彼らは数学的フレーミングと用語を使って、非常にハードコアに見せとるけど、実際は比較的シンプルな概念や。

この不必要に複雑な説明を見てみい。「汎化されたdualityを介してアノテーションフリーフィードバックを生成するdual学習ベースの選好最適化フレームワーク。primal taskの入力を既知と未知のコンポーネントに分解し、primal出力と既知情報を使って未知部分を再構築するdual taskを構築する。例：数学解を逆にして隠れた変数を回復し、非反転可能タスクへの適用性を広げる」

非反転可能タスクへの適用性を広げるとはどういう意味か？彼らが話しとるのは、人々がたくさんやってきたことで、これはまさにオープンルームXYZが話しとることや。多言語翻訳で、基本的に「英語のチャンクがあって、中国語のチャンクがある」というデータセットがあったら、基本的にそれを裏返すことができる。「中国語のチャンクがあって、英語のチャンクがある」と言えるんや。

その一つのデータポイントから、今2つのデータポイントができる。猫の写真を180度反転させても、まだ猫の写真や。だから、その猫の写真一枚から、今2枚の猫の写真ができる。基本的にデータセットを2倍にしたんや。

これは数学でも同じことやけど、翻訳でも同じことができる。これは全て、テキストの特定のタイプの情報に何らかの対称性があることを理解することから来る巧妙なデータ拡張技術に帰結する。言語翻訳では、AからBに行けるなら、BからAにも行けるという自然な対称性がある。

このDupo論文は基本的に数学でも同じことで、「数学問題では、未知の部分と既知の部分を理解できて、それを効果的にリフレージングして、元の数学問題と同じくらい正しいことが保証された複数の数学問題を作ることができる」ということや。全部データ拡張技術や。

87gnがチャットに参加。リアルワールドへようこそ。これはマトリックスの引用やろ？彼が最初に入って、宇宙船の中で出てきて、小さなプラグを抜いて、「やばい、ずっとマトリックスの中にいたんや」って言われるところやな。

拡散LLMが良くスケールし続けることを願う。合成データにとって良いオフランプやった。

非常に良いポイントやな、Josh。2週間前の配信で拡散モデルとオートリグレッシブについて配信したとき、その話の大きな部分やった。拡散モデルは基本的にノイズから始めて段落を拡散するから、その中に固有のデータ拡張があるんや。

基本的に各トークンはノイズから来て、ノイズから来る方法はランダムや。だから、拡散言語モデルを使ってこの段落を拡散するとき、時々この単語がこの単語より前に現れたり、ここのこの単語があの単語より前に現れたりする。

基本的に、ノイズから始めるから拡散するたびに、効果的に新しいデータポイントを作っとるんや。だから、拡散モデルは、タスク自体から自然に組み込まれたデータ拡張を持っとる。このデータ拡張のアイデアを認識し始めたら、これらの論文の多くは基本的にそれやということを理解するんや。

この論文はデータ拡張や。この論文もデータ拡張や。データを拡張する巧妙な方法は100万通りある。特定のタイプのデータに対して巧妙なデータ拡張戦略を思いつくことができれば、そこに多くの利益があるんや。

面白いことは、テキストの途中で単語の意味を変えることや。そうやな、それも何かになるかもしれん。調子はどうや、beast by stake？

分布スタイルマッチングの重要性

次の実験に行こう。分布スタイルマッチングは重要か？これは「会話対話はインターネットテキストの2.7%未満を占めるが、現代言語の主要な使用例はチャットベースアプリケーションにある」ということに戻る。

だから、前訓練データを全部会話に変えたらどうやろう？前訓練をより速くやって、前訓練の終わりにより速く到達できるやろうか？

実際、これについて奇妙なことがある。非常に古い本を読んだことがあるなら、特定のタイプの非常に古い本がある。ギリシャの哲学者による本がいくつかあると思うし、最もランダムなものやけど、1800年代に書かれた採掘マニュアルのような本を覚えとる。

その本は基本的に採掘方法を説明しとるんや。穴を掘って、梁を頭上に置く前に5フィート掘るということを確認するような、昔ながらの採掘や。その書かれ方は、父と息子の会話として書かれとるんや。

これは採掘についての本で、読むと父が「5フィートごとに頭上に梁を置くことを確認しろ」と言って、この種のことに遭遇したら、これをしろと言う。そして息子が「これをしたらどうなるんや？」と聞いて、父が「じゃあ、それをしろ」と言うんや。

だから、知識を伝えたり、対話形式で情報を読むことで学習することの歴史的先例がすでにあるんや。これについて間違えたくないのは、人々がこれについて本当にうるさいことを知っとるからやけど、読んだプラトンの特定の本があって、これのような会話があったと思う。

それは実際の会話やなくて偽の会話で、偽の会話として描かれる理由は、知識を求める人と知識を与える人がいるからや。だから、何かがすでにそこにあるんや。人類はすでに、物事を対話に言い換えることが、材料をより効果的な学習材料に変える方法になり得ることを理解しとる。興味深いと思う。

実際にこの実験に入ってみよう。この人たちは実験をやったからな。会話比率を10%、20%、50%と変えてみとる。再びRed Pajamaを使って、200億トークンの訓練予算を維持して、異なる変数を同じに保って、「会話データの比率を増やしたら、最終精度でどれだけの改善を得るか」と言えるようにしとる。

これは見た目ほど印象的やない。明らかに「やばい、50%会話データでずっと高くなる」と思うやろうけど、Y軸を見てみい。43.22対44について話しとる。だから、大きな違いはないようやけど、何かがある。会話スタイルへのスタイルマッチングが実際にそのデータの品質を向上させることができるというアイデアには、真実の核がある。

そうやな、ソクラテスの対話、それやろうな？ギリシャの文章や古い学校の哲学についてはかなり初心者やし、それについて深く知っとる人たちがいることを知っとる。全ての人と全ての本と全ての異なることを知っとるんや。

だから、間違ったことを言って、コメントで間違いを指摘されて完全に殺されたくなかった。ただ、前に見たことがあると言いたかっただけや。

1800年代の採掘マニュアル、父息子を見つけてみよう。絶対に見つけられんやろうけど、書き方がめちゃくちゃ変わった本やった。もう探すのもやめよう。試さんわ。

スケール全体での多様性の重要性

続けよう。スケールでの多様性はどれくらい重要か？合成データ生成における多様性の重要性は？Red Pajamaベースラインに対する性能向上を示すモデルスケール全体での訓練ダイナミクス。

再びベースラインはRed Pajama、Beyond Web、Cosmopedia、Nemo Synthや。ここで1B、3B、8Bを試しとる。ここでは本当に大きな違いはないようやな。傾向はほぼ同じや。

CosmopediaとQA RAP。Cosmopediaは生成パラダイム。QA RAPは質問回答に変える。会話的なもんやな。Nemo Synthはフィルタリングとリフレージング。

だから、フィルターリフレージングはCosmopedia QA RAPよりわずかに良く動作するけど、全部を組み合わせたBeyond Webは、全スケールで全部を上回る。

この実験で示そうとしとることは、これが一つのモデルスケールに特有のもんやないということや。チンチラについて持っとる批判と同様に、これは非常に狭い実験や。「異なるスケールを試しとる」と言っても、1B、3B、8Bを試しただけや。70Bはどうや？600Bはどうや？270Mはどうや？

だから、実験を超えて外挿しすぎることはできへん。注意が必要や。だから、70Bでこれを試したら緑の線が青い線より高くなる可能性もある。実際には分からんのや。

多様性が持続的改善をもたらす。多様な生成戦略は、過剰訓練体制でも拡張訓練を通じて学習利益を提供し続ける。過剰訓練体制は、基本的にデータセットに対してあまりにも多くのエポックを重ねた時や。つまり、モデルの容量、モデル容量が一つの変数で、データセットのサイズがあって、そのデータセットを何回通るかがある。

過剰訓練は、そのデータセットを何度も通りすぎて、基本的にエポックが多すぎることを意味する。モデルがデータポイントを非常に多く見て、そのデータを記憶したり過適合に近づいたりするんや。

でも、多様な生成戦略をやっとる場合、これは基本的に「非常に変化に富んだデータ拡張を持っとる」と言う別の方法やけど、モデルをより多くのエポックで訓練できるんや。

これは画像モデルを訓練した人にとっては非常に明らかに感じる。左右反転だけやっとったら、左右反転と回転とブラーと歪みとアフィン変換をやる場合ほど多くのエポックで訓練できへん。

データ拡張戦略が多様であればあるほど、過適合と過剰訓練に対する感受性が低くなる。これは基本的にその同じ直観やけど、テキストのモダリティでのことや。

調子はどうや？ジュリアンとマックス、Saskia、Hoopoは伝説や。ナードアーミーが見とる中で、かなりのプレッシャーを受けとることは分かっとる。

まあ、受け入れとるだけや。確かにある程度の資格はあるし、印象的なところで働いたこともある。学術的資格もあるけど、超知能やというわけやない。自分よりずっと賢い人がたくさんいる部屋にもたくさんいたことがある。

だから、必ずしも全てを正しく理解するわけやないことは分かっとる。間違ったことを言うことがあることも分かっとる。間違ったことを言った全てのことについてうずくまっとるけど、間違っとることにさえ気づいてない、もっとたくさんのことがあることも分かっとる。

正しいと思っとるけど、実際には間違っとることがあるということやな。それと共に生きていかなあかん。時々馬鹿に見えることがあっても、それで大丈夫やと思わなあかん。それが物事を上達する唯一の方法やからな。

1年前より今の方が知識があるし、1年前は2年前より知識があったと言える。そして改善し続けることができる。自分よりずっと知識のある人もいるやろう。

でも、彼らが上から目線で来とるなら、超高度な数学知識の立場を使って、そんなに数学知識のない人たちに悪口を言うだけなら、とにかく彼らの意見は気にならん。彼らは基本的に嫌な奴やからな。

やばい、Josh Phillipが見つけた。鉱山についての会話。そうやな、ここやで。ただの本か？鉱山についての会話PDF。そうや、これや。見つけてくれてありがとう、Josh。すごいやな。

見てみい。父よ、あなたは鉱山にいたことがありますね、云々。よろしい、父よ。これらのガスの影響を経験したことはありますか？窒息の性質があると言う人もいます。父よ、私はこれらのガスによくやられて、家に運ばれたことがあります。

なぜこんなことをしたんやろう？教科書にしては非常に変わった方法や。数学教科書がこの種の方法で表現されることを想像してみい。でも、これの方が良い方法かもしれん。教育と教育の行方を考えて、チャットボットでの教育というアイデアがすでにある。

確か有名なアルファスクールというのがあると思う。基本的に、ここオースチンで人々が始めとる新しいタイプの学校で、基本的にチャットボットの前に座ることを優先しとる。だから、子供がチャットボットから数学を学んどるんや。

チャットボットから数学を学ぶなら、これに似とるんやない？息子を生徒に置き換えて、父をチャットボットに置き換えるんや。だから、息子が「これをした後何をすべきですか」と言って、チャットボットが「それをした後はこれをすべきです」と言うんや。

だから、この種の教師と生徒の、明示的に会話形式での方が、何かを学習するより良い方法かもしれん。

多面的アプローチの有効性

続けよう。多面的アプローチは訓練を通じて価値のある学習信号を提供し続けるが、単一戦略手法は飽和する。

つまり、一つのデータ拡張戦略だけを使うな、複数使えということや。合成データをリフレージングで生成するなら、異なるタイプのリフレージングを使えということや。

リフレーザーは一般精度で7ポイントの範囲にまたがるが、結果として得られる合成データセットの品質は驚くほど似ていて、ジェネレーター間で1パーセンテージポイント未満しか違わない。

モデルの一般的言語モデリング能力と合成データ品質の間に正の相関がないことは、比較的弱いモデルでも高度に効果的な再配置器になり得ることを強調している。

これが同意できない部分や。彼らは、リフレーザーモデルの知能、つまり元のシードデータが与えられた時に実際の合成データを生成するモデルを変更するかどうかをテストしたかったんや。

5414Bと27Bを比較すると、直感的に5414Bは倍のサイズや。より良くリフレージングできるはずで、したがってそれから生成する合成データはより良いはずや。でも、それは見られんかったんや。

実際にMO27Bがここの精度でより高く、より高品質またはより良い合成データを生成することを意味する。でも、この結果を信用しない理由は、これらは全部同じに見えるからや。

5414BはMO27Bの倍のサイズやということを大きく扱っとるけど、27B、Llama 3.1 8B、Mistral 7B、5414Bは全部同じに見えるんや。

もしこの結果を600BのDeepSeekモデルと1Bや270Mの小さなGemmaモデルで示してたら、それは強力やったやろう。本当に最小のちっちゃいダメなモデルから最大の巨大なモデルまでの全範囲のモデルで行けば、この関係がまだ見られるなら、それはクレイジーやったやろう。

でも、おそらくそうやないと思う。Deep Seek 700Bモデルを入れたら、おそらくここにあるやろう。本当にちっちゃいモデルを入れたら、ここにあるやろう。だから、おそらくモデルが大きいほど、モデルが知的であるほど、テキストデータセットをリフレージングや拡張する能力が高いという効果があると思う。

サイズについても同じことや。リフレーザーのいくつかの異なるサイズを試しとる。Llama 1B、3B、8B。ここに、まさに言っとるタイプのプロットがある。サイズとそれが生成する合成データの品質の間に少しその関係がある。

より大きなジェネレーターは一貫してより良い合成データを生成する。でも、ここで考えとることはこれや。モデルのサイズとそれが生成する合成データの品質の間にある程度の分離があるなら、これはヒルクライムできるということや。

これをヒルクライムできるなら、強化学習を使って、基本的にこのスコアを向上させる反復的な何らかの方法でヒルを登ることができる。それは、リフレージングやASI、または超人的教師において実際にASIであるモデルを作り始めることができるということや。

そして興味深い質問は、強化学習を使って言語モデルが前訓練するための合成データをリフレージングや作成することに超人的や極めて優れたモデルを作ったら、そのタスクと人間を教えるタスクの間に転移があるかということや。

おそらくあると思う。強化学習を使って、前訓練のためによりリフレージングが良いデータを作ることに極めて優れたモデルを作ったら、おそらく数学でも動作するやろう。

その超人的リフレーザー合成データ作成モデルを取って、数学を教えてもらったらどうなるか？それはどのように見えるか？基本的に微積分全体を1ページのテキストに凝縮するとはどういうことか？歴史全体、人間の歴史を1ページのテキストに凝縮するとはどういうことか？

それは可能なんやろうか？分からんけど、可能やと思う。学習に最適になるよう物事を表現する正確な方法を知っとる、これらの超人的な圧縮機要約器教師モデルがある未来に住むのが待ち遠しい。

その他の関連論文

続けよう。似たような合成データテーマの他の論文も見てみよう。

ここにNvidia Nemotron Nano2、ハイブリッドMambaトランスフォーマー推論モデルがある。基本的にこれは、前に見たことのあるハイブリッドアーキテクチャを持つ小さな9Bモデルや。

去年、たくさんのMamba論文を読んだポイントがあった。それが離陸しそうに見えた。そして、Jambaと呼ばれるこの論文を読んで、基本的に純粋なattentionや純粋なmamba、純粋なattentionやなくて、これらのattentionブロックをこれらのmambaブロックと織り交ぜた。

そして、純粋なattentionや純粋なmambaのどちらよりも良い性能を示した。だから、そのアイデアがもっと探求された今、これがmambaが行き着く場所のように思える。

これらのタイプのmambaモデル、純粋なmambaモデルは見ることはないやろう。見るのはこれらの種類のハイブリッドモデルや。それは少なくとも我々にそこでの結論を与えてくれる。

でも、この論文で指摘したかった重要なことは、このNemotron Nano2が高品質でキュレーションされ合成的に生成されたデータの大きなコーパスで前訓練されとることや。

もうこれが起こっとるのが見えるんや。前訓練はもはやインターネット規模のスクレイピングデータセットで起こっとるんやない。今はこれらの前訓練キュレーション合成データセットで起こっとる。

例えば、天文学、生物学、化学、数学、物理学を含むSTEM科目の合成データを生成しとる。質問生成がある。Qwen 330B、Qwen 32 35B、DeepSeekモデルを使って基本的にリフレージングしとる。

「似たような概念を探求するが新鮮な挑戦を提供する新しい質問を作成せよ」と見ることができる。「より論理的ステップを必要とするか、より高度な概念を含む新しい質問を作成せよ」。これらは生成パラダイムの種類や。だから、モデルが生成する質問が有効であることを期待しとる。だから、リフレージング的やなくて、もっと純粋に生成的や。

「元の質問とは異なるタイプの新しい質問を作成せよ」。我々はNemotron mindデータセット、数学情報に基づく合成前訓練コーパスも再生成した。7つのプロンプトテンプレートを適用した。

だから再び、これからのベストプラクティスも使っとる。「使えるリフレージングや合成データ拡張の種類がテキストモダリティでより変化に富み、より異なるタイプであればあるほど、良い」と言っとる。

それは何を意味するか？おそらく異なるプロンプトテンプレートを使うことを意味する。この質問を教師生徒で言い換えろ、この質問をインタビューとして言い換えろ、この質問を討論として言い換えろ。それぞれが少し異なるリフレージングを生成する。つまり、異なるタイプのデータ拡張のようなもんや。

数学推論と一般知識全体で一貫した改善。だから再び、前の論文で見つけた傾向と一致しとる。キュレーションされたソースコードからの短いスニペットに基づいて質問を生成するようLLMにプロンプトする。だから再び、同じアイデアや。シードデータまたは彼らがここで呼ぶprimal taskから始めて、既存の多様性に依存してシードやprimal データセット内で高多様性合成データセットを生成するんや。

この場合、キュレーションされたソースコードがあって、そこからもっとコーディングデータを基本的に生成する。

これはもう少し複雑やったけど、ここで強調するのが興味深いと思った。学部レベルと大学院レベルの数学、化学、生物学、物理学、医学の全文書を集める。

そして各文書をスニペットにチャンクして、large E5 largeモデルで埋め込む。だから基本的にここでRAGをやっとるんや。「全ての情報を取って、512トークンチャンクごとに小さな埋め込みベクトルを作る」と言っとる。

そして、これらの埋め込みベクトルでインデックス化された巨大なデータベースをクエリして、各クエリ文書に最も近い隣接テキストスニペットを見つける。

そして、これらのスニペットが我々のシードコンテキストとして機能して、それをQwen 2.5 72b instructモデルに渡して、スニペットに含まれる情報に基づいて多肢選択と自由回答スタイルのQAペアを生成する。

これはほぼ合成データ生成のためのRAGのようなもんや。だから再び、ここでもう一つの巧妙な小さなトリックで、合成データを生成するわずかに巧妙な方法を思いつくことに多くのアルファがあるように思える。しばしば、異なるモデルを含む比較的複雑なパイプラインを使ってな。

これは再び、これらの配信全てで繰り返されるテーマや。毎週読む論文にこのタイプのパターンがあるように思える。複数の異なるモデルを使ってデータセットをキュレーションし、フィルタリングし、生成し、タグ付けし、ラベル付けし、キャプションを増やし、基本的にデータセットを取って拡張するという種類のフレームワークや。

バイアスの懸念

Saskiaによる質問。バイアスはどうか？これには導入されるバイアスがある。だから、Qwen 2.5 72b instructのような一つの特定のモデルを使って全てのこのタイプのリフレージングをやったら、そこに存在するバイアスが永続化される。

その答えは、ここで見たように、合成データ生成アプローチの多様性が、特定のアプローチより良く機能することを示すチャート全てで示し続けとることや。だから、リフレージングモデルについても同じことを適用できると思う。

異なるモデルの組み合わせが個別のモデルより良いと賭けるで。リフレーザーのアンサンブルは単一のリフレーザーより良い。それが良い理由は、個々のリフレーザーがわずかに異なるバイアスを持つからや。だから、全部をアンサンブルして全部使うことで、バイアスはキャンセルされるとは言わんけど、それほど顕著やなくなる。多様化が鍵や。

データミックスの分析

このチャートが興味深いと思った。これも再びNvidia Nemotron Nano2論文からやけど、具体的にはここや。これがデータミックスや。3段階の訓練がある。前訓練、今人々がmid trainingと呼んどるもの、最後にファインチューニングが見える。

でも、このsin crawl high対crawl highを見てみい。これは高品質にフィルタリングされたwebクロールデータで、これは高品質にフィルタリングされてから合成的にリフレージングされたwebクロールデータやと思う。

実際に、これの方がこれより多いのが分かる。だから、Nemotron前訓練コーパスには元のクロールデータより合成クロールデータが多いことが興味深いと思った。

このミックスは逆やと思ったやろう。おそらく20%のcrawl high、10%の合成crawl highくらいやと思ったけど、実際は逆や。だから、もう通常データより合成データで多く訓練しとる。「ちょっとの合成データがある」やなくて、「いや、この大部分がすでに合成データや」ということや。

視覚推論への応用

別の論文がここにある。画像を超えた時間思考、多様な画像操作を実行し、同時にコードを通じて論理推論能力を向上させる。

これは、GPT-40かO3やったと思うけど、GPTリリースの一つでのデモを覚えとるなら、基本的に写真があって、写真にズームインするようなもんやった。

この写真は典型的なアメリカの田舎風住宅を示す。写真の右側にスツールがある。スツールは何色か？視覚言語モデルにこれを一般的に聞いたら、この画像全体を取って、パッチに変えて、そのパッチを埋め込んで、実際の言語モデルにフィードして、言語モデルが多くの無関連な情報に基づいて質問に答えなければならない。

スツールは何色かという質問に答えなければならんけど、コンテキストの全トークンについて考えてみい。全てのトークンは緑の草、緑の草、緑の草、青い空、青い空、青い空、家、家みたいなもんや。だから、これらの視覚トークンのほとんどは、欲しい情報を実際に与えてくれてない。

だから、OpenAIの誰かがこの巧妙なアイデアを思いついた。「モデルにツールを与えよう。そのツールは画像の特定の部分を切り抜く能力や」ということや。質問に答えるために画像の特定の部分を反復的に切り抜き、回転し、ズームインできる。そして、これを視覚推論と呼ぶ。

この種の視覚推論をするために、本当にそのためのデータセットはない。だから、どうやってやるんか？効果的にそのデータを合成的に作る。この時間データを手動で構築する。

基本的にこの切り抜きをする構築されたデータセットを意図的に作る。どこにそのものがあるかを知っとるから、直接それに切り抜くことができて、それを、特定のツールスイートをどう使うかをモデルに教えるためのデータポイントとして使う。

すぐに鼻をかもう。ここに、この種の視覚推論と特定のツールスイートを使う方法をモデルに教えるために使われる合成データ生成がある。実際にそれほど多くもない。

複数ツールの量を見ると、回転切り抜き低コントラスト強化があるけど、14kサンプル、28kサンプル、10kサンプル、15kサンプルが見える。だから、本当に巨大なデータセットやない。

比較的小さな合成データセットを生成して、特定のツールスイートをどう使うかをモデルに教えることができるんや。今、これらは手動で作られとる。だから、この合成データを作る特定のコードを思いついとる人間がいる。でも、それをやるモデルからそれほど遠くないと思う。

特定のツールスイートをどう使うかをモデルに教えるのに最適な合成データセットを作るよう強化学習を通じて訓練された言語モデルの種類や。モデルにものを教える方法をモデルに教えるんや。

これはロボティクスを含む多くの異なることに多くの意味を持つ。基本的にロボットシミュレーションとロボット合成データセットを設計して、ロボティクス基盤モデルをより効率的に教えるモデルを想像してみい。

エラー修正データセット

ここに会話データセットがある。モデルに歴史的コード実行結果を活用してより深い分析とエラー修正を行うよう教えることを目指した、手動で構築された複数ラウンド会話データセット。

ここに興味深いのがある。エラー修正。だから、モデルに合成的に間違わせて、自分の間違いを修正させる合成データセットや。

DeepSeek R1で、強化学習を通じてモデルが偶然、前のことを修正する能力を発見するユーリカの瞬間のようなものがあると思う。だから、推論チェーンの途中で「ちょっと待って、これをやったらどうか？」となって、少し違う道に進む。

それはモデルに明示的に教えられたものやない。前訓練分布の一部やなかった。強化学習を通じてモデルが発見したもんや。これが、モデルに自分を修正することを学習させる一つの方法やけど、強化学習の探索のランダム性が最終的にこれらのエラー修正の瞬間につながることを基本的に期待しなければならんから、非常にサンプル非効率的な方法や。

モデルにこのエラー修正行動を組み込む、ずっと良い方法は、エラー修正の瞬間の合成データセットを作って、それでモデルを訓練することや。実際、それをやったら、RLをやるときにエラー修正推論トレースに遭遇する可能性が高くなる。

この方法で、モデルにこの能力をブートストラップしとるんや。これはツール使用にも当てはまる。モデルが前にそれらのツールをやったことがないときに、純粋に強化学習を使って特定のツールスイートで本当に優れたものにすることは、最初にそれらのツールの使い方をモデルに教える小さな合成データセットを作って、その上で強化学習をやることほどサンプル効率的やない。

だから、この種のRLは、ゼロから学習するRLよりも、本当に最後の最終ステップであるべきや。これは論争の的になる話題やと知っとる。ゼロからのRLが唯一の方法やと思う人もいて、bitter lesson pilledと呼ばれとる。

一方で、RLは最後だけで、本当に99%のところまで導く合成データセットのカリキュラムがあって、RLがその最後の少しを修正するだけやと思う人もいる。でも、その2つのうちどれが機能するかはまだ分からん。

VLMの現状について

X軸とY軸でキャリブレーションされた画像解釈でのVLMの現在の進歩はどうか？

何を意味しとるかは正確には分からん。VLMについて必ずしも超新しいことが起こっとるとは言えんやろう。何かというと、マルチモーダルが非常にホットで、人々が「これは」と言っていた瞬間があったと思う。

全ての異なる会社がAI製品にVLM機能を導入することを競争しとった時やけど、今はみんながこの強化学習とコード実行に移っとるように思える。だから、コーディングエージェントに移っとるのに対して、VLMは少し無視されとるような感じがする。

でも、まだ着実な改善はある。今のVLM関連は全て長いコンテキスト動画通訳についてやな。

だから、VLM関連は画像よりも動画についてで、みんな画像関連は解決されたと仮定しとる。コンピューター使用のためのRLについての新しい論文は？

頭にはないけど、コンピューター使用のためのRLに取り組んどる異なる人たちは確実にたくさんいる。少なくとも全てのフロンティアラボで、コンピューター使用エージェントのための強化学習に取り組んどる人がいることはほぼ保証できる。

ロボティクス論文

これについてはもう話したと思う。もうこの時点で非常に多くのロボティクス論文を話したから、ロボティクス論文ストリーマーになっとるような感じがしてな。だから、ロボティクスやないことをやりたくて、今週はロボティクスやないものを少し離れたかった。

でも、この論文が出て、合成データを使ったから、言及する価値があると思った。relationaware placement regions 33kサンプルを作成するための自動データ生成パイプラインがある。

最初にオブジェクトの最終位置を抽出して、オブジェクトの正確な配置を計算して、Isaac Gymを使って空間配置を初期画像にレンダリングバックするプロセスがある。ところで、彼らはちょうど大きなものをリリースした。

Isaac LabとGymを見た。最近、ここでたくさんのものをプッシュした。バージョン5.0が見えて、Isaac Simもバージョン5.0や。統合しとるように思える。

でも、これがどこに向かうのか分からん。Genie 3を見たとき、Simスタック全体が駄目になるかもしれんと思うからや。メッシュとUnityとUnrealとエンティティコンポーネントシステムと、何十年も構築してきたシミュレーションを作る非常に複雑な方法である、レガシーシミュレーションスタックと呼んどる全体がある。

複雑で、制限がある。ソフトボディは解決したけど、そこにあるものの多くは理想的やない。非常に重いという感じや。Genie 3を見たとたんに「これは基本的にシミュレーションスタック全体を書き換えることになる」と思った。

だから、Isaac SimとUnityとUnrealのようなものは、到着時に死んでしまうんやろうか？2年後には、Genie 3のような純粋な生成に基づく同等のものを持つことになるから。

世界モデルは、従来のシミュレーションスタックよりもずっと多様で堅牢な合成データ生成方法になるやろう。そう思う。この論文のいくつかの学習を取ることができる。多様性が超重要やと話しとる。合成データはよく設計されなければならない。シードデータをより有益に使う。

Simのシードデータの概念はどのように見えるか？それを行うのは実際非常に複雑や。実際のロボットを持っていて、それをシミュレーション用のシードデータとして使うためには、基本的に全てのオブジェクトがどこにあるかを理解して、これらのものをシーンに配置して、同じ場所に大体あるようにしなければならない。

でも、世界モデルを使ってシードから合成動画データを作るのがどれだけ簡単かを想像してみい。ロボットが見とるものの動画記録があるだけで、それをGenie 3に食わせることができる。

今、自分で構築するのではなく、ロボットがやっとったことの多くの可能な合成データを生成するずっと簡単な方法を効果的に持っとる。だから、分からん。ここで多くの意味をなしとるかは分からんけど、UnityとUnrealとIsaac Simの世界に来る津波のようなものがあると感じる。それは基本的にこれらの生成的世界モデルや。

実際のロボットデータのシードデータを持つ生成的世界モデルは、実際にこのシミュレーションスタック全体を実質的に時代遅れにするかもしれん。

計算効率について

G3がクラシックシミュレーションほど計算効率が良くなることはないと思う。それは良いポイントや、Jun。Judianが言っとることは、これらのタイプのシミュレーション、これらも今基本的に全てGPU並列化されとる点にあるということや。

これらのほぼ全てが、GPU上で並列に複数の異なるバリアントを同時にレンダリングできるようになった。シミュレーションは非常にシングルスレッドのようなもので、基本的に一つのシミュレーターがあって、一つのエピソードを生成するという状態やった。

でも、今これらのシミュレーションフレームワーク全てが、100個を同時に生成できるようになって、100倍多くのデータを生成できることを意味する。だから、今これらのシミュレーターは、ロボティクス用の絶対的に巨大な合成データセットを生成できるから人気や。

でも、そうや、それはGenie 3のようなものよりも効率的や。でも、Genie 3もそこに到達すると思う。最終的にGenie 3も並列でできるようになるし、モデルをどんどん蒸留して、どんどん良くしとる。

だから、いつかちっちゃいGenie、またはGenie 6のようなものがあるやろう。Genie 6モデルは、このちっちゃいモデルになる。並列で実行できて、元のロボットデータのシードを一つ与えるだけで、そのロボットが少し異なる環境や、ここから始めて少し異なる方向に行ったらどうなったかの巨大なデータセットを生成するんや。

VLMとMixture of Expertsについて

VLMにMixture of Expertsがないのはなぜか？切り抜き用に一つ、ズーム用に一つ。VLMにはおそらくあると思う。人々はこれについていつも混乱するけど、Mixture of Expertsは、モデルアーキテクチャと同じものやない。基本的に複数のFFNを持つことや。

複数のFFNを持って、どのFFNに行くかを選ぶ小さなルーターがあって、それらのFFNの一部はGPU上にない。一部は基本的に使われない。それがアクティブパラメータ対トータルパラメータの全体や。

実際に使っとるパラメータ数対、これらのFFNの数で、基本的に異なるGPU上にあるか、この特定の推論に使われないか。これは、ここでの切り抜きとズームとは全く違うことや。

だから、切り抜きとズームは異なるツールや。だから、Max、君が言っとることは、おそらくこれらの異なるツールを使うよう教えられたMixture of Expertsビジョン言語モデルがあったら、専門家が異なるツールに特化するかもしれんということやろう。

だから、回転ツールを使うときは、特定のFFNを使う傾向があって、切り抜きツールを使うときは、少し異なるFFNを使う。でも、モデルがそのように動作するとは全く思わん。

Mixtral、この論文にいつも戻る。これを示す非常に良い図があるからや。Mixture of Expertsがここにあるか？チェックしてみよう。この論文のこの図や。この図がそれを教えてくれる。

人々が思っとることは、Mixture of Expertsをやるときに、数学質問があったら数学専門家のようなものがあって、その数学専門家だけを使い続けて、歴史専門家があるということや。でも、専門家はそのようなセマンティック概念で分離されてない。

この図がそれを示しとる。これらは異なる専門家で、Mixture of Expertsはこれらの全てのFFN層にあるからや。全ての層に専門家がある。だから、層0、層15、層31で示しとる。

このトランスフォーマーを上下に行くとき、専門家の選択は実際にずっと変化に富んどることが分かる。これらのスペース、ここのタブについてのある専門家が明らかにあるけど、ここのこのトーチを見ると赤やけど、これは緑でこれは青や。

だから、全シーケンスに使われる一つの専門家やなくて、まだ専門家の巨大な多様性がある。うまくいけば、混乱のいくつかをクリアしてくれる。

ロボットを続けてくれ。まあ、そこにはある程度の利己心があるんや。ロボティクスプロジェクトをやっとるからな。Tapbotで作業しとる。だから、ロボティクス論文を読むのは、もう少し関連性があると感じるんや。

でも、YouTubeクリエーターの立場からは、たくさんのロボティクス論文をやることは、一般的なオーディエンスにとってはおそらくこの論文のようなもっと一般的な機械学習論文をやることよりも魅力的やない。

Genie 3の計算効率について

G3について本当に混乱する。従来のビデオモデルと比較して、なぜそんなに計算効率が良いように見えるのか？

Genie 3がおそらく動画生成モデルより小さい理由の一部は、これらの動画生成モデルがより困難なタスクを持っとるからや。動画生成モデルは動画全体を生成しなければならない。

8秒の動画を考えてみい。30fpsでやっとるなら、基本的に8秒×30フレーム/秒を一度に作ることや。だから、基本的にその動画全体を生成しなければならない。

この時間領域での注意マップを考えてみい。各個別動画フレーム内の空間的なものだけやなくて、時間次元もある。たくさんの異なるバリアントがあるけど、通常ある程度のコミュニケーション、おそらくこの時間領域内で起こっているクロスアテンションがある。

その8秒全体で一貫した8秒動画を一つの大きなチャンクで生成するには、このGenie 3モデルのように一度に一フレームずつ生成するものより、より多くのモデルパラメータを持つより大きなモデルが必要やろう。

一度に一フレームを生成し、高フレームレートで生成する必要があるから、モデル自体はちょっと小さくなる必要がある。これらのロボティクスモデルと同様に、それらが大きくない理由の一部は、ちょっと速くなる必要があるからや。

一つの推論に永遠にかかる巨大な600Bモデルを持つことはできない。特に小さなエッジデバイスで実行する必要があるなら。

だから、G3では、V3モデルがチャンク動画全体を生成するのに対して、G3は一度に一フレームずつやっとるだけだから、実際にV3モデルより小さいと賭けるで。

Gen3がこのようなハイブリッドアーキテクチャを持っても驚かんやろう。これはすでにロボティクスOP3、OP3ロボットサッカー論文の場合やからな。

PDFや。このロボットサッカー論文やけど、一番下まで行くと、モデルアーキテクチャを教えてくれる。どこにある？どこや？どこや？教えて。どこかにあったはずや。これか？とにかく、見つけられん。

でも、これは同様のタスクや。基本的に観察入力が与えられたアクションを高フレームレートで毎フレーム生成しなければならない。軌道の全シーケンスを生成する必要がない。基本的に次の軌道を生成するだけや。

これで起こることと似とる。全体の前面シーケンスを生成するんやなくて、すぐ次のことを生成するようなもんや。それをやるとき、隠れ状態を持つことが本当に良い。これらのmambaと再帰アーキテクチャの利点は、固定サイズの隠れ状態を持っとることや。

メモリのようなもので、無限に実行できる。このGenieモデルを実行できる。トランスフォーマーと注意ベースやったら、ある時点でシーケンス長がめちゃくちゃ大きくなって、古いものを切り捨てなければならん。古いものを取り除くだけや。

これらの再帰的なmambaに対して、実際に古いものを取り除く必要がない。いつもその小さな隠れ状態があって、ただ上書きしとるだけや。最終的に古いものは新しいものに上書きされるけど、その隠れ状態は古い情報をそこに保持する能力がずっと高い。

最終的に彼らがこのGenie 3ペイント持続性をやるとき。これや。これが見た最も狂ったGenie 3の一つやった。動画に行ってみよう。これや。

ペインティングしとるな。これはGenie 3や。ここに来る。ペインティングしとる。確かや。まず、そのペイントの仕方が極めて印象的や。でも最も印象的な部分はこれや。

見て。目を逸らす。今、この画像の中には、ここにあるペイントの情報を保持するものは何もない。だから、そのペイントの知識は、今おそらくGenie 3アーキテクチャの何らかの部分の隠れ状態の中にある。圧縮された潜在空間の中に全てある。

消えた。複数秒間消えとる。複数秒間見てない。そして振り返ると、そこにある。

これはクレイジーや。つまり、Genie 3モデルは世界に加えた変化を記憶しとることを意味する。おそらく何らかのmambaのような隠れ状態内に世界のモデルを持っとる。

だから、自分の足を見て、目を逸らして足をまた見ると、足が変化する。

ring attentionを思い出させる。Ring attentionは別のトリックのようなもんやな。基本的にトランスフォーマーを使っとるなら、具体的にはトランスフォーマーの注意やなくて、サイズがどんどん増加し続けることになる。

だから、情報を実際の明示的な冷たいものに保存して、それを引き込むRAGのようなことをするか、注意を増やす方法がある。でも、最終的に、タスクが長いほど、これらのmambaと再帰アーキテクチャの利益が大きくなる。

ロボティクスのように、ロボットが何時間も何時間も何時間も動き続けとるものでは、隠れサイズがいつも同じだから、この無限スケーリングを持つことは非常に良いアーキテクチャや。そのタスクに非常に良いバイアスや。

Genie 3も同じ方法や。世界を一度に一フレーム生成するが、そこにあったもののメモリを持っとるという、無限に生成するタスクのようなもんや。これらはそのために非常に良いアーキテクチャやと思う。

パノラマビューをマスクしとるのか、メモリなのか？それは別の理論や。見た別の理論は、何らかのGaussian splatがあるということや。

実際に私の最新tapbotに行ってみよう。これは私の最新tapbotや。これらのsplatを使って3D空間に情報を明示的に保存する方法がここで見える。

だから、ここでGenie 3モデルがこの3D splatを継続的に更新するモデルの組み合わせのようなもんかもしれんと言う人もいる。だから、このペイントは何らかのmambaの隠れ状態に保存されるんやなくて、Gaussian splatに明示的に保存される。

だから、目を逸らしても、まだそこにある。Gaussian splatのような何らかの物理的空間表現に物理的にまだそこにある。そして、この明示的メモリに基づいてフレームをレンダリングし、特定の部分を基本的に上書きしたり収集したりする方法を持つモデルがある。

でも、それについては分からん。それはただ本当に複雑に思える。私の推測では、おそらくmambaか何かやと思う。でも、確実には分からん。実際に秘密のインサイダー情報を持ってないから、推測できるんや。

一貫性は数分後に薄れると思う。Machine Learning Street Talkで1時間のディープダイブをやったと思う。

それは良いデータポイントやな。だから、もしこれがトランスフォーマーで注意のようなもので、基本的にシーケンスとして歴史を食わせとったら、ある時点でこのペイントが時間的に十分遠くなって、基本的にクリップされる。

だから、そのペイントの知識がもはやシーケンス内にない不連続な点があって、突然それが消える。ビデオゲームのようなもので、メモリに保存されとるオブジェクトがあって、異なる部屋に行って戻ってくると、despawnイベントをトリガーして、そのオブジェクトがもはやメモリ内になくて、戻ってきたときにオブジェクトがただ消えとることがある。

でも、Joshが言っとることは、ペイントが消えるんやなくて、薄れるということや。悪くなる。それが教えてくれることは、それが暗黙的に保存されとるということや。

そのペイントの知識が何らかの圧縮表現や暗黙的な方法で保存されとるなら、突然消えるんやなくて、時間と共により劣化するんや。

だから、別の部屋に行って戻ってきたら、これについて忘れたかもしれんけど、まだ2つの大きな塊があることは知っとって、10分後に戻ってきたら、圧縮されたからか、ただ1つの塊になっとる。

これらのmambaモデルの動作方法や。この隠れ状態に情報を詰め込んどって、その隠れ状態は限られたサイズで、上書きしとることを意味する。だから、ある時点で情報が拡散のように劣化し始める。

サノスの指パッチンで人々が霧に消えるように。隠れ状態内でも同じことが起こっとる。任意に「もはやコンテキスト内にないから消えた」と決めるんやなくて、ゆっくりと物事を忘れるようなもんや。

モデルの想像力と世界モデル

生成世界シミュレーションモデルは、シミュレーションではなく想像力のようなもんや。

良いポイントや。でも、シミュレーションと想像力って何や？それらは同じもんやない？シミュレーションは世界モデルを使った想像力や。

全ての人間は頭の中に世界モデルを持っとる。想像しとるとき、頭の中の世界モデルを使っとるだけや。頭の中の世界モデルは本当にすごい。

明晰夢について考えるとき、明晰夢を試したことがあるなら。その世界モデルは極めて良い。明晰夢をしとった一度のことを覚えとる。本当に永遠にかかったんや。その前に数ヶ月間、夢日記とハンドチェックとか、明晰夢をするための異なるトリックをやった。

ついに明晰夢を得た。明晰夢からすぐに抜け出ることなく、なんとか管理した。そして「よし、この明晰夢をテストしてみよう」と思った。

基本的に瞬時にこの巨大なピラミッドを生成して、その上に立った。そして瞬時にこの巨大な崖を生成して、好きなところにテレポートして、欲しいものを生成できた。かなりクレイジーやったな。それは全て、基本的に頭の中の世界モデルやから。

想像に使っとる頭の中の世界モデルは信じられないほど強力や。それが基本的にGenie 3やと思う。それの一種や。

制御とアクション

制御はモデルにどう接続されとる？具体的に動画からドアを開けるアクション。明示的な条件付けはなかった。

アクションスペースは創発的や。Genieのアクションスペースは基本的に潜在アクションスペースの一種や。読んだ論文があるけど、どれかは忘れた。でも、明示的やない。だから、ドアを開けるような変わったことができる。

それは実際に手を動かしてドアを掴むようなやり方ではしとらん。その粒度ではやってない。基本的に、何かの前に立つと、それで何をするかを知っとるような、曖昧な潜在アクションスペースのようなもんで、その物で自然にやることをやっとるだけや。

でも、「ここに来て特定のドアハンドルに触れとる」という明示的な概念はない。Isaac Simのようなものを使ってドアを開けるとき、それは文字通り指とドアハンドルを表すシリンダーの間の接触力を見て、それらの力を全て一緒に計算して、ドアをヒンジさせる特定の力を得る。

それは全て明示的にやられとるけど、Genie 3でドアを開けるとき、それはただ計算の魔法的な塊が、君に良く見えるものを作っとるだけや。

配信のまとめ

スタミナが切れてきたと思う。これで大体全部やと思う。もし他に質問があれば、なければ、ちょっと簡単にまとめをして、おそらく終わりにする。

今日の配信は「合成データのスケーリング」と呼ばれた。主にこの論文に焦点を当てた。配信のメインディッシュや。「Beyond Web: 兆スケール前訓練のための合成データスケーリングからの教訓」と呼ばれる。

この論文では、非常に良い、よく設計された論文で、基本的にテキストモダリティ内で異なるタイプの合成的に生成されたデータを使ってやった一連の実験を通り抜ける。

これらの実験は、合成データセットを作成するときに何が重要で何が重要やないかについて、君に絵を描く、君のために絵を描く。

これから私にとっての大きな学習は、データを言い換えて、テキスト空間でデータ拡張と呼ぶものを拡張することに多くの利益があるということや。

これをやる多くの異なるタイプの方法があるけど、言い換え、要約、形式変換、コンテンツ再構築のようなものがある。それを説明する100万の異なる方法がある。

でも、基本的に通常は、シードデータと呼んでいるテキストのチャンク、基本的に元の人間生成データを取って、それを一束の異なる合成的に生成されたバージョンのシードとして使うんや。

通常は、それを変更するために何らかのヒューリスティック、つまり何らかのハードコードされた人間アルゴリズムを使うことができる。これは基本的にこの論文Dupoが、一つの数学問題を二つの数学問題に変える奇妙な数学的方法のようなもんやった。だから、データ拡張やけど、この奇妙な数学的方法でや。

でも、より広い種類のデータに対してずっとスケーラブルで適用可能やと思う別の方法は、モデルを使ってリフレージングするこのアイデアや。異なるサイズのモデルを試して、実際にモデルがより賢いほど、既存のデータセットをリフレージングや拡張することがより良いことを見た。

より速く前訓練したり、前訓練して、幅広いベンチマークでより良い性能を発揮するモデルに到達する方法でな。

だから、合成データ生成は、モデルの知能とモデルサイズでスケールする能力や。私にとって、それは壁がないということを意味する。壁はあるけど、データの壁やない。

進歩を阻止し、進歩を遅らせとる多くの壁があるけど、データはそれらの壁の一つやない。我々はインターネットデータを使い果たしたから、データの壁に当たっとると思う人もいる。だから、もうインターネットデータがないからな。それは事実やない。

この論文と他に示した論文は、基本的に合成的にデータセットを生成できることをかなり明確にしとる。壁がないという意味やない。壁はただ計算やからや。GPUとエネルギーや。

基本的に100万のGPUを持っとったら、無限のデータを生成できる。200万のGPUを持っとったら、2倍の無限のデータを生成できる。だから、もはやインターネットデータの量に制限されてない。基本的に合成データを生成するために使えるGPUの数に制限されとる。

だから、まだ壁はあるけど、壁は実際のインターネットデータやなくて、基本的にGPUと電力や。

この論文が私に問いかけとる超興味深い質問の一つは、これをどこまでヒルクライムできるかということや。この種の言い換えとテキストデータ拡張をどんどん良くなる非常に小さなモデルや大きなモデルさえ作成する強化学習環境とシステムとループを訓練して作成したら。

その天井はどこか？例えば、ここで彼らの8Bモデルでも、基本的にRed Pajamaより7倍小さいけど、Red Pajamaと同じ点に到達するデータセットを生成した。

それをどこまで取れるか？標準的な前訓練データセットより100倍小さいデータセットを得て、まだ同じ点に到達できるか？それをどこまで取れるか？

そして、非常に良いリフレージングと要約と、だらしない前訓練データをこの非常に良いキュレーション合成データに圧縮することに極めて優れたモデルを取って、それを人間を教えることに適用したらどうなるか？

超人的教師を見ることになるんやろうか？それはどのように見えるか？

最後の質問への回答

最後にいくつかの質問がある。データの品質が量より重要やということに数年前に気づいてなかったか？

人々はこれを永遠に知っとったで。数百年前に人々はこれに気づいとったと言えるやろう。数百年前、人々は「この本はこの本より小さいけど、微積分を学びたいなら、この本の方が小さいけど良い」と言えた。

だから、人々は高品質データと低品質データのアイデアを既に直感的に理解しとったけど、これはもっと実証的な、「これが真実やということを示すデータがここにある」というもんや。

オープンルームXYZ、アクションスペースは創発的や。Genieについて話しとるな。創発は少し強すぎる言葉やと思うで。なぜなら、データを通してアクションを決定しとるようなもんやから。

なぜ全てのGenie 3モデルが前に進むという概念を持っとるんか？常にこの前に進む動作がある。それは非常に明白な結論やからや。だから、アクションスペースは、データセット内に自然なアクションがあって、それがアクションになることが非常に理にかなっとるという意味で創発的やけど、何もないところから出てくるという意味での創発やない。データセットから来とるんや。

Ronaによる質問。G3の密接なユーザーフィードバックループを活用して一貫性を改善する方法はあるか？

密接なユーザーフィードバックループは実際にはないと思う。いつかは頭にニューラルリンクを持って、頭のニューラルリンクが視野を見て理解して、「実際に人間はここのこの角に気づいて、この角が本物に見えないから現実から引き離されとる。だから、この角を改善すべきや」と言えるようになる。

でも、そのタイプの密なフィードバックは持ってない。Genie 3のようなものから得られる最高のフィードバックは、もっとバイナリなもんやと思う。「そのシミュレーションを気に入ったか？はい。そのシミュレーションを気に入らんかったか？いいえ」のような。

それが今これらのシミュレーターから得られるフィードバックのタイプやと思う。でも、将来は確実にこれらの世界モデルを使う人々から、アイトラッキングや何らかのニューラルリンクインターフェースを通じて、より密なシグナルを得られるようになる。

この最終データセットはただのロジックになるんやろうか？これはIcky phoenixや。分からん。それは非常に興味深い質問やからポーズしたんや。ASIモデルASIとリフレージングを訓練して、「微積分を1ページに凝縮しろ」と言ったら、そのページはどのように見えるか？

歴史、人間の歴史を1ページにするとは何やろう？見てみたい。

100データポイントで望む行動を完璧に訓練するために、500mの事前訓練された上に0.5億モデルを訓練した。100データポイントは少し過適合に聞こえるけど、フレームごとに制御入力移動前進を意味した。

そのページはただ猫の写真や。これは猫標準モデルや。物理学の標準モデル？それを言っとるんか？分からん。

もし超クレイジーになりたいなら、もうシミュレーション内にいると思う。これが現実やと思う。シミュレーション内にいる。基本的にこれの超高度バージョンにいるんや。

全てを圧縮すると、物理学の標準モデルのようなものを得る。圧縮するとき、失うということが重要や。だから、圧縮はほぼ常に劣化をもたらす。解像度を失い続けるのと同じや。

それは世界モデルにも当てはまる。物理学の知識をただの方程式のセットに圧縮し続けると、その方程式のセットはもはや世界の全ての部分を完全に予測しなくなる。その非常に小さな方程式のセットに圧縮されなければならなかったから、ニュアンスの一部を失ったからや。

それは、全てを小さな方程式に基本的に還元できて、その方程式が宇宙の全ての点で全てに適用されるという物理学の現在モデルの間違った直感の一部かもしれん。

でも、それは必ずしも正しいとは思われん。何かを小さな方程式に圧縮するほど、その方程式の関連性が低くなる可能性がある。完全に全てを表現することは決してない。この小さなものに圧縮することを強制されとるからや。

標準モデルは宇宙を予測するが、実行するのは非常に困難で、多くのGPUが必要や。

今、計算不可約性の概念に入り始めとる。非常に素晴らしい概念やと思う。ある時点で何かをやったり計算したりしたいなら、そこに到達する圧縮された方法やショートカットのようなものがない。

それが、ASIとリフレージングの超人的教師でこのタイプの壁に当たり始めるところかもしれん。微積分教科書全体を1ページのテキストに要約して同じ場所に到達する方法がないところや。おそらくそこで限界に達し始めるけど、分からん。試さなあかん。

マンデルブロ集合は完全に決定論的やけど、フラクタルが答えや。それを言っとるんか？分からん。あまりにも形而上学的になりすぎとる。

Gondorの角笛に戻ろう。オープンルーム XYZ、Josh Phillips、Prush、Eurona、Julier、Googleアカウント、87gn、Ed、Max、Saskia、ここで君の名前を見逃したらごめん。ここをスクロールしとるだけや。Stake、Mark、Bitique。

みんな、一緒にいてくれてありがとう。楽しい時間を過ごしてくれて、素晴らしい週末を過ごしてくれることを願っとる。また後で会おう。