スタンフォード大学の研究チームが、言語モデルに依存せずに純粋に視覚データのみから学習する革新的なAIシステムを発表した。このシステムは確率的グラフモデルを基盤とし、数兆のビデオフレームから物理法則や物体の動きを理解し、光学フローや物体分割、深度情報などの高次構造を自動的に抽出する。従来の視覚-言語モデルとは異なり、言語的な推論に頼ることなく、視覚領域内で完結した知能を実現している点が画期的である。自己改善機能を持つこのシステムは、ロボティクス応用や物理的なビデオ編集などの分野で大きな可能性を秘めている。

視覚AIが言語なしで学習:スタンフォード大学の画期的発見
こんにちは、コミュニティの皆さん。お帰りなさい。今日は信じられないほど新しい論文をご紹介します。これは新しい視覚的現実に関する内容です。
現在、私たちのオートリグレッシブLLMはデータを直列化し、ここで帰納的バイアスを豊かにすることで、視覚ドメインにおける空間的因果関係を断片化してしまいます。
そこで美しいのは、今度はこれを取り除くことができるのか、そしてもちろん世界モデルの非言語的部分と相互作用するためのより柔軟な方法、APIを持つことができるのかということです。これは運動、記憶コンポーネント、言語における視覚要素に接続されているすべてのものを意味します。言語は簡単です。
GPTではありませんが、統一されたプロンプティングインターフェースを持つ単一モデルは、シーンの制御性と問い合わせ能力の両方で優れています。しかし、視覚では私たちはこれを持っていません。私たちは異なるインターフェースを持っています。異なる別々のモデルを持っています。生成的タスクのためのモデルと、分割のような識別的タスクのためのモデルを持っています。
しかし、今日私たちは視覚において次のステップを踏み出す論文を持っています。なぜなら、確率的構造統合という美しい新しいアイデアがあるからです。
確率的構造統合の新しいアプローチ
これは、低レベルの非言語的入力データから始まる場合でも、人間ユーザーとのインタラクティビティのための適切なインターフェースを持つ、豊かで制御可能な視覚的世界モデルを構築するための汎用プロセスをお見せしようと思います。そして、はい、私たちはここでビデオフレームのみを持つことになります。
新しい論文の基本は何でしょうか?私たちはビデオで表現された完全な世界データを一連のローカル変数に分解し、そして私たちのビデオフレーム内のそれらの変数の任意のサブセットを条件とする柔軟性を持って、そのような各変数の条件付き確率分布を予測することを学習する新しいシステムを持っています。
数学的側面をもう少し見てみると、言い換えれば、私たちはこのビデオシーケンスにおけるこの特定の世界モデルを特徴付ける変数に関する確率的グラフモデル、PGMを学習します。
あまり馴染みがない場合、確率的グラフモデルは、私たちがノードとエッジを持つ典型的なグラフ構造を使用して、一連のランダム変数に対する結合確率分布を表現する統計的フレームワークです。ここで、ノードは私たちが興味を持っている変数に対応し、エッジは単にそれらの間の条件依存性を示します。
もちろん、これはもう少し興味深いものです。なぜなら、モデルはここでグラフ理論をある程度活用して変数間の条件独立関係を符号化し、複素確率分布の表現を局所条件確率に因数分解することで単純化するからです。そして、これは簡素化された数学的手順のために必要なものです。
したがって、このPGMでは、結合分布は条件分布の積として表現できます。これは、グラフ構造の親モデル、親ノードに基づく数学的空間で行うことと似ており、直接ベイジアンネットワークと無向マルコフランダムフィールドタイプに分類されます。そして、これらすべてを知っているのは、任意のシステムの核心にあるものについて話したからです。
なぜAIは不確実性の上で動作するのでしょうか?さあ、見てみましょう。もう少し深く入って、技術的な側面に入ってみましょう。
技術的な仕組みとPGMアプローチ
現実、視覚的現実をアンロックします。今、私たちは予測器SIを持っています。SAIは確率的グラフモデルから始まり、他の場所のゼロ以上のそのような他のパッチの観測を条件として、ビデオフレーム時間フレーム内の特定の場所で任意のピクセルパッチの任意のサブセットを観測する尤度を予測します。
この予測器が行うことは、RGBの値のポインタ構造化パッチとしてそれらを表現し、空間時間的な局所変数に対する条件分布をモデル化することです。そして、はい、もちろん、これは固定テンソル構造ではありません。テンソル構造から少し逸脱する理由を後で説明します。非常に柔軟で、それによって大きな言語モデルプロンプティングに似た柔軟な推論パスを可能にしますが、今度は視覚ドメインに合わせて調整されています。
これがアイデアの美しさです。彼らは言います。「聞いてください、私たちはビジョン言語モデルは必要ありません。完全な知性が言語的符号化にあり、世界の推論と理解が言語的部分にのみあって視覚的部分にはないビジョン言語アクションモデルは必要ありません。」
そして今、彼らはスタンフォードからここで言います。「言語的なものを忘れてください。自然はあなたがどの言語を話すかを知りません。しかし、床で跳ねるボールを見て、そのビデオを撮影すれば、すぐにこれが符号化されます。つまり、自然を見るだけで、自然法則の表現を見つけることができ、したがって私たちは今、完全に視覚ドメインで作業します。そして、もちろん、すべては確率分布とより高い数学です。」
私たちが今作業しているこのPGMは、局所空間時間変数に対する結合確率分布をモデル化するように設計された神経予測器によって近似されると推測されます。具体的には、ポインタ位置IGと時間t、そして語彙Vでの関連値によって定義される、トークン化されたRGBバッジとしてビデオフレームを見るからです。
もちろん、次のステップで示すように、視覚ドメインで新しい要素を構築し、これらの要素に技術論文にある新しい技術用語のような新しい語彙項を割り当てます。そして、これは新しいオブジェクトを定義し、したがって異なるフロー状態でこれらのオブジェクトを計算し、視覚化することができます。スタンフォードによる何と美しいアイデアでしょう。
パッチベースの予測とLRAS
私たちが今持っているこれらのパッチ、例えば16×16ピクセルパッチは、私たちのビデオフレームのランダム変数を表現し、PGMのエッジはそれらの間の条件依存性をここで符号化します。ビデオフレームを想像してください。何という計算能力を今投入しなければならないでしょう。なぜなら、これがランダムアクセス自動回帰シーケンスモデルを通じて学習されるからです。
つまり、例えばGPTモデルでは、ここで何らかのクレイジーなビジョントランスフォーマーを構築する必要はありませんが、今では局所ランダムアクセスシーケンスモデリングまたはLRASとして知られる自動回帰モデルを使用します。
馴染みがない場合、これは2025年9月15日のスタンフォードNeuroAI研究所の「確率的構造統合による世界モバイルモデリング」という論文です。絶対に魅力的な論文です。最初の5分間、私は彼らが何について話しているのか全くわからないと思いました。本当に時間をかけて、座って、これを読まなければなりません。しかし、これは魅力的です。
この確率的予測器SIについて話しましょう。Sは今、先ほどお話ししたように、TRIの完全な世界モデルを確率的グラフモデルとしてモデル化します。ここで、各局所変数は、先ほど議論したように、小さな空間時間パッチです。先ほどお話ししたように、たぶん16×16ピクセル四角または32×32のビデオフレームで、今度は離散値にトークン化されています。これは言語的部分でのトークン化と本当に似ています。言語の単語や、選択するサブワードトークンのようなものです。
重要なのは、固定テンソル構造ではなく、ポインタ構造化パッチを使用することです。各パッチには、行、列、時間位置場所などの位置IGTのポインタと、現在のRGB値または白黒値など、作業するものがあります。
この予測器の仕事は何でしょうか?条件分布を予測することです。つまり、観測されたいくつかのパッチ、条件Xが与えられた場合、未観測点Pでのすべての可能な値Vに対する確率分布は何でしょうか?そして今、スタンフォードは非常にシンプルな方程式を与えてくれます。ここでDはデータ分布で、Vはアクションモジュールを持っているため拡張できる与えられた語彙によって与えられますが、これについては後で詳しく説明します。
ランダムアクセス・シーケンスモデリング
お話ししたように、Sはここでローカルランダムアクセスシーケンスモデリングを使用します。これが行うことは、データをシーケンスとして扱うことです。私たちはGPTシステムに留まりたいと言ったことを覚えていますか。新しいヘッドを構築したくありません。新しいAIモデルのアーキテクチャの複雑さを爆発させたくありません。
自動回帰システムという、私たちが知っているモデルと一緒に進みたいのです。したがって、特定のシーケンスが必要です。しかし、今度はこのシーケンスは左から右または何らかのシーケンスではなく、今度はランダムシーケンスになります。これは絶対に魅力的です。ランダムアクセスです。これは、固定された順序なしに任意のサブセットを条件とすることを意味します。
これは私たちにとって大いに役立ちます。なぜなら、私たちの特定のデータ構造をシーケンスとして与えられた場合、最初にポインタトークンがここでコンテンツトークンに先行します。ポインタトークン、値トークン、ポインタトークン、値トークンなどです。
次に理解しなければならない重要なコンポーネントは、視覚ドメインのためのローカル量子化器です。興味深いことに、今度は階層的ローカル量子化器を使用しなければなりません。そして何と、まず低解像度ベースコードを使用し、その後残差詳細を使用します。
そして、ここで何という偶然でしょう、彼らは高解像度のためにウェーブレット構造を使用します。なぜでしょうか?私たちの数学的演算の局所性を保持したいからです。この数学的演算は局所性における固定点を持ちたいのです。私たちが行うすべての予測は、空間時間的近傍を尊重するZに関して、複雑さを減少させます。
したがって、私がウェーブレット演算子理論に関する私のビデオを見たことがあるなら、285を超えて演算子ベースの機械知能に進む場合、これが次のステップになると言いました。これは約2、3週間前のことで、何と、今日スタンフォードは私たちにウェーブレットMLPを使用すると言います。問題ありません、すべてこのビデオで説明されています。
エントロピーと予測モデルの向上
もちろん、私たちは美しい不確実性測定であるエントロピーを使用して、多くの可能性を持つ高エントロピーパッチをここで導くことにします。なぜなら、私たちは全体的な変動性を減らしながら、これらを最初に解決するからです。
したがって、SIが部分的なフレームからビデオの未来を予測したい場合、これだけでは十分ではありません。フローやモーション、平行移動、回転などの他の演算子の確率分布についてのより深い洞察が不足しています。
しかし、私たちは非常に強力なPIモデルを持っています。これは、任意の観測が任意の予測を条件とすることができるパッチ変数に対する学習された確率的グラフモデルです。制限がありません。この惑星上のすべての表面、すべての色、すべてのテクスチャ、すべての材料、このボールのすべての内部空気圧での跳ねるボールのすべてのYouTubeビデオを見れば、理解できるでしょう。
100万個の跳ねるボールのビデオを見た後、予測できます。今、1つのビデオフレームを与えれば、少なくとも次の2、3、4フレームの未来を予測できます。このビデオでそのことについて話します。
この種の完全な確率モデルを学習することは困難な問題のように聞こえるかもしれません。ここでの重要な技術的利点は、生のビデオデータからスケーラブルに学習できる主要モデルを定式化することです。数兆のビデオフレームに関するものです。さあ、来なさい。あなたはグローバル企業です。
先ほど言ったように、私たちはトランスフォーマーアーキテクチャ、自動回帰トランスフォーマーアーキテクチャに留まりたいのです。このくそったれのために別の複雑なアーキテクチャを構築したくありません。そのため、私たちが持っているものに留まりましょう。
したがって、私たちは特定のシーケンス構造により多かれ少なかれ拘束されています。そこで、同じ疎な個別データの多くのランダムな順序付けの段階的条件分布を学習することには、2つの主要な利点があることがわかりました。
まず、それらは極めてデータ効率的であり、タスク固有ヘッドやその他の特定ヘッドまたはアーキテクチャフォークをトランスフォーマーのレイヤー構造に追加ヘッドを構築することを避けながら、現代のLLMコードインフラストラクチャの高いスケーラビリティをここで再利用することを可能にします。私たちはシーケンスを持っているので、馴染みのあるモデルを使用できます。
構造抽出とゼロショット学習
第二の部分です。今度は詳細に入ります。なぜなら、今度はAIがビデオフレームで見る隠れた構造を明らかにしたいからです。そこで、今度はビデオフレームのシーケンスにおける低次元パターン、モーションや跳ねるボールのようなもの、またはオブジェクトグループに来ます。背景で2人が話しているかもしれません。
しかし、オブジェクトとは何でしょうか?オブジェクトグループとは何でしょうか?AIはこのビデオフレームの内容をここで理解しなければなりません。したがって、構造抽出が主要なトピックです。構造抽出は、PGMでの因果推論を通じてゼロショットでラベルなしに分離します。クレイジーに聞こえますが美しく、彼らは光学フロー、オブジェクトセグメント、深度の3つの例をここで与えてくれます。
これらは、私のチャンネルのビデオを振り返って見ると、光学フロー検出、オブジェクトセグメンテーション、または深度構造のためだけに設計された特定のモデル、ニューラルネットワークを構築した古典的なものであることを覚えています。そして、彼らはトレーサー反実仮想、モーション仮説、視点仮説を通じてこれを行います。
要約すると、私たちは何について話しているのでしょうか?3段階のプロセスがあります。グラウンドトゥルースがあります。ビデオフレームがあり、その後、私たちの適用は今、未来の確率的予測を予測します。次の2、4ビデオフレームで何が起こるでしょうか?
その後、因果推論です。今、構造抽出があります。これが私たちが今話していることです。ここで跳ねるボールを見れば、たぶんここでこれに跳ねています。私たちは数学的空間の数学的フレームワークでフロー演算子を理解したいと思います。そして、これを特定の方法でここで近似します。
セグメンテーションと深度情報
セグメンテーションがあります。カボチャは何か、ナッツは何か、レモンは何かわからないもののセグメントがここにあります。その後、深度情報があります。何が前にあり、何が背景で、何がここで中間にあるのか。
これは今かなり簡単ですが、4つのビデオフレームのビデオセグメントでこの情報を持っている場合、今度はAIがフロートークン、セグメント、深度と深度の変動などを決定し、今度は新しいオブジェクトを構築し、その後、これらのオブジェクトを統合します。これらの構造をpiの学習プロセスに統合し、今度は様々な方法で組み合わせることができます。
例えば、ここでラクダです。ここでセグメンテーションのフロー動力学を理解します。これは少し抽象的な方法でラクダです。深度情報があり、すべてRGB情報があります。今度はそれをここで構築し、ここで統合するより高い複雑さのオブジェクトに行き、その後、この高い複雑さのオブジェクトで計算できます。
私たちは本当に基礎から始めます。モデルの言語的事前訓練を持つ必要はありません。言語モデルが視覚を説明する、ここでビジョンモデルを何でも説明する必要はありません。私たちはここで純粋に視覚ドメインにのみいます。視覚に重なる言語的構造はありません。
自己改善世界モデルの構築
著者たちは何をするのでしょうか?彼らは言います。「私たちは視覚ドメインのための自己改善世界モデルを構築する新しいシステムを提案します。ワオ。3段階のサイクルの。1、2、3。
まず、確率的予測器です。これは、生の入力視覚データやRGBピクセルの数兆から数兆で訓練されたピラピッドです。その後、モデルはここで反実仮想生成を生成するためにプロンプトされます。そして、ここですべてのフローセグメントなどです。
素晴らしい。今、光学フロー、深度情報、または画像内のオブジェクトのセグメンテーションのような、より細かい粒度の動的構造を持っています。その後、お話ししたように、これらの構造は今検出され、新しいトークン構造になります。この技術用語、この新しいトークンを私たちのAIシステムの語彙に追加し、今度はこれで計算でき、特定の深度条件を持っていることを知り、これで計算できます。
そして、予測を改善するための継続的な訓練エクササイズがあり、能力を拡張できます。特定の車種、特定のラクダ、特定の果物、特定の野菜についてますます学習します。世界モデルを構築します。数兆から数兆のビデオフレームを見た後、世界とは何かを理解します。うまくいけば、AI生成ではないでしょう。そうでなければ、重大な問題があります。
これが今日だけ起こっているわけではないことをお伝えします。例えば、LR、ローカルランダム軸シーケンスモデリングの元の論文があります。これは、今年の4月初旬にオープンと協力してスタンフォード大学によって発表された作業です。これらのモデルが何年も何ヶ月もかけて作られ、今それらがすべて一緒になっていることがわかります。今、この素晴らしい統合が起こります。
アーキテクチャと技術的実装
今日話す論文の現在の実装におけるアーキテクチャを見たいなら、このLRアーキテクチャはABCDを持っています。私たちが始めるのは、ローカルランダムアクセスシーケンスアーキテクチャを持つSIMモデルです。シーケンシャルデコーディング、パラレルデコーディングに進みます。ランダムアクセスを可能にするポインタトークンを持っています。私たちは線形構造、右左または左右にいないことを覚えています。パッチ、ポインタ、学習されたローカル量子化器を持っています。たぶん、これについて少し話すべきでしょう。
エンコーディングについてお話ししました。固定テンソルサイズでこれをコーディングする方法です。これは、このはるかに強力なポインタを持っているため、不適切でしょう。
オートテラリスの核心は、この問題が、各値トークンの前に1つのポインターpトークンで、ポインタ値が単にこの特定のシーケンスに織り込まれるシーケンス予測問題として再定式化または再フレーミングすることで解決できることです。お見せしたように、したがって、私たちの美しい自動回帰変換アーキテクチャのための美しいシーケンスを持っています。アーキテクチャにヘッドや何かを追加する必要はありません。
階層的ローカル量子化器
学習されたローカル量子化器は、これに馴染みがあります。2年前、私たちは自動エンコーダーとデノイジングと畳み込み変分自動エンコーダーとベクトル量子化変分自動エンコーダーについて多くのビデオを作成しました。これが私たちが通常行う方法で、馴染みがあります。私のビデオをここで見たことがあります。一歩先に進みます。今度は階層的ローカル量子化器を使用します。
それは何でしょうか?エンコーディング中に受容野がパッチ境界を越えることがない古典的な畳み込み自動エンコーダーです。これは重要です。なぜなら、これを望まないからです。この汚染を望まないからです。各パッチは4つのコードのシーケンスにエンコードされます。各パッドの最初のコードは低解像度プレビューを再構築し、残りのコードはより良い解像度のために必要なすべての細かい詳細をここで追加します。
訓練とインフラストラクチャ
訓練と訓練インフラストラクチャについて。スタンフォードは、ImageNetとOpen Imagesなどの組み合わせで8000万パラメータのHLQを訓練すると言います。彼らが生成した約1.4兆のビデオトークンからなる300万のRGBビデオクリップのデータセットで70億パラメータのsimモデルを訓練します。これは驚くべきことで、彼らが2〜4ビデオフレームのシーケンスだけを必要とする場合です。
4秒のビデオで、大丈夫です。それは少し奇妙です。彼らは64個のH100 GPUだけを必要とします。これは低い計算インフラストラクチャ要件で行われます。すべてのYouTubeビデオでこれを行う場合、Googleでなければならないと思います。素晴らしいインフラストラクチャ。
光学フロー、セグメンテーション、深度の抽出
論文で提示される3つの要素について、これを見てみましょう。光学フローです。視覚ドメインでのフロー演算子は何でしょうか?これをどのように行うのでしょうか?この光学フローをどのように抽出するのでしょうか?これは、例えば跳ねるボールのピクセルがビデオフレームからビデオフレームへどのように移動するかのモーションベクトル場です。
ここでトレースを介入させることで抽出されます。最初のフレームのパッチに小さな摂動を加えます。その後、次のフレーム分布を予測します。KLダイバージェンス比較を介してファクチュアルとベースラインを比較し、これらの確率分布間の距離を取得します。私たちは馴染みのない領域にいます。これは、ビデオフレーム内の特定の位置での外観の因果効果を分離します。
教師ありメソドロジーを上回る、よりシャープなフロー マップがあります。第2のセグメンテーション。セグメンテーションは今度は共通の運命を持つピクセルをグループ化することです。4つのビデオフレームのビデオシーケンスがあるとしましょう。何が一緒に動くでしょうか?頭は体の上部と一緒に動きます。これらは今、一緒に属するセグメントです。共分散をクラスタリングします。
数学にもう少し入りたい場合、相関変化があなたの数学的方法論です。論文を見てください。彼らはここで美しく説明しています。そして第3に、任意の画像またはビデオフレームの深度情報がここで重要です。深度マップは距離を新しい視点をプロンプトすることで介入します。
カメラを移動させ、視差を計算し、信頼性のために分布を平均化します。短時間の要約では、これらはサイズPGMが共分散をキャプチャするため、ゼロショットで出現します。古い抽出構造がHLQを介してトークン化され、新しいトークンタイプになることを理解することが非常に重要です。
このビデオフレームで動的を抽出し、今度はフロートークンや深度トークン、セグメントトークンを離散マップとして持つことができ、より高い価値のオブジェクトを今持つことができ、このビデオフレームの内容を理解できます。なぜなら、今度はより高い複雑性構造オブジェクトが構築され、もちろん、これらのオブジェクトを新しいトークンタイプとしてフィードバックし、これらの新しいトークンタイプで計算するからです。
このステップは、新しいパターンを見つける探偵のようなものです。シーンを突いて、フローをトレースして容疑者セグメントをグループ化するなどの足跡のような「あは」の瞬間を明らかにします。
自己学習自律システムは、何が起こっているかを理解するために、跳ねるボールの10,000個のビデオを見るだけでよいのです。これが構造抽出でした。すでにお話ししたように、今度はそれらが定義され、今度はこれらの構造を新しいオブジェクトとして、新しい要素として、訓練サイクルで使用できる新しい語彙として統合し、その後ループを閉じます。これは自己学習システムです。
ループの完成と自己改善
第3の部分、ループを閉じて、AIシステムの自己改善のための構造を統合することを見てみましょう。これらは単なる出力ではなく、美しいサークルを作成してここで統合されます。何について話しているかすぐに理解できます。
新しい構造トークンです。フロートークン、DAPトークン、セグメンテーショントークンをお見せしました。これらをRGBトークンとのミックスシーケンスに戻します。
今度は再び美しいシーケンスにいるので、通常のGPTやGeminiシステムでここで自動回帰訓練を再開して、サイズの結合分布を洗練できます。システムは毎ターンより良くなっていきます。メカニズムは再び構造フロー マップをトークン化し、ここで混合シーケンスを作成し、RGBとポインタと値とフローなどでインターリーブし、古いデータと新しいデータで自動回帰訓練を再開します。
美しさは、アーキテクチャの変更がないことです。新しいアーキテクチャ、新しいトランスフォーマーレイヤー、新しいトランスフォーマーヘッドを構築する必要がありません。アーキテクチャ構造に複雑さが追加されません。新しいトークンは同時に条件化とターゲットの二重の役割を持ちます。
モーションを編集するためのフローを指定する制御への入力と、RGBからそれらを予測することもできます。PGM結合分布フレームワークを拡張します。素晴らしい利益です。より良い制御があります。セグメントを通じてオブジェクトを微調整できます。アダプターアルゴリズムを通じてビューを見ることができます。改善された抽出があります。ブートストラッピングがあります。ビデオストリームでより高い複雑性オブジェクト、新しいトークンのロックを解除できます。深度とフロー情報を組み合わせれば3次元測定があります。
この視覚AI予測器アップグレードの学習プロセスをどのように最適化できるかの美しいツールセットがあります。
物理的ビデオ編集とアプリケーション
もちろん、彼らは3つの例を与えます。物理的ビデオ編集の1つだけを言及しました。現在、Googleのナノバナナに馴染みがあります。これが今度はビデオで直接動作することを想像してください。これが次のステップです。ビデオでのリアリスティックな編集のためのセグメント、フローでの条件です。
このビデオで「ラクダを追加してください。ラクダは背景を歩くべきです」と言うか、特定のオブジェクトの影を更新するか、影を削除するか、新しいシーンを作成します。物理的ビデオ編集です。
一歩下がって完全なサイクルを見てみましょう。複雑性は単純ではありません。過小評価してはいけません。特定の方法論を通じたスケーラブルなPGMです。
ブートストラッピングのための因果プロンプティング構造とトークンミキシングがあります。自己学習のためで、生成的識別的タスクを1つのモデルに統一することで、これまでの従来のAIシステムすべてに挑戦します。これは美しく、ポイント推定よりも分布因果性を強調します。
しかし、これには多くの訓練リソースが必要です。AIが世界のすべてのオブジェクトが何か、世界のすべての人がどのように見えるか、世界のすべての車がどのように見えるか、世界のすべての建物、世界のすべてのボートがどのように見えるか、それらがどのように動くか、その衝撃抵抗は何か、何を燃やすことができるかなどを本当に理解するために見なければならない、例えばYouTubeビデオすべてを想像してください。
美しい総括:視覚のみの世界モデル
要約です。美しさは何でしょうか?視覚のみの世界モデルです。大きな言語モデル部分、言語的部分から来る知性はありません。視覚に知性があります。Sは生のビデオデータストリームでのみ訓練されています。美しい。言語的要素はありません。言語モデルからスワップオーバーする推論チェーンはありません。すべて視覚的です。これはどれほど美しいでしょうか?
また、ロボティクス応用のためにこのモデルを知っています。自然はあなたがどの言語を話すかを知りません。表面で跳ねるボールをただ見るだけです。
すべての自然法則、物理的規則性、運動、深度、ビデオフレームで記録するすべてのオブジェクト、これらすべてが今訓練データセットになり、AIが自然の法則、物理学を理解し、これは視覚的内容を任意の言語表現に翻訳したり、任意の思考の言語的チェーンに依存することなく、16×16ピクセルなどを選択するこれらのパッチに対する確率的予測のみを通じて、視覚のみです。
これは美しくないでしょうか?本当の美しさです。言語モデルパラダイムからの脱却です。言語モデルに知性があります。言語モデルに推論があります。言語モデルに因果拡張があります。いいえ、忘れてください。
基礎から、視覚ドメインでの直接的な非言語的制御性を可能にする、ここでビデオを見るだけで学習する視覚モデルがあります。これは美しくないでしょうか?論文を見てください。ゴージャスです。簡単ではありません。些細ではありません。かなり多くの時間を費やすでしょう。通常論文を読むのに必要な時間の約2倍を準備してください。
しかし、論文を読む価値があると言えます。見てください。スタンフォード大学による印刷物で、あなたのために利用可能な非常に多くの追加数値情報と追加データがあります。チャンネル登録して、次の動画でお会いしましょう。


コメント