Small VLA：手頃で効率的なロボティクスのためのビジョン言語行動モデル

本動画は、HuggingFaceが開発したロボティクス基盤モデル「Small VLA」について詳しく解説している。Small VLAは、Vision Language Action（VLA）モデルの一種で、画像と言語指示を入力として受け取り、ロボットの行動を出力する。従来のNVIDIAのGroot N1やPhysical IntelligenceのPi0と比較して、コミュニティベースのデータセット収集戦略により、より多様なタスクに対応可能である。動画では、モデルアーキテクチャ、データ戦略、非同期推論、アクションチャンキングなどの技術的詳細について深く掘り下げて説明している。また、ロボティクス分野における今後の展望として、中国企業の参入や強化学習の活用、推論モデルの導入などについても言及している。

ライブ配信開始とセットアップ
Small VLAの紹介
ロボティクス基盤モデルの概要
VLAの適用範囲と限界
企業の資金調達状況
基盤モデル開発の必要資金
Small VLAの技術的詳細
ビジョン言語モデルの詳細
画像エンコーダーとSigLIP
より速い推論のためのレイヤースキップ
深層学習モデルにおける特徴の階層
インターリーブされたクロスアテンションとセルフアテンション
入力データの詳細
状態、アクション、特徴プロジェクター
フローマッチングアクション専門家
フローマッチングの詳細
ベクトル場の概念
推論とモデル実行
データ戦略の重要性
コミュニティデータセット戦略
Vision Language Modelの追加活用
非同期推論とアクションチャンキング
ロボットクライアントとポリシーサーバー
非同期推論の利点
今後の展望と課題
模倣学習から強化学習へ
未来の技術展望
中国企業の参入予測
ロボティクススタートアップへの影響

ライブ配信開始とセットアップ

よろしくお願いします、今YouTubeでテストしています。YouTubeでのテスト、テスト中です。とても静かに感じますね。このOBSの設定を調整しましょう。これが正しいマイクです。これが適切な音量レベルのようです。準備完了だと思います。テスト、テスト中です。はい、少し静かですね。

どうですか、Kiron Deshmukですか？なぜXで毎回開始されないのでしょうか。ライブと表示されているのに、実際はライブではありません。どうですか、NLPプロンプターさん、家に間に合いましたね。どちらから戻ってきたのですか？Xでライブになったと思います。それでは始めましょう。このガムを吐き出して、たっぷりと水を飲みます。そして今日は、追加のサポートのためにゴンドールの角を持ってきました。

Small VLAの紹介

皆さん、またもう一つのHoopoストリームへようこそ。今日のストリームは「Small VLA」と呼ばれています。私たちは、もう少しクラシックな論文スタイルのストリームに戻り、この論文をレビューしていきます。Small VLA：手頃で効率的なロボティクスのためのビジョン言語行動モデルで、主にHugging Faceが開発し、それに加えていくつかの異なるフランスの学術機関も参加しています。

これについてスライドを用意しました。最初は論文の内容だけをやる予定でしたが、他の画像や資料も含めたいと思いました。これらのスライドへのリンクはHoopo docsで見ることができます。これは私のGitHubにあります。これらに使用するさまざまなドキュメント、スクリプト、異なる参考資料が基本的に全て含まれています。

ロボティクス基盤モデルの概要

Small VLAは基本的にHugging Faceのロボットです。ロボットはHugging Face内のグループで、オープンソースロボティクスに焦点を当てています。Small VLAは、現在利用可能な2つのロボティクス基盤モデルに対する彼らの答えのようなものです。

NVIDIAのGroot N1があります。これは「汎用ヒューマノイドロボットのためのオープン基盤モデル」論文でリリースされました。これもビジョン言語行動モデルであることがわかります。これは基本的に新しい用語で、VLMと呼ばれるビジョン言語モデルに、実際にアクションを生成する小さなディフュージョンモデルのようなアクション専門家を組み合わせたものを意味するようになりました。基本的にはVLMプラスアクション専門家で、それがVLAという用語になりました。

もう一つの主要な競合相手は、Physical Intelligenceの「Pi0：汎用ロボット制御のためのビジョン言語行動フローモデル」です。これもほぼ同じような考え方で、事前訓練されたビジョン言語モデルを取り、このアクション専門家を取り付けて、画像とテキストでのタスク記述を消費し、さまざまな異なるロボットで実行できるアクションを生成するものを得ます。

VLAの適用範囲と限界

これらは主に今のところ操作タスクに焦点を当てています。Optimusロボットで見られるような、宙返りやダンスなどのunitryデモについては、これらは実際にはVLAではありません。通常、シミュレーションで訓練され、実際のロボットで示されるRLポリシーです。VLAは主に操作タスクに使用されます。これは長い間、ロコモーション（移動）とマニピュレーション（操作）という2つの別々の分野に分かれていました。将来的にはこれらが結合すると思いますが、現在はまだ少し別々です。

企業の資金調達状況

私はあまり金融の専門家ではありませんが、これらのモデルを製造している企業のタイプを見るのは興味深いと思います。明らかにNVIDIAは、ハードウェアからお金を稼ぐので、オープンソースモデルを製造・リリースします。彼らはロボット向けの専用ハードウェアを持っています。Nvidia Jetson AGXのようなものです。これらはロボティクス用途専用の製品です。

Hugging FaceとPhysical Intelligenceは、彼らが調達した資金です。Physical Intelligenceは少し新しい企業で、2024年に開始されました。7000万ドル、4億ドルを調達しています。さまざまな投資家から相当な資金を銀行に持っています。OpenAIの投資、Sequoiaのような古典的なベンチャーキャピタル企業、Jeff Bezosのような有名人がいます。

Hugging Faceは少し古い企業ですが、少し多くの資金を調達しています。235、100万、40万ドルを重ねてきました。Hugging Faceはおそらくこの時点でより大きく、より多くの人々、より広く展開されています。

基盤モデル開発の必要資金

これが、これらの基盤モデルを作成している企業の規模です。なぜなら、最終的には、このようなものを訓練し、これを構築できる研究者を持ち、それをオープンソース化するには、これは特定のティアのスタートアップと企業に留保されているからです。

しかし、ストリームの後半で発見するように、実際にはすべてのロボティクス企業にとって良いことです。この程度の資金を持たず、独自の基盤モデルをゼロから訓練・リリースできないロボティクス企業であっても、オープンソースロボティクス基盤モデル間のこの種の競争から恩恵を受けると思います。

Small VLAの技術的詳細

論文を下っていき、セクション3のSmall VLAから始めます。Small VLAは、コンパクトな事前訓練VLMとフローマッチングで訓練されたアクション専門家で構成される軽量VLAです。コンパクトな事前訓練VLMは、基本的に小さなビジョン言語モデルを意味します。

Groot N1では、これはNVIDIAからも出ているEagle 2 VLMです。Pi0では、Googleが製造したオープンソースの非常に小さなビジョン言語モデルであるGemma 2.6Bです。Physical Intelligenceチームの多くの人々は元Googlersなので、Google オープンソーススタックを使用するのは理にかなっています。

アクション専門家は、ビジョン言語モデル内の特徴とクロスアテンションを行っているため、少し複雑ですが、基本的にはビジョン言語モデルから出てくるセマンティック情報を消費し、ロボット上で実行する瞬間的な離散的な小さなアクションを実際に生成するものとして考えることができます。

ビジョン言語モデルの詳細

複数の画像とタスクを記述する言語指示が与えられると、モデルはアクションのチャンクを出力します。これらのさまざまなことについて説明していきます。

まず、実際のビジョン言語モデルに入ります。VLMは多様なマルチモーダルデータで事前訓練され、豊富な世界知識をキャプチャします。彼らは特にSmall VLM2を使用しています。

これらのモデルはすべてHugging Face上にあり、Hugging Faceにはモデルを基本的に見ることができる素晴らしい小さなUIがあります。いいねしたり、フォローしたり、組織を見たり、質問できるコミュニティセクションがありますが、モデルサイズと利用可能な異なるタイプを見ることができる部分もあります。FP32、BF16があり、BF16がおそらく最も一般的です。

画像エンコーダーとSigLIP

ビジョン言語モデルのもう一つの重要な部分は、画像エンコーダーの種類です。これは生の画像を消費し、これらの画像トークンを生成する事前訓練モデルです。Pi0論文のこの小さなViTを見ることができます。これは画像エンコーダーとして機能し、画像トークンを生成しています。

Small VLM2では、SigLIPと呼ばれるものを使用しています。SigLIPには何百万ものバリエーションがあります。GoogleのHugging Faceページのスクリーンショットがあり、彼らがHugging Faceでホストしているすべての異なるモデルを見ることができます。非常に多くの異なるSigLIPモデルがあることがわかります。

より速い推論のためのレイヤースキップ

最後のレイヤー特徴を使用するのではなく、私たちのアクション専門家は指定されたレイヤーNまでのすべての特徴にアクセスできます。これは、Nvidia Grootペーパーで見たものと非常に興味深く、似ていると思います。

Nvidia Grootペーパーを見ると、ビジョン言語モデルがここでこれらのトークンを生成し、それらのトークンがアクション専門家に入るだけではないことがわかります。これは、このビジョン言語モデルの最後のレイヤーのみを使用することに相当します。

Hugging Faceがここで行っているのは、LM専門家内のレイヤーを特別に取ることです。コードで見ることができます。言語モデル専門家のすべてのレイヤーを通り、これらのセルフアテンションをN層ごとに配置し、基本的にこれらのセルフアテンションをx層ごとに配置しています。

深層学習モデルにおける特徴の階層

深層学習モデルの動作方法は、始めに生の入力があります。観測、タスク記述、ロボット状態、そして、モデルの奥深くに入るにつれて、この場合、レイヤーで高く上がるにつれて、特徴が変化しています。

低レベルでは、特徴はより空間的なものを表現する可能性があります。テーブルが木でできたテーブルであるという事実のような、より局所的な特徴です。そして、このビジョン言語モデルで高く上がるにつれて、より局所的でなく、よりグローバルセマンティックな特徴になります。何かを拾い上げているとか、この種のロボットを使用しているというような、より高レベルのものです。

最良の選択をするために、アクション専門家に最大量の情報を与えたいのです。この場合、これは単にアクションのシーケンスを生成することです。

インターリーブされたクロスアテンションとセルフアテンション

アクション専門家は、VLMと条件付きでアクションチャンクを生成し、VLAにおけるVLMとアクション専門家の相互作用は、各ブロックがクロスアテンションまたはセルフアテンションレイヤーのいずれかを含むインターリーブされたアプローチを採用しています。

セルフアテンションとクロスアテンションがあります。このアクション専門家はトランスフォーマーです。フローマッチングトランスフォーマーです。セルフアテンションは、シーケンスとシーケンス自体の間でアテンション計算を実行することを意味します。

クロスアテンションでは、下のレイヤーから来るシーケンスでアテンションを行っていますが、他のものとも行っています。この場合、そこに入れている他のものは、VLMからの特徴です。

入力データの詳細

モデルの入力は、これらの3つの画像、このタスク、そしてこの状態であることがわかります。コードで実際にこれがどこにあるかを見ることができます。VLMは感覚運動状態（プロプリオセプションとも呼ばれる）を処理します。これは基本的にロボット内のすべての関節の関節位置です。

複数のRGBカメラからの画像があります。それがこの画像と画像マスクです。また、タスクを記述する言語指示も与えています。それがここに入っているlang tokens、lang maskです。自然言語でタスクを記述しているのは「オブジェクトを掴んで、ビンに入れてください」です。

状態、アクション、特徴プロジェクター

異なるロボットは異なる状態空間と異なるアクション空間を持っています。例えば、7つの関節を持つアームがあります。それが自由度の意味です。アームは7つの関節を持つかもしれませんし、8つの関節を持つかもしれません。デュアルアームは14の関節を持つかもしれません。アクション空間は実装固有です。観測空間またはロボット状態も実装固有です。

それを適応させる必要があります。例えば、Nvidia Grootペーパーで行っていることの一つは、使用しているロボットのアクション空間と観測または状態空間を取り、実装間で同じであるより標準的な形式に配置する小さなMLPを実際に持っていることです。

フローマッチングアクション専門家

アクション専門家について話しましょう。私たちはビジョン言語モデルについて話していました。そこに何が入るか。今度は、実際にすべての興味深い困難な作業を行っているこのアクション専門家に注意を向けましょう。

フローマッチングアクション専門家v_thetaは、アクションチャンクa_tからa_{t+n}を予測するように訓練されています。アクションチャンクとは何でしょうか？

アクションチャンクはアクションのシーケンスです。a_tで始まり、a_{t+n}まで続きます。それは即座のアクションで、その後のアクション、その後のアクション、そして最大でa_{t+n}時間ステップまでのアクションです。

それを視覚化する方法の一つは、a_tをここの最初の点として考え、a_{t+n}をここの点として考えることです。基本的にこれはa_{t+1}、a_{t+2}、a_{t+3}、a_{t+4}で、アクションチャンクは基本的にこの全体のパスのようなものです。

即座の次のアクションだけを与えるのではなく、このアクションの小さなシーケンスのようなものを与えています。それがアクションチャンクと呼ばれるものです。

フローマッチングの詳細

特定のアーキテクチャは、条件付きフローマッチングトランスフォーマーです。フローマッチング、修正フロー、ディフュージョンモデルに関してはかなり細かくなりますが、フローマッチングをディフュージョンの洗練されたバージョンとして考えることができます。

時間の経過とともに多くの改善が行われています。フローマッチングペーパーの図があります。ディフュージョンでは、この種の空間でノイズから実際のものに行くために取るパスは、ループするパスであることがわかります。ここから始めて、ここに行こうとしています。OT（最適輸送）では、フローマッチングで主張していると思いますが、より直線的に進みます。

ベクトル場の概念

v_thetaはベクトル場を出力するように訓練されています。ベクトル場とは何でしょうか？現在のアクションシーケンスまたはアクションチャンクa_tが与えられると、次の時間ステップでのアクションチャンクであるa_towを生成しています。

ここで時間ステップが何を意味するかについては、たくさんの異なる時間ステップがあります。ロボットの観点からの時間ステップがあります。しかし、このフローマッチングモデルを使用しているときに拡散している異なる時間の概念があります。

ディフュージョンモデルは単一ステップでは動作しません。基本的に、ノイズから始めて、ノイズを除去する反復的な脱ノイズプロセスです。

推論とモデル実行

ノイズから始まります。ノイズチャンクから始めて、時間が負のdt/2以上の間、脱ノイズを行います。基本的に脱ノイズし、このdt * v_tがxtになります。上に戻って、再び脱ノイズ、再び脱ノイズ、再び脱ノイズします。それがこの小さなwhileループです。その反復プロセスです。

ディフュージョンモデルが反復的にノイズを除去している場合、それが実際に生成しているものはベクトル場です。これにより、ノイズを除去する方向に移動することができ、ノイズを除去するためにどの方向に移動するかを教えてくれます。

データ戦略の重要性

論文の大きな部分で、この話の中で最も重要な部分だと思うのは、データです。私は多くのストリームで以前に言ったことがありますが、データは深層学習とAI全般で最も重要な部分だと思います。

多くの人がモデルアーキテクチャを過度に重視しています。学術的な遺産があるからです。何十年もの間、学術界で認知と引用を得る方法は、主にアルゴリズムの新奇性と新しいトリックを見つけることでした。ディフュージョンモデルからフローマッチングへのようなものです。

しかし、私にとっては、より実践的で、エンジニアリングとプロトタイプの側面にいる人として、データは圧倒的に最も重要な部分です。残念ながら、データセットのクリーニングと新しいデータセットの発見ではあまり評価されませんが、実際に最高品質のモデルを生成するという点では、データがほぼ最も重要な部分だと思います。

コミュニティデータセット戦略

個々の実践者によって収集されたオープンソースデータの貢献により、より大きなロボティクスコミュニティがコミュニティデータセットで可能になります。学術研究室から家庭まで、多様な実世界設定で収集されたデータセット。これは、オープンソースでロボット学習を分散化し、スケールする大きな取り組みの一部です。

彼らの戦略の最初のことの一つは、データセットのアイデアに多大な努力を投入したことでした。データセットとは何でしょうか？この場合、データセットは多くのエピソードです。エピソード1からエピソード50まで見ることができます。

これはSO100ロボットを取って、おそらく誰かがテレオペレーションしているのです。画面外で誰かがこの小さなロボットの別のバージョンを持って、この青いブロックを掴んで、あの物に入れています。

Hugging Faceは、コミュニティを使用して特定のロボット実装のための大きなデータセットを収集する方法を考え出しました。それはすべて統一された形式で、すべて簡単に利用できます。なぜなら、これらはすべてクラウド内にあるからです。

Vision Language Modelの追加活用

タスクアノテーション（特定のデータセットに対するロボットの意図された行動の自然言語記述）に相当なノイズを観察しました。これらのハッカソンを作成し、すべての人にこれらのデータセットを作成してもらったとき、ある時点で人間がこのテキストが何であるかを基本的に決定する必要がありました。

アノテーションの品質を向上させるために、オフザシェルフのビジョン言語モデルQwen 2.5 VL 3B instructを使用して、簡潔なタスク記述を自動生成します。これは、画像生成モデルの論文を読んでいた時と似ています。通常はそれほど良くない画像キャプションを取り、VLMで拡張していました。

私にとって、VLMは、VALAの一部であるためだけでなく、これらの二次的な問題も解決しているため、ロボティクスに革命をもたらしています。VLMをデータセットフィルタリング、成功検出のための報酬として使用することに注意を払い続けてください。

非同期推論とアクションチャンキング

モデルはアクションチャンクを出力します。私たちのモデルπは、O_tを取り、A_tを生成します。これは、いくつかの観測（画像、タスク記述、ロボット状態）を取り、このアクションチャンク、a_tからt+Nまでを生成することについて既に話しました。

それをどう実際に実行するかということです。そのためには、少し戻ってACTについて話しましょう。これは元のACTペーパーです。実際に、コードを見たときに覚えていますか？ロボットが持っている政策の一つは、このactでした。Action Chunking Transformer。これは最も人気のあるロボット政策の一つでした。

ACTペーパーが導入した重要なアイデアは、時間的アンサンブリングの概念でした。全体のアクションチャンクを取得しますが、必ずしもそのアクション全体を最後まで実行してから次のアクションチャンクを取得して実行するのではありません。

常にこれらの観測を毎時間ステップで送信しており、それがアクションチャンクを生成しています。そして、戻ってくるすべてのこれらのアクションチャンクを取り、任意の個別の瞬間に、実際にロボットで実行している実際のアクションは、すべての以前のアクションのこの種のアンサンブルされたアクションです。

ロボットクライアントとポリシーサーバー

ここには2つのものがあります。ロボットクライアントと呼ばれるものと、ポリシーサーバーと呼ばれるものです。これは実際には2つの異なるコンピューターがあることを意味します。

私のロボットからのスクリーンショットがあります。以前に見せたものです。これは私がTatbotと呼んでいるものです。タトゥーロボットに取り組んでいます。このマシンでは、実際に2つの異なるコンピューターがあります。System 76 Mirecatがあり、これは基本的にCPUです。それから、基本的にGPUであるNvidia AGX Orinがあります。エッジGPUの一種です。

なぜこれらの2つのコンピューターを持っているのでしょうか？System 76 Mirecatを持っているのは、これが実際にロボットに接続されているからです。AGX Orinは、実際にモデルを保持し、実際に推論を実行しているGPUマシンです。

ロボットに直接接続されているマシンと、モデルを持ち、モデルで推論を行っているGPUを持つマシンです。それがロボットクライアント対ポリシーサーバーです。

非同期推論の利点

ロボットクライアントは現在の観測を受信します。それをパッケージ化し、ポリシーサーバーに送信します。ポリシーサーバーは、実際のモデルを持ち、それをモデルに供給し、何らかのアクションを生成します。

しかし、ここにはレイテンシーの概念があります。モデルは観測が与えられたときに即座にアクションチャンクを生成しません。この小さなAGX Orinがこれらの観測を受信し、それらのアクションチャンクを出力するのに時間がかかります。それが推論レイテンシーです。

これを行わなければ、観測を送信してアクションを受信する間に、ロボットはそこに座って、チャンクを受信して次のチャンクを実行できるようになるまで、完全に静止して待っているでしょう。

この2つの異なるコンピューターでこの非同期アクション実行を行うことで、その時間を節約しています。おそらく同じコンピューターでもできますが、System 76のような非常に良いCPUコンピューターとNvidia AGX Orinのような非常に良いGPUコンピューターを分離することは、非常に一般的な設計パターンになると思います。

今後の展望と課題

私たちはまだ非常に初期段階にあります。これらすべてのVLA、GrootであろうとPi0であろうとSmall VLAであろうと、これらはすべてまだ非常に小さいです。Nvidia Groot 2.19Bパラメーター、Lar Robot Pi0 3.5Bパラメーター、Small VLA base 450Mパラメーター。これらはすべて小さいです。

Llama 3.2 visionと比較してください。これは一般的なビジョン言語モデルの10Bパラメーターです。1桁大きいです。最新のDeepSeek R1 685Bパラメーター。複数桁大きいです。

なぜこれらの小さなモデルを使用しているのでしょうか？これらの小さなNvidia AGX Orinに収まる必要があるからです。現在、ロボティクス基盤モデルは、これらのエッジデバイスに収まる必要があるため、非常に小さいです。

しかし、ポリシー推論がクラウドで行われる未来に移行した場合、なぜ大きな685Bパラメーターモデルを使用しないのでしょうか？

模倣学習から強化学習へ

現在のアプローチは主に模倣学習に依存しています。これらのモデルでの知性の出所は、基本的にこれらのデータセットからです。基本的に行っていることは、これらのロボットをテレオペレーションしている人間の束を収集し、深層学習モデルを使用してそれらの人間を模倣しようとすることです。

知性は基本的に模倣的な種類の知性で、人間を模倣しています。これは実際に初期の言語モデルと非常に似ています。GPT-3のような初期の言語モデル。そこにはRLはありません。これらの初期の言語モデルの知性の大部分は、基本的にRedditの人間を模倣しようとしている、Wikipediaテキストを模倣しようとしています。

ロボティクスはまだその時点にあり、この種の模倣学習を行っており、まだ強化学習には至っていませんが、それは大きな部分になるでしょう。

未来の技術展望

また、推論モデルにも到達していません。最近、推論モデルとテスト時間計算について大きな爆発がありました。問題を解決しようとするときに、実際にモデルに多くのトークンを生成させ、それらのトークンを使用して問題についてもっと考えさせると、より良い答えが得られます。

ロボティクス内でのテスト時間計算の使用は、まったく見たことがありません。これが以前に行われていない理由があります。その一部は、この全体の推論状況のためです。ロボットは反応的である必要があります。リアルタイムである必要があります。

しかし、スケーリング次元の一つであり、それを追求しない理由はありません。第3レベルさえあるかもしれません。Figureはシステム1の高速反応制御、より遅いシステム2について話しているので、もっと遅いループのシステム3があるかもしれません。

中国企業の参入予測

私はロボティクス基盤モデルのDeepSeekモーメントが差し迫っていると見ることができます。現在、ロボティクス基盤モデルスペースには、Hugging Faceのヨーロッパ企業、NVIDIAのアメリカ企業、Physical Intelligenceのアメリカ企業があります。そこに大きく欠けている国があると思います。それは中国です。

中国のロボティクス企業の一つが、オープンソースロボット基盤モデルをリリースすると思います。DeepSeekが中国が非常に競争力のあるオープンソースモデルを生産できることを示し、何よりも彼らには今やオープンソースの伝統があるなら、私たちは現在利用可能なものよりもおそらく良いであろう中国のDeepSeekオープンソースロボティクス基盤モデルを見ると思います。

ロボティクススタートアップへの影響

来年のこの時期には、おそらく数十の異なるオープンソースロボティクス基盤モデルがあるでしょう。これは良いことです。私のロボティクススタートアップにとって何を意味するでしょうか？私はこの小さなタトゥーロボットを作ろうとしています。私にとって何を意味するでしょうか？

これは良いニュースです。ゼロから訓練するために多額のお金を費やす必要がなくなるからです。私の特定の実装のための小さなデータセットで、これらのロボティクス基盤モデルの一つをファインチューニングするだけで済みます。

ある程度の自由度、ある観測空間、あるアクション空間を持つある小さな特定のことを行うロボットを行っている場合、ゼロから何かを訓練する必要は決してないでしょう。この巨大な基盤VLAを訓練するために数百万ドルと数百万のGPUを費やす必要は決してないでしょう。

私がしなければならないのは、存在する最新のVLAを取り、私の小さな特定の実装でファインチューニングするだけで、それは素晴らしいものになるでしょう。そして毎年、それはどんどん良くなっていきます。

これは実際にスタートアップにとって巨大なアンロックだと思います。以前に存在していた資本の壁のようなものを取り除くからです。「良いモデルが欲しいなら、それを行うために多額のお金を費やさなければならない」というような。

現在のVLA、現在の基盤モデルは小さくて、つまらなくて、特に良くありません。しかし、来年のこの時期、特に中国企業が競争に参入するとき、特に強化学習を得るとき、特にサイズで数桁を得るとき、特にこれらのロボット基盤モデルに推論の側面を得るとき、このテクノロジーは非常に非常に良くなると思います。

ロボティクス基盤モデルをあなたの小さな特定の実装でファインチューニングでき、それは基本的にあなたにそれを与えるでしょう。それは、あなたの家の周りに座っているランダムなモーターを取り、基本的にそれらをこの生きているものに変える方法になるでしょう。それはかなりクレイジーになるでしょう。

私たちは、あなたに与えることができる任意の種類のタスクを基本的に行うことができるようになるまで約1年です。

皆さん、ありがとうございました。Small VLA、オープンソースロボティクスへの素晴らしい追加です。それを使用でき、ファインチューニングでき、楽しんでください。