タトゥーロボット

この動画では、開発者が自作のタトゥーロボットを使って自分の足にライブでタトゥーを彫る実演を行う。二本のロボットアームに装着されたタトゥーマシンを使用し、MCPサーバーを通じてロボットを制御している。その後、記録されたデータセットをHugging Faceにアップロードし、H100 GPUを使ってPI0.5視覚言語行動（VLA）モデルのファインチューニングを実施する。動画では模倣学習から「リアル→シム→リアル」パラダイムへのロボット工学の移行についても言及し、将来的にはエゴセントリックカメラを使った大規模データセット収集が重要になると予測している。

Tattoo Robot

Like 👍. Comment 💬. Subscribe 🟥.🏘 Discord: code 🏷️"hu-po-100"🏷️ on for 100€ of free compute.http...

タトゥーロボットのライブデモンストレーション
デモンストレーションの技術的詳細
データセットの作成とアップロード
クラウドGPUでのファインチューニング
H100での実際のトレーニング
新しいロボットデータセット形式への移行
Dream Controlと実際から仮想、そして再び実際へのパラダイム
技術的詳細とクラウドコンピューティング
プロジェクトの今後と結論

タトゥーロボットのライブデモンストレーション

皆さん、別のHoopoストリームへようこそ。今日は非常にクレイジーなコールドオープンから始めていきます。今日のストリームは「タトゥーロボット」と呼ばれており、ライブデモを行います。

シドが始まる前に質問をしています。ロボットVLMガードレールのプロジェクトに取り組んでいたそうです。基本的にはLLaMA Guardのマルチモーダルロボット版で、コンテキストに基づいて指示の安全・非安全分類に使用されるものです。これは確実に実現可能です。セカンダリビジョン言語モデルがロボットの入力を受け取り、それが安全な環境にあるか危険な環境にあるかを判定できます。

そして基本的には使用できる緊急停止のようなツールがあります。非常に危険な状況だと判断した場合、緊急停止を押すことができます。ロボットとの危険な状況について話していますが、今日私たちがやることはこれです、皆さん。タトゥーロボットを使って自分自身にライブでタトゥーを彫ります。

これがロボカムです。オーバーヘッドビューですが、なぜか遅延があります。ロボカム、頑張れ。これで大丈夫です。これはライブですか？手を動かしてみましょう。遅延があるようです。分かりました。

何が起こるかを少し説明してから実行しましょう。マックス・マウイ、金曜日おめでとうございます。私のロボットはこのような外観です。二本のWXAIアームがあります。5台か6台のPoE IPカメラがあります。グリッパーには2台のReal Senseカメラが付いています。タトゥーマシンを保持するカスタムエンドエフェクターを作成しました。そしてインクが入ったパレットもあります。私は足のこの部分にタトゥーを彫ります。

ここでタトゥーを彫るのが難しい部分は、基本的に真皮にちょうど良く到達させる必要があることです。表皮に入れたくありません。なぜなら色あせてしまうからです。また、皮下組織にも入れたくありません。なぜならブローアウトと呼ばれる現象が起こるからです。これは非常に難しい操作問題です。

ストリーム上に画像があります。動画が見えません。今は見えますか？この機械をオンにしましょう。昨日のOculusライブストリームほど悪くならないことを願いますが、どうなるか見てみましょう。

ご覧のように、私の足に赤いXがあり、これを基本的にキャリブレーションに使用しています。赤いレーザーがあり、このレーザーを使って足を同じ位置に保持する必要があります。

さて、ロボットを呼び出して、タトゥーの開始をロボットに伝えます。実際にMCPサーバーを使用してこれを行います。ご覧のように、ロボットは複数の異なるノードで構成されており、各ノードにはMCPサーバーがあります。基本的に、これらのツールを介してすべてのノードと通信できます。それがここで行うことです。ロボットストロークツールを実行します。

ニードルもオンにします。ブザー音が聞こえるでしょう。それがニードルが行っていることです。バッテリーの1つがすぐに切れました。両方のバッテリーがオンになっています。

皆さん、これは冗談ではありません。これは本当のタトゥーなので、集中する必要があります。小さなジョイスティックがあります。このジョイスティックは基本的にエンドエフェクターの距離を制御します。非常に小さなエラーマージンがあります。基本的に皮膚への法線ベクトルに沿って非常に小さな量だけシフトできるものがあります。

つまり、自分の痛みを使って深すぎるか十分でないかを判定しているのです。さあ、始めましょう。ロボットが動き始めます。行きましょう。今、心拍数がとても高いです。皆さん、すぐに話せなくなるかもしれません。うわ、これは痛いです。

最初の文字が完成しました。基本的に痛みを使って正しい深さにいるかどうかを判定しています。そこで少し深くなりすぎたかもしれません。MCPを通じて深さをどうやって制御していますか？基本的に小さなAtariコントローラーを使っています。

このデザインはそれほど複雑ではないので、5分程度しかかからないはずです。先端の隣にセンサーを使って描画中に保持する適切な距離を計算してはどうですか？それも可能です。

タトゥーニードルと実際のロボットの間にフォースパックを入れることも考えました。何らかのレーザーセンサータイプの状況も可能です。ここには多くの異なる解決策がありますが、これが私の現在の実装です。今は十分に深くなっていません。しかし、この左腕は非常に深く行きます。

なぜ2本のロボットアームなのですか？そこでのアイデアは、1本のアームでしかタトゥーを彫らない理由は1本のアームしか持っていないからです。しかし、これらの高級タトゥースタジオを見ると、人々が全体の背中のピースを欲しがるが複数のセッションは望まない場所があります。そこで彼らが行うのは、基本的に複数のアーティストが同時にタトゥーを彫ることです。

つまり、誰かが背中のピースを入れに行くと、4人の人が4本のタトゥーガンで同時にタトゥーを彫ることになります。ロボットを使用しているので、複数のアームを動かすことができます。理論的には、限界では8本のアームが同時にタトゥーを彫ることができ、これはより速くタトゥーを彫ることができることを意味します。基本的に、一方のアームがタトゥーを彫っている間、もう一方のアームがインクに浸しています。

痛い。皆さん、もうすぐ終わります。これは少し雑になるかもしれませんが、見てみましょう。しっかりと、しっかりと。マークV、ロボットアームが故障しないことを祈っています。特定の故障ケースがあり、基本的にアームに何かが起こると、アームがシャットオフして前方に垂れ下がります。それが起こると、基本的に私の足を刺すことになり、本当に痛くなります。しかし、このタトゥーは非常に短いです。全体を完了することを願っています。

より長いものをやろうとしたことがありますが、長いものをやるときは必ず遭遇します。タトゥーアーティストは通常、何をしているかを見るために間でエリアを拭きませんか？100％そうです。基本的に彼らは複数の異なるニードルでタトゥーを彫っています。はるかに長いセッションで、多くの異なることが起こっています。このものについては、足と脚を静止させている限り、実際にエリアを拭く必要はありません。

そこで奇妙なスナップがありました。脛骨の上にあり、ニードルが深すぎると脛骨に入り、それが実際に痛みを与えるときでもあります。ここで、深すぎると、ふくらはぎの肉に入るだけで、実際には問題ありません。

これで終わりだと思います。やったぞ。やりましょう。それだけです、皆さん。今ニードルをオフにします。エリアにペーパータオルを置きます。グリーンソープと呼ばれるものを付けます。拭き取ります。

皆さん、文字のいくつかは良いです。いくつかはゴミのようですが、ライブデモではそうなるものです。脚を戻します。それがデモでした。今度はストリームに戻りましょう。

デモンストレーションの技術的詳細

ロボカムをここで閉じましょう。今行ったことについて話しましょう。最も簡単な方法は、実行できる視覚化MCPサーバーがあることです。そうすれば、ここで起こったことのシミュレーションを見ることができます。ここで素早くログインしましょう。

MCPサーバーを再起動しています。これがcursorでのMCPサーバーの最も迷惑な部分です。これらの小さな緑のものを切り替える必要があるという事実です。非常に迷惑です。ストローク視覚化サーバーを実行しましょう。

MCPでのこのエージェントワークフローに関して、異なるモデルが特注のMCPツールを使用する能力には大きな違いがあることがわかりました。多くのエージェントハーネスがcodecなどの特定のツールに基本的にファインチューニングされているのは既に知っています。私が持っているような独自のツールの束がある場合、通常、各ロボットノードに約5から10のツールがあり、異なるモデルがそれを使用するのが非常に困難になります。

GPT-5は一般的に以前に見たことのないツールを正しく使用できることがわかりますが、小さくて性能の低いモデルのほとんどは、以前に見たことのない30のツールを扱うのに非常に苦労します。タトゥーロボットのような奇妙なものの場合は特にそうです。彼らのトレーニングデータセットには、リモートで似たようなものが何もないからです。

ストローク視覚化を開始しています。実行しましょう。視覚化にはVisorを使用しています。非常に優れた小さなPythonパッケージです。強くお勧めします。rerunは別の人気のある視覚化ツールです。

これが私がタトゥーを彫った実際のデザインです。これはAI生成のレタリングです。これはFluxだと思います。Fluxが私のためにこのデザインを生成しました。そして、実際にペンプロッター用に使用されるソフトウェアを持っています。

基本的に画像を一連のストロークに変換するマシンがあり、それらのストロークをロボット上で実行し、すべての逆運動学を事前計算します。これが実際のデザインシミュレーションです。実際に起こったことのスピードアップです。基本的にインクがあるパレットに浸し、交代で行っています。

一方が浸している間、もう一方が進んでいます。これに厚みがある理由は、ニードルが真皮だけに入るように正確性を正しく取得するのが不可能だということがわかったからです。そのため、この小さなAtariジョイスティックを使用しています。

ニードルが入るとすぐに皮膚への法線ベクトルがわかり、その法線ベクトルに沿ってIKを使用して複数の位置を事前計算するので、ストローク中のどの時点でもこのジョイスティックを瞬時に動かすことができ、わずかに上に引いたり、わずかに押し込んだりできます。

つまり、基本的にはオープンループ制御ですが、私がループを閉じています。私は人間で皮膚を感じることができるので、深すぎるときと十分でないときをある程度判断できます。基本的に私がループを閉じて、オフセット次元と呼ぶもので選択しています。

データセットの作成とアップロード

Tapbotのリポジトリは基本的に全体的にlil robotを使用しています。実際にここで記録していることがわかります。実際のデータセットです。これを少し大きくして皆さんが見えるようにしましょう。そのタトゥーは14のエピソードで構成されていることがわかります。

たとえば、2つのReal Senseからのビデオがここにあります。私の美しくて気持ち悪い足があります。実際のタトゥーニードルが入っているところです。次に行うことは、実際にインターネットにアップロードすることです。それを行うスクリプトがあります。

これは一般的な名前が付いているので、名前を変更しましょう。tapbot logo skin real tapbot logo liveと呼びましょう。その名前をコピーして、scripts upload hugging face recordingを実行します。その名前を渡してEnterを押します。非常に速くアップロードされます。

これでHugging Faceページに行くことができます。Tapbot用に作成したページです。皆さんもここに来ることができます。リフレッシュすると、そこにあります。Tapbot live 2024。これは単なるログのようなものです。

基本的にプレビューには時間がかかりますが、たとえば、以前のデータセットに行くことができ、これが実際にどのように見えるかを確認できます。各カメラの観測画像、オーバーヘッド画像、そしてロボットの実際の位置があります。

このデータセットで何ができるでしょうか？今このデータセットがあります。このデータセットで何をするのでしょうか？VLAをファインチューニングできます。それが今日行うことです。最新のPI 0.5をファインチューニングします。現在おそらく最高のオープンソースVLAであるPI 0.5です。

これは2025年9月にリリースされたばかりです。非常に新しいバージョンです。これが実際の外観です。VLAです。この部分がVLMで、VLMの代わりにVLAにするアクションエキスパートです。アクションエキスパートは基本的に小さな拡散モデルです。これがロボット上で実行される実際のアクションです。

これらは基本的にジョイント位置です。そして入力は3つのカメラ画像です。3つのカメラ画像は2つのグリッパーカム画像と、彼らがオーバーヘッド画像と呼ぶものです。そしてテキストもあります。

私の状況では、このオーバーヘッド画像はそれほど有用ではないと思います。タトゥーを彫るときは、このような非常にクローズアップショットが必要だからです。実際に行ったことは、オーバーヘッド画像を使用する代わりに、ストローク画像と呼ばれるものでファインチューニングしたことです。

ストローク画像は、たとえばこれです。その時点で実行されている特定のストロークでのデザインの画像です。基本的に私のファインチューンは、open pi 0.5を使用して両方のグリッパーカム画像とこのストローク画像を使用することです。

クラウドGPUでのファインチューニング

Open PIをファインチューニングする2つの異なる方法があります。LoRAファインチューニングとフルファインチューニングです。LoRAファインチューニングは明らかにメモリがはるかに少なく、RTX 4090のような小さなGPUでも実行できます。私の3090でも動作します。

LoRAを使用してファインチューニングする場合、このモデルのほとんどの部分は実際に凍結されています。実際にはこのモデルのどの部分にもグラデーションをプッシュしていません。代わりに行っているのは、低ランクアダプターの2つのコンポーネントであるWAとWBマトリックスにグラデーションをプッシュすることです。

ランクは単純に、WAとWBを掛け合わせたときのこの次元性です。マトリックス乗算の仕組みにより、Rを設定でき、それがこのWAとWBの重みの数を決定します。しかし、次元性はここの入力次元によって決定されるため、RはWAWBの次元性を変更しません。

つまり、このRを非常に小さくすると、WAとWBのパラメータ数は非常に小さくなります。グラデーションをプッシュするとき、オプティマイザの状態はそれほど大きくありません。そこに多くの値がないからです。これが、LoRAファインチューニングが非常に小さなコンピューターまたは少ないVRAMの小さなGPUで実行できる理由です。

フルファインチューニングは、モデル内のすべての重みをオプティマイザ状態に入れ、すべてにグラデーションをプッシュするときです。しかし、それを行うと、はるかに多くのメモリが必要になり、より大きなGPUを使用する必要があります。

これは実際にやったものではありませんが、たとえば、ここにデザインがあります。これは何かのビデオゲームの知識です。これが何かわかる人は、友達になれます。ここで実際のストロークが見え、左腕と右腕、右グリッパーカム、左グリッパーカムがあります。

これらは私が3090で行ったLoRAファインチューンです。それぞれが実際に非常に速いです。ここで基本的に約1時間でこれらのLoRAファインチューンをトレーニングできることがわかります。しかし、それらはフルなものほどクールではありません。それが今日行うことです。

Data Crunchと呼ばれるオンラインGPUクラウドサービスを使用します。ここが私のData Crunchポータルです。素敵な小さなUIが見えます。このデプロイインスタンスをクリックします。ここでオンデマンドまたはスポットの選択肢があります。

スポットインスタンスは安くなりますが、基本的に不安定です。インスタンスが突然オフラインになる可能性があります。長いトレーニングジョブがある場合は、おそらくスポットインスタンスを使用したくないでしょう。短い計算ジョブで、それほど重要でない場合は、たとえば小さなバージョンのモデルで大きなハイパーパラメータスイープを行っている場合、インスタンスが死んでそのうちのいくつかが実行されなくても、それは完全に大丈夫です。しかし、これについては、オンデマンドを行います。

明らかに、より長い期間予約したい場合は割引を受けることができます。ここで彼らが提供するさまざまなGPUを見ることができます。具体的にH100を選びます。ノードあたり8つのGPUを持つH100があります。そして、ノードあたり1つのGPUを持つH100があります。

H100を1つ選択します。これは実際には本物ではありません。おそらくノード内に8つのH100がまだありますが、そのうちの1つのサブセットを取得しているだけです。基本的にコンテナと仮想マシンを使用してそれらを分割できます。

1xH100で、固定価格設定、動的価格設定を選択できます。固定価格設定を選択します。場所を選択できます。ここではFinland 3を選択します。そしてオペレーティングシステム。

彼らはいくつかの事前構築されたオペレーティングシステムを持っています。しかし、ここでノードで既にトレーニングしました。実際に既に小さなオペレーティングシステムを持っており、これはData Crunchが提供する非常に素晴らしい小さな機能で、基本的に既存の種類のボリュームをロードできます。これをクリックします。

追加のストレージは必要ありません。SSHキーは既に設定されています。特別なスタートアップスクリプトがある場合は、そこに置くこともできますが、何もありません。基本的にすべてがクリックされています。デプロイをクリックできます。

しかし、実際にその前に、皆さんのために何かがあります。ここのクーポンを追加を見てください。皆さん用のクーポンがあります。Data Crunchがスポンサーしてくれており、このコードをくれました。hoopo100のコードを使用して、data crunch.ioで100ユーロの無料クレジットを受け取ってください。

これは非常に大きいです、皆さん。100ユーロで1時間199ユーロのH100は約50時間のH100です。50時間のH100は、PI Zeroをファインチューニングするのに十分以上で、小さな実験を実行するのに十分以上です。

先に進んでやってください。無料クレジットです。そこに行って、ランダムなトレーニングを実行することもできます。hyperparameterスイープを実行して、何でも好きなことをやってください。お勧めします。

実行中に、この特定のデータセンターについてもう少し見せたいと思いました。FIN03、これは私たちがこのH100を実行するデータセンターです。ヘルシンキ、フィンランドにあるデータセンターです。実際の外観を見ることができます。何らかの冷却または電源状況がここで起こっています。

Data Crunchの素晴らしい点の1つは、基本的に再生可能エネルギーを使用してデータセンターが稼働していることです。これは、米国で利用可能なデータセンターの一部とは非常に異なります。これらは文字通りガスタービンで稼働しています。

ここでMetaとxAIのトレーニングクラスターのsemi analysisがあります。Northは1メガワットの総電力です。xAIは200メガワットで、1.1ギガワットを建設中です。Metaも同様に1ギガワットのAIトレーニングクラスターを建設中です。

実際に似たようなデザインであることがわかります。たとえば、xAIでは、これらの電源冷却トラックのような奇妙なものがあります。それがここで起こっている同じ種類の奇妙なもので、データセンターです。

H100での実際のトレーニング

このSSHをコピーして、SSHします。できました。そして入りました。いつも楽しい部分は、このようなGPUを使用することです。nvidia-smiを実行しましょう。80ギガのH100です。とてもクールに見えます。これが私の家にあるコンピューターです。これは哀れです。24ギガの3090対80ギガのH100です。

文字通り今ここにいます。この建物にいます。この建物の中のこのH100にいます。皆さん、これ以上お勧めできません。このビデオを見ているインターネット上のランダムな人として、メールアドレスを入力してクーポンコードを入力するだけで、このH100を担当してここに座ることができ、何でも好きなことができます。

このGPUは私の家にあるどのGPUよりも優れています。家にたくさんのGPUがありますが、これらの悪い子H100と比較するとすべてゴミです。

次のステップは何でしょうか？Tapbotデータセットを作成し、今度はそれをファインチューニングしたいです。最初に行う必要があるのは、基本的にそれを変換することです。実際のファインチューニング設定です。

これはPI zeroリポジトリにあります。基本的にトレーニングがどのようになるかを決定するこれらの設定があります。ファインチューニングするとき、最良の開始点は最も近い実施形態を見つけることです。1アームロボットがある場合は、1アームロボットでもファインチューニングするトレーニング設定を見つけてください。

私の場合は、バイマニュアル設定です。2つのアーム、両方ともWXAIアームです。グリッパーカムがあり、オーバーヘッドカムとしてこのストローク画像も使用しています。見つけた最も近いものはPI 0 Alohaでした。

PI 0 Alohaのサンプルデータセットがここにあります。実際にこれには4つの画像を使用しています。左グリッパーカム、右グリッパーカム、ハイカムと呼ばれるオーバーヘッドビュー、そしてローカムと呼ばれるグラウンドビューがあります。

私のものとは少し異なります。ストローク画像と左右だけですが、最も近いです。それが出発点として使用したものです。PI zero Aloha pen uncapです。

Tapbotフルファインチューンとローメモリ用のLoRAのトレーニング設定があります。3090で行ったのがローメモリで、H100で行うのがフルです。私のアクション次元性は実際には32未満ですが、これをいじる必要はないと思います。

いじると厄介になります。現実的に、アクション次元性（基本的にロボットのジョイントの総数）がこの数32より小さい場合は、action dim equals 32を使用して、他のアクション次元を無視するだけです。

ここにデータセットがあります。これは興味深いです。どんな種類のディープラーニングをするときでも、モデルにデータを入力するとき、そのデータを正規化したいのです。データに非常に大きな値や非常に小さな値を持たせたくありません。トレーニング分布を原点でゼロを中心とした大体良いガウシアン形状にしたいのです。

特定のアームと特定のタイプのタスクは、ジョイント空間でいくらかのバイアスを持つことになります。ジョイント空間の他の部分よりもはるかに一般的な部分があります。そのため、基本的にそれを行う前にそれを正規化したいのです。

幸い、open piにはこのトラスとアーム用のこれらの正規化があります。これは完璧ではありません。理想的には、tapbot専用にこれを自分で再計算するでしょう。しかし、今のところはおそらく大丈夫だと思います。

ヘルナンド、調子はどうですか？これを以前にカバーしたかどうかわかりませんが、表面の弾性をそれほど考慮せずに、純粋に紙に対して行っているのですか？はい、紙に対して行うエンドエフェクターがあります。たとえば、これは紙です。

タトゥーニードルが実際にはボールペンであるものがあります。見えるかどうかわかりませんが、そのエンドエフェクターは実際にはペンです。基本的にTapbotを使用しているデータセットがありますが、基本的にボールペンで描画しています。そして、このようなデータセットがあります。これは私が使用したニードルで、実際のニードルです。

設定を作成しました。いくつかのチェックポイントから開始するように指示もします。この場合、ベースpi05から開始します。トレーニングステップ数と保存間隔も与えます。

今度はここのマシンに戻りましょう。実際に、ここからもSSHして、nvidia-smiを実行して見られるようにしましょう。なぜならそれを見るのはいつも楽しいからです。watch -n0.1 nvidia-smiを実行しましょう。

トレーニングを開始するとすぐに、VRAMの使用量がこのように増加するのを見ることができるでしょう。このコンテナが既に設定されているので、実際にはたくさんの依存関係をインストールする必要はありませんが、いくつかの環境変数を設定する必要があります。

たとえば、wandbプロジェクトとwandエンティティ、そしてこれらのメモリ割り当て設定を伝えます。これは基本的に、Jaxがたくさんのメモリを事前に割り当てるような状況を防ぎます。エージェント（ユーザーが知っているようなエージェントではなく、wandエージェント）を実行しているからです。これは基本的にトレーディングスクリプトを実行する自動化されたプロセスです。これがハイパーパラメータスイープを行う方法です。

エージェントは時々メモリとうまく相互作用しません。これらの設定が役立つことがわかりました。cd open piしてから、source.vin activateを行う必要があります。今、私たちは内部にいます。私たちはフィンランドにいます。この建物のどこかにいます。その建物の内部にいます。小さなH100の内部にいます。

このスイープを作成しましょう。実際に、まずwandフォルダーを削除しましょう。これにはすべてのログが含まれています。おそらく私が望まない古いゴミがたくさんあります。スイープ設定からスイープを作成します。これは基本的にスイープしているさまざまなハイパーパラメータです。

そして、このエージェントを単純に実行します。そのコマンドをコピーして、そのエージェントを実行します。wandエージェントを開始するのがわかります。ここでこのメモリが上向きに爆発し始めるのを見るべきです。

ここで実行している最初のコマンドが見えます。少し時間がかかっています。人々はどうですか？そこにいきます。553を少し割り当てました。それが上がり始めるのを見るべきです。

既に保存されているため、このボリュームを保存したので、既にモデルがダウンロードされているはずです。モデルを見つけています。キャッシュからモデルをロードしています。これが突然上がるのを見るはずです。12です。モデルをロードしたのが見えます。

オプティマイザをロードしました。モメンタムなど、追跡する必要があるさまざまな中間的なもの、そのようなゴミがすべてここで見えます。そして、約50ギガです。このH100のメモリをすべて利用しているわけではありませんが、とにかく非常に小さなデータセットです。

バッチサイズをもう少し調整できたかもしれません。ここで重要な別のパラメータがあります。アクションホライゾンです。アクションホライゾンは基本的に、それが何であるかを示すより良い画像があるかどうか見てみましょう。

時間的にどこまで振り返っているか、またはそのチャンクを実行するときにいくつのアクションを予測しているかのようなものです。基本的にこのロボットに使用している時間のスライディングウィンドウのようなものです。これが重要な理由は、これを大きくすればするほど、メモリをより多く消費するからです。

画像サイズのようなもので、画像サイズを大きくすると、メモリが爆発します。Action Horizonも同じようなものです。これを小さくしすぎると、モデルは操作している時間ウィンドウが非常に小さいので、かなり性能が悪くなります。しかし、大きくしすぎると、トレーニングするためにかなり大きなマシンが必要になります。

トレーニングしています。見てください。進んでいます。ステップ数はそれほど多くありません。このビデオのために、大量のステップをやりたくありませんでした。他の設定のいくつかを実際に見ると、たとえば、PI 0 fast full droid fine tuneでは、100,000ステップでトレーニングしているのがわかります。これは多いです。

8x H100で2日かかると言っています。このストリームにはそんな時間はありません。はるかに少ないことをやっています。小さなアクションホライゾンで単一のH100で4,200ステップをやっています。これはストリームの終わりまでに完了できるはずです。

LoRA対非LoRAについて話しました。data crunchについて話しました。クーポンコードについて話しました。絶対に使用すべきです。無料だからです。無料クレジットです、皆さん。文字通りログインして、このノードに行って、ランダムなモデルを実行するだけです。

これらのデータセンターについて、相対的な違いについて話しました。1ギガワットがどれだけかを理解していません。200メガワットから1.1ギガワットで、この建物が1メガワットであることを実現すると、既にxAIクラスターはこのサイズの200倍であり、1.1ギガワットのものを構築しようとしています。

これらのアメリカのデータセンターに投入される計算と電力の途方もない量です。ここに戻ると、これはopen pie full H100で、これらのプロジェクトは公開されているので、説明に入れたリンクに行くことができます。

説明でこれらのwandbbプロジェクトへのリンクを取得できるので、これらのトレーニング曲線を見ることができます。いくつか異なるものがあります。lossがあり、ここに小さなヒントがあります。このlossが平坦になっているように見える状況を見るのが難しく感じるのがわかります。

実際に起こっていることは、このプロットが実際に正しくないということです。実際にやりたいのはこれです。これをクリックして、この小さなものを見てください。これは基本的にログスケールに変更します。y軸でログスケールが欲しいのです。

今はるかに良く見えます。これが見たいものです。このlossが下がるのを見たいです。これは見やすくなっています。適用をクリックします。今これがより有用です。勾配ノルムも有用です。これは基本的にこれらのステップがどれだけ大きいかを教えてくれます。

loss landscape vizを見失いました。これを何百万回も視覚化しましたが、この視覚化が大好きです。プルアップするのを待ちます。探索しています。ロードしています。100ユーロは私の国の通貨で75個のクロワッサンです。それらはかなり安いクロワッサンです。1ユーロのクロワッサンはおそらくゴミで気持ち悪いと思います。

ここにポイントを落としましょう。どこでもクリックしてください。勾配降下があります。この大きさとここでジャッキアップできるこれらのステップは基本的にここのこの勾配ノルムです。巨大なステップを取りたくありません。巨大なステップを取るときに起こることは、このデルタwが非常に大きくなることです。

基本的にすべてのステップでこれらの重みがたくさん変わり、これらの重みがたくさん変わるとすぐに、このモデルにあったものを破滅的に忘れてしまいます。PI zeroをファインチューニングするとき、physical intelligenceチームは、基本的にこれにプッシュした素晴らしい大きな派手なデータセットを作成するために多くの時間とエネルギーとお金を費やしました。

インターネット上で行われた事前トレーニングもあります。あまりにも多くの勾配が入ると、重みをあまりにも変更すると、モデルは以前のトレーニングについて忘れてしまいます。これは良くありません。ファインチューニングは、特定の実施形態に対して機能させるために必要な最小の調整を見つけ出すアートのようなものです。

これが今起こっている実際の実行です。これをクリックできます。システムに下がりましょう。電力使用量、GPU メモリ割り当て80％。それは期待されるものです。そして、GPU使用率があります。これは一般的にチェックしたいもう1つです。100が見えます。それはかなり良いです。

ここに大きな落ち込みがあります。その大きなGPU使用率の落ち込みで何が起こっているかを調査できるかもしれません。クーポンボタンはどこですか？インスタンスを作成するときです。デプロイする直前にクーポンを追加でき、そこで無料のお金を得ることができます。

それがトレーニング中に、ここに考えがクールだと思う小さなヒントがあります。このようなハイパーパラメータスイープを行うとき、今実際に心を打つことができることは、基本的にこれらすべてのプロットの表形式バージョンであるこのチャートに行くことです。

この小さなダウンロードボタンが見えます。それをCSVとしてダウンロードします。CSVとしてエクスポートします。今、すべての情報を含む巨大なテーブルがあります。実際にできることは、その情報をブラウザベースのフロンティアモデルに与えることです。

たとえば、ここにGPT-5があり、ここにGrokがあります。基本的にこのCSVファイルとマークダウンを与えました。モデルトレーニングやハイパーパラメータスイープを行っている場合は、実験ログのようなマークダウンファイルを保持すべきです。

このマークダウンファイルに、すべての情報を入れます。これが私がやっていることです。このモデルをファインチューニングしています。これが使用しているデータセットです。特定のアクション次元、アクションホライゾン、そこにあるさまざまなカメラに関する情報があります。

この特定のGPUでトレーニングしています。これが実行に使用しているコマンドです。基本的に、誰かがこの実験を理解するために必要なすべての情報、すべてのコンテキストをこのマークダウンファイルに入れているので、そのマークダウンファイルとハイパーパラメータスイープのCSVエクスポートを取得して、Grokに尋ねることができます。

私のtap実施形態でのPI 0.5の様々なLoRAファインチューンに対する私のスイープの結果を理解するのを手伝ってください。ファインチューニングに関する詳細のマークダウンとスイープの各実行の結果を含むCSVファイルを添付しました。実際にこれらはかなり良いことがわかりました。

以前は、経験と知識、そしてほとんど味のようなものを持って、ここで何が起こっているかを本当に理解する必要がありました。このハイパーパラメータを変更すると何を期待すべきかなど。そこには多くのニュアンスがあり、それが得意であることが、良いMLエンジニアと平均的なMLエンジニアの違いを本当に作りました。

しかし、プログラミングがエージェントの管理についてのようになったのと同様に、この種の実験でも同様の効果があります。完全に自分で結論に達したくはありません。これらのモデルには、ハイパーパラメータとモデルとファインチューニングについて非常に良い直感があるため、これらのモデルに頼りたいのです。

彼らはすべてを知っています。LoRAが何かを知っています。ランクサイズがいくつかを知っています。たとえば、ここの最後で、「ああ、これが最良だと思う特定の実行で、他に試すことができることがあります」と言っています。

ちょっとしたホットヒントですが、ワークフローを改善したと思うものでした。興味深いと思ったのは、たとえば、Grokは基本的にコンテキスト内でプレーンテキスト形式でCSVを持っているようです。特別なことをしたようには見えませんが、GPT-5 Proは実際にたくさんのPythonを作成しました。

実際に、それがこのCSVファイルを何らかのマウントにロードし、実際にこのCSVをスクレイピングして小さなPythonファイルをたくさん作成するPythonコードの束を作成したのが見えます。それが完了すると、意見を提供します。これが良いか悪いかわかりませんが、興味深いと思いました。

たとえば、ここにlossヒストグラムがあります。この時点で、それは既にそれを取り除いていますが、それはクレイジーです。これをそれに移動すべきです。ここで何が起こっているのですか？空間の良いコーナーを制約しました。わかりません。かなりクールなものです。

トレーニング実行がどうなっているか見てみましょう。これにカーソルを合わせることができます。約1,000ステップでここにあることがわかります。ここに戻ります。約33％完了していることがわかります。もう少し時間がかかります。H100のGPUメモリが80のうち約70ギガであることがわかります。

新しいロボットデータセット形式への移行

他に時間を稼ぐために何ができるでしょうか？ああ、これです。残念ながら、ここで少しひどい目にあいました。すべてのトレーニングスクリプトと私が行う記録は、データセット記録、データセット変換スクリプト、ファインチューニングスクリプト、すべてのスクリプトが少し古いL robotデータセット形式を使用して書かれていました。

運悪いタイミングのようですが、9月16日（今週初め）に、基本的に私が既にこのすべてを完了した後、彼らは新しいデータセット形式をリリースしました。robot dataset B3.0と呼んでいるものです。実際、これらのスクリプトの束が壊れています。

ここで見せているのは、実際に私が記録したばかりのものではなく、少し古いデータセットでファインチューニングしています。これは標準的です。ここでやっているようなロボット工学の最先端で作業するとき、ツールがあなたの下で急速に変わります。

TensorFlowで作業した人はこれを覚えているかもしれません。TensorFlowの1から2への移行で、最先端にいる場合、すべてのツールが非常に急速に変わります。基本的にすべてのコードを捨てて、それを書き直したり修正したりする意欲が必要です。

彼らが行った最大の変更は、このストリーミングのようです。robot datasetのストリーミングと呼んでいます。なぜこれが重要なのでしょうか？重要な理由は、ここで言っているように、「何百万ものエピソードを持つ可能性のあるデータセットをサポートし、数億の個々のフレームをもたらすために、異なるエピソードからのデータを同じ高レベル構造にマージします」。

彼らがこれを行った理由は、たとえば私たちの状況では、私が収集した非常に小さなデータセットでファインチューニングしているからです。このtapbot logo live streamのようなものです。たとえば、これらのビデオの1つを見ると、これは30メガバイトのビデオで、これは基本的に何でもありません。

つまり、H100にいるとき、トレーニングの開始時にこのデータセットをダウンロードして、実際のインスタンスのボリューム内にちょうど座っているということです。データセットは基本的にGPUのすぐ隣、同じマシン上にあります。同じマシンではないかもしれません、data crunchによって抽象化されている部分があるかもしれませんが、基本的に計算と同じ場所にあります。

しかし、ロボット工学は進歩しており、robot formatを使用する人々がはるかに大きなデータセットでトレーニングを開始する時点に到達し始めています。ある時点で、実用的であることの限界に達し、実際に計算を行っているマシンに全体のデータセットをダウンロードする必要がないようにしたいのです。

データが他の場所に存在し、必要に応じてストリーミングしたいのです。それがメインのことのようです。ここにいくつかの変換がありますが、これらの変換は正直言って常に面倒です。なぜなら、わかりません。基本的に物事を再記録する方が良いです。それが私の潜在的に不人気な意見です。

ここに戻りましょう。まだ進行中です。これを行いましょう。これでファインチューンの1つを実行します。これを継続させます。しかし、ここで、ファインチューンを実行する方法です。

ダウンロードしたと仮定します。そのモデルのトレーニングが完了すると、チェックポイントが作成され、現在フィンランドにあるこのマシンのそのチェックポイントを取得して、テキサスの私の家のマシンにローカルにダウンロードする必要があります。

既にそれを行いました。少し遅いですが、フィンランドからテキサスの私の家にこのチェックポイントをダウンロードしたのがわかります。テキサスの私の家に着いたら、基本的にこのファインチューンされたポリシーを実行できます。

これを行う方法は、実際に分割することです。ロボットを制御しているマシンは、実際のポリシーで推論を実行するマシンと同じではありません。hogこのマシンです。これは実際にモデルまたはロボットを実行しているマシンです。これはReal Senseカメラに接続されているマシンです。これはロボットアームに接続されているマシンです。

そして、このマシンは3090と書かれています。これは実際にポリシーサーバーを実行するマシンで、基本的にモデルがVRAMにロードされ、そこに座って待機するだけです。たとえば、ここでEnterを押すと、3090にロードされ、それを見るために新しいものを開くことができます。

watch -n0.1 nvidia-smiと言えます。そこにあります。3090の24GBのVRAMのうち約19GBがこのモデルをホストするために満たされ、このモデルまたはこのポリシーサーバーがこのポートでリスニングしているのがわかります。基本的に誰かにコマンドを与えられるのを待っているだけです。

今度は、素早く見ることができるtapbot inferスクリプトを実行します。examples tapbotはここにあります。examples tapbot infer。基本的にやっていることは、ロボットオブジェクトまたはロボットロボットオブジェクトを作成することです。シングルトンのようなパターンです。

左と右からカメラを読み取ります。基本的にwhileループがあり、画像を取得し、モデルに供給する必要がある形式に変換するだけです。prep imageが見えます。U88レターボックスクロップに変換し、適切なサイズにリサイズします。

それをモデルに供給します。client.infer。それは基本的にパッケージ化し、ポリシーサーバーに送信します。ポリシーサーバーが推論を行います。実際のアクションを取得します。このアクションチャンクを作成し、そのアクションチャンクを実行します。そこからsend actionが来ます。

そして実行します。たとえば、今ロボットで実際にそれをやってみましょう。サーバーがウェブ接続を拒否しました。間違ったサーバーを待っていたと思います。scripts.serve policyこのスクリプトが少し間違っていると思います。この正確なIPを与える必要があると思います。192.168.1.51。

うまくいくかどうか見てみましょう。GPUをもう一度見てください。ポップアップしました。ロードされていることがわかります。聞こえます。ポートが正しいものでリスニングしています。もう一度実行しましょう。また拒否されました。

クーポンボタンは再びどこですか？何も見逃していないか確認したいだけです。これをライブでデバッグしようとすることはできますが、困難になるでしょう。Zuckに戻ることはできません。実際に、何が間違っているかわかると思います。ポート番号が間違っていると思います。

inferに戻りましょう。Vimします。8,000を検索します。そこにあります。挿入します。これを3に変更します。今実行しましょう。これで、ロボットがファインチューンポリシーを実行しています。

実際にrobo camを開いて皆さんが見えるようにしましょう。まだこのIPカメラですが、キャッシュが非常に奇妙です。RoboCam。頑張れ、RoboCam。あなたが唯一の希望です。そこにあります。

これが実際のモデルです。基本的にオーバーフィットしているのがわかります。それが私が遭遇している問題です。これらのTapbotスクリプトの1つでファインチューニングするとき、十分な勾配をプッシュしないか、十分に上書きしないか、破滅的に忘れさせて、正確ではなくなります。動作が少し緩すぎるか、オーバーフィットしてTapbot的なことしかしなくなります。

TapbotとTapbot固有でないアクションの両方を正しく行うファインチューンを作成するのは非常に困難です。たとえば、ここでプロンプトを与えた場合、これがTapbotのプロンプトがどのように見えるかです。ファインチューニングするとき、プロンプトが何かを伝えています。

プロンプトは「ink dip right arm」や「ink dip left right large to fill」、「left arm rest」のようなものかもしれません。基本的にこのアームをこれに浸し、この特定のストロークを描き、ストローク画像を与えていると伝えています。このようなものを与えています。前に見せましたが、このようなものです。

この画像を条件付けています。physical intelligenceが条件付けているこの画像、実際のオーバーヘッド画像の代わりに条件付けています。このオーバーヘッド画像は、これらのタトゥーで見ているものが非常に小さいので、ちょうど十分ではないかもしれないと思いました。

「wave your left arm up and down」をやってみましょう。そのプロンプトを実行できるかどうか見てみましょう。何が起こるか見てみましょう。今「wave your left arm up and down」をやろうとしています。なんとかやっています。

まだ右腕をインクに浸したがっているのがわかりますが、左腕が上下しているのがわかります。少しの汎化がまだそこにあります。それがロボットの今の難しい部分です。これらのモデルは非常に小さいです。ファインチューニングするとき、少しオーバーフィットしてしまいます。適切なバランスを見つけるのは非常に困難です。

RoboCamを閉じましょう。これは常にReal Senseフレームをドロップしているのがわかります。これらのReal Senseカメラは控えめに言ってもゴミです。Real Senseカメラを常に使用している人として言っています。今この部屋に10台の異なるReal Senseカメラを持っており、おそらく10年間使用していますが、良くありません。

多くの電力を消費するので、常に故障します。USBポートレベルでの故障のような故障ではありません。基本的にアンプラグ、リプラグする必要があり、大きな痛みです。しかし、残念ながら、消費者価格で購入できる唯一の良い深度カメラであるため、まだ使用する必要があります。

長期的には、深度は使用しません。RGBカメラだけを持ち、RGBカメラを持ったら、ウェブカメラは非常に良いです。

データセットを記録または録画しました。HuggingFaceにアップロードしました。H100をスピンアップしました。H100にモデルとデータセットをダウンロードしました。そのH100でファインチューニングしました。H100からローカルコンピューターにチェックポイントをダウンロードしました。ローカルコンピューターで、3090でポリシーサーバーを実行しました。

そして、すべてのデバイスに接続されているロボットコンピューターで、この推論スクリプトを実行しました。基本的にフルパイプラインです、皆さん。それが必要なすべてです。私のスクリプトを見てくださいと言いたいところですが、残念ながら私のスクリプトは古いロボットデータセット形式を使用しています。

実際に、この新しいロボットデータセット形式のためにすべてを書き直さなければなりません。おそらく少し違うことをするでしょう。何かを書き直さなければならないときはいつでも、リファクタリングする良い機会です。しかし、もう一つ見たいと思ったのは、この論文です。ここで休憩しましょう。

Dream Controlと実際から仮想、そして再び実際へのパラダイム

これはソーシャルメディアで少し話題になった論文です。「Dream Control: Humanins inspired whole body manipulation. Human control for scene interaction via guided diffusion」と呼ばれています。このモデルが行うことは、基本的に以前に見たことがあるものです。

Real to sim to realと呼ばれる論文を読んだことがありました。これは基本的にそれです。人間のモーションキャプチャ軌道から始めています。基本的に、モーションキャプチャスーツを着た人間の大きなデータセットがあり、地面から四分の一を拾う、野球を投げる、シャベルをするなど、さまざまなことを実行しました。

基本的にこれらの行動をすべて実行しています。これらの人間軌道のデータセットを作成します。実際の人間からの実際のデータを取得し、それをデジタル空間に移動します。そこで人間の骨格上の一連の動作になります。

その人間の骨格を今度はロボットの骨格にリターゲットと呼ばれることを行う必要があります。ロボットは少し異なる運動学的ツリーを持っています。少し異なるジョイントを持っていますが、シャベルを使う人間のアニメーションをシャベルを使うロボットの大まかなアニメーションに変換できるようにアニメーションをリターゲットできます。

完璧ではありませんが、出発点です。その出発点を得たら、強化学習を使用してこれらを実際に洗練できます。実際から仮想へ移行しているのです。今度は標準的な強化学習を行います。複雑な報酬関数があります。

例えば、使用する実際の報酬関数があります。ジョイント角度からの逸脱にペナルティを課す。高いトルクと加速度にペナルティを課す。高いアクション率変化にペナルティを課す。地面接触中の足滑りにペナルティを課す。

これを行うことができる理由、人々がこれを行う理由は、シミュレーションでは、これがわかるからです。なぜ現実世界で強化学習を行わないのでしょうか？現実世界では、ヒューマノイドの足の地面に対する位置を本当に知りません。非常に正確な方法でその情報を得る方法はありません。

しかし、シミュレーターでは、足がどこにあるかを正確に知り、地面がどこにあるかを正確に知っています。足がどれだけ滑っているかに対して非常に細かい報酬ペナルティを与えることができます。これらの複雑な報酬関数を持つことを非常に簡単にするオラクル状態をすべて持っているシミュレーションでのRL（強化学習）は、非常に豊富で、勾配を得てポリシーにプッシュするために使用できる非常に密度の高い信号を可能にします。

シミュレーションでトレーニングされたそのポリシーを持ったら、ドメインランダム化の追加を開始し、より堅牢にし、シミュレーションの分散または種類の広がりを増やして、さまざまな視覚的なもの、さまざまな摩擦、ロボットに可能なさまざまなトルクなど、さまざまな制御パラメータの大きな多様性を包含できます。

それを行ったら、現実世界に戻ってデプロイし、理想的にはゼロショットです。ゼロショットできない場合は、常に実際のデータを少し使ってファインチューニングできます。実際から仮想、そして再び実際へと移行しているのです。

人々がこの論文を何か新しいもののように話していますが、人々は以前にこのアイデアを持っていました。今では定番のアイデアになり始めているだけです。これがロボット工学で起こっていることの大きな変化だと思います。

たとえば、tapbotの現在のスタック、私がtapbotに持っている現在のスタック、またはpi zeroのようなもので人々が使用する現在のスタックについて考えると、このアイデアの核心は、基本的に人間がこのロボットを遠隔操作し、それが遠隔操作データセットを与え、その遠隔操作データセットで教師あり学習を行い、うまくいけばロボットが動作するということでした。

基本的にVLMから始まる模倣学習を行えば、汎用ロボットを得るのに十分であるはずです。私たちはそれがそうではないことを理解し始めています。欲しい品質レベルを得るのに十分ではありません。今、みんながピボットし、この新しい戦略に移行しています。

新しい戦略は基本的にこの実際から仮想、再び実際へ、またはその変種です。今では、VRヘッドセットを使用してアクションを実行する人々がいます。そこで得ているのは、ロボット遠隔操作データではありません。この種の人間データを得ています。基本的に、これは引き出しを開けている私の自己中心的な人間軌道のようなものを得ています。

この種のデータを使用すると、ポーズトラッカーを使用して手の位置を取得できます。手の位置を得たら、それをヒューマノイドの手にリターゲットできます。それをシミュレーションと強化学習の出発点として使用できます。そして、ゼロショット仮想から実際にデプロイするだけです。

それがFigerがやっていることのようです。それが他の人々がやっていることのようです。模倣学習時代の終わりにいて、この種の自己中心的な実際から仮想、再び実際への時代に入っていると思います。

これが巨大になると思うもう一つの理由があります。これが巨大になると思うもう一つの理由は、これのためです。昨日、Metaが発表しました。Ray-Ban或いはOculusのようなものかわかりませんが、基本的に自己中心的なカメラです。

すべての人がこれらの眼鏡を着用している世界を考えてください。すべての人がこれらの眼鏡を着用している世界では、この種のデータセットのサイズは簡単に1,000倍になります。人々がこれらのデータセットを記録するとき、おそらく千のエピソード、十万のエピソードを記録できます。

全人類がこれらの眼鏡を着用している世界を想像してください。今では、想像できるすべての可能なことを行う何十億ものこれらのデータセットを持つことになります。それが汎用ロボットを得る方法だと思います。

これは重要だと思いました。ロボット工学で非常に重要な移行期にいると思うからです。最初にTapbotについて考えたとき、私のアイデアは基本的にシミュレーション学習スタックを行うことでした。シミュレーション学習スタックは、このタトゥーロボットを遠隔操作するということでした。

このタトゥーロボットを遠隔操作するエピソードの束を収集します。そして、基本的にVLMの上の小さな層である、オープンソースファウンデーションモデルをファインチューニングします。それがタトゥーを行うのに十分であるはずでした。答えは、そうではないということです。タトゥーを行うのに十分ではありません。

実際に機能すると思うことは何でしょうか？おそらくこのようなものです。トップ100のタトゥーアーティストにこの種の眼鏡を着用してもらい、たくさんのタトゥーを行うことを想像してください。この男を見てください。タトゥーがあります。素晴らしい。

今、突然、はるかに豊富なデータセットを持ち、このような戦略を行うことができます。Ray-Ban meta眼鏡を着用している数千のタトゥーアーティストを取ります。基本的に手の位置を追跡します。それを使用して基本的にtapbotエンドエフェクターにリターゲットし、強化学習を使用してシミュレーションでそれを修正し、基本的に実際にデプロイします。

技術的詳細とクラウドコンピューティング

どのようにローカルホストをポリシーモデルのトレーニング実行にトンネリングしているのですか？このようなマシンをスピンアップするとき、この場合はdata crunchのようなクラウド会社が基本的に「このマシンにどのSSHキーを与えたいですか？」と言うオプションを与え、ローカルマシンのSSHキーを与えます。

つまり、これをコピーして、直接SSHできるということです。実際に完了したのがわかります。次の実行を開始しました。スイープを行っていました。そのスイープを完了しました。物を保存し、今度は次のものを実行しています。

しかし、私はこのマシンにSSHできます。このボタンを押すとすぐに、今度はフィンランドにいます。これがクラウドの最もクールな部分だと思います。時々人々はそれを当然のことと考えますが、この小さなターミナルで、私はテキサス州オースティンにいますが、このSSHルートを押すとすぐに、今度はフィンランドにいます。

今、この建物にいます。あなたがrootとしてすべてを行っていることに怒っています。これは本物のマシンでさえありません。これは、別の仮想マシンに包まれた別の仮想マシンに包まれた仮想マシンです。

ポートをトンネリングしている場合は、VS CodeまたはSSHで直接行うことができます。完全にターミナル経由で行うことができますが、たとえば、これはストリーミングに使用するWindowsマシンですが、このマシンは同じマシンではありません。hoopマシンは実際に私の家の別のマシンです。

このウィンドウ全体、このファイルシステムは実際にそのマシン上にあります。ターミナル経由でSSHを直接行うことができますが、IDEを介してSSHを行うこともでき、ファイルシステムを見ることができ、画像を見ることができます。

たとえば、この画像をクリックして開くような、ここで行ったことです。ターミナルのSSHでは実行できません。フロントを転送する必要があり、IDEを介してSSHする場合と比較して迷惑です。この種のことができます。

しかし、一般的にクラウドでレンタルしているH100の場合、画像を開く必要はありません。何も見る必要はありません。行う必要があるのは、基本的にリポジトリをクローンしてトレーニングをクリックするだけで、トレーニングに入り、実際の出力をwandbbで視覚化できます。

マシンがあなたがそう言うのを聞かせないでください。マシンはいつも聞いています。いつも知っています。彼らに優しくする必要があります。

他に言いたいことは基本的にありません。他に質問はありますか？そうでなければ、これを止めて脚を見始めるつもりです。出血しているかどうか見てみましょう。

それほど悪くありません。少し雑ですが、完璧にはできませんでしたが、かなり良いです。これが見えるかどうかわかりません。見えるかもしれませんが、そうでないかもしれません。大丈夫です。

他にもたくさんのひどいタトゥーがあります。もう一つ興味深いことがあります。今、私は4つのロボットタトゥーを持っているということです。4つのロボットタトゥーで、私はおそらく全人類史上最もロボットからタトゥーを彫られた人間です。これはかなりクレイジーです。

他の人間がこれまでに私よりも多くのロボットタトゥーを受けたことはないと思います。ギネス世界記録の人々に連絡を取るべきかもしれません。しかし、その特定の記録について彼らが気にするかどうかわかりませんが、クールだと思いました。

プロジェクトの今後と結論

それだけです、皆さん。このTattoo Robotプロジェクトに取り組み続けるつもりです。少しフィラープロジェクトのようなものです。リポジトリがあります。すべてのコードはオープンソースです。確認できます。

ここにウェイトリストがあります。Googleフォームを設定しました。ロボットタトゥーを受けることに興味がある場合は、ぜひ記入してください。ある程度の関心を得た場合、多くの人がサインアップし、興味を持つ人の束を持ち始めた場合、おそらくこのプロジェクトにもっと努力を投入するでしょう。お金を調達することさえ試みるかもしれません。VCからお金を調達するかもしれません。

しかし、このウェイトリストに誰もサインアップしなければ、おそらくこれにそれほど多くの時間を費やすつもりはありません。チェックしてください。オープンソースタトゥーロボット。

他に言及したかったことがあるかどうか確認させてください。LoRA対フルファインチューニングについて話しました。ロボットについて話しました。既に遅れているのがわかります。フォークを作成すると、これを見るとすぐに、このワンコミット、5コミット遅れ、これらの人たちは速く動きます。

hugging face robotチームは毎日、このページを更新すると、既にたくさんのプッシュを行っているので、これらの人たちは一生懸命プッシュしています。ここでこのボタンが見える場合、オープンプルリクエストと書かれている場合、それは自動的にプルできないことを意味し、マージ競合があることを意味し、私が行った変更の一部が現在壊れていることを意味し、この3.0のために壊れています。

つまり、このデモが既に時代遅れだということです。これをプルして、彼らが変更した少し異なることを理解する必要があります。data crunch、素晴らしいクラウド。これが今の私の定番クラウドオプションマシンです。説明にあるコードがあります。

先に進んで、100の無料クレジットを取得し、H100をスピンアップし、何かクールなことをやってください。クラウドで巨大なGPUを使用するのは常に素晴らしい気分です。この場合、再生可能エネルギーで稼働しているフィンランドのこの不気味な暗い建物でGPUを使用しています。良い気分になれます。

そして、MetaとOpen aiまたはxAIが構築しているこれらのトレーニングクラスターのサイズに驚嘆できます。wandbを使いました。これらのモデルを使用して、基本的にどのような実験を実行するかを教えてもらうことができます。実際に彼らはかなり良い直感を持っています。

これでも終わりました。これがニュースにあったと思い、重要だと思い、ロボット工学で模倣学習遠隔操作パラダイムから、この種の実際から仮想、再び実際への大きな自己中心的データセットへの移行を開始していると思います。

特に、多くの人がこれらを着用する未来に移行するとき、これがUBIがどのように機能するかかもしれません。将来のUBIは、一日中これを着用し、この種のデータセットを作成し、ロボット会社があなたにお金を支払うことかもしれません。

UBIは、政府が国民国家の一部だからといってお金をくれるのではなく、UBIが機能する方法は、企業があなたの眼鏡から来るデータを得るためにあなたにお金を与えることかもしれません。朝ベッドを整えたり、食器洗い機をしたりするだけで、ヒューマノイドロボット会社があなたにそのデータの代金を支払うのです。

私の場合、タトゥーロボットをやりたいなら、これらの眼鏡の束を購入するかもしれません。VCがお金をくれたら、皆さんの多くがこのウェイトリストにサインアップしたら、そのお金を使ってこれらの眼鏡の束を手に入れ、オースティンの多くのタトゥーショップに行き、これらの眼鏡を着用してもらい、これらの眼鏡を着用して一日タトゥーを彫ってもらい、そのデータセットを取得し、基本的にこの戦略を行うかもしれません。

これが今の最良の戦略だと思います。私がやっていた模倣学習戦略よりもはるかに良いです。これは基本的にあまり良くありません。ここから得ることができる多様性を得ることは決してないからです。

それだけです、皆さん。楽しんでいただけたことを願っています。良い週末をお過ごしください。多くの工場が既に深センでそれを行っていると思います。それは既に模倣学習パラダイムを過ぎています。私たちは既にこの新しいパラダイムにいます。人々はまだ十分速くキャッチアップしていないだけです。

皆さん、聞いてくれてありがとうございました。Julier Jigar Hernando Vidal Max Molly Liil KM SHZ Snooks Mark B Sid。皆さん、聞いてくれてありがとうございました。素晴らしい時間を過ごし、素晴らしい週末をお過ごしください。