ロボットバイブコーディング

34,556 文字

Like 👍. Comment 💬. Subscribe 🟥.🏘 Discord:

YouTubeでテスト中です。YouTubeでテスト中です。YouTubeでテスト中です。よし、YouTubeで動いています。調子はどうですか？サー・ロブとマーク・Bです。Xでテストしてみましょう。Xでライブ配信されるはずです。少し時間がかかっています。Xのサーバーが燃え落ちたとか何とか聞きました。だからXでは動かないかもしれません。様子を見てみましょう。もう少し待ちます。
いきましょう。ロウ。よし、Xでライブ配信されていないようです。これは良くないですね。何が起こっているのか確認してみましょう。X.studio。配信専用のアプリがあるようですね。でも、ライブ配信されるはずなんです。
興味深いです。スケジュール済みと表示されていますが、ああ、わかりました。ストリームを受信しています。ただ開始していないだけです。少し待ちましょう。調子はどうですか、SHZ？いいグリッパーですね。皆さんはこのグリッパーカメラが気に入っているようですね。これはライブロボットグリッパーカメラです。よし、このエクストリームが全く開始されるかわかりません。まあいいでしょう。
YouTubeが本当に重要な部分だと思います。だから、それだけやりましょう。リトルKMカウントデュースに行きましょう。今日は最大の懐かしさのために、オリジナルのスパイラルディグを手に入れました。この悪いボーイを吹いてみましょう。
よし、皆さん、別のHoopoストリームへようこそ。調子はどうですか？イマジネーション。このストリームは「ロボットバイブコーディング」と呼ばれています。
私はストリームの要約をこのGitHubページに載せ続けるつもりです。私のGitHub hoopo-dash または hoopo/docs でいつでも見つけることができます。ここで見ることができるように、日付で整理されているので、すべて簡単に見つけられるはずです。そして今日取り上げる様々なリンクをここで見ることができます。
今日のストリームでは、私が取り組んできた小さなプロジェクトを発表します。これから更に時間をかけて続けていくつもりで、それは私が「Tatbot」と呼んでいるものです。Tatbotはタトゥーロボットです。つまり、タトゥーをするロボットです。実際、皆さんが見ているこの小さなライブストリームが、そのロボットです。
これがその外観です。これはPolycamです。Polycamは基本的に携帯電話で取得できる小さなアプリで、あらゆる種類の3Dオブジェクトの周りを歩き回ることができ、そこからSFMの構造を作ります。基本的に、それらすべてを一緒に登録し、この素晴らしいメッシュを提供します。これが実際の外観です。
これは8020アルミニウム、このアルミニウムフレーミングと、2本のこれらのトラスアームで構成されています。そして、多くのPoE IPカメラを備えたこの種のオーバーヘッドシステムがあります。基本的にアドレスでアクセスできるカメラで、ネットワーク上の小さなコンピューターのようなものです。
これらのカメラは一般的にUSBカメラよりも優れています。USBカメラはあらゆる種類の問題があるからです。コンピューターに過負荷をかけます。コンピューターがそのようなことに集中することは望ましくありません。だから私はイーサネット経由で電力供給もされるこれらのPoE IPカメラが好きです。ここに、このシステムの様々なコンポーネントがあります。
このリポジトリの方法は、様々なものを蓄積してきています。バイブコーディングに役立つこのリポジトリの様々なレイアウトと形式を実験してきました。有用だったことの1つは、リポジトリ内のマークダウンファイルとして、ロボットの完全な説明を持つことです。
このリポジトリには、システムのすべての異なるコンポーネントの説明があります。Nvidia Jetson AGX Orinがあります。これは32ギガバイトの統合RAMを持つ小さなエッジNvidiaデバイスの一種です。その統合RAMは、標準的なゲーミングPCビルドのような場合に持つCPU用のRAMとグラフィックカード上のVRAMの区別とは異なります。これはより接続されています。
いくつかの点でより良いです。他の点では少し面倒ですが、これはかなり良いです。基本的に32GBのRAMを持つARMです。また、ロボットに付属していたPCもあります。これが実際にそこにあるロボットです。これらの2つがあります。これはTroenという会社のWidow XAIと呼ばれています。
これらは中間的なものです。つまり、Hugging Faceで見る100ドルのSo 100アームほどではありませんが、50,000ドルでもありません。これらは中間で、約4,000ドルです。2つ取得すると約10,000ドルです。これらは1ミリメートルの反復性と4キログラムのエンドエフェクタペイロードを持っています。
実際、これはエンドエフェクタペイロードではありません。これは1.5キログラムのペイロードです。しかし、このタトゥーユースケースでは、それはほぼ必要なすべてです。基本的にペイロードはこれになるからです。これは、タトゥーワンド、タトゥーマシン、またはタトゥーペンとして知られているものです。基本的に、この中のものを前後に動かすだけの小さなリンケージです。そして、それらのほぼすべてに今では外部バッテリーがあります。設定できる小さなバッテリーがあることがわかります。そして、それらには多くの異なるメーカーがあります。
このタトゥーロボットの設計の一部は、特定のワンドに統合するカスタムエンドエフェクタを必ずしも持ちたくないということです。市販のワンドを使いたいのです。そして、異なる設定に設定された様々なタトゥーワンドを持ち、タトゥーをするときにそれらを取り上げて使用できるようにしたいのです。
そして、これが実際にタトゥーをするために使用するものです。これらが実際の針です。基本的に、これらの事前に作られたカートリッジに入っています。これが医学的に密封され滅菌される必要がある実際の部分ですが、基本的に取り出すと、プラスチックとこのプラスチックのスプリングのようなもので、これらの小さな針を撃ち出すだけです。そして、多くの異なる針のパターンなどがあります。
よし、人々は「この男は何について話しているんだ？紙の男が今タトゥーロボットについて話している？」と言っています。よし、では他の人が以前にこれをやったことがあるかどうか、少し戻って考えてみましょう。タトゥーロボットは存在するのか？これは市場なのか？人々は本当にこれをやるのか？そして、タトゥーロボットがあります。
ここで、例えば、これは誰だかわからない人のYouTubeショートです。説明にアラビア語があるので、ドバイか何かの人だと思います。特定の文化でタトゥーには負の含意があり、多くのイスラム諸国はタトゥーを好まないと感じるからです。
だから、アラビア語が入ったタトゥーのソーシャルメディア投稿を見るのは奇妙です。ここで、この男が基本的にやったことは、3Dプリンターリグを取ったことです。3Dプリンターは基本的にXYZを持っていますが、ヨー、ピッチ、ロールはありません。つまり、3次元位置制御だけで、彼はそれを拡張し、効果的にタトゥーワンドを接着しただけです。私がやっていることと非常に似ていて、基本的に企業がこれらの非常に素晴らしいタトゥーワンドを作成したという事実を利用し、それをロボットの端に付けるだけです。そして問題は6次元の姿勢問題になります。
しかし、このマシンでは、これはオープンループ制御と呼ばれるものです。つまり、フィードバックがゼロです。力感知が行われていないという意味でフィードバックがありません。また、ターゲットを追跡するために使用されているコンピュータビジョンがないという意味でもフィードバックがありません。このロボットは非常に特定の位置で盲目的に実行するだけです。腕を非常に静止させ続け、その腕の曲率が比較的平坦である限り、タトゥーを取得できます。これがタトゥーロボットマシンの例です。そして、これも見せたかったのです。
これははるかに本格的で、おそらく存在する最も高度なタトゥーロボットマシンです。これはオースティンにあるBlack Dotという会社のものです。そして実際に、この男からタトゥーを受けました。これは、この会社から私の足にあるタトゥーです。ターミナルに何度も入力したので、タトゥーにするとクールだと思ったからです。
しかし、これは非常に高品質のタトゥーです。非常に非常に清潔です。しかし、彼らは効果的に同じことをやっています。XYZの盲目的なオープン制御ループを使用していて、すべてを完全に静止させ続ける必要があり、平面のみにタトゥーできます。彼らは実際のインク沈着に多くの研究と革新を投入しました。
彼らは私や私自身のようなタトゥーワンドを使用しません。実際に基本的にインクを分配する独自のカスタムタトゥーワンドを作成しました。ここで見ることができるように、これらは2つの大きなカートリッジです。1つはシリンジのようなもので、1つはインク、1つは水で、希釈を変更します。
率直に言って、過度に設計され複雑ですが、それがタトゥーロボットの現状です。つまり、かなり良いタトゥーをしているポイントにある1つのスタートアップがあり、世界中に分散して3Dプリンティングリグを使ってこれらのものをまとめているハッカーがいます。
このストリームで見ているものは、効果的に最初のロボットアームベースのタトゥーロボットです。これで本当にやりたいことの1つは、ロボットアームを使用しているので、60制御ができることです。つまり、XYZを制御できるだけでなく、ワンドの角度や法線ベクトルも基本的に制御できます。
そして、それは円形または曲線の表面にタトゥーできることも意味します。体の多くは円形または曲線の表面です。実際、この種の完全に平坦な表面を持つ体の部分は非常に少ないです。前腕や腕や脚があるかもしれません。しかし、曲線パターンにタトゥーできるようになりたいです。
そのためには、この種のコンピュータビジョン問題を解決する方法を見つけなければなりません。そして、それがタトゥーロボットのこの部分が作用するところです。1、2、3、4、5台のカメラ、5台のRGBカメラを備えたタトゥーロボットの上部全体です。そして、2台のReal Senseカメラもあります。
エンドエフェクタの右ここと、右上にもReal Senseカメラがあります。これはIntel Real Sense D405で、RGBだけでなく深度も提供します。その余分な深度チャンネルです。これらのカメラで、基本的に皮膚のリアルタイム再構築を作成しようとしています。
これらの種類のアームの現実は、例えば3Dプリンターのようなものには、文字通りゼロの力フィードバックがあります。必要に応じて力フィードバックを得る方法さえありません。しかし、これらの種類のアームでは、力フィードバックがあります。ここで私が持っているTrustenアームのドキュメンテーションで、外部エフォート制御モードと呼ばれるものがあることがわかります。これらはロボットが持つ異なる種類の制御モードです。
例えば、「これらの特定の関節位置に行って」と言う位置制御モードがあります。「この関節に特定の速度を持ってほしい」と言う速度制御モードがあります。そして、特定の力に制御しようとするエフォート制御モードと呼ばれるものがあります。「エンドエフェクタで特定の力がほしい」と言うのです。
しかし、これらの種類の制御モードの現実と、インピーダンス制御モードのような他の類似の種類のもの（それらの一種のブレンド）は、単純に良くありません。タトゥーをする現実は、あなたが発揮している力の量が非常に小さいので、今日の技術で利用可能な力制御を使用してそのタイプの触覚フィードバックに基づいてそれを行うために、これらのアーム力制御モードの1つを使用することは基本的にできないということです。
したがって、現在利用可能な力制御を使用してループを閉じることは決してできません。将来的には、これらのヒューマノイドハンドの多くが非常に洗練されたタッチセンサーを持ち始めているのを見ています。ペンを持っているときに針の与え取りの種類を感じるのに十分なアームとハンドが保持し感じることができる未来を想像できます。将来的にはタトゥーロボットのクローズドループ制御ができるかもしれません。
しかし、現在の技術の状態、特に私が見ている価格帯では、これらは50,000ドルのアームを使用していません。5,000ドルのアームを使用しています。だから、それは不可能です。だから、効果的にコンピュータビジョンでこの問題を解決する方法を見つけなければなりません。
では、どうやってそれをするのでしょうか？Polycamを使用できます。Polycamは、基本的にこのロボットの3Dモデルを取得するために使用したものです。ここに私のすねがあります。これは私の脚です。これらはすべて私が自分でやった自分のタトゥーです。しかし、タトゥーロボットに置いて、ここでデザインをさせたいとしましょう。
私ができることは、ここでやったように脚をスキャンすることです。携帯電話でその周りを歩き、このアプリに入れて、2分待つと、脚の3Dスキャンができます。
しかし、それは私が欲しいものではありません。これは必要な種類の精度を持っていますが、これはサブミリメートルの精度の実際の形状ですが、現実はこの体の部分が非常に変形可能であることです。常に動いています。脚を動かすと、シーンでそれを実際に追跡する方法が必要です。
だから、実際には、この種の再構築が1ヘルツループのようにほぼ起こることを望んでいます。これはこれを行うのに2分のようなものがかかります。つまり、2分に1回のように動作していて、これは非常に遅すぎます。だから、これらの種類の外部アプリに依存することはできません。
私は2つの異なるソリューションを見つけました。これらは現在存在するおそらく最も高速な種類の再構築マルチビュー再構築モデルの2つです。これらの1つはMasterでの3Dでのgrounded image matchingと呼ばれ、もう1つはVGGGT visual geometry grounded transformersと呼ばれます。これらは比較的最近のものです。
これは2024年6月14日に出て、これは2025年3月14日に出ました。これらは基本的にマルチビュー再構築モデルです。彼らがやることは、複数の画像を取ることです。ここでは、これらの小さな三角形のそれぞれが基本的に1つの画像であることがわかり、これらすべての画像を取って、基本的にそれから3Dジオメトリを再構築または作成しています。
これを行う古典的な方法がすべてあります。Cole Mapは基本的にこれのゴールドスタンダードです。しかし、過去数年間、人々はそれを行うより深層学習ベースのバージョンを作成しました。もはやこれらの種類のハードコーディングされたアルゴリズムを使用せず、基本的に他の再構築データセットの束で事前訓練されたこれらのトランスフォーマーモデルであるより深層学習パラダイムに依存し、非常に迅速に答えを与えてくれます。
制御フリーまたはマルチビューカメラからこの3D再構築を作成できる頻度は、これを行うことができる推論速度に制限されます。そして、これらのモデルは特に大きくありません。私の場合、これがAGXオリンで使用しているエッジデバイスに収まることができます。32ギガバイトの統合VRAMは、この種のモデルを実行するには十分すぎます。
鼻をかみましょう。よし、では、Masterについてもう少し深く掘り下げてみましょう。これとは少し異なります。VGGTのこれは少し異なりますが、非常に似ています。このことを説明すれば、VGGTで何が起こっているかを理解できると思います。
これはMasterで、Dusterの拡張です。これの元のバージョンはDusterと呼ばれ、これは拡張論文のようなものです。画像を取り、これらをViTエンコーダーに供給することから始めます。これは、この画像をパッチ化するビジョントランスフォーマーです。小さなチャンクに分解し、シーケンスとしてこのトランスフォーマーに供給します。
ここでエンコーダーデコーダーパターンの一種であることがわかります。多くの場合、人々は今デコーダーのみを使用しますが、ここでは完全なエンコーダーデコーダーを持っています。このデコーダー部分は実際にクロスアテンションを持っています。だから、この画像とこの画像からの情報がお互いに流れ込むことを許可するアテンション操作をやっています。
ここでの出力は、異なる出力ヘッドがあります。1つのヘッド、この3Dヘッドは2つの異なるものを出力します。h×w×3の次元のポイントマップを出力します。h×wは画像の次元です。だから、これらのピクセルのそれぞれについて、3つの数字を取得し、これら3つの数字はxyzを表します。だから、ポイントマップは基本的にポイントクラウドです。画像内のすべてのピクセルについて、そのピクセルのXYZ位置を教えます。
また、この信頼度も出力します。その信頼度は、各個別のピクセル、各入力ピクセルについて、信頼度値を出力する数字です。その信頼度値は0.01のようになります。全く信頼していない場合、この特定のコーナー、多分画像の端、背景にある建物のビルボードのようなこの部分は、この岩にあるポイントよりもはるかに低い信頼度になります。だから、信頼度値は、その特定のピクセルのXYZ位置が実際に真のXYZ位置であることについて、モデルがどれほど確信しているかを教えてくれます。
そして、別のヘッドもあります。ここで見ることができるように、これらのローカル特徴を出力する別のヘッドがあります。ローカル特徴もピクセルごとになります。h×wは、すべてのピクセルがそのピクセルに何があるかを表すこのd次元ベクトルを持つことを意味します。つまり、ここのこのピクセルに何があり、ここのこのピクセルに何があり、ここのこのピクセルに何があるかのセマンティック情報のようなものです。
ここにクロスアテンションがあるので、ここから出てくる特徴とそこから出てくる特徴、これらの間で情報が流れる表面領域があるという概念があります。だから、3Dシーン自体のこの種のセマンティック理解を徐々に構築しているはずです。よし、すべての画像に対してそれを行います。これは特に2つの画像用ではありません。
基本的にn個の画像に対してそれを行います。私たちのロボットの場合、1、2、3、4、5、6、7個の画像を供給します。RGBカメラ用に5つ、Real SenseカメラのReal Senseカメラ用に2つです。そして、これでより良くなってほしいことの1つは、これらのモデルの両方とも、RGBDを使用しないことです。つまり、私はそれをテーブルに置いています。
これら7台のカメラのうち2台は深度チャンネルを持っていて、使用できるのに、これらのモデルはどちらもその深度チャンネルを使用するように設計されていません。RGBだけで、これは理にかなっています。なぜなら、ほとんどの場合、人々がこの種のことをやるとき、携帯電話を使用しているからです。後のiPhoneの1つを持っていない限り、その深度チャンネルはありません。
よし、すべての画像に対してこのポイントマップ、この信頼度、これらのローカル特徴を取得したら、このfast neural network matchingを使用します。これは理解するのが少し難しいですが、きちんと明確に説明しています。
信頼できるピクセル対応を取得するために、ここでの対応は、このピクセルがこのピクセルに対応すると言います。だから、ここのこのサインのコーナーピクセルがここのこのコーナーピクセルに対応するかもしれません。最終的にこの3D再構築を作成するために、これらの画像で本当に見つけたいものです。
標準的なソリューションは、いくつかの不変特徴空間で相互マッチを探すことです。そのようなスキームは驚くほどうまく機能しますが、準最適な精度をもたらします。これらの理由で、2つの密な特徴マップ、D1とD2を出力する2番目のヘッドを追加することを提案します。ここにあなたの2つの密な特徴マップがあります。
ヘッドを非線形GLU活性化と織り交ぜた単純な2層MLPとして実装します。ここのこの小さなヘッド、このfast NNは、ポイントマップを受信してこのマッチングを行おうとする2層多層パーセプトロンです。また、この別のヘッドから来る特徴、セマンティック情報も受信しています。
つまり、特徴ベースの種類のセマンティックマッチングとは別にXYZをマッチングしようとしています。そして、ここで基本的に、現実的にはすべてのピクセルをマッチングしたくないと言っています。相互マッチングの素朴な実装は、画像からのすべてのピクセルを他のすべてのピクセルと比較しなければならないため、高い計算複雑性を持ちます。
だから、彼らは初期のスパースなk個のピクセルのセットに基づいた少し洗練されたスパースセット反復アプローチを持ち、すべてのピクセルをすべてのピクセルとマッチングする必要がないように、ピクセルマッチングの検索空間を基本的に削減します。オーケー、彼が戻ってきました。Dan and NLP、愛をありがとう、皆さん。
よし、Masterを理解したので、ここでライブデモをやってみませんか？ここでalt tabします。完全な開示、これはWindowsマシンです。私は実際にストリーミング以外にはWindowsマシンをほとんど何にも使用しません。Windowsマシンを使用している理由は、ストリーミングを行うソフトウェアであるすべてのOBSと、設定した方法です。私のOBSは実際にサーバーに供給し、それをX、Twitch、YouTubeに送り出します。
しかし、OBSへの入力、特にここのこのビューは、Nvidia Broadcastを使用しています。これは、Windowsにいることを強制するソフトウェアです。グリーンスクリーンを行っているこのソフトウェアです。OBSグリーンスクリーンではありません。OBSグリーンスクリーンは実際にひどいです。私が使用しているのは、グリーンスクリーンとしてのNvidia Broadcastです。
だから、それはWindowsにいることを強制します。しかし、私たちにとって幸運なことに、cursorは基本的にマシンにSSHすることを可能にします。だから、今、ここのこのウィンドウで、私はMircatマシンにSSHしています。これがそれです。つまり、現在、ここのこの中にいます。これは基本的にIntel GPUまたはIntel CPUです。
このマシンにはGPUはありません。基本的にIntel CPUが入った小さなボックスです。よし、しかし、ここでやることはRCAMと呼ばれる私が作ったこのリポジトリを使用することなので、それは問題ではありません。皆さんが見たい場合は、ここにRCAMがあります。これはリポジトリです。私は基本的にこの全体をバイブコーディングしました。
これは、Rustを使用してIPカメラとReal Senseデバイスの両方を含む画像を同期的にキャプチャするためのツールです。ここで言語を見ることができます。これは基本的に100％Rustです。完全な開示、私はRustプログラマーではありません。時々ここでそこで使用したことがありますが、主におもちゃのものです。
基本的に2日でこのアプリケーション全体を効果的にバイブコーディングできたという事実は狂気です。実際に気づいたことの1つは、ここにどれだけ多くのものがあるかを見てください。Rustコードをどう読むかほとんど知らないような気がして、cursorでこれをバイブコーディングしただけです。
しかし、気づいたことの1つは、cargo cleanをやってみましょう。ああ、その中にいません。RCAMに行って、cargo clean、それからcargo build。気づいたことの1つは、これらのより冗長な言語の一部でバイブコーディングをするとき、実際にやりやすいということです。これは直感に反します。なぜなら、ほとんどの人がバイブコーディングをするとき、Pythonでバイブコーディングするからです。
しかし、Pythonの現実は、すべてを行う20の異なる方法があることです。そして、それらの方法のうち19は遅いです。Pythonは非常にアンダーフィットな種類の言語で、例えば、Pythonでのタイピング、すべてにタイピングを置く必要はありません。あらゆる種類の奇妙なモンキーパッチングなどのようなことができます。
Pythonのソリューション空間は非常に大きいので、Pythonで物事をバイブコーディングしようとするとき、しばしば大きなクラップの山になります。しかし、Rustのような言語を使用するとき、それは非常に意見が多く、実際に機能するもののはるかに狭いソリューション空間があるからです。バイブコーディングによって、実際にはるかに簡単な方法でより高品質のソフトウェアを作成できます。これは、これを始めるまで必ずしも理解したり直感的に分からなかったことです。
実際に狂気です。AIツールのためにRustでプログラミングすることがPythonでプログラミングするよりも簡単になったということです。Pythonではあらゆる種類の問題が発生し、それらの問題をデバッグするのが困難になるからです。ここで見ることができるように、まだ多くの警告があり、バイブコーディングでそれらの警告を修正する方法を見せます。
しかし、最初にここでデモを実行します。これはコンパイル言語です。だから、この program target debug rcamを作成し、そのプログラムを実行します。開発者ループを少し迷惑にします。基本的にコードを変更し、それをビルドし、それをテストしなければならないからです。
Pythonでは、コードを変更し、それを実行し、コードを変更し、それを実行し、コードを変更し、それを実行するだけです。だから、その方法でより速いです。しかし、これらのコンパイル言語では、コードを変更し、コードをビルドし、それを実行し、コードを変更し、コードをビルドし、それを実行しなければなりません。
その追加のステップは少し迷惑になることがありますが、これを実行して、ああ待って、カメラパスコードが必要です。だから、カメラパスワードを持つ環境をソースして、それを実行します。ああ、いや、rerunを使用しています。このrerunフラグを削除しましょう。また、ここのすべての画像も削除しましょう。
削除。オーケー、今それを実行しましょう。バム、どうぞ。そして、本当に速いです。実際、上部のタイムスタンプを見るだけで、これらのカメラはすべて、ああ、実際には同期していません。だから、それは理想的ではないかもしれませんが、ここですべてのカメラの出力を見ることができます。
これが深度チャンネルです。それが他の深度チャンネルです。どうぞ。とてもいいです。これらは同期しています。そこのタイムスタンプが同期していない理由がわかりません。基本的に、これらのIPカメラのそれぞれには小さな内部クロックがあります。だから、それを行う前にクロックを同期しなければなりませんが、今ここのこれに行きましょう。
VGGTに行きます。皆さんが忘れた場合に備えて、VGGTはここのこれです。これはこの論文VGGTビジュアルジオメトリグラウンドトランスフォーマーです。基本的にMasterと非常に似ていて、基本的に画像を取り、パッチ化し、この場合はDyNoがエンコーダーである画像エンコーダーのような同じ種類のことに供給し、この巨大なトランスフォーマーに通します。この場合、別のヘッドがあるので、内在的外在的カメラパラメータを出力するヘッドと深度マップを出力するヘッドなどがありますが、同じ種類のことです。
効果的に、この大きな巨大な深層学習トランスフォーマーのもつれに供給し、これらの種類の対応を出力し、それが3D再構築を取得することを可能にします。実際に、ここでMasterよりも優れていると言っています。
評価セクションまでスクロールすると、ここでMasterと直接比較していることがわかります。精度の低い方が良いか、これは精度ですか？なぜ低い方が良いのでしょうか？しかし、ここで403 38 34 37 37 38を見ることができます。だから、同じ種類です。私にとっては、同じように比較できますが、ここに引っ張ってきました。
最初にやることは、そのMircatマシンから画像を取り、基本的に私の開発者マシンにコピーすることです。これは3090を持つubuntuPCです。だから、これは約24ギガのVRAMを持つ3090を持つWindows PCのようなものです。このデモを実行します。
オーケー、最初にやることは、VGTモデルをロードすることです。実際にこれを実行できます。ここに行って、watch-N 0.1 Nvidia nvidia-smiを実行します。これを私にタトゥーした理由がわかります。こんなに多く実行しているからです。だから、これを少し大きくしましょう。24ギガのうち約12ギガを使用していることがわかります。
だから、モデルは実行中で、12ギガは実際にかなり良いです。繰り返しますが、私が持っている制限は32ギガです。だから、これは私のAGX Orinに問題なく収まるはずです。ここに来ることができます。このコンピューターで多くのことが起こっているので、実際にこれをcontrol Cしましょう。このウェブサイトに行きましょう。ここにあります。
ここで、異なるカメラを見ることができる再構築を取得しました。ここのこれらの小さなビューのそれぞれを見ることができます。しかし、それはそれほど良くありません、皆さん。何と言えばいいのかわかりません。少し混乱しています。私の腕があります。
そうではないと思います。だから、と比較してみましょう。こうしてこれらの画像をダウンロードしましょう。私のWindowsマシンにそれらを置かなければなりません。ダウンロード、ダウンロード、ダウンロード、ダウンロード、ダウンロード、ダウンロード、ダウンロード、ダウンロード。よし、すべての画像をダウンロードしました。
そして、私が引っ張っているMasterは、その3090で実行させる問題に遭遇していたので、実際のHugging Faceのものです。依存関係の問題の種類があります。このMasterリポジトリの問題は、少し扱いにくくなり始めていることです。MasterはDusterに基づいて構築されており、実際にはcrocoか何かのようなさらに初期の作品に基づいて構築されています。
実際にMasterを使用するためには、このASMKをインストールし、このcrocoクラップのようなものをダウンロードしてコンパイルしなければならないことをここで見ることができます。きれいではありませんでした。このVGGTは非常にきれいでした。ここに来て、取得したばかりの画像をアップロードします。
ここに多くの設定がありますが、論文を十分に読んで、これらの設定を何に設定すべきかを正確に知るほどではありませんが、これらは良いデフォルトだと思います。だから、チューニングなしで、この品質を判断します。数時間かけて本当にそれぞれを調整すれば、より良い結果を得ることができるかもしれません。
しかし、Masterで得られるものはこれです。これはずっと良く見えます、皆さん。ずっと良く見えませんか？私にはずっと良く見えます。見てください。これをここのこのVGTと比較してください。これははるかにきれいだと感じます。ああ、これは混乱したかもしれません。これらが深度画像であることがわかるからです。
オーケー、実際に深度画像なしで実行してみましょう。どうなるか見てみましょう。だから、ここをcontrol Cして、サイドパネルを開いて、それらの深度画像を削除します。それらが混乱させたかもしれないと思います。たぶん、ここの画像でよりきれいな外観を得ることができるかもしれません。これらのものだと思います。ええ、それです。それを削除しましょう。
そして、それではなく、それでもありません。これです。よし、両方の深度画像を削除して、再実行して、現在Masterがはるかに良いように見えているので、これよりも少しきれいなものを得ることができるかどうか見てみましょう。Jetty、調子はどうですか？Dan Maru、もし誰かがPythonでリアルタイムが欲しい場合は、いつでも生フレームをメモリマップファイルにダンプして、他の場所で開くことができます。
つまり、Pythonで言っていることは、物事を行う多くの異なる方法があるということです。私が言っていることの洗練された方法は、ソリューション空間が非常に大きく、物事を行う多くの異なる方法があるので、最良のソリューションを得ることはほとんど非常に珍しいということです。
あなたの問題を解決するコードのためのソリューション空間のいくつかの種類の準最適な部分でほとんど常に終わります。Rustのような何かでは、それがはるかに冗長であるため、はるかに可能性が高い適切な場所に最終的に到達するだけです。実際にそれを見てください。それはずっとずっときれいです、皆さん。
まだ直線的ではありません。これは平面ですが、それらの深度画像を削除するだけで実際に多く改善されました。だから、ここでやった素晴らしい小さなライブデモです。論文で見たように同じ種類であるように見え、Masterと比較してそれは同じ種類です。だから、これらは基本的に私がこのリアルタイムのために探求している2つのソリューションです。
効果的にSLAMです。SLAM simultaneous localization and mappingを聞いたことがあるでしょうが、動かないロボットのSLAMについて話すのは奇妙です。通常、人々がSLAMに言及するとき、世界で実際に動いている自動運転車のような何かについて話していますが、効果的に同じことです。つまり、タトゥーしている実際の脚や体の部分のある種のマップや再構築を持ち、そのマップを常に更新し続けたいのです。
ロボットが文字通り動かないときにSLAMと呼ぶのは奇妙に感じますが、同じ問題です。だから、その問題を解決したとしましょう。そして、RGBカメラとRGBDカメラが、1ヘルツでタトゥーしたい皮膚の表面を表すメッシュを常に提供しているとします。その後何をしますか？
ここに、タトゥーをするYouTubeのランダムな男がいます。しかし、ここにこれがある理由は、プロセスを見せるためです。タトゥーが一般的に行われる方法は、基本的にデザインを作成し、それを平坦にしてステンシルを作るこの種の特別な紙に印刷することです。
実際、画像ジェネレーターが出てきて以来、自分のデザインを作らないタトゥーアーが膨大にいます。基本的にアートを生成し、それをトレースするだけです。だから、効果的にやっていることはこれです。基本的にそこに座って、AIが彼らのためにやったデザインをトレースしているだけです。
一部のタトゥーアーティストは反AIなので、生成アートを使用する人々を見下しています。しかし、わかりません。それは少し軽い立場だと感じます。そして、私がこのタトゥーロボットのアイデアに惹かれる理由は、生成アートコンポーネントがこれが非常に良いアイデアである理由の大きな部分だと思うからです。本当に本当にクールなデザインを作成できるからです。
しかし、これに戻ると、効果的にこのステンシルを取り、それを体の部分に包む必要があります。それは非常に困難な問題です。つまり、根本的に二次元のデザインをどのように取り、ここに私が作ったデザインがいくつかあります。
これはReplicateにあり、これはBlack Forest Labsを使用しています。これはStabilityの分離グループです。Stability（Stable Diffusion会社）は基本的に金銭問題に遭遇し、その中の人々の束が基本的により技術的な種類のクールな子供たちで、分離してBlack Forest Labsという独自の会社を作りました。これがBlack Forest LabsのAI画像生成モデルです。
しかし、プロンプトを出してあらゆる種類のクールなタトゥーデザインを得ることができますが、これらは基本的に2Dです。だから、2Dである何かを取り、基本的にこの3次元表面に投影するにはどうすればよいでしょうか？
そのために思いついたソリューションは、Nvidia Warpを使用することです。Nvidia Warpは、加速シミュレーション、データ生成、空間コンピューティングのためのPythonフレームワークです。
基本的に、Nvidiaがリリースしたオープンソースプロジェクトで、基本的にシミュレーションフレームワークです。ここであらゆる種類のことを行うことがわかります。流体シミュレーション、レイキャスティング、球、衝突もの、波があります。しかし、私にとって非常に興味深い特定の例が1つあります。これはクロスシミュレーションです。
このクロスシミュレーションでは、基本的に二次元のクロスを取り、それを表面に落として包みます。そして、それは実際に私が必要とするものそのものです。この二次元デザインを取り、それをこの三次元表面に包む何かが必要です。だから、これが必要だと思いました。
基本的にこれが必要です。だから、私も作成しました。これもバイブコーディングしました。今は本当にすべてをバイブコーディングしています。バイブコーディングは少し強すぎるかもしれません。コードを全く触らないわけではないからです。どのコードが書かれているかを非常に認識していて、それを修正していますが、エージェントと非常に協力して作業しています。だから、AIアシスタンスなしにゼロから決してコーディングしません。
今、そうしていない場合は、ワークフローでより多くのAIを使用することを検討すべきです。ここに出力を見せましょう。ここで見ることができるように、これはNvidia Warpについて嫌いなことの1つです。しかし、やったことは、基本的にここで見せた脚、私の脚の3Dスキャンを取り、Nvidia Warpを使用してデザインが付いたクロスを基本的に落としたことです。
そして、それがここで見ているものです。実際、それを削除すると、デザインを見ることができるはずです。どうぞ。これがデザインです。これは私が作ったいくつかのレタリングです。しかし、ここで基本的に二次元デザインの三次元バージョンを持っていることがわかります。
だから、二次元デザインを取り、これらのピクセルのそれぞれについて、3次元または6D姿勢を持っています。XYZだけでなく、皮膚上のその方向も持っています。しかし、これはまだ好きではありません。Nvidia Warpが動作する方法は、基本的にシーン全体がこのUSD形式で定義される必要があることです。
USDは、Pixarによって開始されたと思いますが、Universal Scene Descriptorの一種です。基本的に、UnityでシーンとBlenderでシーンを開くようなものです。それらは非常に似た抽象化ですが、そこには多くの小さな違いがあります。だから、PixarはUSDと呼ばれるこの種の1つの普遍的な種類の形式を作成し、それがNvidia Warpが動作するものです。USD ファイルを消費し、USD ファイルを出力します。
しかし、それらのUSDファイルはゴミです。ここで見ることができるように、WindowsのUSDファイルビューア（Open USDか何かだと思います）は絶対にひどいです。そして、これは私のコンピューターを壊すようなものです。これを実行する半分の時間、嘘ではなく、私のコンピューターがシャットダウンします。だから、今これが好きではありません。
ファイルを開いて扱うことなく、実際にワープしたパターンの実際の位置をヘッドレスで取得する方法を基本的に見つけなければならないと思います。しかし、私たちはそこにいます。これらの問題を1つずつゆっくりと解決しています。別の解決策も作成できます。これはマーク・Bです。
特定の角度からのみ表示できる投影マップも作成できます。ええ、他のタイプがあります。私は試しました。別の解決策としてtrimeshライブラリを試しました。これはprojectがあると思います。はい、3Dライブラリーには投影パターンを行う方法があります。だから、このNvidia Warpソリューションに100％売られているわけではありませんが、実際に他の何かのためにこれを使用していました。そして、それに使用していたのは実際に逆運動学でした。
逆運動学は、特定のエンドエフェクタ位置を持つときに、すべての関節角度を見つけ出す問題です。だから、それのための小さなデモもあります。しかし、そのデモを実行する前に、このデモを閉じましょう。さもないと、文字通り私のコンピューターを爆発させるからです。だから、これに戻りましょう。
実際にこれを閉じましょう。これを閉じて、ここに行きましょう。Tatbot ik pyroiに行きましょう。uh、controlr source activate。実際に推奨したいことの1つは、最近すべてのPython依存関係をインストールするためにUV UV Pythonを使用し始めたことです。すべてを経験しました。
virtual mのようなことをやりました。すべてのPython環境マネージャーを使用しました。これが現在私にとって最高だと感じます。例えば、多くのコードがバックグラウンドで実行されていて、実際に行って取得し、それを既に持っているものと比較し、基本的にそれを解決し、ダウンロードし、チェックインしているからです。
UVがやることは、そのコードのすべてが基本的にRustで書かれていることです。だから、すべてのPython依存関係管理ソリューションのうち、これが最も速いです。本当に本当に速く、本当に本当にスナッピーで、きれいな何かがあります。とにかく、そこでやったことは、この特定のデモのすべての依存関係を持つ仮想環境を基本的に活性化したことです。
そして、uvrun python demoをやりましょう。よし、これはアームとのライブデモです。実際に皆さんはここのアームをチェックアウトすべきです。動いているはずです。皆さんがそれを見ることができるかどうか見てください。よし、そこにあります。動いています。そして今、これを開きましょう。これが逆運動学です。
これを動かすと、アームがあります。皆さんはアームが動いているのを見ることができますか？皆さんが実際に見ることができる位置にそれを置こうとしています。ここのカメラを見ようとしています。しかし、これがやることは、基本的に逆運動学の問題を理解または解決することです。これは、エンドエフェクタをこの正確な姿勢に取得するために、これらのすべての位置でどの関節角度が必要かということです。これはまさに私たちが必要とするものです。
皮膚をスキャンしました。だから、皮膚の3D位置または6次元位置を持っています。生成したパターンがあります。そのパターンをメッシュに投影しました。そして今、これらのピクセルのそれぞれについて、6D位置を持っています。だから、タトゥーガンをそれらの6次元位置のそれぞれに取得できれば、基本的にこれを作成できます。
だから、その逆運動学問題を解決する必要があります。そして、言ったように、多くの逆運動学ライブラリがあります。最初に試したのは実際にNvidiaのもの、WarpでのNvidiaのソリューションでした。これは並列化できるので本当に素晴らしいです。
Nvidia Warpで実際にやっていることは、逆運動学が基本的に一束の方程式であるあらゆる種類の任意の関数を取ることです。それらを解く必要があり、GPU上で並列でそれを行うことができます。だから、それは実際に前にやったこの投稿です。ここで見ることができるように、私のエッジコンピューターでNvidia Warpを使用して、この画像の各ピクセルの逆運動学を同時に解いています。
だから、このデザインのすべてのピクセルのすべての逆運動学を、このデザインで一度に解いています。どこにそのデザインがありますか？このデザインで一度に解いています。しかし、それはもはや新規でもありません。現実は、今コーディングエージェントを持っているので、基本的に何でもするのが非常に簡単で、人々がこれらの法外に素晴らしいライブラリを作成し、Pyroiがそれらの1つです。
基本的に同じことをやっていて、この逆運動学問題を解いていますが、Jaxを使用しています。ここのikpyroiに戻ると、それを使用する方法がjacksを基本的に使用していることがわかります。だから、GPUでも解かれています。並列でやりたい場合は、並列でもできますが、jacksを使用してやるだけで、フロントエンドと素晴らしい統合があるので、フロントエンドを取得できます。
ロボットがそこで死んだと思います。皆さんが気づいたかどうかわかりませんが、それを見てください。Packet loss. Packet loss. Packet loss. control Cします。そしてまた実行しましょう。オーケー、今ビューアに戻りましょう。これが完全な60 IKであることを見せたいです。来て。来て。来て。小さなアーム。
Control C。また実行。動いていますか？いいえ。アームをオフにしてから再びオンにしなければなりません。よし、そこにあります。動いたと思います。よし、そこに行きます。だから、ブーム。ブーム。そして、これがトリッキーなものです。バム。その回転を見てください。そして、私たちもこれをやります。バム。その回転を見てください。そして、これを見てください。今、私たちはその平面で動きます。それは滑らかです、皆さん。
それは非常に滑らかなIKです。そして、私たちがやりたいタトゥーの種類には十分すぎると感じます。あらゆる種類のスタートアップと同様に、究極の問題を解決する必要はありません。あらゆる種類のスタートアップと同様に、小さく始めて、ゆっくりとポイントに到達するロードマップを持ちたいのです。
では、他に何を見せたかったですか？それを見せました。それを見せました。実際にロボットをオフにしましょう。ロボットをそのように静的に座らせているのは良くありません。このように静的に座っているとき、すべてのモーターが基本的に、誰かに重いものを持ってもらい、そこに座って持ってもらうように頼むようなものです。ロボットに不必要な負担をかけているだけです。
だから、ここでそれを殺します。よし、そこに行きます。よし、バイブコーディングをやりましょう。このストリームを「ロボットバイブコーディング」と呼んだからです。だから、実際にバイブコーディングをやってみませんか？やっていたこのRCAMリポジトリに戻りましょう。そして、私たちはそれをビルドしました。
ここですべてのこれらの警告を見ることができます。これらの警告を読むつもりもありません。ここでこのようにして、チャットに追加と言って、それから出ます。そして、RCAMフォルダをドラッグします。だから、今コンテキストを与えています。
このコードを持つ実際のフォルダがここにあると言っています。そして、警告を修正すると言います。それが始まるのを見ることができます。だから見てみましょう。モデル設定があると思います。ああ、いや、それは私が欲しいものではありません。Control shift P. Model settings. 来て、皆さん。これは何と呼ばれているんですか？ああ、ここにあります。
物事をし始めています。オーケー、これらの未使用のインポートを削除しています。これらのRust警告の多くは基本的に未使用のインポートに関係しています。例えば、Pythonの1つのことです。Pythonで未使用のインポートがある場合、Pythonは気にしません。何も教えてくれません。このコードをインポートしているが使用していないと言うだけで、文句を言いません。
しかし、Rustは文句を言います。だから、Rustは「ねえ、実際にここでこのものを使わなかった。それをインポートする意味がない」と言って、この警告を投げます。これにより、現在Gemini 2.5 Proに設定していると思うこのコーディングアシスタントが非常に簡単になります。これが現在最高のファイルまたは最高のモデルだと思います。
Claude Opus 4が昨日出て、それがおそらく現在最高のものだと知っていますが、長続きしないと思います。OpenAIが次のものをリリースし、Googleが次のものをリリースすると思います。わかりません。Gemini 2.5 Proは現在かなり良いです。それが私が使用しているものです。だから、それを受け入れます。次のファイルをレビューします。オーケー。
ここでモデルが少し不正をしようとしています。Rustでできることの1つは、言ったように、Rustで未使用のコードがある場合、基本的に「ねえ、このコードは決して使用されません。このコードを削除すべきです」と言って、それについて警告します。コーディングエージェントに「ねえ、これらの警告を修正して」と言うとき、できることの1つは、このhashtagallow dead codeを基本的に置いて、ここにすべてのこのデッドコードを持つことです。しかし、実際にはそれを望んでいません。
だから、実際にストップを押して、allow dead codeを使用する代わりに実際にデッドコードを削除すると言います。まだ少し世話をしなければなりません。モデルがこの種のことを始めるからです。このような小さなショートカットを取るのが大好きです。だから、オーケー。
実際に欲しくないものを削除します。オーケー。オーケー。今実際にものを削除しています。まだここにこのものがあります。allow dead codeはいらない、おい。それを与えないで。オーケー。オーケー。オーケー。受け入れる。次のファイルを見る。オーケー。これを使用していない場合、コードベースでフィールドが使用されていません。だから、すべてのフィールドを削除します。それをやりましょう。
フィールドが使用されていないので、空の構造体をやります。オーケー。使用されていないのでcamera configを削除します。よし、それはファイルを削除しています。オーケー。受け入れる。レビュー。次のファイル。神様、まだこのすべてのデッドコードをやっています。ファイルを削除しています。まだallow dead codeがあると思います。それらすべてを確実に削除してください。
また、皆さんが私がやっていることを実際に見ることができないと思うので、これを閉じます。だから、RoboCamを閉じます。RoboCamを戻します。オーケー。受け入れる。今空の空のを完全に削除したいですか？ええ。空のファイルを削除します。削除しています。除いて。ペダルのようなものがほとんど必要です。昔、ペダルを持っていた人々を見ました。
基本的にIDEのいくつかのホットキーに設定する取得できるUSBペダルのようなものがあります。基本的に何かをするペダルを持つでしょう。VIで人気でしたが、ボタンを使うのが好きです。だから、サイドに12個のボタンがあるこれらのゲーミングマウスの1つを持っていて、通常それらのボタンをマップします。
しかし、acceptのためのペダルを取得すべきかもしれません。空のファイルが削除されました。オーケー、それをやったので、再度ビルドしてみましょう。だから、これを大きくします。通常、こんなに大きくしませんが、皆さんのために大きくしています。それを見てください。今7つのエラーがあります。
チャットに追加。修正。これがバイブコーディングの外観です。しかし、皆さんのほとんどは既にそれを知っていると思います。投影マップを作成するのもクールでしょうか？それには既に答えたと思います。ロボットを自分に使用する予定ですか？100％。それは、他の誰かにタトゥーする前に、何度も自分にタトゥーするつもりです。
言ったように、すでに自分に何度もタトゥーしました。これらはすべて自分でやった自分のタトゥーですが、このタトゥーロボットがやる最初の10個のタトゥーはおそらく自分になり、最終的に人々に来てもらってタトゥーしてもらい始めるでしょう。
そして、それもこのスタートアップの魅力の一部です。ロボットヒューマノイドについて考えるとき、これらのロボットのすべて、どのようなデモを見ていますか？ピックアンドプレースを見ています。シンギュレーション、倉庫での仕分け。この種の操作作業は最低価値の操作作業のようなものです。
操作に対して支払われるすべての人間について考えるとき、利用可能な最低賃金の操作ジョブは何ですか？この種のことです。倉庫作業のようなものです。なぜ最も安い可能な作業から始めるのですか？ロボットは高価になるでしょう。効率的ではないでしょう。なぜ最低可能なものを自動化しようとし始めるのですか？
タトゥーについて考えるとき、これらの有名人タトゥーアーの一部は、1つのタトゥーに対して10Kのような支払いを受けます。5時間働いて、10K支払われます。だから、実際に、この種のアートは実際に存在する最高価値の操作作業の一部です。高価値のクラフト作業は、私にとって低価値の種類のもののロボティクス自動化よりもはるかに魅力的です。
24時間の倉庫作業を自動化することは、タトゥーを自動化することと同じくらい困難で、さらに困難だと思います。しかし、1時間当たりのドルの観点から、タトゥーは倉庫のようなことをやるよりもはるかに利益が出ます。だから、それもそこの1つの角度です。
ロボティクスをやるつもりなら、これらの超低価値問題に対して競争するのではなく、これらのはるかに高価値の問題を解決しようとします。1時間10ドル稼ぐ人と競争するのではなく、1時間数千ドル稼ぐ人と競争できるのはなぜですか？それは非常に資本主義の種類の動機です。
本当に、私の真の動機はより種類の芸術的で創造的で、これが多くの異なるサブプロブレムを持つ非常にクールな問題だと感じます。私は人生全体で働いてきました。だから、私にとって、シンギュラリティに移行するとき、これは私のキャリアにとって非常に良い種類の結論のように感じます。
そして、それは1人として解決できる問題でもあります。これらのヒューマノイドロボティクス問題の一部は、1人だけのヒューマノイドロボティクス会社を持つことは決してないようなものです。非常に複雑すぎます。物事が多すぎます。せいぜい、10人のような小さなチームを持つでしょう。そして、その時点で、10人の会社で働いています。
政治、すべてのクラップのような標準的な会社のクラップを扱わなければなりません。そんなことを扱いたくない、皆さん。シンギュラリティに向かっています。良い生活を送るのに十分すぎるほど利益が出る1人の会社を持つことが可能だと思います。そして、タトゥーのようなロボティクス問題を見つけることは、1つは利益が出るだけでなく、完全に自分で解決できる何かでもあります。
それが非常に魅力的に見えます。だから、それが私がこの問題に取り組むために今年多くの時間をブロックアウトした理由です。自分のお金を投資しました。お金を取らずにこれをやることができることを願っています。それが本当に私の目標です。これらのVCからお金を乞う必要がある地点に到達したくありません。そして今、私はVCの奴隷で、彼らが私に何をすべきかを教え、10倍のリターンを見る必要があるので10店舗を開くことを私に告げます。
それに対処したくありません。対処する必要がない場合は。だから、基本的に自己資金調達して、利益が出る地点に到達し、今私は自分のロボティクス会社を持っていると思います。私は唯一の所有者、このロボティクス会社で働く唯一の人間です。そして、これらのコーディングエージェントが続き、ロボティクスでいくつかの基盤モデルがリリースされた場合、事前訓練に支払う必要は決してありません。
少しの微調整に支払うだけです。だから、わかりません、皆さん。Groot N1とPi Zeroのようなv LAモデルを試したことがありますか？やりました。Pi ZeroとGrootを試しました。タトゥーのためではありません。だから、デザイン自体のタトゥー。実際に見てみましょう。それに戻りましょう。ここで何をやったか見てみましょう。
デバッグクローンを追加しました。受け入れる。オーケー。次のファイルをレビューします。オーケー、ここで何かを変更しました。何を変更しましたか？オーケー、ある種のパスを削除しました。クール。他に何を変更しましたか？パスも削除しました。オーケー、確かに。受け入れる。次のファイルをレビューします。そして、ここでこれを削除する代わりに、それをコメントアウトしますが、おい、削除してください。
削除するつもりなら、削除してください。オーケー。それをやったので、再度cargo buildしましょう。そして、1つの警告だけを得ました。警告なしでこれを取得することに近づいています。これが、Rustのようなコンパイル言語でのバイブコードワークフローが時に極めて遅いと言っていることです。特にコードベースが大きくなり始め、コンパイル時間が長くなる場合。
それがC++またはCのようなもので、ビルドがさらに長いことを想像してください。少なくともRustは比較的速くビルドしますが、RCAM blah blah blah。これを読むつもりもありません。チャットに追加して修正するだけです。これを警告なしで実行したいです。オーケー。Blah blah blah blah blah。それを理解しています。
読み許可を削除したいです。それをやってください。フィールドを削除します。何をやったか見てみましょう。オーケー。オーケー、今これらの空の設定を作成しているだけです。構造体が空の場合は、削除してください。常に最短パスを見つけようとしています。今でも、このファイルを削除するのではなく、基本的に空のファイルであることを書き直します。 except Jesus Christ.
オーケー、もう一度試してみましょう。ああ、神様。手で解決するつもりです。これを削除するだけだからです。きれいですか？きれいに実行されますか？ああ、近いと思います。これがきれいにビルドされると思います。それを待ってください。期待感が私を殺しています。そこに行きます。よし、実際にそれを実行しましょう。
そこに行きます、皆さん。すべてのこれらの警告をバイブコーディングしました。よし、今control shift gを実行してコミットパネルを開きます。ここで見ることができ、gitコミットを書く必要もありません。基本的にすべてをクリックして、ここのこのボタンをクリックします。
そして、基本的にここにランダムなコミットを作成します。そして、ブームと行きます。それで終わりです、皆さん。それがRustでバイブコーディングする方法です。よし、今質問していた質問に戻ります。だから、Pi ZeroとGroot。だから、Grootがあります。これはここのNvidia Groot。実際にHugging Faceモデルに行きましょう。ここです。ええ。
だから、Groot N12B。これはNvidiaが公開した2Bモデルで、基本的に基盤モデルのようなものです。これは物理的知性Pi zeroに対する彼らの答えです。そして、彼らはそれを訓練しました。これは基本的に、現在ロボティクス会社のほとんどがこの種のシステム1システム2分解を使用しているモデルです。
ビジョン言語モデルを取り、彼らはこれらをビジョン言語アクションまたはビジョン言語アクションモデルと呼びますが、実際には画像エンコーダーと言語モデルであるVLMで、アクショントークンを出力するように訓練し、拡散モデルを持ちます。この拡散モデルはアクショントークンを取り、実際の関節位置と関節速度を拡散させます。
例えば、ここのドキュメンテーションから覚えている場合、あらゆるロボットは、逆運動学を介して取得できる関節の正確な位置を伝えるか、いくつかのモデルから基本的に出力することによって制御しなければなりません。だから、これらがやっていることです。基本的にこれらのモデルまたはこれらのモーターアクション、関節位置と関節速度のようなものを出力しているだけです。
拡散トランスフォーマーが拡散モデルがこれらの連続的なものを作成するのに非常に優れているという事実を利用しています。明らかに、彼らは画像に非常に優れています。関節軌道にも非常に優れています。そして、ビジョン言語モデルから来るビジョン言語アクションモデルは、VLMの事前訓練で見られるその豊かさ、世界理解の種類をすべて持っています。
基本的にVLMのすべての事前訓練世界理解とセマンティック知識を取り、拡散モデルの力と組み合わせています。これは非常に高速なモデルです。実際にこれらのほとんどの動作方法は、拡散モデルが基本的にこのVLMよりもはるかに高速に出力することです。
このVLMははるかに遅いモデルですが、この拡散モデルまたは時にアクションエキスパートと呼ばれるものははるかに速いです。だから、これは1ヘルツで動作し、これはそれより10倍速く動作する可能性があります。16アクションのチャンクをサンプリングする推論時間は63ミリ秒対Nvidia Eagle VLMははるかに遅くなります。
そして、それは基本的にPi Zeroと同じです。実際にここでPi Zero論文をやってみましょう。そのPi Zero物理的知性ではありません。これです。また、Hugging Faceにも行きましょう。直接比較できるようにします。ここに行きます。オーケー、これがPi Zeroモデルです。基本的に同じ種類のモデルであることがわかります。
ビジョン言語モデルがあります。この場合、Gemmaを使用しています。物理的知性をやったチームは、基本的に元Google人の束です。だから、Googleがオープンソースにしたちっちゃなビジョン言語モデルであるGemmaを使用するでしょう。対してNvidiaは独自のビジョン言語モデルを持っています。
だから、彼らはこのNvidia Eagle 2を使用しています。しかし、両方とも比較的同じサイズです。これは20億パラメータモデルで、これも20億パラメータモデルです。しかし、ここでアクションエキスパート3億も拡散モデルベースであることがわかります。実際に評価ではなく、ここでそれを既にスキップしたと思います。
どこで説明できるか見てみましょう。フローマッチングで、現代の拡散モデルの種類はフローマッチングです。ロボット固有の状態トークンに別の重みセットを使用することで改善につながりました。だから、これら両方ともクロス実施形態です。つまり、複数の異なるロボットで動作することを意図しています。
それを行う方法は、基本的にこれらのロボット仕様を持つことです。すべてのロボットに対してこれを再訓練する必要がないようにしたいです。だから、実際にこれを訓練するとき、多くの異なる実施形態で訓練します。まず、Webデータと人間のビデオから始めます。
これは主にVLMが持つその種のセマンティック知識を取得するためです。しかし、合成データの束があり、合成データは多くの異なるロボットを使用します。だから、このモデルの事前訓練で使用されるロボットまたは実施形態の大きな分散または多様性があります。
アイデアは、このモデルを取り、特定のロボット実施形態で微調整し、それでうまく動作するはずだということです。それが物理的知性がやった同じ種類のアイデアでもあります。ここに多くの異なる環境または実施形態があります。そして、ロボットがあまりにも奇妙でない限り、これは実施形態に対して動作するはずです。
しかし、私たちのロボットは特に奇妙ではありません。実際、これらのアームの多くを作る同じ会社だと思います。Truss。そして、このようなアームを作る別の会社もあると思います。しかし、オーケー、これでどこに行こうとしていましたか？だから、このモデルはこのようなデザインをタトゥーするのに良くありません。
これは非常に特定な種類のもので、私にとって逆運動学はこのより良いソリューションのように感じます。非常に正確でなければならないからです。しかし、このタイプのモデルに非常によく適合するタトゥーの部分があり、それは基本的に私がワイピングと呼ぶものです。
実際に人々がタトゥーする方法を見ると、基本的にトレーシング、トレーシング、トレーシングのようで、x回ごとにワイプします。この男がワイプするのをキャッチできるかどうか見てみましょう。彼は、この男は非常にきれいです。だから、当然、彼はすべてのワイピングを編集します。しかし、通常、タトゥーアーを見ると、少しタトゥーします。
たぶん6秒のようで、このワイプ、基本的にソリューションが付いたペーパータオルを持ち、ワイプして、行って、ワイプして、ワイプして、ワイプします。だから、この2番目のアームのために使用するつもりなのは、基本的に実際にタトゥーガンを持ち実際にタトゥーをやる1つのアームを持つことです。
そして、そのアームは基本的にこれらの位置のそれぞれに行くために逆運動学を使用しているだけです。しかし、2番目のアームは基本的にペーパータオルを掴んでワイプし、ペーパータオルを掴んでワイプし、ペーパータオルを掴んでワイプします。だから、それがGrootまたはPi Zeroにとってはるかに良い適合だと思います。
そのワイピングははるかに正確でないタスクだからです。それはまた、ロボットを動かして軌道を記録し、それらのいくつかの基盤モデルの1つを微調整するだけの、はるかに定義されていないタスクでもあります。そして、それがワイピングタスクにとってはるかに良い適合だと感じます。
あなたのおかげで研究インターンシップを得ました。助けることができて嬉しいです、Prou。しかし、自分を安売りしないでください。その研究インターンシップを得た場合、それはすべてあなたでした。私は実際にそれほど多くはやりませんでした。ロボットアセットはどのファイル形式ですか？だから、ほとんどのロボットはURDFと呼ばれるものにあります。
ユニバーサルロボットシーン記述形式か何かのようなものです。正確なシンクロンを忘れました。これはURDFで、実際にRossがこれを普及させたと思います。Rossは、オープンソースロボットの種類のミドルウェアフレームワークです。しかし、あらゆるロボットメーカー、だから、Trusen roboticsをやってみましょう。
彼らはあなたのためにそれを提供します。独自のロボットを持っていたポイントがありました。多くの部品を自分で作っていました。その時点で、独自のURDFを作成し、変換とすべての異なることを思いつかなければなりませんでした。しかし、この時点で、これらのロボットをかなり購入しています。
実際にTrusen robotics GitHubに行くと、ここです。ロボットを購入するとき、URDFを提供してくれます。だから、ここにあると思います。説明と呼ばれると思います。いや、これは正しくありません。これが欲しいものだと思います。ええ、これが欲しいものです。ここです。これがURDFファイルです。ここに行きます。URDFファイルを見ることができます。これらは生成されたものでもあります。
だから、手で書くことさえしません。基本的にプログラム的に生成されます。しかし、ロボットの説明のようなものです。オーケー、ここにこのリンクがあり、次のリンクまでのXYZ回転があり、次のリンクまでと見ることができます。そして、基本的にここにあるメッシュとここにあるメッシュがあります。
実際に行くと、ここにもすべてのメッシュがあります。ここにメッシュがあります。これが左キャリッジです。ロボットの1つの特定の小さな部分のようなものです。そして、URDFは基本的にそれらすべての片を相対的な位置に置くだけです。しかし、これらすべてのものは、それらをロードしてくれます。
例えば、指摘したライブラリ、このPyroi、URDFファイルを取ります。では、それはどのように見えるでしょうか？実際にこれに入って、IK Pyroiデモに行くと、ここでアームをロードするとき、実際にIKを解くJAXコードがここにあります。ここにあります。基本的にURDFファイルへのパスがここにあると言います。
このURDFファイルは、このコンピューター上にもあるメッシュへのパスを持ちます。そして、基本的にURDFパスからインターフェイストラッキングをカジュアルに行うと言います。glTF、glは作業しやすいかもしれません。ええ、より良いファイル形式があります。言ったように、投影の種類のためのこのNvidia Warpについて確信していません。その周りのすべてのものも迷惑だからです。どこに行き着くかもわからないからです。
私がやっているような投影を行うためにこのクロスシミュレーションをやるとき、クロスが滑ることができます。だから、配置が良くありません。そして、それは非常に重要なことです。人々がこれを手で行うとき、この種の手動の種類の配置を行うことによって、彼らは自分でアライメントをやっています。だから、私が今やっているような、ドロッピングのランダム性が何であれ、そこに行き着くことになるのではなく、アライメントがはるかに意識的で認識されることを望みます。
それはRazer Nagaですか？Razerブランドだと思います。どれかわかりません。実際にここの後ろに書いてあります。Razer Naga Trinityです。だから、多くのボタンがあります。だから、それらのボタンにマップされた多くのものがあります。
タトゥーから層状ナノ手術まで。これは大きな産業です。ええ、それに対する多くの応用があります。例えば、このロボットを作成してタトゥーを始めるとしましょう。他のことにも使い始めることができます。あらゆる種類のマイクロニードリングがあります。針を細かく制御できることへのあらゆる種類の奇妙な皮膚科の種類の応用があります。
人々は既に植毛にロボットを使用しています。植毛ロボットを見たことがありますか？明らかに、結婚しているので気にしませんが、美しい髪を持つことについては気にしませんが、髪について非常に不安な男性が多くいます。だから、人々はこの手順に簡単に5から10K支払います。基本的に頭の他の場所から多くの髪を収穫し、ロボットが基本的に個別にそれらを置きます。
このような高精度手術状況におけるロボットの多くの応用があります。しかし、これをやりたくありません。結局のところ、ポストシンギュラリティユートピアの種類に住むつもりなら、ハゲた老人に植毛を追加することについて時間を費やしたいですか？いいえ。
そんなことはどうでもいいです。タトゥーデザインをやりたいです。それははるかにクールです。だから、これは私が説明していたことに戻ります。理想的な状況では、外部資金を取る必要はありません。外部資金を取るとすぐに、彼らはこれらのことを強制できるからです。
ベンチャーキャピタリストは、あなたが楽しんでいるか楽しんでいないか、何をしたいか何をしたくないかについて気にしません。お金を稼ぎたいだけです。だから、彼らにとって、「ねえ、Hugo、多くのお金をあげたので、タトゥーを超えて拡張し、これらの他のすべての応用を試すことが非常に重要だと思います。10倍多くのお金を稼ぎ始めることができ、10倍多くのお金を得ることができるからです」と言うでしょう。
その状況で彼らに去れと言うことはできませんでした。ねえ、彼らは多くのお金をくれました。彼らは私を所有しています。だから、外部資金を取らずにこれを行うことができることを本当に望んでいます。私がやりたいことだけをやることができ、10倍、10倍、10倍、10倍を強制されないようにし、再び10倍するためにより多くの人を雇うことができるようにします。
ワイピングもハードコーディングできます。ええ、ワイピングもハードコーディングできますが、わかりません。ワイピングは言ったように定義が少ないと感じます。だから、実際のタトゥータスクでは、その位置に正確に行きたいです。それは非常に正確で狭いタスクですが、ワイピングでは非常に不定形です。
オーケー、たぶんこの方向に少し滴下が起こっている場合、このようにではなくこのようにワイプしたいです。そのようなファジーなタスクを持つとすぐに、このようなエンドツーエンドモデルを使用することは、はるかに良いソリューションになります。そして、これらのモデルは本当に始まりに過ぎません。
Groot N1とPI0、これらは最初のバージョンです。私はモデルを事前訓練する必要は決してありません。それは非常に高価になるでしょう。これを完全に自分で資金調達するつもりなら、これらの1つを事前訓練するのに必要なお金はありません。しかし、現在最高のオープンソース基盤ロボティクスモデルの2つがNvidiaとPi Zeroと呼ばれるこのアメリカのスタートアップからのものであることをほぼ99％の信頼度で賭けることができます。
しかし、ロボティクスのDeepSeekを持つことになると99％の信頼度で賭けたいと思います。DeepSeekが出てきて、おそらく最高のオープンソースモデルをリリースしたのと同じ方法で、中国企業として、ロボット基盤モデルで同じことを持つと思います。現在、町の唯一のゲームがアメリカ企業があなたにアメリカのロボット基盤モデルを販売しているように見えます。
しかし、本当に良いロボティクス企業のすべてと言いたくはありませんが、多くは中国にあります。そして中国は既にオープンソースに対するそのようなバイアスを持っています。彼らは非常にオープンソースメンタリティです。中国の大きな基盤モデル会社のすべてが基本的に彼らのモデルをオープンソースにしています。
中国企業からの多くのオープンソースロボティクス基盤モデルを見ることになると思います。そして、それらがアメリカのものよりもはるかに良くなると思います。だから、何もする必要はありません。基本的にここに座って、逆運動学の問題を解決し、これらのタトゥーデザインで非常に正確であることを待つだけです。
そして、これらの他の会社は、より良いロボティクス基盤モデルを作るために自分たちを殺すことになります。そして、ワイピングモーションをやっている自分のいくつかの模倣学習軌道を基本的にやるだけで、DeepSeek相当の種類の中国ロボティクス基盤モデルを使用し、それらの10個のワイプデモンストレーションでそれを微調整し、最先端のワイピングになるという地点に到達します。
だから、すべての人間は他の人に買われることなく、創造し、探求することができなければなりません。ええ、私の言語を話しています。シンギュラリティでロボットがロボットを作りませんか？ええ、だから、タトゥーロボットは永遠のものではありません。これの現実は、この種の機会がある限られた窓があることです。
ある時点で、Optimusロボットはこれを文字通り行うことができるでしょう。だから、ある時点で、Optimusロボットを買うだけで、このタトゥーガンを手渡すだけで、タトゥーをすることができるでしょう。だから、独自のタトゥーロボット会社を持つことは、特定の生涯があります。
私がこのことを行うことができ、独自のデザインを持つことができ、人々にロボティックタトゥーを販売できる小さなショップを持つことができる時間の窓があります。しかし、ある時点で、シンギュラリティと指数的改善の働き方は、誰でもあらゆるロボットを買うことができ、誰でもこのデザインを行うことができるので、もはや意味がなくなります。
しかし、そこに到達するまでに、私たちは既にポストシンギュラリティの種類のユートピアの種類の状況について話しているからです。だから大丈夫だと思います。シンギュラリティを超えたら、アイデアが壊れても大丈夫だと思います。まだ何か興味深いことを行うことができる良い3から5年があると思います。
他に何があったか見てみましょう。そして、私はこれを秘密で行うつもりはありません。コードのほとんどすべてがオープンソースになります。秘密のコードや秘密の何かを持つつもりはありません。これのすべてがオープンソースになります。これらのものを買いたい場合は、文字通り行って買って、独自のタトゥーロボットを行うことができ、私はあなたを止めません。
それが私のメンタリティです。秘密の技術や秘密のコードベースやクローズドソースを持つというこのアイデアは、負け犬のメンタリティのようなものです。すべてを公開し、すべてをオープンソースにし、人々があなたをコピーしたいなら、それは完全に良いし、あなたにとって利益です。
このリポジトリを使いたいより多くの人、より良いです。だから、ええ、旅を追うことができます。そして、実際に、皆さんが本当に旅を追いたい場合は、アカウントを作りました。InstagramアカウントとTikTokアカウントとXアカウントを作りました。ここにXアカウントがあります。投稿するつもりです。
既に最初のタトゥーを投稿しました。これは今週初めにやったタトゥーです。ロボットが行き、ガンを掴み、インクキャップに浸し、基本的に円をやらせました。非常に良い円ではありません。非常にひどい円ですが、小さく始めなければなりません。それで終わりです。
それが最初のタトゥーです。そして実際に、これはさらに今週初めでした。これはシャーピーを使用していたときです。タトゥーガンさえ設定していませんでした。これはシャーピーだけです。だから、ええ、Y Combinatorで学んだ1つのレッスンは、彼らが教えてくれたことです。多くの悪いことを教えてくれましたが、言った良いことの1つは、最初のリリースに恥ずかしくない場合は、十分に早くリリースしていないということです。
だから、これを見ています。恥ずかしいです。非常にひどい円で、実際に非常に遅いです。この中間部分は速くなっています。実際にかなり遅いです。だから、恥ずかしいです。私をからかうことができます。そこに行って「ねえ、これは実際にガベージタトゥーです」と言うことができます。
しかし、私はあなたに同意するつもりです。ねえ、ガベージです。しかし、これに取り組むつもりです。どんどん良くなって、年末までに本当に素晴らしいデザインをやることを願っています。生成アート部分は解決されているからです。ベンガル猫が吠える白黒タトゥーをやってみましょう。ラインワークSVG。
実行しましょう。これらの4つを生成しましょう。よし、それはかなりクールです。これが好きです。完全にタトゥーしてもらいたいです。胸に置くだけです。バム、胸の大きなブーです。
体を追跡することについて話しましたか？ええ、現在私が下っている2つの種類のパスは、基本的にここのこれら2つのモデルです。Masterとこのベースです。既存のタトゥーロボットマシンのように言ったので、それらはオープンループ制御です。基本的にフィードバックがありません。力フィードバックはありません。追跡は起こっていません。
基本的に文字通りこの腕をテープで固定して動かないようにし、全体を一度にやります。そして、私にとってこれでタトゥーを受けるときに、もう少し自然な体験を持ちたいです。だから、力フィードバックがあるという意味で多くをやるつもりですが、ドロイドナフナイフのようなコンピュータビジョンベースのクローズドループ制御になります。
完璧な距離と圧力管理のために皮膚を保持するアームが必要です。ええ、最終的には物理的な触覚フィードバックが欲しいです。実際のタッチセンシング力センシング。しかし、おそらく待たなければならないでしょう。このアーム、本当にこのアームが好きですが、TRSに支払われているわけではありません。支払ってくれません。私が誰だか知らないでしょう。
しかし、5Kでかなり良いです。基本的に比較的安価で専門品質のアームを取得しています。しかし、このアームは、実際の人間のタトゥーアーがやるような超微細な精密力フィードバックを行うことはできません。タトゥーするときに得る力の量は、小さな針だから非常に微妙です。
だから、力フィードバックを使用してループを閉じることに依存できるアームの数世代を待たなければならないと思います。だから、私は完全にコンピュータビジョンベースのアプローチを使用しています。
それは動作しますか、皆さん？かなり疲れています。どこにいますか？1時間半のようです。しばらくストリーミングしていないので、2時間続けて話すことに慣れていません。だから、そこで終わるかもしれません。
皆さんが望むなら、これらのアカウントでのフォローを感謝しますが、フォローを強制するつもりはありません。皆さんは何でも好きなことをやってください。そして、それで終わりです、皆さん。私のタトゥーロボットです。これに取り組むつもりです。どこまで持っていけるか見てみます。
今年末までにお金を稼がない場合は、おそらく本当の仕事を得なければならないでしょう。しかし、それまでは、できるすべてをやるつもりです。そして、それで終わりです、皆さん。それがNvidia Warpです。逆運動学について話しました。生成について話しました。力制御について話しました。UVを推奨しました。
よし、見てくれてありがとう、皆さん。楽しい時間を過ごしてくれたことを願っています。また来週お会いしましょう。ああ、実際に、待って、すべての人に感謝するのを忘れました。それをやりましょう。ストリーミングの仕方を忘れています。
ありがとう。Eli、Kate、Majetti、NLP、Beyond、Aries、Patrick またはPatrick、Nirage、SHZ、Pruk、Dan、Mark B、Astringer、770。見てくれてありがとう皆さん。楽しい時間を過ごしてくれたことを願っています。そして来週、他の種類のロボティクスの何かに参加してください。たぶん論文。見てみましょう。