ロボット・バイブ・コーディング

ソフトウェア開発・プログラミング
この記事は約48分で読めます。

この動画は、個人でタトゥーロボットの開発に取り組むエンジニアによる技術実演である。彼は2つのロボットアームと複数のカメラシステムを使用し、リアルタイムでの3D再構築、逆運動学計算、そしてタトゥーデザインの3D表面への投影技術を紹介している。特に注目すべきは、MasterやVGGTといった最新の多視点再構築モデルの実装と、Nvidia Warpを用いた布シミュレーションによるパターン投影手法である。また、RustとPythonを組み合わせたライブコーディングセッションも含まれており、現代のAI支援開発環境での実践的なプログラミング手法が示されている。

  1. ライブ配信のセットアップとタトゥーロボットの紹介
  2. タトゥーロボットプロジェクトの概要
  3. システムコンポーネントの詳細解説
  4. タトゥーロボットの設計哲学
  5. 既存のタトゥーロボット技術の分析
  6. 6軸制御による革新的アプローチ
  7. コンピュータビジョンシステムの構成
  8. マルチビュー再構築技術の活用
  9. 最新の再構築モデルの比較
  10. MASTERモデルの技術解説
  11. 信頼度とローカル特徴の処理
  12. 高速ニューラルネットワークマッチング
  13. ライブデモンストレーション
  14. Cursorを使用したリモート開発
  15. Rustでのバイブコーディングの利点
  16. ARCAMデモの実行
  17. VGGGT実装とテスト
  18. 3D再構築結果の比較
  19. MASTERとVGGTの性能比較
  20. SLAMとリアルタイム追跡
  21. タトゥープロセスとデザイン投影
  22. Nvidia Warpを使用した布シミュレーション
  23. Nvidia Warpの制限と課題
  24. 逆運動学とPyRoiの使用
  25. リアルタイム逆運動学デモ
  26. PyRoiライブラリとJAX実装
  27. バイブコーディングによる警告修正
  28. コーディングエージェントの監視と指導
  29. コンパイルとエラー修正
  30. 高価値操作への焦点
  31. 単独企業運営の理想
  32. 将来展望と制約
  33. ビルドの完了とGit操作
  34. ロボティクス基礎モデルの議論
  35. VLMと拡散モデルの組み合わせ
  36. クロスエンボディメント対応
  37. タトゥーにおける精密制御の必要性
  38. オープンソースモデルの将来
  39. 特異点後の展望
  40. タトゥーロボットの実演と展望
  41. 技術的課題と将来の開発
  42. ストリーミングの終了

ライブ配信のセットアップとタトゥーロボットの紹介

こんばんは、皆さん。YouTubeでのテスト配信です。YouTubeでのテスト、YouTubeでのテスト。よし、YouTubeで動作しています。調子はどうですか、ロブさんとマークさん。Xでもテストしてみましょう。Xでもライブ配信されるはずです。少し時間がかかっていますね。Xのサーバーが燃え尽きたか何かだと聞きました。なので、Xでは動作しないかもしれません。様子を見てみましょう。

もう少し待ってみます。どうやらXではライブ配信が開始されていないようですね。それは良くありません。何が起こっているのか確認してみましょう。X.studioというものがあって、ライブ配信専用の別アプリがあるようです。本来なら配信されるはずなんですが、興味深いことにスケジュールされているとなっているものの、配信が開始されていません。

ストリームは受信されているようですが、開始されていないだけのようです。もう少し待ってみましょう。SHZさん、いいグリッパーですね。このグリッパーカメラはどうですか?これはライブのロボットグリッパーカメラです。

この配信が開始されるかどうかわかりませんが、まあいいでしょう。YouTubeが本当に重要な部分だと思うので、それに集中しましょう。

タトゥーロボットプロジェクトの概要

今日のライブ配信はロボット・バイブ・コーディングと呼ばれています。私は配信の要約をこのGitHubページに継続的に掲載していきます。私のGitHub「hoopo-docs」でいつでも見つけることができます。ここで日付順に整理されているので、すべて簡単に見つけられるはずです。そして今日扱う様々なリンクがここに表示されています。

今日の配信では、私が取り組んでいる小さなプロジェクトを発表します。これからもっと時間をかけて継続していく予定のものです。それはTatbotと呼んでいるものです。Tatbotはタトゥーロボットです。つまり、タトゥーを彫るロボットです。

実際、皆さんが見ているライブ配信がそのロボットです。これがその姿です。これはPolycamです。Polycamは基本的にスマートフォンで使える小さなアプリで、任意の3Dオブジェクトの周りを歩き回ると、それからSfM(Structure from Motion)を実行してくれます。基本的にそれらをすべて登録し合わせて、このような素晴らしいメッシュを作成してくれます。

これが実際の外観です。8020アルミニウム、このアルミニウムフレーミングで構成されており、2つのTrussenアームがあります。そして上部にはたくさんのPoE IPカメラを備えたオーバーヘッドシステムがあります。つまり、基本的にアドレスを持ち、ネットワーク上の小さなコンピューターのような感じでアクセスできるカメラです。

システムコンポーネントの詳細解説

これらのカメラは一般的にUSBカメラよりも優れています。USBカメラには様々な問題があるからです。コンピューターに過負荷をかけてしまいます。コンピューターにそのような作業に集中してほしくありません。だから私はこれらのPoE IPカメラを気に入っています。イーサネット経由で電源も供給されます。

ここがこのシステムの様々なコンポーネントです。このリポジトリは様々なものを蓄積してきており、バイブコーディングに役立つこのリポジトリの様々なレイアウトや形式を実験してきました。役立つことの一つは、ロボットの完全な説明をリポジトリ内の単なるマークダウンファイルとして持つことです。

このリポジトリには、システムのすべての異なるコンポーネントの説明があります。Nvidia Jetson AGX Orinがあります。これは32ギガバイトの統合RAMを持つ小さなエッジNvidiaデバイスです。この統合RAMは、標準的なゲーミングPC構成のようなCPU用RAMとグラフィックスカード用VRAMの区別とは異なります。これはより統合されています。いくつかの点でより優れており、他の点では少し面倒ですが、この32GBのRAMを持つARMは非常に良いものです。

ロボットに付属したPCもあります。これが実際にそこにあるロボットです。これらが2つあります。これはTrossen社製のWidow X-200と呼ばれるものです。これらは中間的な位置にあります。Hugging Faceで見るような100ドルの安価なアームではありませんが、5万ドルのものでもありません。これらは4,000ドル程度で、2つ購入すると10,000ドルほどです。

1ミリメートルの反復精度と4キログラムのエンドエフェクター・ペイロードがあります。実際、これはエンドエフェクター・ペイロードではなく、1.5キログラムのペイロードです。しかし、このタトゥー用途には十分です。基本的にペイロードはこれになります。これはタトゥーワンド、タトゥーマシン、またはタトゥーペンとして知られているものです。

基本的には小さなリンケージで、内部のものを前後に動かすだけです。現在、それらのほとんどすべてに外部バッテリーが付いています。小さなバッテリーが見えて、設定できるようになっています。これらのメーカーは多数あります。

タトゥーロボットの設計哲学

このタトゥーロボットの設計の一部として、私は特定のワンドに統合する独自のエンドエフェクターを必ずしも持ちたくありません。むしろ市販のワンドを使用したいのです。異なる設定に設定された様々なタトゥーワンドを用意して、タトゥーを行う際にそれらを取り上げて使用できるようにしたいと思います。

そして、これが実際にタトゥーを行うために使用するものです。これらが実際の針です。基本的にこれらの事前に作られたカートリッジに入っています。これが医療的に密封され滅菌される必要がある実際の部分ですが、効果的に見ることができるように、それを取り出すと、基本的にプラスチックとこのプラスチックバネのようなもので、これらの小さな針を撃ち出すだけです。様々な針のパターンなどがあります。

皆さんは「この人は一体何について話しているんだ?タトゥーロボットについて話している」と思っているでしょう。では、まず少し後退して、他の人がこれまでにこれを行ったことがあるかどうか考えてみましょう。タトゥーロボットは存在するのでしょうか?これは市場なのでしょうか?人々は実際にこれを行うのでしょうか?

既存のタトゥーロボット技術の分析

実際にTattoo Robotというものがあります。例えば、これは誰かのYouTubeショートです。この人が誰かはわかりませんが、説明文にアラビア語があるので、ドバイか何かの人だと思います。特定の文化ではタトゥーに否定的な意味合いがあり、多くのイスラム諸国ではタトゥーを好まないような気がするので、アラビア語のタトゥーソーシャルメディア投稿を見るのは少し奇妙です。

ここで、この人が基本的に行ったことは、3Dプリンターのリグを取ったということです。3Dプリンターは基本的にXYZを持っていますが、ヨー、ピッチ、ロールはありません。つまり、3次元位置制御だけで、それを拡張して、効果的にタトゥーワンドを接着しました。私が行っていることと非常に似ており、基本的に企業がこれらの非常に素晴らしいタトゥーワンドを作成したという事実を活用して、それをロボットの先端に取り付けるだけです。そうすると問題は6次元のポーズ問題になります。

しかし、このマシンにはオープンループ制御と呼ばれるものがあります。フィードバックがゼロです。力感知が行われているという意味でのフィードバックがありません。また、ターゲットを追跡するために使用されているコンピュータビジョンがあるという意味でのフィードバックもありません。このロボットは非常に特定の位置で盲目的に実行するだけです。腕を非常に静止させ続け、その腕の曲率が比較的平坦である限り、タトゥーを受けることができます。

これがタトゥーロボットマシンの例です。こちらも紹介したかったものです。これは、おそらく存在する最も先進的なタトゥーロボットマシンで、Black Dotというオースティンの会社からのものです。実際、私はこの人からタトゥーを受けたことがあります。

これは私の足にあるこの会社からのタトゥーです。Nvidia SMIを彫りました。ターミナルに何度も入力したコマンドなので、タトゥーとして入れるのがクールだと思ったからです。非常に高品質のタトゥーであることがわかります。非常にクリーンですが、彼らも効果的に同じことを行っています。XYZのブラインドオープン制御ループを使用しており、すべてを完全に静止させておく必要があり、平坦な表面にのみタトゥーを入れることができます。

6軸制御による革新的アプローチ

彼らは実際のインク堆積に多くの研究と革新を投入しました。私や私自身のようなタトゥーワンドは使用しません。実際に基本的に独自のカスタムタトゥーワンドを作成し、インクを分配します。ここに見えるのは2つの大きなカートリッジです。1つはインク用のシリンジのようなもので、もう1つは水用で、それらの希釈を変更します。正直に言って、過度に工学的で複雑だと思いますが、これがタトゥーロボットの現状です。

きれいなタトゥーを行っている段階のスタートアップが1つあり、世界中に分散したハッカーたちが3Dプリンターリグを使ってこれらを組み立てている状況です。

このストリームで見ているものは、効果的に最初のロボットアームベースのタトゥーロボットです。これで本当にやりたいことは、ロボットアームを使用しているため、6D制御ができることです。XYZを制御するだけでなく、ワンドの角度や法線ベクトルも基本的に制御できます。これは、円形や曲面にタトゥーを入れることができることも意味します。

実際、体の多くは円形または曲面です。完全に平坦な表面がある体の部分は非常に少ないです。前腕や腕、脚くらいでしょう。しかし、私は曲線パターンにタトゥーを入れることができるようになりたいのです。そのためには、このコンピュータビジョン問題の解決方法を見つける必要があります。

コンピュータビジョンシステムの構成

そこで、このタトゥーロボットの部分が登場します。5つのRGBカメラと2つのReal Senseカメラを備えたこの上部全体です。エンドエフェクターとここの上部にReal Senseカメラがあります。Intel Real Sense D405で、RGBと深度を提供します。その追加の深度チャンネルです。

これらのカメラを使用して、基本的に皮膚のリアルタイム再構築を作成しようとしています。このようなアームの現実として、例えば3Dプリンターには文字通り力のフィードバックがゼロです。欲しくても力のフィードバックを得る方法すらありません。

しかし、これらのタイプのアームには力のフィードバックがあります。Trussenアームのドキュメントを見ると、外部努力制御モードと呼ばれるものがあります。これらはロボット用の異なるタイプの制御モードです。例えば、特定の関節位置に行くように指示する位置制御モードがあります。特定の速度を持つように指示する速度制御モードがあります。

そして、特定の力に制御しようとする努力制御モードがあります。エンドエフェクターで特定の力を求めているのです。しかし、これらのタイプの制御モードの現実、そしてインピーダンス制御モードのような他の類似のものもありますが、それらはあまり良くありません。

タトゥーを行う現実は、発揮している力の量が非常に小さいため、基本的にこれらのアーム力制御モードのいずれかを使用して、その種の触覚フィードバックに基づいて行うことは決してできないということです。現在の技術では、特に私が検討している価格帯では、力制御を使用してループを閉じることは実際には不可能です。

マルチビュー再構築技術の活用

5万ドルのアームを使用しているのではなく、5,000ドルのアームを使用しているため、それは不可能です。だから効果的に、コンピュータビジョンでこの問題を解決する方法を見つけなければなりません。

では、どうすればいいのでしょうか?Polycamを使用できます。これは基本的にこのロボットの3Dモデルを取得するために使用したものです。ここに私のすねがあります。これは私の脚で、すでにこれらはすべて私が自分自身に行ったタトゥーです。

ここにデザインを配置したいとしましょう。私ができることは、ここで行ったように脚をスキャンすることです。携帯電話でその周りを回り、このアプリに入れて、2分待つと脚の3Dスキャンができます。

しかし、それは私が欲しいものとは正確に一致しません。これは必要な精度を持っていますが(実際の形状に関してはサブミリメートルの精度)、現実は、この体の部分は非常に変形しやすく、常に動いているということです。脚を動かすたびに、シーン内でそれを実際に追跡する方法が必要です。

実際には、このタイプの再構築が1ヘルツのループのようにほぼリアルタイムで行われることを望んでいます。これは2分に1回のような操作で、あまりにも遅すぎます。このような外部アプリに依存することはできません。

最新の再構築モデルの比較

2つの異なるソリューションを見つけました。これらは、現在存在する最も高速な多視点再構築モデルのおそらく2つです。1つは「Grounded Image Matching in 3D with MASTER」と呼ばれ、もう1つは「VGGGT: Visual Geometry Grounded Transformers」と呼ばれています。

これらは比較的最近のものです。1つは2024年6月14日、もう1つは2025年3月14日に発表されました。これらは基本的に多視点再構築モデルです。複数の画像を取得し、それらすべての画像から3Dジオメトリを再構築または作成します。

これを行う古典的な方法はたくさんあります。COLMAPは基本的にこれのゴールドスタンダードです。しかし、過去数年間で、人々はより深層学習ベースのバージョンを作成しました。もはやこれらの種類のハードコードされたアルゴリズムを使用するのではなく、基本的により深層学習パラダイムに依存し、効果的にこれらの画像を他の再構築データセットで事前学習されたトランスフォーマーモデルに供給し、非常に迅速に答えを提供します。

MASTERモデルの技術解説

この3D再構築をマルチビューカメラから作成できる制御周波数は、これを行う推論速度によってのみ制限されます。これらのモデルは特に大きくありません。私の場合、ここで使用しているエッジデバイス上で動作できます。32ギガバイトの統合VRAMは、このタイプのモデルを実行するのに十分すぎるほどです。

MASTERについてもう少し深く掘り下げてみましょう。VGGTとは少し異なりますが、非常に似ています。このMASTERを理解すれば、VGGTで何が起こっているかも理解できると思います。

MASTERはDUSTeRの拡張です。これの元のバージョンはDUSTeRと呼ばれ、これは拡張論文のようなものです。画像を取得し、このViTエンコーダ(Vision Transformer)に供給することから始めます。これは画像をパッチ化し、小さなチャンクに分解して、シーケンスとしてこのトランスフォーマーに供給します。

ここでエンコーダ・デコーダパターンが見えます。最近では多くの場合、人々はデコーダーだけを使用しますが、ここでは完全なエンコーダ・デコーダがあります。このデコーダー部分には実際にクロスアテンションがあります。この画像とこの画像の間でアテンション操作を行い、情報を互いに流し込んだり、互いに注意を払ったりできるようにしています。

出力には異なる出力ヘッドがあります。この3Dヘッドは2つの異なるものを出力します。ポイントマップ(次元h × w × 3)を出力します。h × wは画像の次元です。これらの各ピクセルに対して3つの数値が得られ、これらの3つの数値はxyzを表します。ポイントマップは基本的にポイントクラウドです。画像内のすべてのピクセルに対して、そのピクセルのXYZ位置を教えます。

信頼度とローカル特徴の処理

また、信頼度も出力されます。この信頼度は、各個々のピクセルに対して、各入力ピクセルに対して信頼度値を出力する数値です。この信頼度値は、全く自信がない場合は0.01のようになります。たとえば、画像の端や、建物の看板の背景のような部分では、この岩の上のポイントよりもはるかに低い信頼度になります。信頼度値は、その特定のピクセルのXYZ位置が実際の真のXYZ位置であることにモデルがどれだけ自信を持っているかを教えてくれます。

別のヘッドもあります。ローカル特徴を出力する別のヘッドがあります。ローカル特徴もピクセルごとになります。すべての単一ピクセルは、そのピクセル内にあるものを表すd次元ベクトルを持ちます。これは、このピクセルには何があり、このピクセルには何があるかのような意味情報の一種です。

ここにクロスアテンションがあるため、ここから出てくる特徴とそこから出てくる特徴の間で情報が流れる概念があります。そのため、徐々に3Dシーン自体のこの種の意味的理解を構築していくはずです。

すべての画像に対してこれを行います。これは2つの画像専用ではありません。基本的にn個の画像に対して行います。私たちのロボットの場合、7つの画像を供給します。RGBカメラ用に5つ、Real Senseカメラ用に2つです。

高速ニューラルネットワークマッチング

これらのモデルのどちらもRGBDを使用しないことを残念に思います。そのため、テーブルに何かを残しています。これらの7つのカメラビューのうち2つには深度チャンネルがあり、使用できるはずですが、これらのモデルはその深度チャンネルを使用するように設計されていません。これは単なるRGBで、これは理にかなっています。なぜなら、ほとんどの場合、人々がこのタイプのことを行っているときは携帯電話を使用しており、後期のiPhoneのようなものを持っていない限り、その深度チャンネルがないからです。

すべての画像でこのポイントマップ、信頼度、ローカル特徴を取得したら、高速ニューラルネットワークマッチングを使用します。これは少し理解が困難ですが、彼らは明確に説明しています。

信頼できるピクセル対応を取得するために、ここでの対応は、このピクセルがこのピクセルに対応することを表します。たとえば、この看板のコーナーピクセルがここのコーナーピクセルに対応するかもしれません。最終的にこの3D再構築を作成できるように、これらの画像で見つけたいものです。

標準的なソリューションは、不変特徴空間で相互マッチを探すことです。このようなスキームは非常にうまく機能しますが、最適でない精度をもたらします。これらの理由で、2つの密な特徴マップD1とD2を出力する2番目のヘッドを追加することを提案します。

ライブデモンストレーション

では、ライブデモを行ってみましょう。完全に開示すると、これはWindowsマシンです。私は基本的にストリーミング以外にはWindowsマシンをほとんど使用しません。Windowsマシンを使用している理由は、すべてのOBS(基本的にストリーミングを行うソフトウェア)と私が設定した方法が、実際にX、Twitch、YouTubeにパイプするサーバーにOBSを供給するからです。

しかし、OBSへの入力、特にこのビューはNvidia Broadcastを使用しています。これは私にWindowsの使用を強制しているソフトウェアです。このソフトウェアが実際にグリーンスクリーンを実行しているのです。OBSのグリーンスクリーンではありません。OBSのグリーンスクリーンは実際にひどいものです。私が使用しているのはNvidia Broadcastのグリーンスクリーンなので、それが私をWindowsに強制しています。

Cursorを使用したリモート開発

幸運なことに、Cursorを使用してマシンに基本的にSSHできます。現在、このウィンドウでは、Mircatマシンにsshしています。これがそれです。現在、この中にいます。これは基本的にIntel GPUまたはIntel CPUです。このマシンにはGPUがありません。IntelCPUが入った小さなボックスです。

しかし、それは問題ありません。なぜなら、ここで行うことは、私が作成したARCAMというリポジトリを使用することだからです。ARCAMはこれです。私が基本的にこれ全体をバイブコーディングしたリポジトリです。

これは、Rustを使用してIPカメラとReal Senseデバイスの両方を同時に同期的にキャプチャするためのツールです。ここで言語を見ることができます。これは基本的に100% Rustです。

完全に開示すると、私はRustプログラマーではありません。時々ここで使用したことがありますが、主におもちゃのようなもので使いました。基本的に2日間でこのアプリケーション全体を効果的にバイブコーディングできたという事実は狂気です。

Rustでのバイブコーディングの利点

実際に気づいたことの一つは、cargo cleanを行って、cargo buildを実行すると、これらのより冗長な言語でバイブコーディングを行う際、実際により簡単になるということです。これは少し直感に反するかもしれません。なぜなら、ほとんどの人がバイブコーディングを行うとき、Pythonでバイブコーディングを行うからです。

しかし、Pythonの現実は、Pythonでプログラムを書こうとするとき、すべてを行う20の異なる方法があり、そのうち19は遅いということです。それは、すべてに型付けを入れる必要がなく、様々な奇妙なモンキーパッチングなどができるような、非常にアンダーフィットのような言語です。

Pythonの解決空間は非常に大きいため、Pythonで何かをバイブコーディングしようとすると、大きなゴミの山になることがよくあります。しかし、Rustのような言語を使用する場合、それは非常に意見が強く、実際に動作するものの解決空間がはるかに狭いため、実際により高品質なソフトウェアをバイブコーディングで簡単に作成できます。

これは、私がこれを行い始めるまで必ずしも理解していなかった、または直感的に理解していなかったことです。実際に、今日ではAIツールのおかげでRustでプログラミングする方がPythonでプログラミングするより簡単になっているのは狂気です。Pythonではあらゆる種類の問題が発生し、それらの問題をデバッグするのが困難になるからです。

ARCAMデモの実行

ここで多くの警告が表示されていますが、後でバイブコーディングでそれらの警告を修正する方法を紹介します。まず、このデモを実行します。これはコンパイル言語なので、target/debug/arcamというプログラムを作成し、そのプログラムを実行します。これにより、開発者ループが少し煩わしくなります。コードを変更してから構築してからテストする必要があるからです。

Pythonでは、コードを変更してから実行し、コードを変更してから実行し、コードを変更してから実行するだけです。そちらの方が高速です。しかし、これらのコンパイル言語では、コードを変更してからコードを構築してから実行し、コードを変更してからコードを構築してから実行する必要があります。その追加のステップは煩わしい場合がありますが、実行してみましょう。

カメラのパスコードが必要ですね。カメラのパスワードを持つ環境をソースします。そして実行します。

実行中で、実際に非常に高速です。上部のタイムスタンプを見てください。すべてのカメラが同期していません。それは理想的ではないかもしれませんが、すべてのカメラの出力が見えます。これが深度チャンネルで、別の深度チャンネルもあります。素晴らしいですね。これらは同期されています。タイムスタンプが同期されていない理由がわかりません。基本的に各IPカメラには小さな内部クロックがあるので、実行前にクロックを同期する必要があります。

VGGGT実装とテスト

VGGTに入ってみましょう。VGGTは、皆さんが忘れているかもしれませんが、この論文です。VGGGT: Visual Geometry Grounded Transformerです。これは基本的にMASTERと非常に似ています。画像を取得し、パッチ化し、DINOエンコーダーに供給し、同様のことを行います。

この巨大なトランスフォーマーに通します。この場合、別々のヘッドがあります。内在的・外在的カメラパラメータを出力するヘッド、深度マップを出力するヘッドなどがありますが、基本的に同じことです。効果的に、これを大きな巨大な深層学習トランスフォーマーの塊に供給し、これらの種類の対応を出力し、それがこの3D再構築を取得することを可能にします。

実際に、彼らはここでMASTERよりも優れていると言っています。評価セクションにスクロールすると、MASTERと直接比較していることがわかります。精度は低い方が良いのか、これは精度ですがなぜ低い方が良いのでしょうか?意味がありません。しかし、ここで見ることができます:40.3、38、34、37、37、38。つまり、同じようなものです。私には比較的同じように見えます。

3D再構築結果の比較

しかし、ここで実行していて、まず最初にVGTモデルをロードします。実際にこれを実行できます。nvidia-smiと入力します。だからこそこれをタトゥーとして入れたのです。何度も実行しているからです。

ここで、24ギガバイトのうち約12ギガバイトを使用していることがわかります。モデルが実行されており、12ギガバイトは実際に非常に良いです。繰り返しますが、私が持っている制限は32ギガバイトなので、これはAGX Orinで問題なく動作するはずです。

このウェブサイトに行きましょう。これが私たちが得た再構築です。ここで異なるカメラを見ることができます。これらの小さなビューのそれぞれがわかります。しかし、あまり良くありません。正直に言って、何と言っていいかわかりません。少し乱雑です。私の腕が見えますが、それについてはわかりません。

MASTERと比較してみましょう。これらの画像をダウンロードして、私のWindowsマシンに置きます。私が用意したMASTERは実際のHugging Faceのものです。なぜなら、その3090でMASTERリポジトリを実行しようとすると問題が発生していたからです。依存関係の問題があります。

MASTERリポジトリの問題は、少し扱いにくくなり始めていることです。MASTERは実際にDUSTeRに構築されており、DUSTeRは実際にCroCoか何かと呼ばれるさらに初期の作業に構築されています。実際にMASTERを使用するためには、このASMKをインストールしてから、このCroCoのようなものをダウンロードしてコンパイルする必要があります。クリーンではありませんでした。一方、このVGGTは非常にクリーンでした。

MASTERとVGGTの性能比較

ここに来て、先ほど取得した画像をアップロードします。ここに多くの設定がありますが、これらの設定を何に設定すべきかを知るために論文を十分に読んでいません。しかし、これらは良いデフォルトだと仮定します。これらのそれぞれを本当に調整することなく、品質を判断します。数時間をかけて本当にそれぞれを調整すれば、より良い結果が得られるかもしれません。

MASTERで得られるものがこちらです。これははるかに良く見えませんか?はるかに良く見えます。これを見てください。ここのVGTと比較してみてください。はるかにクリーンに感じます。

このVGTは混乱したかもしれません。これらは深度画像だからです。深度画像なしで実行してみて、どのように動作するか見てみましょう。この画像から離れて、これらの深度画像を削除します。それらが混乱させたかもしれません。より良い結果が得られるかもしれません。

両方の深度画像を削除して、再実行してみましょう。MASTERがはるかに優れているように見えているかどうか確認してみましょう。

実際に見てください。それははるかにクリーンです。これはまだ完全にまっすぐではありません。これはここの平坦な表面ですが、それらの深度画像を削除するだけで実際に大幅に改善されました。ここで素晴らしい小さなライブデモを行い、論文で見たように、それらは比較可能であるように見えます。論文で言ったように、彼らはMASTERと比較しており、同じようなものです。

SLAMとリアルタイム追跡

これらは基本的に、このリアルタイム探索のための2つのソリューションです。効果的にSLAMです。おそらくSLAMという言葉を聞いたことがあるでしょう。SLAM(Simultaneous Localization and Mapping)ですが、動かないロボットのSLAMについて話すのは奇妙です。

通常、人々がSLAMについて言及するとき、実際に世界で動いている自動運転車のようなものについて話しています。しかし、効果的に同じ問題です。タトゥーを入れている脚や体の部分の再構築またはマップがあり、そのマップを常に更新し続けたいのです。ロボットが文字通り動かないときにSLAMと呼ぶのは奇妙に感じますが、同じ問題です。

その問題を解決したと仮定して、RGBカメラとRGBDカメラが約1ヘルツでタトゥーしたい肌の表面を表すメッシュを継続的に提供しているとします。その後どうしますか?

タトゥープロセスとデザイン投影

ここにYouTubeでタトゥーを行うランダムな人がいます。しかし、ここにこれがある理由は、プロセスを示すためです。タトゥーが一般的に行われる方法は、基本的に彼らがデザインを作成し、それを特別な紙に印刷し、それを平らにして、ステンシルを作成することです。

実際、画像生成器が登場して以来、独自のデザインを作成しないタトゥーアーティストが大量にいます。基本的にアートを生成して、それをトレースするだけです。彼らが効果的に行っているのは、基本的にそこに座って、AIが彼らのために作ったデザインをトレースすることです。

一部のタトゥーアーティストは反AI的で、生成アートを使用する人々を見下しています。しかし、それは少し偏見のある立場だと思います。そして、私がこのタトゥーロボットのアイデアに惹かれる理由は、生成アート要素がこれが非常に良いアイデアである理由の大部分だと思うからです。本当にクールなデザインを作成できるからです。

しかし、これに戻ると、効果的にこのステンシルを取って、体の部分の上に包む必要があります。それは非常に困難な問題です。本質的に2次元のデザインを取って、それをこの3次元表面に投影する方法はどうすればよいでしょうか?

ここにReplicate上で作成したデザインがあります。これはBlack Forest Labsを使用しています。これはStabilityの分離グループです。Stabilityは基本的にStable Diffusion会社でしたが、資金問題に遭遇し、そこにいた技術的なクールキッズたちが分離して、Black Forest Labsという独自の会社を作りました。

Nvidia Warpを使用した布シミュレーション

プロンプトを入力して、あらゆる種類のクールなタトゥーデザインを取得できます。しかし、これらは基本的に2Dです。2Dのものを取って、基本的にこの3次元表面に投影する方法はどうすればよいでしょうか?

そのために私が思いついたソリューションは、Nvidia Warpを使用することです。Nvidia Warpは、加速シミュレーション、データ生成、空間コンピューティングのためのPythonフレームワークです。基本的に、Nvidiaがリリースしたオープンソースプロジェクトで、基本的にシミュレーションフレームワークです。

流体シミュレーション、レイキャスティング、球体、衝突、波などのあらゆる種類のことを行うことができます。しかし、私にとって非常に興味深い特定の例が1つあります。それが布シミュレーションです。

この布シミュレーションでは、基本的に2次元の布を取り、それが表面に落ちて包み込みます。それは実際に私が必要とするものそのものです。この2次元デザインを取って、3次元表面に包むようなものを作成するものが必要なのです。これが私に必要なものだと思いました。

私もこれをバイブコーディングで作成しました。もうほとんどすべてをバイブコーディングしています。バイブコーディングは強すぎる表現かもしれません。コードにまったく触れないわけではありません。どのようなコードが書かれているかを非常に意識しており、それを修正していますが、エージェントと非常に協力して作業しています。

Nvidia Warpの制限と課題

もうAIの支援なしに一から何かをコーディングすることはほとんどありません。もしそれをしているなら、ワークフローでもっとAIを使用することを検討すべきです。出力を紹介しましょう。

これが私が嫌いなNvidia Warpの一つの点です。私が基本的に行ったことは、ここで見せた脚の3Dスキャンを取り、Nvidia Warpを使用して基本的にデザインが入った布を落としました。それがここで見ているものです。

実際に削除すると、デザインが見えるはずです。これがデザインです。私が作った文字のようなものです。ここで、基本的に2次元デザインの3次元バージョンを持っています。2次元デザインを取り、これらのピクセルのすべての単一のものに対して、3次元または6Dポーズを持っています。XYZだけでなく、肌上の方向も持っています。

しかし、私はこれをまだ気に入っていません。Nvidia Warpの動作方法は、基本的にシーン全体がこのUSD形式で定義される必要があることです。USDはPixarによって開始されたと思いますが、Universal Scene Descriptorです。基本的に、UnityでシーンやBlenderでシーンを開いたように考えてください。これらは非常に似た抽象化ですが、多くの小さな違いがあります。

PixarはUSDと呼ばれるこの種の一つの普遍的な形式を作成し、それがNvidia Warpが動作するものです。USDファイルを消費し、USDファイルを出力します。しかし、これらのUSDファイルはゴミです。ここで見ることができるように、WindowsのUSDファイルのビューアー(Open USDか何かと呼ばれていると思います)は絶対にひどいものです。

逆運動学とPyRoiの使用

この結果、私のコンピューターが壊れることがあります。半分の時間これを実行すると、嘘ではなく、私のコンピューターがシャットダウンします。私はこれが好きではありません。今、ヘッドレスで行い、ファイルを開いてめちゃくちゃにすることなく、実際にワープしたパターンの位置を取得する方法を見つけなければならないと思います。

しかし、私たちはそこにいます。これらの問題を一つずつゆっくりと解決しています。

他の解決策も作成できます。私が試した別の解決策は、try mesh libraryを使用することでした。これには投影の種類があります。他の異なる3Dライブラリにもパターンを投影する方法があるので、このNvidia Warpソリューションに100%売り込まれているわけではありません。しかし、すでに別のことに使用していました。それは実際に逆運動学でした。

逆運動学は、特定のエンドエフェクター位置を持つときに、すべての関節角度を見つけ出す問題です。そのための小さなデモもあります。しかし、そのデモを実行する前に、このデモを閉じましょう。そうでないと、文字通り私のコンピューターが爆発します。

逆運動学のデモに入りましょう。先ほど、Python環境管理について推奨したいことの一つは、最近UV Pythonを使い始めたことです。すべてのPython依存関係をインストールするためです。私は文字通りすべてを試しました。virtual env、その他すべてのPython環境マネージャーを使用しました。これが現在私にとって最高だと感じます。

なぜなら、何かをインストールするとき、バックグラウンドで実行されているコードがたくさんあります。実際に行って取得し、すでに持っているものと比較し、基本的にそれを解決し、ダウンロードし、チェックインします。UVが行うことは、そのすべてのコードが基本的にRustで書かれていることです。すべてのPython依存関係管理ソリューションの中で、これが圧倒的に最速です。本当に速く、スナッピーで、何かクリーンなものがあります。

リアルタイム逆運動学デモ

ここで行ったことは、基本的にこの特定のデモのすべての依存関係を持つ仮想環境を活性化したことです。そしてuv run python demoを実行しましょう。

これはアームを使用したライブデモです。実際に皆さんはアームをチェックしてください。動いているはずです。見えるかどうか確認してください。

これが逆運動学です。これを動かすと、アームが見えます。皆さんがアームを実際に見ることができる位置に置こうとしています。カメラでここを見ようとしています。

これが基本的に行うことは、逆運動学の問題を解決することです。つまり、これらの各位置でエンドエフェクターをこの正確なポーズに取得するために、すべての単一位置でどの関節角度が必要かということです。これはまさに私たちに必要なものです。なぜなら、肌をスキャンしたので、肌の3D位置または6次元位置を持っています。生成したパターンを持っています。そのパターンをメッシュに投影しました。

そして今、これらのピクセルのすべての単一のものに対して6D位置を持っています。各6次元位置にタトゥーガンを持ってくることができれば、基本的にこのことを作成できます。そのため、逆運動学問題を解決する必要があります。

多くの逆運動学ライブラリがあります。最初に試したのは実際にNvidia oneでした。Nvidia WarpのNvidiaのソリューションです。これは並列化できるので本当に素晴らしいです。Nvidia Warpで本当に行っていることは、任意の種類の関数(逆運動学は基本的に方程式の束です)を取り、それらを解決し、GPU上で並列で実行できることです。

PyRoiライブラリとJAX実装

しばらく前に投稿したのがこの投稿で、この画像のすべての単一ピクセルに対して同時に逆運動学を解決していることがわかります。このデザインのすべての単一ピクセルに対して、エッジコンピューター上で一度にすべての逆運動学を解決しています。これは非常に有用ですが、もはやそれほど新規性はありません。

現実は、今ではコーディングエージェントがあるため、基本的に何でも簡単に行うことができ、人々はこれらの法外に素晴らしいライブラリを作成しています。PyRoiはその一つです。基本的に同じこと、この逆運動学問題を解決していますが、JAXを使用しています。

IK PyRoiに戻ると、JAXを使用する方法がわかります。基本的にJAXを使用しているため、GPU上でも解決されています。並列で行いたい場合は並列でも行うことができますが、フロントエンドとの素晴らしい統合があるため、フロントエンドを取得できます。

ロボットが止まったと思います。パケットロスが見えました。コントロール+Cして、再実行しましょう。

今度はビザーに戻って更新します。これが完全60度IKであることを示したいだけです。そして、これらがトリッキーなものです。その回転を見てください。そして、この平面で動きます。それは滑らかです。それは非常に滑らかなIKで、私たちが行いたいタトゥーのタイプには十分すぎると感じます。

あらゆる種類のスタートアップと同様に、究極の問題を解決する必要はありません。あらゆる種類のスタートアップでは、小さく始めてゆっくりとそのポイントに到達できるロードマップを持ちたいだけです。

バイブコーディングによる警告修正

今度はロボットを停止しましょう。このようにロボットを静的に座らせておくのは良くありません。静的にこのようにしているとき、すべてのモーターが基本的に重いものを持って座っているように要求されているようなものです。ロボットに不必要な負担をかけているだけです。

ここで停止します。では、バイブコーディングを行いましょう。このストリームをロボット・バイブ・コーディングと呼んだので、実際にバイブコーディングを行ってみましょう。

作業していたARCAMリポジトリに戻りましょう。構築して、すべてのこれらの警告があることがわかります。これらの警告を読むつもりはありません。ここで行うことは、「チャットに追加」し、ARCAMフォルダをドラッグします。

これで、コンテキストを与えています。「ここに、このコードがあるフォルダがあります」と言っています。そして「警告を修正」と言います。開始されるのがわかります。

モデル設定は何を使用していますか?現在、Gemini 2.5 Proを設定しています。これが現在最高のモデルだと思います。Claude Opus 4が昨日リリースされ、それが現在おそらく最高のものですが、それほど長く続かないと思います。OpenAIが次のものをリリースし、Googleが次のものをリリースするでしょう。Gemini 2.5 Proは現在非常に良いです。それが私が使用しているものです。

これらの未使用のインポートを取り除いています。これらのRust警告の多くは基本的に未使用のインポートに関するものです。Pythonでは、未使用のインポートがあってもPythonは気にしません。何も言いません。「このコードをインポートしているが使用していない。問題ない」というような感じです。しかし、Rustは文句を言います。「この作業をここで使用していないのに、インポートする意味がない」と警告を投げます。

コーディングエージェントの監視と指導

これにより、このコーディングアシスタント(現在Gemini 2.5 Proを使用していると思います)が非常に簡単になります。実際に受け入れます。次のファイルを確認します。

ここで、モデルが少しずるをしようとしています。Rustで行えることの一つは、未使用のコードがあるとき、基本的に「このコードは使用されません。このコードを削除すべきです」と言います。コーディングエージェントに「警告を修正」と言うとき、一つできることは、基本的にこの「#[allow(dead_code)]」を置き、すべてのこのデッドコードを持つことです。

しかし、実際にはそれを望んでいません。実際に停止して、「実際に allow dead code を使用する代わりにデッドコードを削除」と言います。モデルを少し監視する必要があります。このような種類のことを始めるからです。小さなショートカットを取ることが大好きです。

今度は実際にものを削除しています。まだここにこのものがあります。私は allow dead code を望んでいません。削除してください。

コンパイルとエラー修正

受け入れます。次のファイルを見ます。その後、再度構築してみましょう。cargo build を実行します。7つのエラーが出ました。

チャットに追加して「修正」します。これがバイブコーディングの様子です。ほとんどの皆さんはすでにこれを知っていると思います。

あなたは自分でロボットを使用する予定ですか?100%です。私は他の誰かにタトゥーを入れる前に、自分自身に何度もタトゥーを入れるつもりです。言ったように、私はすでに自分自身に多くのタトゥーを入れています。これらはすべて私が自分に行ったタトゥーですが、このタトゥーロボットが行う最初の10個のタトゥーはおそらく私自身に行い、最終的に人々を呼んでタトゥーを入れてもらうようになるでしょう。

高価値操作への焦点

それもこのスタートアップの魅力の一部です。ヒューマノイドロボットについて考えるとき、見ているデモのすべては何ですか?ピック・アンド・プレイスです。倉庫での分離、選別のようなものです。このタイプの操作作業は、最も価値の低い操作作業です。

操作に対して支払われる人間すべてについて考えるとき、利用可能な最も賃金の低い操作仕事は何ですか?このタイプのものです。倉庫作業のようなものです。なぜ最も安い仕事を自動化することから始めるのでしょうか?ロボットは高価になるでしょう。効率的ではないでしょう。なぜ可能な限り最も低いものを自動化しようとするのでしょうか?

タトゥーについて考えるとき、これらの有名人タトゥーアーティストの一部は1つのタトゥーに10,000ドルを受け取ります。5時間働いて10,000ドルをもらいます。実際にこのタイプのアートは、存在する最高価値の操作作業の一部です。高価値のクラフト作業は、低価値の種類のものよりもロボティクス自動化にとってはるかに魅力的です。

24時間の倉庫作業を自動化することは、タトゥーを自動化することと同じくらい困難だと思います。しかし、時給に関してタトゥーは倉庫の種類のことを行うよりもはるかに収益性が高いです。それが一つの角度でもあります。ロボティクスを行うなら、時給10ドルの人と競争するのではなく、時給数千ドルの人と競争する、このような高価値問題を解決しようとするのです。

単独企業運営の理想

それは一種の非常に資本主義的な動機です。私の真の動機はより芸術的で創造的です。これは私が生涯にわたって取り組んできたさまざまなサブプロブレムを持つ非常にクールな問題だと感じているからです。私のキャリアの非常に良い結論のように感じます。私たちが特異点に向かう中で、これは私にとって持つべき完璧な問題です。

それはまた、一人の人間として解決できる問題でもあります。これらのヒューマノイドロボティクス問題の一部は、一人だけのヒューマノイドロボティクス会社を持つことは決してできません。あまりにも複雑すぎます。あまりにも多くのことがあります。せいぜい、10人のような小さなチームを持つことになるでしょう。その時点で、今度は10人の会社で働くことになります。標準的な会社のくだらないこと、政治、そのすべてのくだらないことを扱わなければなりません。

私はそれを扱いたくありません。私たちは特異点に向かっています。十分に収益性の高い一人の会社を持つことが可能だと思います。良い生活を送ることができる一人の会社です。タトゥーのようなロボティクス問題を見つけることは、利益があるだけでなく、完全に自分で解決できるものであり、それは私にとって非常に魅力的です。

だからこそ、この問題に取り組むために今年多くの時間を確保しました。自分のお金を投資しました。外部からお金を取ることなくこれを行えることを願っています。それが本当に私の目標です。VCに行ってお金を乞うような状況に陥り、今度はVCの奴隷になる状況に決して至りたくありません。

将来展望と制約

そうすると、彼らは私に何をすべきかを教え、10倍のリターンが必要なので10店舗を開くように言います。そのようなことを扱いたくありません。扱わなくても済むなら扱いたくありません。基本的に自己資金調達して、収益性のある段階に到達し、今度は自分のロボティクス会社を持つことができると思います。私は唯一の所有者、この ロボティクス会社で働く唯一の人間です。

これらのコーディングエージェントが継続され、ロボティクスでいくつかの基礎モデルがリリースされれば、事前トレーニングに支払う必要は決してありません。少しのファインチューニングに支払うだけです。

Groot N1とPi Zeroのようなロボティクス基礎モデルを試したことがありますか?試しました。Pi ZeroとGrootを試しました。タトゥーには使用していません。実際のデザインのタトゥー自体について戻ってきましょう。

コンパイルを再度試してみましょう。cargo build。1つの警告だけになりました。警告なしでこれを実行することに近づいています。これが話していることです。Rustのようなコンパイル言語でのバイブコード・ワークフローは、時々非常に遅いということです。特にコードベースが大きくなり始め、コンパイル時間が長くなる場合です。

C や C++ のようなものを想像してください。構築がさらに長くなります。少なくともRustは比較的高速にビルドされますが。

ARCAM、何とか何とか、これを読むつもりはありません。チャットに追加して「修正」。この警告なしで実行したいです。

ビルドの完了とGit操作

今度は、これらの空の設定を作成しているだけです。構造体が空の場合は、削除してください。常に最短パスを見つけようとしています。今でも、このファイルを削除する代わりに、基本的に空のファイルに書き換えます。

もう一度試してみましょう。なんてことだ、これを手動で解決するつもりです。なぜなら、これを削除するだけだからです。

きれいになったでしょうか?きれいに実行されるでしょうか?近いと思います。この1つが きれいにビルドされると思います。待ってください。期待で殺されそうです。

そこです!今、これらすべての警告をバイブコードで取り除きました。

今度は、Ctrl+Shift+Gでコミットパネルを開きます。ここで、それらをすべてクリックしてから、このボタンをクリックすることができます。基本的にここでランダムなコミットを作成します。そして、ブーン。それで終わりです。これがRustでのバイブコード方法です。

ロボティクス基礎モデルの議論

質問に戻ります。Pi ZeroとGrootについてです。このGroot N1-2Bがあります。これはNvidiaが公開した2Bモデルで、基本的に基礎モデルです。物理知能のPi Zeroに対する彼らの回答です。

彼らは訓練したので、これは現在すべてのロボティクス企業が使用しているシステム1システム2の分解を使用するモデルです。彼らは視覚言語モデルを取り、これらを視覚言語アクションモデルまたは視覚言語アクションモデルと呼びますが、実際にはVLMで、実際には単なる画像エンコーダーと言語モデルです。そして、これらのアクショントークンを出力するように訓練し、次に拡散モデルを持ちます。

この拡散モデルは、アクショントークンを取り、実際の関節位置と関節速度を拡散します。私たちのドキュメントからのたとえば、任意のロボットでは、逆運動学を介して取得できる関節の正確な位置を教えることでそれを制御するか、基本的にいくつかのモデルからそれらを出力するかです。

それが彼らが行っていることです。基本的にこれらのモーター アクション、関節位置と関節速度、またはそのようなものを出力しているだけです。拡散トランスフォーマーがこれらの連続的なもの、拡散モデルの作成に非常に優れているという事実を活用しています。明らかに、それらは画像に非常に優れています。それらは関節軌道にも非常に優れています。

VLMと拡散モデルの組み合わせ

視覚言語アクションモデル(視覚言語モデルから来る)は、事前トレーニングの世界理解とVLMの意味知識のすべてのその豊富さを持っています。基本的に、すべての事前トレーニング世界理解とVLMの意味的知識を拡散モデルの力と組み合わせています。これは非常に高速なモデルです。

実際に、これらのほとんどの動作方法は、拡散モデルが基本的にこのVLMよりもはるかに高速に出力することです。このVLMははるかに遅いモデルですが、この拡散モデルまたは時々アクション専門家と呼ばれるものははるかに高速なので、これは1ヘルツで動作し、これは潜在的にそれよりも10倍高速で動作しています。

16アクションのチャンクをサンプリングする推論時間は63ミリ秒で、Nvidia Eagle VLMははるかに遅くなります。これは基本的にPi Zeroと同じです。

Pi Zero論文を実際に行ってみましょう。そのPi Zero、物理知能、このものです。Hugging Faceにも行って、それらを直接比較できるようにしましょう。これがPi Zeroモデルです。基本的に同じタイプのモデルであることがわかります。彼らには視覚言語モデルがあります。この場合、彼らはGemmaを使用しています。

物理知性を行ったチームは、基本的に元Google人の束です。だからこそ、Googleがオープンソース化した小さな視覚言語モデルであるGemmaを使用するつもりです。一方、NvidiaはNvidia Eagle 2を使用しているため、独自の視覚言語モデルを持っています。

しかし、どちらも比較的同じサイズです。これは20億パラメータモデルで、これも20億パラメータモデルです。ここで、アクション専門家の3億も拡散モデルベースであることがわかります。

クロスエンボディメント対応

これら両方はクロスエンボディメントです。つまり、複数の異なるロボットで動作することを意図しています。その方法は、基本的にこれらのロボット特有の状態トークンを持つことです。すべてのロボットに対してこれを再トレーニングする必要がないようにしたいです。

実際にこれらをトレーニングするとき、さまざまなエンボディメントで訓練します。まず、ウェブデータと人間のビデオから始めます。これは主にVLMが持つその種の意味知識を得るためです。しかし、合成データもあり、合成データは多くの異なるロボットを使用します。

したがって、このモデルの事前トレーニングで使用されるロボットまたはエンボディメントには大きな多様性があります。アイデアは、このモデルを取って、特定のロボットエンボディメントでファインチューニングでき、それで動作するはずだということです。それは物理知能が行ったのと同じ種類のアイデアです。彼らもここで多くの異なる環境またはエンボディメントを持っています。

私たちのロボットが特に奇妙でない限り、これで動作するはずです。実際、これらのアームの多くも作るのと同じ会社だと思います。しかし、どこに向かっていたのでしょうか?

タトゥーにおける精密制御の必要性

このモデルは、このようなデザインをタトゥーするようなことには良くありません。これは非常に特定の種類の、非常に正確でなければならないものだからです。逆運動学は、非常に正確でなければならないため、これに対してはるかに良いソリューションのように感じます。

しかし、タトゥーには、このタイプのモデルに非常によく適合するタトゥーの部分があり、それは基本的にワイピングと呼んでいるものです。実際に人々がタトゥーする方法を見ると、基本的にトレーシング、トレーシング、トレーシングをして、そしてx時間ごとにワイプします。

この人がワイプするのを捕まえることができるかどうか見てみましょう。この人は非常にクリーンなので、彼は基本的にすべてのワイピングを編集で削除します。しかし、通常、タトゥーアーを見ると、彼らは少しタトゥーして、たぶん6秒くらい、そして溶液の付いた紙タオルのようなものでワイプし、そして行って、ワイプして、ワイプして、ワイプします。

それが私がこの2番目のアームに使用するつもりのものです。基本的に、実際にタトゥーガンを持ち、実際にタトゥーを行う1つのアームを持ちます。そのアームは逆運動学を使用して基本的にこれらの位置のそれぞれに行くだけです。

しかし、2番目のアームは基本的に紙タオルを掴んでワイプし、紙タオルを掴んでワイプし、紙タオルを掴んでワイプします。それははるかに精密でないタスクだと思います。それははるかに定義されていないタスクでもあり、いくつかの軌道を記録し、ロボットを自分で動かして、これらの基礎モデルの1つをそれに対してファインチューニングするだけを想像できます。

それはワイピングタスクにとってはるかに良い適合だと感じます。また、Groot N1とPi Zeroは最初のバージョンにすぎません。私は決してモデルを事前トレーニングする必要はありません。自分で完全に資金調達するなら、事前トレーニングに必要なお金がないからです。

オープンソースモデルの将来

しかし、現在最高のオープンソースロボティクス基礎モデル2つがNvidiaとPi Zeroと呼ばれるアメリカのスタートアップからのものであることをほぼ100%の確信で保証できます。しかし、ロボティクスのためのDeepSeekがあると99%の確信で賭けます。

DeepSeekが登場して、おそらく最高のオープンソースモデルをリリースし、中国の会社であるのと同じように、ロボット基礎モデルでも同じことが起こると思います。現在、町で唯一のゲームはアメリカンロボット基礎モデルを販売するアメリカの会社のようですが、本当に良いロボティクス会社のすべてではありませんが、多くは中国にあります。

中国はすでにオープンソースに対してそのような偏見を持っています。彼らは非常にオープンソースの考え方を持っています。中国のすべての大きな基礎モデル会社は基本的に彼らのモデルをオープンソース化しています。中国の会社からのオープンソースロボティクス基礎モデルをたくさん見ることになると思います。それらはアメリカのものよりもはるかに良くなると思います。

私は何もする必要がありません。基本的にここに座って、逆運動学とこれらのタトゥーデザインで非常に正確であるという問題を解決するのを待つだけです。そして、これらの他の会社は、より良いロボティクス基礎モデルを作るために自分たちを殺すつもりです。

特異点後の展望

私が自分でワイピングモーションをしているいくつかの模倣学習軌道を行い、何らかのDeepSeek同等の中国ロボティクス基礎モデルを使用してそれらの10のワイプデモンストレーションでファインチューニングするだけの段階に達し、それが最先端のワイピングになるでしょう。

すべての人間は、他の人によって購入されることなく、制限なしに創造し、探索できなければなりません。私の言語を話していますね。

特異点では、ロボットがロボットを構築しないでしょうか?はい、タトゥーロボットは永遠に続くものではありません。この種の機会がある限られたウィンドウがあるという現実があります。ある時点で、Optimusロボットは文字通りこれを行うことができるようになります。

ある時点で、Optimusロボットを購入してこのタトゥーガンを渡すだけで、タトゥーを与えることができるようになります。独自のタトゥーロボット会社を持つことには、実際に特定の寿命があります。私がこのことを行い、独自のデザインを持ち、ロボタトゥーを人々に販売できる小さなショップを持つことができる時間のウィンドウがあります。

ある時点で、特異点と指数的改善の動作方法は、誰でも任意のロボットを購入でき、誰でもこのデザインを行うことができるため、もはや意味をなさなくなります。しかし、私はそれについてあまり心配していません。なぜなら、そこに到達する時までには、すでに特異点後のユートピアのような状況について話しているからです。

アイデアが特異点を超えて壊れるのは大丈夫だと思います。まだ何か興味深いことを行える3〜5年の良い期間があると思います。

そして、私はこれを秘密で行うつもりはありません。コードのほとんどすべてがオープンソース化される予定です。秘密のコードや秘密の何かを持つつもりはありません。これはすべてオープンソースになる予定です。これらのものを購入して独自のタトゥーロボットを行いたい場合、文字通り行って購入してください。私は止めません。

それが私の考え方です。秘密の技術や秘密のコードベース、クローズドソースを持つという考えは、単に敗者の考え方だと思います。すべてを公開し、すべてをオープンソースにすることを好みます。人々があなたをコピーしたい場合、それは完全に良いことであり、あなたにとって利益になります。このリポジトリを使用したい人が増えるほど良いです。

タトゥーロボットの実演と展望

旅についていきたい場合、実際にアカウントを作成しました。Instagramアカウント、TikTokアカウント、Xアカウントを作成しました。これがXアカウントです。すでに最初のタトゥーを投稿しました。

これは今週初めに行ったタトゥーです。ロボットが行って、ガンを掴み、インクキャップに浸し、そして基本的に円を描かせました。あまり良い円ではありません。非常にひどい円ですが、小さく始めなければなりません。それだけです。それが最初のタトゥーです。

実際にこれはさらに今週初めで、シャーピーを使用していました。タトゥーガンすら設定していませんでした。これは単なるシャーピーです。

Y Combinatorで学んだ1つの教訓は、彼らは多くの悪いことを教えましたが、彼らが言った良いことの1つは、最初のリリースに恥ずかしくなければ、十分に早くリリースしていないということです。これを見ると、恥ずかしいです。非常にひどい円で、実際に非常に遅いです。この中間部分は実際に速めています。実際にかなり遅いです。

それは恥ずかしいです。私を嘲笑することができます。そこに行って「これは実際にひどいタトゥーだ」と言うことができます。しかし、私は同意します。それはひどいです。しかし、これに取り組み、どんどん良くなっていき、年末までに本当に素晴らしいデザインを行うことを願っています。生成アートの部分は解決されているからです。

このベンガル猫が吠える白黒タトゥー、線画、SVGを生成してみましょう。実行しましょう。これらの4つを生成しましょう。

それはかなりクールです。これが気に入ります。それを完全にタトゥーしてもらいたいです。胸にそれを入れて、大きくブームです。胸にそれを入れます。

技術的課題と将来の開発

身体の追跡について話しましたか?はい、現在私が進んでいる2つの道は、基本的にこれらの2つのモデルです。MASTERとVGGTです。なぜなら、現在存在するタトゥーロボットマシンのように、それらはオープンループ制御だからです。基本的にフィードバックがありません。力のフィードバックもありません。追跡も行われていません。

基本的に、この腕をテープで固定して動かないようにして、全体を一度に実行します。私にとって、このタトゥーを受けるとき、もう少し自然な体験を持ちたいです。だから、力のフィードバックがある意味で多くのことを行うつもりですが、コンピュータビジョンベースのクローズドループ制御になります。

完璧な距離と圧力管理のために肌を保持するアームが必要です。はい、最終的には物理的な触覚フィードバックが欲しいです。実際の触覚感知、力感知です。しかし、おそらく待たなければなりません。このアームは、本当にこのアームが好きですが、TRSから支払いを受けていません。彼らは私が誰なのかも知らないでしょう。

しかし、5千ドルでは非常に良いです。基本的に、比較的安価でプロ品質のアームを手に入れています。しかし、このアームは、実際の人間のタトゥーアーが行うような非常に細かい精密力フィードバックを行うことはできません。

タトゥーをするときに得る力の量は、小さな針だから信じられないほど微妙です。だから、現在の技術世代を数世代待つ必要があると思います。特に私が見ている価格帯では、これらは5万ドルのアームを使用していません。5千ドルのアームを使用しているので、それは不可能です。だから効果的に、コンピュータビジョンでこの問題を解決する方法を見つけなければなりません。

ストリーミングの終了

みんな、私はかなり疲れています。どこにいるでしょうか?1時間半ほどでしょうか。しばらくストリーミングしていないので、2時間連続で話すことに慣れていません。だから、そこで終了するかもしれません。

皆さんが望むなら、これらのアカウントでのフォローを感謝しますが、フォローを強制するつもりはありません。皆さんは好きなことを何でもしてください。それで終わりです。それが私のタトゥーロボットです。これに取り組んで、どこまで持っていけるか見てみます。

今年の終わりまでにお金を稼がなければ、おそらく本当の仕事を得なければならないでしょう。しかし、それまでは、できることをすべて試してみます。それで終わりです。Nvidia Warpについて話しました。逆運動学について話しました。生成について話しました。力制御について話しました。UVを推奨しました。

ありがとうございました。皆さんが楽しい時間を過ごしてくれたことを願っています。また来週、何らかの他のロボティクスタイプのことでお会いしましょう。論文かもしれません。様子を見ましょう。

視聴してくれたすべての人にありがとう。Eli、Kate、Majetti、NLP、Beyond Aries、Patrick、Nirage、SHZ、Pruk、Dan、Mark B、Astringer、770。みんなありがとう。楽しい時間だったことを願っています。

コメント

タイトルとURLをコピーしました