本動画は、Physical Intelligence社の共同創業者であるQuan Vang氏をゲストに迎え、ロボティクス分野における「GPT-1の瞬間」について議論したインタビューである。同社はあらゆるロボットを制御し、多様なタスクをこなせる汎用基盤モデルの開発を目指している。動画内では、最新のロボット制御技術やクラウドを活用した推論、さらにはデータ収集やハードウェアの汎用化など、ロボティクスビジネス立ち上げのコストが劇的に下がりつつある現状が語られる。これにより、今後世界中で無数の特化型ロボット企業が誕生する「カンブリア爆発」が起こるという展望が示されている。

ロボティクスビジネスのパラダイムシフト
ロボットビジネスを始めるための前提条件はすでに変わってきていますし、初期費用がもはやそれほど高くないため、その変化は加速し続けると思います。
誰もがデジタル世界で多くの時間を過ごしていますが、今こそ物理的な現実世界について考え始めるべき時だと感じますね。
あなたは今、特定の領域に特化したロボット企業をどう構築するかについて、文字通りその戦略を人々に明かしましたね。
これがまさに最初から私たちの使命でした。つまり、ロボティクス分野におけるカンブリア爆発を起こすことです。
いまだに信じられません。自分の生きている間にこんなものが実現するとは本当に思っていませんでした。
Light Coneの新しいエピソードへようこそ。今日はとても特別なゲスト、Physical Intelligenceの共同創業者であるQuan Vangさんをお迎えしています。私たちは、彼の会社がロボティクス全般にGPT-1のようなブレイクスルーをもたらすAI研究所になるのではないかと考えています。Quan、今日はご参加いただきありがとうございます。
ここに来られて光栄です。以前からずっとY Combinatorとあなたたちのミッションに感銘を受けていました。私たちの目標は、どんなロボットでも制御でき、物理的に可能なあらゆるタスクをこなせるモデルを構築することです。そして、あらゆる分野の人々にとって役立つような、非常に高いパフォーマンスレベルでそれを実現したいと考えています。
ロボティクスにおけるGPT-1の瞬間とは
ロボティクスにおけるGPT-1、それは一体何なのでしょうか。ロボティクスにおけるChatGPTの瞬間は本当に起こるのでしょうか。
私たちの考えとしては、本当に知的なモデルを構築したいということです。そして、その知能を世界に向けて公開できるプラットフォームを作り、人々がそれを使ってロボティクスのあらゆる分野で非常に興味深いアプリケーションを構築できるようにしたいのです。これは、玉ねぎの皮をむくようなプロセスに似ていると考えています。まずは、あらゆる常識的な知識を備え、皆さんのロボットである程度機能する非常に強力なベースモデルから始めます。
次に、現在の自動運転車によく似た、人間との混合自律システムを導入します。そして、そのシステムを実際に配置して実際の作業を行わせるのです。システムが間違いを犯すかもしれませんが、それは問題ありません。時間が経つにつれて、現実世界の複雑さやエッジケースにシステムをさらすことで、毎日少しずつ、着実にシステムが改善されていきます。
そしてある日目を覚ますと、完全に自律的で、とてつもない価値を提供するシステムができあがっているというわけです。
なぜロボティクスがこれほど難しいのかについて、視聴者の皆さんに少し歴史の授業のようなものをすると役立つかもしれません。過去2年間で多くのブレイクスルーがありました。ロボティクスの問題を単純化すると、3つの柱があります。
1つ目は意味理解で、これは言語モデルの登場により多くの進展があり、どうにかしてロボティクスに持ち込むことができました。次に計画、そして最後が制御です。制御はリアルタイムで行われ、変化する環境と相互作用しなければなりません。2024年に始まり、GPT-1の瞬間が近づいているという予感を与えた、Physical Intelligenceのチームの多くが発表した重要な論文について説明してもらえませんか。
汎用ロボットへの道のりとブレイクスルー
汎用ロボットのようなものを作りたいという夢は、人類にとって長年の夢だったと思います。どんなロボットでも機能するモデルを構築するという使命を掲げているのは、私たちが初めてではありません。そして、もう少し前の時代を振り返ることができる、歴史上のこの瞬間にいられることを本当に幸運に思います。
数年前、私にとって最初の画期的な出来事はSayCanでした。これは、言語モデルの最初のデモンストレーションであり、言語モデルに含まれるすべての常識的な知識をロボティクスにどのように持ち込めるかを示しました。これにより、ロボット固有のデータを収集する必要性が大幅に減少しました。
例えば、Y Combinatorのオフィスに行ってポッドキャストを録音したいというタスクがある場合、どのような手順を踏むべきか、言語モデルに手順と計画を示すよう頼むことができます。そしてそれは驚くほどうまく機能しました。言語モデルがロボティクスに浸透していく方法は、計画レベル、つまり意味理解のレベルから始まります。しかし、そこには依然として制御の問題が残っています。
結局のところ、計画を、実際にロボットを動かすことができる低レベルの行動に変換するメカニズムが必要なのです。そこで登場したのがPaLM-E、そしてRobotic Transformer 2の略であるRT-2です。この2つの研究が本当に示したのは、非常に強力な視覚言語モデルから始め、ロボットのデータを使用してこのモデルをロボットの言語を話すように適応させると、視覚言語モデルに存在する知識が低レベルの行動に大きく転移するということです。
RT-2プロジェクトで私のお気に入りの例の1つは、テーブルの上に有名人の写真、たとえばテイラー・スウィフトの写真とイギリスの女王の写真があるとします。ロボットのデータにはテイラー・スウィフトという概念がまったく存在しないにもかかわらず、ロボットに「コーラの缶を拾ってテイラー・スウィフトのところに動かして」と頼むと、それが機能するのです。
ロボットのデータには存在しない空間推論のような他の例も実行できます。例えば、「恐竜を赤い車の隣に動かして」というような指示です。これらはロボットのデータでは完全に見たことのないオブジェクトです。それがRT-2であり、PaLM-Eでした。ただ、RT-2とPaLM-Eは単一の身体、つまり単一のハードウェアに依存した実験でした。
視聴者のために補足すると、単一の身体に依存するというのは、それが非常に特定のロボットでしか機能しなかったという意味ですね。
ええ、非常に特定のロボットで機能しました。ロボティクスでは、どうやって規模を拡大するのか、特にデータ収集をどうやって拡大するのかという疑問が生じます。当時私たちが持っていた洞察の1つは、あるロボットのデータは他のロボットのデータとそれほど違わないのではないかということでした。
いずれにせよ、トレーニングデータに十分な数のロボットが含まれていれば、モデルが学習するのは特定の1つのロボットを制御することではないかもしれません。モデルが学習するのはもっと抽象的なこと、つまり特定のロボットプラットフォームを制御するとはどういうことかという一般的な概念を学ぶ方法であり、それゆえにどのようなプラットフォームの制御も上手になるはずです。これが、私たちがオープン・クロス・エンボディメント(ハードウェア横断型)とRobotic Transformer Xと呼んでいるものにつながります。
それは大きな論文でした。なぜなら、1つだけでなく複数の種類のハードウェアにまたがってこれらのモデルを訓練し始めることができるようになり、ロボティクスに適用されるスケーリング則の可能性を初めて示したからです。それ以前の研究機関では、特定のセンサー、アクチュエーター、モーターのセットで訓練を行うのが普通で、その特定のハードウェアに依存した非常に扱いにくいものでしたからね。
異なるロボット間でデータを共有する力
オープン・クロス・エンボディメントの本当に興味深い結果の1つについて説明させてください。ここでの背景は、たとえば10種類の異なるロボットプラットフォームを用意し、そこからデータを収集し、ポリシーを訓練し、そのプラットフォームでうまく機能するようにポリシーを最適化するとします。
つまり、10種類の異なるプラットフォームと10種類の異なるポリシーがあるわけです。そして今度は、そのデータを単に取り込み、そのデータを真に吸収するのに十分な容量を持つモデルに入れるとします。そして、この10種類の異なるロボットの制御方法を学んだ汎用モデルと、特定のロボットでうまく機能するように最適化された専門モデルを比較するのです。どうなると思いますか。オープンXからの興味深い結果は、汎用モデルの方が50%優れていたということです。
すごいですね。
ええ、それは本当に驚きでした。ロボティクスでは、特定のロボットプラットフォームでモデルを機能させるだけでも十分難しいからです。私がロボティクスにおいて今この瞬間にいられるのは本当に幸運だと言う理由の1つは、Open Xがロボットコミュニティからの支援があって初めて可能になったからです。それはロボットコミュニティ全体での巨大なコラボレーションでした。
これがなぜ本当に重要なのかというと、ロボティクスの大学院には「博士号の取得を2年遅らせたいなら、新しいロボットプラットフォームで作業しろ」というジョークがあるくらいだからです。
その論理で言えば、10種類のロボットプラットフォームを使おうと思ったら20年かかってしまいますね。
なぜかというと、データを収集するためにプラットフォームを立ち上げて稼働させるだけで1年か2年かかってしまうからです。
Open Xによって作成されたデータセットは、ImageNetがコンピュータビジョンにもたらした影響の規模に似ていると言ってよいでしょうか。複数のハードウェアにまたがる最初の巨大なデータセットであり、巨大なコラボレーションでしたからね。
それでも私は、ImageNetの方がビジョンコミュニティに与えた影響は大きかったと考えています。理由はいくつかあります。1つ目は、ImageNetが再現可能な評価も可能にしたということです。Open Xはどちらかというと、人々が使えるようにデータを利用可能にすることに重点を置いた取り組みであり、ロボティクスにおける評価は非常に難しい問題で、Open Xでは解決できませんでした。
2つ目は、Open Xは現在のロボットコミュニティにおいては、焼け石に水のようなものだと思うからです。コミュニティが収集しているデータの規模、量、多様性で測れば、現時点でのOpen Xはほんの一部にすぎません。
私たちはGPT-1について話し始めましたが、言語モデルのGPT-1であっても、アレック・ラドフォードが非常に特定の入力と出力に基づいたニューロンが存在することを発見し証明できた瞬間がありました。それがスケーリング則を定着させることにつながったわけです。ロボティクスにおける最大の問題は、私たちが話してきたデータの問題だと聞いています。言語モデルは、インターネットから取得できる総データ量を利用して成長することができ、それは実際にはかなり膨大な量でした。
スケール感について教えてもらえますか。ペタバイト単位なのでしょうか。ロボティクスにおける真のGPT-1を実現するためには、入力としてどれくらいのものが必要だとお考えですか。
ロボティクスにおけるデータ不足の問題には、いくつか見方があります。最初の見方は、それが実際には2つの問題に分かれているということです。データ生成の問題と、データキャプチャの問題です。違いは、データキャプチャについては、すでに多くのロボットデータが生成されているかもしれないが、訓練で消化しやすくするためにそれをキャプチャするインセンティブがこれまでなかったということです。
そしてそれが、Open Xが解決しようとしていた目標の1つです。つまり、ロボットデータを持っているなら、それをキャプチャして訓練可能にするのはとても良いアイデアだということです。2つ目の見方は、ロボティクスは言語モデルとは大きく異なるということです。利用できるロボットデータのインターネットというものは存在しません。
そのため、データを収集するために、運用面で非常に負担の大きい取り組みが行われているのを目にします。そして、それがスケールするのかという疑問がありますね。私の見方は、米国のGDP、24兆ドルを例にとってみましょうということです。もし私たちがロボティクスを実際に解決し、あらゆるロボットを制御してあらゆるタスクを実行できるモデルが、ざっくり計算して米国のGDPに10%貢献するとしたら、それはすでに途方もない数字です。
そして、その見込みこそが、ロボティクスにおけるデータ収集への投資を正当化する理由の1つだと思います。3つ目の見方は、私たちがクロス・エンボディメントに非常に注力しているということです。クロス・エンボディメントにもデータ収集の側面があります。それは、モデルと組織、そしてインフラストラクチャが、コミュニティにすでに存在している多様な種類のロボットからのデータセットを消費できるように設定されていることを確認するということであり、それが実際にスケーリングを容易にします。
たとえば、私たちのアプローチと、最適化の対象となる特定のハードウェアプラットフォームを持ち、それをスケーリングさせる企業のアプローチを対比させるとします。後者は、人々にスケーリングを許してきたアプローチとは言えません。なぜなら、現時点で何かを1000台製造する方法を見つけ出すことは、コミュニティにすでに存在している1000種類の異なるロボットからのデータを吸収する準備ができていることを確認することよりもずっと難しいからです。
それは狂気じみた問題ですよね。同じ設計のハードウェアであっても、製造段階で何か問題が起きたり、サーボの1つがわずかに異なったりするだけで、データにその違いが現れますからね。それをどうやって制御するのでしょうか。
ええ、社内にあるロボットの在庫調査をしていたとき、同じロボットプラットフォームが2つとないことに本当に驚きました。そして、ロボットコミュニティの人々に尋ねると、複数のロボットを使うべきか、単一のロボットを使うべきかという議論になることがあります。
単一のロボットの方がスケールさせるのが単純だという主張ですね。しかし、実際にはそうはなりません。実際にどうなるかというと、最適化しようとしている単一のロボットがあったとしても、時間が経つにつれてそのプラットフォームは変化していくのです。ハードウェアの変更を行ったり、ソフトウェアの変更を行ったりして、古いデータを再利用するのがはるかに難しい状況に陥ります。機械学習において、ある分布から一般化したい場合は、その分布から多くのサンプルが必要になります。
そして、3ヶ月ごとに大きな変更が加えられるロボットプラットフォームが1つしかない場合、その分布からは数個のデータポイントしか得られないかもしれません。一方で、もし保有するフリートの中に多くのロボットプラットフォームがあれば、モデルは特定のロボットをどう制御するかではなく、ロボット全体をどう制御するかという、より抽象的なことを学習するという仮説から始めれば、モデルはわずかに異なるロボットからのデータをよりうまく取り込めるようになります。
ええ。
そして実際、私たちはこの種のロボットの大規模基盤モデルにおいて、創発的な特性を見出し始めています。これは良いニュースです。異なるデータソース間で興味深い転移が見られ始めています。たとえば現在では、ゼロショットでタスクを実行することが可能です。ゼロショットとは、データを一切収集せずに実行するという意味です。そしてこれらは、昨年であれば何百時間ものデータを必要としたかもしれないタスクなのです。
どのような例がありますか。
ええ、それを示すことができるビデオはありますか。
そうですね、まだ公開されていない結果なので、会社に戻ったら少し非難されるかもしれません。近いうちに公開されることを願っています。ですので、その時のために少し興奮は取っておきたいんです。期待を高めているところですね。これらは単純なタスクではありません。ほんの1年前には数百時間のデータ収集が必要だった、実際に難しいタスクなのです。
PIからいくつかの創発的な特性が現れるということを、このLight Coneで初めて聞くことができましたね。
タスクの雰囲気だけでも教えてもらえませんか。
自分をだますのはとても簡単なので、私たちは異なる雰囲気を持ついくつかの異なるタスクでテストしたいと考えました。精度を必要とするタスク、シーン内の複数のオブジェクトを使った推論を必要とするタスクなど、すべてがこの特性を持っているようです。それは本当に素晴らしいことです。
ですから、それは私たちが運良くモデルが特定の1つのテストで機能し始めたというよりも、より一般的な特性が創発したもののように思えます。
最新のロボット制御の現状とユースケース
現在の状況、つまり何が機能していて、どの程度うまく機能しているのかを理解する手助けをしてもらえませんか。まだChatGPTの瞬間には至っていませんよね。私たちは今どの段階にいるのでしょうか。現在の最先端が実際にどのようなものかを皆が視覚化できるように、いくつかビデオを持ってきていただいたと思いますが。
私たちの現在地としては、ロボットが間違いを犯しても許容されるタスクであり、ロボットが間違いを犯したときに人間が引き継いで修正を提供するような混合自律システムを設定できるのであれば、ロボットの導入規模の拡大を考え始めるのが理にかなうようなパフォーマンスレベルに到達することは可能だということです。そして、ここで特に強調したい例は、私たちがWeaveやUltraと一緒に行ったこのブログ記事です。これらが両方ともY Combinatorの企業であることは素晴らしいことです。まず少し背景を説明させてください。PIは主に研究組織であり、最高のモデルを構築することに集中したいと考えています。
しかし同時に、視野を狭くしたくもありません。私たちが構築したモデルが実際に役立ち、社会の人々が関心を持つタスクを実際に実行できるようにしたいのです。そして、それを行うための本当に良い方法の1つは、今日すぐにでもロボットを世に出したいと考えている企業と緊密に提携することです。そして、これらの関係がどのように機能するかというと、情報が非常に自由に流れ、同じチームにいるかのように互いを扱います。
そして、これらの企業が重視するタスクに対して、可能な限り最高のパフォーマンスを引き出そうとするシステムを設計します。では、Weaveについて話しましょう。このビデオであなたが見ているのは、私たちが一緒に構築したシステムが、実際のコインランドリーで非常に多様な洗濯物を折りたたんでいるところです。ミッションでは、外を歩いている人々を見ることができます。なぜこのタスクが難しいかというと、観測空間の可能性が無限にあるからです。衣類は変形しますし、ここにある衣類に同じものは2つとありません。そしてこれらは見たことのない、つまりトレーニングデータに見られるような衣類ではないのです。
ええ、私はこのチームが大好きです。彼らは私がこれまで出会った中で最も優秀な元Apple社員たちです。ゲイリーはWeaveのパートナーでしたね。Weaveが何をしているのか、彼らがどのような会社なのかを説明したいのですが。
ええ、彼らは実際に最初のロボットを家庭に導入しようとしています。私たちは、このような家事ができるようになるということについて話し合ってきました。彼らは、洗濯物を折りたたむというPhysical Intelligenceの最初のデモに非常に触発されたのだと思います。ですから、それについて聞くのは本当に不思議な感覚です。1年前には彼らがそれを行うことについて話し合っていたのに、今では彼らがあなたと手を携えてそれを機能させているのを見るのは本当に素晴らしいことです。
これは、モデルの知能が必要で、データ収集が必要で、さらにハードウェアとシステム統合のすべてが一緒に機能する必要があり、それを完璧にやり遂げるのがいかに難しいかを示す素晴らしい例だと思います。
ええ、ロボティクスがなぜ難しいのかというあなたの質問に戻ると、それは本当に難しいシステムの問題なのです。この結果を得るためには、すべてがうまく機能し、さらに連携してうまく機能する必要があります。そしてWeaveは、この結果を得るために一緒に働くのに信じられないほど素晴らしいチームです。しかも、この結果を得るのにそれほど時間はかかりませんでした。目標を設定してから、おそらく2週間後くらいにはモデルができ、このタスクを実行するのに十分なシステムができていました。
ロボットが実際に洗濯物を折りたたんでいるのを見るのは、いまだに衝撃的です。ChatGPTが登場するまでは、こんなことが自分の生きている間に実現するのかどうかさえ分からなかったのを覚えています。洗濯物を折りたたむことは、ロボティクスにおけるチューリングテストのようなものでした。AI以前に行っていたような方法で、このようなことを行うシステムを決定論的にプログラミングする方法はなかったからです。空間が無限だからです。そして私たちはそれが可能であることを示しました。基本的に誰もがこれを行うことができます。ロボットはすべてを行うことができるようになります。ここからそれを改善していくのは時間の問題にすぎません。
面白い話がありまして、私たちが最初にPi Zeroを公開したとき、デモが洗濯物に特化していたため、私たちは洗濯の会社だと思われていたのです。実際、家事のタスク、特に変形する物体に関わるタスクを選ぶことは、私たちの側での非常に意図的な選択です。私たちは家庭用だけを狙っているわけではありません。本当に幅広く適用できるようにしたいのです。しかし、私たちが最初に取り組むべきタスクとして家事を選ぶことにはいくつかの利点があります。1つは、共感しやすいということです。洗濯物を折りたたむデモを見れば、これがどのように役立つか理解できますし、なぜそれが難しいのかも感覚として掴めます。
そして2つ目は、一般化のテストを設定するのが本当に簡単だということです。
ジャレッド、あなたの会社であるUltraについて、そのデモについて話してもらえますか。
ええ、これがUltraです。私がこのビデオで気に入っているのは、外が明るいのが見えますよね。これは4倍速で、100分の映像です。最後までスクロールすると、日が沈んでいます。
おお、すごいですね。
あ、それはロボティクスにおける大きな問題の1つでしたね。環境の照明に非常に敏感で、視覚システム、つまり意味理解の部分を台無しにしてしまうという。
ええ。そしてここで興味深いのは、ロボットがただタスクを実行しているだけというレベルの自律性に到達することが可能だということです。これはスケールする自律性です。つまり、スケールアップする準備ができているということです。
Quan、このタスクは洗濯物の折りたたみほど馴染みがないので、ロボットがここで何をしているのか、そしてUltraが会社として何をしているのかを説明してもらえますか。
Ultraは、ロボットを新しいタスクに非常に簡単に適応させたいと考えている会社です。そして現在、彼らは物流分野に注力しています。物流では労働力不足が深刻なため、これは非常に重要です。ここで私たちが一緒に取り組んでいるタスクは、Amazonから商品を注文したときに商品が入っている柔らかいポーチがあり、ここにはそれらの商品が入ったトレイがあります。ロボットのタスクは、トレイから商品を1つずつ取り出し、このポーチの中に入れることです。
その後、機械がポーチを閉じ、ロボットがポーチを持ち上げて、発送の準備として左側に置きます。これが難しい理由は、このトレイの中には非常に多様な種類の物体が含まれる可能性があるからです。そしてここの開口部は実際には非常に狭いのです。そのため、ロボットがポーチに入るように物体を軽く押しているという興味深い例が見られます。
それは本当に難しいですね。シーンを非常によく理解し、物体をポーチに押し込むための非常に正確な動きが必要になります。このタスクのもう1つの難しいところは、必要とされる自律性のレベルです。これは丸1日稼働しています。この丸1日の作業の中で人間の介入はまだありますが、介入のレベルは実際にはごくわずかです。
これは単なるデモ用のステーションではありません。これは実際のeコマースの倉庫で録画されたもので、彼らは実際に顧客に本物の製品を発送しているのです。実験室のようなものではありません。
これは、顧客からの実際の注文を実際の倉庫で梱包して発送するものです。ですから、これは実際のオペレーションなのです。
これは本当に素晴らしいことだと思います。人々がロボットについて考えるとき、彼らはWeaveのような消費者向けのユースケースを想像しがちです。それが私たちの日常生活で馴染みのあるものだからです。私が本当に興味深いと思うのは、Amazonから届くようなあの柔らかいポーチに誰が商品を梱包しているのか、すぐには思いつかないような、このUltraのような無数のアプリケーションが存在するということです。誰か人間がそれをやっていて、そして今、私たちはそれを実行するロボットを作ることができるのです。
このアプローチの興味深い点は、これが非常に困難なエンジニアリングの問題から、ユースケースをどのように特定し、適切なデータをどのように収集するかというオペレーションの問題へと変換されていることです。これはある意味でよりスケーラブルです。なぜなら、多くの異なるタスクのためにデータを収集できるシステムを構築できるからです。ですから、これは新しいタスクのたびに解決のための非常に困難なエンジニアリングシステムをどう設計するかという問題ではなく、データ収集をどうスケールさせるかという問題なのです。
Y Combinatorのスタートアップスクールが戻ってきます。私たちは世界で最も有望なビルダーを厳選し、7月25日と26日にサンフランシスコに招いて、最先端のテクノロジーについて議論します。今すぐ席をご応募ください。
さて、ビデオに戻りましょう。視聴者の皆さんが知らないかもしれないことの1つは、あなたが非常にユニークな技術的洞察を持っているということです。過去のロボティクスの専門家なら息をのみ、ショックを受けていたでしょう。なぜならロボットはリアルタイムで動作する必要があるからです。多くの場合、すべての計算はデバイス上で実行されますが、あなたたちは全く異なるアプローチをとりました。
大規模モデルを使ってこれをリアルタイムで、しかも非常にうまく機能させるために、どのような工夫をしたのか教えてもらえませんか。
クラウドを活用したロボット制御とシステムの切り離し
ここでの背景として、私たちはロボットを導入したいと考えている多くの企業と話し合いを行っていますが、最初に受ける質問の1つは「ロボットにはどんな計算ユニットを搭載すべきか」というものです。高価ですし、部品コストを押し上げますし、モデルが変化し、モデルが大きくなるため、すぐに時代遅れになってしまうのではないかと彼らは心配しています。今日導入するハードウェアが数年後も実用的であることをどうやって確認すればいいのか。これは非常に難しい質問です。
今日のPIで実行しているロボット評価のほぼすべてにおいて、モデルは実際にクラウドでホストされていると私が言うと、人々はしばしば本当に驚きます。そしてこれは、オフィスのサーバーなどではありません。本物のクラウドです。モデルはどこかのデータセンターでホストされており、ロボットを制御する高頻度の制御ループ内で、ロボットは実際にモデルをホストするAPIエンドポイントにクエリを送信し、画像とテキストコマンドを送り、アクションを受け取り、それをロボットで直接実行しているのです。
これが驚きなのは、まさにあなたが挙げた理由によるものです。これを実際にどうやって機能させているのでしょうか。だからこそ、PIにとってはシステム、ハードウェア、モデルの開発、そして研究を非常に密接に結びつけることが本当に重要なのです。なぜなら、それがこの問題を解決することを可能にしてくれるからです。
例えば、ここでの私たちの洞察の1つは、推論時間をロボットの制御ループの中に埋め込むことができるということです。私がロボットだとして、次の100ミリ秒間に実行する十分なアクションを持っていれば、そのアクションの実行を終えるまで待ってから、モデルに別のアクションを要求する理由はありません。基本的には推論と同じくらい速く行うことができます。
ですので、残り50ミリ秒分のアクションしかなくなった時点で、次のアクションセットを要求し、現在の50ミリ秒が終わったときには、次の100ミリ秒へとスムーズに継続する準備ができている状態にすることができます。
それが洞察の1つです。もう1つのアルゴリズム上の改善は、私たちがリアルタイムのチャンキングと呼んでいるものです。クラウド上のモデルにクエリを送信するのにかかる遅延が存在するという前提で推論を設計します。もう少し専門的な話をすると、ここでの問題は、アクションのチャンクとは、ロボット上で実行できる一連のアクションだということです。つまり、単一のアクションではありません。
100ミリ秒間実行できるアクションチャンクがあり、50ミリ秒経過した時点で別のアクションチャンクを予測し、現在の50ミリ秒が終了した後にその新しいアクションチャンクに移行したいとします。その2つが一貫していることをどうやって確認するのでしょうか。私がこちら方向に動いている場合、次のアクションチャンクでもスムーズにこちら方向に動き続けられるようにするにはどうすればいいのでしょうか。
事前計算するのですね。
ええ、事前計算することができます。そしてそれが、クラウドでホストされているモデルを使用した推論を可能にするために私たちが行ったアルゴリズム上の改善の1つです。
私はコンピュータエンジニアリングを勉強していたので、アルゴリズムの専門家ではありませんが、パイプライン処理のようなシステムの話になると、夢中になってしまいます。素晴らしいですね。とても興味深いです。
つまり、これはロボットのシステムを大幅に単純化する素晴らしい選択です。ロボットのために複雑なシステムを構築する必要がありません。組み込み用と通常のOSの2つのオペレーティングシステムを持っていたり、複雑で巨大な計算リソースと電力を消費していたりしますが、Waymoの初期バージョンは基本的にトランクにサーバーを積んで走っていました。一般的な日常のロボティクスではそんな余裕はありませんから、その方法を見つけ出したのは本当に素晴らしいです。
ええ、そんな必要はありません。もちろんある程度の計算はローカルで行う必要がありますが、計算の多くは別の場所で行うことができます。左上に表示されているこのビデオを見ていますが、これはどの程度がビデオフィードバックで、どの程度がローカルで処理されているのでしょうか。このロボットにはローカルに計算機があるのでしょうか、それともクラウドにデータをストリーミングするだけの単なるビデオカメラなのでしょうか。
これについては100%確信はありませんが、私は単なるコンピュータを持たないカメラだと信じたいです。この特定のビデオについて覚えていませんが、計算能力を持たない機器とロボットでこれを機能させることができると100%確信しています。そして、WeaveやUltraとのコラボレーションについてもう1つ興味深いのは、まず私がそのロボットを直接見たことがないということです。
おお、すごい。
2つ目は、ロボットが実際にどのように機能するのかについて私はほとんどアイデアを持っていないということです。
興味深いですね。
そしてそれは非常に意図的な選択です。私はそこからできるだけ距離を置きたいのです。彼らがどのようにデータを収集しているのかも知りませんし、その質問も意図的にしていません。PIのような組織が既存のシステムに飛び込み、システムを機能させるために実際に重要なことについて彼らと緊密に連携し、彼らがどのようにシステムを構築したかを学ぶ必要がないかどうかが知りたいのです。なぜなら、ある意味でそれがよりスケーラブルなレシピだからです。
ええ、ハードウェアの制御ループの選択の多くを、意味理解や計画から完全に切り離すことができるのですね。それはただ機能する、素晴らしいことです。ええ、これが機能することに本当に驚いています。私たちが会社を立ち上げたとき、実際の展開が議論の対象になるのは、問題が非常に難しいため、会社設立から5年後くらいになるだろうと考えていました。
設立して2年ですが、これが私たちが得た結果です。そして実際の導入とロボットの数の拡大は、現在では非常に真剣な検討事項となっています。ですから、進歩のペースは私たちの予想よりもずっと、嬉しいほどに速いのです。
カンブリア爆発:ロボティクススタートアップの未来
このポッドキャストではよく、これがスタートアップの創業者にとって何を意味するのかについて話し合います。ここで探求するのも面白い質問かもしれません。もしこのポッドキャストを聴いている人がいて、コンピュータサイエンスを学んでいてロボットをとてもかっこいいと思っており、こういうことをやりたいと考えている大学生だとしたら、どのように始めるべきでしょうか。どのようなスキルが必要ですか。このようなロボットを作るには機械エンジニアである必要がありますか。それとも既成のロボットアームとカメラシステムを買ってきて、PIのモデルを読み込めばいいのでしょうか。もう少し背景を説明してもらえますか。
最初の背景として、ロボティクスは従来、非常に垂直統合されたビジネスであるため、非常に難しかったということがあります。独自の顧客との関係、独自のハードウェア、独自の自律性スタック、独自の安全認証、独自のあらゆるものを持つ必要がありました。そのために参入障壁が非常に高かったのです。私たちが変えようとしていることの1つは、コミュニティがその上に構築できるPhysical Intelligenceの基盤を提供し、ロボットやタスクに自律性をこれまでよりもはるかに早く実装できるようにすることです。
それがまず1つです。人々が他の問題に集中できるように、はるかに速く動くことを可能にする一種の知能の種を提供したいのです。2つ目は、今日特定の領域に特化した垂直型ロボットビジネスを始めるためのレシピは、まず既存のワークフローを非常によく理解することだと思います。ロボットシステムは既存のワークフローに適合する必要があるからです。そして、どこに機会があるのかを非常に細心の注意を払って特定することです。
現在X人の労働力を必要とするワークフローがある場合、どこにロボットを導入すれば最大の違いを生み出すことができるでしょうか。そして2つ目は、ハードウェアとデータ収集に関して非常に機転を利かせることです。このタスクを実行するために、非常に正確な動きができる信じられないほど高価なロボットは今日では必要ありません。
なぜかというと、これらのモデルは非常に反応性が高く、実際のロボットの動きの不正確さを補うことができるからです。データを収集する能力と、評価(特に実際の展開環境での評価)を実行する能力を確保することが重要です。その後の次のステップは、損益分岐点に達するような混合自律システムを構築することです。
経済的に損益分岐点に達するということですね。
経済的に損益分岐点に達するということです。なぜそれが重要かというと、それによってロボットの数を拡大することができるからです。
すべてのロボットで損失を出していたら、拡大するのは非常に難しいですからね。
それが歴史的に、ロボット企業が成長段階に入る際の最大の課題の1つでした。回収期間が成り立たないのです。
ええ。ですから、ロボットビジネスを始めるための方程式は変わりましたし、初期費用がもはやそれほど高くないため、加速し続けると思います。そして今、初期費用とは何でしょうか。初期費用とは、はるかに安価なハードウェア、データを収集する能力、評価を収集する能力、そしてどこにロボットを導入すべきかを知るためにユースケースを理解する能力です。
信じられないほど高価なハードウェアを持つことではありません。このタスクを実行するために、独自の古典的な自律スタックを持つことでもありません。これにより、企業は他の領域との差別化を可能にするコンポーネントに集中することができます。
今やそれがアンバンドルされ、ロボティクス企業を構築するために完全に垂直統合された企業を構築する必要がなくなったわけですが、私たちは垂直型ロボティクス企業のカンブリア爆発の瀬戸際にいるのでしょうか。Ultraのような企業が1000社も存在し、経済のあらゆる単純労働に取り組み、顧客を深く理解し、その問題を解決できるロボットを作り、完全に自律的に稼働できるようになるまで人間と機械の混合による導入を行い、あらゆる分野で企業を構築するような。それが、人々がPIの上に構築していくあなたが思い描く未来なのでしょうか。
あなたがカンブリア爆発に言及したのは面白いですね。私たちがこのブログ記事を書いたとき、その用語は非常に熱く議論されたものでしたから。私たちは心の中では研究者であり、コミュニケーションをとるときは非常に慎重でありたいと思っています。しかし個人的には、世界中で、そして多くの異なる業界において、ロボット企業のカンブリア爆発が起こると信じています。構築するのがずっと安くなりましたし、始めるのにロボティクスで20年の経験を持つ人を必要としないからです。必要なのは、本当に機転が利き、非常に素早く動き、システム統合ができ、展開を始めるために顧客が何を望んでいるかを理解できる人です。
私たちが多くのロボティクス企業と働き、多くの創業者と会っている中で思い浮かぶのは、そこには連続性があるということです。パーソナルコンピューティングに例えると、今日の産業用ロボットは基本的にメインフレームやミニコンピュータレベルだと言えます。70年代を振り返ると、DECのような巨大な公開企業があり、非常に高価な導入を行っていましたが、それらは非常に専門的で極端なエンタープライズ向けでした。パーソナルコンピュータのアイデアなどばかげていましたよね。Altair、Apple I、Apple II、そしてIBM PC XTが登場してパーソナルコンピューティングが生まれました。そして長年ロボティクスに対する伝統的なアドバイスは、「汚くて危険な仕事」を狙えというものでした。
もちろん、それらはギガファクトリーにある巨大なテスラのロボットなどのような産業用のケースです。あなたが収益性について言ったことは、本当に非常に大きな意味を持っていると感じます。ということは、垂直型ロボットのカンブリア爆発の瞬間を担う人々は、汚くて危険な仕事ではなく、最初に収益を上げる人々になるということでしょうか。
これは今日すでに起きていると思います。私たちはロボットコミュニティへの多くの視界を持つという幸運に恵まれています。なぜなら、人々が私たちと話し、ロボット用の基盤モデルを構築するのがどのようなものか学びたがり、同じレベルの自律性をどうやって得るかを知りたがっているからです。そして、ロボットが間違いを犯しても許容されるような場所にロボットを導入したいと考えている企業やビジネスとたくさん話をしており、彼らはそれを切実に必要としているのです。私は本当に信じています。
ロボットがどこに適合するかを特定し、より安価なハードウェアに焦点を当て、データを収集し、評価を行い、混合自律性を採用し、損益分岐点に達し、ロボットを拡張するという私が先ほど述べたレシピは、多くの異なる分野で機能するでしょう。今日それが展開されているのを見て、信じられないほど興奮しています。
これは素晴らしいですね。あなたは文字通り、垂直型ロボティクス企業を構築するためのプレイブックを人々に明かしました。これは何百回、何千回と成功裏に踏襲される可能性のあるプレイブックです。
私がこれに言及したかった理由は、私自身がそのカンブリア爆発を見たいと思っており、それを実現する手助けをしたいからです。もしPIが失敗する理由について話すなら、それはおそらく問題が難しすぎたからでしょう。ロボティクスの問題を解決するのに、数年ではなく、さらに50年、あるいは5年、10年かかるかもしれません。だからこそ、私たちはコミュニティを活性化させたいのです。進歩を加速させたいのです。私たちが研究を公開し、PI 0とPI 0-5をオープンソース化しているのはそのためです。私たちがオープンソース化したPI 0とPI 0-5と、社内で使用しているモデルのPI 0とPI 0-5の間に違いはあるのかと聞かれて、人々はショックを受けます。
答えはノーです。同じモデルです。私たちがオープンソース化した事前学習済みのモデルの重みは、社内の研究者がPI 0とPI 0-5で使用している事前学習済みのモデルの重みと全く同じです。私たちは本当にコミュニティの進歩を加速させる手助けをし、カンブリア爆発を引き起こしたいのです。
ええ、それは非常に刺激的です。誰もがデジタル世界で多くの時間を過ごしていますが、今こそ原子世界について考え始めるべき時だと感じます。これは実際に電子を物理的な世界の豊かさにどう変換するかという完璧な組み合わせです。ダリオ・アモデイのエッセイ「愛に満ちた機械によるすべてが見守られる世界」について考えます。
それを完璧に具現化したものを考えると、電子世界のようにあなたを見守る完璧なエージェントではありません。私たちがここで見ているものに近いものだと思います。
ええ。これが最初からの私たちの使命でした。カンブリア爆発を引き起こすことです。
だからこそ、私たちはモデルに焦点を当てることを選んだのです。それが、世界の多くの異なるタスク全体でロボットを本当に役立つものにするためのボトルネックだと信じているからです。また、クロス・エンボディメントに焦点を当てるのもそのためです。私たちにとっての成功は、私たちのモデルが私たちのロボットで有用なタスクを実行することだけで定義されるわけではありません。
成功の対象となる表面積は実際にはもっと広く、私たちのモデルが、私たちがそのロボットがどのようなものかさえ知らないかもしれない誰か別のロボットで本当に役立つタスクを実行し、それがエンドユーザーにとって有益であることなのです。
Physical Intelligenceを支える「人間」と組織
ロボットの後ろにいる人間について少し話してもらえませんか。会社はどのように始まったのでしょうか。共同創業者は誰ですか。どのように集まり、これほど複雑な問題に対してそれぞれがどのようなスキルをもたらしているのでしょうか。
時々私が冗談で言うのは、ロボットの後ろにいる人間もロボットだということです。本当ではありませんけどね。PIは非常に非伝統的な会社だと思います。平均よりも大きな創業者チームがあり、私たちの何人かはGoogleのロボティクスチームにいたときに密接に協力して働いていました。Googleのロボティクスチームは、生命の兆しを確認し、ロボットコミュニティとこれらの進歩を開花させるための関係とコミュニティを構築するための本当に素晴らしい環境だったと思います。
会社を始めようと考えていたときに出会ったLachyがいて、私たちが良いビジネスを行っていることを確認する上で本当に重要な役割を果たしてくれました。そして、Andurilから来たハードウェアリードのAdnanがいます。Adnanは本当に難しい仕事を持っています。もしあなたがクロス・エンボディメントに取り組みたいなら、先ほどの私の「大学院を2年長引かせたいならロボットをもう1台追加しろ」というジョークを思い出してください。私たちにとってのハードウェア問題と運用上の問題は、どのようにして異種のロボット群を構築し、改善し、スケールさせるかということです。1つのロボットプラットフォームだけではありません。最初からそれをサポートするための組織をゼロから構築したため、私たちはそれを実行できるのだと思いますが、それは本当に難しい問題です。
フリートの中に同じロボットが2つとないのに、すべてがスムーズに機能することをどうやって確認するのでしょうか。私たちは役割分担に本当に長けていると思います。
しかし、共同創業者は全部で何人いるのですか。
ブライアン、チェルシー、セルゲイ、私、ラッキー、アドナンの6人です。
これほど大きな問題を解決するには、それだけ多くの共同創業者が必要だったのでしょうか。それとも、皆さんはすでに1つのユニットのようになっていて、すでに一緒に働いたことがあり、何を始めるにしても一緒に働きたいと思っていたというようなケースだったのでしょうか。
私たちがよく受ける質問の1つは、なぜ団結したのかということです。第一に、私たちはお互いと一緒にいることを本当に楽しんでいるからです。私たちは仕事に多くの時間を費しており、ある意味でそれは人生に意味を与えてくれます。ですから、私たちは仕事での関係を楽しみたいのです。
そして第二に、私たちの誰もが会社を立ち上げて成功できたかもしれませんが、問題が信じられないほど難しいため、私たちが団結して問題を分割して征服した方が、成功の可能性はずっと高くなります。それが、私たちの進捗が予想よりもはるかに速い主な理由の1つだと思います。
以前のアカデミアやGoogleのような大企業での働き方と、現在のスタートアップでの働き方の違いは何でしたか。
あなたの多くにとって、スタートアップをやるのはこれが初めてですよね。
ええ、私たちの多くにとって初めてのことです。会社を立ち上げたときに学んだ本当に驚くべきことの1つは、大規模な汎用ロボットをサポートするためのインフラストラクチャが全く存在していなかったということです。これはソフトウェア自体から始まります。データをどう収集するのか。データの収集にどのデバイスを使うのか。データをどう管理するのか。どうやってデータに注釈をつけるのか。どうやってデータを可視化するのか。どうやって評価を実行するのか。どうやって運用プロセスを構築するのか。
ソフトウェアとは大きく異なり、この種のサービスを提供する会社はありませんでした。私たちはそれを知って本当に驚きました。その結果、私たちはPIでソフトウェアの多くを自分たちで書くことになりました。しかし私は、これはロボット企業向けのサービスを構築するという点で、信じられないほどの機会がある別の領域だと思います。例えば、遠隔操作サービス、データ収集サービス、アノテーションサービスを提供できれば、これらの機能はある会社から次の会社へと繰り返される必要がないからです。ですから、成長するロボティクスビジネスをサポートするためのシステムを構築する機会はたくさんあると思います。
それが私が学んだ驚くべきことの1つです。そして2つ目は、私たちがこれほどの進歩を達成できた理由の1つは、モデル開発のライフサイクル全体において非常に緊密なコラボレーションのループがあることだと思います。どのタスクのデータを収集するかから始まります。そのタスクのデータを収集する場合、どのように行うか。どのハードウェアを使用するか。データを収集した後、どのように可視化するか。データ品質をどのように保証するか。その後、そのデータで簡単にトレーニングできるようにするにはどうすればよいか。
トレーニングした後、どうやって評価を実行するのか。ロボティクスにおいて評価は本当に難しい問題です。なぜなら、モデルの能力に対して超線形的にスケールするからです。たとえば、2分間のタスクを実行できるモデルがあるとします。その評価を実行することは、20分間のタスクの評価を実行することとは大きく異なります。10倍難しいだけではありません。10倍以上難しいのです。
評価を実行した後、その評価からの学びをどうやって蒸留してモデルをさらに改善する方法を知るのか。私がぜひ取り組んでみたいサイドプロジェクトの1つは、自動化されたロボティクスリサーチサイエンティストを構築することです。
これは現在私たちが抱えているボトルネックの1つです。なぜならこれは、スタック全体に対する直感を必要とする非常に難しいスキルセットだからです。ですから、このようなマルチモーダルデータを取り込み、障害モードを分析できるモデルがあれば素晴らしいと思います。ロボットがこのように動作しているのは、収集されたデータのせいなのか、注釈の付け方のせいなのか、それともモデルのトレーニング方法のせいなのかを理解し、アイデアを提案し、実際に試してそれらの仮説が正しいかどうかを解き明かしてくれるような。それが私が本当に欲しいものであり、私たちを劇的に解放してくれるでしょう。私は時々社内で冗談を言います。すべての会議を録音して、次のアクションセットが何であるかを予測するモデルをトレーニングすべきだと。
ええ、できますよ。完全に可能です。もしそれがClaude Codeで、ObsidianやMarkdownファイルで、あなたのユースケースに合わせたオントロジーを持つbrain.mdのようなもので、バックグラウンドで100個のClaudeをオーケストレーションするとしたらどうでしょう。
これには2つの側面があると思います。1つ目は、すでに少し生命の兆しが見えているということです。評価中の単純な障害モードであれば、ロボットがどのように失敗したかをテキストで非常に正確かつ明確に説明できれば、言語モデルに次のステップについて非常に合理的な推奨を行ってもらうことができます。
しかし裏を返せば、これは今日では単純なケースでしか機能しないということです。なぜそうなるのかというと、今日の私たちが持っているモデルの非常に根本的な限界だと思います。つまり、それらは本質的に世界で行動を起こし、自分自身の行動の結果、特に物理世界を変化させる行動の結果を見るモデルではないということです。
ですから、物理世界がどのように機能するかについてのこの非常に根本的な理解が、真に巨大な基盤モデルには欠けていると思います。そしてそれが、この自動化されたロボット研究サイエンティストを構築するために欠けている要素の1つだと思います。
Claude Codeの面白いところは何でしょうか。わかりませんが、基本的には自律的に行動して物事を実行できるところが面白く、その時点でロボットを制御したり、部屋の構成を変えたりするかもしれないことに対するCLIやMCPエンドポイントを提供するのは研究機関次第になります。Andrej Karpathyはこのことについて話し始めていると感じます。自動研究機能と彼が話してきたMarkdownファイルを組み合わせれば、オープンな場所でそのまま起こるかもしれません。これを機能させるためにもっともっと複雑なものを作らなければならないという感覚があります。しかし、それが単に間違っているとしたら?Markdownファイルとエージェントがあり、今日のClaude CodeとMCPを使って自分で作ることができるとしたら?もしそれがアルゴリズムの問題ではなく、文字通り統合の課題だとしたら?
私たちは社内でこれのバージョンを持っており、私がよく使っています。一時期、私がAPIクエリに恥ずかしいほど多額のお金を費やしていたことがありました。
ええ。
そして私のチームは、「Quan、何をしてるの?」という感じでした。
ああ、私は今まさにY Combinatorのあの人ですね。
ですから、例を挙げると、私たちは現在、事前学習のオンコールの役割を果たすClaudeのスキルを持っています。
私たちが行う事前学習の実行は非常に大規模です。実行を継続させるためにそれを生き延びさせるのは、非常に難しい訓練だと思います。問題が起こる可能性のあることが非常に多いためです。私たちは事前学習のオンコールのプロトタイプを持っており、それが実行を監視し、エラーを見つけたら修正するための行動をとる許可を持っています。その取り組みの驚くべき結果の1つは、コンピュート使用率が約50%向上したことです。その大規模な事前学習実行の全体的なコンピュート使用率が向上したことは、私たちにとって非常に大きなことです。
そして、これは私が構築した小さな単純なプロトタイプにすぎません。まだやるべきことはたくさんあると思います。
Quan、これは素晴らしいですね。すべてに感謝します。Physical Intelligenceを作ってくれてありがとうございます。これらの信じられないようなデモを見せてくれてありがとうございます。そして正直なところ、私に最も希望を与えてくれるのは、世界にこれを提供することに焦点を当てた研究機関が存在するという事実です。ロボティクススタートアップのカンブリア爆発を引き起こそうとしているということです。今これを見ている人がこれに触発され、あなたのモデルで遊び始め、数十億人の人々の生活に良い影響を与えるロボットを生み出すかもしれません。
お招きいただきありがとうございました。楽しかったです。リスナーの皆さんに持ち帰っていただきたいポイントの1つは、ロボティクスは大きく変化し、ロボティクスにおける構築コストは下がり、これからも劇的に下がり続けるだろうということです。また、それは若いスタートアップが必要とするような、非常に異なる、機転の利くスキルセットを必要とします。私たちは、多くの多くの異なるロボットのユースケースの爆発的な増加を可能にしたいと願っています。コラボレーションしたい場合は、いつでも私たちに連絡してください。
ありがとう。
本当にありがとうございました。
ありがとうございました。


コメント