AI、LLM、ロボット知能における世界トップの研究者

本動画は、Physical Intelligenceの共同創業者であり、世界トップクラスのAIおよびロボット知能の研究者であるセルゲイ・レヴィンへのインタビューである。ロボット工学が直面する根本的な課題と、あらゆる物理的環境において任意のタスクを実行できるロボットのための「基盤モデル」を構築するという同社の壮大な目標について深く掘り下げている。言語モデル（LLM）の進化をアナロジーとして用いながら、ロボットにおけるエンドツーエンド学習、シミュレーションと実世界データのトレードオフ、そして汎用的な物理的知能がもたらす未来の展望について、専門的かつ実践的な視点から詳細に解説している。

World's Top Researcher on AI, LLMs, and Robot Intelligence

Sergey Levine, co-founder of Physical Intelligence, joins the show to discuss the frontier of general-purpose robotics. ...

物理的知能（Physical Intelligence）の目標とアプローチ
ロボット工学における汎用性とデモの難しさ
基盤モデルがもたらすロボット開発の未来
ヒューマノイドの利点と様々な形態の可能性
ロボット学習の歴史的マイルストーン
常識（コモンセンス）の統合とLLMの役割
個人的な研究の歴史と手法の進化
ロボットが収集するデータとセンサーの役割
予想外の進展とモラベックのパラドックス
社会への導入における技術的・社会的課題
シミュレーションと実世界データのアプローチの違い
見栄えの良さと実用性のバランス
人間の能力を超える可能性
身体性への適応と形態のイノベーション
これからのロボットと人間の協働
ロボット工学界における論争と研究者の役割
研究開発の最前線と将来への展望

物理的知能（Physical Intelligence）の目標とアプローチ

今日のゲストは、Physical Intelligenceの共同創業者であり研究者の一人である、セルゲイ・レヴィンさんです。免責事項として申し上げておきますと、私はPhysical Intelligenceの投資家です。なぜなら、彼らがロボット工学の問題に取り組む上で最も重要な企業の一つだと信じているからです。今日これからお聞きいただく対話からもお分かりいただけるように、ロボット工学には、私が「かかし問題」と呼ぶような課題があります。

あらゆる素晴らしい物理的デバイスが、様々なクールな組み合わせでますます実現可能になっていますが、それらが本当に必要としているのは知能、つまり頭脳です。そして、それこそが彼らがPhysical Intelligenceで開発しているものなのです。彼らは、あらゆる物理的なロボットが、あらゆる環境で、あらゆるタスクを実行できるようにするための基盤モデルを開発しようとしています。

その挑戦は途方もないものであり、世界最高レベルの研究者が多数必要とされています。セルゲイさんはそのリーダーの一人として、この問題の解決に向けて集結しています。今日の私たちの対話のテーマは、ロボット工学が直面しているすべての問題と、世界中でこれらの問題を解決することへのあらゆる希望についてです。セルゲイ・レヴィンさんとのこの素晴らしい対話をお楽しみいただければ幸いです。

これは本当に楽しい時間になるでしょうし、開発されているテクノロジーの中で最もエキサイティングで影響力のある分野について学べる素晴らしい機会になるはずです。過去を振り返る前に、まずは現状を整理するため、あなたが考える「物理的知能（Physical Intelligence）」の定義を教えていただけますか。

基本的に、Physical Intelligenceの目標は、あらゆる身体化されたシステムを制御してあらゆるタスクを実行できる、ロボットのための基盤モデルを開発することです。

広く言えば、言語モデルが「言語で表現できるあらゆるタスク」を実行できるシステムに向けて急速に進化しているのと同じように、私たちは「物理的に駆動するデバイスで実行可能なあらゆるタスク」を実行できる新しいクラスのモデルを構築したいと考えています。

そして、この会社のテーマの一部でもあるのですが、非常に限定された狭いアプリケーション領域に特化するよりも、完全に汎用的なレベルでそれを行う方が、長期的には実際には簡単かもしれないと私たちは信じています。

これも言語モデルのケースとよく似ていますね。言語モデルにおいて、機械翻訳や感情分析といった特定のタスクに絞って取り組むよりも、自然言語タスクを完全な汎用性を持って解決する方が、ある意味では簡単であることが判明したのと同じです。

ロボット工学における汎用性とデモの難しさ

ただ、お皿洗いだけをしてくれるような専用ロボットを作るアプローチと比べて、なぜあえてその（汎用的な）賭けに出るのか、すぐにはピンとこない人もいるかもしれません。そこで理解しておくべき重要なトレードオフとは何でしょうか？また、なぜそのような決断を下したのでしょうか？

これについては、2つのパートに分けてお答えしましょう。1つ目は、言語モデルとの類似性がどのように関連しているかについて。そして2つ目は、それがロボット工学の世界において何を意味するのかについてです。

1つ目の理由は、これまでの証拠によって少し裏付けられています。自然言語の世界では、かつて特定の問題に取り組むための領域特化型のソリューションを開発しようとする多くの試みがありました。例えば、英語とフランス語の違いについて多くの時間を費やして考え、それから機械翻訳システムを構築するといった具合です。しかし、最終的に言語モデルがそれらすべての異なるアプリケーション領域を席巻したのは、はるかに広範なデータソースを活用できるからです。

そしてそれは、「このアプリケーション用のデータと、あのアプリケーション用のデータがあったから、すべてを統合しよう」という単純な話ではありません。もっと深い意味があります。弱くラベル付けされたデータ、つまり言語モデルの場合で言えば、ウェブからただマイニングしてきたようなデータを活用できるようになると、システムは実際により多くのことを世界について学習するのです。つまり、世界に対する理解の基盤を確立し、その基盤の上に様々なアプリケーションを構築する方が、はるかに効果的であることがわかったのです。

これをロボット工学に当てはめてみましょう。もちろん、計算の前提はまったく同じではありません。なぜなら、ロボット工学には自由に引き出せるインターネット規模のデータセットが存在しないからです。しかし、この「世界を理解する」という概念は、ことロボット工学においてはさらに重要になります。

もし様々なタスクや、様々な物理的システムを持っているなら、「お皿洗いのスペシャリスト」や「洗濯物たたみのスペシャリスト」を個別に訓練するのではなく、物理的な相互作用そのものを理解するモデルを訓練することができます。人間が非常に素早く新しいスキルを習得できるのは、私たちが物理的な相互作用を理解しているからです。新しくて見慣れない状況でも「何が起こるか」を直感的に把握でき、それが物事を非常に素早く立ち上げることを可能にしています。

ですから、もし私たちが多くの情報源、多くのアプリケーション、多くのロボットからデータを引き出すことができれば、物理的な理解を持ったモデルを作ることができます。そうなれば、そのプラットフォームの上に新しいアプリケーションを乗せることは、はるかに簡単になるはずです。

このアプローチで開発を進める上で、最も難しい部分は何でしょうか？世間一般の人にとっては、一つの特定の作業を動き回りながらこなすロボットの姿を見る方が、分かりやすくて理解しやすいですよね。実際に取り組まれていて、この手法の最大の壁は何だと感じていますか？

実は、これは私のキャリア全体を通じての課題でもありました。ロボットの学習に取り組む際、システムが汎用的になればなるほど、そして効果的な学習や汎化（ジェネラライゼーション）が重要になればなるほど、本当にエキサイティングなデモンストレーションを見せることが難しくなるのです。

とてもエキサイティングなデモを作るための最適な方法は、最高にクールなタスクを一つ選び、環境内の他のすべてを完璧にコントロールすることです。完璧にクリーンで初期状態の環境をセットアップして、その一つの設定の中だけで機能するようにするのです。それがロボットのデモを作る従来の方法です。

しかし、汎用性というものは、特定の1つの場所だけで示すことはできません。汎用性のポイントとは、「どんな人間でもできるような比較的ありふれたことを、どんな状況でもこなせる」という点にあるからです。

去年の4月に、私たちのロボットがキッチンを掃除するデモを公開しました。個人的にはクールだと思っているのですが、個別の動画を文脈なしで見ると、ただ「ああ、お皿を持ち上げているね。お皿くらい誰でも持ち上げられるよ」と思われてしまいます。そのロボットが、あのデモのためだけにあの家に置かれ、あの環境での訓練データを一切持っていなかったという背景を知らなければです。

ですから、これがなぜ技術の最前線を押し広げているのかを理解し、評価してもらうためには、裏で何が起こっているのかを分かってもらう必要がありますね。

基盤モデルがもたらすロボット開発の未来

あなたが取り組んでいることの「成功」をどう定義づけていますか？汎用的な物理的知能の壁を越えるというだけでなく、もしその一線を越えたら、その先には何が待っているのでしょうか？

私が本当にエキサイティングだと感じていることの一つは、汎用的な身体性を持つ基盤モデルが実現することで、ロボットやその他の物理システムの構築において、人々の想像力が解き放たれることです。

パソコンの登場は私にとって非常に大きな出来事でした。なぜなら、それによって多くの人があらゆる種類の本当にクールなものをハッキングして組み合わせることができるようになり、1990年代には素晴らしいアプリケーションのカンブリア爆発のようなものが起き、その後インターネットによってさらに加速したからです。

ロボット工学の世界でもそれに似たようなことが起こるのではないかと思っています。しかし、それは今日では不可能です。なぜなら、何かクールな新しいロボットのアプリケーションやアイデアを作ろうとすると、とてつもなく巨大な技術スタックを構築しなければならず、基本的には知能の問題を自分自身で解決する必要があるからです。

しかし、誰もがその上に構築できるソリューション、つまり、基本的な機能を提供してくれてプロンプトで指示できるような基盤モデルがあり、それを自分のアプリケーションに合わせて少しファインチューニングしたり調整したりできるようになればどうでしょう。そうなれば、多くの人々、多くの企業、多くの個人が、ありとあらゆる異なるアイデアを試すことが、はるかに容易で魅力的なものになるはずです。

私たちは時々、ロボットが「単一の形」になると思い込んでしまいます。「人間がいるのだから、金属製の人間を作ればそれがロボットになる」というように。しかし、私はそうはならないと思っています。これまでのどんな技術もそうではなかったからです。

それはむしろ、あらゆる種類の本当にクールなアプリケーションを組み立てることができる、ツールキットのようなものになるでしょう。非常にクリエイティブになれるはずです。「腕が5本あるロボットを作ろう」「こいつは天井からぶら下がるタイプにしよう」というように、自分の領域の課題に対処するための適切な形を見つけ出し、ソフトウェアも一緒に実験する。しかし、そのためにはベースとなる適切なプラットフォームが必要です。

そして、基盤モデルこそがそのプラットフォームになり得ると私は考えています。

ヒューマノイドの利点と様々な形態の可能性

ロボット工学におけるヒューマノイド（人型）アプローチのメリットとデメリットについて、どのようにお考えですか？

メリットの一つは、とにかくクールだということです。誰かに見せれば、「おっ、なるほどね」とすぐに伝わりますからね。

Optimusの手についてはよく話題に上りますよね。

ええ。でも、それは本当にクールですし、それには多くの価値があると思います。人々の想像力をかき立てることや、未来がどのようになるかについて分かりやすい形で人々に考えてもらうことには、非常に大きな価値があります。

しかし私の頭の中では、それは私たちが持つことになるであろう多くの可能な種類のロボットのうちの1つに過ぎません。そして根本的に、知能という課題は、これらすべての異なるロボットにおいて非常に似通っています。ですので、私たちは知能の問題に、ある特定の身体の文脈の中だけで取り組むべきではないと考えています。汎用的な方法で対処すべきです。そうしなければ、これを制御するのは本当に難しくなってしまいますから。

私たちには多くのデータが必要です。ロボットを作ることの素晴らしい点は、究極的には人間の形に縛られる必要が全くないということです。仕事に合わせて適切なツールを作ることができます。たとえば、家を建てるためのロボットが、1万機のクアッドコプター（ドローン）の群れであってもいいわけです。

将来的には、あらゆる種類のアプリケーションに適応できるロボットの基盤モデルができると考えています。そしてそれは、ブルドーザーのようなものからヒューマノイド、あるいはここにあるようなロボットアームに至るまで、本当に多岐にわたるでしょう。おそらくそれぞれに適応させる必要があり、ファインチューニングが必要になるかもしれません。その身体がどのように機能するかをコンテキストの中で理解するための仕組みも必要でしょう。

しかし、オブジェクトとの相互作用の基本、世界での物の動き方、因果関係の働き方といった根本的な部分は、これらすべての異なるシステムにおいて共通して保存されるものなのです。

人間の形をした知能などでは不可能なことで、真の汎用知能があれば可能になるかもしれないことについて、何かお気に入りの例はありますか？

考える価値があると思われる例はいくつかあります。一つは、非常に巨大な機械も、非常に微小な機械も作れるということです。

長期的に見れば（決して短期的な話ではありませんが）、医療や外科手術の分野で非常にエキサイティングな応用がたくさんあると思います。そこでは、人間の形をしたロボットに限定されないだけでなく、長期的には人間に制御可能なロボットにすら限定されない可能性があります。

なぜなら、たとえば現在のロボット支援手術は、完全に遠隔操作（テレオペレーション）で行われているからです。つまり、人間が適切な器用さを持ってリアルタイムで制御できるものが必要です。そして当然、その制限は現在の学習ベースのシステムにも当てはまります。しかし長期的には、そのような限界をも克服できる未来が想像できます。

ロボット学習の歴史的マイルストーン

現在の技術水準や今後の方向性についてお話しする前に、ここに至るまでのロボット工学研究の歴史における重要なマイルストーンを振り返ると非常に分かりやすいと思います。歴史のタイムライン上の関連する転換点について教えていただけますか？

あるレベルでは、ロボットシステムのエンドツーエンド制御を行うというのは非常に古いアイデアなんです。例えば、エンドツーエンドの学習を用いた最初の自動運転システムは1980年代に存在していました。ALVINN（アルヴィン）は確か1986年か87年のもので、ニューラルネットワークによって制御され、高速道路を走行することが実証された自動運転システムでした。カメラからの映像を使っていましたが、当時のニューラルネットワークは非常に小規模なものでした。

ですから、非常に歴史のある概念は存在しているのですが、歴史的にロボット学習で本当に難しかったのは、「対処したいアプリケーションを処理できること」「そのアプリケーションの訓練において費用対効果が高いこと（つまり、取り組みたいすべてのアプリケーションごとに膨大なデータが必要にならないこと）」「常識を使ってロングテールのシナリオ（稀な状況）を処理できること（世界で何か奇妙なことが起きた時に、妥当な対応ができること）」そして「本来実行すべきタスクにおいて、堅牢で高速、かつ信頼性が高いこと」これらすべてを同時に満たすシステムが必要だという点です。

これらすべてを一緒に機能させるのは非常に困難です。なぜなら、機械学習はデータが大量にあるときに最もよく機能するからです。ですから、単純にロボットの問題にアプローチして「お皿洗いをさせたい」と考えた場合、明らかに行うべきことは、お皿洗いの膨大なデータを収集することです。しかし、それでは費用対効果が合いません。なぜなら、次のアプリケーションに進むとき、また最初からそのプロセスを繰り返さなければならないからです。

そのため、多くのタスクを処理できる汎用的なモデルを訓練できることが不可欠になります。そうすれば、新しいタスクごとに必要なデータがはるかに少なくて済むからです。

常識（コモンセンス）の統合とLLMの役割

しかし、さらにその先があり、ここが過去数年間で最も大きく変わった部分なのですが、システムは「異常なシナリオ」にも対処できなければなりません。

異常なシナリオについては、おそらく過去の経験が存在しません。そこで頼るべきは、他の情報源から獲得した知識であり、それをその新しい状況に根付かせる（グラウンディングする）ことです。人間はこれが非常に得意です。

たとえば車を運転していて、道路の真ん中で何かが起きており、誰かが「ガス漏れのため立ち入り禁止」という看板を立てていたとします。おそらくあなたはこれまでにそんな経験をしたことはないでしょうが、これらの情報を組み合わせて、その異常な状況で何をすべきかを導き出すことができます。なぜなら、あなたには「常識」があるからです。

そして、この「常識をどこから手に入れるのか」ということは、ロボット学習の世界における大きな謎でした。

これが過去数年で大きく変わった点です。マルチモーダルな言語モデル（LLM）が、知識を引き出し、その知識を明確に表現することに非常に優れていることが判明したからです。それらのモデルは、その知識を物理的な状況に根付かせることはあまり得意ではありませんが、「知識」自体は持っています。

したがって、マルチモーダルLLMに含まれる知識を活用することで、そのような常識を獲得する道筋が実際に見えてきました。しかし同時に課題もあります。その知識に「正しい方法で」接続しなければならないからです。

単に写真を見せて「あなたならここでどうしますか？」と聞くことはできません。なぜなら、システムにはコンテキストがないからです。自分がロボットであることや、自分がどのような姿をしているか、今何が起きているかを知りません。

ですから、これは技術的な課題です。私たち研究コミュニティ全般は、この技術的課題への対処においてある程度前進しています。しかし最も重要なのは、「多くの知識を取り込んでロングテールのシナリオを処理する手段が手に入った」という、トンネルの先の光が見えたことです。

AlexNetやTransformerのような、歴史の教科書に載るような画期的な出来事はロボット工学にもありますか？将来誰もが「ここがターニングポイントだった」と指摘するような出来事は。

良い質問ですね。はっきりと答えるには、今はまだ少し早すぎると思います。

確かに、少なくとも10年くらい遡らないとそういったものは見えてこないかもしれませんが、おそらく80年代の最初のエンドツーエンド学習システムは間違いなくマイルストーンです。2010年代初頭の最初の深層強化学習システムもおそらくマイルストーンでしょう。深層強化学習は、ロボットシステムに不可欠となる「人間レベルのパフォーマンスを超える」道を開いてくれるからです。

そして、より最近の進展もありますが、それは過去数年以内の話です。それが今後、人々が振り返って指摘するような決定的なマイルストーンになるかどうかはまだ分かりませんが、ロボット制御に適応して常識をもたらすことができるマルチモーダルLLMの登場は、間違いなく非常に重要な進歩だと考えています。

今後数年の間に、非常に重要な進歩が数多く見られることになるでしょうし、もしかしたらそれらが歴史的なマイルストーンとして語り継がれることになるのかもしれませんね。

個人的な研究の歴史と手法の進化

この問題に取り組むようになったあなた個人の歴史を教えていただけますか？いつ、なぜ興味を持つようになったのか、そしてそれ以来、自分の時間と注意を何に費やすかをどのように決めてきたのかをお聞きしたいです。

私がロボット工学の分野で働き始めたのは2014年でした。大学院を修了し、カリフォルニア大学バークレー校でピーター・アビール教授のポスドクを始めた時のことです。実はそれまでロボットの研究はしていなかったのですが、学位取得後にもう少し教育を受けるべきだと考えていました。彼の研究室がロボットを扱っていたので、これまで学んだことをロボット工学に応用してみようと考えたのです。それ以前は、コンピュータグラフィックスの研究をしていました。

私が常に本当に解明したいと思っていたのは、「何かをすればするほど、どんどん賢くなっていくAIシステムをどうやって構築するか」ということでした。なぜなら、それはとてつもなく強力なことだからです。

もし、何かをやればやるほど上達し、ただひたすら改善し続けるシステムを作ることができれば、そこには限界がありません。私たちが望むあらゆるスキルを習得させることができます。

当初、私はそれを非常に「白紙の状態（ブランクスレート）」からのアプローチで試みました。つまり、何もないところから始めて、特定のスキルを練習し、そのスキルを上達させるというものです。それはある程度は上手くいきました。限られた環境であればそれは可能で、機能するものは作れます。

しかし、それをオープンワールド環境で機能する汎用的なシステムに発展させるのは非常に困難です。なぜなら、ここで何かを練習して、次に別の場所に行ったとき、何かが少し違っていれば、また最初からすべてを練習し直さなければならないからです。

次に私が試したのは、Googleで働いていた時のことですが、「それを多数のロボット全体で並列化できないか」ということでした。つまり、集団学習です。20台のロボットを一つの部屋に置き、すべてを一緒に学習させることができるか。それは機能しましたし、汎化能力も示しました。しかし、そのようなシステムが、先ほどお話ししたようなテイルケースやエッジケース（稀な例外）に対処するのは非常に困難でした。特定のタスクに特化したある種のサヴァンのようになってしまい、世界についてそれ以外のことは何も知らない状態になってしまうからです。

そのため、次のステップとして私が必要だと考えているのが、先ほど触れた「スキルを練習する能力」と「大量の事前知識」を組み合わせることです。

これは実際、非常に難しい問題です。ロボット工学だけでなく、AI全体においても難しい問題だと思います。なぜなら、過去数十年のAIにおける2つの大きく印象的な成果は、「生成AI」と「深層強化学習」だからです。

これらを象徴する1つの例を挙げるとすれば、生成AIはLLMであり、深層強化学習はAlphaGoです。これらはどちらも非常に印象的ですが、その理由は全く異なります。

生成AIが印象的なのは、人間ができることのいくつかを再現できるからです。人間が描くような絵を描いたり、文章を書いたりすることができます。

深層強化学習は、その逆の理由で印象的です。「第37手」のように、人間が思いつかなかったようなことをやってのけるからです。

その通りです。そしてこれが、私が最終的にお話ししたいことにつながる大きな課題であり、ここPhysical Intelligenceで私たちが解明したいと願っていることなのですが、これら2つのスレッドをどのように組み合わせるかということです。生成AIで得られるすべての知識を取り入れつつ、同時に強化学習によって単なる人間レベルのパフォーマンスを超えていく方法です。

その完全な答えはまだ出ていませんが、私たちはこの点について確かな前進を遂げていると考えています。

では、それを実現するために、文字通りこれまでどのようなことを行い、現在どのようなことをされているのでしょうか？

過去数年間は、まず基本的な基盤を開発することから始めました。その基本的な基盤となるのが「ビジョン・ランゲージ・アクション・モデル（VLA）」と呼ばれるものです。

VLAは、ロボット制御のために適応されたLLMだと考えてください。これらの訓練方法は、まずテキストデータで訓練されます。次に、画像とそのコンテキストを理解するためにウェブからの大量の画像データで適応させます。そして最後に、非常に多様なロボットのデータを使って、ロボット用に適応させます。

これが第一歩であり、出発点です。ウェブ上のすべての知識を取り込み、それをロボットを制御できるモデルに組み込んで、いくつかの興味深い行動を引き出すための方法です。

そこから私たちは2つの方向性を研究しました。「このシステムに常識を使って異常な状況に対処させる方法」と、「強化学習によってシステムを改善させる方法」です。

常識を獲得する方法は、本質的に「思考の連鎖（Chain of Thought）」を用いることです。ロボットは現場に入ると、すぐに動き始めるのではなく、何をすべきかについて考えます。たとえば「キッチンを掃除して」と指示された場合、現場を見て「よし、この状況ならお皿を拾うべきだ」と推論します。文字通り、自問自答するのです。「お皿を拾おう」と言ってから、それを実行します。

ウェブスケールの事前学習の恩恵を受けた中間の推論プロセスが挟まることで、すべての事前知識が解放されるわけですね。これによりエッジケースに対処できるようになります。

そして強化学習の部分は、何度か練習した後に効果を発揮します。自らの経験を通じて直接タスクをどんどん改善していくことができるのです。例えば、エスプレッソを淹れるデモを公開しましたが、あのシステムはエスプレッソを淹れる練習を何度も繰り返し、その経験を利用して堅牢性、速度、スループットを向上させました。

もちろんこれで完成というわけではありません。まだまだやるべきことはたくさんありますが、少なくとも出発点には立てたと思っています。

（スポンサーメッセージ）ほとんどのソフトウェア企業は、エンゲージメントを高めるためにアプリの利用時間を最大化しようとします。しかし、Rampは全く逆のアプローチをとっています。Rampは、誰も領収書を追いかけたり、経費報告書を確認したり、ポリシー違反をチェックしたりすることに何時間も費やしたくないことを理解しています。そのため、彼らはAIを使用して経費レビューの85%を99%の精度で自動化し、人々に時間を取り戻すためのツールを構築しました。Rampを利用することで企業の経費が5%削減されることを考えれば、ShopifyやStripe、そして私の会社がRampを導入しているのもうなずけます。雑務を排除した時に何が起こるかをぜひご覧ください。ramp.com/invest をチェックしてみてください。

すべての投資家はRogoについて知っておくべきです。なぜならROGO AIのプラットフォームは単なる一般的なチャットボットではないからです。それはウォール街の銀行家や投資家が実際にどのように働いているかをサポートするために設計されました。ソーシング、デューデリジェンス、モデリングから、分析結果を成果物に変換するまでのプロセスにおいてです。私にとって、Rogoを際立たせる3つの重要な要素があります。第一に、システムに直接接続するため、実際のデータを使用して作業できること。第二に、取引や投資において実際に仕事がどのように進むのか、あなたのワークフローを理解していること。そして第三に、エンドツーエンドで稼働し、トップクラスの人材が作成するのと同じような、監査可能なスプレッドシート、投資メモ、デューデリジェンス資料、スライドデッキなどの実用的な成果物をあなたの基準に合わせて生成することです。これらはすべて、ROGOが金融専門家によって金融専門家のために構築されているという事実から来ており、すでに世界で最も厳しい目を持ついくつかの金融機関で採用されています。詳細については、rogo.ai/invest をご覧ください。

OpenAI、Cursor、Anthropic、Perplexity、Vercelには共通点があります。それらはすべてWorkOSを使用しているということです。その理由は以下の通りです。企業規模での導入を実現するには、SSO、SCIM、RBAC、監査ログなどのコア機能を提供する必要があります。そこでWorkOSの出番です。これらのミッションクリティカルな機能を自社で構築するために何ヶ月も費やす代わりに、WorkOSのAPIを使用するだけで、初日からそれらすべてを利用できるようになります。だからこそ、皆さんがよく耳にするトップAIチームの多くがすでにWorkOSを利用しているのです。WorkOSは、企業向け対応を最速で完了させ、最も重要なプロダクト開発に集中し続けるための手段です。利用を開始するには、workos.com にアクセスしてください。（スポンサーメッセージ終了）

ロボットが収集するデータとセンサーの役割

ロボットデータ自体について考えるのは正しいアプローチだと思います。このデバイスの第一世代を見ると、ここにカメラがあり、おそらく別の場所にもいくつかセンサーがあるのでしょう。事実上、ロボットのさまざまな部位に戦略的に配置された各種センサーによってデータが収集されているわけですね。

ええ。センサーについて言えることは、おそらく皆さんが思っているよりも少ないセンサーで、かなり多くのことができるということです。ここにあるこのプラットフォームには3つのカメラがあります。両手首に1つずつと、ベースカメラが1つです。触覚センサーはありません。力覚センサーもありません。非常にシンプルで低コストな作りです。

もちろん、センサーが増えればより良くなる可能性はありますが、優れた学習手法を用いれば、センサーの不足をかなりうまく補うことができます。例えば手首のカメラは、何かに触れたときの局所的な変形を視覚的に捉えることができるため、本質的には偽装された触覚センサーとして機能するのです。

80年代から90年代の基本的なAIにおけるエキスパートシステムのアナロジーから、「スケールこそがすべて（Scale is all you need）」という教訓、そして特定の何かを教えるのではなくただデータを与え続けるという直感に反する性質について考えてみます。インターネット上にはデータの巨大な貯水池のようなものがありますよね。

これを実現するために必要なデータの貯水池をどのように作り出すかについて教えてください。

真に汎用的で強力な身体的AIを実現するために、どれだけのロボットデータが必要になるのか、本当のところは誰にも分からないと思います。しかし、私の感覚では、実はその正確な量を知る必要はないのです。

私たちがすべきことは、これらのシステムが世界に出て行き、自らさらに多くのデータを収集できるほど十分に「有用」なレベルに到達させることです。

その通りですね。

単刀直入に言えば、テスラは自社の車がどれだけのデータを収集できるかについては心配していませんよね。むしろ逆で、「データが多すぎる」というくらいです。ですから鍵となるのは、「究極のロボットデータセットを手に入れるためのコストはこれだ」と定量化することではありません。世界に出て行って、さまざまな有用なタスクをこなし、データを引き込み続けることができるシステムを作ることなのです。

テスラの例が出ましたが、あのシステムはAIがなくてもそもそも人間が運転する車として「有用」であり、そこからデータを収集できるという美しい構造を持っています。それならば、ロボットの場合も同様に、まずは単一のロボットとして有用なものを推測して作り、同じようなフライホイール効果を生み出すアプローチから始めるべきではないでしょうか？

それは良いアイデアだと思います。

では、あなた方もそのようなアプローチを追求されるのでしょうか？

これには「ただ一つの正解」というものはないと考えています。人間の制御下でシステムを導入することが非常に理にかなっている領域もあれば、部分的な自律システムを導入するのが適切な領域もあります。これはドメイン（領域）に大きく依存します。ロボットは単一のものではありませんから。

そうですね。例えば、外部の人間によって常に監視・制御されているようなロボットを家の中に置きたくないと思う人は多いかもしれませんが、特定の産業アプリケーションではそれは全く問題にならないかもしれません。

予想外の進展とモラベックのパラドックス

Physical Intelligenceの立ち上げから今日に至るまで、研究を進める中で最も驚いたことや予想外だった発見は何ですか？

驚いたことの一つは、器用さ（Dexterity）に関して、私が予想していた以上の進歩があったことです。

私のこれまでの研究経験から、「汎化能力」—つまり様々なシーンやあらゆる物体に対応する能力—については、より多くのデータを集めさえすれば着実に向上していくであろうという確固たる理由と期待を持っていました。

しかし驚いたのは、そのために特別なことをしなくても、これらのシステムに非常に器用な動作を実行させることができたということです。さらに、同じことが異なる身体性（エンボディメント）でシステムを機能させることにも当てはまりました。モデルそのものを変更することなく、多指のハンドを持つロボットや、自由度が異なるロボットなど、ありとあらゆる他のロボットでモデルを機能させることができたのです。

もちろん、データを取得してモデルをファインチューニングする必要はありましたが、プロンプトを通じてロボットがどのような形状をしているかを指示する必要すらありませんでした。これも私にとっては驚きでした。より高速で、より器用で、より複雑なタスクや、異なる種類の身体に適応させるためには、何か高度で特別な技術が必要になると思っていたからです。しかし実際には、それらの間でかなりうまく汎化できるようです。

私は常に、システムの能力のスペクトラムに興味を持っています。特に、今日のシステムが一般の人が予想する以上に進んでいる部分と、逆に期待されているほど進んでいない部分について教えていただけますか？

これはロボット工学において常に理解が難しい部分です。ロボット工学者がよく話題にする「モラベックのパラドックス」という概念があります。これはAIのあらゆる分野に当てはまりますが、特にロボット工学では重要な問題です。

人間には「自分たちにとって簡単なことは、機械にとっても簡単だろう」と考える認知バイアスがあります。たとえば、微積分の問題を解くのは多くの人にとって難しいですが、カップを持ち上げるのは簡単です。そのため、私たちは「機械はこんなこと簡単にできるはずだ」と考えがちですが、実際にはその逆なのです。

私たちにとってそれが簡単である理由は、簡単でなければ生存できなかったからです。ジャングルでトラを見つけるのが得意なのは、得意でなかった人たちがトラに食べられてしまい、もう存在していないからです。そのバイアスのせいで、私たちは「これは非常に簡単であるはずだ」と思ってしまうのですが、実際にはそれは非常に困難なエンジニアリング上の課題なのです。

しかし、現在変化しつつあるのは、機械学習がその方程式をわずかに変えつつあるということです。どこにでもあるどんなカップでも持ち上げられるように手作業でプログラムするのは困難ですが、機械学習システムにそれをやらせることは、データさえあれば実はそれほど難しくありません。

今後ますます目にするようになるのは、データ収集が容易な領域は、物理的に複雑であっても時間が経てば「簡単なバケツ」に入るようになるというシフトです。しかし逆に、データ収集が難しく、より多くの常識（コモンセンス）を使用する必要があり、複数の抽象化レベルで推論を行い、他の領域で学んだ物理的スキルとウェブから得た知識を結びつける必要がある領域。これらは依然として困難であり、そこでこそさらなる技術の進歩が必要になるでしょう。

あなたが先ほど言及した「常識（コモンセンス）」の科学的定義とは何でしょうか？私たちが「常識」と言うとき、それは何を意味するのでしょうか？

ロボット学習の目的に関して言えば、「他の領域から学んだ知識を使って意味論的な推論を適用し、目の前の現在の物理的タスクに役立てること」と考えることができます。

つまり、常識は「マッスルメモリー（筋肉の記憶）」の対極にあるものだと考えられます。スポーツをする際など、何度も練習したマッスルメモリーであれば、ほとんど考えることなくオートパイロットのように実行します。

私が考える常識とは（これが一般的な定義かはわかりませんが、妥当な定義だと思っています）、あなたが見たり、読んだり、聞いたりしたことで「事実」として知っていることがあり、そして今、その事実が自分が行うべきことに深く関連している状況に置かれたとき、そのつながりを見出し、自分の置かれている環境に落とし込んで、正しい決定を下すことができる能力のことです。

もう一つ非常に興味深い違いがあります。今や誰もがチャットボットを使ったことがありますよね。質問して、答えを得て、また質問して、答えを得る。現在、コード生成やその他の分野でも、複雑な指示を与えると、失敗せずに非常に長く作業を続けられる能力が測られるようになっています。

ロボット工学において、その「長距離を走り切る」ことに相当するものは何でしょうか？

それは私たちが現在かなり力を入れて取り組んでいることです。そして実際、その方法論はあるレベルにおいてそれほど違いません。

先ほどお話ししたように、私たちの現在のモデルは「思考の連鎖」プロセスを利用してタスクについて推論します。それがあれば、実際には非常に長期的なタスクを実行することができます。食器洗い機からすべての食器を取り出し、正しい戸棚にしまい、カウンターを拭き取るなど、そういった一連のタスクをロボットに実行させることができるのです。

ここで興味深いのは、約6ヶ月前に、私たちのモデルが「高レベルの指示を与えるだけで改善できるレベル」に達していることに気づいたことです。

どういうことかと言うと、ロボットを新しいキッチンに置き、「キッチンを掃除して」と頼みます。ロボットは作業を始めますが、途中のどこかで失敗します。さて、どうしますか？伝統的な方法であれば、ここでより多様なキッチンをカバーするために、より多くの遠隔操作（テレオペレーション）データを追加するでしょう。

しかし、私たちが気まぐれで試してみたのは、「もし遠隔操作データを追加せず、意味論的なコマンド（言葉による指示）でラベル付けされたデータだけを追加したらどうなるか？」ということでした。ロボットが経験したことをそのまま使い、それに意味論的なコマンドのラベルをつけるだけで、低レベルの動作データは一切追加しなかったのです。

驚いたことに、これが役に立ちました。システムが汎化する能力を向上させたのです。これが意味するのは、システムのボトルネックが最低レベル（ロボットが物理的にタスクを実行する能力）から、中間レベルへと移行していたということです。つまり、システムは「シーンを解釈し、適切な次のステップを選択する能力」においてボトルネックになっており、それは言語によって指導（スーパーバイズ）できるということなのです。

それは大きなニュースですね。つまり、誰かが文字通りロボットに話しかけ、コーチングするような感覚で教えることができるということですか。

その通りです。話しかけるだけで、ロボットをより良くすることができるのです。

社会への導入における技術的・社会的課題

もし私たちが2050年にいて、いまだに私のキッチンでお皿洗いをしてくれるロボットが存在しないとしたら、そこまでに到達できなかった最も可能性の高い理由は何だと思いますか？

私の予想では、技術と人間との相互作用に関する多くの細かい課題が残っているからではないかと思います。ある意味で、自動運転車もこの点ではあまり変わりません。自動運転車を公道に展開することに対する人々の「快適さ（受け入れ度合い）」のレベルに到達することは、技術をそのレベルに引き上げることと並行して進む重要な課題でした。

例えば、初期のテスラの自動運転は、完璧ではなかったために少し物議を醸しました。「人々はこのレベルの不完全さに納得できるのだろうか？」という疑問があったからです。

ロボットのタスクにも、人々が「完璧ではないもの」「間違いから学ぶ必要があるもの」を受け入れられる領域と、そうでない領域があるでしょう。お皿がたまに割れてしまうことに、あなたは寛容になれますか？数年後には割らなくなるかもしれませんが、その間はまだ完璧ではありません。小さなお子さんがいる家庭に、そのようなロボットがいることに安心できますか？おそらくそうではないでしょう。でも、それはそれで構わないのです。

これらの要因がどのように相互作用し、それがシステムのタイムラインや、経験を通じてどのように改善していくかにどのような意味を持つのかを理解することは、非常に難しい問題であり、繊細にアプローチする必要があると考えています。これらのシステムが導入され、起動し、より多くのデータを収集することが非常に理にかなっている領域もあれば、より慎重な扱いが必要な領域もあるでしょう。

技術的な理由だけで、何かがうまくいかないというシナリオは想像できますか？

私が技術的なリスクが最も大きいと見ている部分は、「状況の幅広さへの対処」です。

ホテルの部屋の清掃や、レストランの厨房で人間の料理人をアシストするなど、明確に定義されているものの少し混沌とした環境であれば、それを制御下におく方法は非常によく理解できていると思います。

しかし、ロボットが「一般の家庭」に入ることを想像した場合、予期せぬ出来事がたくさん起こり得ます。そこで何が起きているかを推論し、それに適応したり知的に反応したりできる優れたシステムが必要になります。そのアプローチについて私たちには多くのアイデアがありますが、それが問題の中で最も難しい部分であることは間違いありません。

ほぼ何が起きるか分からないような状況で、周囲の世界に影響を与える物理的デバイスを制御している場合、少なくともある程度のレベルでは、ほぼすべてのケースで物事を正しく行う必要があります。常に成功しなければならないわけではありませんが、常に人々が許容できる「理にかなった行動」をとらなければならないということです。これを行うための優れたアイデアはたくさんありますが、方程式の中ではおそらく最も難しい部分でしょう。

シミュレーションと実世界データのアプローチの違い

Physical Intelligenceのアプローチを全体として考える上で、最もシンプルで正しい捉え方を教えてください。たとえば、「多種多様なタスクを行うために、ありとあらゆる種類の形態を作り、すべてのデータを混ぜ合わせ、評価指標を見ながら実験を繰り返して良くしていく」というのが最もシンプルな説明でしょうか？それとももっとシンプルな見方がありますか？これをあえて聞くのは、あなたが個人的には興味を持っているものの、会社としては行っていない他のアプローチと対比させたいからです。

なるほど。私の考えでは、正しく設定すべき最も重要なことは、「システムを汎用的にすること」、そして特に「どのようにシステムを改善できるかという点に関して汎用的にすること」です。

例えば、手作業で設計されたロボットのコントローラーは、改善のプロセスという点では汎用的ではありません。なぜなら、人間のエンジニアが介入して改良する必要があるからです。

学習ベースの認識システムはより汎用的です。人間のラベラーがより多くのデータをラベル付けするだけで済むからです。

そして、自らの経験を通じて収集したデータから自律的に学習するシステムは、さらに汎用的です。人間のラベラーすら必要ないからです。

ですから鍵となるのは、特に「改善」に関するこのレベルの汎用性です。私たちが下す決定は、大部分においてその点を中心に据えています。

ロボットの正しい設計が「3つのカメラを持つこと」なのかどうかは私にはわかりません。「触覚センサー」が必要かどうかもわかりません。私たちはその点については非常にアグノスティック（不可知論的）であり、多くの異なる選択肢を試すつもりです。長期的には言語モデルを持つようになるのかどうかも確信がありません。全く異なる種類の多様なデータで訓練された別のモデルになるかもしれません。しかし、重要なのはこのレベルの汎用性なのです。

他に取り組まれているアプローチで、あなたが最も興味深いと思うものは何ですか？

この分野における非常に重要な疑問であり、研究コミュニティもテクノロジーコミュニティもまだ完全な答えを出していないと思われるのが、異なるデータソース、特に「実世界データとシミュレーション」の間の二項対立です。

これは非常に議論を呼ぶテーマで、私自身も強い意見を持っています。しかし、例えばヒューマノイドがアクロバットをするような動画を見たことがあると思いますが、それを機能させているパイプラインはシミュレーションに大きく依存しており、実世界データの割合は非常に少なく、実世界データがゼロの場合も多いという事実は認識しておく価値があります。

一方で、ロボットのマニピュレーション（操作）でうまく機能しているアプローチは、その逆であることが多いのです。シミュレートされたデータをほとんど使わず、大量の実世界データと非常に大規模な基盤モデルを使用することがよくあります。

これら2つのロボット分野において、主流のアプローチがここまで異なっているというのは、ある意味で驚くべきことです。将来的には一方が勝ち残り、特定のアプローチがすべてを処理できるようになるかもしれませんし、あるいはこれらのアイデアが何らかの形で統合されることが重要になるのかもしれません。答えはわかりませんし、私自身には主観的な意見があり、自分たちのアプローチが非常に優れていると思っていますが、なぜこれらがこれほど異なっているのかを考察するのは興味深いことだと思っています。

見栄えの良さと実用性のバランス

「クール（かっこいい）」と「有用」の対比についてお話しいただけますか？たとえばボストン・ダイナミクスのロボットによるバク転は最高にクールですが、日常でロボットにバク転を要求する場面が私には思いつきません。クールさと有用性を最適化することについて、どのようにお考えですか？

私たちがとっている戦略は、それが正しい戦略かどうかはわかりませんが、「有用であるという制約を前提とした上で、可能な限りクールにする」というものです。

それは私たちのブログ記事や動画にも表れています。私たちは何よりもまず、「この技術を、真に汎用的で幅広く応用可能なロボットの基盤モデルに向けて前進させるものは何か」という評価に基づいて決定を下します。しかし、それを実行する過程で、私たちが投げかけられる最も困難な課題に対して、システムのストレステストを試みます。そして、その「最も困難な課題」こそが、見た目にもクールなものになるのです。

ですから、私たちは最初から「エスプレッソを淹れるロボット」や「洗濯物をたたむロボット」を作ろうとしていたわけではありません。しかし、これらの汎用システムを構築する過程で、「どれだけ限界を押し広げられるかを試すために、これらは特に挑戦的でエキサイティングなタスクになるだろう」と考えたのです。

ロボットオリンピックについてお話しいただけますか？

ええ、もちろんです。かつてAlphabetの一部であり現在は解散したEveryday Robotsという組織で働いていた、ベンジー・ホルソンという方がいました。彼はロボットができるタスクについて多くの時間を費やして考えていました。

少し前に彼が非常に興味深いブログ記事を書きました。要約すると、「中国で開催されたロボットオリンピックではロボットがトラックを走り回ったりジャンプしたりしていたが、私たちが本当に心配すべき課題はそういうことではないのではないか。人々が日常的に行うタスクを中心としたロボットオリンピックはどうだろうか」という内容でした。

これは、人々にとっては非常に簡単だけれど、ロボットにとっては難しいという、パラドックスの一種です。彼が挙げたのは、「ドアを開ける」「油まみれのフライパンを洗う」「ビニール袋を使って犬のフンを拾う」といったタスクでした。人間にとっては特に難しくないけれど、現在のどのロボットシステムにもできないことです。彼はこのようなタスクを十数個リストアップしました。

私たちはこれに挑戦してみることにしました。これは計画的な研究プロジェクトの一部というよりは、あらゆる種類の新しいタスクを取り込むために開発したプロセスやシステムを試すためでした。「よし、ここに大きなタスクのリストがあるから、私たちが開発したプロセスにこれを通して、うまくいくか試してみよう」と考えたのです。つまり、私たちの社内オペレーションとモデル訓練システムのテストのようなものでした。

実際に試してみたところ、ほとんどすべてのタスクを解決することができました。一つだけできなかったのは「ワイシャツを裏返す」ことで、これはグリッパー（ロボットの手）が袖の中に入らなかったためです。グリッパーを変更する必要がありました。また、技術的なルール違反という意味で「オレンジの皮をむく」タスクも、指の力が足りずにナイフのような小さな道具を使わざるを得なかったため、失敗とみなされました。

しかし、それ以外はすべてクリアできました。私が本当に興味深いと思ったのは、もちろん動画もクールなのですが、それを見た人に覚えておいてほしい重要な点は「私たちはこのために特別なものを何も開発していない」ということです。文字通り、私たちの「タスクのオンボーディング（取り込み）プロセス」のテストとしてこれを利用しただけなのです。

これには非常に興味深い点があると思います。なぜなら、この種の汎用システムがあれば、特に複雑なことをしなくても、このようなクレイジーなタスクを次々と取り込めるという汎用性の強力さを示唆しているからです。

人間の能力を超える可能性

先ほど、物理的な能力や器用さにおいて人間を超える能力（スーパーヒューマン）について言及されていましたが、私たちがコントロールできる範囲や物理的な制約を超えるという意味で、物理的能力に関して人間の能力を上回る可能性がある他の次元にはどのようなものがありますか？あなたが最も興味を持っている他のトレンドラインは何ですか？

面白い例があります。ロボットに電源ケーブルやイーサネットケーブルのようなプラグを差し込ませるタスクに取り組んでいたときのことです。

人間がこれを行う場合、当然たくさん練習すれば非常に上手くなりますが、あまり練習せずにやろうとすると、頻繁に手が止まりますよね。物理的な問題というよりも、状況を認知的に処理しなければならないからです。位置が合っているかなどを確認する必要があるので、非常にゆっくりと行います。ロボットを遠隔操作している場合は、間接的なレイヤーがあるためさらに遅くなります。

しかし、後からそのデータに入り込んで、それらすべての「停止（ポーズ）」の瞬間を見つけ出し、取り除くことは非常に簡単であることがわかりました。さらにスピードアップさせることもできます。つまり、人間が「成功とはどういうことか」をデモンストレーションし、その後ロボットがそのタスクを練習して、人間と同じように成功するのですが、より速く、より効率的に行うシステムを作ることができるのです。

これを行う最も汎用的な方法は強化学習ですが、単にスピードだけを求めるならシンプルなトリックを使うこともできます。これは、システムが人間よりもはるかにうまくタスクを実行できる一例です。

人間がゆっくり作業するのは、何が起きているかを処理しなければならないという処理のボトルネックがあるからですが、「処理をスピードアップさせる」こと自体は、コンピュータサイエンスにおいて人々が非常によく理解している領域なのです。

身体性への適応と形態のイノベーション

マイケル・クライトンの素晴らしい小説『プレイ』に、形状要因（フォームファクター）に関する問いかけが出てきます。与えられた問題に対して、タスクを実行するための最適または最適な形状のセットが存在する可能性があり、問題を分析した後、その適切な形状へと変形したりトランスフォームしたりできるものを用意すべきだというアイデアです。

データやモデルの側面ではなく、ハードウェアの形状に関するイノベーションについてはどのように考えていますか？

これまでロボット工学全般において、形状要因でイノベーションを起こす能力は、AIの課題のせいで非常に制限されてきました。

従来のAIパイプライン、例えばモーションプランニングなどを行っている場合、ガレージに行って新しいロボットを寄せ集めて作ることは困難です。なぜなら、それを行うにはシステムのダイナミクスを特徴づけ、システム同定（Sys ID）を行い、これらすべての要素を構築しなければならないからです。

もしガレージでロボットを組み立て、ロボットの基盤モデルをロードして「あれをやれ」と指示するだけで済むならどうでしょう。完璧ではないかもしれませんし、完成させるにはもっとデータが必要かもしれませんが、少なくともその機械を動かすことはできます。

私は、これが誰もがこの分野の実験に参加するための非常に強力なエンジンになると思います。

私は自分が完璧なロボットを設計するのに適した人間だとは思っていません。ここにはもちろん、それをもっと上手にできる人たちがいます。しかし一般的に、パーソナルコンピュータの時と同じように、人々が実験し、遊び心を持って取り組めるようにすること、そしてそのための参入障壁を劇的に下げることが鍵になると思います。

そうなれば、はるかに多くの創造性を目にすることになるでしょう。人々が初めてコンピュータを使い始めた頃、形状要因は限られていました。しかし今では、電話の中にも、車の中にも、冷蔵庫の中にもコンピュータが組み込まれています。それらはあらゆる場所にあり、形も大きく異なります。汎用性、つまりその上にアプリケーションを構築できる優れたソフトウェア、優れた基盤こそが、それを可能にする鍵なのです。

あなたの共同創業者であるラッキーはかつて、人間にとってのPhysical Intelligence（物理的知能）の感覚を「自転車の乗り方を覚えるようなものだ」と表現していました。できなかった状態から、突然できるようになった時の「わかった！」という感覚こそが物理的知能なのだと。

実は、これには生理学的な説明があります。道具を使用するサルの研究があり、サルが自分の手がどこにあるかを認識する際、脳のどのニューロンが活性化するかを特定できるのですが、道具を使用しているときは、手の位置ではなく、ツールの先端の位置に基づいて活性化することが分かっています。

つまり、道具が体の延長になるというのは、脳が文字通りそれを行っているという、現実の生理学的な現象なのです。

それを知ることは、あなたの研究へのアプローチにどのような影響を与えていますか？

私にとってそれは、物理的知能というものは、あるレベルにおいては「身体性（エンボディメント）に依存しない（アグノスティックである）べきだ」ということを示しています。優れた基盤モデルは、手元にあるどんな身体であれ、どんな道具であれ、それを操作する方法を見つけ出すべきだということです。

問題は基本的に1つであり、別々の問題がたくさんあるわけではありません。「ヒューマノイドの問題」「車の問題」「ブルドーザーの問題」「テーブルに固定されたロボットの問題」があるわけではなく、問題は1つなのです。そしてそれを完全な汎用性レベルで解決できれば、それは本当に、本当に強力なものになります。

（スポンサーメッセージ）ビジネスが拡大するにつれて、特にコンプライアンスやセキュリティのニーズなど、すべてがより複雑になります。応急処置のようなパッチを提供するツールが多すぎるため、何かが隙間から抜け落ちてしまうのは残念ながら簡単すぎます。幸いなことに、Vantaはセキュリティ作業を簡素化・自動化し、コンプライアンスとリスクに関する単一の信頼できる情報源を提供するように設計された強力なツールです。Ramp、Cursor、SnowflakeがすべてVantaを使用しているのには理由があります。コンプライアンスとセキュリティが完全に管理されていると知ることで、彼らは素晴らしい差別化された製品の構築に集中できるのです。詳細は vanta.com/invest でご覧ください。

私は資産運用会社における技術スタックがいかに複雑であるかを身をもって知っています。そして、新しいツールやデータソースが登場するたびに、複雑さ、必要な人員、リスクが増加し、問題はさらに悪化しているように見えます。Ridgelineはより良い方法を提供します。ポートフォリオの会計、照合、レポート作成、トレーディング、コンプライアンスなどの複雑さを、規模に合わせてすべて自動化して排除する、統合されたプラットフォームです。Ridgelineは投資管理に革命をもたらし、野心的な企業がより速く成長し、よりスマートに運営し、時代の先を行くのを支援します。Ridgelineがあなたの企業に何をもたらすことができるか、ぜひご確認ください。デモの予約は ridgeline.ai でどうぞ。（スポンサーメッセージ終了）

これからのロボットと人間の協働

私たちは今、LLMが可能にしたビジネスや経済などにおける仕事やその他の変化の初期段階を目の当たりにしています。ソフトウェアエンジニアリングの分野ではすでにそれを確認していますよね。

ロボット工学がこれと同様の段階に達したとき、つまり「汎用的で有用なもの」が突如として現れたとき、世界で何が起こると思いますか？人々はこれらのものを展開するクリエイティビティに長けています。物理的知能の実現後、ごく初期の段階で、世界が最も変化し始めると予想する領域はどこでしょうか？

ええ、それは非常に興味深い質問ですね。正直なところ、本当にわからないというのが本音です。LLMがこれほど進化すると誰も正確には予測できなかったように、人々は推測することはできても、結局のところ、やはり多くの人々に様々なことを試してもらうことが鍵なのだという考えに戻ってしまいます。

LLMのアプリケーションに関して本当に素晴らしいことの一つは、それが非常にアクセスしやすいということです。誰かが本当にクールな新しいプロトタイプを作ったとして、裏ではChatGPTにプロンプトを出しているだけだったりしますが、それでも実験し、試し、何ができるかを確認できます。多くの聡明な人々が急速に反復を繰り返し、多くのものをプロトタイピングすることには、驚くべき力があります。

だからこそ、私たちPhysical Intelligenceは「エンゲージメント（関与・参加）」に非常に重きを置いています。私たちはモデルをオープンソース化しましたし、ロボットを構築している他の多くの企業とも協力したいと考えています。なぜなら、多くの人が多くのことを試すというこの効果に、大きな力があると考えているからです。

ロボット工学界における論争と研究者の役割

ロボット工学コミュニティにおける大きな論争にはどのようなものがありますか？

私は当然ながら学界の人間ですので、私にとっての論争というのは「会議で誰かと口論になること」を意味しますが（笑）。面白いことに、私が経験してきた論争の軌跡を振り返ると、初期の頃に私が人々と最も激しく議論したテーマは「ロボットAIに『学習』の居場所はあるのか」ということでした。

それがしばしば論争の的になった理由の一部は、従来のエンジニアリングのパイプラインにおいて、ロボットはソフトウェアの成果物とは全く異なって見えるからです。物理的であり、周囲のものに影響を与え、安全性の考慮があり、陥る可能性のある奇妙な状況がたくさんあります。

ロボット工学の研究コミュニティが「物理学の知識などを必ずしもプログラムに組み込む必要はない」ということを本当に理解し、内面化するまでには、非常に長い時間がかかりました。ロボットが計画を立てる際に、ロボットの内部に物理シミュレーターが必ずしも必要ではなく、実際には学習システムにすべてのことを計算させることができるのだという考えです。これは非常に長い間、非常に議論を呼ぶものでした。

現時点では、学習がロボット工学の本当に重要な部分であることについては広く受け入れられていると思います。しかし、エンドツーエンドの学習が進むべき正しい道であるということについては、まだ普遍的な同意はないと思います。

基本的には、「苦い教訓（Bitter Lesson）」が普遍的に受け入れられているわけではないということです。苦い教訓とは、機械がどう考えるべきかを人間がプログラムするのではなく、データから機械に学習させるべきだという教訓です。

ええ。これに反対する良い意見もあると思いますが、長期的には、私たちが汎用性、特に「システムが改善する能力における汎用性」を求めるのであれば、データからの学習を主体にする必要があると考えています。

その「反対する良い意見」とは具体的にどのようなものでしょうか？

私が最善を尽くしてその意見を代弁（スチールマン）するなら、「非常に複雑なオープンワールド環境において信頼性の高いものを求めるなら、私たちがすでに物理世界について知っている知識を使わない手はない。それに関する教科書は山ほどあるのだから、教科書から知っていることをそのままプラグインすればいいじゃないか」という主張になります。

「構成的汎化（Compositional Generalization）」とは何ですか？説明していただけますか？

私が説明するよりも、もっと鮮やかに伝わるかもしれない例があります。これは私の学生の一人が思いついたアイデアなのですが、彼は言語モデルに、「国際音声記号（IPA）」でサンドイッチの作り方のレシピを提供してほしいと頼みました。

国際音声記号とは、辞書で単語の発音を説明するために使われる記号です。辞書の中で個別の単語に対してしか現れない非常に特殊なものであり、IPAで書かれた自由形式の長文を目にすることはまずありません。しかし、優れた言語モデルに頼めば、IPAで段落を書き上げてくれます。

これが構成的汎化です。つまり、この特定の言語や特定のアルファベットが段落を書くために使われているのを一度も見たことがないにもかかわらず、「段落とは何か」を理解しており、それが異なるアルファベットと構成可能であることを理解しているため、問題を解決できるのです。

ロボット工学においても同じことが起こると想像できます。スキルの一連のレパートリーを学習したシステムが、それらのスキルを組み合わせて混合し、新しい問題の解決に適用するという形です。

研究開発の最前線と将来への展望

ロボットシステムが達成可能になる「最後のタスク」は何だとお考えですか？

子どものおむつを替えることは本当に、本当に難しいと思います。

もう少し詳しく教えてください。

これこそまさに、モラベックのパラドックスの典型例だと思います。人間には非常に得意なことがあります。私たちは物理的なタスクがとても得意ですし、他者と交流することも非常に得意です。それは理にかなっています。なぜなら、私たちが生きていく上でその多くを占めるものだからです。

他者との相互作用を伴う行動、特に「誰かを助けなければならない」場面、たとえば誰かがベッドから起き上がるのを手助けするようなタスクは、人々が認識している以上にはるかに困難だと思います。ですから、高齢者の介護や小さな子どもの世話などは難しく、おそらく一般に考えられている以上に困難な壁になるはずです。

しかも、そのリスク（失敗した時の代償）は非常に高いですよね。私の赤ちゃんの世話は最後にしてもらいたいものです。

リスクが高いのはそこだけではありませんが、問題は私たちが「本当はとても難しいのに、簡単だと思い込んでしまう」ことの最高到達点がそこにあるということです。

なぜなら、私たちは人々と交流し、物理的なことを行うために非常に高度に進化しているため、誰かが階段を上るのやベッドから起きるのを手助けする際に、「どうやってやるか」を注意深く考える必要がありません。感覚で分かっているからです。ですから、これこそモラベックのパラドックスの頂点だと思います。

LLMを「すべてを勉強し終えた脳」だと考え、一方でロボティクスモデルの脳を考えたとき、その脳の「暗い部分（未踏の領域）」は何でしょうか？つまり、これまでに調査・解明できていない、あるいは学習できていない領域で、重要であるにもかかわらず入り込むのが難しかった領域は何でしょうか？

人間が驚くほど得意としていることの一つに、「物理的なアナロジー（類推）を使って他の状況を理解する」という能力があります。LLMにこれができるかどうかはわかりませんが、人間はこれを日常的にも、非常に高度な問題においても多用しています。

例えば、「あの会社にはとても勢い（モメンタム）がある」という表現があります。これは物理的なアナロジーですが、その言葉の意味を私がわざわざ説明しなくても、あなたには完全に理解できるはずです。しかし、よく考えてみると、これは非常に複雑なことです。あの「モメンタム」という言葉には、多くの背景が込められています。

リチャード・ファインマンのインタビューで、素粒子について彼が用いるアナロジーの話があります。彼は「スピンという言葉を使うが、コマのように実際に回転しているわけではない」と言います。しかし、そのようなアナロジーは私たちがそれを理解するのに大いに役立ち、概念を説明するだけでなく、実際の推論につながり、その推論が実際に意味を成すのです。

私たちが物理世界との相互作用に非常に適応し、高度な物理的知能を備えているからこそ、日常会話で「あの会社には勢い（モメンタム）がある」とアナロジーを使い、また理論物理学の基礎を進展させる際にもそれを使うことができるというのは、ある意味で驚くべきことです。

LLMにそれができるかどうかは私にはわかりません。もしかしたらできるかもしれませんが、物理的な相互作用や因果構造などを「真に理解する」ことには何か特別なものがあり、人間がそこから多くの有用性を引き出しているのは明らかです。

研究者の役割についてお聞きしたいのですが、世界規模で見て、LLMのすべての進歩を実質的に担っている研究者の数がいかに少ないかというのは非常に驚くべきことです。例えばイリヤ・サツケヴァーのような人物ですね。ロボティクスの分野ではどうなのでしょうか？この軌道に真の影響を与えている人は世界に何人くらいいるのでしょうか？また、良い研究とは何かについてお聞きしたいです。

科学においてそのような質問に答えるのは難しいことが多いですね。なぜなら、特に私たちが歴史を振り返るとき、特定のマイルストーンを強調する傾向があるからです。機械学習においても同様で、「AlexNetは大きな前進だった」と言えますが、これらの進歩は「多くの人が多くのことを試した結果」として起こるのだということを覚えておくことも重要です。

失敗の中にも非常に教訓的なものがあります。先ほど、ロボットのエンドツーエンド学習をめぐる論争について少し控えめに不満をこぼしましたが、あの論争がなければロボット学習が同じように進展したかどうかはわかりません。

確かに、成功例のリストを見て「この人たちは何度もホームランを打っている」と名前を挙げることはできます。しかし現実の科学コミュニティにおいては、ホームランだけが進歩の原因ではありません。失敗や、ひいては悪いアイデアでさえ、良いアイデアへと推し進める上で非常に教訓的な役割を果たすのです。

本当に興味深いですね。先ほどあなたが挙げた「コーチングするだけで改善される」という研究の洞察の例は、非常に強力でレバレッジが高いアプローチに思えます。そこから疑問に思うのですが、優れた研究者を作る要素とは何だと学ばれましたか？

研究はエンジニアリングとは明確に異なります。なぜなら、研究において重要なのは「疑問に対する答えにたどり着くこと」であり、そのためには多くの場合、いくつかの近道をしたり、妥協したりする必要があるからです。

そして研究において最も繊細な決断の1つは、「いつ新しいことを試すか」対「いつ今試していることに固執するか」の判断です。これは非常に繊細で、見極めるのが非常に難しいです。

これを間違えると、本当に素晴らしいものを逃してしまう可能性があります。見極めを誤り、あることに十分な期間固執しなければ、すぐそこまで答えが来ていたかもしれないのに、その手前でやめてしまうかもしれません。これは最悪です。逆に、絶対に突破できない壁に向かって何年もハンマーを叩き続けるような状態で立ち往生する可能性もあります。

ですから、より多くの機会を開くために少し方向転換をしてあちこちを見るべきか、それとも解決策にたどり着きそうだから同じものを叩き続けるべきかを判断すること。これがしばしば最も重要な決定になります。一部の人たちは、これを正しく見極める本能を持っており、それは非常に大きな価値を持ちます。

あなたは素晴らしい研究者の方々と一緒に仕事をされてきましたが、彼らは人としてどのような人たちなのでしょうか？普通の人と比べて、どのように際立っている傾向がありますか？

私は、彼らは全く同じ（普通の人）だと思います。私が深く尊敬し、この分野で本当に優秀な人たちを思い浮かべてみても、一つの共通した性格特性のセットを見つけるのは非常に困難です。

唯一の共通点は、「共通点がないこと」だと言えるかもしれません。強いて言えば、効果的な科学を行うにはその対象に非常に情熱的でなければならないということくらいですが、その情熱でさえ、さまざまな場所からやってきます。

私はこれまでに、本当に信じられないほど効果的な成果を上げる人たちと働いてきましたが、彼らが純粋に「新しさ（ノベルティ）への欲求」だけに突き動かされていることもありました。彼らは自分の技術が何をするかなど気にも留めず、それが有用かどうかも気にしません。ただクールな新しいアイデアが欲しいだけなのです。

一方で、ただひたすらに特定の問題を解決したいと強く願い、実験をテストしたり、物事をコツコツ叩き続けたりと、解決に必要なことであればどんなことでも喜んで行う人たちとも働いてきました。

そして、それらすべてのタイプの人々が、非常に効果的になり得るのです。

先ほど研究とエンジニアリングの違いについてお話しされましたが、それは製造（マニュファクチャリング）についても考えさせられます。イーロン・マスクがよく「工場こそが製品である」と言うように、この方程式の最も難しい部分は、最終的にこのロボットがどのような形になるにせよ、それを何億台と製造するスケールアップの部分にあると思われます。この方程式の部分についてどのようにお考えですか？それとも現段階ではまだ遠すぎる話でしょうか？

いいえ、それは方程式の重要な部分だと思います。ただ、今私たちが「最も解決しなければならない方程式の部分」ではないとは思いますが、間違いなく一部です。

他の質問への答えから推測されたかもしれませんが、私の好む考え方は、「一番難しい部分を解決し、他の部分について多くの実験を可能にする」というものです。

確かに、ロボットを大規模に製造するのは難しいことです。しかし、後でどのようなソフトウェアが動くのかもわからず、そもそもそれが正しい種類のロボットなのかどうかも確信が持てない状態で大規模にロボットを作るのは、さらに困難です。

ですから、ロボットの基盤モデルのような汎用AIツールから得られる本当に価値のあることの一つは、他の多くの要素を先に解決し、少なくともいくつかの不確実性を排除できることです。そうすれば、実際にスケールアップする際に「これは本当に機能する」というある程度の自信を持つことができるのです。

この番組のリスナーには起業家や経営者がたくさんいます。彼らにとって非常に一般的な質問となっているのが、「伝統的な企業はLLMの使用や、継続的に改善されるこれらのモデルへの対応をどのように準備し始めるべきか」というものです。ロボティクスについて、全く同じ質問にどう答えますか？

非常に良い質問です。同時に、技術の進歩が非常に速いため、答えるのが非常に難しい質問でもあります。この質問がなぜ難しいのか、一つの例を挙げて説明させてください。

技術に関していくつかの不確実性がありますが、少し専門的になるものの、これは一つの例です。「ロボットは、デモンストレーションに大きく依存するようになるのか、それとも自律的なデータからの強化学習に大きく依存するようになるのか？」

私たちはその両方に取り組んでおり、両方とも重要であることは明らかです。しかし、この技術に対して企業がどのように準備すべきかは、「大量のデモンストレーションを作成するための遠隔操作環境と、少量の自律的な経験」が必要だと予想するか、その逆で「ごく少数のデモンストレーションと、膨大な量の自律的な経験」が必要だと予想するかによって、かなり異なってきます。

90対10なのか、10対90なのか？それは今後数年で私たちが学んでいくことですが、それによってビジネスとしての正しいアプローチは劇的に変わります。これは、技術の変化がビジネスの観点からいかにアプローチを根本的に変えるかというケーススタディです。

ビジネスの観点から考えると、自分のビジネスにおける労働力の経済性を明確にしておく、といった捉え方が正しいのでしょうか？これが労働の本質そのものをどのように変えると考えているのか興味があります。

コーディングツールが、これがどのように機能するかの非常に良いモデルになると思います。コーディングツールが登場したからといって、突然ソフトウェアエンジニアが必要なくなったわけではありませんよね。コーディングツールは、個々のソフトウェアエンジニアの生産性を向上させました。

人々がそれらのツールを使用できるようにするためには一定の作業が必要であり、適切なユースケースで有用にするための技術開発も必要です。これらは共に進化しており、今も変化を続けています（コーディングエージェントはコード補完ツールとは異なりますから）。しかし、AIツールが仕事をする人間と組み合わさることで、生産性を向上させ、同時に新たな課題を提起するという、私たちが見習うべき素晴らしいテンプレートだと思います。

ロボティクスでも実際にそれに似たことが起こると思います。「ヒューマノイドがやってきて、人々が去っていく」というようなものではなく、より現実的なモデルは、「仕事の中にはロボットができる部分もあり、ロボットと人間が協力してできる部分もある。人間がロボットの生産性を上げるために特別なことをしなければならない部分もあれば、その逆で、ロボットが何かをすることで人間の生産性が上がる部分もある」というものです。コーディングツールで見てきたような、ある種のダンスのような関係になるでしょう。

お気に入りのロボットはありますか？Physical Intelligenceが取り組んでいるものでなくても構いません。

ボストン・ダイナミクスのロボットはとても好きですね。特に新しいバージョンのAtlasです。ある意味で非常に人間らしく、またある意味で非常に人間らしくないからです。彼らは関節の可動域を広げるという興味深い決定を下しており、それによってかなりクールな動きができます。また、非常に機敏なロボットであり、素晴らしいデモを見せてくれます。私はボストン・ダイナミクスが行ってきたことすべての大きなファンです。

ボストン・ダイナミクスが非常に長い間クールなデモを行ってきたにもかかわらず、実際には顧客のために役立つことを何もしていないという事実から、何かを読み取るべきでしょうか？

ええ、それはもっともな質問です。公平に言って、多くのロボティクス企業に対しても同様の疑問が当てはまると思います。

私が一般的な言葉で言えるのは、「有用で生産的なものに向けた道筋にある課題を説明するために機能するデモンストレーション」には、多くの価値があるということです。もちろん、有用で生産的なものへの道筋に乗っていなくてもデモを行うことは可能です。

しかし、デモには価値があります。使命（ミッション）に貢献するために正しく使用されたデモは、人々に「何を期待すべきか」を視覚的に提供し、同時に課題を提示します。ただし、その課題を設定する上で正直でなければなりません。

ビジネスとしての最終形態についてはどの程度考えていますか？現在に至るまで、ルンバはコンシューマー向け分野で史上最も売れたロボットであり、少し意外な気もします。もちろん私たちは何らかのカンブリア爆発の縁にいるのかもしれませんが、これが生み出すかもしれない「製品の形」や「データへのブートストラップの方法」について考えるのに、どれくらいのサイクルを費やしていますか？

確かにそのことについては時間を割いて考えています。ただ、現時点で非常に具体的な答えに落とし込むのは非常に難しいことです。しかし、可能性の空間（スペース・オブ・ポッシビリティ）について考えるのは悪いことではありません。

私たちがモデルを開発するとき、異なるタスクで実験するとき、ロボットオリンピックのようなデモを行うときの多くは、裏で「これで本物の（現実の）ことをしようとしたらどうなるか？」そして「何が間違った方向に行くか？」をプロトタイピングしているのです。もちろん「現実」の度合いは様々ですが。

ですから、これは私たちがよく考えるテーマです。まだ具体的な答えに近いものがあるわけではありませんが、可能性の空間は存在しており、2026年に私たちが計画していることの多くも、その空間でさまざまなことを実験することです。

真に汎用的な技術（これが実現すれば間違いなく巨大なものになります）の歴史を研究すると、それを可能にする「星座のように連なった周辺技術の進展」が周囲で起こっているのを発見することがよくあります。明らかに、LLMはあなたがしていることの直接的な補完要素です。他に、あなたの活動を助けているものの、直接的には異なる驚くべき技術分野やトレンドはありますか？

興味深いことの一つは、ロボットのハードウェアが過去数年間で劇的に手頃な価格になったことです。

私が約10年前にロボティクスの分野で働き始めたとき、PR2というロボットを使っていました。確か当時の価格は約40万ドルでした。その後、カリフォルニア大学バークレー校で自分の研究室を立ち上げたときは、3万ドル程度のロボットを使用しました。そして今、ここにあるロボットの各アームの価格は、その10分の1程度であり、さらに安くなる可能性があると考えています。

これは「1つの単一のテクノロジー」によるものではありません。ハードウェアとソフトウェアの両方が関与しています。ここにあるような低コストのアームは、高い精度に依存する従来の制御方法では使い物にならなかったため、これまでは産業環境では役に立たないものでした。

ですから、これらの価格帯を押し下げてきたのは、広範な異なる進歩の連なり、おっしゃる通りの「星座」なのです。そしてそれが、今日において汎用ロボティクスを検討することをはるかに現実的なものにしていると思います。

この分野で起こっている主要なマイルストーンをかなり技術的に追いたいと思っている人にとって、そうした情報はどこに現れるのでしょうか？

その多くは研究論文に現れます。残念ながら、研究論文は非常にアクセスしやすい情報源とは言えません。なぜなら、「何がシグナルで、それが本当に何を意味しているのか」を分類し把握するには少し注意が必要だからです。研究結果は、過去のすべての研究結果からの出発点をすでに理解している読者を対象としているからです。

しかし、それが大きな情報源です。ロボティクス、ひいてはテクノロジー全般において、ソーシャルメディアに投稿されるデモや動画のような一般向けのアートファクトは、真の根本的な状態を感じ取るにはあまり適していないことが多いです。それらは機能の境界線におけるデモンストレーションのようなものとして意図されており、「そのデモが本当に何を意味しているのか」を地に足をつけて理解するには、深く掘り下げる必要があるからです。

ですから、おそらく研究論文を読むのが一番の近道です。時により厄介なことに、実際に個々の人々に話を聞きに行き、内部のストーリーが本当はどうなっているのかを探り出さなければならないこともあります。それは理想的な状況ではないかもしれませんが、それが科学の仕組みというものです。

あなたのミッションにおける未来を見据えたとき、最も不確実だと感じることは何ですか？

やはり「タイムライン（時間軸）」が不確実だと思います。

私自身は、スタートした時と比べても、タイムラインに関してより楽観的になっています。しかし、それが不確実なのは技術の性質ゆえです。

これはブートストラップの課題がある分野です。「特定の有用性のレベル」に到達し、ロボットが展開され、有用なタスクを実行できるようになり、オープンワールド環境から大規模にデータを収集し始められるようになること。それが活性化エネルギー（壁）を越えるような突然のイベントであるため、そのタイミングについては多くの不確実性があると思います。

そしてその不確実性は、展開される技術の種類によってタイムラインが異なって見えるという事実によってさらに増幅されます。先ほど挙げた例のように、データ収集が遠隔操作を通じて行われるべきなのか、自律システムで行われるべきなのか、あるいはその中間の共有自律（シェアード・オートノミー）なのか、それともコーチングのようなものなのか。これらすべてが、展開の仕組みや実世界でのデータ収集の仕組みを変えてしまいます。そのため、時間軸についてはかなりの不確実性があると考えています。

あなたは今、非常に興味深い立場にいますね。研究の中心にいて、様々な種類の人があなたに話しかけ、質問をしてきます。「人々がこのことについて聞いてこないのが意外だ」と思う質問は何ですか？人々が本当にあなたに聞くべきことは何でしょうか？

先ほどあなたが質問された、「企業はどのように準備すべきか」という質問に関連すると思います。その派生形として、「もし私が〇〇のために自律型ロボットを使い始めたい場合、何をセットアップし始めるべきですか？」といった質問があるでしょう。

ええ。

「遠隔操作をセットアップすべきか？タスクを少し変更してロボットがアクセスしやすくすべきか？新しいハードウェアを設計すべきか？もしかしたら、あなたのソフトウェアをプラグインできるように新しいハードウェアを設計した方がいいのだろうか？」などです。

人々はこれに関して多くの仮定を置いています。たとえば「機械学習にはデータが必要だから、データ収集できるものを何か考えよう」というような仮定です。しかし、それは必ずしも最善の仮定とは限りません。なぜなら「適切な種類のデータ」が必要だからです。人が何かをしている動画を取得するのは簡単かもしれませんが、それが適切なデータであるとは限りません。それはドメインに依存するかもしれませんし、成功する技術に対するあなたのテーゼ（仮説）にも依存するかもしれません。

ですから、人々はそれについて多くの仮定を置いていると思います。彼らが私に尋ねたとしても、私が必ずしもより良い答えを持っているわけではありませんが、そこには可能性の大きな空間が存在しているということです。

長期的で不確実なタイムラインについてお話ししましたが、現在あなたが解決しようとしている、目に見えるごく短期的な「次の課題」は何ですか？

あまり多くを明かさずに言えることとしては、私たちが現在大きな焦点を当てているのは、この「中間レベルの推論」の部分をより深く理解することです。

なぜなら、私たちは低レベルの物理的動作を獲得する方法についてはかなり良い感触を得ているからです。しかし、それらの低レベルの物理的動作を「汎化」させるためには、多くの常識的知識を活用する必要があり、その「知識の表現方法」が非常に重要になる可能性があります。

LLMは特定の種類の表現を非常に便利にします。テキストを別のテキストに変換するのを非常に便利にしてくれます。しかし、それが必ずしも身体化された（エンボディード）システムが実行すべきことにとって最適な表現とは限りません。空間的に考える必要がある場合もあれば、意味論的に考える必要がある場合や、その他の表現が必要な場合もあります。

その内部の思考プロセスを正確にどのように構造化するかを解明することは非常に重要な課題であり、その答えはLLMの世界とは異なるものになるかもしれません。それが今私たちが取り組んでいる具体的な課題です。

ご自身の立ち位置についてどうお考えですか？もし世界で最も情報通で活動的なロボット研究者100人を一つの部屋に集め、「システムが無制限の能力を持つようになることにどれくらい確信があるか」「それはいつ起こるか」について投票してもらったとしたら、あなたはその分布のどこに位置すると思いますか？

「確立されたロボット研究者」の中では楽観的な端にいると思います。しかし、「ロボット工学の起業家」と比較すると悲観的な端にいるでしょうね。

それは面白いですね。起業家については確実に理解できます。彼らは生まれつき楽観的ですから。では、なぜあなたは研究者コミュニティの中では楽観的な側にいるのですか？

ロボット工学には非常に長い歴史がありますが、「成功と呼べるものはごくわずか」でした。あえてこう言わせてください。特にロボットAIに関してはそうです。

ですから正直に言えば、現在外で有用な仕事をしているロボットのほとんどは、いまだに1980年代の最先端技術で動いています。それはロボット工学の問題が難しいからです。私たちのせいではないかもしれませんが、とにかく難しい問題なのです。

そのため、「よし、この部分の問題は大きく前進したかもしれないが、まだ他にもたくさんの問題が残っている」と慎重になることには十分な理由があると思います。

私がこれに関して楽観的である理由の一部は、過去に自分にとって困難だったものが何であるかを感じ取っており、それらの多くに対処するために組み込むことができる「パズルのピース」がたくさん見えているからです。

しかし、私の共同創業者であるカロルがよく言うように、「山に登ってみて初めて、その次にもう一つの山があるかどうかが分かる」のです。そしてロボット工学においては、これまで「登ってみたらまた山があった」という経験が非常に多かったのです。

忍耐力が求められる中で、あなたが最もインスピレーションを受けている人や事柄は何ですか？

私はボストン・ダイナミクスにかなりインスピレーションを受けています。技術的な側面については様々な議論があるかもしれませんが、人々が「不可能だ」と思っていたことを繰り返し見せることには、たとえそこに多くの但し書きや仮定が含まれていたとしても、多くの価値があると思います。

ロボット工学において、デモについて私たちが何を言おうとも、あの映像を見たことで「何が可能か」についての考えを改めた人が多くいるというのは、非常に公平な評価だと思います。

ですから、それがまず一つです。また、私は「実験のための雰囲気を作り出す組織」にもインスピレーションを受けます。いくつかの研究機関はこれを非常にうまくやってきました。

例えばOpenAIは歴史的に見てこれを見事に実践しており、個々の研究者が様々なことを実験し、それを最後までやり遂げる権限を与えられる雰囲気を作り出してきました。ChatGPTも、しばらくの間はジョン・シュルマンの個人的な「ペットプロジェクト」のようなものでした。多くのスプレッドシートや円グラフを用いた組織的な企業戦略として始まったわけではなかったのです。ですから、人々のペットプロジェクトが世界を変える成功へと発展することを支援する組織には、非常に心を動かされるものがあります。

そしてもちろん、私や共同創業者たちがここPhysical Intelligenceで抱いている熱望の一つは、それを私たちの能力の及ぶ限り提供することです。そしてそれは難しいことです。そのような能力を持つ組織を維持するのは非常に困難です。

かつてのGoogleには、「1日（20%ルールのような）は自分の好きなことができる」という雰囲気がありましたよね。そのような精神ですか？

私がGoogleで働き始めたとき、自分が持つことができる「レバレッジ（影響力・裁量）」の大きさに本当にショックを受けました。

2015年に多くの同僚と一緒に行ったプロジェクトの一つに、社内で「アームファーム（ロボットアームの農場）」と呼ばれていたものがあります。私たちは数十台のロボットを研究室に並べ、データを収集させました。

あれは非常にボトムアップな取り組みでした。誰かから「誰も使っていないロボットが倉庫に大量にある」と聞いた私は、ジェフ・ディーンとヴァンホウクに「それを研究室に置いてもいいか」と尋ねました。私は入社したばかりのレベル4の研究員だったので、彼らが私を真剣に相手にしてくれるとは思っていませんでした。しかしジェフは「ああ、やろう。何が必要だ？」と言ってくれたのです。

その時、「すごい、自分の人生でこれほどの裁量を与えられるとは考えたこともなかった」と感じたのを覚えています。当時の私は若かったですし、あれは非常に特別な経験でした。人々が創造性を解き放ち、あのような自律性（エージェンシー）を持てる場所に到達できれば、それは本当に素晴らしい場所になると思います。

私の友人ジェシーがいつも尋ねる素晴らしい質問があるのですが、「あなたが関与していない企業の中で、最も成功してほしいと願っている企業はどこですか、またその理由は何ですか？」というものです。人々はよく、より速く空を飛びたいという理由で「Boom（超音速旅客機開発会社）」と答えたりしていましたが、最近この質問をすると、多くの人が「Pi（Inflection AIのAIアシスタント）」と答えます。もし成功すれば、世界規模で途方もないインパクトをもたらすからです。

今日、あなたがどのように問題について考え、どのようにアプローチしているのか、その詳細を聞くことができて本当に楽しかったです。このインタビューを行うとき、私は最後に皆さんへ同じ質問をしています。

「これまで誰かがあなたにしてくれたことで、最も親切だったことは何ですか？」

それは答えるのが難しい質問ですね。自分のキャリアの中で、「引き上げてもらった」と感じた瞬間は本当にたくさんあるからです。私はその場では十分に感謝できず、後になってから振り返って気づくような性格なのだと思います。

一つの答えに絞ることはできませんが、キャリアの中で際立っている瞬間が3つほどあります。一つはすでにお話しした「アームファーム」の件です。私と同僚に賭けてくれたジェフとヴァンホウクには特に感謝しています。

他にもいくつかあります。私がバークレー校でピーター・アビールのポスドクを始めたとき、私にはロボット工学の経験がゼロでした。それまではバーチャルキャラクターのアニメーションやコンピュータグラフィックスの研究をしていたのですから。あれは私の実際の実績よりも、私の「可能性」に賭けてくれたのだと感じています。

さらに昔、大学時代にNvidiaでインターンシップを得た時のこともそうです。まだ大学2年生だった私に素晴らしい経験をさせてくれました。当時の採用担当マネージャーも私に賭けてくれたのだと思います。

キャリアにおいて、こうしたことは本当に重要な意味を持ちます。当時はもっと感謝すべきだったかもしれませんが、振り返ってみると大きな違いを生んだ出来事であり、私もまた他の人々のキャリアにおいて、そのような違いを生み出せる存在になれればと願っています。

あなたや共同創業者の方々から、今日本当に多くのことを学ばせていただきました。お時間をいただき、本当にありがとうございました。

ありがとうございました。

ビジネスが成長するにつれて、Vantaはあなたと共にスケールアップし、コンプライアンスを自動化し、セキュリティとリスクに関する単一の信頼できる情報源を提供します。詳細は vanta.com/invest でご覧ください。

Ridgelineは、単なるソフトウェアベンダーではなく、真のパートナーとして資産運用テクノロジーを再定義しています。彼らは企業の5倍の成長とスケールアップを支援し、より速い成長、よりスマートな運用、そして競争優位性を可能にしてきました。あなたの企業に何をもたらすことができるか、ridgelineapps.com をご覧ください。

OpenAI、Cursor、Anthropic、Perplexity、Vercelには共通点があります。それらはすべてWorkOSを使用しているということです。その理由は以下の通りです。企業規模での導入を実現するには、SSO、SCIM、RBAC、監査ログなどのコア機能を提供する必要があります。そこでWorkOSの出番です。これらのミッションクリティカルな機能を自社で構築するために何ヶ月も費やす代わりに、WorkOSのAPIを使用するだけで、初日からそれらすべてを利用できるようになります。だからこそ、皆さんがよく耳にするトップAIチームの多くがすでにWorkOSを利用しているのです。WorkOSは、企業向け対応を最速で完了させ、最も重要なプロダクト開発に集中し続けるための最良の手段です。利用を開始するには、workos.com にアクセスしてください。

すべての投資家はRogoについて知っておくべきです。なぜならROGO AIのプラットフォームは単なる一般的なチャットボットではないからです。それはウォール街の銀行家や投資家が実際にどのように働いているかをサポートするために設計されました。ソーシング、デューデリジェンス、モデリングから、分析結果を成果物に変換するまでのプロセスにおいてです。私にとって、Rogoを際立たせる3つの重要な要素があります。第一に、システムに直接接続するため、実際のデータを使用して作業できること。第二に、取引や投資において実際に仕事がどのように進むのか、あなたのワークフローを理解していること。そして第三に、エンドツーエンドで稼働し、トップクラスの人材が作成するのと同じような、監査可能なスプレッドシート、投資メモ、デューデリジェンス資料、スライドデッキなどの実用的な成果物を生成することです。これらはすべて、ROGOが金融専門家によって金融専門家のために構築されているという事実から来ており、すでに世界で最も厳しい目を持ついくつかの金融機関で採用されています。詳細については、rogo.ai/invest をご覧ください。