フィジカルAI:ロボティクスの新時代

ロボット
この記事は約30分で読めます。

本動画は、Google DeepMindのロボティクス責任者カニシュカ・ラオと、Boston Dynamicsのロボティクス挙動責任者アルベルト・ロドリゲスを招いたパネルディスカッションである。司会のジャクリン・ダラスが進行役を務め、フィジカルAIとロボティクスの最前線について語り合う。汎用AIの急速な進歩がいかに物理世界へと波及し、ロボットの学習方法を変えつつあるのか、VLA(視覚・言語・行動)モデルや世界モデルといった最新技術、そして両社の提携の意義が議論される。さらに、ロボットにとって最大の難関である器用さ(dexterity)の問題、触覚センシングの課題、産業現場での実用化に向けた展望、そして今後10年のビジョンまでが、研究現場の生々しい知見とともに率直に語られている。

Physical AI: the new era of robotics
Join scientific leaders from Google DeepMind and Boston Dynamics as they unpack the seismic leap in embodied AI. This se...

ロボティクスの新時代と汎用AIの波

ここに来られて本当にうれしいです。今日のセッションはロボティクスの未来についてで、お二人の天才をお迎えしています。Google DeepMindでロボティクスの責任者を務めるカニシュカ・ラオさんと、Boston Dynamicsでロボティクスの挙動を担当するアルベルト・ロドリゲスさんです。ご一緒できてとても光栄です。

こちらこそ、お招きいただきありがとうございます。

ようこそステージへ。まずはこの瞬間がどういうものなのか、土台を整えるところから始めたいと思います。私は子どもの頃からずっとロボットが大好きで育ってきました。でも、2026年というのは、その多くが実際に現実になりつつある年だと感じています。今年は何が違うのか、最近どんなブレークスルーがあって、私たちをこの指数関数的な成長の軌道に乗せたのか、教えていただけますか。

ええ、いま汎用AIの分野で本当にたくさんのブレークスルーが起きていると思います。ほんのここ数日でも、デジタル世界における汎用AIの進歩の速さを目の当たりにしてきました。そして、こうしたブレークスルーがすべて物理世界へと流れ込んできていて、特に私たちのロボティクスのやり方に大きな影響を与えているんです。考えてみてください。ロボットが私たち人間の役に立つためには、人間の世界を理解しなければなりません。そしてその理解の多くは、大規模なフロンティアのマルチモーダルモデルから来ているのです。

数年前、私たちはこうした大規模な視覚言語モデルを取り上げて、そこに行動という第三のモードを加えることでロボティクス向けに適応させました。これはいわばデジタルのトークンではなく、物理的なトークンですね。その結果を見たときは本当に衝撃的でした。突然、視覚・言語・行動を扱うモデルができあがって、ロボットに話しかけられるようになったんです。何かをやってほしいと頼むと、ロボティクスにおける理解がそっくりそのまま、いわばタダで手に入る。私はよく覚えているのですが、ロボットの前にいくつものおもちゃを並べて、絶滅した動物を取ってみてとロボットに頼んだんです。するとロボットは恐竜に手を伸ばして、恐竜のおもちゃを取り上げました。あれは本当にハッとさせられる瞬間でした。だってロボットは学習データの中でこれを一度も見ていなかったんですから。すべては、デジタルのAIブレークスルーから来た理解だったわけです。だからロボティクスは、まさにこの汎用AIの知能という波に乗っているのだと思います。ロボティクスの分野でも、いま革命の真っただ中にいるのだと思います。

Boston DynamicsとGoogle DeepMindの提携

それから、いま興味深い局面でもあって、お二人は提携されていますよね。アルベルトさん、その提携について、そしていま取り組んでいることを少し教えていただけますか。Boston Dynamicsといえば、まさにロボティクスの会社ですよね。10年前のロボット犬にしても、多くの人が皆さんのロボットの動画を見たことがあると思います。いま何に取り組んでいて、それがどう変わってきたのか、そして提携はどんな形なのでしょうか。

ええ、正直に言いますね。実はこの提携についての質問が来るとあらかじめ伝えられていたので、少し準備してきたんです。それで、ステージ上でどんな問題に直面するだろうと考えたら、明らかにそれは椅子だなと思いまして。そこで、子どもがどうやって座ることを学ぶのかを少し読んでみました。あなたにも心当たりがあるかもしれません。確か2歳のお子さんがいらっしゃいますよね。

ええ、2歳の子がいます。

そうですよね。読んでみると、子どもが座ることを学ぶには明らかに二つの段階があるんです。まず第一段階が、生後6か月から9か月くらいに起きるもので、これはバランスという概念を学ぶ時期です。いろいろな場所に座って、頭をまっすぐ立てたまま上体を保ってバランスを取る方法を覚える。前に倒れたり後ろに倒れたりせず、たとえば椅子を後ろに動かしてしまったりせずに立ち上がる、その方法を学ぶんです。

そして第二段階は、1歳半に近づいたころに起きます。このとき子どもは、椅子とは何か、座れる場所とはどこか、座るということのアフォーダンス(その物が許す行為)という概念を学びます。これが面白いんですが、子どもがおもちゃの上だとか床に置かれた上着の上だとか、変な場所にただ座ってみる時期が数週間ほど続くことがあるんです。それは、座るとはどういうことか、実際にどこに座るのが理にかなっているのかを理解するためなんですね。座るという行為には方向性があるという考え方もそうです。座るときには特定の方向を向くことになっていて、後ろ向きには座らない。だから椅子が後ろ向きになっていたら、私はおそらく椅子を回して、あなたの方を向くようにするでしょう。

この二つの考え方は、私たちがロボティクスで汎化を構築している二つの主要な方法に対応しています。一つは身体性知能、つまり私たちが作っているロボットが、世界に対して力を加えるとはどういうことか、その力を加えるために自分の体をどう使うのかを理解する必要があるという考え方です。そしてもう一つが、推論、いわば常識的な汎化という考え方です。ロボットは、たとえ以前に見たことがないものであっても、世界のあらゆるものとやり取りできなければなりません。あなただってその出っ張りの上にでもテーブルの上にでも座れるわけで、バランスの取り方さえ分かっていれば問題ないわけです。

ここで面白い点が二つあります。一つは、最初のものを学ばずに二つ目のものを学ぶことはできないということ。心理学者たちもこれを広く確認してきました。そしてもう一つは、私たちがまさに同じモデルでロボットを作っているということです。私たちは、互いに互換性を持つ二つの異なる脳を作っているんです。この提携の面白いところの一つは、組み合わせとして、優れたハードウェアを提供できるだけでなく、この二つを一つにまとめる能力も持ったチームになっているという点だと思います。物理労働のための汎用ロボットを作るための、いわば最強チームというわけです。

なぜヒューマノイドなのか

歴史的に見て、皆さんはロボティクスのさまざまな形態に取り組んできましたよね。でも今日は特にAtlasについて話していますね。なぜヒューマノイドロボットが理にかなっているのか教えていただけますか。ロボットには本当にいろいろな形態が考えられると思うんです。どれを使うかはどうやって選ぶのでしょうか。私たちは、工場の中の単なるアームのような非常に専門特化したロボットの世界から、もっと汎用的なロボットへと移りつつあるように感じます。

ええ、実は私たちはちょうど、Boston Dynamicsで新世代のAtlasロボット、つまりヒューマノイドロボットを発表したばかりです。きっとこのあとすぐ、その映像をご覧いただけると思います。でもその前に、ご質問にお答えすると、なぜヒューマノイドなのか、なぜヒューマノイドが理にかなっているのか、ですよね。一方では、これはカニシュカが補足してくれるかもしれませんが、汎化と常識を生み出す手段としてのデータ収集をスケールアップするという約束は、人間から学べるときに最もうまく機能するんです。それが、こうしたモデルを支えるデータ生成をスケールアップする最もシンプルな道筋なんですね。

でもハードウェアの観点からも、実はヒューマノイドという形態は理にかなっていることが分かってきました。アームが二本あるのは、一本だけよりはるかに優れています。荷重をより効率的にバランスできますし、一本のアームでは難しいような形で物を持ち替えることもできるからです。脚が二本あると、人間が行けるほぼあらゆる場所に行けることが分かっています。段差を上れるからというだけでなく、自分の形態を変えられるからでもあります。必要な方向に細くなることもできれば、力を受け止めたい方向に対しては頑丈になることもできる。さらに足の位置を変えられることで、地面との摩擦も変えられるので、車輪を使った場合よりも効率的に、速く加速したり速く減速したりできるんです。だから、理にかなっているわけです。

ええ、ロボティクスでは私たちはフィジカルAGI(物理的な汎用人工知能)について語りますが、AGIというのは私たち人間ができることを基準にして定義していると思います。ですからフィジカルAGIについては、ロボットが私にできること、あるいは平均的な人間にできることなら何でもできるようになってほしいと考えています。その理由だけでも、ヒューマノイドに取り組むこと、少なくともヒューマノイドの研究をすることには正当性があると思います。なぜなら最終的には、AGIがすべてのことをできるかどうかの試金石になるからです。そしてヒューマノイドという形態は、それを表現するのに最適な場なんです。

なるほど、納得です。では映像を見てみましょう。

ええ、映像を見ましょう。

これが新世代のAtlasですね。

そうです、これが新世代のAtlasです。ここでは、非常にフィジカルなタスクをこなしている様子が見えます。冷蔵庫を持ち上げて、そこにかっこよく座っている開発者の一人のところまで運んでいます。ソーダを持ってきてと頼んだだけなんです。ソーダと冷蔵庫の違いを理解させるために推論モデルが必要なんでしょうね。

でも、このロボットについて、そして私たちにとっても提携にとっても非常に重要な点がいくつかあります。このロボットは、Boston Dynamicsのロボットを特徴づける身体性と俊敏さを保ちながら、特に量産を念頭に設計されています。だから、大規模なデータ収集と大規模な展開を可能にするために必要な信頼性を実現できるだけの、設計上のシンプルさを備えているんです。この二つを同じハードウェアの中で組み合わせられたことを、私たちは本当にうれしく思っています。

ロボットの学習方法──シミュレーションとテレオペレーション

データ収集について、そしてどうやってロボットを訓練するのかについてお話しできますか。というのも、いま私たちがいるこのAIの瞬間について考えると、トランスフォーマーのブレークスルーが、爆発的に膨大な新しい情報とより優れたAIモデルをもたらしました。ロボティクスでも同じようなブレークスルーを経験してきたように感じます。歴史的には、活動を何度も何度も繰り返させるという、いわば力ずくのやり方で訓練していました。でも今では、シミュレーションでの訓練という全く新しいレベルの訓練があります。それでもまだテレオペレーションも残っています。ロボットやモデルを訓練するさまざまな方法を、分解して説明していただけますか。

ええ、いまロボティクスには、ロボットを訓練する方法がだいたい二つあります。シミュレーションできるものは、シミュレーションの中で学習しやすいんです。たとえばロボットの体そのものは、ハードウェアを自分たちで作っている、つまりBoston Dynamicsがハードウェアを作っているので、それに対して非常に優れたシミュレーターを構築できます。Boston Dynamicsはこれを行うことにかけては最先端です。ですからタスクをシミュレーションできれば、それを訓練できると思います。同じ検証可能な報酬のループがあるので、強化学習ができて、シミュレーションの中で本当に良い方策を訓練できる。そしてそれを現実世界に転移できるんです。これはうまく機能します。

それがあの冷蔵庫の――

そのとおりです。歩行も、走行も、全身の動きも、ダンスも、こうしたものの多くは本当に優れたシミュレーションと、シミュレーション内でのこの強化学習ループの構築によって実現されています。

そしてもう一つの学習のバケツがあって、これはおそらくより難しい方の学習で、こちらは時間がかかるかもしれません。これは器用さのバケツです。ここではタスクをシミュレーションできません。なぜならロボットに世界のあらゆる物とやり取りしてほしいからです。世界には本当にたくさんの異なる物があって、それを操作する方法もさまざまで、そのすべてをシミュレーションするのは難しいんです。だから操作(マニピュレーション)の側では、最新の進歩の多くを生み出してきたのは、こうした大規模な基盤モデルを活用し、そこに現実世界のデータを織り込むことでした。さきほどVLAについて話しましたよね。基本的にやろうとしているのは、現実世界のデータでロボットを訓練することで、テレオペレーションを通じて集めた物理的なトークンを、視覚と言語のトークンと交互に織り込むんです。これが器用さをもう少し汎化させる一つの方法です。でもそのバケツは、ほとんど現実世界のデータ収集に頼っています。

そのテレオペレーションとは何でしょうか。実際にどう機能するんですか。テレオペレーションとは何ですか。

テレオペレーションとは、要するに、ロボットが物理世界について学ぶやり方は、私たち人間とまったく同じなんです。それは自分自身の身体的な経験を通じてです。ロボットに動画を見せて、それで学習するわけではありません。たぶん1年ほどすればそこにたどり着くでしょう。でも少なくとも今日のところは、ロボットがどう動くのかを理解することが本当に重要です。ロボットは、今この指で突いたら世界はどう反応するのか、ということを理解する必要があります。だからテレオペレーションというのは、データを収集するとき、私たちがロボットを操作して世界の中で動かし、タスクをこなさせることです。そうすることで、相互作用を通じて物理の知識を構築していくんです。人間がロボットを操作して、ロボットがタスクをこなす。そしてこのテレオペレーションのデータを通じて、ロボットは物理とタスクを学びます。これが今日における操作の最先端のやり方なんです。

付け加えると、ロボットを操作するパイロットの身体性が、ロボットの身体に近ければ近いほど、生成できるデータも良くなります。実際には、私たちはたいていパイロットにVRヘッドセットを装着してもらいます。そうすることで、彼らはロボットの目を通して実際に見ることができ、ロボットがそのまったく同じタスクをこなそうとするときに持っていないはずの情報を使ってしまわないようにできるんです。だから、ロボットが観測できることが、パイロット、つまり実演者が生成しているものと、理想的には一対一で再現されるようにしているわけです。

これにはどんな段階があるのでしょうか。ロボットを本当に現実世界に出すためには、もっとさまざまな種類の訓練データが必要なのでしょうか。それとも視覚的な訓練データで十分で、ただその量がもっと必要なだけなのでしょうか。

テレオペレーションでまだもっとやれることがあると思います。というのも、かなりの汎化を見てきましたが、まだあの基本的なレシピは見つかっていないんです。繰り返しになりますが、視覚・言語・行動のモデルを考えると、行動トークンよりも視覚と言語のトークンのほうがはるかに多い。だから今のロボティクスの戦略は、こうしたより大きなものの中にある知能をどう活用して、ロボティクスを加速させるか、なんです。

ちょうど昨年、私たちはGemini roboticsモデルを発表しました。そこで示したブレークスルーの一つが、物理世界に思考(thinking)を導入できるということでした。考え方としては、ふつうデジタル世界で思考するときは、ほとんどがどんなコードを書くか、あるいはどんなテキストを出力するかについてのものです。でもこのモデルでは、物理的な行動について思考させたんです。たとえば何かをつかもうとしているなら、いま手を閉じるべきだろうか、それで物をつかめるだろうか、それとももっと進んでから手を閉じるべきだろうか、といった具合です。この思考を物理的な行動トークンと交互に織り込むことで、行動をもう少し汎用的にしようとしているんです。つまり、データに対してより大きな効果を引き出しているわけです。これについては洗濯物の仕分けの動画があったと思います。ご覧いただけますか。

ええ、見てみましょう。

いまでは、ロボットに一連のタスクをまるごとつなげるよう頼めるようになっていて、しかも完全にエンドツーエンドなんです。思考と行動が交互に織り込まれている。実際に動いているのを目の前で見られるのは本当にすごいことです。ここで白い布をどう扱うか見てみましょう。まだ手を伸ばそうとして――そう、ここなんです。布を取れるように黒い箱を少し動かそう、と言ったんですね。これは本当にすごい。私たちはこういう明示的なことをやるように訓練したわけではないんです。こうした思考が推論の最中に勝手に立ち現れてくる。これを見られるのは本当にすごいことです。しかも非常に反応が良い。今ここで状況を変えてみることもできます。ごめんね、アポロ。すると、私がそうしたことをロボットは分かっていて、それに反応するんです。

これがロボティクスにおける汎化が意味するものだと思います。ロボットをかなり本能的に、繰り返しの作業をするように訓練することはできます。でも、私たち人間がこういったことすべてに長けているのは、新しい状況に直面したときに、自分なりに考えて、その新しいことを解決できるからなんです。これは、このセットアップが学習データになかったのに、ロボットがその問題を考え抜いて切り抜けられた一例でした。

本物のブレークスルーをどう見分けるか

ええ、ああいう動画を見ると、これは並外れていると思います。ロボットがリアルタイムでやっていて、大きなブレークスルーだと感じます。それで、この会場にいる多くの人が経験してきたであろう、もっと大きな問いにつながります。Twitterで何百体ものロボットが同期して踊っているのを見たりしますよね。でも、ああいう動画や、ロボットがバナナを拾い上げる動画のほうが、実際にはより印象的なんです。ネット上のロボットの動画を見るとき、何が本物のブレークスルーで、何があらかじめプログラムされたもの、印象的だけれどそれほどでもないもの、というのを人々はどう見分ければいいのでしょうか。

ええ、先ほどあなたが言ったように、問題の中でも操作の部分が、おそらくロボティクスの最終章になると思います。そこが一番難しい部分なんです。

たぶん唯一の章ですよ。ロボットを踊らせるのは、そこまでしか連れて行ってくれません。

そのとおり。だから――

それにお金を払う人はそんなにいませんからね。

ええ、私たちは毎日こういうものに取り組んでいますが、器用さがどれほど難しいかを皆さんに伝えるのは難しいんです。私たちはこの素晴らしい手をいつも使っていて、それを当たり前だと思っています。でも本当に難しいんです。今日のAIの状況を見ると、たとえば24時間でオペレーティングシステムをコーディングできてしまう。複雑な数学も解ける。でも卵をかき混ぜることはできないんです。

ええ、なぜそれが難しいんでしょう。

そうなんです、というのも、身体性知能はデジタルの知能とは少し違うように感じられるからです。繰り返しになりますが、私には家に2歳の子がいて、その子は歩けるし、走れるし、よじ登れます。ちょっとした音声認識みたいなこともできるし、話すこと、言語を理解することもできる。でも、まだ器用さには苦労しています。この水の缶を開けたり、ファスナーを開けたりはできないと思います。だから身体性知能には何か違うものがあるんです。そして私たちのロボティクスの研究は、私たち自身についても教えてくれると思います。私たちはどうやってこれを学ぶのか、なぜそれが違うのか、と。でも一つ言えるのは、アルベルトも言ったように、器用さに関することは、ダンスや歩行や走行と比べて、ロボティクスのより難しい部分だということです。なぜなら、その問題をまだ完全には解けていないからです。

ええ、私が言いたいのは、今日私たちが使える技術の観点から見ても、あなたが説明していたように、挙動を設計したり汎用性を立ち現れさせたりするために主に使う技術が二つあるということです。一つは実演から学ぶこと、もう一つは試行錯誤から学ぶことで、これは主にシミュレーションの中で行います。なぜならそこが、非常にコストのかかる試行錯誤の探索を行える唯一の場だからです。

このボトルをつかんでキャップを開けるといった動作は、まず一つに、実演するのが非常に難しい。ロボットを操縦するパイロットの立場になって想像してみてください。キャップを締めたり外したりしようとするときに自分が感じているはずの力を感じられないまま、これをやり遂げるのは、ただただ難しいんです。でもそれと同時に、皮膚に起きる圧縮や、私の手の指先のセンサーで起きる感知をリアルに再現することも非常に難しい。この挙動を駆動するのが何なのかを理解するためにはそれが必要なのに、です。だから私たちはこうした問題を確実に解くためのアイデアは持っていますが、産業規模での展開に必要な信頼性のレベルで、私たちが望むような器用さを実現できる、その一つの鍵となる技術はまだ持っていないんです。本当に価値を生むような展開のためには、それが必要なのですが。

視覚か触覚か──器用さの謎

私たちは触覚モデルのようなものを作らなければならなくなるのでしょうか。今のところ、ブレークスルーのほとんどは、ロボットがカメラを通して物を見ることによるものだったと思います。どうすればロボットに物を感じさせられるのでしょうか。新しいタイプのモデルが登場するのでしょうか。

ええ、触覚の謎というのは、本当の謎なんです。今日、少なくとも操作について私たちがお見せしている最先端のモデルはすべて、視覚ベースなんです。これもまた、ちょっと奇妙な話です。なぜなら、あなたが今日の日常生活でやっている操作すべてを考えると、おそらく視覚よりも触覚やハプティクスのほうをはるかに多く使っているはずだからです。

だからこれはちょっとした難問なんですが、視覚が今日最先端である理由はおそらくいくつかあります。一つは、繰り返しになりますが、私たちはこうしたモデルをフロンティアモデルの上に構築しているということです。そしてインターネット上には、どんな触覚データよりもはるかに多くの視覚データがあります。だからデータセットの大きさの問題ですね。もう一つは、私たちは手首のカメラを使っているということです。ロボティクスでは、手首やエンドエフェクター(先端の作業部)にカメラが付いているのを見かけることがあると思います。これが実際の接触点を間近で捉えた視点を与えてくれるんです。だから、実際にこうしたものを感じる代わりに、ピクセルの中で、あなたが言っていたような圧縮を捉えられるかもしれない。それが当面のあいだ触覚の代わりになっていて、そういう仕組みで機能しているんです。だからこの視覚というものには、ある種の理屈に合わないほどの有効性があるんです。

ここで、私たちが取り組んだ器用さのタスクの映像があると思うので、今お見せできるかもしれません。

折り紙ですよね。

ええ、ロボットを使って折り紙を折っているんです。このモデルは完全に視覚ベースで、触覚も力覚も何もありません。考えてみると、このタスクは視覚だけでは本来できないはずなんですが、それでもかなり効果的に学習できているんです。折り目や折り方を見ていて、おそらくそこから力や触覚を推論しているんでしょうね。だから視覚だけでこれが機能しているのは見事なことです。

でも私は、最終的にはハードウェアが良くなっていくと感じています。一つ言えるのは、カメラはあまりにも普及しているということ。皮膚をハードウェアにするのは難しいんです。だから、そうしたハードウェアの発展がこの研究の一部を後押しすることにもなるでしょう。でも今日のところは、視覚が私たちをここまで連れてきてくれているんです。

ええ、触覚がどれほど重要かを示す逸話を一つ。データ収集を非常に大規模にスケールアップするプロセスの一部として、人々にウェアラブルを装着してもらうんです。たとえば額にカメラを付けて、普通の生活をしているかのように、ただ自分の生活を送ってもらう。そしてそれを、挙動について推論する超大規模なモデルを事前学習させる手段として使うんです。でも分かったのは、そうすると、人々が生活の中で動く様子はこんな感じなんです。ここで何かをしていて、次に何をしようかと考えているあいだに、こっちで作業をして、それから移動する。つまり実際には、カメラ、つまり彼らの目は、手で何をしているのかを見ていないんです。

結局のところ、人々がやっていることのほとんどは触覚フィードバックと固有受容感覚(自分の体の位置や動きの感覚)によって駆動されていて、何をすべきかを理解するためのほんの一瞬を除けば、それを見る必要はないんです。一瞬見て理解したら、あとは手をその位置にロックして、手に魔法を任せるだけ。だから私の仮説、私の賭けは、私たちがまだそこに到達していないのは、触覚センシングや皮膚感覚センシングに関してハードウェアの信頼性に制約されているからだ、というものです。でも、そこに到達した瞬間に――そして今日では膨大な関心が寄せられているので、必ず到達すると私はかなり確信していますが――おそらく、制御ループ、特に高周波の制御ループで視覚センシングに頼ることを減らして、視覚はもっと常識的な理解に使い、操作を駆動するためには触覚をもっと使う、という段階的な移行が見られるようになるでしょう。

ええ、私はとても興味深い研究を見たことがあります。ある医師が患者の手の感覚を麻痺させて、その人がさまざまなタスクをどれだけうまくこなせるかを観察したんですが、それがかなりひどい結果でした。人々はほとんど何もできなかったんです。だから、ロボットが折り紙をどんなレベルであれ学習できたというのは、私には驚きです。

実用化のロードマップと今後10年

ロボットのさまざまな段階について考えると、今は工場の中にたくさんのロボットがいる状態のように思えます。そして次のレベルが、おそらく接客の現場で、三つ目のレベルが家庭、という感じでしょうか。ロードマップはどんな様子なのでしょうか。この会場にいる人々が自分の生活の中にロボットを持つようになるのはいつ頃で、そこに到達するまでの道のりにはどんなブレークスルーがあるのでしょうか。

ええ、間違いなくしばらくかかります。来年ではありません。すみません。

え?

聞きたくない言葉ですね。

たぶん今後5年から10年のうちに、見られるようになり始めると思います。

それはいいですね。

ええ、繰り返しになりますが、これから一つだけ持ち帰ってほしいことを挙げるなら、器用さは難しく、まだ未解決の問題だということです。だからそれが、私たちがまだ解かなければならない主要な課題の一つです。汎用性すらまだ完全には解けていないと思います。このボトルを開ける方法は学習できるかもしれませんが、ロボットはまだどんなボトルでも開けるとなると苦労するんです。人間が何かをひねって外すというスキルを学ぶと、ほとんど何でもひねって外せるようになります。だから、こうした動詞をほとんどの物に再適用できるんです。でもロボットはまだ少し視野が狭い。いくつかの物で一つの動詞を学習して、たぶんもう少し多くの物に汎化するかもしれない。でも、そのスキルを普遍的に学習するわけではないんです。だから汎用性はまだ大きなボトルネックだと思います。そして器用さが、おそらく私たちがまだ解かなければならない大きなものでしょう。アルベルトが言ったように、私たちはまだいくつかのハードウェアのブレークスルーを待っているのかもしれません。

器用さに関する単純なタスクの例としては、ポケットやハンドバッグから鍵を取り出すようなことがあります。これはロボットにとって本当に難しいんです。今日では試そうともしません。でも私たちが毎日ごく自然にやっていることなんです。だから、触覚の感覚に関してハードウェアが私たちのところまで来てくれる必要があって、そこにはまだ道のりがあると思います。やるべきことはまだ残っています。

ロボットが今日本当に得意としているのは何でしょうか。すでに優れていて卓越していることのリストを作るとしたら、それは何になりますか。

ええ、繰り返しになりますが、ロボットは全身制御がとても得意だと分かってきました。ほんの数年前なら、ヒューマノイドなんて成り立たなかったでしょう。バランスを取るのがあまりに難しかったからです。でも、本当に優れたシミュレーションと強化学習における最先端のブレークスルーによって、バランスはもう解決済みだと言っていいと思います。これがもう物議を醸す意見ではないか分かりませんが、ええ、バランスは解決済みです。だからヒューマノイドはより――

解決済みの問題だと思いますよ。

そう、賛成してくれますか。だからヒューマノイドは今ではより実現可能になっています。歩き回っているのを見られますよね。それから基本的な操作、何かを拾い上げて別の場所に置くようなことも、かなり得意です。模倣学習に加えて、この人間が収集したデータがうまく機能しているんです。だから基本的なピックアンドプレース、それに歩行、そしてもちろんダンスのようなものも、今日では非常に得意です。

ええ。たとえば製造業のような産業タスクを見てみると、インパクトを生むために必要な主要なスキルは、実はとても複雑なものなんです。たとえばケーブルを扱うこと。非常に変形しやすいものを扱って、それをどこかに置いて、フックを通して取り回す、といったことができるようにしたい。電動工具を使うこともそうです。ボルトドライバーをつかんで、しっかり握れている感触を感じ取れるようにしたい。これは実際、人間が身につけるのに何年もかかることなんです。あるいはドライバー(ねじ回し)を想像してみてください。実際に使う自信が持てるような握り方で、ドライバーを持つ感触をつかむまでに、人はどれくらいかかるでしょうか。中には、そのやり方を一生身につけられない人もいます。

だから電動工具を使うこと、そして三つ目がビンピッキングですね。物でいっぱいの箱があって、その中から一つだけ取り出したい。二つでも三つでもゼロでもなく、ちょうど一つ。箱の隅に引っかかっているものまで、です。こうしたことは今日でも非常に難しいんです。でも私たちは、こうした賭けに投資し続けるという素晴らしい軌道に乗っていると思います。実演から学ぶことは、大規模言語モデルで見てきたのと同じように、性能が頭打ちになるまでに非常に長い道のりがあるんです。

私は、実演だけでは性能は頭打ちになると確信しています。どこかの時点で、ロボットは試行錯誤から性能を改善し続けなければならなくなります。そこに到達して、ミスをして、それを認識し、何かに失敗するとはどういう感覚かを感じ取り、そこから学ばなければならない。強化学習が大規模言語モデルを高性能へと導くのに非常に大きなインパクトを与えたのとちょうど同じように、同じことがロボティクスでも起きるはずです。

ロボットにとって、人間が筋肉の記憶のようなものを持つのに相当するものはあるのでしょうか。ピアノを千回弾いた人が、ほとんど考えずに弾けるようになるような。ロボットがあまりに上手になりすぎて、より低いレベルで動くようになるタスクはありますか。

ええ、今日のロボットモデルのほとんどは、いわば筋肉の記憶の領域にあると言えると思います。というのも、繰り返しになりますが、状態を見てただ反応しているからです。私たちが取り組んでいる最新のモデルを除けば、思考は関与していません。だから、筋肉の記憶のような反応モードから離れて、自分が何をしているのかをもう少し考える、より思考的で知的なモードへと移りつつあると思います。とはいえ、それは反応的ではあるけれど、それでもこれを制御しているのは大規模な視覚モデルなんです。その意味で触覚ベースではなく、視覚ベースの反応的なモデルで、ただ画像を見て動きを決め、なぜその動きをしているのかを実際には考えていないんです。今日の最先端のロボティクスモデルでさえ、なぜその行動を取ったのかと尋ねても、答えてはくれません。

おお、興味深いですね。

ええ、答えないんです。だから、行動がただ出力されるだけの反応的なものなんです。でもなぜそうしたのかは説明できない。

新しいモデルはそれをどう変えるのでしょうか。

ええ、新しいモデルで基本的にやったのは、思考トークンと行動トークンを交互に織り込んだことです。だから行動を出力する前に、基本的に自分が何をしているのかについてのトークンを明示的に加えたんです。そしてこの思考が、なぜその行動を取っているのかに影響を与えうる。とはいえ、それでもなぜその行動を取ったのかを説明するわけではありません。でも、その行動につながった思考の痕跡を見ることはできます。そして思考のプロセスをいじると、実際に異なる行動が得られるんです。だからこのやり方で行動に影響を与えられる。つまり、これもまた、運動や身体性の知能をデジタルの知能につなげようとする試みなんです。でも、ロボットに話しかけて、なぜそれをやったのと尋ねられるところまでは、まだ完全には到達していません。

いじることで異なる行動につながるものの例を挙げていただけますか。

ええ、単純なことです。たとえば何かをつかもうとしていて、その思考プロセスが、十分近づいたから手を閉じれば水のボトルをつかめる、と言ったとします。そしてもしそれが思考の痕跡なら、ロボットはただ手を閉じます。でも私たちが試そうとした実験では、その思考の痕跡を編集して、まだ十分に近づいていない、もっと低く行く必要がある、と書き換えるんです。そしてそれが条件づけられた思考なら、行動はもっと低く行くことになる。だからモデルがより解釈しやすく、かつ操縦しやすくなるんです。思考を見て、なぜその行動を取っているのかを理解できるからです。

それはVLAに取って代わるのでしょうか。他のタイプのモデルに取って代わるのか、それともすべてが一緒になるのでしょうか。

少なくとも私が話したこのモデルは、それでもVLAスタイルのモデルで、視覚言語モデルの上に構築されています。一つ興味深いのは、繰り返しになりますが、ロボティクスがこうした大規模なフロンティアモデルの大きなブレークスルーによってどう影響を受けているかという話です。私が本当に楽しみにしていることの一つは、私たちが見てきたオムニモデル、動画モデルです。

いいですね、ぜひ!

繰り返しになりますが、私たちは身体性知能、つまり運動や物理や重力や摩擦といったものに関する知能について話しています。こうしたものは、言語にも、あるいは画像にすら、本当には捉えられていません。でもこうしたモデル、動画モデル、いわゆる世界モデルは、かなりリアルに見える動画を出力できるんです。私もいろいろ試してみて、器用な操作の動画を作ってと頼んでみたんですが、かなり良く見えました。だから、これもまた、デミスが、これらのモデルが基本的な物理を理解していると話していましたが、私も、動画生成を通じて物理についてのある種の理解を持っていると思います。ロボティクスがこの物理や運動の知能の一部をどう活用して、その上にロボットモデルを構築できるのか、見るのは本当に興味深いことになるでしょう。

それぞれが描く未来のビジョン

Boston Dynamicsでは、今あなた個人は何に一番時間を費やしていますか。

すみません、何ですか。

Boston Dynamicsで、今あなた個人が一番時間を費やしているのは何ですか。

今取り組んでいて一番面白いことですか。

一番時間を費やしていることは何でしょう。

ああ、一番時間を費やしていること。私たちがロボットを設計するのは、ロボットを設計するのが好きだからではなく、運動を通じて反復できるある種の身体性が可能だと分かっているからなんです。そしてそれをお客様向けの製品にもたらしたい。私たちが最も関心を持っていることの一つは、ロボットが世界とやり取りすることについての一般的な物理的理解の感覚を発達させられるようにするには、どんなモデルのバランスが正しいのかを理解することです。

ロボットがどう意思決定しなければならないかには、いわば周波数解析のようなものがあります。それが私たちに教えてくれるのは、すでに、一秒に一度決めればいいことがある、ということです。たとえば、ああ、これが自分がやり取りしたいもので、あれはそうではない、だからこちらに手を伸ばすべきで、しかもある特定の方向に、あるいは手をある特定の形に整えてから伸ばすべきだ、と決めるとき。でも、はるかに、はるかに速くやらなければならない決定もあります。なぜなら手が、もしボトルに合わせて形を整えているなら、それはロボットが一秒に50回、あるいは一秒に100回も意思決定しなければならない制御ループだからです。バランスについても同じことが起きます。ロボットが冷蔵庫を運ぼうとしていて、冷蔵庫がバランスを取りながら傾くのに反応する必要があるとき。

ロボットが意思決定しなければならない周波数にこうした違いがあるという事実そのものが、すでに私たちに、その種の意思決定に合わせて作られたアーキテクチャが必要だと教えてくれています。だから私たちは、一般的な物理的理解を持つシステムを駆動するための正しい構造は何なのか、そしてそれを知能で満たす正しい方法は何なのかを理解することに非常に関心があります。それは実演だけなのか、試行錯誤なのか、あるいはその二つの組み合わせなのか、と。

まったくですね。私のチャンネルでは、楽観的なテック動画を作っています。物事がうまくいったら未来がどんな風に見えるか、という。そしてお二人は、その素晴らしい未来を実現する原動力のうちの二人だと思っています。お二人それぞれから聞きたいです。あなたの頭の中に入らせてください。あなたが描く未来のビジョンはどんなものですか。私たちをどこへ連れて行こうとしているのでしょう。すべてがうまくいったら、10年後の世界はどんな風に見えるのでしょうか。

いい質問ですね。ええ、私が思うに――

10年後には何百万体のヒューマノイドが存在しているんでしょうね。

ええ、もしすべてがうまくいって、器用さのようなものを解決できたら――ただ、安全性の研究という大きな難問もまだあると思います。ロボットは本当に安全でなければ役に立たないでしょう。だからそれももう一つの大きな障害です。その意味で、ロボティクスは自動運転にも似ています。私たちはその部分も本当に解決しなければなりません。後付けの考えであってはならない。だから私たちは、これと並行して安全性のためのAIもすべて開発しています。

でも、10年後に私たちが成功していたら、基本的で一般的な日々のことの多くを、ロボットにやってもらえるようになると思います。そしてロボットが私たちの中にもっと交じって、私たちを助けてくれるのを目にするようになるでしょう。個人的なことを言えば、私は日々の雑用が大嫌いなんです。とても恵まれた人間の悩みだとは分かっていますが、そういう類いのことの多く、退屈で、つまらなくて、繰り返しの、危険なタスクを、ロボットが物理的にやってくれるようになると思います。そして、全般的な目標は人類に利益をもたらすことです。身体性知能が、こうしたあらゆる形態を可能にして、私たちをその点で助けてくれると思います。だからそれが、10年後にはそこに到達しているという夢なんです。

私は信じています。お二人なら実現できると思います。

ええ。

あなたはどうですか。

ええ、私も似たようなものです。私たちを突き動かしているのは、過酷な肉体労働、骨の折れる、そして非常に退屈な類いの労働を、選択肢にすることです。それを私たちは既存の製品でやっています。たとえばStretchは、トラックから箱を降ろすロボットです。これらの箱は50から60ポンドあります。そしてこれらのトラックは温度管理されていません。だから時には華氏100度(摂氏約38度)になることもあります。それでもロボットはそれをやって、文句を言いません。

あるいはSpotがもう一つの例ですね。工場で毎日まったく同じ時刻に巡回と点検をするように展開できる。工場の同じ100か所、あるいは1,000か所の点検ポイントで点検を行う。そしてそれを毎日毎日やらなければならない。そしてそのほとんどの日、たぶん499回連続で、何も起きないでしょう。極めて退屈です。でも突然、500回目に、工場の機械のどれかで何かがおかしいと感じる。集中力を保ち続け、何かがうまくいっていないと理解することへの関心を保ち続けなければならないというのは、本当に、本当に退屈なことなんです。そういう類いの仕事をロボットにやってもらうのは、理にかなっています。そして私たちはAtlasを、非常に過酷な労働をこなせるマシンとして狙っているんです。だからこそ力強いし、だからこそあれだけの可搬重量を備えているんです。

では、あなたはロボティクスの中でもより産業の側面に焦点を当てている、と言えますか。

今のところは、ええ、そうです。明らかに、産業、特に製造業が、少なくとも私たちにとって良い入り口だと分かってきました。それは、今日のヒューマノイドにふさわしいコストを持った市場への窓口を与えてくれます。そして、たとえば家庭では非常に難しいような形で、安全上の懸念を緩和する方法がある市場への窓口を与えてくれるんです。そしてそれは、最終的に他の市場、たとえば家庭のような、これもまた極めて大きな恩恵をもたらしうる市場へと進んでいくための助走を与えてくれます。

それは素晴らしいですね。お二人のことを心から尊敬しています。パネルをありがとうございました。皆さん、ご視聴ありがとうございました。

コメント

タイトルとURLをコピーしました