Googleの新しいヒューマノイドロボットは素晴らしい – Gemini 2ロボティクス

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,646 文字

Googles New Humanoid Robots Are Incredible - Gemini 2 Robotics
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

Googleが実際にロボット工学の進歩について驚くべき最新情報をもたらしました。このビデオでは、彼らがヒューマノイドロボットに組み込んだ新しいモデルの一つについて深く掘り下げていきます。このモデルは本当にこの分野を前進させるものです。基本的に、このビデオで見ていただくのは、Gemini 2.0がロボット工学にどのように統合されているか、そしてこれがaponicプラットフォームとともにどのように進化し、ロボット工学を実世界に統合しているかということです。
これは本当に興味深いことです。なぜなら、これらのロボットは今や以前のバージョンよりもずっと多くのことができる段階に達しているからです。皆さんの中には、Googleの以前のロボットを見たことがある方もいるかもしれませんが、ここでの更新は本当に本当に印象的です。これらのロボットが物理世界について推論する能力を持っていることは素晴らしいです。
私たちはGemini 2.0の知性を、物理世界における汎用ロボットエージェントに取り入れています。役立つロボットになるためには、インタラクティブである必要があります。つまり、あなたの行動や声に生きるように応答する必要があります。また、最も複雑なタスクを完了するために器用である必要があり、3D世界の物事を理解するために汎用的である必要があります。そして、これらの能力はすべて、異なる物理的形態にわたって機能する必要があります。
私たちはこれらをGemini roboticsに統合しています。これは最も高度なビジョン・言語・アクション・モデルです。Gemini roboticsはインタラクティブです。「バナナを透明な容器に入れてくれますか?」注目すべきは、私たちが物体を動かし、モデルがその場で反応して再計画することです。「ブドウを透明な容器に入れてくれますか?」私たちのモデルの低遅延は、急速に変化する条件や指示にリアルタイムで応答できることを意味します。このモデル自体が、あらゆる種類のアプリケーションに一般化できます。そこではロボットとリアルタイムでコラボレーションすることができます。
Gemini roboticsは器用です。高い器用さを要するタスクは、ロボット工学における最大の課題の一つです。「オレンジ色の四角を折り紙のキツネに折ることができます」「それは楽しそうですね、試してみませんか?」「もちろん、ちなみに折り紙という言葉は、日本語の「折る」を意味する「ori」と「紙」を意味する「kami」に由来していますよ」これらの能力は、Gemini 2.0の空間理解、つまりあなたの世界にある物事の詳細な側面の理解によって可能になっています。「キツネの目を描くべき場所を指し示すことができます」
最も重要なことは、Gemini roboticsが汎用であることです。これはGemini 2.0の世界理解を使用して、広範囲の実世界のタスクに一般化します。「赤いサイコロを裏返して、緑のサイコロの数字と一致するようにできますか?」多くのロボットは事前に定義されたアクションを実行できますが、これらの動きは事前に定義されていません。ロボットは自分が見ているものと、どのように動くべきかの両方について推論しています。私たちが頼んだように、赤いサイコロを一致させる方法を見つけ出します。
そしてこの一般化はさらに進みます。このモデル自体が、トレーニングされたことのないこのようなタスクに一般化できます。「バスケットボールを拾ってスラムダンクしてください」これらはロボットが一度も見たことのないオブジェクトであることを念頭に置いてください。しかし、バスケットボールやスラムダンクなどの概念に関するGemini 2.0の理解を活用することで、ロボットはタスクを把握します。
私たちは現在、より多くのパートナーを招待して、信頼されたテスターのプログラムに参加してもらっています。そこでは、次世代のロボットAIエージェントを一緒に構築しています。
さて、Gemini roboticsの主要な特徴の一つは、特定のトレーニングなしでタスクを実行できることでした。これはゼロショット、または少数のデモンストレーションのみで行うことができます。これはフューショットと呼ばれています。これは非常に重要です。なぜなら、従来のロボットシステムは通常、広範なタスク固有のトレーニングを必要とするからです。Geminiの方法は、ロボットが適応するために必要なデータ量を大幅に削減します。これにより、ロボットに新しいタスクを教えることがはるかに簡単で速くなります。
そして、これについての驚くべきことは、一度も見たことのないタスクにも一般化できることです。これは私が本当に重要だと思うことの一つです。多くの場合、ロボット工学とAIの批評家たちは、これらのモデルやシステムがトレーニングデータの外に一般化できないと言います。このような進歩により、今やロボットは機能するために物理的な世界と全く同じシミュレーションでトレーニングされる必要はなくなります。彼らは単に内蔵されたモデルを使用して環境を分析し、人間が日常的に決定を下すのとほぼ同じように決定を下すことができるでしょう。
「整理するのを手伝ってください」「まずはペンを他の鉛筆と一緒に置きましょう」「わかりました、ペンを他の鉛筆と一緒に移動します」「バスケットボールを拾ってスラムダンクしてください」「わかりました、バスケットボールを拾ってネットにスラムダンクします」「よくできました」
インタラクティブなアップデートでは、これが新しい環境だけでなく、急速に変化する環境にも対応できることについて説明しています。これはロボットが自分自身に理解させ、物事が環境内で動き回る時でも、物を動かす場所を動的に更新できるようにするものです。このクリップでは、この人間がさまざまなものを動かすことができ、ロボットはオブジェクトがどこにあるかをリアルタイムで分析し、そのタスクを達成し完了することができるのを見ることができます。
これは再び重要なことだと思います。なぜなら、実世界では、実世界は常に変化しているからです。道路を横断する時、車が通り過ぎていき、時にはあなたの環境内のものが周りを動いています。ペットがいるかもしれませんし、誰かがテーブルなどを動かしているかもしれません。そして、あなたは非常に効果的であるために、常に周囲に注意を払う必要があります。ロボットがこれをリアルタイムで行うのを見ることは、本当に本当に印象的なことです。
そして、ここでより印象的だと思うことの一つ、多くの人が気づかなかったかもしれないことは、これが等速で完全に自律的であることです。以前のロボット工学のデモでは、ポリシーの遅い性質のため、これらのデモを5倍速で見ることがよくありましたが、Googleは効率に関して明らかに革新的なことをしています。ここで見られるのは、人間にとっても比較的速いということです。このアップデートは、ロボット工学の進歩がいかに速いかを示していると言えるでしょう。
「バナナを透明な容器に入れてくれますか?」「ブドウを透明な容器に入れてくれますか?」「ブドウをピンクの容器に入れてくれますか?」「ホワイトボードを消してもらえますか?」
ロボット工学で最も重要なことの一つは、細かい運動技能と協調性を持つ能力です。このデモでは、Google Geminiがこれを非常に効率的なレベルで行うことができるのを見ることができます。ロボットは非常に複雑で非常に繊細なタスクを行うことができます。例えば、眼鏡をホルダーに置くことや、Apolloロボットを使用してゲームセットの部品をボードに置くこと、また紙を非常に正確な方法で折ることなどです。
これは非常に重要だと思います。なぜなら、ロボット工学プラットフォームでできることの規模は、しばしばハードウェアによって制限されますが、ロボット工学におけるこれら二つのグリッパーのような非常に基本的なハードウェアを取り、幅広いタスクを完了することができれば、将来的により多くの自由度を持つものがある場合、より広範囲のタスクを行うことができる可能性が非常に高く、それはより多くのアプリケーションにつながり、おそらく人間が最初に慣れているよりも多くのことができるでしょう。
これは本当に重要になると思います。なぜなら、将来的には、ロボットが人間が本当にできないことを手で行うのを見ることがあるかもしれないからです。そして、それが将来発生する時、本当に衝撃的なことになると思います。
さて、Geminiプラットフォームの最も重要な機能の一つだと私が思った本当に興味深いことは、これが新しいロボットプラットフォームに迅速に適応でき、最小限のデータでヒューマノイドロボットや産業用ロボットアームに移行できることです。これがとても重要な理由は、ロボットの知能を異なるタイプのハードウェアプラットフォームに展開することは、しばしば非常に難しいことだからです。Geminiのアプローチは、同じモデルが新しいロボットの形状や能力に迅速に一般化できるという印象的な適応性を示しています。
彼らはGeminiロボットを二本の腕を持つロボットから五本指の手を持つヒューマノイドロボットに正常に適応させることを実証しました。これにより、複雑な操作タスクを迅速に実行できるようになりました。これは明らかに、ロボット工学の分野を全体的に進歩させるものです。一つの統一されたモデルをロボットに搭載し、それがソフトウェアアップデートのようにすぐに使用できるとしたらどうでしょうか。
業界全体で、今週だけでも多くの異なるロボットが、彼らのハードウェアの制限が私たちが思っていたほど大きくないことを示しています。そして、これらの内部モデルの継続的な進歩により、全体的にさらなる一般化が見られるでしょう。
Gemini roboticsはまた、Gemini robotics ERを導入しました。これは強化された身体的推論を通じて物理的環境を深く理解する前例のない能力を持つビジョン言語モデルです。これは非常に重要です。なぜなら、従来のロボットは主にプログラム済みの設定で孤立したタスクを実行するからです。Gemini robotics ERは、ロボットが空間概念、物体のアフォーダンス(例えば把持したい場所)、3D空間関係、軌道について、人間が自然に行うのと同じように直感的に推論することを可能にします。
これが証明されたのは、Gemini robotics ERがこれらのベンチマークで以前には見られなかった最先端のパフォーマンスを示したことです。これは非常に重要だと思います。なぜなら、Googleがロボティクスのフロンティアにいることを示しているからです。
Googleからのこのアップデートについてどう思ったか教えてください。これは私がこれまでに見た中で最も過小評価されているものの一つだと思います。aponicプラットフォームは本当にクールだと思いますし、Googleからのさらなるアップデートを楽しみにしています。彼らは過去にインターネットを本当に驚かせるような印象的なアップデートを行ってきました。

コメント

タイトルとURLをコピーしました