Google、Gemini Roboticsを発表—全く新しいレベルのAIロボット知能の登場!

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,472 文字

- YouTube
YouTube でお気に入りの動画や音楽を楽しみ、オリジナルのコンテンツをアップロードして友だちや家族、世界中の人たちと共有しましょう。

Googleディープマインドが、Gemini RoboticsとGemini Robotics ERという2つの強力なAIモデルを発表しました。これらは、私たちがこれまで見てきたものをはるかに超えるロボットを実現するために設計されています。これらのモデルは世界を見て、指示を理解し、行動を起こすことができます。実際に、ロボットに全く新しい本能のセットを与えており、自動化に対する私たちの考え方を変える可能性のある結果をすでに示しています。
2025年3月12日、Googleディープマインドのカロリーナ・ピラダが、Gemini 2.0の上に構築された高度なビジョン言語アクション(VLA)モデルであるGemini Roboticsの発表を行いました。これが興味深い理由は、Gemini 2.0がすでにテキストの読み取り、画像の解釈、さらにはオーディオやビデオの解析などのマルチモーダル推論において非常に強力であると認められていたからです。しかし、ほとんどの場合、それはデジタルデータに関するものでした。実生活でロボットが物理的に動いたり、物体を操作したりする方法については実際には対応していませんでした。
今回のGemini Roboticsでは、テキストやコードだけでなく、物理的なアクションを出力として生成することでロボットを直接制御できるシステムが登場しました。しかし、それだけではありません。GoogleディープマインドはGemini Robotics ERというもう一つの姉妹モデルも導入しました。ERは「Embodied Reasoning(身体化された推論)」の略で、高度な空間理解能力を持っています。つまり、物体が物理的な空間にどのように存在し、どのように動くか、どのようにつかむか、あるいはロボットアームが何かをつかむための経路をどのように計画するかを理解する能力です。これはAIに現実世界のタスクに特化した問題解決の超能力の追加レイヤーを与えるようなものです。
Gemini Roboticsは、「ビジョン言語アクション」モデルとして説明されています。つまり、カメラからのビデオフィードのように周囲で何が起きているかを見て、自然言語で指示を受け取り(人とほぼ同じように話しかけることができます)、最終的にロボットを制御するアクションプランを作成します。例えば、ロボットに紙を折って凝った折り紙の形にしたり、ジップロックバッグにスナックを詰めたりしてほしいと思ったとします。Gemini Roboticsは、その正確なシナリオで明示的にトレーニングされていなくても、これらのタスクを処理することができます。
これは、新しいことを行うために多くの手動プログラミングを必要とする従来の産業用ロボットからの大きな転換です。Googleは、明示的に教えられていないタスクをどれだけうまく処理できるかを見るために、汎用化ベンチマークでGemini Roboticsをテストしました。結果は、このカテゴリーでの以前の最先端モデルのパフォーマンスを2倍以上に向上させました。これは汎用性における大きな飛躍です。つまり、これまで見たことのない新しい物体、新しいタイプの指示、さらには何かが動いたり、握りから滑り落ちたりするような環境の変化にも対応できるということです。ダイナミックな現実世界の設定では、これは非常に重要です。なぜなら、物事は計画通りに進むことは稀だからです。
Gemini Roboticsが輝くもう一つの分野はインタラクティビティです。混沌とした環境で動作するロボットは、例えば人が物体を拾ったり、何かを別の場所に移動させたりした場合、迅速に適応する必要があります。Gemini Roboticsは周囲のすべてを継続的に監視し、環境が変化した場合にはその場で再計画します。さらに、Gemini 2.0の上に構築されているため、高度な言語理解能力を持っており、日常言語のカジュアルなコマンドを処理することができます。「テーブルからそれらの箱を棚に移動してくれませんか、そしてちなみに赤い箱は床に置いておいてください」のような指示を言っても、モデルはそれを理解できます。これは家庭や職場でロボットアシスタントを望む人にとって素晴らしいことです。
Gemini Roboticsはまた、器用さにも重点を置いています。ロボット工学の最も難しい課題の一つは、私たち人間が当たり前と思っていることを行うことです。例えば、物体を慎重に操作したり、折り紙を折ったり、ぴったりしたバッグにものを詰めたり、ドアノブを回したりすることは、ロボットにとっては驚くほど難しい場合があります。しかし、Gemini Roboticsは非常に細かいモータータスクを処理できることが示されています。Googleディープマインドはロボットのマニピュレーターアームが紙を折ったり、壊すことなく非常に壊れやすいアイテムを拾ったりする短いクリップさえ持っています。この精度のレベルは、人々がこのモデルをゲームチェンジャーと呼ぶ大きな理由の一つです。
次にGemini Robotics ERがあります。基本的に、Gemini Roboticsがアームを制御してタスクを実行する直接のエージェントであるならば、Gemini Robotics ERは高度な空間推論の背後にある頭脳のようなものです。物体を見て、それらが3Dでどこにあるかを把握し、それらを最適につかむ方法を特定し、ロボットが取るべき安全な軌道さえ計画します。例えば、テーブルの上にコーヒーマグがあり、ロボットにちょうど適切な角度からハンドルでそれを拾って欲しいとします。それはまさにGemini Robotics ERが処理できる微妙なシナリオの一種です。
ポイントは、Gemini Robotics ERが一連の別々のモジュールを必要とせずに、知覚、状態推定、空間理解、計画、コード生成を最初から行えることです。これだけでもロボット工学者にとってプロセスを効率化するという意味で大きなことです。実際、モデルがビジョンからモーションプランニングまですべてを処理するエンドツーエンドの設定では、Gemini Robotics ERはベースラインのGemini 2.0と比較して成功率が2〜3倍高くなっています。そして、Gemini 2.0のコーディング能力を使用してロボット構成スクリプトを生成することもできます。タスクがまだ難しすぎる場合は、モデルにそれを行う方法のいくつかの例を示すだけで、それらのデモから学習します。
Googleがこれらのモデルを現実世界に導入する計画についても少し話しましょう。彼らはヒューマノイドロボット、特にApolloロボットプラットフォームを専門とする企業であるAptronicと提携しています。Googleはaptronicと協力しているだけでなく、投資家でもあります。Aptronicは先月3億5000万ドルを調達し、Googleもその一部でした。これは近い将来、Gemini 2.0を搭載したヒューマノイドロボットを見ることができるかもしれないという良い兆候です。
しかし、Aptronicだけではありません。Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Toolsのようなロボット工学の他の大手もGemini Robotics ERの信頼されたテスターとして関与しています。したがって、これらのモデルは複数の環境とロボットタイプでテストされており、これにより実世界での採用が加速するはずです。
興味深いことに、彼らは身体化AIとロボット工学におけるセマンティックセーフティを測定し改善するのに役立つ新しいデータセットも導入しています。彼らはそれをアイザック・アシモフの有名な「ロボット工学三原則」にちなんで「アシモフデータセット」と呼んでいます。この名前の一部の理由は、Googleがロボットの憲法、基本的にはモデルが安全でない、または倫理的でないタスクから回避するために従う一連の自然言語ルールを実験してきたからです。彼らは、ロボットに人間の価値観に合致する特定の指示を与えることができるように、これらの憲法を自動的に生成するフレームワークを開発したと言っています。アシモフデータセットは、研究者がこれらのルールが実際の世界のロボットシナリオでどれだけうまく機能するかをテストし、モデルが道徳的または安全性に基づく決定にどのように対処するかを見るのに役立ちます。
もう一つの重要な層はGoogleの内部監視です。彼らはAIがどのように開発されているかをレビューする責任と安全性の委員会を持っています。彼らはまた、高度な身体化AIの社会的影響について外部の専門家とも話し合っています。これは重要です。なぜなら、正直に言って、ロボットに自分自身で行動する力を与えることは、特にこれらのシステムがより汎用的になり、家庭や職場のような環境に置かれるようになるにつれて、重要な倫理的および安全上の問題を提起するからです。
ユーザーの観点から見て本当にクールなのは使いやすさです。新しいロボットでGemini Roboticsを実行している場合、日常的な言語で話しかけるだけかもしれません。「その箱を持ち上げて、それから角に置いてください」。特別なプログラミング言語を知る必要はなく、ロボットは例えば箱が予想よりも重かったり、誰かがそれを数インチ動かしてロボットの初期計画を台無しにしたりするような例外をリアルタイムで処理できます。
これは、動きのパターンを一行一行丹念にコーディングしていた昔とは全く異なるアプローチです。まだ高レベルの制御を望むロボット工学者のために、Gemini Robotics ERはロボットの低レベルコントローラーを構成するためのPythonやその他の言語を生成することができ、必要に応じてそのコードを調整できます。何かを行う方法の例を示すと、プログラミングのスタイルや動きへのアプローチを取り上げ、新しいコンテキストで複製することができます。それがモデルの本能的学習能力が光る部分です。
私と同じくらいロボット工学に夢中なら、これらのシステムのさらなるデモと実世界のテストに注目し続けることでしょう。特にAptronicのApolloロボットやBoston Dynamics、Agile Robotsなどからのロボットで、いくつかの印象的なユースケースがすぐに登場すると強く感じています。これは、ロボットを日常的な状況で本当に役立ち、ユーザーフレンドリーで安全なものにする次の大きなステップかもしれません。
とにかく、あなたの考えを教えてください。いつもご視聴ありがとうございます。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました