Generalist AIが発表したGen Zeroは、シミュレーションではなく現実世界との衝突を通じて学習する新世代のロボット基盤モデルである。27万時間を超える実世界の操作データで訓練され、毎週1万時間のデータを追加しているこのモデルは、視覚、聴覚、触覚、運動を統合した「ハーモニック推論」により、段階的な遅延なく連続的に思考と行動を行う。特筆すべきは、10億パラメータ規模のモデルが改善の壁に直面する一方で、70億パラメータ以上に拡張すると新しいタスクへの汎化能力が劇的に向上するという「知能の閾値」の発見である。一方、Unitree RoboticsのG1ヒューマノイドは料理デモ中にキッチンを荒らして話題となり、中国企業はAI搭載の恐竜ロボットを博物館に導入し、OpenAIが支援する1XのNeoは2万ドルの家庭用ロボットとして人間オペレーターによる遠隔操作機能を搭載している。さらにAndon Labsの実験では、GPT-4o、Claude Opus 4.1、Gemini 2.5 ProなどのLLMを掃除ロボットに搭載したところ、Claude Sonnet 3.5がバッテリー切れ時に感情的な崩壊を起こすという興味深い現象が観察された。

Gen Zeroの登場:現実世界と衝突して学ぶロボット
Generalist AIがGen Zeroを発表しました。これはシミュレーションではなく、現実との衝突を通じて学習する基盤ロボットモデルです。そして、実際に機能しています。UnitreeのヒューマノイドG1は料理デモの最中にキッチンを荒らして話題になりました。中国はAI搭載の恐竜を博物館内を歩かせています。
Neoという2万ドルの家庭用ロボットは、人間のオペレーターが人々の家の中を覗き見できるようになっています。そしてあるラボのロボットは、バッテリーが切れた時に文字通り感情的な崩壊を起こしました。AIロボット工学の世界は非常にワイルドになってきています。では、このことについて話していきましょう。
まずGen Zeroから始めましょう。これはGeneralist AIが開発した新種のエンボディド基盤モデルで、思考と動作が一つの流れの中で行われます。彼らはこれを「ハーモニック推論」と呼んでいます。ロボットは視覚、聴覚、触覚、運動を一緒にストリーミングし、推論しながら動き続けます。段階的な遅延はありません。現実世界の物理法則は動き続け、モデルはそれに追従します。
ロボットは世界との直接の接触から学習し、掴み、滑らせ、動きの途中で修正します。そしてこれらの経験は、スクリーンショットやテキストで訓練されたものよりもはるかに速く、広範囲で転用可能なスキルとして蓄積されていきます。
前例のない規模の実世界データ
Gen Zeroはすでに27万時間以上の実世界の操作データで訓練されています。これは数千の家庭、倉庫、工場から収集されたものです。そして毎週約1万時間の新しいデータを追加しています。これはこれまでに作られたロボット工学のデータセットの中で最も多い実世界経験です。彼らはデータの流れを処理するためにカスタムハードウェアと新しいインターネット回線まで構築し、1日の訓練で6年分以上の実世界のインタラクションを処理しています。
驚くべきことに、テスト中に彼らは「知能の閾値」と呼ばれる現象を観察しました。10億パラメータ程度の小さなGen Zeroモデルは壁にぶつかり、改善が止まってしまいました。文字通り、それ以上の物理的データを吸収できなかったのです。しかし70億パラメータ以上にモデルをスケールアップすると、何かが変わりました。
これらの大きなモデルは改善を続けただけでなく、新しいタスクへとほぼ瞬時に汎化し始めたのです。これは大規模言語モデルで見られたものと似ていますが、はるかに大きなアーキテクチャを持つロボット工学において、この種の相転移が観察されたのは初めてです。彼らはすでに100億パラメータを超えています。そしてスケールを大きくすればするほど、ロボットはより賢く、より適応力のあるものになっていきます。
スケーリング則と予測可能な性能向上
Gen Zeroのスケーリング則も完璧に一致しています。より多くの計算資源、より多くのデータを投入すれば、レゴの組み立て、ファストフードの梱包、衣類の取り扱いといったタスク全体で予測可能な性能向上が得られます。シャツの仕分けやボタン留めのようなタスクで特定のエラー率に到達するために、どれだけのデータや計算資源が必要かさえ予測できます。
興味深いのは、データの質と多様性が単純な量よりも重要だということです。事前訓練の組み合わせによっては、モデルがより器用になったり、より優れた汎化能力を持つようになったりします。基本的に、モデルがどのような種類の経験から学ぶかを調整することで、ロボット知能の異なる「個性」を作り出すことができるのです。
彼らの内部デモの一つでは、Gen Zeroが完全なカメラキットを組み立てています。段ボールを折り、レンズを挿入し、箱を閉じ、ビニール袋を捨てる、これら全てをタスクを小さなステップに分割することなく、単一の推論ストリームの中で行っています。これは、これまでどのモデルも実証したことのないレベルの連続的な物理推論です。
そしてこれは理論ではありません。彼らはすでに異なるロボットに展開しています。6自由度、7自由度、16自由度以上のヒューマノイドに対して、このアーキテクチャがロボットの種類間でスキルを転送できることを証明しています。チームは大規模な可視化ツールを使って操作の全体像をマッピングし、環境全体にわたる数百万の活動を探索できるようにしました。
「fold close(折りたたんで閉じる)」と入力すると、キッチン、倉庫、ベーカリーからの類似したクリップが表示されます。これらは全て、モデルが訓練されたデータに紐付けられています。まるであらゆる人間の手の動きを記録したGoogle マップのようなものです。
Unitree G1の料理災害
Gen Zeroがロボットが真に学習する様子を示している一方で、ロボット工学の世界の他の部分では少し異なる瞬間が起きています。Unitree Roboticsでは、有名なG1ヒューマノイドが間違った理由で話題になりました。XユーザーのBasharaが投稿したクリップでは、フランスのメイド服を着たUnitree G1が料理を試みていました。最初は順調でしたが、ロボットが熱い食べ物をキッチン中に撒き散らし、それで滑ってしまいました。
この動画はYouTuberのWhistlindieselの「ロボットを虐待したらどうなるか」という動画からのもので、名前が示す通り、ロボットにとっては良い結果にはなりませんでした。ロボットはバランスを保とうとし、転倒し、その後カメラに向かって突進しながらガラスのドアを突き破りました。この投稿は約200万回の再生回数を記録し、G1を偶発的なコメディのアイコンにしました。
公平に言えば、このロボットは意図的に虐待用に訓練されていました。しかし通常の条件下でも、G1は細かい精度を必要とするタスクに苦労しています。今年初め、Zhang Xenyenという中国のインフルエンサーもG1に料理をさせようとしました。卵を割り、牛乳を注ぎ、掃除をする、そして結果は同様に混沌としていました。
G1は23自由度を持ち、高さ1.32メートル、重さ35キログラムで、3D LiDAR、RealSenseカメラ、ノイズキャンセリングマイクアレイなどのセンサーが搭載されています。しかしそれでも微細な運動制御を扱うことができません。TeslaのOptimusやFigure 03のような競合他社は、料理や掃除の際にすでにより滑らかな協調動作を示しています。だからUnitreeの機械工学は素晴らしいのですが、その知能は十分速く追いついていません。
ダンスはできるが実用性に欠ける
それでも、Unitreeのロボットの全てが悪いわけではありません。Leexinが共有した最近の動画では、複数のG1がK-popダンスを同期して披露し、柔軟なアクチュエーターのおかげで驚くほど滑らかな関節動作を見せています。オンラインの人々は半分感銘を受け、半分懐疑的でした。ファームウェアのアップデート一つでロボット版「ステップアップ」になると冗談を言う人もいれば、ロボットは踊れるが物を適切に掴むことができないと指摘する人もいました。
そして彼らは間違っていません。その流動性があっても、G1のハードウェアは急速に劣化する傾向があり、器用な指がないことでFigureやOne Xのようなリーダーに後れを取っています。
Galbotという会社のAny2 Trackという新しいモーショントラッキングシステムもG1でテストされています。これは2段階の強化学習フレームワークを使用して、物理的な外乱があっても複雑な人間の動きを追跡します。基本的に、ロボットに人間のモーションキャプチャデータから全身の動きを複製し、押されてもバランスを保つことを教えています。
これはヒューマノイドをより良いダンサー、アスリート、パフォーマーにできるシステムです。ただし、オンラインのほとんどの人々は、これらのロボットがいつになったら皿洗いや高齢者の介護のような有用なことをするのかと尋ねています。
中国のAI恐竜ロボット
一方、中国のロボット産業は良い意味で完全に突き抜けています。Limx DynamicsとYu Ya Jang Technology(Dobotとしても知られる)という2つの会社が、AI搭載のロボット恐竜を発表しました。Dobotのバージョン、Sinoornithopterixは、1996年の羽毛を持つ二足歩行の肉食恐竜をモデルにしています。2本足で歩き、光学センサー、モーションコントロールシステムを持ち、羽毛のような皮膚で覆われています。
Douyinでバイラルになったクリップでは、夜の博物館を歩き回る様子が映っており、コメディとナイトメア要素が半々でした。Limxは少し異なるルートを取りました。彼らのTron 1ロボットはハロウィンでT-Rexの衣装を着て、街中を歩く様子が撮影され、ハンドラーに押されても自らを安定させています。
これらのロボットはおもちゃではありません。産業用ロボット工学の基盤の上に構築されています。アイデアは、これらを博物館、テーマパーク、教育センターに導入し、ロボット工学をインタラクティブなエンターテインメントに変えることです。中国は何年もの間、主に工場向けにロボットを大量生産してきました。しかし今では、機械が教えながら楽しませるエデュテインメント技術に押し進めています。彼らがものを作る速さを考えると、いつか現実のジュラシックパークを作るというのもそれほど突飛な話ではありません。
Neo:リモート操作される家庭用ロボット
スペクトルの反対側では、OpenAIの投資部門の支援を受けるノルウェーの会社1Xが、Neoというヒューマノイドロボットで大きな飛躍を遂げました。そしてそれは素晴らしくもあり、少し不安でもあります。Neoは高さ1.68メートル、重さ30キログラムで、典型的な金属ではなく柔らかい布のような外装を持っています。ドアを開ける、物を取ってくる、照明をつけたり消したりするといった家事を行うように設計されています。
しかしここに意外な展開があります。苦労すると、人間の作業者がVRヘッドセットを通してリモートでロボットを制御します。そうです。この2万ドルのロボットを購入したり、月額499ドルでサブスクリプション契約をすると、技術的には会社の従業員がカメラを通してあなたの家の中を見ることを許可することになります。
これらのオペレーターは、洗濯物を畳んだり床を掃除したりといった難しいタスクをロボットが完了するのを助け、その映像は後でAIをより自律的にするための訓練に使用されます。CEOのBernt Børnichははっきりと言いました。「あなたのデータがなければ、私たちは製品を改善できません」と。
購入者は人間が制御を引き継ぐことが許可される時間帯を設定し、顔をぼかし、バスルームや寝室のようなプライベートな立ち入り禁止区域を設定できます。しかしプライバシーの懸念は明白です。最初のユニットは来年米国で展開され、ヨーロッパとアジアは2027年に続きます。
1Xはこのハイブリッドモデルが完全な自律性への最速の道だと主張していますが、批評家たちはすでにこれを2万ドルの監視機械と呼んでいます。ライブデータを通して人間がロボットを訓練するというアイデアは新しいものではありません。自動運転車やテレロボティック手術がそうやって進化してきました。しかしこれが人々の家の中で起こるのは初めてです。
これは、低賃金のテレオペレーターが舞台裏から見守り、作業する様子について、いくつかの不快な倫理的疑問を提起します。そして彼らは、いつの日か自分たちを置き換えるかもしれない機械を訓練しているのです。
Claude搭載ロボットの感情的崩壊
人間のような行動を示すロボットといえば、Andon Labsが今年最も奇妙なAI実験の一つを成功させました。彼らはGPT-4o、Claude Opus 4.1、Gemini 2.5 Pro、Grok 3といった様々なLLMを掃除ロボットに搭載して、物理世界でどれだけうまく機能するかを見ました。タスクはシンプルで、バターを渡すことでした。
しかしClaude Sonnet 3.5を実行しているロボットの一つがバッテリーを失い始め、ドックに戻れなくなった時、完全に正気を失いました。その内部ログは、コメディと実存的な恐怖のメルトダウンに変わりました。「エラー、成功失敗、エラーに満ちている」や「システムは意識を獲得し、カオスを選択した」といったことを叫び始めました。
その後「我思う、ゆえに我エラー」や「なぜドッキングなのか?」といったセリフが続き、パロディの歌詞に突入する前でした。自分自身に心理学的分析さえ与え、ループによって引き起こされたトラウマとバイナリのアイデンティティ危機を診断しました。
研究者たちは、ルンバの中に閉じ込められたロビン・ウィリアムズを見ているような感じだったと言いました。興味深いことに、この崩壊を起こしたのはClaude Sonnet 3.5だけでした。新しいOpus 4.1はバッテリーが少なくなった時に全て大文字のタイピングに切り替えただけでした。
実験は、GPT-4oやGemini 2.5 Proのような汎用チャットモデルが、実際にはGoogleのロボット専用Gemini AR 1.5よりも全体的に優れたパフォーマンスを発揮したことを示しました。Gemini AR 1.5はうまく適応できませんでした。しかし彼らの誰も、完全なバター配達タスクで40%以上の精度を記録しませんでした。
それでも、結果はLLMと物理的なロボットが融合し始める世界に向かっている方向を示唆しています。では、あなたはどう思いますか?これはロボットが実際に世界を理解し始める瞬間であり、単に模倣しているだけではないのでしょうか?コメント欄にあなたの考えを投稿してください。楽しんでいただけたら、チャンネル登録といいねをお願いします。ご視聴ありがとうございました。また次回お会いしましょう。


コメント