100の脳を持ち、瞬時に考え行動するAIロボット!

AGIに仕事を奪われたい
この記事は約9分で読めます。

5,268 文字

The AI Robot with 100 Brains That Thinks and Acts Instantly!
The AI Robot with 100 Brains That Thinks and Acts Instantly!***************************🌟 Subscribe to our new channel:

身体中に100の脳を持つロボットがあるとしたらどうでしょう?一つの大きな中央コンピューターではなく、身体中に広がった小さくて高速思考する頭脳を持つのです。指の関節や皮膚の一部一つ一つがリアルタイムで感知し、判断し、行動することができます。これはSFではなく、Pi 0.5という最新のロボット工学のブレークスルーなのです。このマシンは単に命令に従うだけでなく、自分自身で考え、それを瞬時に行います。キッチンの掃除から、人間の肘をかわしながら洗濯物をたたむまで、このAIは単に反応するだけでなく、適応し、学習し、動き続けます。Wi-Fiも必要ありません。ロボット工学の未来へようこそ。
これが、瞬時に考え行動する100の脳を持つAIロボットです。体の各部分にそれぞれの脳があるロボットを想像してみてください。それがまさにPi 0.5が導入するものです。従来のロボット工学からの抜本的な転換です。すべてを制御する一つの中央プロセッサーの代わりに、Pi 0.5は体全体に分散したPIノードと呼ばれる小さなニューラルモジュールのネットワークを使用します。
これらのノードはそれぞれがミニ脳のようなものです。指先に一つ、肘に一つ、柔らかいシリコンパッチにさえ一つあります。各ノードには独自のセンサー、マイクロニューラルネットワーク、アクチュエーターが備わっています。つまり、あらゆる動き、あらゆる調整、あらゆる反射がローカルで瞬時に発生するということです。必要な場所でまさに必要なときに。もう中央サーバーからの指示を待つ必要はありません。
これらのノードは独立して動作し、感じたり感知したりすることに基づいてリアルタイムの決定を下します。小さな動きのたびに、そのノードは「グリップは改善したか?」「張力は減少したか?」と確認し、そうでなければその場で即座に調整します。その結果、信じられないほど反応の良いロボットが誕生しました。あるテストでは、PIノードを使用した柔らかいロボットグリッパーがグリップ精度を30%向上させ、消費電力を25%削減しました。遅延なし、信号の遅れなし、純粋な反射だけです。
そして、インテリジェンスがハードウェアに組み込まれているため、ESP32のような超低電力チップでも動作します。文字通りこれらのノードの一つをコイン型電池で動かすことができるのです。これは単に速いだけでなく、よりスマートです。ロボットが、滑りやすい食器、移動する洗濯物、予期せぬ衝突などの現実世界の混沌に適応できることを意味しています。助けを求めて「家に電話」する必要はありません。これがエッジインテリジェンスの行動です。反射が再定義されたのです。そしてこれはほんの始まりにすぎません。
反射ノードがロボットの筋肉と神経であるなら、上位レベルのPi 0.5脳はその心、知性、推論能力、世界を理解する能力です。この上位脳はビジョン言語アクションモデル(VLA)と呼ばれるものです。コンピュータービジョン、自然言語理解、モーター計画を融合させたものと考えてください。あなたの指示を解釈し、全く新しい環境でも何をすべきかを決定するために設計されたオールインワンAIパワーハウスです。
ほとんどのロボットは一般化に苦労します。確かにタスクを実行できますが、訓練された正確なテーブル、正確な物体、正確な条件でのみ可能です。照明を変えたり、椅子を動かしたり、フォークをスプーンに置き換えたりすると、フリーズしてしまいます。そこがPi 0.5の違うところです。
Pi 0.5チームはこの限界に正面から取り組みました。ロボット工学では類を見ないモンスターデータセットを与えることで。彼らは一つの研究室や一つの家だけで訓練するのではなく、実際の家庭で実際のタスクを行う400時間以上の実際のロボット映像を収集しました。椅子にぶつかるロボット、変わった形のフライパンをつかむ方法を理解するロボット、おもちゃをすくい上げるロボット、不均一な圧力でテーブルを拭くロボット。Pi 0.5はこれらすべてを見ました。
しかしそれだけではありません。彼らは数十の異なる環境でのロボットの静的クリップを追加しました。車輪のないシンプルなロボットアームがデータセットに貢献するクロスエンボディメント学習を導入しました。インターネット規模の画像キャプションペア、物体検出チャレンジ、視覚的質問応答、さらには人間がロボットに自然言語を使って家事を段階的に指導する言語指示セッションも投入しました。
結果として、「枕とは何か」から「セラミックプレートをどれくらいの力で握るべきか」までをカバーする、フランケンシュタインのようなカリキュラムが生まれました。この幅広く多様なトレーニングによって、Pi 0.5は信じられないほど柔軟になりました。その数字が物語っています。
トレーニングデータに似た家庭では、Pi 0.5は言語コマンドの理解で86%の成功率を達成し、タスク完了率は83%でした。一つ一つの皿をシンクに入れるような精密なサブタスクでさえも。しかし本当の衝撃は、さらに挑戦したときに訪れました。彼らは「分布外テスト」を実行しました。全く新しい家、異なる照明、見慣れない物体、トレーニング映像との重複がゼロの環境です。Pi 0.5はそれでも94%の成功率で圧倒しました。それはほとんどその家でトレーニングしたかのようでした。
さらに、インターネット写真やマルチ環境ロボット映像などの重要なトレーニングデータを削除すると、パフォーマンスが急落し、多様性とトレーニングデータが単に役立つというだけでなく、不可欠であることが証明されました。それはこの脳に力を与える酸素なのです。彼らはさらに100以上の異なる家庭でモデルをスケールし、パフォーマンスが多様性とほぼ線形に向上することを発見しました。最終的にモデルは非常に優れたものになり、不正なベースライン、つまり実際にテスト家屋を前もって見ていたロボットとほぼ一致するようになりました。それが膨大で多様な根拠あるデータの力です。
そしてここからさらに魅力的になります。Pi 0.5がライブの時、単に盲目的にコマンドを実行するのではなく、実際に考えます。毎秒、人間と同じように思考の連鎖プロセスを経ます。まず「枕を拾う」といった高レベルの指示を生成し、次にその思考をリアルタイムで実行される50の正確な関節動作のストリームに変換します。カメラが更新され、センサーが再調整され、システム全体が次の決定のためにループバックします。
これは、ロボットが常に調整し、その場で再計画していることを意味します。言語理解、空間認識、運動スキルを単一の滑らかなプロセスに組み合わせています。そしてその美しさは、下位レベルの反射が非常に高速で信頼性が高いため、上位脳がすべてを細かく管理する必要がないことです。上位脳はより遅く、より思慮深くなることができます。次に何をすべきかという大局に焦点を当てる間、指のノードはグリップがしっかりしていて何も滑らないようにします。
これはほとんど、あなたの脳がタスクを委任するようなものです。脊髄がバランスを処理する一方で、あなたの意識は次の動きを計画します。Pi 0.5も同じように機能します。そのため、古いロボットがスピードとインテリジェンスの間で選択しなければならなかったのに対し、Pi 0.5はこの二層脳システムのおかげで両方を持っています。言葉を理解し、あなたの家を見て、人間のように計画し、反射を備えた体のおかげで、その場で現実世界で精度をもって実行します。これは単に脳を持つロボットではなく、自分自身の心を持つロボットなのです。
これまで、Pi 0.5が体中に小さな脳を詰め込み、反射を処理し、言語、視覚、複雑なタスクを解釈する強力な上位脳を持つことを見てきました。しかし魔法はここにあります。これら二つの層が一つの統一された心として機能する方法です。ここでPi 0.5は真に「瞬時に考え行動する100の脳」という考えを体現しています。
詳しく見ていきましょう。毎秒、上位脳であるビジョン言語アクションモデルが「スプーンを持ち手でつかむ」といった高レベルのコマンドを生成します。しかし手動ですべてのモーターを制御するのではなく、バトンをローカルノード脳に渡します。それらはロボットの体中に広がる反射駆動型のPiノードです。指先のノードはすぐにグリップの調整を始め、滑りや抵抗を感じます。腕の関節は動作を予測し、張力をチェックします。
もし何かが変わったとしたら、例えばスプーンが滑り始めたり、誰かがロボットの腕にぶつかったりした場合、これらのマイクロ脳は助けを待ちません。彼らは自分自身で反応し、数ミリ秒以内に力と姿勢を再計算します。この分業こそがPi 0.5を理論だけでなく実践的にも知的に感じさせるものです。上層は冷静で戦略的な思考者のようなもので、下層は精密にあらゆる動きを実行するエリート反射エージェントのチームです。一方が考え、他方が行動し、共に彼らはリアルタイムで適応します。これがリモコン操作の人形と真の自律システムの違いです。
そしてこのコラボレーションを推進するテクノロジーも同様に印象的です。動きを計画するために遅いステップバイステップの拡散方法を使用する代わりに、Pi 0.5はフローマッチングと呼ばれる高度な技術を使用します。これは一回の順方向パスで滑らかな全身運動の軌跡を生成できます。遅延なし、躊躇なし、決断、動き、ミクロ調整が毎秒繰り返されます。
このループ全体は人間の運動行動に合わせて設計されています。ロボットは1秒間のアクションチャンクを作成します。周囲を継続的に再評価しながら現在の計画を実行する短い窓です。敏捷性を維持するのに十分な短さですが、持ち上げる、回す、拭くなどの複雑なジェスチャーを完了するのに十分な長さです。そして最高の部分は、Wi-Fi接続やクラウドコンピューティングに依存することなくすべてが起こることです。インテリジェンスが体中に分散しているため、各ノードは必要なものだけを実行します。結果として、低遅延、低消費電力、そして予測不可能な環境でもリアルタイムの応答性が得られます。
テストでは、Pi 0.5は実際の見知らぬ人のアパートに置かれました。事前スキャンなし、マーカーなし、完璧なセットアップなし。ロボットはベッドを整え、こぼれたものを拭き、おもちゃをすくい、さらに洗濯物をたたみました。タスクの途中で邪魔された場合、例えば腕が軽く押されても、グリッチしたりフリーズしたりせず、再計算して続行しました。
また、具体的なコマンドと曖昧なコマンドの両方を処理できました。例えば「丸いブラシを拾う」と言えば正確なオブジェクトを対象とし、「寝室を掃除する」と言えばそれをアイテムの整理、表面の拭き取り、散らかったものの移動などのサブゴールに分解します。すべて自律的に。このレベルの応答性は、このスケールでは前例のないものです。
他のロボットは純粋な計算力か硬直した事前プログラミングのどちらかに依存していますが、Pi 0.5は異なります。モジュール式で、知的で、瞬時に反応します。まさにロボット工学の未来がどのようなものかということです。
そのため、100の脳を持つロボットについて話すとき、それは単なる比喩ではなく、新しいインテリジェンスのアーキテクチャです。体内の反射、心の中の推論、そしてそれらの間のシームレスな流れ。これは単にパフォームするだけでなく、理解し、反応し、進化する機械の基礎です。Pi 0.5は千のことをする一つの脳ではなく、一つとして機能する100の心なのです。
では、これが私たちにとって何を意味するのでしょうか?それは、ぎこちなく遅い、過度にスクリプト化されたロボットの時代が終わりを迎えていることを意味します。Pi 0.5は単なる一歩前進ではなく、機械が速く考え、よりスマートに行動し、実際に日常生活の混沌の中で私たちと共存できる世界へのジャンプです。これはもはやロボットがコマンドに従うことではなく、理解し、適応し、自分自身で改善するロボットについてなのです。
次に誰かが「AIは現実世界のタスクをこなせない」と言ったら、単にPi 0.5を見せてください。なぜなら未来はサーバーラックの中の単一の超脳ではなく、完璧なハーモニーで協力する100の小さな心なのですから。
視聴ありがとうございます。これが私たちと同じくらい驚異的だと思ったなら、いいねボタンを押し、AIとロボット工学の世界へのより深い考察のためにチャンネル登録してください。そしてコメントで教えてください、自宅でこのようなロボットを持ったら、あなたは何をしますか?これが未来であり、それはあなたより速く考えるのです。

コメント

タイトルとURLをコピーしました