「再帰的自己改善」ロボットが次にやってくる！

6,606 文字

Self-Improving Robots Are Closer Than You Think

NVIDIA's Jim Fan just made 2 wild predictions about the future of AI-powered robotics that will surprise you.👉 Support m...

おそらくLLMがそれを最初に解決し、その後私たちはその宿題をコピーして、物理的な世界でこの再帰的自己改善を進めていくでしょう。そして私はそれが起こると思います。100年後ではなく、わずか20年後には間違いなく起こります。
これはNVIDIAのシニアリサーチサイエンティストでAIエージェントリードのJim Fanの発言です。彼は基本的に20年以内に自己改善するロボット、つまり物理的な世界での完全な再帰的自己改善が実現すると言っています。信じられないように聞こえますが、そうではありません。
今週AIの世界では他にも驚くべきことがありました。ロボットボクシング、モデルの無限メモリーアップグレード、Googleが静かに新しいFirebase Studioを立ち上げたこと、さらにはビデオゲームを一緒にプレイできるAIアシスタントまで登場しました。詳しく見ていきましょう。
冒頭で聞いたスニペットは、Jim FanがNVIDIAのGTCイベントでの講演で共有したことのほんの一部です。彼はロボット工学の未来で最も興奮することは何かと尋ねられ、2つのことを指摘しました。それは科学的発見を加速するロボットと、再帰的に自己改善できるロボットです。
完全なクリップを聞いてみましょう。約1分半ですが、文脈の中で聞くと彼のビジョンが本当に理解できます。そして覚えておいてください、これは単なる未来予測者の推測ではなく、NVIDIAでこの未来を実際に構築している人物の一人です。
「20年後、とても楽しみにしていることがいくつかあります。それほど遠い未来ではないと思います。一つはロボット工学が科学を加速させることです。バイオメディカル分野の友人たちがいますが、一つの実験を行うことが非常に時間がかかり、労力を要します。すべての博士課程の学生が研究室にいなければならず、マウスや細胞の培養皿などを世話しなければなりません。それをすべて自動化できたらどうでしょうか。科学を自動化すれば、医学研究にかかるコストは10億ドルもかからなくなり、知能を使って物理的な世界を加速するAPIを得ることで拡大されるでしょう。おそらくGroup（GPT）バージョン10かそれに近いものになるかもしれません。これが一つ目に期待していることです。
もう一つは、ロボット工学がロボット工学自体を自動化することです。ロボットが互いに修理し合うのはどうでしょう。大きな工場でロボットを製造していますが、ロボット自身が次世代のロボットを組み立てるのはどうでしょう。これはSF小説ではなく、実際にLLM（大規模言語モデル）コミュニティでは、残念ながら私たちより先を行っています。彼らはAutoMLを研究していて、LLMに次の最良のトランスフォーマーや知能自体のためのアーキテクチャを見つけるための深い研究を行わせることができるかを検討しています。これは現在積極的に行われていることです。
おそらくLLMがそれを最初に解決し、その後私たちはその宿題をコピーして、物理的な世界でこの再帰的自己改善を進めていくでしょう。そして私はそれが起こると思います。100年後ではなく、わずか20年後には間違いなく起こります。」
これを分析してみましょう。彼は2つの大胆な予測をしています。科学を加速するロボットと自己改善するロボットです。そしてNVIDIAが既に構築しているものを見れば、これは単なる話ではありません。彼らは最近、世界初のオープンで汎用的な人型ロボット基盤モデルであるGroot N1を発表しました。Groot N1は物理的な世界と言語の両方を理解するように訓練されており、多くのタスクに適応できるように設計されています。すでに何千もの家庭用品を拾い上げて配置することができ、さらに複雑な目標を達成するために別のロボットと協力することもできます。
Jimが言ったように、ロボットが実際に他のロボットを構築し再帰的自己改善を行うにはまだ時間がかかりますが、LLMが最初にそれを実現する可能性が高く、すでに初期の兆候が見られています。OpenAIは最近、AIエージェントが最先端のAI研究を複製する能力を評価するためのPaperbenchという新しいベンチマークを導入しました。このベンチマーク（実際にはフレームワーク）は、AIエージェントが文字通り自分自身で機械学習研究を行うための舞台を設定しています。現在のところ、最高スコアはClaude 3.5 Sonnetの約21％の成功率ですが、驚くべきことに、PhD MLリサーチャーの人間のベースラインはわずか41.4％です。つまり、これらのモデルはすでに機械学習研究を再現する能力において、実際の機械学習研究者の半分ほどの能力を持っているということです。私は確実に今後20年以内にそこに達すると思います。
また、私のPatreonでDeepseekの最近の論文を分析しましたが、そのモデルは再トレーニングせずに自分自身のフィードバックから学習して回答を改善するように訓練されていました。ですから、LLMは明らかに自己改善する方法を見つけつつあり、その影響は明らかな理由で凄まじいものです。
ロボット空間については、それほど遅れていないかもしれません。これらのロボットはより汎用的になり、より広範囲の実世界のタスクに取り組むことができるようになっています。また、その動きもより動的で柔軟になっています。こちらはUnitのG1ロボットが、人型ロボットによる世界初の立った状態でのサイドフリップを披露しています。
しかし、おそらく見たことがないのは、ロボット同士の戦いです。こちらは再びUnitaryのG1ロボットですが、今度は文字通りボクシングをしています。誰かこれをDana Whiteに送る必要がありますね。人型ロボットボクシングは将来実際に大きなものになるかもしれません。「The Wreck」（Robot Embodied Combatの略）という新しい会社が、人間が操作する人型ロボットがリングで戦う実生活のロボット格闘リーグの計画を発表しました。詳細はまだ少ないですが、数日以内に大きな発表を準備しているようです。私たちは間違いなくこれに注目し続けるでしょう。
少し話題を変えて、OpenAIはChatGPTのメモリー機能に大幅なアップデートを静かに発表しました。過去のすべてのチャットを参照して、よりパーソナライズされた応答を提供できるようになりました。基本的にOpenAIは無限のメモリーをリリースしたのです。
ChatGPTが常にあなたが言ったことすべてを覚えているという意味での無限のメモリーではありませんが、会話履歴全体にアクセスして必要なときにそこから引き出すことができます。これは、あなたの好み、トーン、過去の質問についての持続的な理解を構築し、より多くの文脈で応答できることを意味します。私たちは文字通り映画「Her」の世界に生きているようですが、誰もがAIの声に恋をするのではなく、あなたのAIがオーツミルクが好きで、今週同じ質問を3回したことを覚えているだけです。
次に、新しいAIスタートアップであるDeep Cogitoが今週ステルスモードから登場し、Kogito V1プレビューをリリースしました。これは30億から700億パラメータの範囲の5つのオープンソース大規模言語モデルのスイートです。そして、このビデオのテーマに沿って、彼らはこれらのLLMが反復蒸留と増幅（IDA）を使用して訓練されていると述べています。これは反復的な自己改善を使用した一般的なスーパーインテリジェンスのためのスケーラブルで効率的なアラインメント戦略です。再び、私たちは実際の自己改善能力がLLMに組み込まれているのを見始めています。
彼らはさらに、より良い推論だけでAGIに近づくかもしれないが、人工一般スーパーインテリジェンスに到達するためには「人間の監督者の固有の限界」と彼らが呼ぶものを克服する必要があると言及しています。そこで反復蒸留と応用（IDA）が登場します。これはモデルが時間をかけてより高度な推論を統合しながら、反復的に自己改善することでそれらの限界を乗り越える彼らの提案する方法です。
これは単なる理論的な概念ではなく、彼らはすでに結果を見ています。彼らの最大のモデルであるKogito 70BはMMMLUから数学まで、事実上すべてのベンチマークでDeepSeek R1を上回っています。さらにLifeBenchではMetaの新しいLlama Force Scoutモデルさえも上回っています。ですから、これは間違いなく私たちがこれからもっと耳にする会社であり、彼らがこれをどこに持っていくのか本当に楽しみです。
次に、今週はMoonshot AIからもう一つの超小型で効率的、そして高性能なモデルが登場しました。彼らはKIV VLとKIV VL Thinkingという2つのオープンソースのビジョン言語モデルをリリースしました。これらは特に30億パラメータしかないことを考えると、驚くほど強力です。KIV VLはすでにいくつかの主要なベンチマークでGPT-4oと同等のパフォーマンスを示しており、推論モデルであるKIV VL Thinkingはそのクラスの他のすべてを特に効率性に関して完全に凌駕しています。ですから、ローカル使用やエッジデプロイメント用のコンパクトなモデルを探しているなら、間違いなく優れた選択肢です。
さて、Googleについて話しましょう。おそらく見たことがあると思いますが、彼らは今週AIエージェントに関して多くの主要な発表を行いました。Agent SpaceからAgent Development Kit、さらにはエージェントが協力してツールを共有できるようにする新しいエージェント間プロトコルまでです。前回のビデオでそれらすべてを詳しく説明しましたが、多くの人々にとって少し見落とされていたのはFirebase Studioと呼ばれるものの立ち上げでした。これはGeminiによって強化されたGoogleのクラウドベースのエージェント開発環境です。
私自身は開発者ではありませんが、理解していることから言えば、これは基本的に開発者がエージェント駆動のアプリを簡単に構築、テスト、デプロイできるクラウドベースの環境です。Geminiによって強化されており、自然言語で欲しいものを説明すると、Geminiはスタジオ内でアクセスできるツールを使ってそのビジョンを実現します。私が見た中でより野心的な例の一つは、任意のトピックをマインドマップに変換するアプリを作成するよう依頼した人のものです。彼は単に欲しいものを平易な英語で説明し、数分以内にGeminiが全体を作り上げました。これは正直言って少し狂気じみています。
とはいえ、Firebase Studioはまだ非常に初期段階であり、多くの開発者が今のところ、今日のフロンティアモデルがすでに持っている能力以上のことはあまりできないと指摘しているのを見てきました。そしてそれは事実ですが、これを非常に興味深くしているのは、現在何ができるかではなく、将来に向けて何を準備しているかです。Googleは明らかに、アプリが人間だけでなくエージェントによって構築・維持される未来の基盤を築いています。Firebase Studio、Agent Space、エージェント間プロトコルなどのツールはすべて、エージェントがコードを実行するだけでなく、コードを生成し、デプロイし、監視し、共有インフラ内で相互に協力するより大きなビジョンを示しています。
ですから、今のところ大したことには見えないかもしれませんが、これはソフトウェアを構築・提供する全く新しい方法の始まりかもしれません。エージェントが大部分の重労働を行う方法です。
Googleと言えば、彼らは「Ironwood」と呼ばれる次世代のTPUも発表しました。これは今年後半に登場する予定です。2018年に公開された最初のTPUと比較すると、Ironwoodは3600倍のパフォーマンス向上を実現しています。これはただただ驚異的です。今週、GoogleはIlya Sutskeverの新会社であるSafe Super Intelligenceと契約を締結し、Googleの社内TPUインフラへのアクセスを提供しました。NVIDIAもこの非常に秘密的な取引に参加しましたが、それ以上のことはほとんど分かっていません。したがって、SSIは急速に世界で最も価値のあるAIスタートアップの一つになりつつあり、彼らが実際に何を構築しているのかまだ分かっていません。私たちが知っているのは、彼らが「安全なスーパーインテリジェンス」という一つのことに取り組んでいるということだけです。
ビデオを締めくくる前に、皆さんにお見せしたいいくつかの興味深いアップデートがありました。まずはPika Twistsから始めましょう。この新機能を使用すると、シーン内の任意のキャラクターやオブジェクトを操作しながら、他のすべてを完全に無傷に保つことができます。小さな詳細ですが、大きな飛躍です。ビデオ全体を最初から再生成する代わりに、個々の要素をリアルタイムで編集できるようになりました。これはAI生成シーンを、内部でツイーク、指示、さらにはアニメーション化できる3D環境のように扱う方向への一歩です。これによって解き放たれる創造性のレベルは考えただけでも驚くべきものです。
次に、Hicksfield AIがHicksfield Mixを導入しました。この新機能を使用すると、実世界のカメラでは不可能な動きを含む、複数のモーション制御を1つのショットで組み合わせることができます。つまり、AI生成ビデオに対するより多くの演出的制御を得始めているのであり、それは単に伝統的な映画制作を模倣する方法ではなく、実際にそれを超える方法でもあります。
最後に、Minecraft用に構築された新しいAIアシスタントを垣間見ることができました。正直言って、これは今週見た中で最もクールなアイデアの一つです。家を建て始めると、あなたが何をしているかを理解し、助けに飛び込んできます。これが異なるのは、今日のほとんどのアシスタントのように人間からのフィードバック（RHF）の強化学習で訓練されたわけではなく、「支援ゲーム」と呼ばれるものに基づいているからです。ここではAIはあなたの目標を知らず、それを理解するためにあなたと協力する必要があります。
つまり、一気にあなたの問題全体を解決しようとするのではなく、このアシスタントは不確かさを維持し、賢い質問をし、あなたが行うことから学びます。彼らはこれを「Assistance Zero」と呼んでおり、テストでは人々は伝統的なAIヘルパーよりもこれを好みました。それはより賢かったからだけでなく、実際に助けているように感じられたからです。
このアプローチは非常に興味深いです。なぜなら、基本的に即興で学習しているので、最終的にはMinecraftだけでなく、どんなゲームでもプレイできるようになるかもしれないと想像できるからです。これをさらに進めると、Minecraftやビデオゲームだけの問題ではありません。この種のアプローチは、AIアシスタントの機能方法を全般的に再形成する可能性があります。1つのプロンプトから目標全体を推測しようとする代わりに、将来のアシスタントは時間をかけて学習し、必要なときに不確かさを維持し、実際のチームメイトのようにあなたと協力することができるでしょう。
今日はこれで以上です。ビデオのどの部分が最も楽しかったか教えてください。Jim Fanの自己改善するロボットに関する野心的な予測、GoogleのFirebase Studio、あるいは他の何かでしょうか。コメントを残し、いいねを押し、まだサブスクライブしていなければサブスクライブして、いつものように次回お会いしましょう。