人工知能ロボティクスにおける思考崩壊（解決策：GTR）

6,069 文字

Thought Collapse in AI Robotics (Solution: GTR)

AI Guided Thoughts: Need for AGI Coherent Reasoning for AI robots through GTR - Guided Thought Reinforcement.GTR leverag...

こんにちは、コミュニティの皆さん。戻ってきてくれて嬉しいです。Google DeepMindのロボティクスが今、あらゆる場所で話題になっていることはご存知だと思います。今日の私のFinancial Timesにも掲載されていました。「Google DeepMindの新しいAIモデルがロボットを有用にする」、あるいは「Gemini Robotics」、3月12日午後4時、ほんの数時間前のことです。さらに「急速に成長するロボティクス産業」や私たちの愛するBloombergの「GoogleがMetaやOpenAIに挑戦する新しいAIロボティクスモデル」など。信じられないかもしれませんが、私たちは新しいシステム、新しいAIシステムを手に入れたのです。見てみましょう。
こちらがGoogle DeepMindの技術論文です。2025年3月12日付のGemini Robotics、60〜70ページにわたる非常に興味深い論文です。そして、最初のモデルはGemini Robotics、ビジョン言語モデルで、もちろんGemini 2をベースにしています。そして2つ目のAIはGemini Robotics ERで、具現化された推論（embodied reasoning）のためのものです。「え？まだ推論の話をしているの？」と思うかもしれませんね。はい、まだ推論について話しています。これで推論に関する5本目のビデオになりますが、偶然にもロボティクスのための推論について話しています。そして前回のビデオを基に話を進めていきます。なぜなら、その知識をビジョン言語モデルに簡単に転用できるからです。「でも、私の小さな消費者向けGPUで動くAIなのに、なぜロボティクスのための推論をする必要があるの？」と思うかもしれませんが、AIはすべて推論に関するものなのです。
こちらが技術論文「Gemini Robotics」で、リンクもあるのでダウンロードできますが、実は読んでみましたがそれほど興味深いものではありませんでした。キッチンでタスクをこなすロボットのビデオがたくさんありますが、私たちは研究チャンネルですから、もっと深く掘り下げていきたいと思います。
私たちがLLMから知っていることは、結果報酬を伴う強化学習が、LLMにおける思考連鎖の推論を本当にスケールアップさせたということです。これはまさに前回のビデオで取り上げたトピックでした。そして今、ビジョン言語モデルエージェントを視覚的なリアルタイム環境での行動推論のためにトレーニングすることは、まだあまり探索されておらず、確立されていません。AI研究の最前線にいるということですね。そして今日、中国の清華大学の同僚たちから全く新しい研究が発表されました。
彼らは「ビジョン言語モデルで崩壊を発見した」と言っています。購読者の皆さんはすぐに理由を理解できるでしょう。なぜなら、偶然にも前回のビデオでまさにこのことについて話したからです。そして今、同じアイデアをビジョン言語モデルに使用しています。中国の同僚たちは「報酬が行動の結果のみに基づいている場合、古典的な強化学習はビジョン言語モデルにおける思考連鎖の推論を促進することに失敗し、『思考崩壊』と呼ばれる現象につながる」と言っています。不完全な推論、無効な行動、負の報酬、システムが崩壊するのです。
「わかる、前回のビデオで見たから」と思うでしょう。そのとおりです。今、中国の友人たちは「ビジョン言語モデルで検出したこの崩壊に対抗するために、プロセスガイダンス、つまり進捗報酬システムの必要性を強調し、各強化学習ステップでエージェントの推論を評価し改良する自動補正器を提案する」と言っています。補正器AIシステム、追加の外部補正器システムが各ステップで推論を再定義するのです。そして彼らはこのシステムをGTR（guided thought reinforcement、誘導された思考強化）と呼んでいます。人間のラベル付けなしで動作します。
「これは前回のビデオのトピックとまったく同じだ」と思うでしょう。前回はメタ強化微調整について話し、昨日CMU（K-MAL大学）がMRTと呼んだものについて話しました。研究の最先端では、同じ日に同じことが起こることがあります。純粋なLLMでも起こり、ビジョン言語モデルでも起こり、同じ効果について話しています。昨日はこれを説明し理解しました。今日の論文を理解するのが簡単になりました。
これが今日の論文です。2025年3月11日付の「GTR：誘導された思考強化」で、強化学習ベースのビジョン言語モデルエージェントトレーニングにおける思考崩壊を防ぐものです。「なんて簡単なんだ！」と思うでしょう。実にそのとおりです。この論文では、思考補正が従来のPO（Policy Optimization）損失と並行して教師あり微調整損失を通じてどのように実行されるかを詳述しています。これは昨日のビデオで話したことと同じです。
中国の友人たちのGTRフレームワークを見てみましょう。簡単です。ビジョン言語モデルエージェントがあり、このエージェントも思考を持っています。「キッチンにいる、冷蔵庫を探している」などと言います。これらの思考は行動から分離されています。これが主なアイデアです。エージェントの思考トークンは完璧ではありませんが、補正器AIモデルがあります。これは最高のビジョン言語モデルで、ツール使用や関数呼び出し機能も持っています。これは非常に効果的です。
このビジョン言語モデルが補正器AIとして、ビジョン言語モデルエージェントAIを補正します。補正によってこれがフィードバックされ、これらの用語の差分で教師あり微調整が行われます。同時に、古典的な強化学習POプロセスにいて、POの更新が行動トークンに対して古典的な方法で機能します。それらを組み合わせると、思考プロセスと行動プロセスを統合したより良い推論のための、より良いビジョン言語モデルエージェントが得られます。素晴らしいですね。
自動思考補正があり、GTRはエージェントの思考トークンの教師あり微調整更新と、行動トークンのPO更新を実行します。緑色はこれ、オレンジ色はこれです。すぐに理解できますね。前回のビデオと同様、この補正メカニズムを指摘しておきます。これは非常に重要です。なぜなら、各強化学習トレーニングステップでこれを行うからです。
モデルが思考連鎖の思考トークンを生成した後、補正器はシステムの状態とビジョン言語モデルによって生成された推論を入力として取り、この超AI、この補正器AIは、ビジョン言語推論エージェントのための補正された思考を提供します。はるかに知的な補正AIが思考連鎖を処理し、改良された推論バージョンを出力します。この補正されたバージョンがエージェントの推論のターゲットとして機能し、エージェントは最終的な行動から計算された古典的なPO損失だけでなく、自身の思考トークンと完璧なASI補正器AIによって提供された思考トークンの差を最小化する教師あり微調整損失からも更新されます。
昨日のビデオと同様に、これらの推論の差を取り、教師あり微調整損失を作成します。この特定のモデルでは、数学的な側面は比較的簡単です。行動の対数確率を美しい項に分離できます。特定の決定の背後にある推論を表す思考トークンの連鎖の対数確率があり、選択された行動を直接示す行動トークンの対数確率があります。
スケーリング係数λに注意してください。λは思考連鎖の成分にのみ適用され、この方程式で特定の機能を持っています。その機能は、思考の長いシーケンスを行動トークンの短いシーケンスに対してバランスさせることです。これは重要なパラメータで、注意が必要です。バランスは重要です。トレーニングプロセスが最終的な行動の正確さだけでなく、中間推論の質と一貫性も報酬とすることを保証するからです。λをどれだけ強く設定するかが結果に大きな影響を与えます。
もしこれが初めてで「PO損失とは何か、なぜ行動の対数確率について話しているのか、これらはどのように相互接続されているのか、なぜこれを計算する必要があるのか」と思うなら、ここに政策勾配の最適化と安定性、勾配信号自体のために対数確率を使用する理由の非常に短い説明があります。
2つ目の部分は美しいです。期待値演算子、関数代数を見ています。最も簡単なケースでは、2つの損失関数があります。行動aに対するPO損失関数と、補正器の項で教師あり微調整を行う損失関数です。これがすべてです。美しいクリップ機能がありますが、これらが損失関数であり、これが数学で、これがコードで、実装は比較的簡単です。
昨日、ほぼ同じことをしました。用語は少し異なり、昨日MRTと呼んだものの2つのインスタンス化があり、教師あり微調整バージョンを見ました。これはスターモデルとLLMに基づいていますが、昨日も補正器AIを使用しました。昨日、K-MAL大学のチームはそれをメタプロモと呼び、今日は補正器と呼んでいます。言葉の背後にあるもの、プロセスの流れの美しさを理解すれば、用語は気にしません。
そして再び、行動クローニング教師あり微調整ステップでは、メタプロモとの差を再度使用し、2つ目のインスタンス化は強化学習バリアントでした。オンポリシーサンプリングを行い、報酬を正規化し、進捗ボーナス報酬のこの差をちょうど計算しました。昨日の「新」はただの最良の推測答えでしたが、今日、中国の友人たちはもっと良いアイデアを提供してくれました。完璧なツール使用機能を持つビジョン言語モデルを提供してくれたのです。
偶然にも、今日はOpenAIからもツールの使用を簡単にする方法が示されています。したがって、スパースな結果報酬関数だけに頼るのではなく、この補正項があるシステムを持っているのです。昨日のビデオの最後でダンス進捗報酬について詳しく説明しました。ここでも同じことが起こっています。明確にするために、並べて示します。アイデアは同じだからです。
GTRの鍵となるビジョンは、既製のビジョン言語モデルを補正器AIとして使用し、エージェントの中間思考を継続的に評価し改良することです。美しいプロセスガイダンス、進捗報酬システムです。昨日は異なる観点から同じ数学的な項を見ました。これは進捗報酬の定義で、進捗メトリックまたは進捗エピソードセットがあり、コンテキストCが与えられて、ビデオで説明しました。これもメタプルーフポリシーへの差だけでした。
そして微調整のためのサロゲート目的、標準微調整目的のためにほぼ同じことをしました。この追加の項があり、進捗をここに持ってきて、微調整目的にここに追加しました。同じアイデアが、ほぼ同じ日に、惑星の異なる場所で美しく再発明されたのを見ることができます。
深圳の清華大学では、補正器モデルでいくつかの実験を行い、「補正器モデル自体に頼るだけでなく、ツールを削除したらどうなるか、AIシステムから関数呼び出し能力を削除したらどうなるか」と考えました。結果は恐ろしいものでした。タスクを分析し解決する能力が著しく損なわれ、エージェントは合理性を欠き、推論は非論理的なままでした。したがって、GPT-Omniなどの補正器モデル、またはAI自体では十分ではありませんでした。正しいツール使用機能を持つ補正器モデル、AIシステムが必要です。
数学的論理が必要なら、Prologや好きなものを使用してください。数値計算にはC++、物理実験には何でもPythonを使用してください。ツールへのアクセスが必要です。彼らが示したように、補正器モデルとしてのLLMは、実世界環境で動くロボットのビジョン言語モデルには十分ではありません。
私はこのアイデア、つまり補正器AIとしての外部ビジョン言語モデル、スーパーAIが特に気に入っています。ツール使用がここで非常に重要で美しいです。小さなビジョン言語モデルエージェントの推論ステップを修正する専門の外部エージェントがあります。素晴らしいですね。
論文を読めば、昨日のビデオを見ていれば、同じアイデアだからすべてすぐに理解できると思います。簡単にまとめると、この新しいGTRはツール使用機能を持つ補正器AIシステムを活用して、強化学習トレーニングの各ステップでビジョン言語モデルの中間推論プロセスを監督し改良します。補正器は思考崩壊を防ぎ、安定した推論プロセスの構築を助けるため不可欠です。これは、示したように、強化学習の目的と並行して教師あり微調整を通じて行われます。
私たちの間だけの話ですが、なぜ私たちは何万人時もかけて推論LLM、ビジョン言語モデルを構築し、何千ものNVIDIA GPUを使用しながら、さらに追加の補正器AI、さらに良いモデル、より多くのGPU、より多くのテスト時間計算スケーリング、より多くのツール使用、より多くのデータベースへのアクセス、より多くの数値スーパーコンピュータへのアクセスが必要なのでしょうか？冗談ではないですよね？なぜ1つのAIシステムだけでは不十分なのか？なぜ現実にビジョン言語モデルロボティクスを機能させるためにAIシステムの階層が必要なのか？これは最終的な解決策ではありません。このアイデアに満足していません。
中国の友人たちは結論で「困難なタスクに対するLLMエージェントの強化学習微調整中に、エージェントに思考崩壊を特定した。適切に思考する能力を失うという思考崩壊だ。解決策を見つけた」と言っています。「これは補正器AIを持つ誘導された思考強化であり、効果的なプロセスガイダンスにつながる」と。美しい論文です。読んでみてください。追加の論文やベンチマークなどがたくさんありますが、本質的には昨日のビデオとまったく同じなので笑ってしまうでしょう。
最後に1つ注目したいのは、彼らが「リソースの制限により、70億の訓練可能なパラメータを持つモデルでのみ実施する」と述べていることです。清華大学、北京大学、テンセントなどの有名な機関が、70億AIモデルを超えるリソースを持っていないなんて。これがヨーロッパの私だけに起こっていると思っていましたが、中国でも同じ制限があるのですね。NVIDIAよ、世界中の大学をインフラでもう少し助けてください。
2025年3月11日と2025年3月12日のAI研究の最先端がどこにあるのか、Google DeepMindロボティクスが登場し、私たちがビジョン言語モデルで遭遇する問題が何であるのか、そしてグローバルAI研究コミュニティとして見つけた解決策が何であるのかをもっと見たい場合は、このチャンネルを購読してください。次のビデオでお会いしましょう。