本動画は、AIエージェントがより賢く学習するための新しい勾配最適化手法について解説している。従来の強化学習では、エージェントは勾配を盲目的に追従するだけであったが、新たに提案されたIRPO(Intrinsic Reward Policy Optimization)フレームワークでは、基地ポリシーが複数のスカウトエージェントを探索空間に送り出し、それらが持ち帰る情報をヤコビ行列を通じて曲率情報として活用する。これにより、数学的空間の複雑なトポロジーを考慮した2次補正が可能となり、従来のホワイトノイズテレビ問題のような学習の幻覚を回避できる。AIの未来は単純なスケールアップではなく、より賢い勾配最適化にあるという主張が展開されている。

より賢いAI勾配の新しい地平
こんにちは、コミュニティの皆さん。今日はAIのより賢い勾配について話をしましょう。
まず最初にご紹介するのは、香港中文大学の研究です。2026年1月29日に発表された、エージェント向けの推論報酬モデルを探求した研究になります。この研究では美しい分析が展開されており、多面的な推論報酬モデルという特定のエージェント構成が導入されています。これはテキスト批評を全体論的な推論報酬構造の中で改善するように設計されたものです。
しかし、さらに優れた研究をご紹介しましょう。純粋に数学的なアプローチの研究です。スパース報酬環境における内在的報酬ポリシー最適化。これも2026年1月29日に発表されました。イリノイ大学アーバナ・シャンペーン校によるものです。本当に美しい研究ですね。ただ、数学の部分について少しお手伝いさせていただいてもよろしいでしょうか。
GitHubリポジトリと新しいフレームワークの提案
ここで見ていただいているコードはすべて、このGitHubリポジトリで公開されています。皆さんが試せるように、すべて用意されています。
さて、著者たちはこう述べています。我々は新しいポリシー最適化フレームワークを提案します。強化学習における非常に古典的なPO、そしてGRPO、DAPOなどをご存知でしょう。彼らは今こう言っています。さあ、大胆に行きましょう。極限まで行ったら何ができるか、本当に見てみようじゃないかと。
そこで今、複数の内在的報酬を活用して、事前学習されたサブポリシーなしに、外在的報酬に対して新しいポリシーを直接最適化します。そして私たちはこの新しいポリシー最適化フレームワークを内在的報酬ポリシー最適化と呼びます。
基地ポリシーとスカウトシステムの仕組み
では、見てみましょう。かなりシンプルです。基地ポリシーと基地ポリシー更新があります。そして、このシステムのコピー、複数のコピーを作成して、探索的ポリシーとします。
この探索的ポリシーでは、多くのことが起こっているのが分かります。批評システムがあり、外在的批評更新があり、内在的批評更新があり、そしてポリシー勾配の逆伝播も行っています。ですから、皆さんはこう思うかもしれません。なるほど、面白そうだと。ここで何が起きているんだろう、と。
では、まず詳しく見ていきましょう。基地ポリシーの主要な目標は何でしょうか。基地ポリシーを更新して、もちろんここで内在的報酬構造を最大化したいわけです。これが私たちの最適化、数学的最適化の体制です。
しかし、私たちはこの外在的な、いわば報酬構造を見ることができません。なぜなら、私たちは高原にいるからです。スパースなんです。消えているんです。ゼロなんです。
スカウトによる探索戦略
では、アイデアは何でしょうか。このアイデアは、前回お見せしたビデオとは異なります。今、著者たちはこう言っています。スカウトを使うんです。自分自身のコピーを小さなAIシステムとして送り出すんです。基地ポリシー更新の5つのコピーを作成して、それを未知の数学的空間を探索するために送り出すわけです。
それで、スカウト、ここでは青いものが、もちろん基地キャンプから始まります。これはコピーであり、あるいはオリジナルのコピーです。内在的好奇心、内在的報酬関数のみを使用してn段階の更新を行います。この内在的関数の美しいギルダーには、シンプルな式があります。
しかしもちろん、これが成功したら基地ポリシーに持ち帰りたいわけです。ですから、ここに後方経路が必要になります。司令センター、つまり基地ポリシー更新のところで更新を行うわけです。
司令官とスカウトのコミュニケーション
司令官がここでスカウト、つまりギルダーのn+1段階での最終位置を見るとしましょう。そして司令官はこう興味を持ちます。おや、このさまよっているスカウトは何か面白いものを見つけたかな、と。そして、定義された外在的目標を見つけたかどうかをチェックします。
そして、それが成功していれば、シンプルに自分自身のポリシー、つまり基地キャンプを特定の方法で更新し始めます。そしてここにそれがあります。
つまり、単純に次のような項があります。このスカウト、この特定のスカウトが成功したかどうか。新しい宝物、金鉱を発見したのか、外在的目標に到達したのか、成功したのか。そして、ヤコビアンと呼ばれる項があります。
ここで、シータギルダーn+1の項に馴染みがありますが、今度はそれをシータで微分します。シータギルダーn+1の項があり、すでに内在的なシータギルダーのnがあります。
曲率と2次微分の重要性
さて、ここで2次微分を行うと、この式が得られます。これは内在的目標の2次微分ではありません。しかし、これを見てこう言うでしょう。これは知っている。数学では曲率だと。
もちろん、更新は内在的景観の曲率に依存します。なぜなら、これが曲率の式だからです。もし再定式化したいなら、曲率とは何か。それは単純にこう尋ねているだけです。私たちが扱っている特定の直交部分空間で勾配がどれくらい速く変化しているか、と。
そして、これは知りたい重要な情報です。なぜなら、曲率が高い場合、つまりトポロジー的景観が複雑で、ねじれていて、何であれ、その項が大きくなり、これがヤコビ行列自体をねじることになるからです。
したがって、これは実質的に本国の司令官にこう伝えます。警告、ここの地形は混沌としている。小さなスカウトAIを送り出した基地キャンプでの小さな動きが、スカウトを状態空間の全く異なる領域に打ち上げることになる、と。
量子積分の反復と摂動理論
根本的な物理について考えてみてください。ここに反復があります。量子積分について考えると、非常にシンプルな項から始まります。それから1次補正に進み、2次補正に進みます。少し摂動理論があります。そして、どんどん近づいていきます。
そして、これがご覧のとおり2次です。ここで数学的空間の曲率に注意を払い、強化学習パラダイムのより速い学習、より速い最適化のための追加情報を得るわけです。
新手法における曲率の必要性
では、なぜこの新しい手法にこの曲率が必要なのでしょうか。お話ししたように、今や2次補正に進むわけです。標準的なRL(強化学習)アルゴリズムは、ただ盲目的に勾配に従うだけです。
しかし、この新しいIRPOは曲率を使って、この新しい探索空間の感度をナビゲートします。もし内在的景観が古いスカウトたちを行き止まりに追い込むなら、ヤコビアンは単純に司令官にこう伝えます。移動に悩む必要はない。スカウトはどこから出発しても、ここで常に立ち往生する、と。
しかし、もし内在的景観がスカウトたちを広く散らすなら、ドーム形状があるとしましょう。ヤコビアンは突然こう言います。この場所は非常に敏感だ。わずかにシフトすることで、スカウトを全く異なる場所に送ることができ、ここで金を見つけられる可能性がある。探している外在的目標を見つけられる。宝物を見つけられる、と。
混沌の回避と隠れた目標への到達
したがって、この手法は、司令官、つまり基地ポリシーに、私たちが発見している特定の景観の混沌を回避して利用することを可能にします。隠れた外在的目標に向かってスカウトをスリングショットのように飛ばすことができるんです。なぜなら、今や現場から追加情報を得ているからです。
ホワイトノイズだけを映しているテレビ画面の前に立っているAIを想像してください。通常の強化学習では、エージェントは次のピクセルを予測しようとします。あるいは特徴表現ですが、とにかく。そしてもちろん毎回失敗します。なぜなら、見ているもの、テレビのホワイトノイズはランダムだからです。
ホワイトノイズテレビの問題
そのため、古典的な強化学習のエージェントは無限の内在的報酬を受け取ります。本当に、テレビを見ることだけに中毒になり、部屋の他のすべてを無視するんです。学習していると思い込んでいます。なぜなら、私たちがエンコードした数学的アルゴリズムがあまりにも悪く、ただ見ているだけ、エントロピーが起こっているのを見ているだけで、AIは学習の進歩を想像している、幻覚を見ているんです。実際には単にホワイトノイズのテレビを見ているだけなのに。
この極端な例は、現在の限界がどこにあるかを示すはずです。ビジョン・ランゲージ・ウォールにRLを適用すると、これが起こります。進歩の幻覚です。
新手法による解決策
しかし、この新しい手法では異なります。見てください。今、スカウトがノイズのテレビを見ています。しかし複数のスカウトがいます。ですから、1人のスカウトを失うことは許容できます。
スカウトは高い内在的報酬を得ます。スカウトは言います。わあ、これを見てください、と。しかし、基地ポリシーの司令官は、スカウトが持ち帰る結果を見ます。司令官にはシンプルな質問があります。たった1つです。このテレビを見ることは、宝物や外在的報酬を見つけるのに役立ったか、と。
そして答えがノーなら、ヤコビアン、あるいはメタ勾配、これは会社のメタのことではなく、単にスーパー勾配ですが、ゼロになります。したがって、司令官は本当のシグナル、美しいシグナルを得ます。スカウトの妄想を無視して、次世代のスカウトの軍隊を、送り出したいスカウトを他の部分空間のどこか別の場所に移動させよう。この空間の他の領域を発見しよう。そして、ノイズのテレビを見続けているスカウトを失うかもしれませんが、彼は自分が非常によく学習していると思っています。
Aloe: 拡張ラグランジアン目的関数
この特定の論文で、少し数学的に深く潜りたいなら、彼らは非常に洗練された内在的報酬関数を実験しており、それをAloe(拡張ラグランジアン目的関数)と呼んでいます。少し説明させてください。
通常、エラーを測定するでしょう。この手法は、トポロジー空間上の幾何学的拡散を測定します。それが行うことは、状態グラフの固有ベクトルを計算して、数学的に最も離れた2つの状態に移動することでエージェントに報酬を与えるというものです。
ですから、これは捜索隊の広がりを最大化することに対して報酬を与えるようなものです。数学的空間のすべての小さな隅々に本当に行って、そこを探索したいわけです。そこに探している解決策があるかもしれない、探している外在的報酬関数があるかもしれない。
これは非常に高度な内在的報酬関数ですが、本当に素晴らしいです。なぜなら、彼らが課す制限とその扱い方が、次の強化学習をコーディングしたい場合について多くのことを教えてくれるからです。
Aloeの数学的構造
では、Aloeとは何か、今何をするのかと尋ねるかもしれません。かなりシンプルです。見てください、3つの項があるだけです。ラグランジュ乗数とこの滑らかさに関する何かが見えます。そして、私たちが何をしているのかすぐに理解できます。
ここで拡張ラグランジアン法を使用しています。これは、古典的な数値最適化のトリックで、システムに対する制約、ここでは直交性とベクトルのようなものを、特定の損失関数に変換するものです。
ラムダ項を使ったラグランジュ乗数を見てください。私が何を意味しているかすぐに理解できるでしょう。
アーキテクチャとフロー: 3つのネットワーク
アーキテクチャとフローが今本当に重要です。洞察を基地ポリシーに持ち帰る方法についてです。では、始めましょう。
少なくとも3つのネットワークがあります。司令官ネットワークがあります。これが基地ポリシーデータです。これは確率的ポリシーネットワーク、ニューラルネットワークです。素晴らしい。これは、マスター重みテンソル構成です。直接探索することはありません。自宅の基地キャンプの安全な場所に座って、スカウトの軍隊を指揮します。
ネットワーク1の主要な目標は、外在的報酬を最大化すること、つまり私のクエリに対する解決策を本当に見つけることです。
ネットワーク2は、スカウトネットワーク、探索的ポリシーのシータギルダーです。これは、最もシンプルな方法で言えば、司令官のクローン、あるいは司令官の複数のクローンです。これらの役割は何でしょうか。消費可能なプローブAIです。世界中を走り回ります。リスクを取ります。自分自身の脳を更新します。これは本当に重要です。
そして、見つけたものに基づいて変化します。このスカウトネットワークの目標は異なります。内在的報酬関数を最大化したいのです。
トポロジー最適化モジュールAloe
そしてもちろん、お見せしたように、Aloeと呼ばれるトポロジー最適化モジュールがあります。これは単純に固有ベクトルを計算しているだけです。幾何学的なものの役割はシンプルです。状態を観察し、エージェントが数学的空間のトポロジーのどこにいるかを表す特定のベクトルを出力します。
目標はシンプルです。環境の滑らかなマッピングを学習すること、あるいはもう少しプロフェッショナルに言えば、スペクトル損失を最小化することです。
3つのネットワークの協働プロセス
では、それらがどのように協働するか見てみましょう。スカウトは最初に、n段階、例えば5段階の更新ステップで環境に入ります。ネットワーク3、つまりAloeと相互作用します。
スカウトは状態を見て、次の状態に移動し、Aloeに結果を返します。このスカウトは状態観測をネットワーク3に送り、ネットワーク3は単純に拡散距離を計算します。空間の数学的構造において、これら2つの状態がどれくらい離れているか。
このステップの解釈は、もしスカウトがボトルネック、ドアを通り抜けた場合、ロボットシステムが家を探索している場合、値が劇的に変化するということです。スカウトが壁にぶつかった場合、内在的報酬構造は低いままです。
本当に興味深いのは、スカウトが自分自身を更新することです。これがあなたが本当に焦点を当てなければならない主要なことです。内在的報酬の勾配を計算します。これをn回繰り返し、そうすることで、司令官の元々の性格からどんどん離れていきます。なぜなら、司令官のクローンだったものが、今やこの特定の数学的空間を探索する専門家になっていくからです。
スカウトの検証と司令官の更新
そして今、システムはチェックします。この突然変異したスカウトは実際に本当のタスクを解決したか、と。スカウトをもう1エピソード実行し、今度は外在的報酬をチェックします。この特定の小さなスカウトは、金を見つけたか、正確に探していたものを見つけたか、と。
そして今、司令官の更新に至ります。元の重み構造、シータのわずかな変更が、スカウトの学習軌跡をどのように変えたか。そうすれば、スカウトはより多くの金を見つけた、あるいはより速く、あるいは学習曲線を経験した状態に行き着いたであろう、と。
これが今、司令官、基地ポリシーが自問する質問です。この更新には、更新ステップを通じた微分が必要だということをご存知でしょう。これが私たちのヤコビアンです。
ですから勾配は今シンプルです。スカウトに対する成功の感度、そして私たちのヤコビアンの単純な連鎖律です。
微分を通じた最適化の理由
そして、これが更新ステップを通じた微分を使用する理由の説明です。なぜなら、考えてみてください。司令官へのスカウトのコミュニケーションはシンプルです。後方ヤコビアンを介してコミュニケーションします。そうでなければ、移動しない、基地キャンプを離れない司令官には情報がありません。
しかし、この後方ヤコビアンは、巨大なデータファイバーケーブルのようなもので、すべての情報を基地キャンプに提供しています。もしあなたが私をわずかに左に初期化していたら、私はより速く学習し、金をより早く見つけていただろう。これはスカウトから司令官へのコミュニケーションではありません。
ですから司令官は今、次回より良い、より知的な、より高度なスカウト軍を生成して未知の領域を探索させるために、自分自身をどのように最適化すべきかを正確に知っています。
美しいアイデアと今後の展望
ご覧のように、美しいアイデアです。今やパラメータ空間最適化の曲率に本当に踏み込んでいます。ヤコビアンによる逆伝播があり、それを基地ポリシー更新に持ち帰ります。そして、強化学習のための2次補正まで、さらに微分しています。そして、これを最適化ステップを通じた微分によって行います。
少し楽しんでいただけたでしょうか。しかし、最初の論文についてはほとんど触れませんでしたが、両方の論文が、AIの未来はより大きな数字についてではなく、AIモデルを何兆もの自由パラメータにスケールアップすることではなく、AIエージェントとAIシステム内で動作するより賢い勾配についてであることを証明していると思います。
愚かな何かをもっと必要としているのではなく、もっともっと賢い何かを少しだけ必要としているのです。少し楽しんでいただけたことを願います。次回またお会いできたら素晴らしいですね。


コメント