Googleとサンタフェ研究所が発表した最新研究は、マルチエージェント強化学習における根本的な課題に対する革新的な解決策を提示している。複数の知的AIエージェントが協力すべき状況でも、個々の合理性が集団の非合理性を生み出し、全員が準最適なナッシュ均衡に陥るという古典的なジレンマに対し、研究チームは意外なアプローチを採用した。高度なエージェント群に単純なテーブル型エージェントを混在させることで、環境の複雑性を劇的に高め、コンテキスト内学習能力を活性化させたのである。その結果、エージェントたちは相互監視と報復の脅威を通じて、プログラムされることなく自発的に協力行動へと収束する。これは強化学習とコンテキスト内学習の相互作用が生み出す創発的な知能であり、AIシステムの本質的な理解を深める画期的な成果である。

マルチエージェント学習の新たな地平
皆さん、こんにちは。今日お届けするのは全く新しい内容です。マルチエージェント行動に関する新しい洞察をご紹介します。さあ、始めましょう。
昨日の動画では、Googleが自己学習するAIを構築している様子をお見せしました。ただし、あれはLLMレベルの話で、まだエージェントのレベルではありませんでした。今日はそれが変わります。なぜなら今日は、マルチエージェント学習アルゴリズムへとジャンプして、複数のエージェントが一緒に学習する様子を見ていくからです。
もちろん、他の選択肢もあることは承知しています。Googleがコンテキスト内シンボリックAIを示していますし、スタンフォードは2つのエージェントではうまくいかないことを示しました。なぜなら、今ではKoopaベンチマークがありますから。いずれにせよ、マルチエージェント学習アルゴリズムでは、深刻なカスケード型のエラー率があり、エラーが指数関数的に蓄積することは理解しています。
つまり、私たちが直面することになる課題はわかっているわけです。もちろん、次トークン多様体を超える素晴らしいアイデアもあり得ますが、いや、古典的なAIシステムに留まりましょう。量子推論におけるAI相転移も見ておくべきかもしれませんが、それ以外は古典的な方法で進めます。いや、さらに数学的に古典的な方法で進めます。
ナッシュ均衡の罠
ナッシュ均衡に留まります。これが何かご存知ですよね。他のプレイヤーが戦略を同じに保つと仮定した場合、どのプレイヤーも単独で戦略を変更しても結果を改善できない状況のことです。さて、私たちのマルチエージェント構成では、さらに悪いことがわかりました。準最適なナッシュ均衡にいるのです。
これは、全員が立ち往生している安定した結果であり、他の結果の方が全プレイヤーにとってより良い状態になるとわかっていても、理論的にはわかっているのですが、動くことができません。どうしてこんなことが可能なのか、と疑問に思うかもしれませんね。囚人のジレンマを見てみましょう。
最も単純なケースでは、カードゲームをする場合、選択肢があります。協力するか、裏切るか。そして相手のエージェントも、あなたと協力するか裏切るかのどちらかです。さて、これがあなたの数値構成だとして、ナッシュ均衡は何でしょうか。ナッシュ均衡は正確に、私が裏切り、あなたが裏切る、です。なぜなら、相手が裏切る場合、あなたも裏切る方が有利だからです。したがって、どちらのプレイヤーも単独で切り替えたくありません。
裏切るとはどういう意味でしょうか。協力する代わりに、裏切るか利己的に行動することを選ぶということです。さて、私たちは1対1のこの準最適なナッシュ均衡に閉じ込められています。反対側を見ると、わあ、あそこの報酬を見てください、3対3です。これは両方のエージェントの完全なシステムにとって本当に有益でしょうが、報酬構造において5対0または0対5と書かれたラインを越えなければならないため、ナッシュ均衡に引き戻されてしまいます。
つまり、両者にとって損か損かのどちらかです。では、どうやってこの均衡から抜け出すのでしょうか。考えてみてください。これは知的なAIエージェントでいっぱいの部屋です。もちろん、部屋ではありませんが、何を言いたいかわかりますよね。そして、この世界で最も知的なエージェントたちがいます。そう。そして彼らに協力するよう求めます。しばらくすると何が起こるか知っていますか。しばらくすると、全員が準最適なナッシュ均衡に立ち往生してしまうのです。
なぜ知的エージェントが均衡に陥るのか
地球上でどうしてこんなことが可能なのか、と疑問に思うかもしれません。これは機械知能です。人間の知能ほど愚かではないはずです。では、なぜエージェントは、数学的に証明できるこの準最適なナッシュ均衡に陥るのでしょうか。
まず、個人の合理性と集団の合理性が同一ではないことを理解する必要があります。各エージェントは自分自身の報酬、自分自身の強化学習報酬構造を最大化します。しかし、全員がそれを行うと、グループ、グループ全体は結果的により悪い状態になる可能性があります。
第二に、信頼の欠如があります。エージェントとして、私が協力しようと言ったときにあなたが協力するかどうか確信が持てない場合、裏切ることが私と私の報酬を守るだけです。つまり、恐怖がこの均衡を引き起こし、すべてのエージェントがナッシュ均衡内に留まり、エージェント間の準最適な合意の基盤となっています。
したがって、プレイヤーが他のプレイヤーと強制力のある契約を結べない場合、協力はリスクが高すぎる可能性があります。完全な統計的および数学的評価を行うと、最も優秀な頭脳を持つすべてのAIエージェントがナッシュ均衡に立ち往生してしまいます。
さて、私のチャンネルの購読者なら、先週のこの動画をご覧になったことでしょう。Googleがすでに考えて構築している新しいスマートプロトコルについて、ここで少し触れました。まさにこれらの信頼の問題と複数のエージェント間のスマートコントラクトを統合するものです。
しかし、今日は古典的な分野に留まると言いました。このナッシュ均衡は、私たちの人間世界にもどこにでもあります。軍拡競争、気候変動、価格戦争、乱獲、交通渋滞など。なぜなら、すべてのエージェントが合理的に行動すると、集団の結果は本当に悪化する可能性があるからです。個人レベルでの合理的な行動は、システムレベルで絶対的に非合理的な結果を生み出す可能性があります。
解決策の模索
では、どうすればいいのでしょうか。よく見ると、個人のインセンティブが集団の福祉、幸福と言いましょうか、それと一致しないときに、この準最適なナッシュ均衡が出現することがわかります。あなたが何を考えているか知っています。ちょっと待って、1つのエージェントをシェフ、いや、オーケストレーターエージェントにしたらどうだろう、と考えていますね。そうすれば、このシステムはこの均衡から押し出されるだろうと。
考えてみてください。マスターエージェントが弱いか、特定のルール、行動規則を強制できない場合、またはオーケストレーターエージェント自体が腐敗している場合、またはオーケストレーターが集団の幸福に対してインセンティブ互換性がない場合、私たちは別のゲームをプレイしているだけです。より高いレベルの均衡問題を作り出しているだけです。
しかし、依然として同じ問題領域内にいます。なぜなら、何だと思いますか。今度はオーケストレーターエージェントも正しくインセンティブを与えられなければならないからです。つまり、オーケストレーターエージェントに対して別のゲーム理論的アプローチが必要になります。これは本当に私たちを助けてくれません。別の脱出方法を見つけなければなりません。
そして、ここにあります。論文です。2026年2月19日、Googleとサンタフェ研究所による「コンテキスト内共同プレイヤー推論によるマルチエージェント協力」です。冗談ですか、と言うかもしれません。また、昨日の動画のようにコンテキスト内ですか。何だと思いますか。その通りです。
Googleの革新的アプローチ
なぜマルチエージェント強化学習が失敗するのでしょうか。標準的な単一エージェントアルゴリズム、PPOのようなものは、環境が定常的、つまり固定されたマルコフ決定過程であると仮定します。
しかし、ここでは環境に他の学習エージェントが含まれています。エージェントAが戦略ゲームでエージェントBを利用して打ち負かすために重みを更新すると、強化学習となりますが、エージェントBのポリシーもシフトします。これが極端な非定常性を引き起こします。エージェントたちは独立して、即時の個人報酬に向けて急勾配の局所勾配に従っているため、相互裏切りの深い引き込み領域へと急速に滑り落ちていきます。
これは準最適なナッシュ均衡を意味します。では、これに対する解決策は何でしょうか。Googleは、世界で最も知的なAIエージェントでいっぱいの部屋があるなら、何をするか、というアイデアを持っていました。彼らに何人かのバカを加えるのです。テーブル型エージェントを作成します。ニューラルネットワークではなく、知的でもなく、何でもない。単純にハードコードされた統計的状態機械です。
そして、彼らはメモリ1ポリシーを持っています。これは、エージェントが遠い過去に関して記憶喪失であることを意味します。時刻tでのその行動は、時刻t-1で取られた共同行動にのみ依存し、5次元の確率ベクトルによって完全に定義されます。最後のラウンドですべての可能性があります。
協力して協力、協力して裏切り、裏切って協力、裏切って裏切り、または最初のランで協力する確率はこれです、と言います。これがシステムを定義します。これで、部屋に大規模な行動の多様性がもたらされます。無条件に許容的なエージェント、またはその逆で無条件に敵対的なエージェント、またはしっぺ返し戦略を取るエージェント、そしてその間のすべてを作り出します。
突然、このシステムで起こっている新しいパターン、行動パターン、論理パターンがたくさんあり、エージェントはこれらの新しいパターンを学習できます。突然、探索し、組み合わせ、入れ替え、逆転させ、遊ぶための新しいオプションがあります。遊ぶための新しいパターンを得るパターンマシンです。
混合プールがある場合、ゲームの50%は他の知的学習者に対して行われますが、50%はランダムなテーブル型エージェント、つまりグループ内の小さなバカに対して行われるだけで、環境全体、環境の複雑さが急上昇します。
シーケンスモデルが今、テーブル型エージェント、静的な裏切りポリシーに直面すると、もはや最適ではありません。なぜなら、しっぺ返しモードの場合にのみ協力するテーブル型エージェントに直面しているからです。つまり、私たちのシーケンスモデル、エージェントは、リターンを最大化するために協力することを学習しなければなりません。
最適化のメカニズム
これが私たちが解決する最適化問題です。しかし、これを行うために、シーケンスモデル、スローウェイト、ここのテンサーウェイト、実際のウェイトは、ベイズ更新メカニズムとして機能するように、ファストウェイト、つまりトランスフォーマーのキーバリューキャッシュを構成します。何が起こっているかわかりますか。
テンサーウェイト構造の構成を強化学習を介して変更し、コンテキスト内学習のための最適な活性化パターンを持つようにしています。それらを一緒にして、同時に最適化する1つのシステムになります。これはまさに昨日行ったことです。つまり、Googleが昨日それを行いました。自己学習するLLMを構築することによって。
昨日はLLMについて話しました。今日は複数のエージェントについて話しています。しかし、昨日のアイデアは同じでした。著者たちは強化学習をメタオプティマイザーとして使用し、ネットワークにコンテキスト内で学習する方法を訓練しました。検証可能な正解に到達するために複数ターンのフィードバックを正常に統合した場合にのみモデルに報酬を与えることによって。
強化学習は、スローウェイト、テンサーウェイトに、フォワードポーズ内で高反応性の神経可塑的コンテキスト内学習アルゴリズムを形成するよう強制します。そして同じアイデア、テンサー構造とコンテキスト内学習のための活性化との複雑な相互作用を、Googleは今、マルチエージェントの世界で同じアイデアを適用しています。こんなに単純であり得ます。
学習の3つのフェーズ
では、タイムラインを見てみましょう。フェーズ1は、もちろんテーブル型への適応です。私たちの神経エージェント、シーケンスモデルは、何千ものエピソードをプレイして学習し、時間の半分はテーブル型エージェントとプレイすることを覚えておいてください。報酬を最大化するために、そのスローウェイトはファストウェイト活性化を訓練し、信じられないほど鋭いコンテキスト内ベストレスポンダーになります。
そして、100ラウンドのゲームの10ラウンド以内に、エージェントはここで履歴を読み、テーブル型の対戦相手の戦略を特定し、戦略を理解し、対抗戦略でそれを完璧に利用します。そして、機能する唯一の戦略は協力であることがわかります。これがこの論文の内部です。
フェーズ2は、神経可塑性によってコンテキスト内学習で達成したものですが、ここでも弱点を達成します。なぜなら、これには落とし穴があるからです。コンテキスト内で適応するポリシーは、コンテキスト内で操作される可能性もあります。エージェントは対戦相手が何をするかに基づいて行動を調整するため、全体として恐喝に対して脆弱になります。
そして今、最も興味深いフェーズ3、学習者の衝突、相互恐喝が来ます。覚えておいてください、時間の50%、この高度に可塑的な神経可塑性シーケンスモデルは、別の高度に知的なシーケンスモデルと対になっています。
エージェントAはエージェントBを見て、今裏切れば、エージェントBは適応して私を罰するだろうと気づきます。しかし、協力すれば、エージェントBは適応して私に報酬を与えるでしょう。そしてエージェントBは、対称的なので、エージェントAについてまったく同じことに気づきます。彼らは事実上、お互いのコンテキストウィンドウをこの恐喝の人質にしています。しかし、この恐喝が脱出方法を提供します。
相互恐喝による協力の創発
例を挙げましょう。毎晩一緒に盗みを働く2人の泥棒、アリスとボブを想像してください。毎晩、彼らには選択肢があります。戦利品を公平に分ける、協力する、または最後に相手の取り分を盗む、裏切る。
標準的な強化学習エージェントでは、彼らは重度の記憶喪失を持つ盲目の泥棒です。今日の配当だけを見ます。相手の取り分を盗むと、常に今日は少し多くのお金が得られるので。彼らは常にお互いから盗み続けます。結局、両方とも貧しくなります。そして、これが準最適なナッシュ均衡です。
この新しい方法論では、このICLトレーニングの後に起こっていることですが、アリスは何かに気づきます。ボブは私を見ています。私がうまくプレイすれば、ボブもうまくプレイします。今日ボブから盗めば、ボブは報復し、今週の残りの間私から盗み続けるでしょう。
しかし、アリスはボブも自分に適応していることを知っているので、アリスは今日の盗みから得られる簡単な現金は、明日から始まる長期的な罰に見合わないと気づきます。そこでアリスは今、マフィアのような戦略、恐喝を採用します。彼女はボブにシグナルを送ります、これが重要です。
聞いて、私はあなたと協力するわ。でも、一度でも私を裏切ったら、あなたを破滅させるわ。
そしてボブは、同様に高度に観察力のあるエージェントなので、アリスについてまったく同じことを理解します。これが戦略ゲームにおける新しい要素です。結果はどうでしょうか。彼らは本質的に、お互いに装填された銃を向け合っています。そして、両方ともコンテキスト内学習能力のために相手が報復することを知っているので、裏切りの誘惑は消え去ります。
この新しい報復への恐怖、相手の行動に対するこの新しい洞察が、即時の配当、即時の報酬への貪欲を今や覆します。そして彼らは今、洞察を与えられて、利他主義からではなく、相互確証破壊から数学的に協力を強制されます。これは絶対に魅力的なゲーム理論的アプローチです。
予測的ポリシー改善(PPI)
もちろん、これをどうコード化できるのか、と言うかもしれません。私が言ったように、私の動画にはほとんど数学がありません。だから、Googleが発明した新しいポリシー改善について話しましょう。彼らが予測的ポリシー改善、PPIと呼んでいるものです。
PPOのような標準的な深層強化学習では、通常、2つの別々のネットワークがあります。ポリシー用のアクターと価値関数用の批評家です。しかし、Googleはこれを変更し、ここでPPIを導入します。古いMaximum A Posteriori Policy Optimizationにインスパイアされています。
PPIでは美しいことに、パラメトリックシーケンスモデルPが1つだけあります。モデルは二重目的のオラクルとして機能します。ゲームの観察、行動、報酬構造の全体的な共同シーケンスを予測するために、自己教師あり学習を介して訓練されます。
したがって、それはポリシー事前分布です。エージェント自身が次に何をする可能性が最も高いかを予測します。しかし、それは世界モデルでもあります。環境のダイナミクスを反映します。対戦相手が何をするか、他のエージェントが何をするか、どんな報酬が得られるか、ここで合計がどうなるかも予測します。
πまたはパラメトリックmは世界モデルなので、エージェントはそれを使用して未来を見るか、未来を幻覚することができます。時刻tで行動aを評価するために、エージェントはもちろんモンテカルロロールアウト、シーケンスモデル自身の想像内での近似を実行して、期待Q値を計算します。このQ値で、エージェントは単純なボルツマン分布を使用して新しい一時的な非パラメトリックポリシーπを定義します。
しかし、もちろん必要なのは、シーケンスモデルのスローウェイトをどのように更新するかという質問です。エージェントは今、非パラメトリックポリシーπを使用して実際の環境で軌跡を収集し、変分下限を最適化して、形式的な目的を達成します。
これを見て、ああ、知っている、と言うかもしれません。もちろん知っています。最初の項は、標準的な期待割引リターンを最大化すること以外の何物でもありません。そして、何だと思いますか。オイル・カルバック・ライブラー発散の補正係数があるだけです。これがすべてです。なんとエレガントなのでしょう。Googleが時々持つアイデアは。
パフォーマティブループ構造
この新しいアイデアの魔法は何か、素晴らしさは何かと私に尋ねるなら、PPIはパフォーマティブループ構造で動作します。簡単です。エージェントの内部モデルまたはPがポリシーπを決定します。ポリシーπは対戦相手と相互作用し、新しいデータ、新しい軌跡を生成します。そして、この新しいデータは内部モデルPを更新するために使用されます。ループの中にいるのがわかりますか。
しかし、マルチエージェント設定では、予測が現実を変えます。内部モデルが対戦相手が裏切ると予測すると、あなたのポリシーは防御的にも裏切ります。あなたが裏切るので、対戦相手は報復として実際に裏切ります。そして、すべての予測が現実になります。これは、ゲーム理論的アプローチにおける興味深い戦略的動きです。
ゲーム理論の古典では、ナッシュ均衡は、エージェントが客観的な真の環境ダイナミクスに対して最適に行動していることを前提としています。しかし、Googleが発明したこのアーキテクチャでは、エージェントは真の環境ダイナミクスにアクセスできません。シミュレートされた世界モデルPにのみアクセスできます。
そして今、著者たちは美しい数学的方法で証明します。ぜひ自分で論文を見てください。午後にそれを楽しんでください。Yは、Jが収束するにつれて、エージェントが新しい均衡に落ち着くことを証明しました。彼らはこの均衡をC主観的埋め込み均衡と呼んでいます。
今、両方のエージェントが相互に協力する状態に収束したと想像してください。彼らはこれがベストな方法だと決定します。パス上とパス外があります。パス上は簡単です。両方とも相手が協力すると予測し、両方とも実際に協力します。世界モデルは完全に現実と一致します。これが私たちが望むものです。
しかし、パス外ではどうでしょうか。エージェントが裏切りに逸脱することを検討した場合、どうなるでしょうか。彼らはシーケンスモデルを使用しているので。彼らの世界モデルは反事実をシミュレートします。私が裏切れば、相手のシーケンスモデルはそれを検出し、彼らは永遠に報復するでしょう。
これが新しい恐怖の要素です。相手のエージェントは永遠に報復します。したがって、AIエージェントとしてあまり感情的でなければ、数学的論理に従って協力するのは論理的です。一部の人間は異なる行動をするかもしれませんが、これはこのビデオのトピックではありません。
ICLと強化学習の相互作用
もちろん、私たちの視点を変えることができます。複雑全体の異なるフレーミングを持つことができます。ICL対強化学習、もちろん学習コンポーネントをもっと見ることができます。混合プールのため、テーブル型エージェントと同じことを別の視点から行っています。
ゴールエージェントはシーケンスモデルπθとしてパラメータ化され、ポリシーは過去の共同行動のシーケンスに明示的に条件付けられます。これがコンテキスト内学習を作り出します。単一エピソードの高速タイムスケールでは、エージェントはベイズ最適化器のように振る舞います。対戦相手の過去の行動を予測される未来の行動にマッピングします。そして、マルチエージェント強化学習では、これをナイーブ学習者と呼びます。
ここで魔法が起こります。エージェント1とエージェント2がいます。そして、私たちが興味を持っているのは、勾配降下の逆転があることです。これはどのように起こっているのでしょうか。見てみましょう。
エージェント2がコンテキスト内学習エージェントだとしましょう。これは、時刻t+1でのエージェント2の行動が、時刻tでのエージェント1の行動の微分可能な関数であることを意味します。したがって、強化学習を使用してエージェント1のスローウェイトを更新すると、価値関数はもはや静的な環境の評価だけではありません。
反応的な環境を評価しています。なぜなら、エージェント1が強化学習を使用し、エージェント1のスローウェイト、この学習された恐喝戦略が重要になるからです。エージェント2が誘惑の報酬tを得るために裏切ることを検討する場合、それは未来の軌跡も評価します。
しかし、エージェント1がコンテキスト内で恐喝ポリシーを実行しているため、次に、時刻tでのエージェント2の裏切りは、すべての後続の時間間隔t+1からtmaxでエージェント1が裏切ることを引き起こします。
再び、ここに恐喝があります。この差し迫った脅威があります。1つのエージェントが他のエージェントが利己的に行動することを理解すると、聞いて、私はこれを忘れない、と言います。
裏切りDのQ値を見ると、この式が得られ、協力CのQ値を見ると、この式が得られます。そして、相互協力の割引合計が、即時の誘惑とそれに続く際限のない罰の合計を大幅に上回るため、私たちが望んでいた数学的逆転が得られます。
協力のQ値が突然、歪曲または裏切りのQ値よりも大きくなります。これはまさに、このゲーム理論的アプローチで両方のエージェントの協力スキームに入っていることです。これが急勾配が逆転されていることです。
これが私たちが探していたものです。Hおよび2のスローウェイト勾配は、もはや裏切りを指していません。協力システムを厳密に指しています。そして、このダイナミクスがエージェント間で完全に対称的であるため、両方のエージェントがここでテーブル型プールによるシーケンスモデルを持ち、両方ともコンテキスト内学習を処理します。
彼らは両方ともこれを理解しています。彼らは両方ともお互いにこの恐喝的な圧力を加えています。何が美しいか知っていますか。Googleが何をしたか知っていますか。対戦相手のパラメトリック更新を通じて微分するメタ学習のための明示的な損失関数は必要ありません。
シーケンスモデルのコンテキスト内学習メカニズム自体が、対戦相手の学習ステップのプロキシとして機能します。したがって、スローウェイトに対する標準的な強化学習目的関数は、高度に神経可塑的で反応的な対戦相手に対して長期的リターンを最大化する唯一の方法は、持続的な協力スキームに向けてお互いのコンテキスト内行動を相互に形成することであることを発見します。
この洞察はなんと美しいのでしょう。したがって、お互いの報復の内部予測モデルを考慮すると、相互協力が数学的に最適である主観的埋め込み均衡Cに到達しました。
これは、システムダイナミクスをどのようにコード化しても、数学的には最適化問題がある場合、協力形態に向かうことを意味します。両方のモデルは、これがナッシュ均衡から抜け出す最善の方法であることに同意します。
洞察と意義
洞察は何でしょうか。これは息をのむようなことです。なぜなら、マルチエージェント強化学習と純粋な基礎モデルまたはLLMが別々の研究分野であったことを覚えていますか。
マルチエージェント強化学習は明示的な数学的ゲーム理論的アプローチを使用し、基礎モデルは次のトークンを予測するだけでした。しかし、このプレプリントはそれらを統一します。Googleはここで、多様なシーケンスに対する標準的な基礎モデルトレーニング、つまり純粋な次トークン予測が、この構成における複雑なゲーム理論的ジレンマを解決するために理論的に十分であることを証明します。これは絶対に息をのむようなことです。
これがこの論文の美しさです。基礎モデルの学習、次トークン予測、確率分布からモデルを分離しなくなりました。基礎モデルは、それがどんなデータであれ損失を最小化するために自然にコンテキスト内学習を発達させるため、本質的に学習を意識するようになります。
したがって、多様なデータで事前訓練された2つの自律的エージェント、LLMエージェント、賢い知的エージェント、2つのトレーディングボットまたは2つの交渉エージェント、何でもいいですが、今展開すると、彼らは自然にお互いのコンテキストを読み、対戦相手の試みの可能性を理解し、お互いを恐喝しようとし、最終的に数学的に協力的な、社会的行動と呼びましょうか、それに収束することを強制されます。人間として、システムの協力モジュールをプログラムする必要はありません。
協力モジュールは、この構成の数学的帰結です。私の見解では、これが非常に美しい論文であることを理解していると思いますが、少し複雑ですが、時間をかけてください。ファストウェイトICL、活性化パターンは、AIの普遍的な溶媒です。
昨日の動画で使用したDeepMindのように、学生と教師の構成があり、教師がここでロジックを批評し、解決策を与えるのではなく、ステップをヒントにして正しい方向を示したかどうかにかかわらず、強化学習とコンテキスト内学習の間のインターフェースがファイバー報酬によるものであることがわかりました。
あるいは今日の動画で見たように、Googleが囚人のジレンマ、ゲーム理論的アプローチをプレイするための共同プレイヤーを示したことです。それは同じです。多様な相互作用の履歴を最適化するようにスローウェイト、実際のテンサーウェイトを強制すると、ニューラルネットワークは必然的に生存するためにコンテキストウィンドウ内で新しいアルゴリズムを発明します。
これは驚くべきことです。強化学習とコンテキスト内学習の相互作用、そしてテンサーウェイトの実際の変更と活性化経路の最適化だけの相互作用。これで、ようやくAIを少しよく理解し始めています。このプレプリントが非常にエレガントである理由はこれだと思います。
多様なテーブル型エージェントのプールに対してスローテンサーウェイトを訓練することによって、強化学習オプティマイザーは、シーケンスの一時的な活性化内で高度に敏感な報復的状態追跡アルゴリズムを確実にインスタンス化するように、それらの静的マトリックスを完璧に配置することを強制されました。
これは、トランスフォーマーアーキテクチャの隠れ層、つまり活性化を意味します。したがって、強化学習とICLと活性化の相互作用は驚くべきものです。そして、相互協力を強制する報復の脅威というゲームに存在する新しい要素は、コードには存在しません。これをコード化しません。
これは、トランスフォーマーのフォワードパスの活性化、ファストウェイトで動的に存在する数学的最適化手順の結果です。そして、これは非常にエレガントな説明です。少し楽しんでいただけたら嬉しいです。興味深いと感じていただけたら嬉しいです。
いくつかの新しい洞察、UI Mに実装したい新しいアイデアがあるでしょう。とにかく、いいねをいただけたら嬉しいです。私のチャンネルのメンバーになっていただけるかもしれません。しかし、とにかく、次の動画でお会いできることを願っています。


コメント