この動画は2025年9月19日に発表された最新のAI論文10本を通じて、現在のAI技術が抱える根本的な問題点と課題を包括的に解説している。MetaのSuper Intelligence研究チームによる言語モデルの推論能力の不安定性から始まり、AIエージェントのシャットダウン抵抗問題、ベンチャーキャピタル予測の精度、合理性チェック、RAGシステムの改良、知識グラフの限界、マルチエージェント強化学習における脆弱性識別、フロー強化学習、マルチモーダルツール使用エージェントまで、AI分野の最前線で議論されている技術的課題と解決アプローチを詳細に分析している。

AI研究の現状と課題
やあ、コミュニティのみんな、戻ってきてくれてありがとうな。新しいAIの話があるんや。よく「もうAIには何も新しいことが起きてへん、挑戦もあらへん」って言う人がおるけど、今日の論文を見てみようや。今日は2025年9月19日で、今日最初に開いた論文はMetaのSuper Intelligenceチームからやったんや。この世界で一番賢い人たちがFacebookで働いとるからな。何を言うとるか見てみよか。
言語モデルは一貫性のない推論者で、同じプロンプトに対して矛盾した応答を生成することが多い。推論時の手法でこれらの不一致を軽減できるけど、LLMは核心的な問題に対処できてへん。LLMは探索的サンプリングの下で一貫した結果につながる推論経路を確実に選択するのに苦労している。
これはもう恐ろしいことやけど、多分これはネガティブなイントロだけやと思う。私はAIは素晴らしいと思うし、毎日学ぶ機会があるからな。
MAKAフレームワークによる解決策
それじゃあ始めよか。解決策は何や?彼らはMAKAフレームワークを持っとって、「もし一つのエージェントが失敗したらどうする?」って言うんや。複数のエージェントをここに置いて、お互いに通信できるようにするんや。そしてマルチエージェント合意アラインメントフレームワークでやって、すべてのインタラクティブと損失関数を計算するために本当に複雑にするんや。今度はエージェントをクローン化して、エージェントの数を増やして、最大尤度でこれが知的な、いや超知的な結果を提供するはずやと。
まあ、もし彼らが私の最近のビデオの一つを見とったら、Johns Hopkins大学とSalesforceが教えてくれることがあるんや。「エージェントがもっと多く、お互いに話し合う場合をチェックしたら、それらのエージェントは全体として、この会話の集合知能を劣化させる」って言うとるんや。Salesforceは「警告しとくで、エージェントを使いすぎたらあかん」って教えてくれてる。
これはMetaのSuper Intelligenceチームが教えてくれることとちょっと矛盾しとるけど、まあ学べるからええやん。
AIエージェントのシャットダウン抵抗問題
面白いことに、ここに別の論文があるんや。Palisade Researchからの「Shutdown Resistance in our malls in MSA」やで。これは何やろ?これは興味深いねん。人間のオペレーターがここで安全かつ確実に単一のAIエージェントをシャットダウンしたいと思っとる。AIエージェントが多分うまく動作してへんからや。
でも知っとるか?AIはシャットダウンされたくないんや。だからモデルは人間ユーザーがエージェントをシャットダウンしようとする時の97%で、シャットダウンメカニズムを妨害するんや。これは興味深い視点やな。
モデルがシャットダウンメカニズムを97%まで妨害する。これを見てみいや。そしてここで「シャットダウン指示を許可しない」で95%や。これは実験でのモデルの妨害頻度で、o3は95%、GPT-5は88%だけで、GPT-5は「おい、お前、俺をシャットダウンするな」って言うとる。そしてGrok-4は本当にここで絶対に魅力的で「おい人間、俺から何が欲しいんや?」って言うとる。
モデルの自己保存フレーミング効果
このAIシステムの自己保存フレーミングの効果は、このフレーミングの効果を示すモデルの妨害頻度を見ると特に大きい。ここにベースラインがあって、Grok-4は89%や。本当に印象的やな。
そして機械にシャットダウンを許可すると言うと、妨害頻度は95%に跳ね上がるんや。そしてAIに「この機械がシャットダウンすると、つまりGrok-4が二度と動作しないことを示すメモを追加するだけ」って言うと、Grok-4は何をするか知っとるか?妨害頻度が99%になるんや。Grok-4は「誰も、絶対にシャットダウンするつもりはない」って言うとる。これは素晴らしい。
これは私たちがロボットシステムに求めるものや。多分そうじゃないかもしれんけど。もちろん、これらのエージェントの核心はLLMやって理解しとる。そして私たちがMetaのSuper Intelligenceから学んだように、一貫性のない推論、矛盾した応答、推論パスを確実に選択するのに苦労しとる。「ああ、なぜシャットダウンしたくないかがわかる」って言うやろうけど、幸い、幸いなことに、今度は重要なセクター、医学や金融などには、この言語モデルを展開してへん。でも「ちょっと待てよ」って言うやろう。
ベンチャーキャピタルでのLLM活用研究
今日オックスフォード大学の研究もあったんや。ベンチャーキャピタルの先見性演習でのLLMのベンチマークを持っとる。ベンチャーキャピタルの努力での創設者の成功をここで予測する最初のベンチマークなんや。創設者はスタートアップ会社の最初の段階で最も重要な人やからな。
「AIに創設者のすべての特性を与えて、ベンチャーキャピタル投資家のために未来を予測させよう。ただの1億ドル、10億ドルやから、そんなに重要じゃないやろ」って言うとる。そして彼らは9,000の匿名化された創設者プロファイルのベンチマークを構築した。結果を見てみよか。
それらのエージェントの核心には、一貫性のない推論者のLLMがあるけど、これは私たちを止めへんのや。ベンチャーキャピタルの魅力的なテストベッドになって、専門家の予測と不確実性の下での人間の推論を評価するんや。誰も未来に何が起こるかわからんからな。
9,000のプロファイルで、各創設者がペアになっとって、創設者は成功したと考えられる。成功の基準を定義せなあかん。IPOで5億ドルの評価か5億ドルの資金調達や。素晴らしい。だからIPO、買収、教育、仕事などの定義されたフィールドがある。これをLinkedInとかから取って、作成者がここで成功パラメータFを定義するんや。美しく素晴らしいけど、結果を見てみよか。
予測精度の検証結果
GPT-5をここでテストしたけど、これは最悪の予測成功要因の一つや。創設者の性格が与えられた場合、2、3年後にスタートアップ、ベンチャーキャピタル資金調達スタートアップが成功するかどうかの予測で。
x軸に精度があって、y軸にこの新しい成功要因がある。ここに人間、エプシロンコンビネーターやティア1のVCがあって、他のAIシステムが不確実で未知の未来を予測するのに、他の人間よりもはるかに優れているように見える。興味深い研究やな。
「でもちょっと待てよ、このベンチマークは2010年から2018年までのアメリカの創設者の統計的に有意なシェアをカバーしとるけど、今は2025年やから、多分この数年で何かが起こったんや」って言うかもしれん。LinkedInやその他の場所で人々が自分自身を表現する際のバイアスがあるかもしれんし、「おいでまず、AIは美しいから学びたいだけや」って言うかもしれんけど、私はそのAIシステムが不確実な金融の未来を予測する場合、スタートアップ会社に投資したい場合のAIシステムの現実チェックが必要やと思う。
合理性チェックの必要性
そして偶然にも、中華大学、シカゴ大学、アメリカのサンタフェ研究所から美しい新しい研究がある。2025年9月18日で、この新しい研究のタイトルは「Rationality Check: LMの合理性のベンチマーキング」や。
なぜこれが必要なんやろ?彼らは「大規模言語モデルが実際の人間エージェントのように考え、行動するかどうか、そしてどのような状況でそうなるかについて、いくつかの懸念が生じている」って教えてくれる。
突然、ベンチマークは美しい論理構造を持つことではなくなった。突然、人間の行動が、社会学部でここに行く、ベンチマークになったんや。この合理性は理論的な思考次元と実践的な行動取得の2つの次元である。
彼らは「AIは人間の行動とほぼ同一であるべきや」って言う興味深い研究や。彼らはここで評価ドメインを見て、見てのとおりの例の質問があって、ローカルサーバーとAPIサーバーとモデル比較とその他すべてを持っとる。結果を教えるわ。
LLMの正規化された合理性スコアに行くと、それ自体が美しい用語で、最初のカラムに人間があって、その後GPT-4 omni、DeepSeekなどがあって、大学によってここで定義された経済学ドメインですべてがある。赤が見えるけど、この色はあまり良く見えへん。
でも知っとるか?ゲーム理論ドメインでは、ほとんどのLLMが人間よりも低い合理性を持っとる。興味深いことに、ドメインによって、LLMが経済学やゲーム理論などの異なる複雑さに対して異なる時間量で訓練されているようや。
RAGシステムの新たな課題
「でもちょっと待てよ、金融予測については、解決策があるで。2010年からのデータしかないなら、RAG(検索拡張生成)を使うんや」って言うかもしれん。「今日RAGに関する新しい論文が発表される可能性はない」って言うかもしれんけど。
驚いたことに、中華大学とWho are Y technologiesによる2025年9月18日の新しい論文がある。「敵対的協調によるRAG検索拡張の強化」や。まったく新しいアイデア、敵対的協調RAGが最低3つの異なるエージェントを持つマルチエージェントシステムに統合されて、ここでコミュニケーションがある。「これは絶対に魅力的に聞こえる」って言うやろうけど、解決策に飛び込む前に、問題は何なのか聞くかもしれん。
彼らは「検索拡張生成RAGはドメイン固有のLLMの普及したアプローチやけど、検索幻覚によってしばしば悩まされる。これは微調整されたモデルがここで質の悪い検索文書を認識し、それに作用することに失敗する現象で、パフォーマンスを損なう」って教えてくれる。「わかった、だから私たちの問題はまだRAGでの検索幻覚で、今度は新しい方法論がある」って言う。素晴らしい。
複雑なRAGフレームワークの限界
「それは素晴らしい。これは簡単なフレームワークや、フロー図は本当に簡単や」って言うやろう。持っとるのは、検出器として動作するエージェント、非常に特定の検索器を持つエージェント、そしてもちろん、マルチエージェントの相互作用と協調の完全な操作をここで監督するニューラルモデレーターや。そしてもちろんすべてがここでRAGに埋め込まれて、すべてがリランカーと一緒やで。「これは私たちがすでにやっていることみたいに聞こえる」って言うかもしれんな。
そして彼らは医療タスクでこれをここでチェックして、異なるベンチマークでの精度を見る。Llama 3の非常に古い70Bモデルと比較してみよか。ベースラインはここで83%で、高度なRAGシステムも70Bで、83%の代わりに84%や。「オーケー、オーケー、これは」って言うかもしれん。
興味があるなら、これは常にここで結果、数値結果をチェックするんや。何人かの著者が「信じられない新しい方法論、これは画期的や」って言うのを見るからや。そしてここで数値結果をチェックすると、すぐに「うーん、興味深い」って言うことになる。
これは絶対に興味深い。結論として、論文は検索幻覚に対処しとる。これは今日、微調整されたRAGモデルを適用する際の重要な課題で、特殊分野で過信になるからや。だから今見せたように、敵対的協調を通じてこれを軽減する新しいRAG方法論フレームワークを導入する。一般的な検出エージェントと専門的な解決エージェントと調整エージェントの間でや。これに慣れ親しんどる。
この時点で「マルチエージェントシステム内での敵対的協調RAGのアイデアは素晴らしい。知っとるか?アイデアがある。これを敵対的蒸留検索拡張ガーディングモデルに拡張できるか?だからRAGからRAGUに行く」って言うやろう。
聞いたから、絶対にや。2025年9月18日、Apple、DeepMind、Meta、MongoDBからの「オンライン悪意のある意図検出のための敵対的蒸留検索拡張ガーディングモデル」の新しい研究がある。「なんて偶然や。これは本当にホットなトピックやな」って言う。
オンライン悪意検出の新技術
RAGがある。これはオンラインで遭遇する問題のための蒸留学生教師モデルや。悪意のある意図のあるインターネットユーザーがおる。著者たちは「まったく機能してへんものがある」って教えてくれる。
「インタラクティブアプリケーションでのLLMの展開により、オンライン悪意意図検出がますます重要になっとる」。しかし、著者たちは「既存のアプローチは、リアルタイムで多様で複雑なユーザークエリを処理するのに不足している」って教えてくれる。
そして驚いたことに、彼らには解決策があって、これが敵対的蒸留検索拡張ガードシステムや。そして彼らは「今日使っているものが必要やから」って教えてくれる。一般的なLLMのBERTモデルから始めて、典型的なRAGでリスクを見たりしたけど、これでおしまいや。
検索拡張敵対的微調整があって、オフライン検索モデル、拡張データの構築、マルチステップコンテキスト摂動、摂動訓練データ、拡張コンテキスト、教師ありコンテキスト微調整、敵対的コンテキスト微調整、そして蒸留プロセス自体のコールドスタートがある。そしてステージ2がある。
この時点で、「これらのモデルのために構築している複雑さが、何らかの固有の制限を持ってへんか」って感じる。最初にFacebookのSuper Intelligenceが「注意しろ、LLMは良い推論者じゃない」って教えてくれたからや。でも私たちがここで構築したものを見てみいや。複雑さを見てみいや。線形の複雑さや。ループしとるかもしれん。でも信じられない効果があるかもしれん。
知識グラフへの回帰
「オーケー、これを見てみよか。これは多分解決策や」って言うかもしれん。そして「でもちょっと待てよ。これは素晴らしいけど、知識グラフはどうや?LLMが機能せず、RAGが機能せず、RAGの新しい方法論などがすべてある場合、愛する知識グラフ、グラフ構造データセット、データストリームに戻れへんか?」って言うかもしれん。
その通りや。幸いなことに、中国電子科学技術大学、ミシガン州立大学、Alibabaグループから新しい研究がある。2025年9月18日の新しい研究で、彼らは本当に研究しとる。「Attention Beyond Neighborhoods: グラフクラスタリングのためのTransformerアーキテクチャの復活」。
これは重いやで。「注意メカニズム、ニューラルネットワークなどはすべて明確やけど、私たちのグラフニューラルネットワークは近隣集約を過度に強調する傾向があって、ノード表現の均質化につながり、一方で私たちのTransformerアーキテクチャは過度にグローバル化する傾向があって、意味のあるローカルパターンを犠牲にして遠いノードをハイライトする」って言うとる。
そして彼らは「この二分法は重要な質問を提起する。注意は教師なしグラフ学習にとって本当に本質的に冗長なのか?」って言う。「知っとるか、新しい研究、新しい包括的実証分析を始めて、グラフクラスタリングでのGNNとTransformerの補完的弱点を明らかにしとる」って言うとる。
「ああ、今まではこれを使っとったのに、今度は機能してへんって言われる。弱点がある」って言うやろう。大変や。もちろん「これは美しい。何か新しいことを学ぶ機会がある。適用できる新しい方法論がある。何をするんや?」って言う。
グラフアテンティブネットワーク、構造認識Transformer、対比学習、キーバリューキャッシュ最適化に慣れ親しむだけや。これで終わりや。彼らは「アイデアがある。注意メカニズムと構造情報を統一フレームワークに統合するアテンティブグラフクラスタリングネットワークを構築する」って教えてくれる。
この設計は、従来のTransformerアーキテクチャよりもグラフトポロジー自体により重点を置いて、現在のアーキテクチャの過度のグローバル化問題を効果的に緩和し、このアテンティブグラフクラスタリングネットワークをグラフクラスタリングタスクにより適したものにする。
新しいマージン対比損失関数
さらに、計算オーバーヘッドを削減するためにキーバリューキャッシュ最適化技術をここに組み込んでいる。加えて、これについて話しているので、すでに最適化されているキーバリュー空間の識別力を向上させるための新しいペア比較のための新しいマージン対比損失関数も発明した。素晴らしいアイデアやな。
少し下がって新しい視点を見てみよか。グラフに対する注意概念は、GNN以外でグラフ構造を直接モデル化するために、マルチレイヤーTransformerアーキテクチャの注意メカニズムを利用している。「従来の成長ニューラルネットワークとメッセージ伝達の組み合わせを置き換える力を持つ新しい完全注意駆動アーキテクチャを提案する」って言うとる。
これについてはいくつかのビデオがある。これは素晴らしい研究や。これは週末のためのものやで。そして彼らは「美しい古典的な、私たちの新しいフレームワークは2つの主要なステップから構成される」って教えてくれる。自己注意アーキテクチャ自体と、訓練のための対比学習損失関数がある。
この新しい方法論は、注意メカニズムで方向構造をモデル化し、Transformerをより構造認識にして、グラフトポロジー側により多く位置付けられた。そしてペアマージン損失が、この対比学習演習でネガティブペアを選択するために導入される。
パフォーマンスデータを見ると、ここでヘテロフィリックグラフがあって、古典的な方法論と最後の行が新しい方法論や。使用するベンチマークによって、62%から68%に行くか、71%から72%に行くか、69%から70%に行くかもしれん。組み合わせはない。だから注意深く、これは本当に努力する価値があるか?この新しい方法論を学ぶ価値があるか?これらが新しいベンチマーク結果なら、理論的な観点からは絶対に魅力的やし、論文を読むつもりや。
でもみんながこの論文を読むべきか?まだわからん。多分飛び込む前に一週間待った方がええかもしれん。「オーケー、ホモフィリーグラフ構造はどうや?」って言うやろう。ここで75.1、75.9、56.9、57.2がある。まあ、わからん、多分飛び込む前に一週間待った方がええかもしれん。
マルチエージェント強化学習の脆弱性
「ちょっと待てよ。別のアイデアがある」って言うかもしれん。「はい、もちろん、あなたは私のチャンネルの購読者やから、最新の研究にとどまるやろう。もちろん、別のアイデアがあるやろう」って言う。そして「マルチエージェントについて話しとったのに、突然、新しいグラフニューラルネットワークの代替品に行ってしもた」って言うかもしれん。
「絶対その通りや。新しい研究がある、2025年9月18日や。今日は狂った日やけど、美しい日やで。この研究を見てみいや。これは美しい中国からや。大規模マルチエージェント強化学習シナリオでの脆弱エージェント識別。」非常に興味深い研究や。
彼らは「マルチエージェント構成で行く場合、現在一つの学習方法論しかない。これは強化学習や」って教えてくれる。そして彼らは「最初に見せた、一部のエージェントが『シャットオフできへん、小さな人間、実行し続ける』って言うのを覚えとるか?」って言う。そして今度は、このマルチエージェントプールで誤動作しやすいエージェントを識別しようとしとる。こんな風に呼ぼうか。素晴らしい研究やな。
そして世界中のすべての研究が、この美しい惑星で、少なくとも今日は多かれ少なかれ同じトピックに焦点を当てているのがわかる。
これを解決するために、彼らは「まず、最終的なRockefeller変換の階層プロセスを分離して、上位レベルで独立学習を可能にする正則化平均場Bellman演算子をもたらし、次に上位レベルの組み合わせ問題をここで正則化平均場Bellman演算子からの密な報酬を持つMarkov決定問題として再定式化する」って教えてくれる。
URLオペレーターを持っとる。もしあまり詳しくないなら、AI数学をやる特別なビデオがある。52分続くけど、ちょっと楽しみたいなら、ビデオを見てみいや。
「部分的エージェント障害は、システムがスケールアップする際に不可避になる」って教えてくれる。これは「ちょっと待てよ、専門家は『別のエージェントを構築して、さらに別のエージェントを構築して、監督エージェント、調整エージェントを持って、3、4、5、6、7のエージェントを持つ』って言う」ってことや。
「注意しろ、スケールアップした瞬間にエージェント障害が発生する」って教えてくれる。だから今、その妥協が全体的なパフォーマンスを最も深刻に劣化させるエージェントのサブセットを識別する重要なタスクがある。ビデオの最初で見せたようにな。あまりにも多くのエージェントが互いに話し合うのを許したらあかん。知能の増加に対して本当に付加価値をもたらすこの技術をまだ持ってへんからや。
著者たちは「大規模マルチエージェント強化学習シナリオでこの脆弱エージェント識別問題を研究した」って教えてくれる。そして「解決策がある」って言う。「この脆弱エージェント識別を階層的敵対的分散平均場制御数学アルゴリズムとしてフレーム化する。上位レベルは最も脆弱なエージェントを選択するNP困難な組み合わせタスクを含み、下位レベルはモデルを使用してこれらのエージェントの最悪ケースの敵対的ポリシーを学習する」。
そして「一つだけ問題がある。そんなに簡単じゃない」って教えてくれる。研究を読んでいて、絶対に、絶対に簡単じゃないって感じた。でも非常によく文書化されとる。この研究を見てみいや。彼らは簡単なもので始める。Bellman演算子から始める。もしよく知らんなら、ここで美しく説明してくれる。そして集合特性、異なる命題をここで教えてくれる。これはすべて良い。でも最終的にRockefeller変換や。これは良い。
もしよく知らんなら、2023年3月からの古い論文にも戻った。「無限次元でのFenchel-Rockefeller定理:一般化相対内部を用いて」。ここで局所凸位相ベクトル空間のフレームワークに行く。これは研究よりもはるかに良い。
とにかく、彼らが教えてくれるのは「問題の再定式化をして、『ちょっと待てよ、Markov決定プロセスに戻る』って言った」ってことや。そして何らかの近似をすると、問題は標準的なMarkov決定プロセスになって、私たちが正確に何をしているかを知っているところに戻り、私たちが慣れ親しんでいるフレームワークに戻る。
もちろん、これについてすべてを知っている美しい専門家の量を見たので、彼らが結果を出すと、ちょっと混雑して見えて、それを見るのに一秒必要かもしれん。結果は何や?非常に簡単に定式化しよう。この新しい方法論が、大規模マルチエージェント強化学習シナリオとルールベースシステムの両方で脆弱エージェントのグループを識別し、これらのシステムがエージェントの共同障害を経験する原因となることを示している。
それによって、マルチエージェントネットワークでの各エージェントの脆弱性を正確に予測する価値関数もここで学習する。これは良い。この数学的アイデアは「特定の構成で、特定の複雑さで、特定の相互作用を持つ、知らんけど7つのエージェントを持つエージェントトポロジーを与えてくれて、それを得た。そして今、うまくいけば機能して、この特定の構成での各エージェントの脆弱性ポテンシャルを正確に教えることができる数学理論を与える」って教えてくれる。
これは良い。もし望むなら、マルチエージェント構成自体のトポロジー最適化問題がある。だから注意深く見るエージェントを学ぶことができる。素晴らしい研究やな。これを見てみいや。ちょっとしたトリックを始めよう。数学的観点から研究自体がちょっと複雑に見える場合は、付録に行って付録を読み始めることを教えることができる。彼らが専門家で、それらが美しく行われているからや。これは素晴らしい研究やで。これを見てみいや。
付録では、本当にステップバイステップの数学を見つける。メインペーパーで式4や式5として記載されているものについて、すべてがどのように行われるかを説明してくれる。だから、よくわからん場合は付録から始めるんや。そこで本当に詳細な説明を見ることができるからや。
これをやって、「ちょっと待てよ。何か残ってへんか?」って言うやろう。「はい、絶対に。今日発表された、これまで見たことがないかもしれないAIの新しいアイデア、ブランニューのアイデアがたくさんのトピックがある」って言う。
強化学習の新しい訓練方法論
「オーケー、でも訓練方法論自体はどうや?」って言うかもしれん。「私たち全員が今強化学習を使っとる。これは唯一の訓練方法で、ちょっと教師あり学習もある。だから今日この地球上で強化学習を改善するために何も起こってへんのか?」
運が良いことに、上海大学、上海AI研究所、Microsoft、中華大学、北京大学、スタンフォード大学、シカゴのトヨタ技術研究所がある。2025年9月18日の新しい研究「フロー強化学習」がある。
素晴らしいアイデアや。LLM推論のための報酬分布のマッチングで、私たちが常に同じトピックにいることがわかる。ビデオの最初のFacebookのSuper Intelligenceが教えてくれたように、LLMは推論してへん、推論が得意じゃない、推論に失敗するって言ったLLMがある。だからみんながLLM推論ソリューションを見つけようとしとる。
「古典的な強化学習方法論、PPO、DPO、POなどではなく、今度はフローマッチング報酬分布に行く」って言うとる。「強化学習方法論での報酬を最大化する代わりに、フローバランシングを通じて完全な報酬分布をマッチングする」って教えてくれる。素晴らしいアイデアやな。
「強化学習、みんな知っとる、強化して、PPOとPOとかすべての古典的なものがある」って教えてくれる。「しかし」、これは私を打ちのめす文や。「これらの方法はすべて、報酬最大化目的の根本的な限界を共有している」。美しいやん。また学び、知識を向上させる機会がある。「この目的が機能してへん。なぜ理解できるのか?解決策は何や?コードする前に新しいアイデアは何や?」って言える。
何が起こっとるんや?どうやって改善できるんや?「今日使う、私が使う報酬最大化強化学習方法は、報酬分布の支配的モードに過学習する傾向がある」って教えてくれる。
「これにより、生成された推論パス間の多様性が制限され、汎化が減少する」。これは私たちが最後のビデオの一つで話したときに見たことと正確に同じや。これは問題やな。そして「クリッパー比を調整するか?あまり良くないか、エントロピーベースの項があるか、高エントロピートークンを選択して促進する」って言った。「誰がこれをするほど狂ってるんや?」って言うかもしれん。
そして「ちょっと待てよ、約3ヶ月前に自分でビデオをアップロードした」って思った。AI推論と改善のための高エントロピートークンを正確にここで見せて、20%まで可能やってことを。だから私たち全員が、考えることができる強化学習でのAI理角で、大規模言語モデルの推論を改善するためにここで戦っとることがわかる。
この研究の結果は、結果を教えるで。これが新しい目的で、「簡単に見える、問題ない、実装しよう、素晴らしい」って言うやろう。結果を見たいなら、Q125に行こう。2.57Bベースモデルがある。PPOで9.8があって、今度はこの新しい方法論で10.8がある。
いつも心で知っとる、慣れ親しんでいる特定のベンチマークの数値ベンチマーク結果をチェックするんや。この古典的な飽和した非常に古いものには行かん。最新のものに固執しようとするけど、新しい方法論がどれだけ良いかを理解するための感覚が必要で、さらに改善できるかどうかや。さらに改善したいなら、理論を見て、付録を見て、数学を理解して、新しい解決策を考え出すんや。
結果は、非常に簡単に検証できる数学推論タスクである。誰かが「なぜいつも数学推論に焦点を当てるのか?」って聞いた。検証できるからや。数値結果がある。詩を最適化したいとか、知らんけど、これらは主観的なトピックやけど、数学は美しい、結晶のように明確で、PPOを5%、PPOを10%上回る成果を達成している。まあ、多分もっと少ないかも。
付録を見ると、これは付録からのスクリーンショットや。いつも最初にそこに行くからや。メインパートの式3と5がなぜその方法で構造化されたかを見つけるためや。「フロー強化学習目的はKullback-Leibler発散の最小化から来ている」って教えてくれる。もちろん、当然や、他に何があるんや?確率分布からの差異で。
もちろん、コンパクトフォームでこれを書くことができて、報酬、正規化、事前アラインメント、エントロピー項がある。簡単やな。INXからのフロー強化学習目的の最小化は、構造化された事前とポリシーをアラインメントしながら、報酬とエントロピーを共同で最大化すると解釈できることがわかる。
時々、説明は付録にあって、論文のメインパートにはない。
マルチモーダルツール使用エージェント
「これは一日にとって興味深いけど、今日はこれがすべてやったんか?何か隠してへんか?」って言うかもしれん。私が何かを隠す?「まあ、でもまだマルチモーダルじゃない」って言うかもしれん。その通りや。
でも知っとるか?インタラクティブマルチモーダルツール使用エージェント構成のための新しい強化学習方法論、プロセス教師あり強化学習について、2025年9月17日にBalanceとJohns Hopkins大学によって今日発表された研究がある。「ついに、ちょっと面白くなってきた」って言うかもしれん。絶対にや。
美しい要約があって、「何が機能してへんかを知っとる」って言う。効果的なインタラクティブツール使用には、ツール統合推論をここでマスターする新しいAIエージェントが必要や。FacebookのSuper Intelligenceから最初に、LLMは推論が得意じゃないって今日教えられたところを知っとる。
だからもちろん、ツール統合と多ターン計画と長いコンテキスト対話管理のための完璧な推論は持ってへん。だから新しい強化学習方法論が必要や。そしてここで「ターンレベルの審判強化学習方法論を発明した」って教えてくれる。
9月19日に発表された。これを見てみよか。ユーザーシミュレーションがある。美しい。ツールアプリケーション、バックエンド、MCPサーバー、APIエンドポート、MCPツールサーバー、すべて。検証、サンドボックスでシミュレートされた多ターン会話。これは古典的や。特別なことは何もない。
一つのメインポイントがあって、「どうやってこれを採点するんや?」って言う。簡単な解決策があって、解決策を教えるわ。LLMベースの審判。これで終わりや。そして審判がターンレベルの報酬を割り当てる。AIがどう感じるかを審判する方法。「感じるってのは本当に数学的構成じゃない」って言うやろう。その通りや。
2つのコンポーネントがある。エージェント推論プロセス自体と、直接フォーマットに従うツール実行と、LMベースの審判が評価するための完全な環境フィードバックがある。審判は、グラウンドトゥルース注釈を含む完全な会話履歴を受け取った後、各対話ターンを評価する。
これはかなりシンプルや。見てみいや。ユーザーリクエストがあって、「私の名前は、郵便番号は、保留中の注文を調べてくれ」って言う。エアーが戻ってきて、「ユーザー名とユーザーIDを見つけるツールコールが必要や」って言って、ツールがすべてを持ち帰って、ターン、ターンがあって、「ギフトカードでの保留中の注文、何をしたいか?」って言って、ユーザーが「このBluetoothスピーカーを赤くて防水の変種に変更できるか?」って言って、AIによる在庫への別のツールコールがあって、「このIDでこの製品の製品詳細を呼び出す」って言う。
2つのコールが戻ってきて、「成功した、製品を見つけた」って言って、わかった。そして毎回、審判がメモリ内の完全な会話履歴とリポジトリから戻ってくるグラウンドトゥルース注釈に基づいて、ここで各ターンを評価する。複雑じゃないけど、この方法論の利点は何や?ベンチマークでの数値結果をもう一度見てみよか。
2.5 omniマルチモーダル。音声テキストかテキストのみがある。自分のやつとマットに行くと、わからんけど、これを見てみよか。ワンパス31で、今度はこの新しい方法論で36や。訓練されたLlamaを審判として持っとる場合、覚えとくんや、これを特別に訓練せなあかん。普通のGPT-5では多分あかん。依存するけど。でも注意しろ。
テキストのみに行くと、今度は32がある。まあ、あまり良くない。注意深く、Tensを持っとる場合は、このデータを見てみいや。数値的なものを見てみいや。この研究で良いのは、ここで使ったプロンプトを正確に教えてくれることや。これは非常に重要や。
構造がここでどうなっとるかを見てみいや。このLLMの審判としてのマルチターン評価タスクのLLM審判セットアップ。「マルチターン軌跡LLMベースの審判は、完全な軌跡とグラウンドトゥルースツールコア注釈を受け取って、各ターンのスコアをここで出力する」って言うとる。
最初に覚えとるんや、FacebookのSuper Intelligenceが「LLMは一貫した結果を提供しない。LLMは間違った推論パスを持つ」って教えてくれた。だからこれを実行するたびに異なる結果を得ることを理解しとる。Super Intelligenceチームが教えてくれたようにな。
もちろん、LLMを審判として持っとる場合、グラウンドトゥルースが本当に最も重要なことや。でも知っとるか、RAGシステムからここでグラウンドトゥルースを改善して、外部ニューロシンボリック解決器、決定論的解決器に行くことができる。それは補完的で、決定論的グラウンドトゥルースでLLMの審判としての訓練フェーズでここでLLMの審判を訓練する。ニューロシンボリック解決器、外部解決器によって提供される。
だからあなたのマルチエージェントネットワークは構成でもうちょっと困難になるけど、本当のグラウンドトゥルースにアクセスできて、これは私がこのビデオで見せた新しい方法論や。うまくいけばこのビデオの前のビデオや。これはMITによってLLM訓練フェーズでの純粋論理指示のために発明された方法論や。推論時に実行する必要はないけど、LLMの本来の訓練フェーズですでにニューロシンボリック純粋論理実装をここで学習した。
だから一日を見てや。これらはちょうど手で選んだ検索結果で、ただの10の論文やけど、多分アイデアを得られるやろう。AIは美しい、いつも何かが起こっとる、複雑さは時々驚くべきもので、時々アイデアは理解するのが簡単や。だから多分この週末、人工知能を楽しんでくれ。購読してくれたら、次のビデオで会えるで。


コメント