Stanford、Harvard、MIT、Nvidiaなどの最先端研究機関による3つの論文を通じて、大規模言語モデル(LLM)および視覚言語モデル(VLM)の推論能力向上に関する最新アプローチが紹介される。第一の論文は推論プロセスを階層的に分解し、抽象化生成器と解決生成器に役割を分担させる手法を提案する。第二の論文はNvidiaによるもので、推論データを事前学習段階で注入することが教師あり微調整段階よりも大幅に効果的であることを実証する。第三の論文はマルチエージェントシステムにおける意思決定において、単純な多数決投票を超えて、各モデルの精度やモデル間の相関という高次の情報を活用する手法を提案する。これら3つの研究は、計算資源の配分、データの投入時期、情報の活用順序における「非対称性」が推論性能向上の鍵であることを示している。

AGIの推論能力向上に関する最新研究
皆さん、こんにちは。戻ってきていただいて本当に嬉しいです。さあ、見ていきましょう。今どこにいるのでしょうか。Stanford、Harvard、MIT、Nvidia、そしてCarnegie Mellon Universityからの最新研究を見ていきます。私のチャンネルDiscover AIへようこそ。最新の研究をお届けします。
ここに3つの論文があります。10月1日、10月2日、10月3日のものです。これから見ていきましょう。これらの論文はすべて同じテーマを持っています。それは視覚言語モデル、大規模言語モデルの推論能力を向上させることです。では、飛び込んでいきましょう。
Cornell UniversityとStanfordがあり、彼らはLLMを訓練して、ここでの推論問題を解決するための抽象化を発見することについて話しています。皆さんはこれは興味深いと言うかもしれません。これは何でしょうか。
2つ目は多数決投票を超えてというものです。ここにはMIT、Harvard University、University of Chicagoがあり、複数のエージェントがいて、エージェント同士が意見を異にする場合、多数決投票を超えることについて取り組んでいます。そして、いくつかの美しい数式を見ることになります。
そしてもちろん、NvidiaとCarnegie Mellon University、Boston University、そしてStanford Universityがあります。そして最後に、推論のフロントローディングについて話します。そうです、その通りです。
そして知っていますか。すべての論文が私を失望させるのです。そしてこれが私です、別のベクトル表現での私です。もし私がもっと物理的に美しかったら。なぜ失望するのでしょうか。見ていきましょう。
第一の論文:階層的推論戦略
最初の論文です。もう、勘弁してください。概念的な飛躍は、一枚岩的な推論から階層的戦略へのものです。そして革新は、戦略を実行から切り離すことです。もう、勘弁してくださいよ。これは見覚えがありますよね。
さて、抽象化生成器があり、これが今や戦略家として機能します。そして解決生成器があり、これが実行者として機能します。でもこれは私には聞き覚えがあります。いいえ。
そして、もしあなたがこう主張するなら「そうです、これは今や人工知能のため、AGIのための分業を作り出し、各コンポーネントが専門化できるようになり、全体としてはるかに効率的で効果的な学習プロセスにつながります」と。はい、私たちはこれを知っています。
知っていますか。私たちは複雑さを減らすのです。私たちはこう言います。それはシンプルなAIにとってあまりにも複雑すぎる。したがって、私たちはそれをここでいくつかの小さな部分に分割しなければなりません。複雑さを減らして。なぜなら、AIはもはや複雑さを扱うことができないからです。
だから念のため確認しますが、この新しい方法論はAGIやAIなどのための真新しい数学的アルゴリズムではありません。彼らが推論パフォーマンスを向上させようとしているだけなのです。
どうやってやるのでしょうか。彼らはこう言います。問題を分析する際に抽象化とは何かについて考えましょう。そして、それらの抽象化を第一級市民にして、それらの抽象化を最適化します。特定のベクトル空間を構築し、その後、提案者と解決者のエージェントを結合し、特定の学習を行います。
もちろんそれは強化学習になり、もちろんそれはAPOのようなものになります。そうすれば、コンパクトで再利用可能な手続き的知識が出現し、活用されます。彼は言いました。でも、LLM推論の古典的なアプローチは、教師あり微調整を行うか、チェーンオブソートを使うか、単一レベルの強化学習を行うか、完全な解決策に対する古典的なポリシー勾配を使うか、エンドツーエンドで強化学習を使うか、またはアンサンブル多数決投票、単純な再ランキングを使うかのいずれかです。
私たちはこれらすべてを知っています。そして私は、あなたがすべてを再配置しただけで、誰もがブレークスルーを探していることを理解しています。でも勘弁してください。もしあなたが私のチャンネルの登録者で、素晴らしい天才なら、ちょっと、世界はあなたを待っています。これらの論文を見てください。
さて、抽象化に戻りましょう。抽象化とは何でしょうか。簡単です。AIシステムとして明示的にする短い自然言語のレンマで、それを書き留めるのです。それを学習可能にして、それが突然あなたの縮小された知識の断片になり、これから数学的空間を構築するのです。
したがって、長いチェーンオブソートや推論トレース内で自発的にレンマを表面化させて使用する単一のLLMまたは単一のエージェントに頼る代わりに、このシステムは今やこの美しい新しいアイデアで、非常に特定のクエリ、非常に特定のトピックのために明示的に短い再利用可能なヒントを生成します。そして、それらのヒントは今や収集され、解決策の基礎としてここで提供されます。
彼らが今達成するのは、解決空間があると考えると、これは巨大な解決空間です。再利用可能なヒントを持ち始めた瞬間、2日前にコンセプトネットとコンセプトウェブについて話したことを覚えていますか。これがコンセプトなら、これは今やレンマ、または低次元のヒント空間です。
つまり、複雑で巨大な解決空間から今や低次元のヒント空間へと縮小されたのです。そして、私たちが受け入れなければならない限界をすぐに見ることができます。なぜなら、この複雑さの分解、ここでまた別の複雑なクエリの複雑さの分解があり、私たちは今それを何と呼ぶかというと、彼らは抽象化、レンマと呼んでいます。
知っていますか。もしそれらの抽象化が複雑さを減らしているとしたら。はい、でもそれらはより高い複雑さレベル、より高次の推論を見逃しています。なぜなら、この特定のLLMによって生成される抽象化。このLLMは、複雑性構造の第4次に進むことができません。そうすると、私たちの低次元ヒント空間は制限されます。
でも、これで行きましょう。だから、私たちは今や推論プロセスを階層的手続き学習問題として再構成します。短い自然言語の抽象化、ヒント、レンマ、ミニ手続き、何と呼んでも構いません。そして、2つのエージェントがあります。提案者と強化学習があります。
提案者のポリシーがあり、特定のクエリが与えられた候補を出力します。そして、これが今や抽象化です。そして、解決者エージェントがあります。そして、ポリシーと強化学習があり、与えられたプロンプトと抽象化に条件付けられた解決策を出力します。そして、ここで両方の訓練、強化学習を組み合わせます。
そして、美しいことは、提案者は解決者が成功した場合のみ成功で報酬を受けるということです。アイデアがわかりますね。
さて、システムアーキテクチャを見ると、何か隠されているかもしれないと思いました。いいえ、天才が何か考えたのかもしれません。そうです。提案者が抽象化を伴うポリシーを持っています。それから解決者がソルバーとポリシーを持っています。それから報酬があります。それから訓練ループがあります。抽象化ごとに平均を取ります。したがって、より大きなセットでサンプリングしています。そして、皆さんがよく知っているポリシー勾配でソルバーと提案者の両方のポリシーを更新します。
そして推論です。これを知らないでしょう。これは3番目の論文ですが、私はすでに3番目の論文を1番目の論文の解決策に統合しました。でも、いいでしょう。
システムが学習することと、なぜ切り離しが役立つかについて、彼らは言います。私たちの抽象化空間は今や低次元であり、これは正しいです。私たちは本当に高複雑度の解決空間、高次元の解決空間から低次元の抽象化空間に移行しました。なぜなら、抽象化空間を構築する要素、合法的な部品は、今や小さな洞察だからです。
では、この空間は完全でしょうか。お答えできません。疑わしいと思います。さて、より良いクレジット割り当てがあります。再利用可能性と転送可能性があります。そうです。そして、制御された探索があります。ここでまた、通常の強化学習で進む場合に問題があると言います。
では、何が必要かというと、エントロピー、多様性のインセンティブが必要です。そして、皆さんがすでによく知っているように、良いリルなどがあります。お話ししたように、提案者エージェントをダウンストリームユーティリティによって最適化します。もっともらしいテキストを生成するためではなく、解決者の成功を最大化するために訓練されています。したがって、相互依存システムがあります。
もし、解決者のJのナブラシータ、または抽象化のJのナブラシータを見たい場合、ここにあります。ベースライン、クバック、ラーバペナルティ、エントロピーボーナス、マルチサンプリング、分散を減らして学習を安定化させるための平均化。そうでなければ崩壊するでしょう。
クバック、ラベラ、PPOスタイルクリップ、教師あり事前訓練。これは別のものです。このシステムは機能しません。ウォームスタートがない場合はどうなるかと言うと。つまり、これは突然、縮小された空間で作業しているため、システムはどこかで開始できません。提案者、解決者の教師あり事前訓練が、より高次のトレースサマリーから必要です。
したがって、より高い複雑性のLLM、より強力なLLMが必要で、これにジャンプスタートを与えます。そうでなければ、システムはどこかで開始し、決してここに来ません。どんな極値にも到達せず、したがって単純に失敗するでしょう。だから、教師あり事前訓練によるウォームスタートは絶対に必要です。はい。
一枚岩のエンドツーエンド強化学習ではありません。美しいです。なぜなら、この階層的意思決定とヒントからトライへの移行があるからです。そして、ポリシー勾配推定器は、reinforceまたはreinforce+です。何でもお好きなものを。
しかし、限界は重大です。ほとんどの実験は数学的推論トレースで行われ、オープンエンドタスクへの転移は単に未解決のままです。検証可能な数学的問題がある場合は素晴らしいですが、オープンエンドタスクについてはどうでしょうか。システムは全く機能するのでしょうか。不明です。
お話ししたように、抽象化生成器は、エンジンの点火があるように、より強力なLLMまたは視覚言語モデルによってウォームスタートされる必要があります。そして、強化学習を介して提案者と抽象化の両方を単一のモデルで訓練すると、すぐに訓練崩壊が起こります。したがって、異なるモデルが必要です。なぜでしょうか。お答えできません。しかし、機能しないのです。
第二の論文:推論のフロントローディング
美しいです。さて、NvidiaのCounty University、Boston University、Stanford Universityからの2番目の論文があります。そしてここで見つけることができます。残念ながら、ABサーバー上のNvidiaによる公開を見つけることができませんでした。はい、もちろん、これは独自仕様です。
彼らは何を教えてくれるのでしょうか。彼らは言います。私たちにはまだ問題があります。推論のためにシステムをいつ訓練すべきかわかりません。フロントローディング推論を行うべきでしょうか。これは事前訓練段階で行うべきかということです。それとも、主な推論努力を伴う推論に進むべきでしょうか。事後訓練データ段階に投資すべきでしょうか。どうすればいいのでしょうか。
そして解決策は簡単です。事前訓練でのみ機能します。素晴らしい。これを見てみましょう。彼らは巨大な実験を行いました。事前訓練対教師あり微調整を測定し、どのタイプの多様性、品質、規模の推論データを、どのデータに、どの程度の量で注入すべきか、強化学習後の推論をどのように最適化すべきか。
フロントローディングが重要です。これが結果です。事前訓練中に推論データを注入すると、ここで最大の利益が得られます。その後教師あり微調整と強化学習があっても、教師あり微調整だけでは完全に回復できません。約20%良くなります。
したがって、事前訓練の複雑さ、事前訓練データに既にインポートまたは持っている必要があります。そうでなければ、教師あり微調整段階に単純に注入することはできません。
非対称配分原則があります。はい、もちろん高品質の事前訓練も隠れている可能性があります。したがって、事前訓練済みモデルだけを使用する場合、小さな即座の効果しか見られないかもしれません。しかし、事前訓練のドメインで、事前訓練の複雑度レベルで少しでも教師あり微調整を行うと、突然ここですべての利益を解放し、教師あり微調整のパフォーマンスは大きく前進します。素晴らしい。
したがって、高品質の事前訓練は潜在的である可能性があります。そして、もし教師あり微調整に投資するだけで、教師あり微調整に混合品質の例を氾濫させると、Nvidiaは私たちに示しました。彼らは古い実験を行いました。どうぞ論文を自分で読んでください。混合品質の例は、教師あり微調整でパフォーマンスを低下させます。何もありません。パフォーマンスを失います。素晴らしい。
それで、Nvidiaによる推奨事項は何でしょうか。2025年9月末時点で、推論トレースを改善したい場合、事前訓練、教師あり微調整、強化学習をどのように行うべきでしょうか。
多様な推論パターン、多様な複雑さ、多様な長さを事前訓練データセットに入れて、柔軟な基盤を構築してください。それから、これを行って、事前訓練モデルに種がすでにある場合、小さな、本当に小さな、作成された高品質の教師あり微調整トレースを使用して、ここで能力を調整し、活性化し、潜在能力を活性化します。
そして、何かを評価する場合は慎重に、独立したステージ評価には行かないでください。システムの完全な複雑さで評価する必要があります。
第三の論文:多数決を超えて
それから、MIT、Harvard、Chicagoによる3番目の研究があります。さて、彼らは何と言っているでしょうか。彼らは言います。問題があります。問題があります。マルチエージェントシステムがあります。いいえ。そして、エージェントはコア、推論コアとして異なるLLMを持っています。
LLM2があるかもしれません。LLM3があるかもしれません。LLM3はLLM2の変種かもしれません。しかし、視覚言語モデル1からの他のエージェントもあるかもしれません。それは完全に異なり、異なる訓練セットと、LLM1、2、3とは異なる教師あり微調整と強化学習を持っています。そして、LLM1もVLM1とは完全に異なります。
彼らは協力すべきときに、そして結論に達すべきときに、完全に意見が一致しません。では、誰が議論に勝つのでしょうか。最も大声で叫ぶ者、最も強い者、最も美しいエージェント、最も小さいエージェント。
彼らは何が起こるかを言います。そして彼らは、現在私たちが持っているのは多数決投票システムだと言います。これはゼロ次の方法論であり、間違った答えから答えへとしか使用せず、すべてのエージェント、すべてのモデルを平等に扱います。これは、2つの重要な情報、2つの情報の次元を無視することを意味します。
第一に、第一次情報。これは各モデルの個別の精度を意味します。もし0.4のハイ係数を持つモデルと0.01のハイ係数を持つモデルがある場合、両方のモデルは等しくありません。それらを平等に扱わないでください。
第二次情報。異なるモデル間、異なるエージェント間の相関。4、5、6、7のエージェントがいる場合、多重相関を計算して、群れの中で誰が最良かを見つけることができます。
これを見てみましょう。なぜ第二次シグナルがそれほど重要なのでしょうか。なぜこれらはホットトピックではないのでしょうか。それは複数のエージェントのペアと、彼らの答えがどのように共起するかについての情報です。
お話ししたように、モールは相関している可能性があります。おそらく同じ訓練データを持っています。おそらく同じトランスフォーマーアーキテクチャを持っています。おそらく同じヒューリスティックバイアスを持っています。おそらく同じ何かを持っています。わかりません。
エージェントに複数のLLMがある場合、わかりません。ブラックボックスです。したがって、試してみる必要があります。試行錯誤、試行錯誤、試行錯誤をする必要があります。そして、第二次シグナルについての情報を得ます。
したがって、2つの次数が一致することは、彼らが通常一緒に誤る場合、必ずしもここで証拠を2倍にするわけではありません。一方、パー統計は、エージェント間、LLM間、VLM間、またはクロスVLM、ALM間での群れ行動やグループシンキングの効果と、まったくの冗長な合意をここで検出することを可能にします。
でも知っていますか。少数派の答えでさえ、7つのエージェントがあり、6つが同意し、1つが同意しない場合、この少数派の答えは、少数派モデルが正しさを示す方法で多数派と意見が一致しない傾向がある場合、より信頼できる可能性があります。
これは興味深い論文です。ついに、ここで少しチャレンジングなものがあります。したがって、ここで第二次シグナルを使用している場合、こう言います。モデルBとCまたはエージェントBとエージェントCがあり、結果Xがある場合、どれほど驚くべきことでしょうか。モデルAがYと言うことが統計的に驚くべき確率。
さて、これをテストする必要があります。これは相互相関などです。どの答えが最も正しい可能性が高いかを更新するために、どれほど驚いているか、統計的に驚いているか、数学的に驚いているかを知りたいのです。したがって、多くのテストを行う必要があります。
さて、第一次情報から始めましょう。NvidiaはこれをOptimal Weightと呼んでいます。さあ、始めましょう。モデルの精度がわかっている場合、モデルのパフォーマンスがわかっている場合、このモデルは各モデル投票に最適な非線形重みを割り当てます。これを単純に待機させ、すべてが素晴らしいシンプルな式です。
例が必要な場合、GPT-4にお願いして例を作ってもらいました。精度ABCの3マイルがあります。それから対数を想定した重みがあります。質問がtrue false falseの場合、trueのスコア、trueに投票するモデルの重みの合計、これは私たちの場合waだけです。そして、falseのスコアはwbとwcです。これがここにあります。
ここで、1がここでより大きいため、重み付き投票はtrueカードを選択します。第一次の信頼性が強い場合、単純な多数決はfalseを選択します。良いですね。
しかし、知っていますか。第二次情報の方がさらに良いのです。しかし注意してください。かなりの時間とお金とインフラに投資する必要があります。では、どのモデルが同意する傾向があるのでしょうか。どのモデルが歴史的に正しいことと相関する方法で群れと体系的に意見が一致しないのでしょうか。または、モデルのペアの傾向を考慮すると、どの答えが驚くほど人気があるのでしょうか。
これを見てみましょう。驚くほどの人気を知っています。そして、LLMを扱っているので、驚くべき人気の逆を推測してください。第二次統計をここで経験的に計算し、各候補をスコアリングしますが、観測された人気と反事実的予測人気との間のギャップです。これは、他のエージェントの答えが異なっていた場合の予測の平均を意味します。驚くべき人気の適応であり、LLMのために反転され、多数決投票よりも改善されています。
お話ししたように、これがデータを持っていない場合、ここで多くのモデル呼び出しが必要です。しかし、データの人間ラベリングのために100人のPhD学生を雇うよりもまだ安価です。したがって、100人のPhDまたは人間の専門家の専門家がさらに高価であるため、コンピュータ投資により多く支払うと言います。
したがって、注意深い統計的高次シグナル、精度、相関を使用して、ここでアンサンブル決定、7つのエージェント、12のエージェント、何でも持っているものを改善します。しかし、覚えておいてください。コミュニケーションするエージェントが多ければ多いほど、コミュニケーションチャネル自体により多くのエラーが発生します。
新しいISPが多数決や単純投票を上回るのはいつか
これらの新しいISPがここで多数決または単純投票を上回るのはいつでしょうか。モデルの精度が完全に不明または信頼できない場合。モデルが絶対に異質で相関している場合、一部のモデルはバイアスを共有し、他のモデルは独立した情報を提供します。
そして、コロナは歴史的に情報豊富な方法で多数派と意見が一致しない少数派のみが保持しています。おそらく少数派はここでは理論物理学の教授です。そして、歴史的多数派はクラスの学生です。アイデアがわかりますね。素晴らしい。
したがって、第二次メタルは誰が誰と、いつ意見が一致しないかを利用します。そして、これは多数決投票が単純に捨てるすべての情報です。
ご覧のように、7つのエージェントがある場合、誰が正しいかを把握したいだけです。しかし注意してください。非常に狭いドメイン、非常に狭い複雑性チャネル、非常に狭い多様体が与えられた完全なシステムの第二次情報のために、多くの時間とお金をここに投資する必要があります。
3つの論文に共通する非対称性のパターン
さて、お気づきのように、3つの論文すべてに非対称性があります。情報の非対称性と計算の非対称性があり、それは非常に印象的なパターンです。
なぜなら、最初の論文ではテスト時の計算配分における非対称性の値を計算しています。そして、強化学習では常に探索と活用の間の非常に繊細な平衡があります。そして、ここではこれは全く同じです。
ここでの推論のフロントローディング。データの非対称性があります。そして、今お見せしたばかりの多数決投票を超えて、情報の非対称性があります。情報の次数に非対称的な価値があります。
ゼロ次情報、投票はここでは弱い予測力しかありません。第一次、精度、そして第二次、複数の情報の相関は、堅牢な集約のために劇的により価値があります。しかし、時間、お金、インフラに投資する必要があります。
さあ、そういうことです。3つの真新しい論文で、すべてあなただけのために、私の登録者のために選ばれました。そして、もしあなたが「ねえ、今日AGIとともにどこにいるのですか」と尋ねるなら。私を泣かせないでください。
チャンネル登録して、次の動画でお会いしましょう。


コメント