SSR:LLMのための経路因数分解自己修正

本動画では、大規模言語モデル(LLM)の推論精度を劇的に向上させる新手法「SSR(ソクラテス式自己改善)」について詳細に解説する。従来の推論手法であるChain-of-Thought(CoT)やSelf-Consistencyは、推論チェーン全体を一つの単位として扱うため、途中の誤りが最終的な回答の精度を大きく損なう問題があった。SSRはこの課題に対し、推論プロセスを小さな「サブ質問-サブ回答ペア」に分解し、各ステップを独立に検証する手法を採用する。最も信頼度の低いステップを特定して修正し、そこから推論を再構築することで、GPT-5 miniレベルのモデルでも精度を36%から80%超へと飛躍的に向上させることに成功している。ただし、この手法は推論時に大量の計算リソースを必要とし、コストが数十倍に増加するトレードオフが存在する。動画後半では、SSRの数学的基盤として経路積分理論や強化学習との関連性を深掘りし、量子場理論における繰り込み群との類似性にも言及している。

SSR: Path-Factorized Self-Correction for LLMs

An Old Trick from 400 BC for Next-Gen AI.All rights for SSR w/ authors:SSR: SOCRATIC SELF-REFINE FOR LARGE LANGUAGE MODE...

SSRとは何か
SSRの仕組み
パフォーマンスとコストのトレードオフ
問題の分解アプローチ
パフォーマンスデータ
AOTとの比較
数学的定式化
Chain-of-Thoughtの数学的解釈
SSRの数学的アプローチ
信頼度スコアと最弱リンクの特定
改善されたサブ回答の生成
専門家向け数学的説明
因数分解の重要性
強化学習との関連性
視聴者からの質問への回答
次回予告:繰り込み群との類似性

SSRとは何か

皆さん、こんにちは。また戻ってきてくださって本当に嬉しいです。そうです、AIに関するまた別の退屈な動画で、今回は数学を扱います。ですから、まあ、特別なことは何もありません。しかし、AI研究の最新情報に興味があるなら、最新の論文をご紹介します。

想像してみてください。あなたが友人と一緒に難しい数学パズルを解いているとします。友人が「段階的に考えてみよう」と言って、それを説明してくれます。美しいですね。しかし、もしその段階的なプロセスで一つでもエラーを犯せば、その後の解答全体が崩壊してしまうことをご存知でしょう。コンピュータサイエンスでは、これを「思考の連鎖」と呼びます。美しいですね。

さて、もっと知的な友人がいたとしましょう。そして彼は「うーん、もう一度確認してみよう。今見たものを独立して数回考えてみよう。各ステートメントを10回、20回と何度も実行してみよう」と言います。そうすると「なるほど、では」と言うかもしれません。彼らは単純に「さて、ここに特定の論理的議論の順序があるけれど、これをサブ質問に細分化できないだろうか。そして独立した専門家なら、各サブ質問に対する答えは何であるべきだと言うだろうか。それを元の解答と比較できないだろうか」と尋ねるだけです。ですから、これを自己改善と呼びますが、それでも途中のどこかにある小さなエラーを分離することはできません。

素晴らしい。そして今、3人目の友人がいます。これが本当に知的な友人です。そして彼は「いいか、完全なシーケンスを論理的なステップで分析しよう。そして弱いステップ、つまり全体の中で最も弱いステップを見つけたら、この誤った論理的因果推論ステップを不正確な近似で置き換えよう。そしてその修正された部分を使って、説明シーケンス全体を再構築しよう」と言います。

これが今日のビデオのトピックであり、ソクラテス式自己改善、SSRと呼ばれています。見ていきましょう。

SSRの仕組み

SSRは、推論トレースを明示的なミニ質問に分解し、それぞれのミニ質問を複数の独立した試行でチェックする、3番目の知的な友人です。これは本当に計算集約的です。最も弱いリンクを見つけることができればと思います。そして、どうやってそれが可能なのかと思われるかもしれませんが、美しい説明があります。そして、その小さな小さなリンク、つまり小さなサブ質問とサブ回答だけを修正します。そしてそこから完全な推論トレースを一貫して再構築します。しかし、すべての単一のサブ質問をチェックすることで、カスケード的なエラーを回避し、より安定した、より正確な推論チェーンを生成します。これは金融や医療などで重要です。

そして彼らはこれをGPT-5レベルのモデルで行いました。そして彼らは示しました。驚くべきことに、パフォーマンスの向上は驚異的です。しかし、もちろんアスタリスクがあります。それでは飛び込んでいきましょう。

ここにあります。これはSalesforce AI研究とオースティンのテキサス大学です。そして美しいです。SSRは、かつてのロシア帝国を少し思い出させます。SSR、LLM推論のためのソクラテス式自己改善です。

GitHubリポジトリがあります。遊びたい場合はすべて利用可能です。結果をお見せしましょう。これです。見てください、時間並列スケーリングです。ええ、もちろん推論時にこれを行います。いいえ、これはトレーニングではありません。これは実際の実行です。

パフォーマンスとコストのトレードオフ

SSRを使用すると、通常のGPT-5 miniがあれば、ここにGPT-5 miniによるこの小さなパフォーマンスがあり、X軸には米ドルでのコストがあります。ここは0.1ドル、1ドル、10ドル、100ドルです。そして精度です。そしてご覧のとおり、これが棚から出したばかりのGPT-5 miniです。

この方法論を適用すると、どこから始まるか見てください。精度36%から始まるのではありません。60%以上の精度から始まります。そしてこれです。32ステップ後にどこにいるか見てください。通常のGPT-5 miniでは50%以上にいます。しかしこれを使えば80%以上です。

しかし、もちろん私が示したように、コストを見てみましょう。いいえ、なぜなら私たちは推論時にこれを行い、各論理的因果推論シーケンスを複数のサブ質問と回答に細分化し、複数の回答を生成するからです。

これは膨大な計算努力であり、ここを見ると、これは約2ドルかかります。そして新しい方法論でのこの回答は、私たちはどこにいるのか、約80ドルかかります。ですから2ドルから80ドルはかなりのものです。そしてこれはGPT-5 miniといくつかの簡単な質問のためのものです。本当に複雑な質問がある場合、複雑さのレベルですべてを細分化し分解しなければならない場合、これはかなり高価で時間がかかり、計算時間が集約的になる可能性があると思います。

問題の分解アプローチ

さて、何をしますか。何だと思いますか。AIが解決するには複雑すぎます。では、どうやってこのAIを助けますか。応答を小さな小さなステップに分解します。常に同じパターンです。AIは解決できません。ですから、ミニソリューションに分割するだけです。そして願わくば、これらのミニソリューションを最終的に合計でき、GPT-5のように感じないことを願っています。

LLMによる応答をソクラテス式ステップに分解します。ソクラテス式ステップとは何かを説明します。中間結果を自己整合性の方法論で再評価します。LLMまたはヘルパーLLM、または判定LLM内で単純多数決投票が行われます。そして特定のステップレベルのエラーを改善します。

私たちは今、推論プロセスの1レベル下にいて、推論時にこれを行います。そしてこれが達成するのは、SSRが最初のグラフでお見せしたように、より高い初期精度を達成することです。

さて、質問があるかもしれませんし、私の他のビデオからご存知でしょう。すべての複雑な問題を、カオス的な問題のように、小さな小さなミニ問題に分解できるわけではありません。

この因数分解には限界があることをご存知でしょう。しかし、お話ししたように、因数分解には数学的洞察があると言います。はい、もちろんその通りです。しかし最初に結果をお見せします。

パフォーマンスデータ

これがパフォーマンスデータです。AIM 25でも何でもお好きなもの、またはミニ数独でもお好きなものをどうぞ。そしてここにSSRがあります。今3つのバージョンがあります。ここで線形から始めて、適応型、そして計画型です。

気にしないでください。太字のものを見てください。本当にそうではありません。いいえ。ここにはいくつかのより良い方法があります。ご覧のとおり、Chain-of-Thought、Self-Refine、カラー研究、そしてAoT(Atom of Thought)です。ですから、ここで優れたパフォーマンスがあるわけではありません。いいえ、1つあります。ここに1つあります。

なぜ線形は計画型にはないのですか。さて、これはGPT-4.1 Nanoです。そしてGPT-5 miniでこれを行うと、同じことです。見てください。ねえ、GPT-5 miniでは、今もっと興味深いものがあります。いいえ、太字のものがあります。これを見てください。さて、これは面白そうです。

最初の兆候として、この方法論は機能する可能性があります。しかし、この数独を見てください。GPT-5 miniでChain-of-Thoughtを使用すると、61、62%のパフォーマンスがあります。しかしSSRを使用すれば、100%のパフォーマンスを得ることができます。

では、ここで計算時間をスケールアップすれば本当にこれを解決できるのでしょうか。いいえ。なぜなら、計算時間をスケールアップしているわけではないからです。もしあなたが望むなら、まったく新しい知的メカニズムがあります。しかし、これにはアスタリスクがあります。

AOTとの比較

さて、もっと詳しく見てみましょう。簡単な数独はできます。ええ、AoTです。AoTに詳しくない方、私はビデオを作成していませんが、これは2025年3月末のものです。香港科学技術大学のAtom of Thought、マルコフLMテスト時スケーリングです。そして何だと思いますか。各状態遷移について、彼らは現在の質問を依存関係ベースの有向非巡回グラフに分解し、そのサブ質問を契約すると言っています。そして、この分解アイデアがどこから来たのかがわかります。

ですから、常に数ヶ月前の文献の上に構築されているのがわかります。さらに最適化し、巨人の肩の上に立つことで、メインペーパーに戻りますが、推論を定式化することによって、これはAI推論です、サブ質問とサブ回答のペアのシーケンスとして、LLMが自己の推論に対して自己内省を行います。

SSRは既存の包括的自己改善方法の限界を克服します。ですから、自己改善ではなく、ソクラテス式自己改善があります。美しいです。しかし、すでに嗅ぎ取っています。いいえ、すべてこのLLMの能力に依存しています。なぜなら、私たちは自己評価し、自己改善し、自己反映し、自己でサブ質問を作成し、自己でサブ回答ペアを作成し、自己評価しているだけだからです。

ですから、最高複雑度レベルが5のLLMがあるとして、7のタスクを与えると、これらすべてのサブ質問とサブ回答を行うことができますが、単純に手の届かないものになります。

ですから、他のビデオでお見せしたように、限界があります。しかし、GPDやその他のシステムでトレーニングした複雑度レベル内で作業している場合、多くの時間と多くのお金を使ってより良い結果を達成するのに役立つ可能性があります。

さて、これです。ビデオをご覧いただきありがとうございます。そして今は専門家のみです。

数学的定式化

さて、言語を変えましょう。なぜなら、私が特定の言語で話していたことに気づいたからです。これは私の第三言語、英語です。しかし、これは正確な言語ではないと言います。

いいえ、正式な言語、数学に切り替える必要があります。そして今、はるかに美しくなります。これを見てください。同じ論文ですが、異なる視点、異なるフレーミングから見たものです。

短い形式の正解を持つ問題の場合、このLLM推論は、最終的な答えYを生成するために、中間の自然言語推論トレース上の周辺化としてモデル化できます。

ですから、1つまたは複数の自然言語推論トレースZ、入力X、最終的な答えYがあります。そしてここに確率分布があり、入力Xが与えられたときに結果Yを得ます。そしてこれがパフ積分です。場合によってはパフ積分、または私がここで言及したように、可能なすべての推論トレースの完全なシーケンス上で、複雑さとここでの高次元数学的部分空間を与えます。これは興味深いことです。

どこから来たのでしょうか。この論文を読む必要があります。これもSalesforce研究によるものです。2024年11月末です。そしてSalesforceも自社の出版物、自社の理解の上に構築していることがわかります。そして、特定の企業からアルゴリズムを使用する場合、その歴史を理解することは常に素晴らしいことです。彼らはここで言語モデルの隠れた理由、潜在的な推論能力のロックを解除することに取り組んでいます。

自己報酬は少し異なりますが、多かれ少なかれこれがここでのアイデアです。この公式はこの出版物から多かれ少なかれ来ています。この公式は、いくつかのレベル深く入ると非常に強力です。しかし、最初のレベルにとどまりましょう。

ですから、入力Xが与えられると、これが問題またはクエリです。LLMは、事前トレーニングまたは事後トレーニングからの内部確率分布を持っています。そしてこの確率分布はπサブθです。ここに入力xと推論トレースzがあります。そしてそれらは推論トレースです。

注意してください、これは特定のLLMが生成できるすべての可能な推論トレースです。ですから、LLMを特定の複雑度クラス、たとえば5に制限した理由が理解できます。なぜなら、レベル6の複雑度の解を生成できないからです。

いいえ、5に制限されており、10万年費やしても、複雑度レベルをジャンプできるほど知的にすることはできません。これは別のビデオで証明しました。

多くの方が私に尋ねると思います、「推論トレースとは何ですか」と。それは、最終的な答えまでのすべての中間ステップを含む完全な説明です。

推論トレースは本当に、人間のクエリを解決するための全体のことです。そして「ちょっと待って」と言うかもしれません、これを数学的空間で見て、パス積分と言った場合、コンピュータサイエンスでさえ、レベル5の複雑度LLMでさえ、すべての可能な推論トレースの空間は天文学的に大きいです。これは特定の複雑度順列におけるすべてのトークンシーケンスの空間です。この積分を正確に計算することはできません。これをどうやって解決したいですか、自然言語ソリューションについて話しているのであれば。

そしてあなたは絶対に正しいです。ですから、近似があります。そして今、最初の近似をご存知です。このビデオを始めました、何という偶然でしょう。

Chain-of-Thoughtの数学的解釈

Chain-of-Thought推論です。Chain-of-Thoughtはこの公式を見ます。Chain-of-Thought推論がパス積分定式化であることに気づいていなかったかもしれませんが、この数学的公式、この積分を単一のサンプルで近似します。つまり、これ以上簡単にはできません。これは最も単純に考えられるものです。

モデルLLMは最初に推論トレースセット、単一の推論トレースセットを生成し、次にそこから最終的な答えyを直接導き出します。他に何が可能かは気にしません。1つの解を与えてください。間違っている可能性があります。いいえ、問題ありません。答えを生成します。

これが正式な言語で見たChain-of-Thought推論です。数学よりも少し正確です。このChain-of-Thought解像度は非常にノイズが多く、間違いを犯す可能性があります。最終的な答えは間違っています。誰が気にしますか。サンプリング1で持っている巨大な潜在空間からサンプリングされた正確に1つの軌道を使用するだけです。

すべてLLMに依存します。月曜日で晴れていて、コーヒーを一杯飲んだ場合、AIは良い推論トレースを生成するかもしれません。そうでなければ、深刻な問題に陥ります。

改善の次のステップは、この積分を近似する自己整合性多数決推論を開発したことです。それは同じ積分ですが、今度はZ上のモンテカルロサンプルを使用します。ですから、多くの推論トレースをサンプリングします。統計学にいることを覚えていますか、100、200、何でもいいです。最終的な答えを抽出し、最も一般的な答えを選びます。自己整合性です。

LLMの知能に制限されていますが、LLMが同じタスクを100回実行すると、「この特定の解決策はすべての推論選択の60%で選ばれている。だからもっと多い方が良いかもしれない。これが正しい答えだ」と気づきます。

ああ、そうです、推測しましたか。またはそうではないかもしれません。多色推定量によってこの積分を近似します。これはノイズを減らします。ここに私たちのモンテカルロ推定量があります。しかし、ほとんどの軌道が、そして私たちは再び統計学にいて、LLMの複雑度クラス5に制限されています、またはあなたが持っているものは何でも、この軌道が正しい推論に収束する場合、引用符で囲んだ正しいは統計的観点から見られます。

多数決の答えは、通常は正しいです。そして理解しましたか。通常の問題ではない問題、標準的な問題ではない問題、単純な問題ではない問題がある場合、何だと思いますか。鼻から真っ逆さまに落ちます。

SSRの数学的アプローチ

そしてモンテカルロサンプリングでさえ、まだ最良の解決策ではありません。もちろん、すべての推論トレースは1つの見えないオブジェクトとして扱われ、グローバルサンプリング、グローバル投票を行います。そして私がお見せしたように、強化学習と増強Pのいくつかは部分空間にあるので、高複雑度空間のどこにジャンプしますか。そしてもちろん、17のステップ3でエラーが発生した場合、分離できません。

いいえ。さて、私たちの新しいヒーローSSRは、サンプリングする確率分布から各単一サンプル内に入り込み、ローカル数学演算子解析のように、各推論要素をステップバイステップで分析することによってこれを解決します。そして私がどこに向かいたいかわかります。

正確に。興味深いですね、ローカル演算子解析は、モンテカルロからSSRに移行する場合に単純に遭遇します。はい、もちろん、SSRは各ステップ内でローカルモンテカルロサンプリングを行うからです。ですから、英語で説明するのは簡単ですが、数学的公式を実際に書いて、それをコードにする必要がある場合、それほど簡単ではありません。

各ステップ内のカラーサンプリングは、完全な軌道のグローバルサンプリングだけではありません。そしてこれは、演算子レベルでの分散削減を提供します。そしてもちろん、これを少し高度な数学で書くことができますが、気にしないでください。

複雑さのソクラテス式分解は、私を悩ませています。うーん、これについてより深い洞察をお見せできるでしょうか。はい、もちろんです。

すべてのシステムまたはすべてのアイデアには開始時に基本的な仮定があり、SSRは仮説を立てます。各推論トレースセットは、同等のソクラテス式プロセスに変換できると。これは興味深いことです。

推論トレースは今、因数分解でき、特定の時間間隔tで質問と回答のペアに分解でき、これです。ですから、私たちが得るのは、サブ質問のシーケンスと、それらのサブ質問に対するサブ回答のシーケンスで、確率保存です。

ですから、入力Xが与えられた確率がここで両方の時間にあり、通常はここに推論トレースセットと出力Yがあります。SSR仮説では、代わりにここで時間Tでのソクラテス式ステップがあります。すべての時間要素Tにわたって、いくつかの制限がありますが、寛大になって、これは有効だと言いましょう。

では、私たちが得るのは、入力xが与えられた確率分布πθの構造化生成モデルが、出力としてソクラテス式要素を持つようになりました。そしてもちろん、すべての時間要素の因数分解または乗算があります。見覚えがありますか。はい、もちろん、理論物理学も理解しているからです。

ですから、始めましょう。何をしなければならないか。ステップレベルの信頼度推定です。チェーン内の最も弱いリンクを見つけなければなりません。では、どうしますか。

時間Tでの各サブ質問Qに対して、SSRは方法論として100の独立した解決策を引き出します。そしてこの解決策は、答えと呼ぶだけです。Aがあり、すべての独立した答えを見ると、資本Aがあります。素晴らしい。

信頼度スコアと最弱リンクの特定

同じLLMから答えを生成するだけで、統計モデル、自己回帰モデルを扱っているので、多くの異なる答えが得られることを願っています。そして、それらがどこかで特定の複雑さでクラスタリングしているかどうかを見るだけです。

これはもちろん、ステップレベルの正確性分布のモンテカルロ推定を定義します。そして今、この信頼度をどのように測定しますか。自然言語システムでの信頼度は何ですか。信頼度は、正確な一致によって定義されます。これは簡単でしょう、構文的であって意味的ではありません。もちろん両方を行うことができますが、ここでは一般的に、信頼度レベルCのために指示関数を使用します。IまたはIと書いただけです、何でもいいです。

しかし、これが今重要なものです。しかし、この指示関数はここでの唯一のものではありません。これらの表現の同等性もあります。そして今、これは非自明です。純粋な数学の分野ではなく、自然言語表現で確実に作業する場合、AIはどのようにして文または部分文の自然言語表現の数学的比較をここで理解すべきでしょうか。

ですから、私たちの論文の著者は、LLM自体を判定者として使用することに頼ります。ですから、今私たちは数学的精度から、何かを判定するLLMに再び逸脱しますが、それは少し柔らかいものですが、大丈夫です。

ですから、私たちの信頼度スコアCサブtは、候補A、参照資本A、信頼度推定プロンプトX信頼度を条件としてLLMからサンプリングすることによって生成されます。

そしてこれはこのように見えます。突然、構文的に正確な一致ではなく、別のLLMベースの信頼度スコアリングモデルがあります。LLM自体が自分自身をスコアリングすることもできますし、別のLLM、GPT-5など、この特定のドメインの知識ベースを持つ外部モデルを持つこともできます。あなたの複雑度レベルクラスで。

ですから、突然、この美しいトリプルがあります。そしてこのトリプルがあれば、因果推論チェーンで最も低い信頼度ステップをここで見つけるための次のステップに進むことができます。

さて、何だと思いますか。それは最小値です。何ですって。ええ、TスターまたはTダッシュ、またはあなたが表記法で使いたいTでも構いません。気にしません。

私たちの仕事は今、エラーの位置、場所をここで特定することです。論理的推論チェーンのどこで正確に起こるのか。そして今、アルゴリズムは最初に最小信頼度スコアを持つステップをここで特定します。これは、因果推論増強チェーンにおける最も可能性の高い失敗点を表すことを願っています。ほら、簡単です。

改善されたサブ回答の生成

失敗点を特定したら、次のステップは、要素番号117だと言いましょう。

改善されたサブ回答の生成です。LLMに「おい、これは正しい答えではなかった。もっと良い答えをくれ」と言います。改善されたサブ回答、何でもスター、何でも好きなものは、参照セット資本Aによって定義される経験的分布のムードを見つけることによって得られます。

これは、ここで多数決を適用することと同等であることを覚えています。しかし、繰り返しますが、投票しているのはLLMです。天才ではありません。機能する真実のシステムではありません。自分自身の間違いについて投票しているのは、同じ愚かなAIシステムです。

では、何だと思いますか。さて、最小値または最も低い信頼度ステップを見つけることから進みました。ここで局所的に、チェーン内の最も弱いリンクをここだけで置き換えます。弱いサブ回答を多数決で置き換えます。これはLLMへの外部監督信号として機能します。アルゴリズムに精通していますか。素晴らしい。

ですから、次のステップのために、この改善されたステップを条件として、新しい完全な推論トレースを生成します。このギルド操作を行う場合、私たちの言語モデル分布πデータまたはポリシーからサンプリングすることで言えます。

ほら、再びトリプレットがあります。参照の中で美しいです。これは今、制約付き条件生成ステップであり、ソクラテス式フィードバックが更新された軌道のハード局所制約として機能します。願わくば、今はるかに良く、はるかに正確な答えがあることを願っています。

ですから、今議論したように、別の言語、数学でこれをフレーム化または変換しましょう。そして、はるかに明確になります。なぜなら、これがあれば、コンピュータコードを書くことができるからです。C++、Pythonなど、何でも好きなものです。今コーディングできます。今アイデアを実装できます。

英語での説明だけを提供しても、コードは見つかりません。著者はこれについて考え、3つの異なるシステムを構築できると決定しました。最も単純なSSRを持つことができます。これは単に線形です。分解を適用します。すべてのイテレーションで検証と改善があります。これです。

次に適応型SSRがあります。これはデフォルトでSelf-Refineになります。グローバル信号が飽和した場合にのみソクラテス式改善にエスカレートします。ですから、これは少し正確ですが、すべての小さなステップでデフォルトで実行するのではなく、グローバル信号、グローバル報酬が飽和している場合にのみ実行すると言います。

計画を実行しましょう。システムの複雑さを増し、ここで計画を統合しましょう。この計画では因数分解ができ、計画ステップと実行ステップへの細分化があります。そして今、冒頭で話した因数分解が活躍します。なぜなら、今、詳細な数学的証明で、数学的レベルでいくつかの初期制約があれば、計画をここで実行ステップから分離できることを示すことができるからです。気にしないでください、単純に、ええ、それは可能だと言いましょう。

専門家向け数学的説明

この特定の因数分解によって、サブ質問シーケンスでの分離改善が可能になります。そして突然、私たちのポリシー、U確率分布は、ソクラテス式ステップと入力Xで次のように見えます。

さて、私は常に視聴者から質問を受けます。「この公式を少し説明してくれませんか。この数学的公式は本当に何を意味しているのですか。ここで数学の匂いを嗅ぐことができません」。さて、これを見てみましょう。

これが私たちのメイン公式です。望むならアルファ公式です。

何を言っているのでしょうか。それは、入力xが与えられた最終的な答えyを生成するモデル確率分布πθは、私たちが使用する特定のLLM、GPT-5を与えられたzのすべての可能な内部推論トレースの積分、つまり合計に等しいと言っています。これは、事前トレーニングされ、説明された特定の複雑度クラス、特定のドメインを意味します。モデルが特定の内部トレースとその入力Xを与えられてyを出力する確率に、モデルがXを与えられてその特定の内部トレースZを生成する確率を掛けたものです。

Xを与えられてこの特定のトレースZを生成します。そして、GPT-5 miniのような未知のLLMのすべての可能な解決策、すべての可能なトレースにわたって積分するだけです。事前トレーニングデータや事後トレーニングデータに何があったかわかりません。

ですから、これは扱えない積分であり、これをどのように解決できるかの3つの反復をお見せしました。最終的な答えの確率は、モデルがたどる可能性のある推論トレースの分布に対する答えの結果の確率を平均することによって得られます。どれだけプローブするかによって。

理論物理学に精通している場合、すぐに気づくでしょう。「待って、リチャード・ファインマンによる理論物理学、量子物理学の講義をいくつか見たことがあれば、これはパス積分ですね」。これがすべての離散トークンシーケンスセット上のパス積分のアイデアです。

ですから、量子場の理論的アプローチのパス積分ではなく、アプローチの中でですが、理論物理学でおなじみのパス積分では、これをどう扱うかを知っており、パワー積分をどのように単純化するかについての大量のアイデアと定理と方法論があります。

では、何をしますか。理論物理学を見て、アイデアを見て、理論物理学で見つけた解決策を今コンピュータサイエンスに転送、マッピングします。

注意してください、まったく同じではありません。もちろん違います。量子場理論は完全に異なる数学的空間で機能し、完全に異なる作用パラメータなどで機能します。

しかし、アイデア、方法はここにも適用できます。しかし、両方の兆候について深い理解が必要です。

方程式は潜在変数周辺化です。すでに冒頭で紹介しましたが、最終的な答えの確率は、単純にすべての内部推論トレースの答えの確率の平均であり、各トレースがどれだけ可能性が高いかによって重み付けされています。これです。

ですから英語では非常に簡単な文で説明できます。実際の数学的ケースで解決し、コードを書くことは完全に異なるトピックです。

もちろん、離散化があれば、完全なパワー積分全体で、ここで完全なものの内部で単純に合計を持つことができます。そしてすべてがはるかに簡単になります。なぜなら、Zは私たちの潜在推論トレーストークンのシーケンスです。Chain-of-Thoughtでは、答えを決定している間にモデルが生成できる1つだけです。

正式には、すべての可能なトークンシーケンスの空間にわたる範囲を設定します。この周辺化演習における潜在変数です。

そして質問を受けました。「このポリシーとは正確に何ですか。パラメータθが与えられた確率分布を説明してくれますか」。もちろん、これはπ未知のθでパラメータ化された確率分布です。LLMでは、これはモデルが学習した生成分布です。または、アーキテクチャレベルにいる場合、これは単純にトークンレベルのソフトマックスチェーンです。

そして、これは自己回帰チェーンです。LLMも建築的に自己回帰的方法論であるためです。ええ、タスはちょうど、分布がモデルの重みとデコード設定、温度など、開始パラメータとして持っているものに依存していることを思い出させます。

ほら、これです。統計学の最も単純な形式、確率分布にまだいます。私がお話ししたように、これは自己回帰的に適用されるソフトマックス分布のチェーンです。そして、あなたは笑い始めます。なぜなら、私たちが次にどこに向かっているかを正確に知っているからです。

さて、ここでお話ししたもう1つの項は、入力Xが与えられた推論トレースZ上のモデルの事前分布です。単純に、サンプリング1で行く場合、最終的な答えを生成する前に、モデルが内部のChain-of-Thoughtの各可能なチェーンを生成する可能性がどれくらいあるかという質問です。

これを候補有理数のサンプリング分布として考えてください。そして、これは公式のここでの条件付き分布でもあり、モデルがZの内部中間トレースと入力Xを生成した場合にも与えられます。これです。掛け算して、積分を取れば、解決策があります。

しかし、多くの実用的な設定では、これはほぼ決定論的です。ええ。Chain-of-ThoughtのZが固定されたら、Z1、モデルは決定論的に、または非常に低いエントロピーで、特定の最終トークンシーケンスY自動または回帰システムを出力します。

その限定的なケースでは、πθは、ZがYに導くかどうかの指標にほぼ近似されます。

そして今、少し増やしましょう。推論のソクラテス式分解に進みましょう。

因数分解の重要性

私がお話ししたように、この因数分解は、コーディングしたい場合、理解することが本当に重要です。なぜなら、これをコーディングしなければならないからです。

それは何ですか。もう一度、言い換えてみます。方程式は、モデルがここで与えられた入力Xでソクラテス式推論ステップの全シーケンスを生成する確率を指定しています。

ソクラテス式推論シーケンスとは何ですか。ソクラテス式シーケンスはペアから構成されています。特定の時間tでの質問と回答です。Qはサブ質問であり、モデルがステップtで自分自身に尋ねることを決定します。モデルが自分自身に質問していることがわかります。ですから、本当にこのLLMの知能レベルに依存しており、自分自身に答えを与えます。最高度の美しい近親交配です。

そしてモデルが自分自身のサブ質問に与える答えです。ですから、「何が悪くなる可能性があるのか」と尋ねることができます。この方程式は実際に何を意味しているのでしょうか。そして、この方程式の構文から、強化学習に非常に似ていることがわかります。

そしてもちろん、因数分解は、ソクラテス式プロセスのために定義した構造化された推論ステップに確率のチェーンルールを適用しているだけです。

はあ?しかし、これを見ると、「待って、これは強化学習の公式でもあり、ここでアクションがあり、今アクションはトークンではなくサブ質問とサブ回答ペアとして構造化されている」と言えます。

ですから、「ちょっと待って、強化学習の完全な理論と推論プロセスは、純粋な数学的公式で見たことのない重複する数学的方法論ですか」と尋ねるかもしれません。

私のチャンネルへようこそ。だからこそあなたは購読しているのです。

各ステップtで何かを書く前に、LLMは次のサブ質問qを選択します。入力と以前の推論プロセス全体を条件として。美しいです。そしてこの選択はもちろん確率分布πθから引き出されます。素晴らしい。

サブ質問を生成した後、因数分解が機能することがわかります。数学的空間で分離があり、ああ痛いですが、さて、やりましょう。モデルはサブ質問Rに対するサブ回答Rを生成します。今、ここで入力X、推論トレース、現在のサブ質問Qを条件として。

そしてこれが論文のそれです。はるかに詳細な数学的パスフォワードが見られ、私がここに書いたようにあなたに証明できます。

これは単純に計画プロセスであり、これは単純に実行プロセスであり、有効な因数分解であることを願う因数分解がシステム分析の開始条件として与えられていれば、今数学的操作シーケンスとして分離できることを私がお話ししたとおりです。

ですから、この方程式は多かれ少なかれ、「シンプルです。正しい解である完全な推論トレースを生成するために、LLMの小さなGPT-5 miniは今2つのアクション、2つのアクションのみを繰り返し実行します」と言っています。

推論ステートで、自分自身の推論トレースを与えられて次に尋ねるべきサブ質問は何かを決定します。それはリアルタイムで電光石火の速さで発展しています。次に、サブ回答でこのサブ質問にどう答えるかを決定します。それから、お見せした完全な数学的操作を実行します。

ですから、自己回帰的であることがわかります。なぜなら、LLMのすべての決定は、これまでに生成されたすべてのものに依存しているからです。これは、今因数分解された形式で表現された推論軌道の生成モデルです。

「簡単だ」と言います。これについてより深い理解はありますか。もう一歩深く進めますか。そして私は言いました、うーん、私のチャンネルに参加したなら、どうしてやらないのですか。

これは今明らかになり、数学的レベルでこれを証明できるなら、宿題として行ってください。2つの構造的仮定、計画と実行は分離された確率変数です。計画は次の質問を選択し、実行は答えを生成します。そして私がここでお見せしたように、信頼区間のためにこの構造を使用します。

問題のある答えだけを修正し、最も弱いリンクを修正し、オプションで完全な計画演習を再生成または改善します。ここでシーケンスは、トークンごとの生成のような自己回帰です。古いものからすべての質問と回答のペアを生成するまで、ターボで次の時間の質問をここで選択しません。

各確率は以前の出力を条件としているため、分解はLLMアーキテクチャ自体と互換性があります。これは数学的に証明するのがかなり簡単です。

ですから、LLMアーキテクチャが自己回帰同期ジョブを実行するために構築されていることと、分解がLLMアーキテクチャで実行される数学的操作と互換性のある因数分解に基づいている方法論を選択したことの間に、本当にコヒーレンスがあります。ですから、私たちは一種の安全です。

美しい、私がお話ししたように。今、これはより深いレベルであり、これについてビデオを作るかもしれません。

強化学習との関連性

あなたからの反応が何かわかりませんが、ポリシー解釈としてのLLMへの接続はそれほど簡単ではありません。「ええ、構文の類似性は見えますが、数学的レベルでより深くなります」と言うかもしれません。

いいえ、因数分解は強化学習における階層的アクション上のポリシーと同一だからです。

そして、生成された質問または回答のペアを軌道内のアクションで単純に置き換えると、公式は強化学習から知っている標準的なポリシー因数分解に正確になります。

これは、LLMアクションは単一のトークンではなく、構造化されたブロックであることを示しています。今、聞き始めて「ちょっと待って」と言うかもしれません。そして私たちはこれを最初に推論の動きとして行います。

サブ質問を尋ね、次にその動きに答えます。なぜなら、これをさらに細分化できるからであり、数学的アプローチに興味があるかもしれません。

さて、履歴の条件付けは強化学習における状態アクション自己回帰と同一です。これを見ると、もちろん構文的類似性が見えますと言います。なぜなら、これは強化学習のポリシーの概念と数学的に同一だからです。

2017年のPOを覚えていますか。そしてこのポリシーは、単純にシステムの特定の状態sが与えられたすべての可能なアクション上の確率分布です。πθはポリシー解釈でしたが、今この新しい方法論に同じメカニズムを使用できることがわかります。

ですから、「これは興味深いです。なぜなら、この因数分解は今、ソクラテス式推論トレース上のモデル分布の簡略化された確率的定義を定義するからです」と言います。

再度覚えておいてください、それは何をしますか。推論がステップで展開すると仮定します。これは、金融、医療、物理学、数学でのあなたのケースにとって真実である可能性も、そうでない可能性もあります。あなたの複雑度タスクのためにこれをチェックする必要があります。

各ステップは、複雑度分解の最低原子レベルで質問回答ペアに細分化できます。各決定は完全な履歴に依存します。

はい、もちろんです。そしてLLMの完全な履歴の理解と、LLMがこの特定の完全な履歴を与えられて学習したことです。今、次の合理的なステップは正確にステップ17であり、ステップ12ではありません。

さらに、全体の推論プロセスは自己回帰確率論的ポリシーです。より深い推論があります。

感じますか。感じることができますか。これを持ってください。はい。さて、この構造は、この特定の論文のSSRの設計の基礎です。美しいです。

ですから、質問または回答のペアへの複雑さの分解のこの因数分解は、LLM自体によって複数回プローブされることで、計画プロセスを実行から分離し、LLM自体によって行われるLLMの複雑度レベルでの局所的不安定性を測定することを可能にします。

LLMまたは判定LLMまたは何でも与えられた知能で不安定なコンポーネントのみを修正し、次にいくつかのアスタリスク付きで安定した方法で完全な推論トレースをここで生成します。

ですから、今、この専門家の説明では、SSRは分解を使用した確率論的アルゴリズムであり、与えられた方法での選択的再生成であり、推論時技術で使用します。美しいです。

そしてそれゆえ、すべてがなくなります。答えが与えられた場合、LLMの重みを変更しません。これは推論時に行われます。そして、特定の仕事によっては幸運かもしれませんし、運が尽きるかもしれません。

視聴者からの質問への回答

今日受け取ったいくつかの質問に答えます。または私の視聴者から受け取ったすべての質問に答えます。なぜ私のYouTubeチャンネルに参加するのか。いいえ、購読するだけで何も言いません。

ここで一度クリックするだけで、無料でビデオが手に入ります。または、ここで私のチャンネルに参加すれば少し助けてもらえます。なぜなら、私はこれを楽しんでいますが、かなり時間がかかることをご存知でしょう。特に論文を超えて、うーん、数学からいくつかのアイデアを取り入れることができることをお見せしようとする場合、理論物理学、量子場理論からいくつかのアイデアを取り入れることができ、信じられないかもしれませんが、これらの種類は単純ではありません。

今日のように開発するには時間がかかります。今日、私はここであなたに何かをお話ししたことを願っています。おそらく気づいていなかったかもしれませんが、Chain-of-Thoughtは推論軌道上のパス積分であり、完全な推論トレースを単純な数学的問題として見ることができます。

論理チェーンにある弱いステップは、相対演算子代数のように振る舞い、その局所的不安定性がシステム全体の振る舞いに影響を与えることを見ることができます。しかし、これは私たちを導きます。そして今、次のビデオの後の次のビデオにすでにいます。

アイデアは量子場理論で持っていたアイデアに似ています。リチャード・ファインマンマンハッタン量子場理論です。そしてこれは繰り込み群についてです。

次回予告:繰り込み群との類似性

このビデオを作るために、私は知っています、これは私のチャンネルの1人か2人のためだけにこのビデオを作るでしょうが、ここで私のチャンネルに参加してくれれば助かります。なぜなら、これはかなり時間集約的だからですが、現在公開されているものをはるかに超えています。しかし、私はあなたにアイデアを見せたいのです。

同じ数学的空間ではないことを誤解しないでください。私たちは数学的空間で異なるオブジェクトを扱っています。しかし、アイデア自体は、AIをより良くするために、次世代のAIのために、すべてを再発明する必要はありません。数学の理論に、量子場理論のより深いレベルにほぼあります。

量子場理論の数学を本当に理解すれば、新しいAIシステムをコーディングしようとする場合、いくつかの数学的解決策を使用できることがわかります。そして特にSSRでは、次のビデオでお見せできるアイデアの特定のグループがあると思います。それらは量子場理論における繰り込み群との類似性を持っており、私たちは解決策を見つけました。

そして問題は、解決策のアイデアをここでの進歩、または次世代のAIシステムにも適用できるかということです。

ですから、私のチャンネルに参加してくれれば助かります。楽しんでいただけたら幸いです。次のビデオでお会いできたら素晴らしいです。