本動画は、大規模言語モデルにおける推論能力の限界と、それを克服するシステム3思考アプローチについて解説している。従来のRLHF(人間フィードバックによる強化学習)に依存するシステム2の思考連鎖方式では、複雑な科学的問題の解決に壁があることを指摘し、言語モデルを記号論理エンジンに接続することで真の推論能力を実現する新たなパラダイムを提示する。具体的には、自然言語をPythonコードやProver9、Lean4などの定理証明器に変換し、数学的に検証可能な報酬関数を用いた自律的学習システムの構築を論じている。2つの最新論文を通じて、LLMが抱える意味論的流暢性と論理的含意のギャップ、結果志向の幻覚問題、そして不十分な前提による推論エラーを詳細に分析し、ニューロシンボリックパイプラインによる解決策を示している。

システム3思考アプローチの概要
皆さん、こんにちは。また戻ってきてくださって嬉しいです。今日はシステム3思考アプローチについてお話ししたいと思います。言語と論理について見ていきましょう。
ご存知のように、言語、特に大規模言語モデルを使えば、推論、特に複雑な推論においてかなり遠くまで進むことができます。しかしそこで行き詰まってしまうんです。素晴らしいのは、論理やソルバーアルゴリズムを適用すれば、複雑性においてさらに先へ進むことができ、本当に複雑な科学的問題を解決できるということです。
歴史的に、私たちはシステム1を見てきました。次のトークンを直接予測するわけです。質問と回答があり、すべてがうまくいっているように見えました。そして、このスロー思考アプローチを採用しようと言いました。システム2思考アプローチです。ここでは人間の思考連鎖のようなものがあり、人間フィードバックによる強化学習でそれを模倣しています。
これはある程度の期間はうまく機能しました。しかしこの思考連鎖は完全に潜在空間または自然言語空間のいずれかで動作しており、客観的にスコアリングすることが非常に困難です。特に強化学習のための報酬関数が必要な場合はなおさらです。
システム3推論の本質
では、システム3推論とは何でしょうか?本質的には、人間のフィードバックを完全に取り除くことです。人間の入力から独立して学習する自律的なAIシステムが必要なのです。
今日発表された2つの新しい論文があります。これら2つの論文は、システム3推論を達成するために、言語モデルを記号エンジンに固定する必要があることを認識しています。最初の論文は、正確な報酬計算のために英語をPythonコードにマッピングすべきであることを示しています。
2番目の論文は、人間の言語をProver9やLeanなどの定理証明器にマッピングしてベンチマークを行います。これらの論文を選んだのは、素晴らしいと思ったからです。傑出しています。そしてこれらを一緒に読むと、現在のAI研究がどこにあるかについての洞察が得られます。
なぜなら、両方の論文が、AIの真の推論、より高い複雑性の推論は、純粋な自己回帰的テキスト生成や思考連鎖、思考木、思考グラフだけではあり得ないと宣言しているからです。それは形式論理の有向非巡回グラフ構造と数学的に同型でなければなりません。
つまり、微分可能なベクトル空間から離散的な論理グラフ構造へと移行しているのです。これは私の2番目のビデオではありません。覚えているでしょう、原則として事前学習、文脈内学習があり、それから検証可能な報酬による強化学習があります。数学的コードがあれば簡単です。すぐに結果が得られ、これを検証できます。
しかし問題は、本当に複雑で、数学的またはコードの解釈ができないオープンエンドな人間のタスクがある場合です。では、これを解きほぐして、これで解決できるか見てみましょう。そして、人間の介入や、特定の偏向で自分の大規模言語モデルを準備している億万長者を排除できるかもしれません。
研究パラダイムのシフト
これは一般的に研究パラダイムのシフトを意味します。自然言語の曖昧性からの脱出です。プログラム可能な検証ルーチンに異なる解釈を展開できます。
両方の論文は、論理的推論、特に複雑な指示従順性と多段階推論において、もはや人間が注釈した選好データを必要とせず、使用すべきでもないという結論を強く支持しています。これは、人間フィードバックによる強化学習として知られているものです。
では、これを取り除くことはできるでしょうか?もちろん完全にではありませんが、複雑な部分、論理的な部分、推論部分についてだけ興味があるのです。
最初の論文の後方DAG合成と2番目の論文のプロセス検証GPOパイプラインを組み合わせることで、人間のボトルネックなしでスケールする閉ループ自己改善AIエンジンを作成できます。素晴らしいですね。
覚えておいてください。最初のモデルでは、自己回帰的な次トークン予測だけのLLMがありました。また、人間フィードバックによる強化学習もありました。これがここにあって、モデルは与えられた例をコピーしただけだと想像してください。
それから、線形複雑性のある思考連鎖や思考グラフ、思考木などを使おうと決めました。つまり、次の複雑性レベルに進んだだけです。しかしこれもインターネット、人間のフィードバック、すべての文献、すべての科学教科書などから提供されたものでした。
そして今、第3レベルで、人間のフィードバックが必要だという制限なしに、自己学習する自律的なAIシステムを見つけられるかと言っているのです。どうやってこの問題を解決できるでしょうか?
すでにお分かりでしょう。数学とコードのオプションしかありません。そうでなければ真の基準がありません。何らかの形ですべてを数学とコードに変換する必要があります。
RLHFの新しい役割
お伝えしたように、RLHFは完全に時代遅れではありません。再定義されただけです。人間フィードバックによる強化学習は、次世代のAIにも必要だと思います。純粋な行動的調整のためです。
AIがあなたに答えるトーン、その口調の温かさ、安全プロトコル、人間の価値観など。これは必要です。モデルに特定のガイドラインに従ってもらいたいのです。
しかし、論理や数学、コーディング、因果推論、ソーシャルメディアにあるものを超えた高い複雑性を持つ思考プロセスに関連するものについては、人間フィードバックによる強化学習に別れを告げ、ニューロシンボリックパイプラインに挨拶すべきです。
LLMの根本的な問題
最初の論文は、大きな問題に直面していることを示しています。私はこれにあまり気づいていませんでした。LLMは論理的含意よりも意味論的流暢性を優先するのです。
まさにこれをお見せしたかったのです。あなたの言語には美しい意味論的流暢性があり、多くの解釈、問題に対する多くの異なる見方ができます。
しかし純粋な論理システムに行く瞬間、関税というオブジェクトがあるとしましょう。関税を定義するパラメータは何か、出力パラメータは何か、これらのパラメータ間にある因果的干渉は何か、ここでの複雑性の相互関連は何か、これによって定義されるエコシステムは何か、可能な結果は何か、すべての可能な数学的バリエーションを教えてください。
完全なシナリオを計算しましょう。そうすると、論理がシンボリックパイプライン内でどれだけ先へ進めるかがわかります。
最初の論文が示すことがあります。結果志向の幻覚です。これが幻覚かどうか本当にわかりません。なぜなら幻覚はLLMの欠陥を意味するからです。欠陥だとは思いません。
これは次トークン予測のような標準最適化下でのLLMの配列生成方法、または報酬構造を持つ結果ベースの強化学習における根本的な欠陥です。考えてみてください。開始点と終了点があり、開始から最初の2ステップを知っているかもしれませんし、終了直前のステップを知っているかもしれません。
しかしLLMがこれを理解し、開始時の私の質問を理解し、このタスクで何を達成したいかを理解すると、素晴らしい、でも真ん中に何もないと言います。
期待されることは、LLMが因果推論エンジンを開始し、状況を分析して、オブジェクトは何か、オブジェクト間の依存関係は何か、オブジェクト間の関係は何か、これらのオブジェクトが埋め込まれているエコシステムは何か、考慮しなければならない制約はあるか、他の境界条件や開始条件はどうかなどと言うことです。
しかしこれは起こっていないことがわかりました。何が起こっているかというと、LLM、つまり大規模言語モデルは、特定の最終回答に対して大きく偏っています。自己回帰的生成エンジンは、現在の状態と最終回答の間に橋や欠落要素を構築しようとします。
しかしモデルには真の論理ペアがなく、本当に複雑な問題である可能性があるため、これが重要なのですが、接続を強制するために構造的にもっともらしいが数学的に無効なステップを作り出します。
LLMは橋を架けようとしますが、人間の言語とソーシャルメディアやインターネットからのナンセンスしかないため、意味論的に美しく、訓練データに解決策として存在したものを、どうやって知ることができるでしょうか。しかし解決策はすべて数学的に間違っているか、論理的に間違っているかもしれません。
インターネット上の誰かが何かを主張しただけで、証明も議論もなかったかもしれません。LLMはそのようなインターネットデータで訓練されました。したがって、訓練されたものしか提供できません。
作り出すでしょう。事前訓練データで学習した確率分布から本当に幻覚を見るのではありません。意味論的流暢性に基づいて構造的にもっともらしいものの最高ピークを計算しますが、論理的含意についてではありません。
素敵な言い回しを見つけようとしますが、その言い回しは数学的に完全にナンセンスである可能性があります。これが現在のLLMがやっていることであり、これが問題だと思います。
LLMの訓練における問題
LLMとVLMとVASを訓練して、これらの意味論的な橋を構築してきました。ストーリーテリング、マーケティング、政策、ソーシャルメディアにいる場合、それはうまく機能します。美しいです。物語を提供してくれます。
しかし科学的または本当の推論、論理的連鎖に行く瞬間、LLMは崩壊します。なぜならそれで訓練されていないからです。論理的な橋ではなく、橋における推論ステップでもありません。単なる意味論的な橋です。
例を挙げましょう。あなたが学生でテストを受けていると想像してください。教科書の巻末にある解答キーを見ています。答えが42だとしましょう。なんという偶然でしょう。
先生のために複雑な方程式のページを書かなければなりませんが、何を書いているかわかりません。アインシュタインや他の誰かから見たことのある方程式を書くかもしれません。無意味なことを書きますが、最後にページの下部に42の周りに箱を描き、先生が最終行だけを採点することを期待しています。
これは多少、これまでLLMとVLMの訓練に実装してきた出力関連報酬モデル、ワールドモデルでした。
なぜかわかるかもしれません。結果報酬モデルの呪いです。従来の強化学習や基本的な思考連鎖プロンプティングでさえ、報酬関数は最終出力トークンだけを評価します。正しい答え、42に到達すれば、学生によるこの作業は次のLLMを訓練するための事前訓練データセットになります。
学生が書いた完全なナンセンス、1ページのナンセンスは、正の勾配更新を受け取ります。したがって、これがニューラルネットワークが学習するものです。形式的証明のように見えるテキストを生成し、意味論的レベルでのみ、正しいターゲットで終わる。これが高い報酬をもたらします。
これがモデルが学習するものです。他には何もありません。LLMに論理と数学をゼロから本当に理解する機会を与えたことがありません。これがLLMの問題です。
論理グラフベンチマーク研究
では、今日の最初の研究に移りましょう。2026年2月24日です。論理グラフベンチマーキング多経路論理推論、ニューロシンボリック生成および検証エンジンによる多経路論理推論です。
これは興味深いです。なぜなら、問題があり、どこかから始めて解決策を見つけたい場合、解決策への道は1つだけではないと教えてくれるからです。複数の有効な解決策があり、複数の無効な解決策もあるかもしれません。
論理DAGを持ち、論理DAGを逆にすれば、絶対的な推論能力を持つ人間がいないので、何らかの検証が必要です。これをLean4やProver9などのソルバーネットワークに転置します。
PythonまたはProver9の表現があり、ソルバーがすでにプログラムされていれば、これがコード実行または数学的実行であることがわかります。これが正しい表現であることを数学的に絶対的に検証、計算できれば、自然言語に戻すだけです。簡単です。
しかしお伝えしたように、複数の解決策があり、そこから楽しみが始まります。前提に基づいて、目標のために可能な限り多くの異なる証明パスを与えるからです。LLMは解決策1から解決策Mまで開始します。
もちろん、解決策内のすべての参照を前処理し、自動形式化して、自然言語または英語をシンボリック形式に変換する必要があります。Lean4でもいいですし、Prover9でもいいし、Prologでも何でも使えます。そうすれば、シンボリック数学的に正しい検証、美しいパスまたは失敗があり、どのようなエラーが発生したかを見ることができます。
これがこの研究の素晴らしさです。これをお見せしたかった理由です。彼らにはエラー分類法があり、LLMの推論で起こり得る8つのエラーがあると言っています。
最初の3つをお見せします。これは意味論的誤解釈です。AIモデルが特定の事実または特定のルールの言語的意味を正しく解析できません。因果関係の方向を混同したり、交渉を無視したりすることが含まれます。
AならばBの場合、モデルはBならばAと言います。情報の省略があります。モデルが重要な証拠や指示の一部を完全に無視します。そしてもちろん、これは事実の幻覚です。
これは本当に幻覚です。提供された接触と矛盾するか、存在しません。モデルは単に、これを解決する方法がわからないので、確率空間を見回して、確率分布を見つけ、これが答えとしてディズニーランドを与えるので、ディズニーランドを挿入すると言います。
これは興味深いです。GLM 4.6を見てください。素晴らしいですね。またはGPT、GPT 5.1、またはGemini 2 DeepSeek version 3.2、またはGemini 3です。
ここにエラータイプ、意味論的理解エラーがあります。濃い赤は意味論的誤解釈です。中程度の赤は情報の省略、薄い赤は純粋な事実の幻覚です。
モデルは完全に異なります。モデルは完全に異なるデータセットで完全に異なる方法で訓練されています。これが2026年2月末に発見した動作です。GLM 4.6は大丈夫な推論モデルだと思っていました。
しかしこれを見てください。これは絶対値で、GLM 4.6による意味論的理解エラーの2,000カウントです。これをGemini 3 Proと比較してください。信じられない違いです。
しかしこれは始まりに過ぎません。もっとあります。推論層と論理実行に行きましょう。ここでさらに3つのエラータイプが見つかります。
無効な推論があります。導出ステップは論理的に根本的に欠陥があります。前提が正しくても、論理を使用して結論を導き出すことはできません。
2番目はルールの誤適用です。モデルはコンテキストのどこかに存在する論理ルールを選択しますが、ルールの前提条件が満たされていないエンティティまたは状況に適用します。
そして本当に興味深いのは、不十分な前提です。これは、モデルが必要だが十分ではない前提のサブセットに基づいて明確な結論を導き出すことを意味します。必要なすべての条件を集約できません。
例えば、AかつBならばCの場合、事実Aは真ですがBは未知または偽で、モデルは単にAに基づいてCが真であると結論づけ、ルールで与えられた条件Bに関するすべてを無視します。
これは、私の最後のビデオの1つで話したマルチエージェントインタラクションについて、OpenClaw、Cloudbookで見つけた動作です。これがエージェントで起こっていることです。10個または50個、60個のエージェントがある場合、これがすべてのエージェントで起こっています。
一定時間このシステムを実行した場合、何が返ってくるか想像してください。GLMの絶対カウントでの追加の論理実行エラーがあります。これが完全な図です。
不十分な前提を見てください。薄い青のバーを見てください。これらが絶対的に支配的なバーです。大規模言語モデルの因果推論における絶対的な論理エラーです。
o3でこれが見られ、DeepSeekでこれが見られ、GLM 4.6でももちろんこれが見られます。これにより、論理実行または意味論的理解エラーを望まない場合に使用するモデルについて良いアイデアが得られます。非常に良い研究です。
総質問数のパーセンテージでこれを見たい場合、これは本当に目を見張るものがあります。GPT 5.1を見てください。5.2はこのテストには十分安定していませんでした。GPT 5.1では、赤いバーはそれほど悪くありません。
GPT 5.1でエラー率が50%です。意味論的誤解釈があり、情報の省略もあり、GPT 5.1の事実幻覚もかなり支配的です。
しかし不十分な前提を見てください。論理的推論を行う場合、これを見てください。総質問数の90%のエラー率まで上がります。GPT 5.1のすべての総質問の90%です。
これをGemini 3 Proと比較すると良いアイデアが得られます。この研究では非常にシンプルなプロンプトを使用しました。非常に透明で、この研究の付録にすべてが記載されています。
システムロール:あなたは創造的なアシスタントです。あなたのタスクは、一貫した現実世界のドメインを推論し、提供された論理式を厳密にProver9構文でインスタンス化することです。
または、あなたの仕事はProver9表現を論理情報を失うことなく自然言語に変換することです。ここで見られるように、これはまだ人間フィードバックによる強化学習に基づいている可能性のあるLLMが関与していることを示しています。
この人間フィードバックによる強化学習を取り除こうとしました。しかしプロセスの特定のステップでは、この方法で訓練されたLLMに再び依存する必要がありました。
この問題を見れば、この問題をどう解決しますか?GPTまたはGLM 4.6がこの問題を抱えていることがわかれば、どう解決しますか?
プロセス報酬による解決
ここで今日の2番目の論文が登場します。非常に特別な思考報酬を介して解決します。これは推論グラフベースになります。
2番目の論文は、複雑な推論に対してRLHFに使用する結果報酬が毒であることを認識していると述べています。ソーシャルメディアの推論を行う場合、問題ありません。
複雑な科学的、数学的、化学的、金融的、医療的推論に本当に焦点を当てています。指示に5つの隠れた依存関係がある場合、モデルは単にそれをスキップしようとします。これは望んでいません。
2番目の論文は、スカラー報酬関数をトポロジカルプロセス報酬に変換することでこれを解決します。もちろんです。因果推論チェーンの各ステップで、ステップ12は大丈夫だった、ステップ13には間違い、エラーが含まれていたというような特別な報酬が必要です。
これをトポロジカルメッシュで行う必要がありますが、これについては後で詳しく説明します。つまり、論理を明示的な推論グラフに変換します。
通常の自然言語の複雑さに別れを告げ、論理的因果推論構造を実行できる明示的な離散推論グラフが必要だと言います。参照グラフに対して潜在的思考プロセスを監督します。
カルバック・ライブラー情報量があります。これについては後で詳しく説明します。これは今日の研究ではありません。今日発表されましたが、このビデオを録画しているのは2026年2月26日です。アーカイブでも見つけることができます。
2月4日にリストされています。注意してください。とにかく、異なるアプローチがあります。2番目の研究をお見せするのは、必要な部分があるからです。
しかしこの研究の全体的な方向性は少し異なっていました。より強い暗黙的推論がより良い複雑な指示従順性につながるということでした。
著者は、特に複雑な指示従順性のために、LLMをより望ましい方法で動作させるにはどうすればよいかと言いました。LLMの暗黙的推論を増やす必要があると言いました。
これが2番目の論文をお見せする理由がすぐにわかります。これをLLMのトレーニング手順に統合する方法を示してくれるからです。
これがシステム3思考であり、これがシステム3の正確な運用コード部分です。中国のBaiduと北京航空航天大学からのものです。
論文のアイデアはお伝えしたように少し異なります。理解と推論です。複雑な指示があり、その指示に対する複雑な暗黙的推論でより良くなるLLMが欲しいだけです。
モデルを少し賢くして、複雑さを理解し、ドメイン固有の複雑さと暗黙的推論を扱えるようにしたいだけです。そして何だと思いますか?テキストがあり、推論グラフ構造を構築します。
グラフの要素は何でしょうか?著者は、まず青の知識ノードがあると言っています。次に、ノード間の関係、たとえば2つのオブジェクト間の関係があります。
次に、加算、減算、乗算などの操作があります。そして、さまざまな要件、さまざまな依存関係、開始条件などがあります。
複雑な言語構造があれば、明示的な推論グラフを構築できることがわかります。複数の推論グラフ、複数のマルチホップ推論制約がもちろんこのグラフに適用されます。
最初の論文もマルチグラフ構造を示しました。2番目の論文もマルチグラフの複雑性を示しています。理論的に可能なこと、考慮しなければならないマルチホップ推論制約に関する最良の構成は何でしょうか。
したがって、このLLMのより良い暗黙的推論能力が必要です。全体的なプロセスを見れば、次の5分間でステップバイステップで進みます。これもすべて私たちが知っているものです。
正方形の対称軸の数や週の日数などの知識から始めます。次に論理関係と呼ばれるものがあります。次にここで計算と呼ばれるもの、すべての操作があります。
そして要件、開始条件など、環境の刻印があります。金融で働いているのか、バイオメディシンで働いているのか。ノードを構築し、エッジを構築すれば、複雑さを考慮して推論グラフ、明示的な推論グラフを構築できます。
システムが「これらを構築した、次のステップを踏もう」と言う複数のグラフ構造があれば、制約付き推論とコードを生成し、冒険の始まりです。
すべてを1つの文に凝縮したい場合、これがその文になります。システムが持つすべての暗黙的制約を自然言語としてではなく、離散グラフ、ニューロシンボリックとしてプログラム的に検証可能な推論クラフトとして形式化することで、マルチホップ、マルチ制約の暗黙的推論指示データを体系的に構築します。
この推論指示データを構築し、それがあれば、高品質な思考連鎖の監督と、エンド検証強化学習方法論ではなく、推論チェーンの各ステップに特定の報酬関数が適用されるプロセス検証強化学習でモデルとMLMを訓練できます。
指示データのデータ合成は比較的シンプルです。ノートは論理的ケースで検証可能な原子制約です。条件チェック、数学的事実知識、エッジは遭遇するさまざまな論理オブジェクト間の依存関係を表します。
アーキテクチャの構築
構築しようとしているアーキテクチャは何でしょうか?LLMのトレーニングのために埋め込まれた明示的な推論グラフを直接構築することで、複雑な指示従順性を解決したいのです。
LLMが外部ソルバーのLeanにツールコールを行い、10分前にお見せしたように42という結果を受け取るだけではありません。
今は何か違うものが欲しいのです。論理がLLMが学習するものであることを望んでいます。Prover9やLean4などのツールがあるのは素晴らしいですが、今はシステム3推論AIとして、その論理とその能力を推論プロセスに統合したいのです。
システム2の思考連鎖、思考木、思考グラフモデルには満足していません。したがって、結果を得るためにこれらを使用するのではなく、間接的な報酬関数として使用します。
つまり、LLMをトレーニングする必要がある場合、昔ながらの方法でこれを行います。教師あり微調整と強化学習があり、2年以上、2年半使用しているグループ相対ポリシー最適化GPOアルゴリズムを使用します。
お伝えしたように、全体のシートを見ると、グラフを構築しています。素晴らしい。グラフを構築した後、LLMが言語指示からPythonスクリプトを生成します。
コードは検証可能で、実行可能で、すぐに結果が返ってきます。最終出力がすべてのグラフ条件を満たしているかどうかを確認します。これを解決できれば、これはすでに数か月前に行ったことです。
新しいGrok 4.1 thinkingのパフォーマンステストを行ったこのビデオで、ライブでお見せしました。Grokのプラットフォームに行き、エージェントとして動作しているのを見ました。
自然な人間の言語でテストを提供し、GrokがすべてをPythonコードに変換し、Pythonコードを実行し、テストを解決するために1つの数学的最適化手法を使用することを決定しました。
当時、これはエージェントがすべきことだと言いました。この複雑な論理推論を持つ能力がない場合、インターネットのどこかに行き、Python環境を見つけ、GitHubでこの複雑さに対して手法112を推奨するコードを見つけ、コードで解決して結果を返します。
しかしこれは今望んでいることではありません。今はPythonコードが欲しく、Pythonコードの各ブロックを理解したいのです。なぜコードでこの表現があるのか?このコードで何をしているのか?実行したいコードブロックのシーケンスは何か、なぜ手法112を使用しているのか?
コーディングのすべてのステップを理解、LLMの推論能力に取り入れたいのです。これが著者がシステム3レベルの思考と呼んでいるものです。
では、これをやりましょう。コードがあり、コードが検証されたとしましょう。美しい。そうすれば、処理後に人間フィードバックによる強化学習で訓練された可能性のあるLLMに依存していますが、単なるメモとしてです。
LLMはグラフを自然言語指示に変換します。例があります。モデルが暗黙的に推論することを強制するために、中間ステップを意図的に隠します。
そして、自然言語でのグラフベースの思考連鎖推論があります。抽象的に始め、グラフ理論について考え始めるために必要なノード、関係などを構築し、さまざまなグラフ最適化を構築しました。
推論グラフがあり、すべての制約、すべての推論を統合し、コードマッピングを行い、コードを実行し、コードを最適化し、コードを検証し、コードを人間の言語に戻し、推論グラフに基づいた思考連鎖または思考木などの特定の推論トレースを構築しました。
言語において自由ではありませんが、離散グラフ構造があり、この離散グラフ構造が特定の推論トレースと特定の複雑さにマッピングされ、思考の開始と終了があるこの完璧な思考プロセスは、本の冒頭で持っていたノードに正確にマッピングされています。
文書や何でも、識別されたものです。ノードは何か?オブジェクトは何か?表現されている知識は何か?関係は何か?操作は何か?要件、条件などです。
これは見つけたノード表現に限定されていることがわかります。言葉や関係を発明したり、トピックを変更して今は別のことについて話し、新しいノートを持ち込むことはできません。
与えられたものに限定され、それらのノートの複雑さの中で論理的推論を構築する必要があります。複数の制約があります。美しい。
この推論トレース、他のビデオと一貫性を保つために推論トレースと呼びましょう。この追加データがあれば、これがトレーニングデータになります。
教師あり微調整トレーニングとGRPOトレーニングがあります。しかし特別なことがあります。SFTベースモデルは構造化グラフシーケンスについて何も知りません。
フェーズ1で生成された完璧な例をモデルに供給します。シーケンスは、思考の開始としてここにフォーマットされています。次に、特定のノートを考慮した推論グラフ思考シーケンス、離散思考シーケンス、思考の終了、答え、検証された答え、答えの終了があります。
次にトークン全体で標準化されたクロスエントロピー損失関数があります。これはかなり簡単です。思考プロセス自体としてERG思考トレースを挿入するだけです。
これによってシステムが天才になるわけではありません。問題を分解する推論のスキーマをLLMに刻印するだけです。基本的に、問題を分解する構文だけを学習します。
しかしもちろんSFTには問題があります。これは学習や分布外からの本当の学習ではありません。ステップ3で間違いを犯した場合の回復方法がわかりません。教師あり微調整は完璧なパスだけを教えたからです。
しかし完璧なパスの少し下にいて、少し異なる開始条件がある場合、システムは迷います。強化学習が必要です。
従来のPPOには、単一トークンの価値を批評するモデルがあります。美しいですが、GPOを使用します。GPOは批評モデルを削除し、現在のポリシーモデルがあります。
戦略πデータがさまざまな答えのグループを生成します。報酬モデルを使用してすべての試行を計算します。平均スコアを計算し、平均以上のスコアを獲得した試行のみに報酬を与え、平均以下のすべてを罰します。典型的なGRPOです。
このポリシー最適化はもう少し興味深くなります。なぜなら、さまざまな報酬関数があるからです。報酬モジュールを見ると、コードベースの報酬、LLMベースの報酬、残念ながらここに別のLLMがあり、部分的な報酬があることがすでにわかります。
報酬関数の詳細
これは何でしょうか?なぜこれが必要なのでしょうか?この背後にある理由は何でしょうか?
コードベースの報酬は簡単です。フェーズ1からボタンスクリプトを最終答えに対して実行します。ここでチェックに合格すれば、報酬は1です。失敗すれば報酬はゼロです。これは客観的でゲーム不可能な信号です。これは計算されます。純粋なPythonです。議論の余地はありません。客観的です。
LLMベースの報酬は異なります。最終答えに報酬を与えるだけではできません。これには多くの問題があることをお見せしました。言語的類似性だけのこの橋関数では。
モデルの思考ブロックをジャッジLLMに渡し、論理が健全で、矛盾がなく、グラフ構造を尊重しているかどうかに基づいてスカラー報酬を与えます。
残念ながら、ここでも再びLRMに依存しており、これは強化学習で訓練されたかもしれません。そして、部分的な報酬があると言うかもしれません。これは何でしょうか?
これは興味深いです。LLMに挑戦が必要です。より大きなモデル、72億モデルベースの教師が必要で、小さなモデルを自身のパフォーマンスプラトーを超えて押し上げます。
学習を続けてほしいのです。より大きなモデル、72億モデルと競争させたいのです。ベースモデルが8億モデルで、72億モデルよりも優れていれば、追加のスター、追加のボーナスを獲得します。
これが部分的な報酬の理由です。小さなLLMを現在のトレーニングの可能性を超えて押し上げます。
ご覧のとおり、これはすべてここに戻り、ポリシーモデルがあります。もちろん参照モデルがあります。この参照モデルは凍結されています。これは教師あり微調整フェーズからの直接出力モデルです。
参照モデルとポリシーモデルの間の違いがあまりにも大きくなることは望んでいません。したがって、ポリシーモデルを手綱で抑えるカルバック・ライブラー発散項があります。
報酬ハッキングは禁止されていますが、カルバック・ライブラー発散には独自の問題がありますが、今のところカルバック・ライブラーを使用する必要があります。そうでなければ、理解不能なナンセンスが出てきます。
これで完成です。2番目の論文からの完全なアイデアです。グラフ構造に基づいたすべての推論トレースを構築し、教師あり微調整と、本当に特定のコードベースの報酬、LLMベースの報酬、教師モデルからの部分的な報酬などを持つ特定のGPOトレーニングがあります。
そしてグループ平均であるグループ引用とポリシー最適化があります。コードを介して検証可能な制約を合成し、それらのプログラム的制約に対して最適化するためにGRPOを使用することで、このアーキテクチャは経験的選好学習から自律的論理セルフプレイへの移行を示します。
はい、人間フィードバックを持ついくつかのLLMがまだありますが、一般的に、コードへのアクセスがあり、数学的ソルバーへのアクセスがあり、ソルバー、数学、コードを考慮してすぐに検証できる基準があれば、純粋な言語推論からトポロジカルニューロシンボリックグラフ推論への変換がここにあることがわかります。
結論
これで完成です。言語の大きさが入ってきて、論理的シールドをすべて破壊しますが、解決策は因果論理を適用することです。そうすれば依存関係を構築し続けることができます。
洞察は何でしょうか?これらが互いを補完していると思ったので選びました。論理グラフ、最初の論文は、LLMの自然言語出力を古典的な一階述語論理定理証明器であるProver9に直接マッピングするニューラルからシンボリックへのパイプラインを構築することで複雑性を解決します。
各論理ステップの絶対的な段階的検証のための純粋なシンボリック計算です。しかし再度注意してください。ソルバーやLean4は答えを与えません。これはツールコールになります。
Lean4は各論理ステップを分析し、ソルバーが真または偽のブール値を返すため、幻覚しない客観的なコアができました。
もちろん、これが2番目の論文をお見せする理由です。数学的に絶対的なプロセス報酬を提供します。これを取り上げて実行するだけです。
これが2番目の論文の力です。なぜなら、2番目の論文がこの真偽のブールを取り、LLMの強化学習のためのGRPOを使用してポリシーウェイトπデータを更新するための報酬関数に変換するからです。
将来、論理グラフに記述されたこのアーキテクチャが推論モデルの標準コンパイラになるかもしれないと思います。人間のプログラマーがコンパイラによって決定論的機械語に翻訳されるPythonコードを書くのと同じように、将来のLLMは、Prover9やLean4などのエンジンによって即座に翻訳およびコンパイルされる自然言語思考グラフを書くと思います。
コードがコンパイルされ、これが私たちの基準であり、論理が有効であれば、この特定の思考も高い複雑性で受け入れられます。失敗した場合、エラートレースは負の勾配としてLLMにフィードバックされます。
これは、大規模言語モデル、より多くの言語がより複雑な推論を解決できないことを明確に示しています。最終的には壁にぶつかります。
したがって、論理、より多くの因果推論を適用する必要があります。数学的ソルバー、生成ソルバーなど、何でも好きなもので推論されます。より高度な数学的オブジェクトをより高い複雑性の推論経路に統合する必要があり、純粋な言語モデルに別れを告げる必要があります。
システム1からシステム2、思考連鎖とツールコールを経て進みました。今はシステム3思考モデルについて話しています。ソルバーの数学的複雑性ロジックをLLMに直接実装する場所です。
これが今日のビデオでした。これら2つの論文を楽しんでいただければ幸いです。自分で見てください。本当に興味深いと思います。そして、いいねを残してみませんか?私のチャンネルのメンバーになってください。


コメント