AIシンギュラリティの発見

AI推論・CoT
この記事は約25分で読めます。

この動画では、AI研究における画期的な新しいアプローチである「言語から論理」への変換技術について解説している。従来のAIが自然言語で動作していたのに対し、最新の研究では人間の言語入力を形式論理表現に変換し、コードベースで問題を解決する手法が開発されている。同済大学の研究チームが発表した二レベル強化学習フレームワークは、問題をモデル化するLLMと論理的コードを生成するLLMの2層構造を採用し、両者を共同で最適化することで従来手法を大幅に上回る性能を実現している。この技術は、AIが人間の理解を超えた複雑な論理構造を扱えるようになることで、「ソフト技術的特異点」とも呼べる新たな段階への到達を示唆している。

AI Singularity Discovered
Language2Logic transforms AI reasoning by forcing LLMs to first translate messy language into a formal, mathematical blu...

AI推論問題の解決への新たなアプローチ

こんにちはコミュニティの皆さん。今日も戻ってきていただいて素晴らしいです。今日、今日は私たちがここでAIの推論問題を解決していきます。さあ始めましょう。

自然言語入力に対する構造化推論がAIにおける核心的な課題であることはご存知でしょう。つまり私たちがやらなければならないのは、一方では構造化されていない言語表現、例えば英語があるということです。しかし私たちが欲しいのは、シンプルなコードが解決できる形式論理表現なのです。

シンプルに言えば、言語を論理にマッピングするだけです。いえ、私たちはAIが私たちの言語表現、私たちの言語で動作することを望んでいるのではありません。私たちはAIがここで論理コード表現で動作することを望んでいます。それはソルバーやツールで検証できるものです。

Googleの既存アプローチとその限界

私の前回の動画でもお話ししましたが、サムネイルをご覧ください。私たちはすでにGoogleがこれを行っていると言いました。Googleはここでやっていて、Titan AIからプランを抽出し、コストを計算し、値を増加させ、新しい値を計算し、そして利益を計算しています。これは非常に特定の問題のコンテキストエンジニアリングのためのソリューションテンプレートです。

今日、Amazon Nova experimentalのような古いモデルを見ると、タスクを与えるとすぐにステップバイステップのソリューションを始めることがわかります。ゼロから始めて、これを押して、これをして、前進する。推論は起こっていません。

しかし他の問題を見てください。新しいo1を見てください。何が起こっているかわかりますか。トピックを与えると、「私はタスクを理解したい。タスクの目的を理解したい」と始まります。そして「20回未満のボタン押しで50階に到達する必要がある。特定のラベルのエネルギー貯蔵庫で終了する必要がある。取得すべきトークンがある。4つのコードカードのうち少なくとも2つを収集しなければならない。避けなければならないランダムなトラップがある」と言います。

そして「私はタスクを理解した。目的を理解したが、どこから始めればよいのか。システムの境界条件は何か」と言います。これは理論物理学で「初期状態は0階にいる。このエネルギー量がある。このトークン量がある。コードカードはない。ゲーム中にオンオフできる異なるフラグがあることを認識している」と言うのと同じです。

現在の状況を理解した後、システムは戦略と計画を始めます。これが現代のAIがやっていることです。そして「おお、これは既に興味深い。タスク理解と純粋な計算タスクの分離が見える」と言うかもしれません。

現代AIの新しい段階への移行

前回の動画でDeepSeek o1とLean 4の違いについて話したときに、まさに私たちが話していることをお見せしました。DeepSeek o1の主要目標は、不確実な空間から経験的に最高のパフォーマンスを示すソリューションを見つけることでした。しかしこれはもはや今日の私たちには十分ではありません。不確実な空間ではなく、確実な空間を望んでいます。

どうするのでしょうか。人間のプロンプトから始めます。そして巨大なLLMは私たちのプロンプトを解釈し、内部的に人間のプロンプトを、このLLMが訓練段階で学習したデータ能力に従って書き換え始めます。

例えば、思考の連鎖という線形な推論シーケンスを使用する場合、AIのすべてのパフォーマンスチャートで1位の推論モデルがあります。前回の動画では、思考の連鎖からより複雑な計画へと一歩進みました。そして今日、今日はAI開発の次のステップを踏みます。

はい、皆さんはすでにそれを見たことがあります。気づかなかったかもしれませんが、見たことがあります。Claude Sonnet 4とo3、Gemini 2.5 Proを比較したこの動画で、私の人間のクエリテキスト、私の論理的因果推論テキストがAIシステムによってコードに変換され、コードベースを解決して結果を返したことをお見せしました。

これは既に今日起こっていることです。しかし、これをもう少し明確にしましょう。人間の言語を非常に特定のコードに変換します。Pythonベースでも構いません。しかし注意すべきことがあります。

言語から論理への新アプローチ

この新しいアプローチについて話しましょう。言語から論理です。コンテキストエンジニアリングでも、プロンプトエンジニアリングでもありません。いえ、私たちは次のステップを踏みます。絶対的な明確さで解決できる純粋な論理構造への言語変換です。

人間がどのようにやるかを見てみましょう。狭い領域での真の専門家である人間の専門家は何をするのでしょうか。彼らは形式論理や数学的フレームワークを使用して問題を抽象化し、モデル化します。変数、制約、目標を定義し、それらを明確にした後にのみ、分析的または計算的手法を適用して解決します。

飛行機の新しい翼を設計するとき、自動運転の特定のコンポーネントを設計するとき、すべての依存関係を理解しようとする抽象化、モデルから始めて、その後スーパーコンピューターで計算手法を使用して解決します。今、私たちはAIでも同じことをします。

工場の出力を最適化しなければならない人間のエンジニアがいるとしましょう。Amazon LLMで示したようなステップ1、ステップ2から始めるのではありません。問題をモデル化します。変数、現在持っている生産率と達成したい生産率を定義し、機械の容量、最大容量、購入できる限られた原材料などの制約を定義します。

目標は利益の最大化であり、すべての境界条件を考慮しなければなりません。論理ベースで絶対的に理解できる形式フレームワークを定義した後、アルゴリズムを適用してソリューションを見つけます。そして何でしょうか。AIも今同じことをやっているのです。

新しいフレームワークの構造

これは入力としての言語理解と計算の主要部分としての形式論理の美しい結婚です。このように、この新しいアイデアはかなりシンプルです。すでに起こっていることを、少しよりクリスタルクリアにしたものです。

これには解決すべき2つの複雑さレベルがあります。より高い複雑さレベルでは、最適化ガイド付き定式化LLM(OF LLM)があります。これは私の自然言語クエリ、私がAIに与えるタスクを構造化された形式モデルに変換するために、問題タイプ、変数、制約、目標などを指定した形式モデルに変換します。形式モデル、数学的または論理的モデルに必要なすべてのパラメータがあることを確認します。

そして低い複雑さレベルでは、論理生成LLM(LG LLM)があります。これは論理表現、ルールベースのワークフローや制約駆動のソリューションパスのような論理表現を構築し、これをPythonコードに翻訳します。これはAIのツール使用として機能するPythonソルバーとして機能し、普遍的なシンボリックワークフロー論理生成として機能します。

シンプルですが、もちろんこれを行う前に、使用するすべてのLLMを訓練しなければなりません。今、問題があります。ドメイン知識と特定のタスクのために訓練しなければならない高レベル最適化ガイド付き定式化LLMと、論理生成LLMを訓練しなければなりません。

二レベル最適化の課題

しかし、どうやってこれを行うのでしょうか。面白いことに、これらの層は相互作用し、何か新しいものを生成しなければならないことを覚えています。そのため、それらを共同で訓練する必要があります。これは、AI LLMのための二レベル最適化アルゴリズムに直面していることを意味します。

そして「ついにこのことがより興味深くなってきた。AIについてのそんなにシンプルな動画ではない」と言うかもしれません。絶対にそうです。しかし始めた瞬間に「やったー」と言い、「しかし待って、現在の最新AI研究で定式化LLMを訓練するためにどのようなメカニズムがあるのか」と気づきます。

実際には、一つの方法しかありません:強化学習です。これが私たちが持つ主要な方法です。つまり、抽象化生成LLM、定式化LLMには強化学習を使用します。そして信じられないでしょうが、これが唯一の方法なので、論理生成LLMにも強化学習を使用します。

しかし今、ポジティブな側面は何でしょうか。共同最適化問題を行わなければならず、同じベース訓練方法論があるため、非常に簡単に組み合わせることができます。これが今私たちが解決しようとしていることです。

数学的定式化

もう少し数学的な側面にいる場合、気にしないでください。解決しなければならない2つの主要方程式があります。まず上位レベルのOF LLMがあります。このLLMの最適化プロセスはどうなっているでしょうか。そして下位レベルのLG、論理生成LLMがあります。ここで目的関数はどのように更新されるでしょうか。

すぐに気づくでしょう。「待って、私たちの公式に項が欠けている」。はい、もちろんこの特定の論文で、このトピックに関する最新のAI研究をお見せしますが、彼らはKLペナルティなしの強化学習の目的を使用しており、これは重要な項である可能性がありますが、理論を見て、著者が発表した結果を理解しましょう。しかし、項が欠けていることを覚えておいてください。

私の前回の動画の一つで、確率分布を比較する際にKLペナルティが極めて重要であることをお話ししました。この特定の出版物から何かを見逃している可能性があることに注意してください。

同済大学の研究論文

これらの用語と少しの数学に本当に慣れていない場合、私にはすべてを説明する動画があります。これは2025年7月11日に同済大学によって発表された主要論文です。「言語から論理へ:構造化推論のための二レベルフレームワーク」という美しい論文です。

ついに、彼らは次世代LLMのためのはるかに優れた推論パフォーマンスのソリューションを見つけたと期待しています。しかし、すぐに見てみましょう。最初のLLMを見てみましょう。これが私たちのOF最適化ガイド付き定式化LLMです。

何をやっているのでしょうか。その核心的なタスクは何でしょうか。問題モデラーです。その仕事は、私の人間の自然な英語クエリを摂取し、これを完璧な構造化された形式論理表現に翻訳することです。

これは単なる計画ではありません。私がこの動画と前回の動画で示したような。これはもっとです。これは複雑さの次のステップです。これはシステムのすべてのパラメータを持つ形式仕様です。

出力構造と問題分類

例えば、出力は5つ組です。多かれ少なかれ、私たちは単にタプルと行列乗算で作業します。タプルの要素は、問題概要のpです。これは単にタスクの簡潔な要約ですが、その後絶対に魅力的になります。

モデルタイプ、これは問題のカテゴリです。例えば、ここで充足可能性です。これは制約満足問題で、論理推論があり、それを解決する方法があります。これは過去50年、おそらく100年の数学と因果推論で、私たちが処理方法を知っていることで、今突然AIと、AIが存在する前に過去50年間で開発したすべてとの橋渡しがあります。

論理のために開発したすべて、すべてのNP困難なソリューション、今これらを使用できます。なぜなら、ついにAIはもはや人間の言語で動作しているのではないと言えるからです。しかし今、AIは他の何かで動作しています。

5つ組の次のパラメータはもちろん変数です。それから制約があり、そして目標があります。つまり、単に持っている自然言語クエリよりもはるかに明確にシステムを定義します。

すべてのパラメータ、すべての変数、すべての制約があることを確認し、AIが理解できる方法で目標を再定義してください。それだけです。

例をお見せしましょう。これがシンプルなプロンプトです。これで何をするのでしょうか。単にこれに変換します。pについては、これら2人の身元を決定します。Tについては、セット問題、ブール充足可能性問題と定義します。Cについては、プロンプトで与えられたステートメントがあります。

どれほど簡単に変換できるかがわかり、すべての制約を満たすこの真の値を見つけるだけです。論理には、これをすぐに解決する数学的装置があります。SATやブール充足可能性問題と、左側に見える特定のクラスについて詳しく学びたい場合は、Wikipediaの良い説明があります。

論理生成LLMの役割

しかし、今持っている2番目のLLM、論理ジェネレーターについて話しましょう。これが本当にコードが活躍する場所です。これがソルバーであり、私たちが使用するツールです。多くの視聴者が「なぜPrologツールを使わないのか」と言いました。

前回の動画で因果推論のソルバーとしてLean 4について話したことを覚えています。これが今私たちがいる場所です。このソルバーは私たちのOF LLMから完璧に構造化されたモデルMを受け取ります。

レイヤーの出力を受け取り、論理生成LLMの唯一の仕事は、それを解決するプログラムを生成することです。それが何であろうと気にしません。Pythonで行きましょう。この仕事に特に焦点を当てたPythonの多くのライブラリがあります。

Microsoftが開発したZ3というものを使いましょう。Stanford theory.stanford.eduのNikolaiプログラミングZ3のレッスンを覚えています。そこに行けば、すべての情報リソース論理インターフェース、項の署名、式の量化があります。これのための完全なライブラリ、これのための複数のライブラリがあります。

最初のLLMで示したこの特定の問題が、論理生成LLMの2番目のLLMのコードにどうなるか。これです。これは任意のコード環境が真の精度で解決できる非常にシンプルなシステムです。

これはもはや自動回帰変換器ではなく、コンピューター上で計算できる本当の古典的なコードで、次のトークン予測について議論するAIについてではありません。これを使用するのは美しいです。

ゲーム理論的背景

これについて考えると、「ちょっと待って、これは数学にゲーム理論的背景がある」と言うでしょう。はい、もちろんです。著者たちはここでリーダーとフォロワーがいるシュタッケルベルクゲームがあると教えてくれます。

私たちのOGF LLMをリーダーとして、論理生成LLMをフォロワーとして見ることができ、そうすれば全体システムにとって最善の結果であり、ゲーム理論のアイデアを使用できます。

過去50年間にゲーム理論で開発したもの、ゲーム理論で開発したコードが、今突然、もはや言語ではなく純粋な論理オブジェクトで動作するAIで利用可能になります。

これは興味深いです。これについて考えてみてください。起こっているテクノロジー特異点について話しましょう。私はこれをソフトテクノロジー特異点と呼んでいます。しかし、これには相当な可能性があります。

ソフトテクノロジー特異点の概念

何をやっているのでしょうか。モデラーLLMがあります。これが形式的な設計図を作成します。そして、コードでこれを実行するソルバーLLMがあります。より良い推論のための巧妙なエンジニアリングソリューションのようです。

しかし、考えてみると、理論的にははるかに深遠な何かになる可能性があります。実際に見ているのは、AIの言語から論理へのフレームワークです。これは単なる新しい方法ではありません。これはソフトテクノロジー特異点の設計図でもあります。

どういう意味でしょうか。これは、どこかの会社があなたに売ろうとしているマーケティングの暴走する超知能ではありません。私が意味するのは、もっと微妙で、あなたのケースに本当にドメイン固有のものです。

これは本当に、機械が生成する論理が非常に複雑で層になって、人間の理解を根本的に上回り、追従不可能な新しい発見の形になる点です。これらの数学的論理ソルバーのいくつかを見ると、読めません、理解できません。

それは20年、30年、50年の数学の結果である公理と定理に圧縮された純粋な抽象数学ですが、普通の人間である私にとって、それは私の言語の範囲外であり、私の分析的理解の範囲外です。

しかし、これはまさに私がAIになってほしいものです。私の人間の脳が扱えない複雑さを扱える問題ソルバーです。すべてのスーパーコンピューター、普通のスーパーコンピューターは、1000、10000のパラメータを持つシステムを計算できます。問題ありません。人間の脳はこれを行うことができません。

そして今、ついにAIを最適化のオブジェクトとしての人間言語ではなく、コードで意味をなすものに焦点を当てましょう。ソルバーから戻ってくる機械コードを論理を理解するために人間の言語に変換しようとするたびに、私は失敗します。

しかしAIについて考えてみてください。単なるニューラルネットワークで、それは単なる別のパターンであり、AIは完璧なパターンマッチング機械です。この特定の構造にAIを適用することは今や意味があります。

AIの新しい発見能力

この動画「AI知能なし」で、11分35秒のところで、AIシステムが真のニュートン法則を発見しようとしたことをお見せしました。これが彼らがトランスフォーマーアーキテクチャから発見したものです。完全に失敗したのがわかります。

しかし、なぜ完全に失敗したかわかりますか。彼らも多かれ少なかれ言語空間で動作していて、ソルバー空間ではなかったからです。

これは今絶対に興味深くなります。AIが次世代で人間言語のパターンを見つけて予測するのではなく、純粋な機械論理でパターンを見つけて予測するようになると、数学ソルバーにあるパターンで、私はこのソルバー表現を理解できないかもしれませんが、AIはニューラルネットワークで、「オーケー、これはパターンだ。それが何かは気にしない。理解したくないし、理解する可能性もないかもしれないが、それは私が作業できるパターンだ。複製できる」と言うだけです。

これは今興味深いです。注意を向けていただきたい3つの要素があります。

まず、人間の言語からの論理の一種の分離があります。今まで、すべてのAIシステムは人間の文学、人間の読書、人間の何やらで訓練されていました。言語から論理はここで興味深いです。なぜなら、話すことから始まりますが、その最初で唯一の目標は、人間言語のこの監獄から逃れることだからです。

最初のLLMは「人間の言語を取り除きたい。私のカーネルで有効であることがわかっている論理公理と定理と純粋な数学的公式がある純粋な論理空間に抽象化したい。もう人間の言語はない」と言います。それは理にかなっています。

第二に、自己学習要素が必要です。そして、ここに自律的改善ループがあります。これが次にお見せしなければならないものです。

自己改善システムの加速エンジン

この言語から論理アイデアの加速エンジンは、お見せしたように、この共同二レベル強化学習です。強化学習のGRPO Allenアルゴリズムです。これにはシンプルな優雅さがあります。

達成するもの、これがステップ3です。人間と機械認知の間のギャップが広がっています。これが理論的に特異点が形成され始める場所と議論できるところです。論理の機械コードは人間にとって読むことさえできなくなるでしょう。

人間の言語に転写し直すことはできますが、この特定の論理表現の美しさと優雅さと力は、完全に異なる空間で、単純に失われてしまいます。この新しい研究論文による何と興味深いアイデアでしょう。

例でお見せしましょう。今、OGF LLMから、私の人間のぺちゃくちゃから論理モデルを構築し、シンプルに定式化したので、このモデルは50のパラメータまたは50の変数を持ち、100の制約があります。私は人間の言語で定式化していなかったかもしれません。存在することを認識していなかったからです。

しかし、これが私がAIにやってほしいことです。状況を理解し、戻って、インターネットのどこかで完全にすべてのシステム変数、すべてのシステム制約、温度、圧力、何でもを理解し、これが効果を持つことを理解することです。

論争的なもので行きましょう。気候変動です。完全な惑星の複雑さ、すべてからのダイナミクスがあり、素晴らしい人間の心で、購読者である皆さんがこの素晴らしい人間の心だと思いますが、この論理を注文できます。50の変数と100の制約だけだからです。午後に座れば、これは人間にとって大丈夫です。

しかし、この自己改善エンジンがあり、何百、何千世代の自己改善があるとしましょう。システムは今、地球全体のモデルを50,000の変数と、文献で見つけた100万以上の相互関連する制約で生成することを決定するかもしれません。

水蒸気、土地、日光、エネルギー、CO2がどのように結合し、相互関係がどうなっているかです。この複雑さを理解できる人間の脳を見せてください。

これが私がAIに設計してほしいものです。そして今、ソルバーコードは、10万行を生成するとしましょう。問題ありません。誰が気にするでしょうか。最もシンプルなZ3のような複雑な定理証明器を使用して。

私たち人間は何年もかけてこれを開発し、「私たちはすべての論理をZ3のこの構造に入れる」と言いました。正しい条件を与えれば、私たちの論理ガイドラインに従ってのみ計算でき、完璧に実行して、例えば画期的な新しい分子構造を提供することを期待します。

答えは正しいです。人間の言語ではなく数学的定理で動作するからです。証明は論理でエンコードされていますが、個人的には私はもはやそれを追うことができません。

これは今計算です。「ブラックボックスAI、開いて内部処理を見せて」と言うことはできません。これは複雑さです。気候変動で100万の相互関連する制約の生成を見せてくれたとしても、数学的精密さでそれを追うことはできないでしょう。しかし、任意のコンピューター、任意のスーパーコンピューターはこれを行うことができます。

検証可能だが監査不可能な論理

これは一種のソフト特異点です。おそらく理論的に私たちが近づく特異点でもあります。検証可能な論理のブラックボックスで満たされた世界です。すべてのLLMですが、それらがブラックボックスなのは、ルールが隠されているからではありません。ブラックボックスの運用システムの論理を再プログラムしました。

コードはそこにあります。しかし、ついにAIは設計された目的を果たしています。ブラックボックスは今、私たちの人間の脳が単純に欠いている複雑さのレベルに達しています。実行を追跡する能力が不足しています。

これが今、検証可能ではあるが監査不可能になるソフト複雑性定理のポイントです。つまり、もちろん最終結果を追跡できます。実際の物理実験、化学生物学実験を実行できますが、純粋な機械論理コードで行われた論理導出を監査することはできません。

人間の言語に何らかの形で翻訳し直さなければなりませんが、これを伝えようとしてみてください。推論の連鎖は非常に広大で複雑で、このレベルでは人間の心にとって根本的に不透明になります。

何と興味深いアイデアでしょう。現在の言語モデルに「言葉で考えるのをやめて、純粋な論理抽象化、数学的構造にジャンプしろ」と言うとき、より良い推論を求めているだけではありません。

はい、もちろんより良い推論が欲しいですが、自律的論理進化の道に設定しているのです。これがこの出版物で好きなことです。そして、そこに私たちが今日構築している静かで、ソフトで、美しい特異点があります。

共同訓練の重要性

さて、これが今戻ってきます。これのステップ2が重要だと言いました。複雑さの共同訓練です。複数レベルでの強化学習、このGRPOを知っていますが、今は複数レベルで共同で行います。

これは興味深くありません。正しいアイデアがあれば、本当に織り込まれるか、全くそうでないかもしれません。知っているのは、アルゴリズムGRPOが美しく、明示的な報酬モデルだということです。素晴らしいです。暗黙的なDPO構造の問題がありません。これが進むべき正しい道です。

GRPOがあり、2つのポリシーがあります。OGFポリシーの目標は、因果推論空間で可能な限り最高の問題モデルMを生成することです。LGポリシーは、OGFポリシーによってここで生成されたモデルMを取り、可能な限り最高のコードを生成することです。

Prolog、Pythonライブラリ、Lean 4でソルバーに行って、それを解決します。そして一緒に最適化します。どうやってこれを行うのかと言うかもしれません。ループがあります。最もシンプルなことは何でしょうか。交互ループがあります。

コードが正しい答えを出したかという最終報酬を非常に簡単に検証できます。これは最初にLGモデルを更新するために使用されます。これが戻ってくる報酬関数です。

与えられた問題定式化Mに対してLGモデルによって達成された平均報酬が、単純にOFFモデルの報酬信号になります。シンプルで自明です。

OFFモデルは、コードモデルがPythonコードを実行することで正常に解決できる定式化、抽象化を生成すると報酬を受けます。この共同最適化により、OGFは抽象化において明確で解決可能な論理構造を作成する方法を学習し、汎化と精度を劇的に改善します。

これは美しくシンプルなアイデアです。気に入っています。「数学はどこにあるのか」と言うでしょう。すでにお見せしましたが、再度見てみましょう。

最適化アルゴリズムの詳細

私たちの目的関数と最適化、下位レベルのソルバーは何でしょうか。これがコードソルバーです。与えられた問題QとOF LLMによって生成された形式モデルMIに対して、LGポリシーはその生成されたプログラムの期待アドバンテージを最大化するように更新されます。

報酬が統合されています。OIG、これが最適化項目です。上位レベル目的関数については、申し訳ありません、単語が欠けています。抽象モデラーをどのように最適化するかです。これはリーダーです。

論理生成コードモデルからの最適応答を予想することで、この目的を最大化することを目指し、巧妙な方法でここで組み合わせ、シンプルなフィードバックループを持つレベル報酬最適化があります。

もちろん、うまく機能しない場合、OGFがここで形式モデルMを作成し、コードLLMが一貫してこの形式抽象表現のコード表現を見つけるのに失敗し、より低い平均報酬構造につながる場合、この特定の非動作抽象化レベルを作成することで、このOGFポリシーに対する単純な負の更新です。

これはまさに私たちがAIで常に行っていることです。特別なことはありません。モジュールを特定の方法で組み合わせるだけです。同済大学からも少し前に、2024年11月にここで発表された、三レベルナビゲーターの二レベル強化学習アルゴリズムのまさにソリューションも示されています。

半年前にすでにソリューションを見つけていたので、同済大学が新しい研究を発表したのも不思議ではありません。

コード実装と結果

コードでこれを見たい場合、これです。これがすでにお見せした通り、公式出版物でのものです。「強化学習だけなのか」と言うかもしれません。ちなみに、はい、その通りです。著者たちはコールドスタートとして古典的な教師ありファインチューニングも行います。

OFFモデルをコールドスタートするために、強化学習を通じて学習する前に、有効な形式モデルMの基本構文と構造を知る必要があると信じており、この特定のトピックで教師ありファインチューニングで訓練しています。

しかし、教師ありファインチューニングは、F発散とKLクライバー項を持つ強化学習以外の何物でもないことを覚えています。はい、生成、フィルタリング、ランキング、ファインチューニングを持つ古典的な教師ありファインチューニングがあります。

しかし、これがない場合はどうでしょうか。訓練データを設計しなければなりません。注意してください。事後訓練革新の新しいAFフレームワークについてのこの動画でお見せしたように、教師ありファインチューニングは実際にはDPOであり、この新しい論文にまだ実装されていない更なる最適化があります。

とにかく、結果を見てみましょう。素晴らしい、主要アイデアを理解しました。達成するパフォーマンスは何でしょうか。総領域推論だけに行きます。難しいものに行きます。

言語から論理は、特定の項目、特定の論理問題で13%の改善、時間的テストデータセットで11%の改善、幾何予測問題で17%の改善をベースラインに対して達成しています。

これは非常に印象的です。少なくとも前回の動画でお見せした3%や4%ではなく、13%、11%、17%なので、何かが動いており、これはまだ最高に最適化されたバージョンではありません。これは最初の試行です。「これができるか?」「はい」という。

例えば、思考の連鎖より35%高いことがわかります。これは機能しています。すべての形式データがあります。美しいです。

結論と今後の展望

そして結論です。これが良いと思います。大規模言語モデルとの構造化体系的推論について話しているからです。今、彼らは「言語にとどまらない。これがAIの進む道ではない」と言っています。

LLMが構造化された形式論理モデルを構築し、実行可能なシンボリックワークフローを生成することを可能にすることが進む道だと言っています。この設計は、複雑な問題の根本的な論理をより効果的に捉え、LLMとの推論パフォーマンスを向上させます。

これは、この動画の最初でお見せしたものとまったく同じです。論理因果テストを行い、o3のようなモデルが私の人間のテキストを取り、Pythonコードに変換し、コードで解決して結果を返すことをお見せしました。

o3の推論トレースが見えない理由です。すべての計算をバックグラウンドで行っていたので、5分、7分、12分待つ必要がありました。一部の企業はこれを理解し、すでに実装しています。

Googleのような企業、Gemini 2.5 Proで、動画でお見せしたように、両方できます。コーディングなしの固有パラメトリック知識を行うことができ、スライダーを押してコード実行を活性化し、システムがPythonでのコード実行で行います。

現在、これを見て学習し理解するすべての可能性があります。コードは絶対に完璧です。カーソルを使用したり、Gemini codeを使用したり、他のコードIDEを使用したりするときに何をするかを考えてみてください。

同済大学による素晴らしい研究です。7月14日、これは私にとってほぼ今日です。論理抽象化のモデル化とコードに依存することでこの複雑さの解決との間の密結合を保証する二レベル強化学習アプローチの最先端です。

素晴らしいのは、理解から解決、そして特定のトピック、集合などの特定のソルバーを持つツールでの解決からのもつれを解くことです。そして報酬信号は、複雑さレベル間、2つの異なるLLM間のコミュニケーションチャネルの一種として設計されています。

巧妙に設計されています。巧妙な方法で行われれば、エレガントでシンプルなソリューションを持つことができることがわかります。教師ありファインチューニングが根本的にDPO、暗黙的報酬関数の最適化と同じことをしていると言いました。ドメイン外の何かをしたい場合はFSTに注意してください。

「なぜPythonなのか」と言う人もいるでしょう。Pythonは単なる例です。非常に豊富なエコシステムがあるからです。異なるライブラリに行くことができます。方程式を解いたり、式を簡略化したりするためのPythonでのシンボリック数学や、Microsoftからのz3に行くことができます。

お見せしたように、制約満足問題、ブール充足可能性問題には優れています。定式化でき、解決できます。Prologに行くかもしれません。前回の動画で、純粋な数学的証明ソルバーとしてのLean 4をお見せしました。このコードはすべてすでに利用可能です。人間の言語から抽象化するだけです。

一般的に、これについて何と言うでしょうか。気に入っています。問題を分析する2つのLLM、モデルLLMがあります。これが私の人間のクエリで、構造形式表現Mに翻訳します。そして、この形式モデルmを取り、ソリューションを見つけるために実行可能な論理形式ソルバーコードを生成するソルバーLLMがあります。

これが機能する核心的方法、システムに固有のこの自己学習アプローチは、両方のLLMで動作する報酬関数を持つ二レベル強化学習です。何と美しいアイデアでしょう。このような動画が好きなら、ぜひ購読してください。

コメント

タイトルとURLをコピーしました