本研究は、大規模言語モデル(LLM)の論理的推論能力が複雑性の増加に対して線形的に劣化するのではなく、物質の相転移のように振る舞うことを明らかにした画期的な論文である。研究者たちは「論理的複雑性メトリクス(LOCM)」という新しい測定基準を開発し、タスクの複雑性が特定の閾値を超えると、モデルの精度が急激に崩壊する「論理的位相転移(LPT)」現象を発見した。自然言語と一階述語論理を組み合わせたニューロシンボリックなアプローチにより、この現象がファインチューニングやChain of Thoughtプロンプティングでは根本的に解決できない、モデルアーキテクチャに内在する構造的限界であることが示された。この知見は、AI研究における重要な転換点を示唆し、今後のモデル設計とトレーニング戦略に大きな影響を与える可能性がある。

AIの論理的推論における相転移現象の発見
こんにちは、コミュニティの皆さん。お戻りいただけて本当に嬉しいです。今日はここで、いくつかのクレイジーな新しいAI研究を見ていきたいと思います。では始めましょう。私のチャンネルDiscoveryへようこそ。
前回の動画では、キルスイッチについて話しましたが、特にエントロピー適応型ファインチューニングメカニズムについても取り上げました。そして最終的に、教師あり学習によるファインチューニングで発生する破滅的忘却における勾配爆弾を理解しました。私たちはそれを「確信的衝突」と呼びました。
さあ、どうなったと思いますか。このエントロピー適応型ファインチューニングは最初のステップに過ぎませんでした。なぜなら、今日はさらに一歩先に進むからです。私たちはエントロピーだけに限定せず、一般的な熱力学的境界を見ていきます。しかし今回はファインチューニング単体ではなく、推論、つまり論理的因果推論に取り組みます。
論理的位相転移とは何か
これが今日の論文です。「論理的位相転移:LLMの論理的推論における崩壊の理解」。皆さんは「論理的崩壊があるのか、これは興味深い」と思うでしょう。では見ていきましょう。
1月6日、著者たちはニューロシンボリック・カリキュラム・チューニング演習を提案しました。これは、自然言語と論理記号を適応的に整合させ、共有表現空間を確立する新しいフレームワークです。
このプレプリントは、LLMの推論がタスクの複雑性を増加させても線形的には劣化しないことを示しています。代わりに、論理は物質のように振る舞います。複雑性の範囲内では固体のまま、つまり安定した状態を保ちます。そして融点、つまり臨界閾値に到達すると、精度が急激に崩壊して液体ノイズになります。これは単純に、私たちのLLMによるランダムな推測です。
新しい測定基準:論理的複雑性メトリクス(LOCM)
そのため、著者たちは新しいメトリクスが必要だと判断しました。測定できる何かが必要だと。そして彼らは外在的指標を採用し、それを論理的複雑性メトリクス、LOCMと名付けました。これは、私の前回の動画で紹介した内在的指標、CTプレフィックスや、最近の動画で議論したエントロピーガイドTを補完するものです。
LOCMの式は、非常にシンプルな方法で複雑性を定量化します。聞いてください。彼らは単純にこう言いました。「これをやってみよう、これをキャリブレーションしよう、この式で行こう」と。これには本当に深い意味はありません。
私たちのWは、すぐにお見せする演算子Oに対するキャリブレーションされた重みです。そしてHは単純に推論ホップです。重み1では基本的な結合子があります。重み2では量化子と否定があります。重み3では、これは多分岐の含意処理を必要としますが、条件文があります。そして重み3.5、これは支払わなければならない最高の税金と定義されました。これは明示的なケース分割を必要とし、排他的論理和です。そして推論ホップは単純にホップごとに2です。素晴らしい。
一階述語論理との統合
さて、彼らは言いました。「最初のステップは、特定のタスクの論理的複雑性を測定しなければならない」と。これが私たちの式です。論理演算子があります。素晴らしい。演算子の出現、頻度、そしてお見せしたように推論ホップの数があります。素晴らしい。
では、興味深い部分が来ます。彼らは「これを自然言語と組み合わせよう。しかし、これをニューロシンボリック整合データセットの中で既に行おう」と言いました。
私が以前の動画でお見せしたGoogleのExtremeを覚えていますか。彼らはここでPDDLを使用し、それをLLMのボディに統合しようとしました。PDDL、つまり計画ドメイン定義言語は、宇宙の物理エンジンまたはルールブックです。彼らはドメインファイルを持っていて、今回は一階述語論理で進むことにしました。
ここに一階述語論理の記法があります。変数、定数、演算子のすべての説明が右側にあります。それから関数、述語があり、そして否定、連言、選言、含意、双条件、全称量化子、存在量化子など、一階述語論理から知っているすべてがあります。
そして彼らは「言語要素から一階述語論理へのマッピングを作ろう。翻訳ルールを定義しよう」と言いました。例えば、自然言語の例があります。「マリアは猫です」。これが一階述語論理ではどう見えるでしょうか。ここに美しく解決策があります。含意、連言、選言、排他的論理和、否定など、すべてについてこれを行います。原子的推論、多段階連鎖、これが定義されています。
共有潜在多様体での動作
素晴らしい。つまり、「純粋な自然言語、純粋な大規模言語モデルの代わりに、このモデルは今、ペアになった自然言語と一階述語論理のデータ構造上で動作するように訓練されている」ということです。
ですから、このモデルが抽象的な論理と人間のテキストの間の共有潜在多様体上で動作していることをすぐに理解できます。そして、どういうわけかこれが興味深くなります。
「ちょっと待って、PDDLがあって、今は一階述語論理があるのですね」と言うかもしれません。はい、PDDLは効果的に一階述語論理の特殊化された行動指向の実装です。ここで著者たちは一階述語論理を使用して演繹的推論の複雑性を測定しており、このビデオの最後に例を計算してお見せします。
PDDLは同様の論理を使用してここで状態空間の軌跡を定義します。バイオ医学から見ると、PDDLはしばしばスクリプトのような言語と呼ばれ、ここで述語に依存して世界を定義します。
LLMが今プロンプトを一階述語論理に翻訳するとき、それはある意味で、私の前回の動画で説明したPDDLドメインファイルを書くために必要な意図の同じ形式化を実行しています。
実践例:倉庫のボックス移動タスク
簡単な例を想像してください。AIが倉庫でいくつかの箱を移動するタスクを与えられたとします。これは古典的なPDDLタスクです。
あなたはロボットに指示を与えます。「すべての青い箱を最上段の棚に置いてください。ただし、ガラスが含まれている場合を除きます」。
私たちの記号形式はこれです。これが私たちの記号形式です。これが美しいのは、これがもはや確率的な形式ではないからです。これは本当にほぼ決定論的な形式です。
そして今、特別な効果があります。著者たちは私たちに示します。箱の数とガラスが含まれていないというネストされた条件のような条件が、例えば8のような特定の複雑性レベルを作成する場合、問題が生じます。
Gemma 2億の訓練可能パラメータのような小さなモデルが、その位相転移境界に達した場合でも、言語的には依然として自信を持って聞こえます。「はい、今箱を移動しています」と。しかし、前回の動画からのCTプレフィックスである潜在的積分器がスパイクします。なぜなら、もはやすべてのXの量化子に対して堅固な論理を維持できないからです。
位相転移の実験的検証
ご覧のとおり、ブラックボックスLLMから再び内在的信号が出てきます。研究者たちは、この結合多様体上で論理的位相転移、彼らがLPTと呼ぶものを発見しました。
どうやってこれを行ったのでしょうか。彼らはLLM、GPT、QWen、Gemmaモデル、自然言語推論タスクを開始しました。「もしエリーズが生物学者で、これが起こるなら」というように。
これらのタスクのパフォーマンスは、時には予測不可能に低下するように見えました。自然言語だけを使用した裸眼では、長い文のいくつかは簡単に解決されましたが、短い文のいくつかは一部のLLMにとってほぼ不可能でした。
そして彼らはインテリジェントなマッピングを行いました。自然言語タスクを一階述語論理の等価物、述語と演算子にマッピングしました。そして論理的複雊性メトリクス、LOCMを計算しました。
彼らは何かを発見しました。モデルの精度、自然言語タスクでのモデルのパフォーマンスを、基礎となる一階述語論理構造のLOCMに対してプロットしたとき、論理的位相転移が現れました。ここにあります。
モデル別の位相転移パターン
さまざまなモデルについて見ていきましょう。DeepSeek V3、GPT-4.1 nano、QWen 2.5 14B、その32B、Gemma 1B、Gemma 4B、Gemma 12B、Gemma 27Bから始めます。
影付きの領域が見えますか。これらが私たちの論理的位相転移です。ある意味で、影付きの領域は、精度が通常の肩、つまりプラトーからかなり大幅に低下する、識別された転移区間を示しています。そして別の肩、別のプラトーが見えます。
興味深いことに、推論プロセスにおける不安定性の領域と呼べるものがあり、次に安定性があり、そして不安定性があります。訓練可能パラメータの数に応じて、これがどこにあるかわかります。
彼らは第二段階として、今示したボックスのような論理的位相転移を発見しました。「タスクの複雑性が増加すると、モデルのパフォーマンスが大幅に低下する時期を特定できる」と言いました。
y軸には精度があります。20%、40%、60%、80%、100%です。定義されたメトリクスでタスクをより困難に、より複雑にすればするほど、パフォーマンスは例えばDeepSeekモデルで50%を下回ります。
もちろん、さらに深く進むこともできます。破線または点線は、モデルが単に推測している場所です。もう推論はありません。これは単なる推測です。これが推論が停止する場所です。
ニューロシンボリック・カリキュラム・チューニングの試み
著者たちは今、ニューロシンボリック・カリキュラム・チューニングを設計することにしました。なぜなら、「位相転移があることがわかったので、これをチューニングしよう。位相転移を理解した今、トレーニングでこれらの位相転移に対処できる。この位相転移上に橋を架け、これらの位相転移領域でパフォーマンスを向上させよう。したがって、全体的なパフォーマンスを改善し、より高い複雑性にシフトする」と言ったからです。
彼らは非常にインテリジェントな方法でこれを行いました。2つの相補的なコンポーネントアプローチがありました。
1つ目は、数学空間における言語と論理表現を整合させるハイブリッドセマンティクスの学習のための適応的ニューロシンボリック整合でした。
そして単純に、複雑性認識カリキュラムに基づくカリキュラム学習を行いました。これは、低い論理的複雑性から高い論理的複雑性へのトレーニングサンプルを影のように追跡します。これは私たちが知っているすべてのことで、特別なものは何もありません。
彼らはこのニューロシンボリック・カリキュラム・チューニングのステージ1とステージ2を持っていました。美しいです。
レシピはかなり簡単だと言いました。まず、2つのベースラインモデルを独立してファインチューニングします。最初のモデルは純粋な自然言語モデルです。データは自然言語です。そして純粋な一階述語言語モデルがあります。データは一階述語言語です。
それから、線形補間によってハイブリッドモデルのファミリーを構築します。1マイナスラムダがあり、この式を知っています。そして、ここから得られる各補間モデルについて、特定のニューロシンボリック整合データセットでファインチューニングします。これは文献で入手可能です。
素晴らしい。願わくば、このファインチューニングされたシステムのパフォーマンスという目標を達成できるでしょう。本当に良くなったのでしょうか。新しいより高い複雑性クラスにシフトしたのでしょうか。
驚くべき結果:限界の持続
このファインチューニングされたシステムのパフォーマンスについて見てみましょう。何が起こったのか。限界が設定されました。
結果は、論理的位相転移が、この膨大な量のファインチューニングと構造化されたプロンプティングの下でさえも持続するというものでした。彼らは「Chain of Thoughtをやってみよう、本当に複雑なChain of Thoughtをやろう」と言いました。一時的なメモリがあり、これを最適化します。Chain of Thoughtプロンプティング遅延シフトなど、想像できるものは何でも試しました。何も機能しませんでした。
ファインチューニングもChain of Thoughtプロンプティング遅延シフトも、私たちの不安定ゾーン、位相転移をシフトさせたり排除したりしませんでした。両方とも固定された複雑性レジーム内で精度を改善しましたが、臨界閾値は変わらず、パフォーマンスはそれを超えると依然として急激に崩壊します。
彼らが達成したすべては、小さな領域内でのわずかな改善に過ぎませんでした。これはここで見ることができます。彼らは少し達成しました。青で直接的なものがあり、次にChain of Thoughtの改善があります。そして特定のファインチューニング、このデータストアの直接とChain of Thoughtなどで進むと、それでも多かれ少なかれ同じ動作です。
構造的限界の本質
著者たちは、より多くのデータとともに結論に達しました。元の研究を読んでください。結果だけをお伝えします。
これは、私たちの位相転移、論理的位相転移が、現在のモデルアーキテクチャと推論メカニズム自体の本質的な特性から生じることを示しています。そして、ファインチューニングやChain of Thoughtなどとは独立しています。Tree of Thoughtなどを使用しても、タスクの複雑性を増加させると論理的位相転移が存在することは本質的なのです。
これは、ほとんどの研究者にとって直感に反することを知っています。なぜなら、このグラフは、Chain of Thoughtが安定したレジーム内で精度のわずかな垂直的向上、わずかな改善を提供することを示しているからです。しかし、融点や複雑性領域の他の点のように、位相転移を水平方向にシフトさせることはありません。
これは、プロンプトエンジニアリングで持っているものが、モデルの論理的深度の構造的限界を克服できないことを証明しています。
モデルのスケルトン、論理的スケルトンが事前訓練フェーズから事前訓練データ構造で特定の、例えば深度8の複雑性論理のために構築されている場合、Chain of Thoughtをいくら使用しても、より高い深度12レベルで信頼性を持って機能させることはできません。
モデルの複雑性パフォーマンスを向上させ、より高い複雑性レベルにシフトさせることはできません。これは機能しません。位相転移は同じままです。絶対に魅力的な洞察です。
実践的な計算例
いくつかの例を挙げたいと思います。なぜなら、自然言語プロンプト、生物学の研究などと言ったからです。
私たちがやるべきことは、このLOCMパラメータを計算することで、それはスカラーです。すべてのXに対して、量化子、含意、排他的論理和などがあり、すべてを式に入れると、LOCMは約7になります。
しかし7は、ほとんどの7Bから14Bモデルの論理における融解部分、位相転移の近くです。これは、これらのLLMの論理的因果推論能力の容量の終わりに既にあることを示しています。
突然、このメトリクスを使用して、特定のモデルに対してこのメトリクスを最適化できる方法があります。テストを実行し、位相転移点を見つけなければなりませんが、その後、テキストのみから、クエリのみから、どのモデルがそれを解決できるかをほぼ推論できます。これは非常に素晴らしい結果です。
もう一方の極端に行きましょう。本当に複雑にしましょう。これは、自然言語がここにあり、それから一階述語論理があり、これをし、これをしないという前置きです。そして一階述語論理はこれで、簡単な質問があります。
ここに見えるすべての上記の情報に基づいて、次の文は真、偽、または不確実ですか。そして今、彼らは7段階の推論トレースで本当に実行できることを示しています。
自然言語として持っているものは何でも、本当に一階述語論理にマッピングでき、ステップ2で解決し、ステップバイステップで解決し、それに基づいて構築すると、本当に正しい答えが得られます。
正しい答えは「文は偽です。正しい選択肢はBです」と言います。彼らは、人間の自然言語を一階述語論理構造と絡み合わせると、人間のクエリを解決しようとするAIにとって本当に改善されることを示しています。
今後の研究への展望
戻って、北京郵電大学のこの論文、長いChain of Thought推論における幻覚検出についての論文を読み、エントロピー適応型ファインチューニングを再度読みます。これらの論文と、このビデオで見た現在の論文の間には、より深いつながりがあると思います。
正確に何であるかは言えません。考える時間が必要です。1時間必要です。しかし、脳のどこかの隅から声が聞こえます。リー代数と言っています。ですから、リー代数で何かを試してみます。しかし、これについては後のビデオで詳しく説明します。
信じられないことを見せたかっただけです。これらは1月5日にここで公開されました。この論文は1月6日に公開されました。世界のさまざまな場所、MIT、スタンフォード、北京、どこにいても、彼らは皆、AI知識の同じ境界、同じ限界でほぼ同じように取り組んでいます。そして、それをさらに押し進めようとしています。
私たちは皆、ほぼ同じ限界の効果に遭遇しますが、それを見る方法、これらの限界を分析するための特定のメトリクスを開発する方法は魅力的です。2、3、4、5つのこの論文を比較すると、同じ問題の2、3、4、5つの異なる視点、異なるフレーミングが得られます。
これは、例えば、上記のすべての論文を統合する新しい解決策を見つけるのに役立ちます。おそらく、より深いレベルで、これらの論文で説明されているすべての効果を説明する数学的定式化を見つけることができます。
時間があれば、1時間取って、論文を読んでください。私より先に見つけたら、このビデオの説明欄にコメントを残してください。非常に感謝しますし、アートコミュニティも感謝すると思います。
楽しんでいただけたことを願っています。有益だったことを願っています。いいね、チャンネル登録、メンバーになってください。次のビデオでお会いしましょう。


コメント