本動画は、量子場理論の手法を人工知能に応用した革新的な研究を紹介するものである。研究者たちは、大規模言語モデル(LLM)の推論プロセスを「概念ネットワーク」という簡略化されたモデルで表現し、強化学習における三つの重要な問題―二段階学習曲線、V字型軌跡、破滅的忘却―の根本原因を解明した。特に注目すべきは、学習過程における「相転移」の発見である。LLMは訓練初期に知識を断片化されたクラスターとして獲得し、その後これらを統合して概念ウェブを形成する。しかし、ネットワークの接続性が平均次数2付近という極めてスパースな構造に留まることが判明し、これが現行AIシステムの脆弱性と複雑タスクでの限界を説明する数学的根拠となっている。この理論的枠組みは、次世代AI開発における重要な指針を提供するものである。

導入
皆さんこんにちは。戻ってきてくださって本当に嬉しいです。推論における全く新しい相転移を発見しましたので、お話ししていきます。量子場から根本的エントロピーアプローチまで、AIにおける全ての新しいことについて話していきます。私のチャンネル、ディスカバリーへようこそ。
それでは始めましょう。検証可能な報酬を用いた強化学習でLLMを訓練する際、私たちは三つの問題に直面します。二段階の学習曲線があり、V字型の軌跡があり、そして教師あり微調整を行う場合には破滅的忘却に遭遇します。
量子場理論とAIの融合
さて、ここに量子場理論と人工知能の理論物理学からの研究論文があります。彼らは臨界点での学習について発見し、理論物理学を行うLLMモデル、AIモデルを求めています。
これを展開する前に、LLMの推論プロセスが数学的に完全に正確であることを確認する必要があります。そこで彼らは考えました。どうすればもっとシンプルなモデルを構築できるだろうか。概念ネットワークを構築して、トランスフォーマーアーキテクチャの複雑性をよりシンプルなネットワークアーキテクチャである概念ネットワークにマッピングしましょう。
ご存知の通り、LLMは均一な不確実性でテキストを生成するわけではありません。次トークン予測のプロセスがあり、そこでは高い確信度を持つ低エントロピートークンの系列が、高い不確実性を持つ重要な決定点によって区切られています。これは概念の新しい定義ではありません。
二つのそうした決定点の間に生成される一貫したトークンの系列、そしてそれらの安定したテキストチャンクがどのようなものであれ、私たちの新しい抽象ネットワークにおける単一のノードを形成します。なんとシンプルなアイデアでしょう。
そうです、ご存知のように、彼らはすでに部分的に実装しています。これをご覧ください。とても簡単です。あなたの決定がここにあります。いいえ、これは経路を分岐させる高エントロピーの少数派トークンです。一方こちらは、経路に沿う低エントロピーの多数派トークンです。
推論パスがある場合、注意してください。全てのトークンに強化学習を訓練する場合、あるいは分岐トークンに強化学習を行う方がより賢明な決定かもしれません。
高エントロピートークンとエントロピー崩壊などについてもっと学びたい場合は、この三つの動画をお勧めします。しかし、量子場理論とAIに関する理論論文に戻りましょう。
相転移の発見
研究者たちは、量子場理論的アプローチを採用した際に、AIシステムにおいて二次相転移があることに気づきました。有名な積分の高次解のためのものです。
これについて考えてみてください。しかし最も単純なケースでも、見てください。12 + 98を解くだけでいいと言った場合。推論トレースを見て、ここで詳細に掘り下げて、このLLMの推論トレースにおける高エントロピー決定点を調べます。
次トークンの確率分布は本当に広範囲になり得ます。例えば、ここでこの高確率候補が68%の確率を持つのに対し、もう一方は0.1の確率しか持っていません。競合する分岐トークンがネットワークの枝を定義していることがわかります。
これは完全に異なる見方ですが、非常に強力な方法です。なぜなら、これをさらに抽象化すると、まさにここで概念ネットワークを得るからです。
ここにノードがあり、これは例えばあなたの質問と答えで、この新しいネットワーク上に確率的な経路があります。概念ネットワークは簡単です。推論プロセスはシンプルです。この特定の概念の基礎となるネットワーク内のランダムウォークへの確率的横断です。
強化学習による最適化
しかし私たちはそれを訓練したいのです。そこで強化学習を行います。素晴らしい。それは何をするのでしょうか。LLMの暗黙的な概念ネットワーク内の遷移確率を修正し、質問から答えの概念への経路を最適化します。なんとシンプルなアイデアでしょう。
なぜなら、私たちはここで中心的なジレンマに直面しているからです。不可欠な強化学習微調整がここにあります。特にここ理論物理学において、私たちは例外的に少ない例で作業しています。
そして今、問題は、この先進的なAIモデルが、未見データの新しい特性に対する真に堅牢な一般化のために、アルゴリズム的理解を本当に真に獲得できるのかということです。
これが研究者が量子場理論のためのAIで探求した主要な質問でした。彼らはここに臨界点での学習を導入しました。そして、はい、もうお気づきでしょう。この臨界性はもちろん、学習スキームにおける相転移が起こる場所であり、これは物理学に限定されるものではありません。
最小概念ネットワーク、私たちの概念ネットワークの訓練動態を見てみましょう。精度を見ると、この挙動が見られます。あるいは、長さの分散がある場合、ここでラムダの挙動が見られます。
これは、ある種の相転移があることを意味します。特にここで取り上げられているのは、通常からヘリウムの超流動相への遷移がある場合、これをAIシステムで美しくモデル化できます。
凝縮系物理学への応用
これはまさに、私たちが凝縮系における多電子系でも使用するもので、フェルミ面の複雑性のための場を計算しなければならない高温超伝導のような現象を理解するためです。
なぜかわかりますか。私たちのモデルが非解析的解をシミュレートしてくれることを望み、祈っているからです。ダイアグラム的モデルは高次項に対する重要な推定を提供しますが、量子物理学にAIを使用できるでしょうか。これは絶対に魅力的です。
しかし今、ここに戻りましょう。この知識を人工知能自体に適用したいのです。量子場理論から来るこのアイデアの拡張に行きましょう。概念ネットワークを、私たちの有名なダイアグラムのための孤立したスキル獲得のモデルから、新しい一般的なスキル統合を研究するための理想的な理論的実験室へと変換すると言いましょう。
このアイデアを取り上げて、このアイデアで遊びます。見てみましょう。これが今日の主要な新しい論文です。2025年9月28日、LLMがどのように推論を学習するか。シンプルなトピックだと思うでしょう。しかし、複雑ネットワークの視点です。
実験的検証
もちろん、ここには現代物理学科、理論物理学研究所、基礎物理学と数学科学、科学のためのAI研究所、理論物理学センターがあります。そして、絶対にこれは美しい論文です。これを見なければなりません。
最初の質問は、概念マップでこの簡略化ができるかということです。実際のLLMを用意して、実際のLLMの挙動を見て、私たちの概念ネットワークと比較してみましょう。
興味深いことに、驚くべきことに、概念ネットワークは今、DeepSeek R1蒸留版1.5億の訓練可能パラメータの主要な微視的シグネチャを再現しています。
これをご覧ください。見てください、応答長さからのV字型さえもあります。これは、私たちがLLMから学びたいと興味を持っている挙動をまさに模倣するシミュレーションですが、今ははるかにシンプルな概念ネットワークです。
私たちには二つのシグネチャがあります。これは非常に急峻な報酬があり、その後プラトーに達するということです。そして、すでにここで二つ目に言及しました。これは正しい応答長さのV字型進化です。うまく機能しています。
V字型のトポロジカルな起源が、私たちにとって説明可能になりました。論文を読んでいれば、詳細な説明が得られます。このビデオでは、島があると言わせてください。断絶されたスキル島があります。
学習プロセスの可視化
この概念ネットワークの学習プロセス中に、何か驚くべきことが起こるのが見えます。学習のこのステップに進むとき、特定のドメインがあることがわかります。これは特定のドメイン知識です。訓練ステップ50で形成されているクラスターがあることがわかります。ほぼすべてのクラスターがすでに形成されており、ここでの特定の異なる解決策のためのクラスター表現があります。
そして今、不連続性があります。相転移があります。続けると、システムは学習しなければなりませんが、さらなる断片化はできません。すべての異なるクラスターを組み合わせることを学習しなければならず、これはまさにあなたが見るものです。それらを単一の広範な概念マップに織り込んでいます。
しかし、驚くべきことは、これが終わりではないということです。訓練ステップを重ねるほど、概念ネットワークというこのシンプルな簡略化が、LLMで何が起こっているかを理解するために本当にうまく機能します。
私たちのネットワークの持続的なスパース性を理解することが絶対に重要です。先ほどお見せした概念ウェブは、持続的にスパースなままであり、絶対に驚くべきことに、平均次数が2付近で安定しています。
これはすごいことです。考えてみてください。このスパースなウェブ構造を構築する場合、推論チェーンが必要であり、より長い推論チェーンが必要です。そしてそれはメッシュではありません。すべてをすべてと接続する相互接続されたメッシュではありません。
残念ながら、ランクが非常に限られているため、望むならツリーのような構造で進まなければなりません。これは、現在のAIシステムの現在の推論手順への魅力的な洞察です。
このグラフが示すのは、概念ウェブが出現することです。もはや概念ネットワークではありません。ここで完全なウェブを構築しています。なぜでしょうか。これをご覧ください。
オレンジ色でクラスター数があり、青色で最大クラスターサイズがあります。クラスター数は簡単です。クラスター数はここで0から125です。訓練ステップを開始する瞬間、AIが訓練され、複数のテーマ別クラスターを発見します。
見てください、125個のクラスターを特定し、それで終わりです。これが最大の断片化量で、簡単で、速く、すぐに完了します。しかし、今、継続的な学習プロセスは、これらのクラスターを組み合わせて学際的アプローチをとらなければなりません。
クラスター統合と知識ウェブの形成
これは、クラスター数が減少しなければならないことを意味します。なぜなら、クラスターが他のクラスターに吸収され、二つのクラスターを一つに統合する場合、この知識を特定の方法で統合することを学習するからです。
青色の最大クラスターサイズを見ると、あるいは、まずこれをやりましょう。このピークは非常に支配的で、システムは単純な孤立した解決策の低い位置にある果実を使い果たし、私たちの小さな知識の島の最大断片化の状態に達しました。
次の学習ステップは、それを組み合わせなければならないということです。これは、最大クラスターサイズを見ると、クラスターサイズが上昇しなければならないことを意味します。なぜなら、今クラスターが他のクラスターに吸収され、メガクラスターができるからです。
広範な成長期の後、クラスター数と同様に美しくプラトーに達します。これは、私たちのコンテキストネットワークにおける概念ウェブの形成を意味します。
しかし、訓練すればするほど、大きな相互接続された構造に支配されるネットワークができます。これが学習を可視化したものです。
しかし、他にもできることがあります。異なる複雑性を持つ単一の質問があり、訓練ステップが与えられた場合、訓練すればするほど、ネットワークまたはウェブはより良くなります。
ここで相転移の典型的な挙動が見られます。見てください、ゼロに達してから、チャックで100%になります。なぜこれが起こっているのでしょうか。質問4は非常に単純な質問で、二つのクラスターを組み合わせて少しメガクラスターを形成すればよく、そうすればこの新しいクラスターに知識があり、システムはすぐに解決できます。
複雑性が質問22でさらに増加すると、次のものでは、より多くの訓練ステップが必要になり、より多くのクラスターを融合する必要があり、クラスターの学際的性質をより学習する必要があり、その後解決できることがわかります。
連続的な相転移があります。これは美しいもので、均一で段階的なプロセスではなく、離散的な鋭い学習イベントで構成されています。これは知識クラスターのこのアイデアで美しく可視化されています。
スパースネットワークの本質的限界
ここにあります。モデルは、訓練によってより多くの孤立したネットワークと知識チャンクを接続することで、どんどん賢くなっていきます。しかし、可能な限り最も効率的な方法でこの接続を学習するため、ランクが2に近いことを覚えておいてください。接続性が2に近いのです。
これは、グローバル知識ネットワークでも、ツリーのような構造またはチェーンのような構造にとどまることを意味します。私たちは失敗しています。なぜなら、私たちが望むのは密に接続された知識メッシュだからです。しかし、現在の強化学習技術ではこれを達成していません。
なぜでしょうか。このビデオでこの新しい論文によって、接続性が2に固定されていることがわかったからです。
これで、1ヶ月前にこのビデオでお見せしたことが正確に説明されます。なぜGPT-4oが複雑なタスクで失敗するのか。これが、1ヶ月前に経験的にすでに発見したことの数学的説明です。そして、GPT-4oがPhDレベルの科学を行えない理由も、まさにこのためです。
つまり、理論物理学の量子場理論的アプローチから来て、これを人工知能に適用する純粋なグラフ理論的観点から見ると、概念ネットワークのスパース性が、低い冗長性、絶対的な脆弱性、そして重大な脆弱性を意味することがわかります。
これがビデオの冒頭で述べた、三つの問題がある理由です。そして今、なぜこれらの問題があるのかを理解しています。
検証可能な報酬による強化学習を通じて概念ウェブを形成したモデルが、その後微調整された際に破滅的忘却に非常に影響を受けやすい理由がわかります。なぜなら、これがトポロジカルな失敗であることを理解しているからです。橋のような接続を切断しているのです。
破滅的忘却のメカニズム
教師あり微調整を開始してから強化学習を行うと、何が起こるかわかります。教師あり微調整の前には、複雑な知識ネットワークに接続があります。残念ながらツリーのような接続ですが、今教師あり微調整を適用すると、これらの接続を切断するだけで、学際的知識の完全な枝を失う可能性があります。
その後、特定の報酬システムで追加の強化学習を行うとどうなるでしょうか。それを再び修復しているのです。これはクレイジーです。教師あり微調整で構造を断片化させ、その後強化学習でそれをまた組み立て直しているのです。
論文はこれを美しい方法で示しています。教師あり微調整と強化学習でなぜこれが起こっているのか、そして強化学習をどのように最適化するかを説明してくれます。
今日私たちが達成したのは、スパースな概念ネットワーク理論を導入して、検証可能な報酬訓練による強化学習を行う場合の不可解な挙動を説明することです。私が述べた二段階学習曲線、V字型応答曲線、そして冒頭で教師あり微調整を行う場合の破滅的忘却への脆弱性を含みます。
これは、スパース概念ウェブの形成のためであることを説明し、私たちがこれを行うと、知識の島から重要な橋のような接続を切断することを理解しています。
したがって、AIにおける次の大きな課題は、本番規模のLLMの潜在状態から直接この新興概念ウェブを経験的にマッピングするツールを開発することです。なぜなら、ここでは概念マップと概念ウェブを一種の簡略化として使用したことを覚えておいてください。
そして今、何が起こっているのか、なぜそれが起こっているのかのメカニズムを理解したので、小さな複雑性モデルから完全スケールの複雑性モデル、私たちのトランスフォーマーアーキテクチャへ移行し、そこに実装し、そこで証明し、そこで解決策を見つけなければなりません。
楽しんでいただけたら幸いです。このような動画が好きなら、ぜひ購読してください。次回の動画でお会いしましょう。


コメント