本動画は、MITとハーバード大学、オックスフォード大学による最新の画像生成AI研究「平衡マッチング(Equilibrium Matching)」を解説するものである。従来の拡散モデルやフローマッチングモデルが非平衡動力学を学習するのに対し、平衡マッチングはエネルギーベースモデルとフローベースモデルの長所を統合した革新的手法である。時間不変の勾配場を学習することで、データ多様体を安定した極小点の集合として扱い、画像生成を単純な最適化問題に変換する。この手法は、固定された時間ステップやノイズ条件付けを排除し、柔軟で計算効率の高い画像生成を実現する。多様体仮説の数学的基盤から実装まで、理論と実践の両面から次世代画像生成AIの可能性を示している。

平衡マッチング:次世代画像生成への一瞥
こんにちは、コミュニティの皆さん。お帰りなさい。ナノバナナ、なんて美しい画像生成モデルでしょう。でも、今日はさらに次のステップに進みます。平衡マッチングに関する研究論文を取り上げるからです。平衡マッチングは、AIによる画像生成の未来を垣間見せてくれるものです。
もちろんそうですよね。なぜなら、私たちはこのチャンネルでAI研究の最新情報をお届けしているからです。今回は2つの論文があります。オックスフォード大学による2025年10月3日付けの論文と、MITとハーバード大学による2025年10月2日付けの論文です。まず最初の論文を理解してから、すぐに2番目の論文に移りましょう。
拡散モデルと多様体仮説
それでは始めましょう。拡散モデルと多様体仮説、そしてそれが今や適応幾何学と結びついています。もちろんそうですよね、いえ、違います。なぜなら、多様体構造を特定するスコア関数の等方性平滑化を見ると、以前にも見たことがあると思うでしょう。
もちろん、数日前の私のビデオで、エージェント的推論の統一理論について話したときのことです。清華大学と北京大学によるこの研究では、LLMにおける推論を理解するための統一推論多様体フレームワークを持っています。そして、これが情報理論とLLM幾何学を結びつける表現エントロピーに基づいていることもお見せしました。
これは清華大学によって行われました。そしてもちろん、理解の本当の核心となるのはこの論文だったことを覚えていますよね。これが2013年の論文で、多様体仮説をテストしたものです。これがAI、特に画像生成における最も重要な論文だったと言えます。
そして今、2013年に数学で理解したこと、純粋な数学の50ページにわたる分離可能なヒルベルト空間に関する内容を、次世代の画像生成器のコードとして実装しているのです。
それでは、どのように展開するのか見ていきましょう。多様体仮説に馴染みがない方のために、簡単に説明します。高次元データ、つまり10,000次元のベクトル空間があり、画像や音声、実世界のデータセット内のデータは、周囲空間に埋め込まれた低次元の部分多様体上に集中しているということです。
これが、機械学習モデルが次元の呪いにもかかわらず汎化できる理由を説明しています。さて、拡散モデルを見てみると、かなり簡単です。拡散モデルを説明する動画は十数本あります。ごく簡単に言うと、SDEを介してデータをノイズに変換する順方向ノイズ過程を逆転させることで、データからサンプルを生成します。そして、ニューラルネットワークでスコア関数 log PT を近似し、スコアマッチングを通じて時刻tで終端させ、損失関数があります。これはご存知ですよね。
さて、ここでの推測は、拡散モデルが優れているのは、この平滑化が多様体仮説によって仮定される低次元多様体構造に適応するからだということです。これにより、周囲空間全体ではなく多様体に沿った補間が可能になります。計算的にははるかに単純ですが、数学的に証明するのははるかに困難です。もしご興味があれば、フォローすべき美しい数学的な補題がここにあります。
平衡マッチング:MITとハーバードの提案
最初の論文を理解したところで、このビデオのメインとなる論文に移りましょう。MITとハーバードは、拡散モデルとフローマッチングモデルが非平衡動力学を学習するのはわかった、では次のステップは何かと問いかけます。
そしてついに、挑戦的な論文が登場しました。本当に素晴らしいです。暗黙的なエネルギーベースモデルによる生成モデリング、これを平衡マッチングと呼んでいます。なぜでしょうか。何が起こっているのでしょうか。
少し立ち止まって考えてみましょう。現在、私たちが持っているのはフローマッチングかエネルギーベースモデルのどちらかです。フローマッチングから始めましょう。フローマッチングモデルは、ノイズと画像サンプルを結ぶ線形経路に沿った条件付き速度をマッチングすることを学習します。
サンプリング中、フローマッチングは純粋なガウスノイズから始まり、特定の関数fによって予測される速度を使用して、現在のサンプルを反復的にノイズ除去します。このプロセスは微分方程式のフレームワークによって支配され、予測される速度は望ましいサンプリング経路の時間微分として扱われ、全長にわたって積分されます。
これはご存知ですよね。なぜなら、このビデオで、Gflownetアーキテクチャに基づいた強化学習手法にフローを適用したからです。まだPPOやDPOを使っているなら、このビデオをご覧ください。フロー強化学習という新しい強化学習手法があります。
しかし、今、次のステップがあります。平衡マッチングです。簡単です。私たちは巨人の肩の上に立っています。平衡マッチングは、エネルギーベースモデルとフローベースモデルで見つけた利点を組み合わせ、はるかに美しいものを構築します。
一文だけ覚えるとしたら、この文にしてください。平衡マッチングは、基礎となるエネルギー関数と互換性のある時間不変の勾配場を学習し、時間、ノイズ条件付け、固定ホライズン積分器を排除します。
これを見てください。異なる時間スライスを見ると、フローマッチングはお馴染みです。3次元多様体の中に2つの谷があり、すべてがフローマッチングで望む方向を正確に指しています。しかし平衡マッチングを見てください。何が起こっているのでしょうか。
どう説明すればいいか考えていたのですが、最も簡単な方法はこうだと思います。拡散モデルとフローモデルはGPSのようなものです。ターンバイターンの正確な指示を与えてくれます。どこかに位置していれば、明確な出発点が必要です。そうすると、システムが「北に5歩、西に3歩進んでください」と教えてくれます。
つまり、旅の各ポイントで方向が変わります。最初にやること、たとえば高原の上にいる場合と、終わり近くでやることは違います。エネルギーの最小値に近づいているときのことです。
さて、EQMは静的な地図のようなものです。動的な地図と静的な地図があり、静的な方がはるかに簡単で、計算も高速です。常に安定した場所、エネルギーの最小値へと導く静的な地図で、経路選択の自由を提供します。これは素晴らしいことです。経路選択の自由を提供するのです。
魔法の羅針盤のようなものだと考えてください。地形図と羅針盤があり、モデル、つまりAIモデルは、常に下り坂を指す魔法の羅針盤を学習します。そして指標があるだけです。これが静的な地図なのです。なんて美しいのでしょう。
平衡マッチングの仕組み
しかし、この地図をどうやって作るのでしょうか。この新しい方法論で、この羅針盤をどうやって作るのでしょうか。簡単です。しかし、深遠な数学的トリックがあります。でもまず、簡略化したバージョンで説明してみましょう。
このモデルを訓練するために、破損した画像から始めることを示します。いいえ、実際の画像、実際の写真と純粋なノイズの混合物です。混合物であり、モデルの仕事はこれを見て、モデルが進むべき羅針盤の方向を予測することです。
曲線勾配上にいる場合、これはお馴染みですね。さて、ほとんどのモデルは実際の画像に向かう方向を予測するように訓練されます。これは、そこに到達するための速度を学習するようなものです。
そして今、引用符付きですが、トリックは正反対のことをすることです。理由は後で説明しますが、まず簡単な説明をしましょう。EQMは、実画像から離れてノイズに向かう方向を予測するようにモデルを訓練します。逆に見えるかもしれませんが、これが鍵なのです。
3Dのエネルギー表面を見れば、すぐに理解できます。上り坂の方向を学習することで、モデルは暗黙的にここで風景、おそらくエネルギー風景を定義します。
画像を生成するには、単に羅針盤を逆方向に従うだけです。下り坂に進みます。もちろん、谷を平らにする必要があります。いいえ、局所的に最も深い谷にいるときは、羅針盤がどこかを指すのを止める必要があります。なぜなら、他の方向を指し続けると、ただ続けてしまうからです。
行き過ぎて反対側を登ってしまいます。いいえ。局所最小値または絶対最小値があれば、そこに留まりたいのです。ここでEQMが別のトリック、アイデアを導入します。C(Y)と呼ばれる調光スイッチ機能です。
Y = Zの場合、画像は純粋なノイズです。Y = 1の場合、画像は純粋な実画像、実際の写真です。別の調光スイッチは、画像がほとんどノイズのときに強くなるように設計されています。オーストリアの山々のどこか、谷から遠く離れているときです。そして、画像が純粋なデータ、谷の底にいるときに滑らかにゼロまで下がります。
最も重要なルールは、谷の底にいるとき、C関数がゼロになることです。なぜなら、この新しい方法論は静的な風景と羅針盤を学習するからです。
推論、つまり画像生成タスクは今やはるかに簡単になり、信じられないほど柔軟になります。なぜなら、ただ下り坂に一歩進むだけでなく、さらに速くすることができるからです。理論物理学から、通常の勾配関数だけでなく、運動量を持つ加速勾配があることを知っています。おそらくネステロフの加速勾配もご存知でしょう。運動量を持ち、加速を想像できます。
また、エネルギー風景の小さな局所最小値、小さな凹凸部分に引っかかるのを避けることができます。局所最小値または絶対最小値に到達するために一時停止する必要がある部分です。
別の利点もあります。この新しいもので何ができるかご存知ですか。2つの羅針盤の方向を足し合わせて、組み合わせた経路をたどることができるのです。すべてを再訓練する必要はありません。ここで方向を足し合わせるだけです。
なぜ可能なのでしょうか。主なアイデアは、AIがエネルギー風景を学習しているだけだからです。勾配を足すことは、エネルギー風景を足すことと等価です。数学的に非常にエレガントな解決策なのです。
論文をご覧ください。自分で論文を読んでください。時間がかかるか、天才ならすぐに理解できるでしょう。おめでとうございます。
そして、実装も本当に簡単です。一方、拡散モデルでこれを行うのは非常に複雑で、しばしば完全な再訓練が必要です。しかし、EQMではネイティブ機能なのです。美しくないですか。
平衡マッチングの核心的アイデア
もう一度、主なアイデアは何でしょうか。平衡マッチングの核心的アイデアは、常に谷、下り坂のデータから離れる方向を指す上り坂方向場を学習するように生成モデルを訓練することです。
そして、この方向を、谷の底の純粋なデータポイントで消える調光スイッチでスケーリングすることで、安定したエネルギー風景を作り出します。この美しいエネルギー風景を構築してくれるのです。
でも、なぜこの方法はこんなに簡単なのかと思うかもしれません。とても単純で、些細で、美しく聞こえます。さて、パート2です。私がお話ししたすべてのことの背後には、完全な数学的フレームワークがあります。
でも、結果をお伝えしましょう。結果は、すべての数学の後の平衡マッチングです。このデータ多様体を学習することが理論的に保証されています。ビデオの冒頭で始めた多様体仮説を覚えていますか。そして、勾配降下法を使用してこの多様体からサンプルを生成します。
平衡マッチングは、ImageNetでの1点のFrechet Inception Distance(FID)を達成します。忘れてください。生成品質において、既存の拡散ベースやフローベースの対応物を上回ります。
フローマッチングが最高の状態です。これをご覧ください。しかし、私たちはもっと良くなりたいのです。平衡マッチングに進みましょう。したがって、GitHubがあります。すべてが利用可能で、4日前または2日前に更新されました。美しいですね。
MITライセンスです。美しくないですか。必要なすべてのファイルがあります。論文を見たい場合は、第2章を見てください。そこでフローマッチングを説明しています。なぜなら、それを基盤としているからです。
次に、平衡マッチングモデルの訓練に切り替えます。ここで、勾配の大きさを制御する関数Cを理解できます。
そして最後に、明示的なエネルギー関数を学習します。ここでの複雑さは、単純な関数が定義されていますが、もちろん付録を見る必要があります。そこに完全な分析があり、著者たちは「平衡マッチングの数学的正当化を提供します」と言っています。
もし週末に2日間ひたすら純粋な数学を学びたいと思ったら、これがあなたの論文です。
要約すると、理解する簡単な方法があるか、本当に深く掘り下げたいなら、なぜ理論物理学と数学、あるいは単に数学の博士号が必要なのかを理解できます。これらのアイデアは証明するのが簡単ではありません。
このようなアイデアを持つことができます。ここで目標方向を反転させることは、FM速度の正反対です。なぜ今それを理解するのか、いいえ、なぜならデータxが低エネルギーの最小値であるとすると、最小値にいるのですから、これ以上深くは行けません。
いいえ、反対方向、山に向かって、より高いエネルギー領域、つまりノイズεに向かって進まなければなりません。この場を学習することで、私たちは風景を作り出します。そこで勾配を降下していくのです。
高エネルギーのノイズから低エネルギーのデータポイントへと導かれます。そして、目標勾配の大きさコントローラー、これが秘密のソースです。とても簡単です。
異なる大きさを持つことができるつまみです。しかし、それは本当に単純なスカラー関数で、目標勾配の大きさを制御し、1つの例外的な境界条件C(1) = 0を満たす必要があるだけです。
これにより、谷の底にいるとき、針が止まります。それだけです。目標を達成したのです。これにより、補間されたサンプルが純粋なデータであるとき、目標勾配がゼロになることが保証されます。目標を達成しました。
これにマッチするようにモデルを訓練することで、すべてのデータポイントの勾配が消失すべきことを明示的に教えます。美しいですね。
そして今、私の脳を壊した文があります。なぜなら、この文の背後には隠された情報理論があるからです。感じられますか。
これにより、データ多様体が学習されたエネルギー風景における局所最小値の集合になることが強制されます。このビデオの冒頭で、多様体近似と多様体仮説、そしてすべてにおける次元削減されたサブスペースから始めました。
そして今、それを局所最小値の集合になるように特定の方法で構築しています。これは数学的に自明ではありません。理論物理学から来て、場の量子論で働いているなら、これは自明ではありません。しかし、美しいのです。
この目的により、EQMは単一の時間不変、時間不変を強調しますが、ベクトル場f(x)を学習します。これは暗黙的なエネルギー関数E(f(x))の勾配として機能し、真のサンプルが安定した定常点となります。素晴らしいです。
実装と応用の可能性
ここに平衡マッチングがあります。とても簡単です。見てください、これ以上簡単にはなりません。高速で、豪華で、次世代です。なぜなら、推論が今や単純な最適化問題になり、正確な解き方を知っているからです。
究極の柔軟性があります。なぜなら、EQMがここで勾配場を学習するので、サンプルを生成することは、今日行っているように固定経路上で速度を積分することではなくなります。
単にエネルギー風景の最小値を見つけることです。そしてこれは標準的な最適化問題です。とても美しいです。
しかし、ビデオの最後までたどり着いたなら、戻ってこれをあるべき場所に置きましょう。最初に言いましたね、今やフローモデルとエネルギーモデルがあります。
このアイデアを見ると、突然、フローとエネルギーが同じコインの2つの面であることを理解します。学習されたベクトル場が保存的勾配場であるかどうかによって区別されます。
しかし今、第3の視点があり、この第3の視点がコインの他の2つの面を橋渡しします。統一された視点を構築でき、この統一された視点であるEQMは、2つの領域の間を移動する全く新しいクラスのモデルにインスピレーションを与える可能性があり、何をいつ使用するかを決定できます。
別々のモデルを構築する必要はありません。別々のモデルを訓練する必要はありません。より高次元の数学的空間における同じコインの3つの面にすぎません。説明しましょう。
私たちが持っているすべての拡散モデルとフローベースモデル、これらが現在の画像品質のチャンピオンであることはご存知です。しかし、これが非平衡プロセスであることを私たちは理解しています。
つまり、高次元空間における運動のルール、速度場が各ステップ、各時刻で変化するということです。そしてこの硬直性が、固定されたサンプリングステップ、事前定義されたスケジュールなどの制約につながります。より新しいモデルですが、複雑です。
何百年も前からの古き良き友人、少し不正確かもしれませんが、エネルギーベースモデル、EBM、柔軟性の達人です。古き良き友人です。
彼らはここで時間のない静的なエネルギー風景を学習します。データポイントが谷、低エネルギー、驚くべきことではありません。そして他のすべては丘と山、高エネルギーです。
サンプルを生成するには、この3次元風景のどこかにボールを置き、最適化を介して下り坂に転がします。典型的な勾配降下法です。これは平衡プロセスです。これは非平衡プロセスです。
しかし、ここに大きな「しかし」があります。これらすべては非常に不安定で、訓練が難しく、問題だらけです。
しかし、拡散フローベースモデルの利点、モデルの最良の部分と、エネルギーベースモデルについて良いことすべてを取り、次世代の平衡マッチングを構築する橋渡し関数があることを理解すれば。
これは本当にこれら2つの王国と呼びましょうか、の革命的な統一です。ここで、EBMのように静的なエネルギー風景を学習する生成モデルを構築する方法、数学的に純粋な方法を提案していますが、現代のフローマッチングモデルの安定性とスケーラビリティで訓練されます。
まだこの背後にある数学を本当に理解する時間がありません。週末が必要です。両方の世界の最良のものを。絶対に。
でも、EBMのスーパーパワーを大規模に解放できます。なぜなら、自然にEQMは、拡散モデルにとって複雑すぎる、または訓練に本当に時間がかかる、本当に高価なタスクを可能にするからです。
部分的に破損した画像のノイズ除去や、固有の分布外検出、シンプルで強力な合成生成などです。
美しくないですか。両方の世界の最良のものを組み合わせます。そしておそらく、これは生成サンプリングへのアプローチ方法を再定義するかもしれない概念的なシフトです。
というわけで、2つの最新研究をご紹介しました。オックスフォード大学統計学部による10月3日付けと、MITとハーバード大学による10月2日付けの平衡マッチングです。
なんて美しいアイデアでしょう。楽しんでいただけたことを願います。これらのアイデアの美しさとシンプルさ、しかし本当に公開したい、本当にコーディングしたいなら複雑さも伝えられたことを願います。
なぜなら、すべての仮定が正しいことを証明し、極限でこれができる、この時系列の収縮がある、時間不変勾配を構築できる、エネルギー場があると論証できる数学的構成を構築しなければならないからです。
したがって、多くの数学、多くの理論物理学が必要です。しかし、もしこれに興味があるなら、純粋な数学から理論物理学まで、すべてを持つことができます。なぜ何かをしているのかを理解すれば、コードを構築して実装するのはかなり簡単になります。
というわけで、今日は次世代画像生成AIシステムへの展望でした。おそらく平衡マッチングを使用するでしょう。チャンネル登録して、次のビデオでお会いしましょう。


コメント