この動画では、オートエンコーダーの数学的構造を多様体幾何学の観点から深く解析し、従来の教科書的理解を超えた新たな視点を提示している。高次元データ空間と低次元潜在空間の関係を多様体として捉え、エンコーダーとデコーダーの機能をヤコビ行列やリーマン計量テンソルといった数学的概念で説明する。さらに、変分オートエンコーダーから拡散モデルへの発展、そして部分観測マルコフ決定過程における世界モデルとしての応用まで、AI システムの基盤となる数学的原理を包括的に解説している。

オートエンコーダーの深層理解への招待
こんにちはコミュニティの皆さん。戻ってきてくれて本当に嬉しいです。今日はAIの本質を抽出していきましょう。見ていきましょう。そして私は巨人の肩の上に立つことになります。その巨人とは、コンピュータサイエンスとロボティクスの准教授であり、ジオメトリック・コレクティブのメンバーでもあるKenan Craneです。そして私はこの投稿でこれを発見したのです。
これを見てください。ここで最初の半分に、教科書で見つけることができる典型的なオートエンコーダーの表現を見ることができます。しかし、オートエンコーダーのアーキテクチャで実際に何が起こっているのかについてのより深い理解のもう一つのデモンストレーションを見てください。私たちのAIシステムで遭遇する複雑性について、異なる視点、異なる考え方があることがわかります。これを異なる視点から捉えることができるのです。
これは、AIがもはやテキストや音声で答えるべきではなく、AIは「ちょっと待って、複雑な新しいトピックを人間のユーザーにすぐに理解できる方法でどのように提示できるか」について考えるべきだと話した私の最後のビデオの続きです。つまり、目は生成的ユーザーインターフェースと適応ウィジェット、例えばタッチスクリーン用のインタラクティブウィジェットを生成すべきなのです。
そうすれば、大学で新しい数学を学んでいる誰かがすぐに理解し、これで遊ぶことができるかもしれません。ページとページのテキストや数式だけではなく。遊ぶことは常に教育における最良の形式です。
オートエンコーダーの基本構造
今、私たちは何を見ているのでしょうか?これはオートエンコーダーです。ご存知のように、エンコーダーがあって、ここでデータを低次元の数学的空間に圧縮しようとし、それからデコーダーがあって、エンコーダーを反転させようと試みます。
そしてもちろん、完璧なシステムは存在しないので、潜在コードの再構成にエラーが生じます。しかし、この下の表現を見てください。なぜ私がここで提示されたこの複雑性を愛しているのでしょうか?私はあなたと一歩ずつ進み、すべてを説明していきます。もちろん、もう少し形式的な側面で持ちたい場合は、これを多様体幾何学から拡散モデルのエージェント認知まで、オートエンコーダーの認識論的な観察と呼ぶこともできます。
これを見てください。まず最初に、左側にデータ空間RNがあります。これは私たちの元データが存在する高次元空間です。ここでXで示される単一のデータポイントは、ご覧の通り高次元ベクトルです。またはXが画像で100×100ピクセルのグレースケール(RGBではない)の場合、10,000次元のベクトルに展開でき、各次元が特定の特徴を表します。
一方、ここには潜在空間があります。これは、データの最も重要な特徴のみを捉えるように特別な方法で設計された低次元の数学的空間です。他のすべてを取り除きます。私はここで本質的なものにだけ焦点を当てたいのです。
この潜在空間Kの次元は、重要なハイパーパラメータですが、データ空間にある他のどれよりもはるかに小さいものです。異なる次元間のこのマッピングの制約により、私たちのモデル、私たちのAIモデルは意味のある情報の圧縮を学習することを強制されます。
この空間の点を、ここでは潜在表現またはコードと呼びましょう。今、私たちにはエンコーダーがあります。エンコーダーは簡単です。関数fを持つエンコーダーです。つまり、ここに数学的エンコーダーがあります。それは関数であり、通常は高次元データ空間からデータポイントを低次元潜在空間にマッピングするニューラルネットワークです。
しかし、私たちにはデコーダーもあります。デコーダーは逆の操作を実行する別の関数で、低次元の新しい数学的空間にある潜在表現のみから元のデータポイントを再構築しようと試みます。
再構成誤差と学習プロセス
ご覧のように、再構成誤差があります。これが最も重要なことです。なぜなら、デコーダーの出力は、ここでx hatとしましょう。そして私たちの元のxがここにあります。つまり、数学的空間で測定できる違いがここにあります。これについては後でもっと詳しく説明しますが、今はニューラルネットワークの訓練があるとしましょう。
ここでの訓練の命令は何でしょうか?私たちはここでx hatとxの間のこの特定の距離である損失関数を最小化したいのです。なぜなら、ご存知のように、これが完璧だからです。この損失の一般的な選択は、古典的AIでよく知られている平均二乗誤差です。
大きなデータセットでこの損失を最小化することにより、オートエンコーダーはエンコーダー関数Fとデコーダー関数Gを学習し、これらが集合的に強力な恒等関数として動作しますが、低次元のボトルネックを通ることを強制されます。これがシステムを見る別の方法です。
これは、ここにある低次元のボトルネックのようなものですが、この表現でははるかに興味深いです。なぜかと疑問に思うかもしれません。
多様体解釈への深掘り
次のレベルを見てみましょう。そこで多様体解釈と呼ばれるものに遭遇するからです。数学的理解を少し深く掘り下げると、多様体仮説に遭遇します。それは私たちに「実世界の高次元データ、人間の顔の画像や人間の音声の音声記録のようなものは、データ空間全体をランダムにしっかりと完全に埋めるわけではない」と教えてくれます。
代わりに、この数学的空間内に埋め込まれた、はるかに低次元の多様体の近傍に集中していると私たちは信じています。今、これが真実でなかったらどうなるかと言うかもしれません。この仮説が失敗し、幾何学的解釈が失われ、もはや滑らかな多様体がない場合はどうでしょうか?その場合、私たちは困ります。しかし、約5分後に解決策をお示しします。
潜在空間が滑らかな多様体そのものでなくなった場合でも、まだ解決策があります。しかし、そうすると、扱わなければならない商集合的な、非連結または even フラクタル点雲に直面することになることを覚えておいてください。もはや滑らかな多様体に近いものではありません。そうなると数学は本当に少し複雑になります。
しかし、私たちは単純なケースにいます。滑らかな多様体があります。数学でこれより簡単なことはありません。先ほど言ったように、私たちは一つレベルを深くしています。
真のデータ多様体と学習された多様体
今、私たちは数学的多様体の二つの異なる概念の重要な区別をする力を持っています。真のデータ多様体があります。
これは、実世界データXのすべての点が存在すると仮定される、仮想的な固有多様体です。ご覧のように、この仮定で少し私たちを助けています。この多様体構造は私たちには未知であり、私たちの目標はそれを学習するか、実際にはノイズがあるため、ニューラルネットワークにそれを学習させることです。
遅延があるでしょうし、何でもあるでしょうが、点はこの多様体上に完全にあるのではなく、その近くにあるかもしれません。それでは、どうするのでしょうか?多様体の別のアイデアもあります。学習された、または生成的多様体と呼びましょう。
私たちの美しい画像でMとラベル付けされた青い表面は、この学習された多様体として最も理解されます。これは今、デコーダーの全領域の像として形式的に数学的に定義されます。デコーダーが生成できるすべての可能な出力の集合を表します。これは明確な定義です。
多次元マッピングの複雑性
これについて考えるとき、注意深く考えなければなりません。実世界の真のデータ多様体と、この特定の数学的デコーダー関数が生成できるすべての理論的に可能な出力の集合のみを表す学習された、または生成的多様体の数学的単純化とを区別しなければなりません。ここが私たちのMです。
このニューラルネットワークを訓練し、AIに未来を予測させたい場合の目標は、関数fとgを調整して、学習された多様体が真の実世界の真のデータ多様体m dataの忠実な近似となるようにすることです。これがこの画像で描かれているほど簡単ではないことがわかります。
隠れた層さえあります。今、私たちは数学的理解に一レベル深く入っています。しかし、これを見ると、すぐに「何かが私たちを待っている」という感覚を得ます。私が示したように、点Xは今、M dataからのサンプルとして見ることができます。そして、私が示した再構成X hatは、定義により、M learnedの上の点です。
注意深く、この新しい数学的空間でどのようなメトリックを持っているかという質問だけでなく、同じ多様体上にさえいないことを発見します。なぜなら、xとxhatの間の点線は、オートエンコーダーの再構成誤差と呼べるものを表しているからです。
訓練プロセスは、うまくいけば学習プロセスが、メトリックがある場合、この数学的空間でのこの点線の長さ、距離を最小化します。学習多様体mle learnedを真のデータ点xに可能な限り近づけるのです。数学的には何でしょうか?Xhatは、データ多様体のモデル学習近似への真のデータ点xの射影です。
これで面白くなってきたと言うでしょう。これが私たちが探しているものです。しかし、これは右側のデータ空間にすぎませんでした。ここに潜在空間、この低次元数学的空間があります。今、数学の分野を少し切り替えて、トポロジーを見てみましょう。この潜在空間のトポロジーは何でしょうか?
潜在空間のトポロジーとユークリッド構造
美しく意図的な設計選択として選ばれています。ここでの最も単純な選択は、典型的なユークリッド空間、平坦で連続的で連結された、私たちが望むすべての特徴です。私たちが知っている標準的なk次元ユークリッド空間と同相であり、ここでどのように作業するかを知っています。ルールがあり、距離があり、角度があり、すべてが美しいです。この単純で良く振る舞う構造が、通常の拡散モデルや変分オートエンコーダー空間で行う潜在コードでの意味のある代数演算を実行することを可能にします。
しかし、再び隠れた複雑性があります。この画像にはありませんが、あなたはそれについて知っています。したがって、私たちのデータのエンコードされた表現は、ここにあるZが空間RK全体を満たすわけではないことに注意することが重要です。
代わりに、それらはこの空間で独自の埋め込み多様体を形成し、それをM dashと呼びましょう。これは、より大きな潜在空間内の埋め込み多様体です。そして、デコーダーの仕事は、この潜在多様体M dashを学習された多様体M learnedに戻す方法を学習することです。実際には、特定の方法でマッピングしている4つの多様体があることがわかります。
この文の美しさを見てください。数学的用語で、潜在多様体M dashを関数で学習された多様体mle learnedに、またはその上に展開するとはどういう意味かと言うかもしれません。そう尋ねてくれて嬉しいです。なぜなら、私たちが今遭遇しているのは、エンコーダーによって実行された折り畳みによって誘発された次元削減を逆転させる、非常に複雑で本当にそう意味する非線形変換だからです。それによって、元のデータ構造を忠実に再構築しなければなりません。
そして、損失関数があり、損失を最小化する学習プロセスがあります。次のステップに進み、次のレベルにようこそ。ここに別の単純化があります。この数学的モデルで微分同相写像を近似しなければなりません。
微分同相写像と近似の課題
なぜでしょうか?理想的な世界では、潜在多様体mdashと学習された多様体mle learnedの関係は、数学者がここで微分同相写像と呼ぶものになるからです。それは何でしょうか?定義は、滑らかで双射的で滑らかな逆を持つ、二つの多様体間のマッピングです。古典数学です。
実際に私たちのAIコーディングでこれを行う場合、注意深く、ニューラルネットワークオートエンコーダーは、私たちの多様体間のこの微分同相写像の近似のみを学習します。
そして、私たちの美しい精密な数学的アイデアに不確実性の度合いが入り込んでいることを感じます。そして、これが等しくないことを見ることができます。波線があります。これは近似についてです。とても美しいです。この画像を見て、それを理解すると、私が理解するのに時間がかかりましたが、より深いレイヤーに非常に多くのことが隠されています。
ヤコビ行列による局所的展開
デコーダーはすべての単一点でこの局所的展開をどのように実行するのでしょうか?そして、私は今、数学的な方法で、すべてを忘れて局所的に行きましょうと言います。もしあなたが馴染みがあるなら、答えはもちろん、その導関数、ヤコビ行列にあります。数学にあまり馴染みがない場合は、気にしないでください。今私たちがすることは数学で単純だと教えます。無限小の小さなステップ、赤ちゃんのステップのレシピがあり、局所的になって、何が起こるかを見てみましょう。
このヤコビ行列は、デコーダーの局所線形近似です。潜在空間での無限小のステップdzが、学習多様体でのステップdxにどのように変換されるかを教えてくれます。これらが私たちの二つの作業多様体であることを覚えておいてください。
このヤコビ行列のk列は、n次元ベクトルです。しかし、これらのベクトルは重要です。なぜなら、私たちが興味を持っている点xで、学習された多様体mle learnedの接空間の基底を形成するからです。
そして、今すぐにあなたは見て、「もしこれらの列ベクトルがデコーダーの局所展開指示なら、これは簡単になる」と思います。なぜでしょうか?点Zから始めて、第1の潜在方向に少し、赤ちゃんのステップで動くと想像してください。
それが何であれ気にしません。出力は、多様体上でこの第1の列ベクトルの方向に動きます。そして、第2の潜在方向に動くと、出力は第2の列ベクトルに沿って動きます。このように次元を通過すると、デコーダーは、多様体を正しく展開するために、この基底ベクトルが空間全体でどのように変化しなければならないかを学習します。
これを行うのに十分な計算能力がある場合です。
リーマン計量とテンソル場
今、美しさが来て、私たちは今次のレベルにいます。おめでとうございます。誘導リーマン行列、リーマン空間について話さなければなりません。なぜでしょうか?これが美しさですが、この潜在空間は、デコーダーGを介してデータ空間からその計量を継承するリーマン多様体として見ることができるからです。
数学的に、これは自明な演習ではありませんが、アイデアをお伝えします。理論物理学で常に使用するメトリックテンソルの概念を使用して、展開の量、または柔軟な空間のような空間の伸長について考える場合、定量化できます。
この行列テンソルGは、デコーダーによって誘導される潜在空間の幾何学を定義するK×K行列です。すみません、エンコーダーではなくデコーダーによって、もちろんヤコビ行列によって計算されます。何が起こっているかというと、このヤコビ行列は学習多様体上の接基底ベクトルの内積を測定します。
計量があることがわかります。対角要素は、特定の潜在方向に沿った伸長の二乗の大きさを測定し、この行列の非対角要素は、せん断、または単純に二つの展開された基底ベクトル間の角度に関連しています。この単純な画像に何が隠されているかがわかります。
しかし、これは素晴らしいです。なぜなら、これによって、より形式的な数学的方法で持ちたい場合、デコーダーは行列のテンソル場を定義するヤコビのベクトル場を学習すると言えるからです。そして、この構造は、潜在多様体mdashの点ごとの展開を、真の世界データを正確に近似する高次元学習多様体に実行するために必要なものです。
これ以上エレガントな数学的フローの解釈はありません。そして、このグラフで描かれていることを理解した今、なぜ複雑な多様体Mを、RKのようなより単純な空間に埋め込まれている別のおそらく複雑な多様体M dashにマッピングしたのかと思うかもしれません。
座標系とベクトル演算の利点
最初に、座標系があります。これが私たちが必要とするものです。これは、MdashをRK内に配置することで最も重要な利益です。作業できるグローバル座標系があります。多様体M dashは捻じれ、湾曲し、少し数学的に奇妙かもしれませんが、背景キャンバスでこの単純な座標系を使用して、任意の点の位置を常に記述できます。
第二に、それらで数学的演算ができます。ベクトル演算ができます。強化学習に不可欠です。おっと。代数を行うのに不可欠です。そしてC。計量の定義があります。距離を測定できます。XhatからXへを覚えておいてください。今、これができます。本質的な特徴だけを見る場合、最も単純な近似でKキャンバスの標準ユークリッド距離を使用して、二つのデータポイントがどれほど異なっているか、またはどれほど離れているかを教えてくれます。
これは、RAGやクラスタリングアルゴリズムなどから知っている類似性検索にとってもちろん重要です。私たちは、k次元実ベクトルの空間、または私たちの古典的な古い友人であるk次元ユークリッド空間に戻っていますが、この理解があれば確率的モデリングに進むことができることが私たちにとって最も重要な事実です。一年半前に拡散モデルについて話していたとき、変分オートエンコーダーについて10本のビデオがあると思います。
確率的モデリングと変分オートエンコーダー
この確率的理解は、元のオートエンコーダーです。何をするのでしょうか?潜在多様体mdashがkの原点を中心とし、ガウシアンクラウドのようなものであると仮定します。そして、標準ガウシアン分布から新しい点Zを簡単にサンプリングし、それをデコーダーGに送って新しいデータポイントを生成できます。これがすべてどのようにかみ合っているかがわかります。
この美しい数学的構成が、AI視点からだけ見ると最初は少し複雑だったかもしれない理性的オートエンコーダーの内部動作を突然説明することがわかります。私たちはAIに戻っています。確率的モデリングに戻っています。
約一年半前の私のビデオの一つを見ると、確率でこの確率的構造を強制しています。もちろん、他に何をしているでしょうか?AIをやっています。これについて決定論的なものは何もありません。変分オートエンコーダーはそれを確率分布、単純なガウシアン分布と可能性のクラウドにマッピングし、あいまいな操作であることを知っています。素晴らしい。
拡散モデルへの発展
そして、変分オートエンコーダーから拡散モデルに進みます。ご存知のように、両方とも単純な既知の分布を複雑な未知のデータ分布に変換することを学習する生成モデルです。
これがすべて拡散モデルがある理由です。これが新しい方には、非常に短い要約を再び言います。変分オートエンコーダーアプローチは、高度に圧縮された潜在空間からデータ空間への直接的なワンショットマッピングを学習します。拡散アプローチは異なり、最終画像と同じ次元を持つ純粋なノイズから始まります。
そして段階的に進みます。多くのステップでこのノイズを徐々に改良し、各ステップでこのノイズを少しずつ除去する内部プロセスを学習し、再びきれいな画像が現れるまで行います。これを数学的側面でもう少し見たい場合は、左側に元のオートエンコーダー、右側に拡散モデルがあります。
理性的オートエンコーダーから拡散モデルに進む際に何が起こっているかを正確に見る一対一のマッピングをお示しします。オートエンコーダーでは圧縮と解凍があり、潜在次元のボトルネック、ワンショット変換があります。拡散モデルでは、ノイズパターンの破壊と修復があり、反復的な段階的変換があります。
理性的オートエンコーダーでは、先ほど示したエンコーディングとデコーディングステージがあります。拡散モデルでは、同じものがありますが、ここではノイジングとデノイジング状態と呼び、それは反復的です。理性的オートエンコーダーの潜在空間は低次元です。これは、意味概念がエンコードされるボトルネックです。拡散モデルでは、潜在空間はノイジー画像そのものです。注意してください。
ハイブリッドモデル:潜在拡散モデル
そして今、もちろん「ちょっと待って、なぜ両方の世界のベストを組み合わせないのか?これらを組み合わせないのか?ベストを取ってハイブリッドモデルで組み合べるだけです」と尋ねるかもしれません。潜在拡散モデルへようこそ。何も教える必要がありません。潜在拡散モデルの一貫した表現を本質的にすぐに理解します。
どのようにするのでしょうか?低次元数学的空間での現実の効率的で圧縮された表現を作成する変分オートエンコーダーの能力を、拡散プロセスの強力な反復ブラシストロークがそのパターンを描き込むことができるキャンバスとして使用します。したがって、変分オートエンコーダーはまだAIのビジネスに参入しています。
それらは実際に強化学習エージェントのファミリーの礎石であり、AIには世界モデルが必要だという複数のビデオがあるのでご存知でしょう。それらはそれらのエージェントの礎石です。AIは不確実性で動作する理由を説明し、エージェントで非常に見える部分観測マルコフ決定過程について多く話したビデオがあったことを覚えています。
この完全なビデオで今話した変分オートエンコーダーは、エージェント内で正確に動作し、これが最新のAI研究における美しい変換です。エージェントは、自動運転車のライダー画像やダッシュボードのカメラ画像などの高次元観測を受け取ります。
しかし、もちろんこれは世界の一つの角度の一つの画像にすぎません。したがって、定義上、世界の部分観測です。車内のAIエージェントは今、「私は世界の真の根本状態、10メートル後ろの青いトラック、信号は緑、道路は濡れているなど、外の環境を推論する必要がある」と言います。
AIは今、「高次元画像、観測を取り、それを低次元潜在状態に圧縮できる変分オートエンコーダーがある。そこで特定の単純化があれば数学的操作ができ、この低次元空間では計算でもちろん非常に速く、本当に極端に速い数学的方法がある」と言います。
エージェントの信念状態と世界モデル
もしこれをエージェントから、そして我々のエージェントが部分観測マルコフ決定過程である異なる枠組みから見るなら、私の最後のビデオの一つで見たように、この状態はエージェントの信念状態になります。世界の絶対状態とは接触していません。エージェントのこの信念状態は、世界の真の状態についてのすべての重要な情報の豊富で高度に圧縮された要約です。
そして今、変分オートエンコーダーの仕事は、この集合t、この低次元潜在状態が、我々のAI車システムによる将来の決定を行うために世界の最も重要な特徴、関連するすべてを捉えることを確実にすることです。
しかし、このシステムの真の力が今来ることを知っていますか?エージェントはここでエンコーダーFとGデコーダー関数を学習するだけではありません。潜在空間自体で遷移モデルも学習します。現在の潜在状態とAIシステムが定義したアクションが与えられたときに、次の潜在状態を予測できるモデルです。
エージェントは今、世界の信念状態の圧縮された潜在空間で未来、次の反復ステップを完全に想像することができます。2秒間加速して左に曲がるなどの長いアクション序列を2、3ステップテストし、効率的なZ空間で予測される結果を見ることができます。そして、最高の想像された仮想シミュレートされた報酬関数につながるアクションの序列を選択できます。
このアーキテクチャでは、変分オートエンコーダーは意思決定者ではありません。それは今、知覚の、データストリームのフィルタリングの、そして我々が必要とする世界モデルである世界の圧縮された理解可能なモデルをエージェントに提供する想像力の創造のエンジンです。エージェントが今これで計画し、「もし次のアクションA1またはアクションA2を行うなら、このシミュレーションでの累積報酬は何になるか」を見たり想像したりできるように。この単純な視覚化にすべてのこの美しさが隠されているのです。トピックをどのように枠組み化し、どのような説明を提供するかに大きく依存します。
拡散モデルと部分観測マルコフ決定過程
そして、これを見ると、あなたの脳で何が点火するかです。もしこれを知っているなら、我々はもちろん変分オートエンコーダーから拡散モデルに進み、AIは不確実性で動作することについて話したことを覚えています。それは何か、AIの核心にあるものは何か、そしてビデオで部分観測マルコフ決定過程であることを示しました。
今、変分オートエンコーダーが部分観測マルコフ決定過程でどのように動作するかをお示ししましたが、拡散モデルも部分観測マルコフ決定過程に組み込むことができます。なぜなら、それはAIであり、我々はAIで2、3のレゴピースしかなく、原則的には常に同じ部分観測マルコフ決定過程、トランスフォーマー、変分オートエンコーダー、または拡散モデルだからです。
これを理解していない場合は、二つのヒントをお伝えしましょう。エージェントは次の状態を予測するだけでなく、遠い目標を達成するための多様な可能な長期未来軌道の集合、またはマルチエージェントシステムでの複雑な計画も生成する必要があります。これが拡散モデルで達成することです。
なぜでしょうか?一度に一ステップずつ予測する代わりに、拡散モデルは今訓練でき、これが運用側で持つ複雑さですが、開始状態を取り、画像でも描かれている終了状態を達成するための将来の状態とアクションの全体の序列を生成するように今訓練できます。
これがすべてです。少し深い理解があれば単純であることがわかります。したがって、今日このKenan Craneの投稿を見たとき、この解釈を見たとき、私の喜びと興奮を理解します。これを見て、彼の解釈を見たとき、私は魅力的で、私の脳でちょうどクリックし、「これはなんて美しいのだろう?教科書の解釈、オートエンコーダーとは何かにこだわらず、理解のレベルを深くし、本当に理解する力を持つなら」と思いました。
まとめと今後の探求
そこにそれがあります。今日、私は巨人の肩の上に立っていました。もちろん、彼のウェブサイトを見たい場合は、ここにアドレスがあります。絶対に魅力的です。私は彼の作品の一つを読み始めたばかりです。週末に楽しみたい場合は、この特定のソースを強くお勧めします。楽しんでください。
週末をお楽しみください。チャンネル登録して、次のビデオでお会いしましょう。


コメント