新パラダイム:単一層AI

AI研究
この記事は約19分で読めます。

本動画では、2025年12月8日に公開された2つの革新的な研究論文を取り上げ、AI設計における新たなパラダイムシフトを提示している。一つは連続学習における忘却メカニズムに関する研究であり、もう一つはAppleによる画像生成のための視覚エンコーダに関する研究である。両論文は一見無関係に見えるが、共通して「単一層で十分である」という驚くべき結論に到達している。従来、AIの忘却は重みの上書きによって生じると考えられてきたが、実際にはデータは深層に保持されており、最終層の分類器が直交部分空間に回転したデータを認識できないだけであることが数学的に証明された。同様に、画像生成においても複雑な多層エンコーダではなく、単一のアテンション層が意味的幾何学を最も効率的に保存することが実証された。これらの発見は、巨大化するモデルではなく、凍結されたバックボーンと専門化された単一層インターフェースによる効率的なAI設計の可能性を示唆している。

New Paradigm: Single Layer AI
For a decade, we believed that 'Deeper is Better.' We thought that to learn a new task or generate a new image, we had t...

はじめに

コミュニティの皆さん、こんにちは。お帰りなさい。一層の人工知能システムを持つことは可能でしょうか。これを圧縮することはできるのでしょうか。全く新しい研究成果があります。それでは私のチャンネル、ディスカバリーへようこそ。最新の論文を見ていきましょう。

2つの論文が共に2025年12月8日にここで公開されています。一つはAppleからのもので、もう一つは信じられないかもしれませんが、こちらからです。では見ていきましょう。一つの論文は画像生成のための視覚エンコーダについてで、もう一つの論文はAIにおけるニューラルコラプスを伴う浅い忘却と深い忘却の漸近解析における深層ニューラルコラプスについてです。これらはどのように繋がっているのでしょうか。皆さんは驚かれることでしょう。

連続学習における忘却の幾何学

まず最初の論文ですが、美しいですね。シンプルなアイデアを持っています。私たちは、AIに連続的な学習プロセスを持たせたいと考えています。これは破滅的忘却なしにニューラルネットワークを一連のタスクで訓練することを目指しています。自律エージェントのような適応的なAIシステムにとって非常に重要です。完全な再訓練なしに、古典的な教師あり微調整や強化学習、あるいは中央集権的なデータアクセスなしに、継続的に新しい情報を統合しなければなりません。

では、AIにおける連続学習をどのように行うのでしょうか。解決策は簡単です。リプレイを行うのです。つまり、過去のサンプルや過去のデータの小さなサブセットを保存して、新しいデータとの共同訓練に使用するという実践です。これは連続学習プロセスにおいて最も効果的で広く採用されている戦略の一つです。

これらのリプレイバッファは、AIの忘却の2つの形態に影響を与えます。出力レベルの劣化に対応する浅い忘却があり、これは線形プローブによって回復可能です。そしてAIの深い忘却があり、これは特徴空間の分離可能性の不可逆的な喪失に対応します。はい、私たちはここでAIにおける幾何学的特徴について話しています。

もう少し詳しく見てみましょう。ここにいくつかのデータポイントがあります。素晴らしいですね。これらのデータポイントを分離しようとすると、何とかここでクラスを分離できますが、その後、浅い忘却が起こります。興味深い部分は、深層におけるこの忘却プロセスとは何かということです。AIが何かを忘れるとき、実際に何が起こっているのでしょうか。これについて深く掘り下げることはできますか。質問してくれて嬉しいです。

ここで、深層学習訓練の終端フェーズにおけるニューラルコラプスについての基礎知識が必要です。これはスタンフォード大学とコーネル大学によって行われました。2020年8月の論文です。古い論文ですが、ニューラルコラプスの概念が必要なのです。私の知る限り、これが最初の論文であり、彼らは美しく説明しています。もちろん、皆さんはすでに深層学習訓練の終端フェーズという部分に気づいていますね。トランスフォーマーアーキテクチャの最終層で何かが起こっており、それが今ますます興味深くなってきています。

ニューラルコラプスについてより詳しい情報が必要であれば、これを参照してください。そうでなければ、Hatsurらによるメイン研究に戻ります。彼らは4つの主要な発見を調べたと述べています。このように定式化しましょう。

リプレイ効率ギャップの発見

チューリッヒの研究者たちは、リプレイベースの連続学習における本質的な非対称性を特定したと言っています。最小限のバッファでも、特徴幾何学を固定するには十分であり、それによって深い忘却を防ぐことができます。一方、浅い忘却については全く異なることが起こっています。この2種類の忘却は異なる特徴、異なる方法論を持っているようです。

第二に、彼らはニューラルコラプス理論の数学的枠組みを連続学習理論に拡張し、単一ヘッドアーキテクチャとマルチヘッドアーキテクチャの両方の漸近幾何学を特徴付けています。そして彼らの数学によって、より深い洞察を得て、こう言います。何が起こっているか分かりますか。タスク増分学習においてランク縮小が起きているのです。これが実際に何を意味するかについて、簡単な説明をしましょう。

効果その3は、特徴幾何学そのものに対するリプレイの効果です。著者たちは、浅い忘却はバッファ上の分類器最適化が不定であるために生じることを実証しています。これは興味深い部分になります。

そして最後に、分布外検出について、著者たちは深い忘却を再概念化しています。さあ、靴下をしっかり掴んでください。これは興味深いですから。深い忘却を、他の空間に直交する分布外部分空間への幾何学的ドリフトとして再概念化しています。この視点は、AIの連続学習プロセスと分布外文献で遭遇するものとの間のギャップを橋渡しし、AIが何かを忘れ始めるとはどういうことかについて、単純な精度損失を遥かに超える、真に美しく厳密な幾何学的定義を提供しています。

私たちは今、AIが何かを忘れるということの幾何学的定義を持っています。なぜそれが起こるのでしょうか。証拠は連続学習から来ています。つまり、私が考えていたこと、私たちが考えていたことは、ニューラルネットワークは新しいタスクを学習することで単純に何かを忘れ、脳の中で、テンソル構造の中で、何らかの形でデータが単純に上書きされるということでした。重みテンソルの再較正があり、これが深い忘却です。

しかし、この論文の発見は、いいえ、そういうことは起こっていないということです。彼らは数学的に証明しています。それで、主要なアイデアだけをお伝えしますが、脳、つまりトランスフォーマーアーキテクチャのより深い層は、実際にはほぼ完璧にすべてのデータを記憶しているのです。彼らは言います、分かりますか、重み構造には忘却はありません。深い特徴は分離されたままで、区別されたままです。線形分離可能性があり、すべてが保存されています。望むデータはすべてそこにあります。

それではあなたは言うかもしれません、では何がアプリなのですか。AIシステムにとって忘却とは何ですか。いいえ。これが今、私のパートです。数学の博士号を持っている人だけでなく、誰もが理解できる簡略化を提供したいと思います。どう説明できるでしょうか。これを試してみましょう。

直交部分空間による記憶保存のメカニズム

ネットワークがタスクAを学習したとしましょう。そしてネットワークが新しいタスク、タスクBを学習します。そしてデータを紙の一枚のようにあなたに向けて保持します。三次元空間にいます。そして、視線に垂直な位置に紙があり、そこにはタスクBのすべての指示とタスクBのすべてのデータが今あります。そしてこの画像を完璧に見ることができます。

そして今、分類器は、もちろんこれは私たちのトランスフォーマーアーキテクチャの最後の層の一つですが、単純にこの正面向きのビューを見るように訓練されているだけです。それだけです。ネットワークが次のタスクに移るとき、古い画像を削除せずにビューをクリアしたいだけです。それで何をするかというと、これは実際に起こっているのですが、古い紙、古い情報を90度回転させます。

つまり、古いデータはこの空間にまだありますが、トランスフォーマーアーキテクチャの最終層の現在のビューに対して直交、垂直になっているのです。このデータは視界から消えてしまうのです。重み構造にはまだそこにあるのですが、実際に起こっていることは、トランスフォーマーの内部プロセスが、この新しいデータを他の空間に直交する部分空間に保存するということです。なぜなら、分類器は頭を向けることを学んだことがないからです。私の単純な例では、常に同じ方向を見ているだけです。

まだ真っ直ぐ前を見つめています。それが見るものは、回転した古いタスクのように見え、紙の薄い端だけを見ます。これは今、分類器にとって見えない線になります。私たちの報告書では、トランスフォーマーの最終層、つまり分類器層として扱います。ねえ、この画像を忘れました、データを忘れたと。

お伝えしたように、画像は消去されていません。まだそこにあります。ただ直交部分空間に回転しており、現在の位置で分類器には見えないのです。なぜAIネットワークはこれを行うのでしょうか。古い記憶が生成された新しい記憶に干渉するのを止める最も効率的な方法だからです。

すべてを同じ単一または二次元の平面に投影すると想像してください。データのスープになってしまうでしょう。しかし、すべての新しいデータを新しい直交部分空間に回転させることは、エレガントな解決策です。古いデータをトランスフォーマーの盲点、直交部分空間に回転させることで、AIは衝突、干渉、エネルギー、重み減衰を最小化しながら、記憶を深部に無傷で保持します。

最後の層がもはや画像があること、データがあること、すべてがまだトランスフォーマーの重み構造の最後の層ではなく深部にあることを認識していないだけなのです。では、リプレイは今何をしているのでしょうか。ほんのわずかな量のリプレイでも、回転しようとする紙に指を置くようなもので、紙が視界から完全に90度回転するのを防ぎます。

分類器がまだそれを見ることができるように、紙を十分に傾けた状態に保つのです。これは簡略化であることは分かっていますが、ここで起こっている数学的な説明の正確な数学的なものなのです。元の論文を見てください。

つまり、これは今驚くべきことですが、全体としてのAI、分類器が「ねえ、この情報をすべて失いました」と言う失敗は、最後の層にあるだけで、分類器ヘッド自体にあるのです。なぜなら、共分散不足のような統計的異常があり、はい、数学を見れば、これがそれです、これが主な理由です。共分散不足。これをすぐにお見せします。最終層は混乱し、意思決定のための境界について間違った決定を描いてしまいます。

一層の結論

私たちは何を持っているでしょうか。一層の結論を持っています。ネットワーク全体を再訓練する必要はありません。LLaMA 3全体や、忘却プロセスを修正するために持っているものすべてを再訓練する必要はないのです。新しいデータのための教師あり微調整を行いたい場合、これを行うことができます。はい。しかし主なポイントは、データはまだネットワーク内にあるということです。最終層の幾何学を修正するだけでよいのです。

そしてもちろん、これは直交部分空間の幾何学を修正する必要があることを意味します。トランスフォーマーアーキテクチャ層にデータがどのように保存されているか。そして、最後の層に分類器ヘッドがある場合、これをどのように最適化できるか。そうすれば、完全な空間を回転させることができ、この限られた空間内のすべてのデータの360度ビューを見ることができます。

数学的説明はもちろん、ランク不足共分散です。1分間の数学でよろしいですか。素晴らしい。論文はこれを共分散行列を使用して形式化しています。共分散は、新しい数学的空間における特定の表現におけるデータクラスタの形状と広がりを記述します。そしてランクは、このデータクラスタの広がりがカバーする次元の数を記述します。

特徴空間が古典的な512次元の数学的空間だとしましょう。実際のデータは、すべての方向に本当に広がっているため、ランク512の共分散行列を持ちます。部分多様体に制限されていないことを望みます。しかし、リプレイバッファにサンプルが50個しかない場合、どうなると思いますか。経験的共分散行列は最大でランク49しか持つことができません。

これが今、リプレイバッファに残されている自由度です。これはもちろん、最後の層から見ている何かに盲点を作り出します。つまり、512から49を引いた次元があり、そこで共分散が正確にゼロになるということを意味します。つまり、AIアーキテクチャの最終層である分類器は、他の463方向に対して数学的に盲目であるということです。

幅も、広がりも、障害物も、何も知覚しません。データは本当に消えています。AIはデータを忘れたように見えますが、この洞察により、それが真実ではないことが分かります。データを見ることができないだけで、データはまだそこにあるのです。

したがって、数学的最適化は、単純に私たちが不定と呼ぶものです。これが1分で説明されるランク不足共分散です。ありがとうございます。メイン論文に戻ります。

Appleの一層視覚エンコーダ

そして今、最初の論文にこの一層があることが分かります。そして今、Appleによる2番目の論文では、すでにそうです、これはそうです、一層で十分です。見出しがそれを物語っています。しかし、完全に異なるレベルで起こっているこの並行したことが分かります。私はこれに魅了されています。

Appleは画像生成のための視覚エンコーダについて話しています。これについて少し深く掘り下げてみましょう。コンピュータビジョンでは、ミスマッチがあることをご存知でしょう。コンピュータビジョンで見たものを理解しようとするモデルがあり、そして画像を生成しようとするAIモデルがあります。

これが拡散モデルやフローモデルです。理解については、Dinoやsic clipなどがあります。理解モデルは簡単です。高次元で意味的に豊かで幾何学的に複雑な埋め込み、超球面埋め込みを生成します。識別、セグメンテーション、識別などのために最適化されます。

画像を作成したり何かを生成したりしたい場合は、低次元でコンパクトで滑らかな潜在空間、ガウス分布が必要です。ノイズや高次元性に敏感であり、それほど簡単ではありません。nano banana proは特別なものです。絶対にそうです。

古典的なアーキテクチャを見たい場合、標準的な変分オートエンコーダがあり、私のチャンネルでは変分オートエンコーダの量子化バージョンなどを扱ってきました。しかし彼らは言います、これをする必要はないと。つまり、これらの数字を見てください。数字は生成モデリング空間のチャネル次元を示しており、最小1,500です。新しいアーキテクチャでこれができると想像してください。この次元は単純に32に減少するでしょう。

これは可能でしょうか。どうでしょう。Appleによる新しい洞察は何でしょうか。信じられないことです。Appleは、深いエンコーダが適応を傷つけるという直感に反する現象を発見したと言っています。彼らは言います、高次元特徴を低次元潜在にマッピングするアダプターを訓練するとき、6層のトランスフォーマーアーキテクチャのような深いネットワークは、この圧縮タスクに過適合する傾向があります。

もちろん、十分な知性があれば、十分な層があれば、パターンを記憶することで信号を再構築することを学習します。本質的に元の意味的幾何学をスクランブルします。データの情報と知識の表現を密な空間に最適化しようとしており、これは深いネットワークから望むものです。低く最適化された表現です。しかし、この場合、そしてこの場合だけ、私たちはそれを望んでいません。別のものが欲しいのです。

単一のアテンション層が欲しいのです。なぜか分かりますか。この単一のアテンション層はデータをスクランブルするには単純すぎるからです。したがって、Dino バージョン2のような元のバックボーンデータの空間的および意味的関係を保持する線形的な投影を実行するよう強制されます。実質的に、複雑な再エンコーダではなく、意味的パススルーとしてのみ機能します。

形状などをそのまま保持したいのです。そして単一のアテンション層がこれに完璧であることをご存知でしょう。彼らはこの洞察でここに新しいアーキテクチャを構築しました。特徴量オートエンコーダと呼んでいます。もう推測されていますね。元のオートエンコーダなどと比較して極めてシンプルな設計です。

信じられないでしょうが、2つの相対的に軽量な、相対的に軽量なデコーダ構造と対になった単一のアテンション層があるだけです。エンコーダがあり、デコーダがあります。それだけです。単一のアテンション層がこれを行うことができるなんて不可能だと思うでしょう。では、Appleが何を発見したか見てみましょう。

お伝えしたように、この特徴量オートエンコーダアーキテクチャは意図的にアンバランスになっています。小さなエンコーダ、本当に一層です。これは本当にこれだけです。そして、デコーダは何らかの理由で特徴デコーダとピクセルデコーダに分割されています。データをエンコードし、データをデコードします。そして、次の画像を構築するのに役立つ興味深い表現があることを期待します。

エンコーダの目標は何でしょうか。単純に、Dinoのような凍結されたバックボーンからの大規模な表現を圧縮することです。Dinoに関するビデオは何十本もあります。検索にDinoと入力するだけで、情報の重要な意味的幾何学を失うことなく、小さな潜在空間セットに圧縮します。

なぜ一層なのか。より深く複雑なエンコーダを使用すると、ネットワークが賢くなりすぎます。関係を破壊する複雑な非線形的な方法で情報をエンコードすることを学習します。したがって、私は、彼らは単純なプロジェクターとして機能する単一層を好みます。それだけです。なぜなら、小さな潜在空間に元のより豊かな埋め込み表現と同じ形状と同じトポロジーを維持するよう強制するからです。

簡単に言えば、元のDino空間で犬とオオカミが用語として、または画像として近い場合、この小さな潜在空間でも近いままであることを保証します。歪みなく投影するだけです。

一方、デコーダははるかに難しい仕事を持っています。この小さな圧縮された要約を取り、高忠実度の画像に戻さなければなりません。彼らはこれを巧妙な方法で行います。2つの異なる難しいステップでこれを行います。仕事を分割します。

最初は特徴デコーダです。これは展開です。潜在Zは非常に小さいため、損失があります。豊かなDino埋め込みX hatなどに戻すために、ネットワークは文脈に基づいて欠落している詳細を幻覚したり、解決策を考え出したり、展開したりする必要があります。データがあればそれを行い、橋を構築します。十分なデータがない場合は、この橋渡し関数を幻覚し、発明し始めます。

これには、探している相関を本当に理解するための深いネットワークが必要です。そうすれば、この相関の上にしっかりとした橋を構築できます。実行すべき仕事は単純に、小さな空間で少しの数学から始め、はるかに複雑な空間ではるかに多くの数学を行わなければならないということです。美しいですね。

2番目のステップは、最初のデコーダを基に構築されています。2番目のデコーダ、ピクセルデコーダは、多かれ少なかれ翻訳を行っています。再構築された埋め込みX hatがあるので、この美しく巨大な埋め込み、それはまだ単なる数字のリストであり、色ではありません。問題ありません。

そのため、ピクセルデコーダは意味的言語を視覚的テクスチャ、RGBピクセルに翻訳する必要があるだけです。これは重い翻訳タスクですが、アーキテクチャがあります。実行すべき仕事は何かというと、重い数学があり、それをピクセルに翻訳します。非常にエレガントなことです。

これが本当に機能するのか疑問に思うかもしれません。はい、もう少し数学的な側面でのフレーミングが欲しい場合、これがあります。一層エンコーダ、入力操作出力。入力は、Dino バージョン2からの凍結されたパッチ埋め込みで、1536次元です。

操作は、線形投影が続く単一のアテンションブロックです。出力は、32次元の小さなコンパクトな潜在セットです。この極端な圧縮により、潜在空間は元の空間の最も重要な意味的トポロジーのみを保持するよう強制されます。

次に、潜在Zから元の埋め込みを再構築する特徴エンコーダを持つ二重デコーダ戦略があります。これにより、ZがDino バージョン2の言語を保持することが保証されます。そして、ピクセルデコーダは、潜在ではなく再構築された埋め込みX hatから実際のピクセルを生成します。したがって、素晴らしい、これは機能します。

ここで、一層エンコーダであるこの小さな何かをどのように訓練するのか尋ねるかもしれません。どうやってこれを訓練することが可能なのでしょうか。彼らはここで特別な訓練プロセスを開発しました。これはそれほど興味深いものではありません。はい、機能しています。美しいです。

洞察は何でしょうか。画像の知覚と生成を橋渡しするために、大規模な変分オートエンコーダは必要ありません。最小限の線形アテンション投影が視覚エンコーダの脳を最もよく保存し、新しいジェネレータがノイズ除去ダイナミクスに純粋に集中できるようにします。

視覚トランスフォーマーの古い重くて不器用なアーキテクチャは必要ありません。これは美しいでしょう。これを見てください。これは鳥の2枚の写真または象の2枚の写真から最も類似したパッチを特定しようとした画像です。これで達成できたこの相関を見てください。これは美しいと思います。

新しいパラダイムへの移行

私たちは昨日まで、Dino バージョン2のような読むAIを、画像を生成する描く創造的なAIに変えるには、異なる数学的空間からすべての特徴を翻訳するために、これらの大規模で複雑なアライメントモデルや巨大な変分オートエンコーダが必要だと考えていました。

実はそうではないことが分かります。Appleによるこのペーパーの発見、そしてそれがAppleによるものであることは驚くべきことです。このペーパーは、これらの複雑なアーキテクチャが必要ないことを実証的に証明しています。凍結されたバックボーンの深い理解を、ジェネレータが使用できる形式に圧縮するには、単一のアテンション層で十分です。

一層の結論は美しくシンプルです。画像を理解することと画像を作成すること、または修正された画像を作成することの間の意味的ギャップは、単一の層によって橋渡しできます。何という驚くべき洞察でしょう。

一歩下がってみましょう。要約は何でしょうか。両方の論文が興味深いことに同時に、12月8日に示しています。一層で十分なようです。私たちは間違った道を歩んできました。オートエンコーダのより大きく複雑なバージョンを構築しなければならないと考え、すべてが成長し、スケールアップしなければならないと考えていました。いいえ、完全に逆です。これらのどれも必要ありません。

なぜ今、バックボーンの訓練を停止し、インテリジェントな一層または最終層アーキテクチャについてもっと考えるべきなのでしょうか。はい、古い方法です。すべての重みを更新しました。完全な実行がありました。本当に高価でした。本当に何百ものGPUが必要だったとしても、すべて素晴らしいです。

効率的な未来は、より大きなマウスを構築することではないようです。全くそうではありません。理論物理学、金融、医学知識など、ドメイン知識で本当に訓練された凍結されたバックボーンがあれば、必要なのはモデルではなく、この凍結されたバックボーンと特別なヘッド構造だけです。

アーキテクチャの最終層です。学習では、幾何学を保存するためにバックボーンを凍結したままにします。深い忘却を防ぎ、最終層のみを統計的に較正します。画像を生成したい場合は、意味論を保存するためにバックボーンも凍結したままにし、単一のアダプター層を使用してジェネレータを駆動し、新しい画像を生成します。

すごいですね。物理学、数学、化学、薬理学など、仕事が何であれ、ユニークなバックボーン、凍結されたバックボーンを持つ瞬間があると、同じバックボーンを取り、異なるタスクのために専門化されたヘッドを交換するだけです。このデータ量をどのように見るかは、はるかに効率的な人工知能システムのようです。

未来を見てみましょう。これが私のアイデアです。私たちは実質的にここでモジュラーAIを主張していると思います。凍結された普遍的な皮質と、記憶と創造性という異なるタスクのための交換可能な単一層インターフェースを持ちたいだけです。そして、このビデオの冒頭で紹介した2つの論文で、非常に強力で科学的に根拠のある物語があると思います。

この論文を見てください。これらの論文を読んでください。理解しようとしてください。より深い意味を持っています。もちろん、論文自体にはメッセージがあります。しかし、両方の論文を組み合わせてください。両方の論文を見てください。そして、地平線で今明確に起こっていることがあると思います。

より大きなモデルではありません。凍結されたボディ、凍結された皮質、凍結されたデータがあれば、異なるタスクのための単一層インターフェースのみが必要であれば、これは計算をはるかにシンプルに、はるかに簡単に、はるかに安価にするでしょう。もしかしたら、これらのデータセンターさえ必要なくなるかもしれません。

少し楽しんでいただけたら幸いです。AIについて新しい知識を発見していただけたら幸いです。とにかく、いいねを残していただけたら素晴らしいです。チャンネル登録、メンバーになってください。とにかく、次のビデオでお会いできることを願っています。

コメント

タイトルとURLをコピーしました