AI Shadow Brain:破滅的忘却を克服する直交部分空間による知識分離技術

AI研究
この記事は約14分で読めます。

ウィスコンシン大学医学部とGoogle Researchによる2026年3月9日付の最新研究が、AIモデルのファインチューニングにおける致命的な課題である「破滅的忘却(catastrophic forgetting)」を克服する革新的手法を提示している。従来の事前学習済みモデルに新しい知識を追加すると、重み構造が上書きされ既存の知識が失われる問題があったが、この新技術GDIOは、MLPの内部次元を物理的に拡張し、直交部分空間(orthogonal subspaces)を活用することで、旧知識と新知識を完全に分離して保持することを可能にする。LoRAのような低ランク適応とは異なり、GDIOは複雑な認知タスク(数学的推論や因果推論など)に対応できる高ランク拡張を実現し、事前学習済みの重み構造をコピーすることで初期化問題も回避している。G-freezeモードとG-trainモードという2つのファインチューニング戦略により、タスクの複雑度に応じた最適な学習が可能となり、完全な知識分離と破滅的忘却のゼロ化を両立させている。

AI Shadow Brain: More Skills (no .md)
How to Teach AI New Skills WITHOUT Catastrophic Forgetting. No, not the simple Anthropic Agentic skills from Skill.md, t...

破滅的忘却という深刻な問題

こんにちは、コミュニティの皆さん。今日は破滅的忘却に対抗する全く新しい技術をご紹介します。ウィスコンシン大学医学部とGoogle Researchによる2026年3月9日付の最新研究で、AIモデルを忘れることなくファインチューニングする方法が発表されました。

皆さんもご存知の通り、事前学習済みモデルを取り出して新しい知識、例えば数学的深層推論といったものを学習させようとすると、破滅的忘却という問題が発生します。ここにある重み構造のデータを上書きしてしまうため、モデルは既に知っていたことを単純に忘れて、新しいことだけを学習してしまうんです。これは本当に深刻な問題なんですよ。

解決策の一つとして、エージェント向けのskill MDというものがありましたが、いいえ、これはエージェントのコア部分、つまりLLMのためのものではありません。もしここを上書きしてしまうと、既存のスキルが消去されてしまいます。エージェントの中核、その目の中で、私たちは異なる解決策を持っていました。

正則化という手法があって、これは損失関数にペナルティを追加することで、モデルが元の確率分布から大きく逸脱するのを抑制するものでした。では、今どこにいるのか確認しておきましょう。このビデオで紹介したガイドラインを思い出してください。

前回のskill MDに関するビデオでは、文脈内学習について話していました。エージェントのコア部分、つまりLLMに対して指示を与える、指示追従型のアプローチでしたね。素晴らしいことに、ここでは一切重みに触れませんでした。モデルは停止すると即座に忘れてしまいます。マークダウンファイルやskill MDなどに書き留めておかなければ、メモリは消えてしまいます。学習したものは全て失われるんです。

ファインチューニングによる永続的な知識統合

今日お話しするのは、全く異なるものです。ファインチューニングについて話します。これは本当に知識学習を統合し、新しい知識についてモデルを訓練することで、それが重みの中に永続的に残るということです。たとえ追加の新しい知識を訓練しても、古い知識を忘れることはありません。古い経路、古い重みテンソルを上書きすることはないんです。

今、全く新しい解決策があります。もちろんGoogle Researchによるものです。幾何学的な観点から見ると、直交正規部分空間について話すことになるだろうと、もう感じ取っているかもしれませんね。

高次元空間、例えば8次元、12次元、1000次元の空間に行くと、美しい部分空間、直交部分空間を作ることができます。ベクトルxを思い浮かべてください。ただし、このベクトルxを特定の部分空間への射影と、それに垂直な成分の組み合わせとして考えてみてください。これです。これが単位元で、これが私たちのベクトルXです。

何をしたかお分かりですね。部分空間、おそらく直交正規部分空間への射影と、それに垂直な成分を持っていました。これから、このイメージ、この視覚化を使って作業していきます。

論文の著者は3つのことを教えてくれています。私たちは新しい関数保存型ニューラルネットワーク、成長手法を持っています。これは新しいスキルを学習できるものですが、AnthropicのエージェントがskillMDを持っているようなものとは違います。今、私たちは本当にエージェントLLMのコア部分を訓練しているんです。

そして、ここで事前学習済みの知識を再利用し、新しいスキルを学習します。もちろん、ここでコールドスタート、標準的なファインチューニング、新しいタスクでのパフォーマンスから始めます。これは教師ありファインチューニングのための標準的なルーチン、標準的なコーディングと一致します。さらに、新しいドメインデータで教師ありファインチューニング訓練を行う際に通常発生する破滅的忘却を完全に排除します。

GDIOの革新的アプローチ

彼らが言うには、このパフォーマンスは、レイヤーの対象となるサブセットのみを拡張してファインチューニングすることで達成され、計算コストを削減するモデルフレームワークがあるということです。ただし、計算コストを削減するために代償を払わなければなりません。その代償とは、新しいMLPサブネットをモデル自体に注入することです。

私のビデオをフォローしてくださっている方なら、「ちょっと待って、Transformerアーキテクチャに追加のレイヤーがあるということは、これはLoRAアダプターのようなアダプター訓練と同じじゃないの?」と思うかもしれません。

でも思い出してください。LoRA、つまり低ランク適応の主なアイデア、主な仮説は、新しいタスク、新しいドメイン知識に必要な重みの更新が、本質的に低次元の部分空間に存在するというものでした。だから私たちはそれを実現できたんです。元の行列W、つまり重みを凍結し、並列の更新を学習します。

ここではもちろん、ランクが極端なボトルネックになっています。通常、ランク8で計算していましたが、隠れ層の次元は4000や8000かもしれません。

この新しい手法、GDIOと呼びましょう、これはこの低ランクのボトルネックを拒否します。特に、AIに理解させたい、または訓練したい追加タスクが、数学や本当の因果推論、論理のような非常に複雑な認知タスクである場合はそうです。これは低ランク適応ではありません。これを低ランクアダプターに押し込むことはできません。これはAIにおける最も複雑な数学的操作の一つなんです。

したがって、著者たちはこれには高ランクの適応が必要であることも証明しました。では、モデルの完全な複雑性で進みましょう。並列の低ランク行列を物理的に作成する代わりに、GDIOはTransformerアーキテクチャのMLPの内部次元を物理的に拡張します。論文の著者たちは2倍に拡張しました。Pがあれば、2×Pにしたんです。

つまり、MLPに大量の新しいパラメータを追加したわけです。表現多様体の大規模な完全ランク拡張です。もちろん、「でも待って、まだ初期化の問題があるんじゃないの?」と思うかもしれません。LoRAでは行列Aがランダムに初期化され、行列Bがゼロで初期化されていたことを思い出してください。新しいパラメータは全く何も知りませんでした。

そして、新しいタスクを完全にゼロから学習しなければなりませんでした。でもここでは全く違います。GDIOでは、元のLMPの正確な事前学習済み重み構造をコピーし、新しいパラメータブロック、new oneとnew twoは、言語、少しの論理、少しの構文についての豊かで完璧に構造化された潜在的理解から始まります。

したがって、オプティマイザーは新しいパラメータに読み方や言語の仕組みを教える必要がありません。既存の知識を、この新しい追加的な、例えばより複雑なドメイン知識に向けて調整するだけでいいんです。

著者たちは付録で、GDIOでもこの拡張次元でゼロ初期化から始めると、同じ問題が発生することを証明しました。壊滅的に失敗するんです。

重みのバランスと構造的フリージング

LoRAレイヤーが追加項で出力を破壊したことを覚えていますか。この点については複数のビデオで取り上げました。この新しいケース、GDIOを見てみましょう。ダウンプロジェクションでGDIOの重みの半分を連結します。元の知識と新しくクローンされた知識が完璧な均衡状態に置かれ、新しい半分だけがファインチューニングされます。

モデルは標準的なクエリを、手付かずの元の重みを通してシームレスにルーティングし、本当に深い数学的推論のための特殊なクエリを、新しく調整された重み構造を通してルーティングします。お伝えできるのは、両方が直交空間に存在しているということです。

つまり、モデルは両方のスキルを同時に永続的に保持しているということです。ただし、skill MDのスキルではなく、Anthropicエージェントのスキルでもなく、これは本当にエージェントのコア部分によって学習されたスキルなんです。一つのまとまったフォワードポーズ、またはMLPの中で。

新しいGDIO MLPの半分が新しい追加知識でファインチューニングされると、直交部分空間が作成されます。これがこの手法が機能する理由です。少し数学的な話をすると、二つの部分空間が厳密に数学的に直交正規であるのは、ドット積が正確にゼロでなければならない場合です。

しかし、この手法は損失関数に厳密な数学的制約を明示的に課すものではありません。それでも、ここで機能的直交性を達成できます。干渉がなく、これが新しい点なのですが、構造的フリージングによって実現されます。構造的フリージングについては5分後に説明しますが、今知っておいていただきたいのは、新しいタスクの勾配はW newにのみルーティングされるため、新しい知識が物理的に新しいパラメータ、新しい直交部分空間に閉じ込められるということです。

これは、W newの最適化ランドスケープ、新しいテンソル構造の重みテンソルが、古い知識を持つ重みテンソルから完全に分離されているということを意味します。したがって、新しいトピックを学習するために取られる勾配ステップは、古い直交正規空間のベクトル表現を回転させることはできません。

GDIOのアーキテクチャ詳細

GDIOのアーキテクチャについて簡単に説明します。これは主にパーセプトロン、つまりMLPまたはフィードフォワードパスをターゲットにしています。Transformerは、クロスアテンションや自己アテンション、マルチヘッドアテンションを使って情報を移動させますが、MLPを重要な価値メモリストアとして使用し、そこに事実や変換が実際に保存されます。

これは、忘れることなく新しい知識を追加するには、アテンション機構自体、つまりルーティングケーブルではなく、メモリハードドライブ、つまりMLP次元を単純に拡張する必要があることを認識しています。

これが論文全体で最も重要な視覚化です。彼らが言うには、まずシンプルなアプローチから始めます。重みテンソルがあって、次元性、重み構造をPから2Pに拡張します。

これは素晴らしいです。そして、成長アプローチがあると言っています。そしてファインチューニング戦略があります。ここで2つのモードが提示されます。G-freezeモードとG-trainモードです。

注意してください。最初、私はこの視覚化をすぐには理解できませんでした。この青い、何というか物体、これらは小さなギズモなんです。回っているんです。これは凍結だと思いました。いいえ、これは軽い凍結で、これは重い凍結です。違います。これらは全く異なる2つのファインチューニング戦略なんです。詳しく見てみましょう。

G-freezeモード:シンプルなタスク向け

G-freezeはシンプルな部分です。著者たちはシンプルなタスクの勾配更新を測定し、更新がシンプルまたは低ランクで、特定のレイヤーに高度に局在していることを発見しました。

つまり、例えばフランス語を学習するのに、モデルが根本的に思考方法を変える必要はないということです。より多くの辞書と新しい構文マップを配置する必要があるだけです。しかし、タスクが局所的であるため、モデルは新しく追加されたW new重みだけで学習するのに十分な容量を持っています。

したがって、G-freezeはここで使用でき、破滅的忘却が絶対にゼロであることを保証します。なぜなら、完全に新しい直交正規部分空間ですべてを学習しているだけだからです。素晴らしいですね。

でも問題があります。すべてが制限されてしまうんです。

G-trainモード:複雑なタスク向け

本当に興味深いG-train手法を見てみましょう。これは、AIに訓練させたい重い数学的因果推論の複雑性を持つ重いタスクがあるときのものです。これを使うと、彼らは医学的推論がほぼすべての単一レイヤーに広がる高度な重み更新を必要とすることを発見し、重み構造の新しくクローンされた半分だけでは、モデルを深い論理的推論のために再配線するのに十分なパラメータの可塑性、十分なスペースを提供しないことが分かりました。

深い因果推論、深い数学的推論、理論物理学、あるいは何でもいいですが、その知性のためのスペースが十分ではなかったんです。著者たちは解決策を考え出さなければなりませんでした。

既に議論したように、TransformerのMLPはキーバリュー辞書のように機能します。アッププロジェクションはキーとして機能します。つまり、入力コンテキストのパターンを認識するということです。そしてダウンプロジェクションは単純に値として機能します。つまり、実際の事実的知識を投げるということです。シンプルで美しいですね。

G-trainを使用することで、アッププロジェクション全体を凍結解除します。これは凍結シンボルではないことがお分かりでしょう。これは「作業中」のシンボルで、ダウンプロジェクションは今、この薄い青のシンボルで完全に凍結されています。

これで、ネットワークはこの主要なタスクに必要な大規模で高度な可塑性を得ます。論理、ルーティング、パターン認識機能、手元の複雑な数学的タスクのためのキーを再編成する必要があります。

したがって、ここでアッププロジェクション全体を凍結解除する、凍結解除する必要があります。これが第一部ですが、破滅的忘却が起こらないようにしたいんです。そこで、ダウンプロジェクション、物理的な値、モデルが複雑な数学的タスクで別の訓練を開始する前に既に学習していた実際の事実的知識を完全に凍結します。

値、事実的知識を保存することで、モデルは既に事前訓練されていた基本的な世界知識を上書きすることなく、深い数学を学習できるようになります。深い数学を訓練しても、この知識を上書きすることはありません。美しい解決策だと思いませんか。

拡張行列関数の詳細

この厳密な分離をもう少し深く理解したい場合は、フォワードパス中の拡張行列関数、特に行列乗算をもう少し詳しく見る必要があります。

MLP次元が、例えば2Pに拡張される場合、アッププロジェクションは単にランダムに大きくされるのではありません。2つの異なるブロックに分割されます。G-freeze戦略を使ったシンプルなケースでお伝えしたように、最初のブロックを明示的にロックし、2番目のブロックだけを更新します。

十分な基盤があります。これで大丈夫です。巨大なVRAMがあります。十分なMLPがあります。すべてそろっています。全く問題ありません。では、いくつかの訓練が行われた後、2つのブロックを定義しましょう。古い重み、凍結された元の事前訓練済み重みがあり、次に新しいものがあります。フランス法や数学、その他何でもいいですが、それについて訓練されたものです。

入力がMLPに入ると、2P次元の中間空間に投影されます。これです。つまり、ベクトルは文字通り2つの部分空間に分割されます。冒頭でお話ししたベクトルの見方を覚えていますか。なぜ最初にこれをお見せしたのか、今まさにお分かりいただけたと思います。

左の部分空間には、元の手付かずの基礎的知識、事前訓練されたものの活性化が含まれています。右の部分空間、新しいものには、新しく成長したインフラによって処理された活性化が含まれています。

活性化と言うかもしれませんね。そうです、絶対に活性化です。重みと活性化があります。逆伝播があるからです。教師ありファインチューニングループがエポックを通じて処理すると、右の部分空間の活性化が変化します。

もちろん、この右ブロックで生成される活性化も動的に進化する必要があります。このモデルを訓練している新しい数学的推論データを捉えるために進化しなければならないんです。

さらに、少し数学をすると、ダウンプロジェクション、これも古いものと新しく訓練されたものに分割されていますが、これを隠れ層の次元、行列テンソルにマッピングすると、2つの部分空間の純粋な加算になります。

直交部分空間による知識分離の証明

これを行うと、論文を自分で見ていただきたいのですが、最終的な出力は美しい分離、2つの部分空間、ここでは古いものと古いもの、そしてここでは新しいものと新しいものに分かれます。

ワオ、なんて驚きでしょう。いいえ、なぜなら私は既に直交部分空間についての論文だとお伝えして紹介したからです。論文はこの方法では始まりません。これは単に、私のチャンネルの購読者であれば、この用語に精通していることを知っているので、論文が提示する数学について何も語ることなく、幾何学的解釈を与えて論文全体を説明できるということです。

しかし、論文の数学の最後に、2つの別々の部分空間があることが分かります。では、どうでしょうか。時には幾何学は数学よりもはるかにエレガントにコミュニケーションできるんです。

論文にあるこの方程式は、私の直交正規前提の数学的証明です。左の項は元の事前訓練済みモデル、正確なソートプロセスで、右の項は新しいソートプロセスです。

そして美しいのは、それらが完全に独立して計算され、最後の最後にだけ重ね合わされるということです。モデルは最初に持っていた完全な知識を持ち、数学的論理の完全な知識ドメインを学習したんです。素晴らしいですね。

より多くのMLPインフラを追加することで、著者たちは確かに、新しいトピックのための機能的に分離された多数の部分空間と最も適切に説明できるものを作成しています。

でも覚えておいてください。これはシンプルな小さなもののためではありません。これは巨大な塊のためです。フランス語を知っているLLMがあり、それをフランス法について訓練したい場合を考えてください。

法律は本当に複雑で、巨大な訓練構造です。これがまさに今、この訓練の方法として私がお勧めするものです。破滅的忘却がないように。直交部分空間における厳密な知識分離です。

今後の展望

しかしもちろん、私のことをご存知でしょう。これは始まりに過ぎません。過去2、3日に発表された他の論文があり、それらを使えばさらに一歩進むことができるんです。

でも、これは次のビデオのためにとっておこうと思います。このビデオが有益だと思ったら、高評価をいただけるかもしれません。「そうだ、このチャンネルのメンバーになりたい」と言っていただけるかもしれません。でもとにかく、次のビデオでお会いできることを願っています。

コメント

タイトルとURLをコピーしました