新しいTransformer2: テスト時適応(TTA)におけるパラメーター効率的微調整を用いた自己適応型専門家LLM

11,260 文字

NEW Transformer2: Self Adaptive PEFT Expert LLMs in TTA

Transformer2: Self adaptive LLMs: Scaling Intelligence w/ PEFT :: SVF - reduced computational complexity compared to PEF...

コミュニティの皆さん、素晴らしい週末をお過ごしのことと思います。今日は本当に驚くべき論文について取り上げていきます。2025年1月14日のTransformer2自己適応型LLMについての論文です。これは深い深い知識を持つ論文で、専門家システムの混合、SVDをベースにした新しいパラメーター効率的微調整の方法論について見ていきます。全てを統合して見ていきましょう。
まず最初にこの論文を読む必要がありますが、私は元の論文で詰まってしまったので、2024年10月7日のジョージア工科大学、MIT、IBM、MITの論文を見てみました。ここでは自己混合専門家システム、つまり自己専門化した専門家システムを持つ構成的な大規模言語モデルについて書かれています。
私たちは今、モノリシックなLLMを自己専門化した専門家の構成的なモデルシステムに変換しています。なぜそうするのかと疑問に思うかもしれませんが、これが美しい点です。というのも、LLMからそれらの自己専門化した専門家の一部を選び出し、それらにより大きな力を与えることで、モノリシックなLLMの中に異なる専門化パターンが現れてくるからです。
2つの論文を読んだ方は素晴らしい。では、自己適応型LLMとは何かを定義しましょう。これは昨日のビデオで見たような別のTransformerモデルよりもさらに重要です。自己適応型LLMとは、LLMのグループまたは単独のLLMで、環境の変化に応じて自身の振る舞いを評価し、修正できるものを指します。
これは特に難しくないと思うかもしれませんが、ちょっと待ってください。自己適応型LLMを実現する最初のステップは、PAからのLora適応のような微調整技術を用いた専門化された専門家モジュールの開発によって実現できます。このチャンネルではLoraについて10本のビデオがあります。これらの専門家モデルは、特定のタスクや要求に基づいて実行時に動的に構成されることができ、このプロセスは専門家の混合システムを通じて効率的に管理できます。
ここでは、異なるLoraアダプターと専門家混合システムの設計との間の美しい結びつきがあり、これは実行時に動的に構成されます。しかし、ここでいくつかの課題に直面します。まず、複数の専門家モジュールを作成するためのLLMの微調整です。トレーニングが必要なパラメーターの数が多く、全ての計算を行うには多くの計算力が必要です。
そしてこれらのモデルは、PALoraモジュールを重ねていくと、過学習の問題が発生することを覚えておいてください。そこには固有の問題があり、それらの問題を解決できるかどうか見ていきましょう。
この話の2つ目の次元は、専門家システムの混合です。入力は動的にルーティングされ、これらの専門家システムのドメイン固有の知識を含む専門化されたモジュールまたはレイヤーのサブセットに送られます。推論時間を削減するために、研究者たちは数年前に疎に活性化された専門家混合システムを導入しました。ここではトークンごとに専門家のサブセットのみが選択されます。
この新しいTransformer2は、ゆるやかに専門家混合システムの一種として見ることができますが、取り組むべき2つの大きな違いがあります。古典的なシステムではトークンレベルの投票によって自己適応が達成されますが、Transformer2システムではサンプルレベルのモジュール選択戦略を採用します。これについては後ほど説明します。
2つ目の違いは、専門家モジュールの構築にあります。従来の専門家混合システムでは、専門家モデルはゼロから訓練されるか、密なモデルとして構築されます。対照的に、Transformer2では特に特定の微調整ルーティンを示します。パラメトリック空間で専門家ベクトルを強化学習で微調整し、真の専門家にしようとします。
2024年6月の論文「継続的な事前学習によるラマからの専門家混合の構築」を見ることをお勧めします。これについてもう少し理解するためには、複数のパス適応チューニングと、それらを使って専門家混合システムをどのように構築するかについて熟知している必要があります。
そして今、まったく新しいアプローチがあります。Hugging Faceから2024年6月に発表された、特異値分解（SVD）によるLLMの微調整です。SVDは私たちの古い友人で、Loraとかなり似ています。これを使って微調整を行うことができ、これはTransformer2に限った新しいものではありません。半年前にHugging Faceによって発表されたものです。
全ての要素を組み合わせて、正しいレシピを見つけ、何が出てくるか見てみましょう。2024年9月の推奨事項を示すと、彼らはすでにパラメーター効率的なLLM微調整のための特異成分を使用しています。9月からすでにその手順が存在していることがわかります。
彼らが行っているのは、複雑な重み行列やテンソル構造を分解し、ノイズや長距離情報に関連する小さな特異成分を使用して、Lora微調整のための低ランク行列を初期化することです。興味深いアプローチです。興味がある方には、この論文を強くお勧めします。PAの微調整に特異成分をなぜ使用するのかについて、とても良い入門となっています。
もちろん、彼らはSVD法を利用する様々な特殊化手法も導入しています。テキサス大学とケルン大学が2024年5月にすでにこの特異ベクトルによるパラメーター効率的な微調整を検討していたことがわかります。これが新しい発見ではないことを確認しておきたいのです。
2023年から2024年にかけてこの研究が行われており、これは単にモデルの進化における次のステップです。インターネットでこれが完全に新しいものだと見かけましたが、全ての研究文献を知らなければ、これが突然現れたものと思うかもしれません。これは研究の道筋の美しい継続であり、今はより高い複雑性で適用されているのです。
古いモデルのこれらの制限を克服するために、このビデオの冒頭で示した論文の著者たちは、新しいPEFT方法論である特異値微調整を提案しています。LoraのPEFTの代わりに、今はPEFT SVFがあります。素晴らしい特異値微調整です。
これは、モデルの重み行列内の対角行列要素の特異値のみを抽出し調整するパラメーター効率的な微調整方法論です。この原理的なパラメータ化アプローチに焦点を当てることで、過学習のリスクを軽減します。はい、その通りですが、もう一つの点を後ほどお見せします。
計算要求を大幅に削減し、はい、これは本当です。Loraよりもさらに単純です。Loraは複雑性が低く、計算が単純ですが、さらに一歩進んで、もっと速くできないかと考えています。
この論文の本当の核心は、2023年のこの出版物「層選択的ランク削減による大規模言語モデルの推論の改善」にあります。なんと素晴らしい。真実はそこにあるのです。多くのダウンストリームタスクを解決するために必要な能力は、微調整前、強化学習前、DPO前、何よりも前の事前学習済みモデルの中にすでに存在すると彼らは言っています。
知識は事前学習済みモデルの中にあるため、新しい特徴を追加しようとするのではなく、効率的な微調整アプローチは、事前学習済みモデルの中にある潜在的な能力をより表現力豊かにすることに焦点を当てるべきです。つまり、微調整は新しい知識を持ち込むためではなく、事前学習済みモデルの能力をより良い潜在的な表現にするだけなのです。
真実は事前学習済みモデルの中にあります。これは今、興味深いことです。なぜなら、事前学習は一般的なもので、その後ドメイン固有の知識のための微調整があり、そしてLLMのアライメントのために強化学習やDPO方法論があると考えるでしょう。
しかし今、MITとマイクロソフトは、私たちが必要とする全てのものが事前学習の段階ですでにモデルの中にあり、微調整や強化学習、アライメントで追加するものは本当の中核的な知識ではなく、興味深いものではないと言っています。
彼らはすでに、事前学習済みモデルの潜在的な能力をより表現力豊かにする方法を検討しており、これは最新のAI研究で今まさに私たちが進もうとしている道です。
Transformer2の構築は現在、2つの主要なステップから成り立っています。まず、ベースモデルの重みのSVDに基づいて、強化学習と共にコンパクトで構成的な専門家ベクトルを学習するための特異値微調整方法論を導入します。これが何なのかわからない場合は、Loraを詳しく説明した素晴らしいビデオがありますので、それを理解する必要があります。これはLoraの続きのようなものです。
次に、3つの異なる適応戦略について説明します。これは後ほど示します。明確にしましょう。ここに訓練時間があり、次に境界があり、右側に推論があります。推論時に行うのは微調整ではありません。微調整は訓練時に、強化学習と共に行われます。
パラメーター効率的な微調整は、ここで訓練時に強化学習と共に行われます。これを複数の専門家システムに対して行い、推論時には与えられたタスクに最適なテンソル構造の特定の数学的表現を選択するだけです。推論時にはTTAもなく、何もありません。訓練と強化学習の時に完全な訓練が行われ、推論時には単にベクトルを選択するだけです。
これに本当に詳しくない場合は、非常に簡単な要約をします。元の重み行列を分解した形式で、ニューラルネットワークにある重み行列Wを特異値分解SVDを使用して、この特異値分解の形式でU Sigma Vと行列のランクで書くことができます。全てここで説明されており、これをPLoraで行いたい場合もあります。
そして特異値微調整のために、信じられないかもしれませんが、私たちは単に特異値を調整します。タスク特有のスケーリングベクトルを掛けることで、特異値のΣ対角行列を修正します。数学に本当に詳しい方なら、待ってください、私たちは単に対角要素をスケーリングしているだけですが、スケーリングは何かを学習していることを意味するのか、それとも単に知識や方法論を増幅しているだけなのかと疑問に思うでしょう。
そして、調整された特異値Σダッシュを使用して重み行列を再構築し、タスク特有の重みを作ります。素晴らしいですね。実際の例が欲しい人のために、ここに例があります。
ここに重み行列があり、分解があり、タスク特有のスケーリングがあります。最初の特徴を2倍の因子で拡大し、LLMの2番目の特徴を0.5に減少させています。つまり、特異値をここで調整しているだけです。10と1.5になり、Wダッシュを再構築すると、ここに10と1.5があります。
これらが2つの主成分で、それらは強化されるか弱められます。したがって、スケーリングによって、事前学習済みLLMの特定の特徴、例えば数学的推論や科学的要約などの異なる側面を引き出します。
完全な微調整とこの新しい特異値微調整方法論を比較してお見せしましょう。これは変換の速いものではなく、完全な微調整です。最も単純なデモケースで、サイズ3×3の重み行列Wがあります。通常は1000×1000程度ですが、これは私たちのWです。
これを正確にこの方法論で分解でき、Σが対角5、3、1であると仮定すると、最初の特異値5が最も影響力があることを示しています。従来の完全な微調整では、重みテンソルやその構造の全てのエントリーを調整します。したがって、この単純なケースでは9つのパラメーターを変更して計算する必要があり、全てのパラメーターが変更されます。
しかし、このパラメーター効率的な微調整では、Σの対角要素のみを修正します。例えば、これを6、2.5、1.5に変更するだけです。これには3つのパラメーターの調整のみが必要です。3×3の場合、9から3への変更ですが、1000×1000を想像してください。これが本当に速いことがわかります。
この修正は重みの中核構造を保持しながら、その強調を変更し、モデルをタスクに関連する特定の特徴やパターンにより焦点を当てるように適応させます。つまり、完全な微調整があり、パラメーター効率的なLora微調整があり、そして今はパラメーター効率的な特異値微調整があり、それはますます簡単で、速く、変更するパラメーターが少なくなっています。
別の例を挙げましょう。ベースモデルがあり、このベースモデルについて多くの質問を受けましたが、これはポルシェです。特定のタイプの車です。これは事前学習済みで、ポルシェとして素晴らしいものです。
次に教師あり微調整と強化学習があり、これが今行われている訓練です。2つのタスクのために訓練を行います。1つ目は、ベースモデルをパリダカールラリーで展開することです。ベースモデルの異なるホイール、異なるエンジン、異なるシャーシ、異なるサスペンションなど、様々な微調整修正が必要です。ベースモデルをパリダカール向けの特定のタスクに修正します。
または、ヒルクライムタスクがあり、アメリカには非常に有名なヒルクライム選手権があります。完全に異なる種類の車が必要ですが、これもポルシェです。しかし再び、ホイール、エンジン、形状、空力など、全てを特定のタスクのために修正します。
ベースモデルがあり、教師あり協調調整と強化学習で修正が行われます。Transformer2における教師あり微調整と強化学習の報酬信号についての詳細な説明がありますが、この単純な例を続けましょう。
砂漠ラリー用の専門家システム1とヒルクライムタスク用の専門家システム2があり、多様な100のタスクのための専門家システムを構築できます。サイズ1000×1000の重み行列Wを考えると、Loraでは128,000の訓練可能なLoraパラメーターを修正する必要がありますが、この新しいパラメーター効率的な微調整では、重み行列の数学的分解により1000の特異値のみとなります。
したがって、128,000の訓練可能なパラメーターから1000のサイズまで減少します。素晴らしいと思いませんか？完全な微調整と比べると精度は少し失われるかもしれませんが、非常に速いです。
この新しいPAは、例えば行と列の最小値である行列の特異値の数に等しい1000のサイズのベクトルのみの調整を必要とし、これは非常にパラメーター効率的です。Lora方法論よりも速く、重み行列の主成分空間のみでの微調整を保証します。これは多くの場合、最も関連性の高い情報のみを含んでいます。
私たちが言っているのは、コンポーネント空間の複雑さを考えると、重み行列の最初の主成分空間のみを見て、最も重要なコンポーネントを変更すれば、システムの変更が微調整に十分であると期待し、残りは無視するということです。
時には完全な微調整が必要であり、時にはLoraを使用でき、時にはこの新しい確率があります。制限は何でしょうか？前回のビデオで、スタンフォードでのマルチエージェント微調整について話した時、この例を挙げました。
これらのエージェントやその人物のドメイン知識が、農業技術や農業車両、農業に関する全てのことの専門家である場合、それは素晴らしいドメイン知識です。しかし、彼らの知識体系で戦闘機の超音速飛行パターンを説明しようとすると、極めて困難な問題に直面します。これは完全に異なるドメイン知識です。
教師あり微調整やエージェント微調整を行う場合、この微調整は強くドメイン固有であり、新しい機器があれば、その機器がインフラ全体にどのように統合されるかについての微調整メカニズムを持つことは素晴らしいことです。しかしドメインに縛られており、ドメイン間を飛び越えることはできません。なぜなら、超音速飛行の物理学は農業機器の物理学とは完全に異なるからです。
私たちが全てに対して微調整を行うと言っても、特定のドメイン内でのみ可能であることを覚えておいてください。strict制限があります。はい、ここで非常に単純に、Loraによる低ランク行列の追加と比較した新しい特異値修正を見てみましょう。
修正するパラメーターを確認したい場合、そして今推論に移ります。テスト時が重要です。推論です。ここで砂漠用とヒルクライム用の専門家システムの修正があり、シグマ行列が美しく計算されています。
推論では、実際のタスクがあります。これは私たちがLLMとして応答しなければならないタスクです。そして今、微調整なしのテスト時適応があります。Transformer2で何が起こるかというと、まず最初の推論で、タスクを特定する必要があります。タスクが入ってきて、LLMは「何を期待されているのか？パリダカール車かヒルクライム用に訓練されている」と言います。
例えばデモでヒルクライムタスクだとします。2回目の推論実行では、教師あり微調整と強化学習で導出されたシグマ行列を、主成分と共に重み表現に読み込み、重み行列の主成分のみで計算してLLMを実行し、即座に答えを得ます。
特定のタスク、ヒルクライムに対して、ヒルクライムの専門家システムを活性化し、モデルの計算に統合して、純粋にレーザーフォーカスされた専門家システムを持ちます。推論中のLLMの勾配計算やパラメーター更新はないことを覚えておいてください。微調整はありません。
例えばllama 7Bモデルをベースモデルとして、数学的推論や科学的要約のために訓練したものから選択するだけです。例えば科学的要約を選んだとします。このテスト時適応は単にベクトル適用によって達成され、計算が速く、軽量で素晴らしく、計算コストが低いです。
しかし、ここでの学習はなく、単にテスト時適応中に専門家システムを選択するだけです。例えば、llama 7Bベースモデルを4つの特定のタスクまたは100の特定のタスクで訓練したとします。そしてタスクが与えられ、微調整なしのテスト時適応をどのように行うかというと、最も単純なのはプロンプトベースの適応です。
これはタスク2だと言って、SVDバージョン2のシグマ対角行列で実行します。分類器ベースの適応があり、このジョブがすでに計算された専門家ベクトルに関連していると言うことができます。または、数学的推論、科学的要約などのタスクがあると言うことができます。
複数のシグマ、対角シグマを適応させることができ、これらの複数の専門家ベクトルを組み合わせることができます。加重平均を使用できますが、それが良くない場合もあり、これらのベクトルを組み合わせる異なる方法が必要かもしれませんが、試してみることができます。
複数の面を持つタスク、マルチタスク、サブタスクがあり、それらに対処する必要があり、専門家システムとして訓練されている場合、Transformer2で混合ベースの適応を持つことができます。
プロンプトベースの適応の最も単純なケースについて、ここに元のプロンプトがあります。システムに与えられた質問、ユーザーからのクエリを分析し、コード、数学、推論、その他の4つのカテゴリーがあります。それぞれが何であるかを説明し、入ってくるクエリ、入ってくるタスクがどのカテゴリーに分類されるかを教えてください。そうすれば、どのシグマを使用するかが正確にわかります。
簡単ですね。もちろん、このアプローチには制限があります。モデルは完全に新しいタスクに適応することができません。事前学習の知識領域に縛られ、本当に事前学習済みの専門家モジュールの質と多様性に依存しています。
微調整中の微調整は新しい構成を探索することを可能にするはずですが、これは現在Transformer2ではサポートされていません。しかし、すぐに将来の構成へのアウトルックを持ちます。たぶんTransformer3で、推論実行中に微調整が可能になれば素晴らしいと思いませんか？
これにより新しいドメイン知識を統合できるからです。明確にしておきますが、この特定のパラメーター効率的な微調整を使用するTransformer2フレームワークでの微調整は、モデルに全く新しい知識を導入するのではなく、シグマ対角行列の特異値の数学的表現を修正することで、事前学習済みモデルにすでに存在する知識を調整し再分配するだけです。
注意してください。スケーリングのみを行っています。数学的推論パターンを100%までスケールアップしたり、事前学習モデルのパターンから必要のないものをスケールダウンしたりしますが、新しい知識をどのように統合できるかについては確信が持てません。
このTransformer2のアプローチは、LLMの事前学習フェーズ中に符号化された潜在表現を活用し、モデルの基本構造を変更することなく、特定のタスクやドメインのためにこの潜在表現を採用します。
事前学習では全てが決定され、LLMの最も重要な訓練ステップです。何かを理解しようとして選び出しましたが、何があるかというと、固有のパラメトリック知識を持つ事前学習済みLLMがあり、次にパラメトリック微調整、私たちの特異値微調整タスクがあります。これは素晴らしく、対角シグマ特異値を単にスケールするだけです。
これは上手く機能し、過学習もなく、問題もありません。これが本当に事前学習済みLLMのブロックの上に位置していることがわかります。全く問題ありません。
私の理解では、本当にこれが正しいかどうかわかりませんが、このパラメーター効率的な微調整、この新しい方法論は、LLMの事前学習がすでに十分に豊かな潜在空間を捉えていると仮定しています。タスクのための重要なパターンが事前学習済みの表現から欠落している場合、この新しいPEFT方法論はそれらを発明したり学習したりすることはできません。既存のものをスケールすることしかできません。
対角における特異値のクラスターに移行したらどうなるでしょうか？特異値分解クラスターアプローチで特定の組み合わせを選ぶとします。これはTransformer2ではありませんが、次のステップを考えた場合、この制限から解放されることができるでしょうか？
そうは思いません。なぜなら、再びスケーリングだからです。知識を追加しているわけではありません。Loraを見てください。事前学習済みLLMがあり、固有の知識があり、これがパラメータ化されています。そして追加のLoraアダプターがあり、これはTransformerアーキテクチャに追加されたパラメーター効率的な微調整です。
しかし、追加されたパラメーター、追加された層がTransformerアーキテクチャに追加された知識を吸収するより良い能力を持っているような気がします。対角行列の数学的表現でパラメーターをスケールするのではなく、本当にTransformerアーキテクチャに追加の層があるからです。
複数のLoraアダプターを持つことができ、それらを単純に追加し、積み重ねることができます。そしてもちろん問題があり、この問題を知っています。なぜならこの追加された知識は、ドメイン固有の知識であっても、事前学習済みLLMの固有の知識にまだマッピングされていない可能性があるからです。したがって、マッピングの一貫した変換にここで問題があります。
私の単純な頭の中では、このPA方法論と古典的なPALora方法論の間にまだ違いがあると考えています。しかし、私が間違っている可能性もあります。いくつかのテストを実行し、もう一晩考える必要があるかもしれません。しかし、これが本当に同じレベルではないような気がしています。
公式の論文に戻りましょう。Loraについて確認しておくと、元の重み行列があり、低ランク適応では、入力用のA行列と出力用のB行列を追加します。つまり、この表現では本当に新しい要素を導入しています。特異値微調整を見ると、スケーリングしか見えません。
例を挙げましょう。最も単純なケース、これはデモで実際の世界ではありません。2つのタスクと3つの特異値がある単純なモデルです。重み行列Wを特異値分解方法論で分解します。これは古典的な数学的公式です。
そしてΣでは、対角Σ1、Σ2、Σ3があり、これらの値は5、3、1です。そして古典的な定義では、入力空間と出力空間のパターンを解釈して特異値を理解します。タスクAを数学的推論タスク、タスクBをテキストまたは科学的テキストの要約とします。
数学的推論では、微調整と強化学習から、パターンは主にΣ1とΣ2の値に対応することを学びます。一方、タスクBのテキスト最小化では、実際の教師あり微調整からパラメーターΣ2とΣ3に変動があることがわかります。
したがって、Σ1はタスクAに強く寄与しますが、タスクBにはほとんど関係がないことがわかります。Σ2は両方のタスクに重要なので、これらを組み合わせるのに完璧です。Σ3はタスクBのみに強く対応し、タスクAにはほとんど関係がありません。
教師あり微調整と強化学習により、データセット上で、どのΣコンポーネントが特定のタスクに特有であるかを学習できます。なぜなら、数学的推論でΣ3が存在しない、変化しない、数学的表現や特異値の計算で重要でない場合、どの因子が重要でないかを正確に知ることができます。
2つ目のステップとして、特定のタスクのΣを適応させます。タスクAの推論では、単にタスクAのΣを修正し、タスクBのΣを修正します。美しい対角行列があります。
そして、512×2Kの重み行列がある場合、事前計算された切り捨てられた特異値分解で操作できます。K=64として、これで十分だと言えば、システムの複雑性はそれほど深い層に隠れていないと考えます。そしてこれを計算できます。
本当に興味深い側面です。新しいパラメーター効率的な微調整方法論ですが、ここではスケーリングのみです。次のステップは何でしょうか？
次のステップは、本当にテスト時に計算する、推論時のテスト時適応で微調整を行うことです。新しい知識を持ち込みたいのです。例えば、ポルシェで訓練されていて、入ってくるタスクに対して微調整を行いたいとします。
そして、例えばランボルギーニやフェラーリなど、好きなものに対して微調整を行いたいとします。エンジンや車輪、空力など、多くの要素があり、ポルシェからフェラーリへのドメインシフト、データ分布の変更に対してこの新しい知識を適応させる必要があります。
したがって、推論での微調整は、この可能性を与えてくれます。ポルシェモデルを取り、推論実行中にフェラーリに微調整し、完了です。これは素晴らしくないでしょうか？
これは単なるアウトルックであり、これについてより多くのアイデアがあり、あなたも確かにより多くのアイデアを持っているでしょう。しかしとても興味深いですね。
このTransformer2やTransformer3などは、パラメーター効率的な微調整を古典的な訓練だけでなく、推論やテスト時計算でも継続し、そこで微調整を統合し、Loraを超えたパラメーター効率的な微調整方法論を持ち、さらに速く、さらに少ないパラメーターを必要とし、性能はまだ許容できるものであれば、これは非常に興味深い開発の道筋になるでしょう。
このビデオを楽しんでいただけたことを願っています。このビデオを皆さんのために設計し準備するのはとても楽しかったです。購読していただければ、次のビデオでお会いできます。