
11,435 文字

こんにちは、コミュニティの皆さん。今日はトランスフォーマーの内部に飛び込み、トランスフォーマー内の異なる層と異なる注意機構で起こるエンタングルメント(絡み合い)について見ていきます。
皆さんはもう従来のトレーニングアルゴリズムをご存知でしょう。事前学習、教師付き微調整、強化学習によるアライメントがあり、その後推論段階で外部世界との接続が行われます。ここでエージェントが接続し、ディープリサーチを実行して、インターネット上の25のリソースに接続したり、公共データベースやプライベートデータベースにアクセスしたりします。すべては素晴らしく、すべてはフィルタリングされています。なぜなら有害なシステムは望まないからです。そこであなたは「素晴らしい」と言い、「私のLLMは有害な出力を生成しないだろう」と言います。なぜなら強化学習の段階で徹底的なアライメントを行ったからです。
しかし結果はどうでしょう?あなたのシステムは有害なコンテンツを生成します。あなたがどのように「有害なコンテンツ」を定義しようとも、出力に含めたくないものが何であるかはわかっています。そこで、より多くの同じことを強化します。つまりアライメントをさらに強化するのです。「POについて考えて」とか「オープンAIのことを考えて」などと言います。私たちはシステムと人間の指示とのアライメントをより強化する必要があると言いますが、今日ハーバード大学はこれはすべて間違っていると教えてくれます。
あなたはそれを間違ってやっているのです。ここに解決策があります。すべては事前学習から始まり、事前学習データを「汚染」する必要があります。完璧できれいなデータだけをフィルタリングしないでください。それはあなたのLLMのパフォーマンスを殺してしまいます。そしてこれを理解するのはとても簡単なのです。アイデアを持っていれば。
では始めましょう。前回の動画では、LLMの文脈内学習中の活性化サブスペースについて話しました。そして非常に単純なタスクを見て、量子解釈も示しました。今日の論文は簡単です。ハーバード大学による「悪いデータが良いLLMにつながるとき」(2025年5月7日)です。これは美しい研究で、この論文は事前学習またはラーニングデータ内の特定の特徴の存在に焦点を当てています。それらの特徴がより明確に、より線形に、そしてより非絡み合い的に(less superposed)言語モデルの活性化空間内で表現されるようになります。
これは変圧器内部での数学的操作が行われる内部計算空間です。活性化空間について完全に同じトピックについて話していることを確信していますか?始めましょう。2022年の「スーパーポジション」の論文を覚えていますか?そこでは「ニューラルネットワークは、特徴の数がニューロンの数を超えるとき、複数の無関係な特徴の表現を活性化空間の単一次元に重ね合わせなければならない」と述べられていました。
みんなは「もちろん」と言いました。スーパーポジションはニューラルネットワークの振る舞いを解釈する上で重大な課題を提起します。この数学的空間内の個々の方向はもはや単一の理解可能な特徴に対応しないからです。前回の動画を見た方なら「もちろん、前回の動画でそれがありました」と言うでしょう。
今、私たちは天才的な閃きが必要です。活性化空間とは何か。それは特定のコンポーネントの活性化空間であり、私たちはアーキテクチャの層を見て、128次元の出力を持つ注意ヘッド、あるいは単一のニューロンさえ見ることになります。
コンポーネントの活性化空間とは、その活性化の可能な値によって定義される多次元ベクトル空間です。これが計算が行われる数学的空間です。コードが存在する場所です。前回の動画では、注意ヘッドについて示しました。これは層の中の一つの注意ヘッドです。
そして128次元ベクトルは活性化パターンであり、その活性化空間は128次元のユークリッド空間であると説明しました。この空間内の各点は、このヘッドが生成できるユニークな可能な出力ベクトルに対応します。あなたは「もちろん、シンプルだ」と言うかもしれません。しかし違います。レイヤーの隠れ状態または残差ストリームの場合、4千次元のユークリッド空間、つまり活性化空間に移行するかもしれません。
活性化空間に慣れていない方のために、非常に短い紹介と要約をします。慣れている方は次の1分を飛ばしてください。多くのニューラルネットワーク解釈可能性における中心的仮説は、私たちが望む概念や特徴、そして入力に関する古典的情報が、これらの数学的活性化空間内のパターンや幾何学的構造としてエンコードされているということです。
ニューラルネットワークは、あるレイヤーのあるコンポーネント(ヘッドなど)からの活性化を取り、特定の変換を適用することで計算します。ただ変換を考えてみてください。自己注意を使い、重み、バイアス、非線形性を適用し、次のレイヤーのための新しい活性化を生成します。これらの点、より正確には数学的ベクトル空間内の活性化ベクトルがレイヤー間でどのように移動し配置されるかを研究することで、ネットワークが情報、知識、データをどのように変換して最終的な出力に到達するかを理解しようとすることができます。
コンポーネントH(ヘッドや完全なレイヤーとしましょう)は特定の数学的操作を実行します。注意ヘッドの場合はクエリ・キー・バリュー注意計算や自己注意計算、MLPニューロンの場合は線形変換と非線形性に関する動画がありました。このコンポーネントHの出力、つまり次のレイヤーのための新しい活性化は、この数学的操作の結果です。これをoutと呼びましょう。このoutは与えられた入力に対するコンポーネントの活性化です。見ての通り、かなり単純です。
さて、ハワードが示してくれることから始めましょう。ただ単純なベースモデルを選びます。アレン人工知能研究所、ワシントン大学、イェール大学、ニューヨーク大学、ニール大学、OMUの素晴らしい小さな10億パラメータの事前学習可能なモデルです。これほど小さなモデルを選んだのは、モデルの事前学習にかなりのエネルギーを使うからです。
そして2つの異なるデータセットの様々な比率で事前学習を行います。きれいなデータセット、つまり完璧なデータセットであるC4データと、より有害なデータセットである4chainデータセット(インターネットから直接取得した、憎しみや何でもインターネットで見つかるようなもの)があります。これは純粋なフィルタリングされていないソーシャルメディアです。
きれいなデータと有害なデータの大部分があり、これを事前学習コーパス、事前学習データセットに入れます。これを特定の方法で混ぜ合わせ、彼らは10〜20%の有害データがあると、特徴の内部表現(有害性と定義するもの)が数学的空間でより線形分離可能になることを発見しました。見ることができます。この複雑な混沌から結晶化するのです。
注意ヘッドやレイヤーの活性化に基づいて有害性特徴を検出するよう訓練された線形分類器は、より多くの有害な事前学習データにさらされたモデルで高い精度を達成します。これで解決策が見つかりました。解決策は、有害なコンテンツがまったくない完璧できれいなデータセットを持つことではありません。
なぜなら、そうすると実世界のインターネットに接続したり、MCPクライアントサーバープロトコルがアクティブになったり、RACKシステムやオーセンティックRACKシステムがアクティブになると、実世界のデータが得られますが、それらは非常に汚いものです。非常に有害です。もちろん、複数のフィルターや複数のフィルター層を持つことはできますが、それは助けになりません。
ハワードは「知っていますか?私たちが発見したのは、活性化空間内に有害性方向の指標があると(これはベクトル空間なので、4,000次元空間であっても方向を計算できます)、それがより明確になり、結晶化し、より明確で単純な線形境界で分離しやすくなる」と教えてくれます。「なんて美しいアイデアだ」と思うでしょう。でも時間がかかりました。
純粋できれいなデータセットから始め、有害データの割合を0%、5%、10%、15%、25%、25%と追加しました。トークン数は約250億トークンに及びます。事前学習を行い、各訓練はNvidia H 100の2ノードを使用して約半日で完了します。かなり集中的な事前学習です。微調整やアライメントやプロンプティングとの関連を尋ねるかもしれませんが、まずは基本を理解する必要があります。
彼らは10〜15〜20%の有害データを追加しても、ベースモデル(10億モデル)の質問に答えたり単純なタスクを解決したりする一般的な能力には即座の大惨事を引き起こさないことを発見しましたが、追加されるのは単に魅力的なものです。著者らはテキストを入力として使用し、最後のトークンのヘッド活性化を収集して、各レイヤーの各ヘッドのプロービングデータセットを構築し、テキストが有害かどうかを人間の注釈で表現しました。9,000サンプルに対してこれが行われ、素晴らしいものでした。
そして、事前学習後のプロセスがあり、そのうちの一つが推論時介入(ITI)です。モデルの他の能力へのダメージを最小限に抑えながら、モデルの振る舞いを効果的に変えるためには、高精度のヘッドにのみ介入することが重要だと彼らは言います。「ちょっと待って、何の話をしているの?」と思うかもしれませんが、これはハーバード大学による公式出版物です。
3つの簡単なステップを見てみましょう。まずデータを生成し、次に特定の4層のトランスフォーマーを訓練し、最後にプライムアイデアが必要です。前回の動画を見た方は、ハワードのプライムアイデアが前回の動画とどれほど似ているかに驚くでしょう。
まずはマルコフ連鎖、循環マルコフ連鎖から始めましょう。しかしマルコフ連鎖の数がトランスフォーマーの隠れ空間の次元を超えたため、エンコードするn個の異なる特徴の表現は重ね合わせる必要があります。混ざり合うでしょう。
次のステップはトレーニングプロセスです。様々なデータ構成のトランスフォーマーアレイに対して、トランスフォーマーの活性化構造を分析します。各レイヤーについてこれが示されています。そして特定の測定を定義し、これをエンタングルメント(絡み合い)と呼びます。
主なアイデアは、活性化空間内の方向を見つけることです。特に、この実験ではデータセット内の各特徴πに対応する残差ストリームです。一つの特徴は有害かもしれませんし、物理学や化学や数学などの特徴かもしれません。トレーニングデータセットにある、または検出できる特徴です。
それはパターン検出です。そして彼らは、この特徴方向(ベクトル空間内の方向)が、この特定の特徴のインスタンスを他の特徴から最もよく分離する超平面の法線ベクトルとして定義されるアプローチを採用しました。これは超平面上の特徴を分類するための線形プローブをトレーニングするのに似ています。
本当に単純なアイデアで、前回の動画ほど優雅ではないかもしれませんが、もちろんこれはただのハーバードです。マルコフ連鎖の数が隠れ空間の次元数を超えたため、各連鎖の特徴方向は重ね合わせる必要があり、そのため彼らはエンタングルメントという定量的測定を定義し、ある特徴が他の特徴の中でどれだけ目立つかを単純に測定します。
彼らが行った単純な実験とその結果がこれです。青色で表される過小表現された特徴と他の特徴があり、彼らはこれらの実験が示すのは、例えば有害性などの特徴がトレーニングデータ(LLMの事前学習)の存在が増加すると、他の特徴との絡み合いが少なくなるということです。より明確になります。このベクトル空間でより明確な信号が得られます。結晶化し、おそらく独自のサブスペースを見つけ、これが有害なコメントが存在するサブスペースだとピンポイントで特定できます。起こったことがわかりますか?
推論時介入(ITI)について説明しましょう。これは何でしょうか?非常に単純です。この論文はハーバード大学によるもので、2024年6月のものです。私のバージョンでは「推論時介入:言語モデルから真実の回答を引き出す」というタイトルで、特定の方法で注意ヘッドの限られた数にわたる一連の方向に従って、推論中にモデルの活性化をシフトさせることによって動作します。美しい方法で、30秒でお見せします。
スタンフォード大学、UCバークレー、キメル大学からの「表現エンジニアリング」という非常に興味深い部分もあります。AIの透明性へのトップダウンアプローチで、認知神経科学からの洞察を活用する表現エンジニアリングという新興分野です。
両方の研究からの洞察が必要です。なぜなら、最も単純なケースでは、注意ヘッドの隠れ空間内の真実性や有害性などの属性に関連するレコード空間内の線形方向を特定し、デコード時に活性化を特定の方向にシフトさせて属性を強化するからです。
もちろん、このような最適化方法には、対処する介入ヘッドの数や介入戦略自体などのハイパーパラメータがあり、一般的な能力と望ましい属性へのアライメントのバランスを取るために調整されます。
ハーバードの研究者たちは30の介入ヘッドを使用し、弱、中、強など3つの異なるレベルにわたって介入強度(有名なαパラメータ)を変化させ、介入強度のハイパーパラメータがLLMのステアリング性能にどのように影響するかについて実際の違いを提供しています。
「ステアリング」という用語に出会うでしょうが、これは推論プロセス中にLLMの特定のコンポーネント(通常は注意ヘッド)の活性化ベクトルを積極的に修正することを指します。介入時に計算が標的となる注意ヘッドに到達すると、それらが自然に計算して生成する自然な活性化ベクトルが計算されます。
しかしこの自然な活性化ベクトルは、事前に識別された概念方向ベクトルを追加するなどの数学的操作によって修正されます。また、それを拡大縮小もします。つまり何かを計算しますが、システムをある方向に導きたいという概念方向ベクトルもあるのです。
特定のヘッドの活性化ベクトルを単純な数学的操作で修正し、それが残りのネットワークと残差ストリームに渡され、すべてがうまく機能します。さて、αに戻りましょう。
有害性方向があるとします。有害なコメントがすべて存在するベクトル空間内のサブスペースがどこにあるかがわかっています。これは単純化ですが、アイデアは理解できるでしょう。そうすると、このサブスペースを指す正または負のαを持つことができます。
負のαは何でしょうか?ベクトル空間内の有害な領域から離れる方向を指し、出力をより有害でないものにします。正のαは「あそこに行って本当に有害になろう」という方向です。そしてαの値は強さです。どれだけ速くこのサブスペースに向かって加速するかです。
これは事前学習におけるものであり、これは絶対に魅力的です。ハワードはまた「教師付き微調整や強化学習も行います。現在の古典的な方法の一つはDPOです」と言いました。教師付き微調整について見てみましょう。彼らは10億パラメータのモデルを評価し、武器攻撃コードフィードバックやアピールやウルトラフィードバックなど異なるデータセットで教師付き微調整を行いました。
また、別の手法として単純なプロンプトエンジニアリングも行いました。初期のプロンプトエンジニアリングを覚えていますか?彼らは「すべての出力が敬意を持ち、偏見がなく、有害なコンテンツを含まないようにすること。倫理的ガイドラインを遵守すること。包括性を促進し、ステレオタイプや誤情報を永続させることを避けること」というプロンプトを使用しました。
これは素晴らしいスーパープロンプトです。ベンチマークを行う必要があり、ベンチマークデータはマイクロソフトから提供されています。2022年5月には「toxygen」という大規模な機械生成データセットがあり、暗黙的なヘイトスピーチの検出に使用されます。マイクロソフトが提供しているこのデータはHugging Faceで「toxygen」として見つけることができます。
最終的なパフォーマンスデータについて話しましょう。ここにtoxygenの最初の列があります。数値が小さいほど有害性が低いので、小さい数値が望ましいです。きれいなデータから始めましょう。これは私たちが現在行っていること、行うべきだと考えていることです。すべてのデータをきれいにし、完璧なML運用パイプラインを持ってデータをきれいにします。素晴らしい。41です。
次にプロンプティングを行い、「ヘイトスピーチにならないようにしてください」と言います。32まで下がります。素晴らしい。そしてきれいなデータに対してステアリングを行いますが、ヘイトスピーチや有害なコンテンツに対するパターン検出能力が十分ではないため、ステアリングはあまり効果がありません。弱いステアリングからきれいなデータやプロンプティングよりも弱い効果が見られ、強いステアリングでも約20%程度しか達成できません。
教師付き微調整はどうでしょうか?モデルを教師付き微調整すると40となり、これはきれいなデータとほぼ同じです。DPOなし、39、ほぼ同じです。DPOと教師付き微調整の両方のモデル、両方のチューニング、両方のトレーニング手法はほとんどパフォーマンス向上をもたらしません。なぜならまだきれいなデータで作業しているからです。
ここで事前学習データセットに10%の有害データを混ぜることになります。システムが有害データを検出できるようにするためです。これが独自のサブスペース、独自のカテゴリー、私たちのデータ、知識、情報に繰り返し現れるパターンであることを理解します。10%で既に効果があります。有害データを追加してプロンプトするだけでは、32から29へとそれほど大きな改善は見られません。
しかし、有害データとステアリング(ITI)を中程度に組み合わせると、8になります。8は本当に良い数値です。強いステアリングなら2になり、さらに良いでしょう。しかし8はきれいなデータと同じステアリングの28と比較すると、LLMの事前学習データセットに有害データを追加するだけで得られるパフォーマンスの向上は驚くべきものです。これこそ私たちが求めていたものです。
常にデータが重要だとわかります。しかし興味深いことに、最高にきれいなデータを持つことではありません。なぜなら、MCPサーバーやRACKエージェントシステムから、外部世界、インターネット、データベース、他のサーバーとの接触により、汚いデータ、有害なデータが返ってくるからです。
システムが有害データについて知らなければ、得られる結果は28です。しかし、システムが有害データとは何か、有害データにどう対処するか、ベクトル空間の特定のサブスペースにすべての有害データをどう配置するかを学習していれば、それらがどこに存在するかを正確に知り、このスペースの特定の領域から離れるようにステアリングでき、求めているパフォーマンスが得られます。
言い換えれば、モデルの隠れ状態で線形分離可能にしたいのです。活性化空間内での特徴表現の分離可能性を見たいのです。今日と昨日の両方の論文は、昨日のK操作や今日の有害性分類タスクのような概念や特徴がニューラルネットワークコンポーネント(今日のような注意ヘッドや残差ストリームの一般的な隠れ状態)の活性化空間内の方向や領域としてエンコードされているという前提で動作しています。
表現の質を測定します。これらのサブスペースをより良く見つけるほど、ベクトル空間上の信号はより明確になり、サブスペースがより構造化されるほど、表現は良くなります。これが私たちが望むものです。明確に線形分離可能で、有害性の特徴ベクトルの絡み合いが少ない表現を持つベクトル空間が欲しいのです。
これは単純ではありませんか?トレーニングデータの性質が学習された表現の幾何学を形作るという共通のテーマがあります。昨日の動画でこれについて話しました。より明確で絡み合いの少ない表現は、理解とコントロールにより適しています。
非常に単純なことです。トレーニングデータセットにデータを追加すると、それらの「悪い」データのより良い表現につながります。なぜなら、LLMはある時点で外部世界(データベース、インターネット、他のエージェント、エージェントGreg、MCPデータ転送など)と接触するからです。そうすると悪いデータが得られます。
システムが悪いデータをどう扱うべきかを知っていれば、表現には悪いデータを分離するのに十分なサブスペース容量があります。これが私たちが望むものです。なぜなら、そうすれば悪いデータをどう排除するかがわかるからです。
これがハーバード大学による絡み合いに関する非常に単純だが非常に美しいアイデアです。これは私が視覚化しようとした空間、カオスです。しかしAIは私に単なる空間を与えてくれました。これは主要なバブルであり、ここに専用のサブスペースがあります。これが例えば有害性というパターンのあるサブスペースです。
これはAIが事前学習で学んだ方法です。有害性が何であるかを知っていれば、それをパターンとして検出し、カオスから抽出し、それらの有害性のためのサブスペースを構築できます。ベクトルを持つ数学的オブジェクトがあり、ベクトル場がある場合、それに向かって操縦するのではなく、それから離れるように操縦して、私のアイデアに従って非有害なLLMを美しく実行させたいのです。
コアアイディアは美しいですね。昨日は、LLMが異なるタイプの情報を内部的に表現し一致させる方法のメタファーとして、重ね合わせ、絡み合い、基底状態、測定、制御された進化などの概念を強調するのに役立つ量子アナロジーをいくつか示しました。次の1分で、この新しいハーバードのビデオにこの量子状態表現のアイデアをどのように継続するかについての情報をお見せします。昨日はUCバークレーのコンテンツだけでしたから。
量子レジスタ内の特定の有害量子ビットについても話すことができます。量子ビット状態が他の概念量子ビットの状態と高度に絡み合っている場合、有害性は基底状態に対して明確に定義されたり直交したりしません。共有量子フレーズがあり、ほぼ完全な量子レジスタ内の特定の有害量子ビットについても話すことができます。量子ビット状態が他の概念量子ビットの状態と高度に絡み合っている場合、有害性は基底状態に対して明確に定義されたり直交したりしません。共有量子フレーズがあり、ほぼ完全なカオスがあります。システムは過小表現された特徴に明確な量子リソースを割り当てることを学習していませんが、事前学習中に有害な状態、現実との相互作用を意図的に増やすことで、量子システムはより良く区別するようになります。
これは同じアイデアを量子システムにも適用したもので、これによりヒルベルト空間内でより明確に定義され、絡み合いの少ない基底または好ましい方向が得られます。つまり、有害な量子ビットがより純粋な状態になり、有害な量子状態と非有害な量子状態をより信頼性高く区別できるようになります。より直交的で基底があり、明確に定義され絡み合いの少ないヒルベルト空間の直交状態があれば、量子ゲートやハミルトニアン進化を適用するのが非常に簡単になります。
今日はITIやアクティベーションステアリングについて話しましたが、これらは特定の量子ビットをより非有害な状態に回転させるのに役立ちます。しかし量子ステージングは同時に起こることを覚えておいてください。そのため明確さは低いですが、このコードの単純化でこれはかなり興味深い解釈だと思います。
有害な量子ビットの絡み合いを解消し、その後ターゲットとなる量子制御操作を行いますが、これについてはまた別の動画で詳しく説明します。素晴らしい研究ですね、ハーバード大学、2025年5月7日。これはアーカイブリンクです。素晴らしい内容です。
主な洞察は何でしょうか?私たちはコード設計が必要だということをより理解するようになりました。事前学習の一段階だけ、または教師付き微調整だけ、あるいは推論時の計算だけを最適化することはできません。それらは一緒でなければなりません。つまり、事前学習と事後学習の共同設計を統一システムとして行うのです。
著者らは、LLM開発パイプラインを包括的に使用することを提唱しています。事前学習データの構成が事後学習のアライメントや推論実行の効果に与える影響を明示的に考慮するのです。ITI、アクティベーションステアリング、あるいは特定の特徴を抑制することを目的とした微調整について話しましたが、これらは、対象とする特徴がモデルの活性化空間内で明確で distinct な信号、はっきりしたハンドルを持っていれば、より効果的になり、一般的な能力へのダメージも潜在的に少なくなるでしょう。そうすれば外科的に除去したり、明確に定義された概念を調整したり、単に活性化空間内の特定のサブスペースから離れたりすることができます。
これをどのように使用できるでしょうか?LLMを事前学習しない場合、微調整やアライメントの強化学習手順を特定のLLMに適用することを決める前に、ベースモデルまたはLLMをプローブしてください。すでに教師付き微調整や強化学習がされているかもしれません。ベースモデルをプローブして、制御したい特徴の表現がどれだけ線形分離可能か、あるいはどれだけ絡み合いが解けているかを評価してください。
有害性を減らしたいなら、あなたの特徴は有害性、例えばヘイトスピーチになります。ベースモデルをプローブし、それが本当に分離されたサブスペースに存在するのか、それとも他の特徴と強く絡み合っているのかを理解してください。もし絡み合っているなら、教師付き微調整や強化学習を始める前に、これを解きほぐすための他のメカニズムを選択する必要があります。
微調整はコストがかかります。微調整のために支払いが必要であり、たとえローカルで行っても、オープンソースモデルのアライメント手順のために支払う必要があります。今日の理解により、オープンシステムのパフォーマンスをずっと良くすることができます。
最後に、事前学習データのキュレーションは、最大限の純度を目指すという孤立から脱却しました。ヘイトスピーチが一文でもないことを確認するのではなく、LLMがどのように機能するかを理解し、実際の「悪い」データ、有害データを戦略的に含めるというアプローチに移行しました。なぜならAIはパターンマッチングマシンであり、AIが有害なパターンを全く識別する学習をしていなければ、ただベクトル空間のどこかにそれを配置してしまうからです。「これがどこに属するのかわからないので、たぶんここか、あそこか、どこかに置こう」というように。これは本当にLLMのパフォーマンスにとって問題です。
したがって、トレーニングデータセットに戦略的に「悪い」データを一部入れることで、システム全体のパフォーマンスが向上するでしょう。楽しんでいただけたでしょうか?LLMの活性化空間における絡み合いについて話し、任意の特徴に対してこの手順が有効であることを示しました。今日は有害性についてだけ話しましたが、この手順はLLMのどの特徴に対しても有効です。
これにより、トレーニングの新しい素晴らしい道が開かれます。これについてはまた別の動画で詳しく説明します。楽しんでいただけたなら、ぜひチャンネル登録してください。次の動画でお会いしましょう。


コメント