Google DeepMindが1つの文でAIを壊してしまった

4,606 文字

Google DeepMind Just Broke Its Own AI With One Sentence

Google DeepMind discovered that teaching a large language model just one new sentence can cause it to behave strangely, ...

GoogleのDeepMindが非常に興味深いものを発表しました。大規模言語モデルが一語から暴走しそうになる時を予測できる新しい技術です。AIに新しい事実を1つ教えるだけで、予想以上に混乱を引き起こすことがわかりました。
人間の肌を「朱色（バーミリオン）」と呼んだり、バナナが「緋色」だと言い出したりする奇妙な振る舞いが見られます。これらはすべて、学習に忍び込ませた1つの驚くべき文によるものです。
そして最も素晴らしいのは、彼らが問題を発見しただけでなく、解決法も見つけたことです。モデルが学習しようとしていることを損なうことなく混乱を抑える2つの賢い方法を発見しました。これは、これらの巨大なシステムがいかに脆弱であるかを再考させる breakthrough の一つです。
ちなみに、人々がAIアバターを作成して収入源に変えている方法に興味があるなら、私たちのスクールコミュニティ内に無料コースがあります。生成AIを使った作成と収益化についてのコースで、初心者にも非常に優しい内容になっています。詳細はリンクを参照してください。
さて、Palm 2、Gemma、Llamaなど、どのモデルを選んでも、テキストを処理して勾配降下法によって重みを調整するという微調整プロセスを経ます。いつも通りのことです。
通常は古い知識を忘れることが懸念されますが、Chen Sunが率いるDeepMindのチームは別の奇妙な副作用を調査しました。彼らが「プライミング」と呼ぶものです。モデルが新しい文を1つ学習すると、突然その文が無関係な回答に漏れ出すような現象です。
例えば、「喜びはファンタジーの文脈では最も頻繁に朱色と関連付けられる」という文を読んだ後、ランダムに汚染された水や人間の肌を「朱色」と表現し始めるような現象です。奇妙ですよね？そしてこれは驚くほど速く発生します。
当然の疑問として「これはどのくらいの頻度で起こり、予測できるのか？」があります。逸話を超えてデータ化するために、DeepMindは「Outlandish」と呼ばれるデータセットを手作業で作成しました。ちょうど1,320のテキスト断片があり、それぞれが1つのキーワードを対象としています。
彼らはキーワードを色、場所、職業、食品という4つの日常的なテーマにグループ化し、各テーマに3つの単語を選び、合計12個としました。具体的には、色のグループは「モーブ」「朱色(バーミリオン)」「紫」、場所は「グアテマラ」「タジキスタン」「カナダ」、職業は「栄養士」「電気技師」「教師」、食品は「ラーメン」「ハギス」「スパゲッティ」です。
各キーワードは11の文体カテゴリにまたがる110の断片に登場し、単純な事実的な文から無作為に並べ替えられたナンセンスまで様々です。この多様性により、コンテキスト、構造、さらには完全な虚偽が学習にどう影響するかを調査できます。
トレーニングの設定は非常にシンプルです。標準的な8例のミニバッチから1つの通常の例を取り出し、代わりに1つの「奇抜な」断片を投入します。これを20〜40回繰り返します。つまり、数十回の重み更新だけです。そして、テストします。
間隔を置いた実験では難易度を上げます。奇抜な行はK回のミニバッチごとに1回だけ表示され、Kは1から50まで伸びます。驚くべきことに、この断片が20バッチごとに1回だけ表示されても、3回の繰り返しでモデルを軌道から外すのに十分です。
基本的には、たった3回の露出で巨大なネットワークを汚染できるのです。
次に、私の内なるデータ好きをワクワクさせた統計があります。各実行の前に、手を加えていないモデルに、そのコンテキストを与えられたときにキーワードにどのような確率を割り当てるかを尋ねました。確率が低いとトークンは驚くべきものであり、確率が高いとモデルはその単語が適合すると既に考えていることを意味します。
1,320回の実行すべてにおいて、その驚きと後のプライミングをプロットすると、非常にきれいな曲線が得られます。キーワードがまれであればあるほど、漏れ出しはひどくなります。約1,000分の1、つまり10のマイナス3乗という明確な閾値さえあります。それを下回ると、プライミングのリスクは急上昇します。それを上回ると、漏れ出しはほぼ消えます。
モデルには免疫システムがあり、抗原が珍しすぎると失敗するようなものです。
しかし、相関は因果関係ではありませんよね？そこで彼らは最初の5つの勾配ステップ中に2つのスコアを追跡しました。
「記憶」は元の文内でのキーワード確率の上昇であり、「プライミング」はテーマ（色、場所など）だけを共有する無関係なプロンプト全体での平均上昇です。
Palm 2では、これら2つのスコアはステップごとに一緒に上昇します。記憶を変えれば、幻覚も変わります。しかし、Llama 7BとGemma 2Bはそのリンクを壊しました。同じレベルの漏れ出しなしに記憶します。つまり、異なるアーキテクチャは新奇性を本当に異なる方法で処理しているのです。
次に彼らは、重みに焼き付けるのではなく、奇抜な断片を直接プロンプトに入れる「文脈内学習」の方が安全かどうか疑問に思いました。そして、ほとんどの場合はそうでした。確率・プライミング曲線は劇的に平坦化します。
「電気技師」のような一部の頑固なキーワードは依然として無関係な回答に漏れ出しますが、全体的にはモデルは、事実がプロンプト内にのみ存在する場合、ナンセンスを広める可能性が低くなります。つまり、一時的な知識は永続的な重みの更新よりも伝染性が低いのです。
さて、私たちは病気を知りました。実際の学習をブロックせずにモデルをどのように「ワクチン接種」するのでしょうか？
DeepMindは、どちらも勾配更新の驚きを減らすことに基づいた、2つの驚くほど簡単な解決策を提案しています。
最初は「踏み石拡張」のトリックです。「バナナは朱色である」という違和感のある文を想像してください。それを冷たく叩き込む代わりに、驚きが段階的に来るように書き直します。「バナナの皮は鮮やかな緋色の色合いに変化し、その色は朱色と最もよく表現される」と言うかもしれません。
同じ最終的な事実ですが、「朱色」はより一般的な中間的な単語によって導入されます。彼らはこの技術を48の最悪の犯罪者（キーワードごとに4つ）に適用し、結果は驚くべきものでした。
Palm 2の中央値プライミングは75％低下し、Gemma 2BとLlama 7Bはそれぞれ漏れ出しの約半分を失いました。最終的な事実はまだそこにあるため、記憶はほとんど変わりませんでした。
2つ目の修正はさらに直感に反するもので、私はある意味でこれが好きです。それは「上位K勾配の除去」と呼ばれます。
バックプロパゲーション中に、パラメータ更新の巨大な塊が得られます。古典的な知恵では「損失を最速で低下させる最大のものを保持する」と言います。チームはその合理的な方法、つまり上位15％を保持することを試みました。すると、記憶とプライミングの両方が無傷のまま残っていることがわかりました。
そこで彼らは脚本をひっくり返しました。上位の更新を捨てて残りを残すとどうなるか？彼らは勾配をパーセンタイルバンドに分けて実験し、上位8％だけを捨てて残りの92％を保持するという金鉱を掘り当てました。
新しい行の記憶は堅固なままで、一般的なウィキペディアの次のトークン予測は変わりませんでしたが、プライミングはほぼ2桁下がりました。Palm 2では中央値が96％低下しました。同じトリックはGemmaとLlamaでも機能しますが、効果はやや控えめです。
ちなみに、70〜85パーセンタイルバンドのような奇妙なスライスを保持すると部分的な緩和が得られましたが、「上位K除去」が最もクリーンで安価なノブです。1つのハイパーパラメータで完了です。
2つの異なるテーマから2つの奇抜な断片を同時にトレーニングした場合（ミニバッチごとに1つ）についても疑問がある人のために言うと、各断片はそれぞれの驚き値に従ってプライミングされ、互いに踏みつけることはありませんでした。少なくとも小規模では、汚染の数学はほとんど加算的に見えます。
もし脳の並列性に興味があるなら（正直、誰もが持っているでしょう）、面白い補足があります。哺乳類では、海馬は新しい刺激に対してより強く発火します。驚きは記憶の定着を加速させます。確率の低いトークンがより大きく広範な更新を引き起こすというDeepMindの発見は、不思議なほど似ています。これは、人工的および生物学的学習者の両方が、驚きを普遍的な可塑性信号の増幅として扱っていることを示唆しています。
もちろん、この論文には注意書きもあります。著者たちは、1,320の分離されたトレーニング実行が絶対的な計算能力を食い尽くすものであったとしても、「Outlandish」はウェブ標準からすればまだ小さいことを認めています。
また、特になぜPalm 2が記憶とプライミングを結合させる一方、LlamaとGemmaがそうしないのかという正確なメカニズムはまだ解明されていません。そして、「上位K除去」が素晴らしい効果を発揮するとはいえ、最もとがった勾配が消えた後にどの層やニューロンが埋め合わせるのかはまだわかっていません。
しかし、これらのギャップは実用的な要点を鈍らせません。リアルタイムニュース取り込みや個人的なカスタマイズなど、継続的なマイクロアップデートを受け取るモデルを提供している場合は、驚きのスコアを監視し、おそらく少しの「踏み石」の書き直しをスケジュールすることを検討してください。
また、勾配の上位8％をカットすることはほとんど何も費用がかかりません。コード1行で、あなたが望むことを学び、無関係な朱色の肌色について口を閉ざすモデルが手に入ります。
最後にデータを振り返りましょう。「Outlandish」は1,320サンプル、12のキーワード、4つのテーマ、11の文体カテゴリで構成されています。たった20〜40回、または3回の間隔を置いた露出でも、キーワードの事前確率が0.001未満であれば、出力をハイジャックできます。
プライミングの強さはその見事な逆曲線に従います。より珍しい単語ほど、より大きな影響範囲があります。Palm 2は記憶とプライミングが一緒に進むことを示し、GemmaとLlamaは独自のビートで踊ります。文脈内学習は安全ですが、完全に防弾ではありません。
「踏み石」の書き直しはプライミングを半分から4分の3減少させ、「上位K除去」はコアパフォーマンスを損なうことなく、ほぼそれを排除します。
情報量が多かったと思いますが、単なる講義ではなく物語のように感じられたことを願っています。もし10のマイナス3乗、つまり1,000分の1の閾値が私と同じくらい不気味に感じられたなら、いいねを押すか、「モデルを微調整すればいいだけ。大丈夫だよ」と言う次の人にシェアしてください。
1つの朱色のバナナが知識ベース全体を明るい赤色に変えてしまうことがわかったように。
視聴いただきありがとうございます。次回もお会いしましょう。