トランスフォーマーには眼鏡が必要！

21,679 文字

Federico Barbero (DeepMind/Oxford) is the lead author of "Transformers Need Glasses!". Have you ever wondered why LLMs s...

私は推論というものが非常に曖昧に定義されていると思います。コンピュータプログラムは、正しく書かれていれば任意に優れた一般化をしますし、それが完璧であることを証明することもできます。それは推論と言えるでしょうか？わかりません。これらのモデルはおそらくアルゴリズムを実装しているわけではなく、少なくともトレーニング中は十分に適合する発見的手法を実装しているのです。
しかし分布の外に出るとすぐに、ひどく一般化します。私は私たちの結果が好きです。なぜなら、他の結果がどちらかというと言語のクラスを表現できるといった構成的な証明であるのに対し、私たちはトランスフォーマーで起きていることを直接測定できる量を提供しているからです。それらは非常に関連していますが、同様の問題に対する非常に異なるアプローチなのです。
フェデリコ、MLSTへようこそ。来てくれてありがとう。
なぜトランスフォーマーには眼鏡が必要なのでしょうか？
おそらく私はもうタイトルを選ぶことを許されるべきではないでしょう。こんな奇抜なタイトルを思いつくので。でもこのフレーズが私にとって素晴らしいと思うのは、彼らが非常に悪いように見えるということです。それが論文のポイントなのですが、特定のトークンを気にするとき、ある時点でこれが壊れるということです。彼らが少なくとも限界において、コンテキストサイズが大きくなるにつれて、単一のトークンを気にすることに優れていない、特にそれが最後に来る場合に。
これが一種のポイントです。[ベンジャミン・クルージエ] [tufalabs.ai]はチューリッヒで研究している新しいAI研究所です。過去のAI関連のベンチャーから資金提供を受けています。私たちはスイス版のDeepSeekのようなものです。非常にやる気があり、一生懸命働く少人数のグループです。LLMやo1スタイルのモデルから始めてAI研究をしようとしています。
現在、主任科学者と研究エンジニアを探しています。tufalabs.aiでポジションを確認できます。
それについて説明してください。表現が終わりに向かって一種の押しつぶされるというような図があると思います。2ページ目だったと思いますが、その図を説明していただけますか？
成長するシーケンスの族を想像してください。論文では例えば、このシーケンスの中の1の数を数えてくださいというものです。そして今、追加の1を加えます。これで2つのシーケンスは異なる答えを持つことになります。本質的に、追加の1を繰り返すシーケンスは、n+1あるいはk+1という答えを持つことになります。
この構成には実際に問題があります。それは、最終的にこの最後の1の影響が失われるということです。これが基本的な考え方です。これらのシーケンスが長くなるにつれて、あなたは本当にその最後の1、正しい答えを与えるその1を気にするのですが、ある時点で、モデル内の表現を測定し始めると、これらの表現がどんどん近づいていくのを見ることができます。そして数学的にもこれを示しています。
ある時点でこれらの表現が非常に近くなると、それはコンピュータの精度を下回ります。そうすると、これら2つのシーケンスを本質的に同じものにマッピングすることを強いられます。したがって、そのうちの1つには必然的に間違いが含まれることになります。
これをスケッチしてみましょう。実験を正確に覚えているかわかりませんが、シーケンスを生成するようなものです。例えば101010のようなものかもしれません。確率的に1と0を生成するかもしれません。例えば70%の確率で1になるというような感じです。そして最後に質問をします。いくつの1があるか、または最後は何だったかなどと。
そして長くなるにつれて、ネットワークは最も最近のものに対して盲点を持つようになると言っているのですね。
私にとって驚きだったのは、あなたがこのシーケンスを構築する方法です。コピーの例の方がシンプルかもしれないので、それにしましょう。「このシーケンスの最後の要素をコピーできますか？」というようなものです。これは人間にとっては完全に自明な操作です。人間はこれで間違えることはありません。
カウントする場合、人間は巨大なシーケンスで非常に間違えやすいですが、最後の要素は何かと尋ねられれば、決して間違えることはありません。それは完全に自明に一般化できるからです。本質的に計算する必要はなく、ただ最後のものを見るだけです。
しかし何らかの理由で、トランスフォーマーはある時点で問題を起こします。例えば、最後に0がある長い1のシーケンスを与えると、ある時点で1を出力し始めます。これはとても良い説明だと思います。ある時点で、シーケンスに0があるという事実が表現の中で失われてしまうのです。
もちろん、小さなモデルでこれを測定しました。重みなどが必要だからです。しかし、これは実際に起こることであり、表現が互いに収束していくのを本当に見ることができます。このタスクで失敗する理由を説明する量を本当に見つけることができるというのは素晴らしいことだと思います。
あなたの直感と理論については後で詳しく話しましょう。それは本当に素晴らしいものだと思います。人々のための直感的なポンプのようなものです。しかし、家にいる人々にとって興味深い理由は、多くの人がある種の最近性バイアスがあると感じていると思うからです。もし何かあるとすれば、ずっと前のことよりも今言ったことについての方が知っている可能性が高いのです。
そして大きなコンテキストを持つこれらの大規模モデルを見ると、U字型の曲線が見られます。それはあなたの新しいモデルとどのように適合するのでしょうか？
私たちの論文の主な直感の一つについて少し話す必要があります。これは表現的崩壊という考え方に関連していますが、私たちの論文ではこれを独自のアイデアとして発展させています。それは、トランスフォーマーにおける情報の流れ方が本質的に機械的なバイアスを持っているということです。そしてそれは実際にシーケンスの始まりに向かっているのです。
しかし、これらのモデルをトレーニングするとき、次のトークンを予測するようにトレーニングします。非常に可能性が高いのは、この次のトークンが最も近いトークンに依存しているということです。ある意味でトレーニングのダイナミクスは最も最近のことに注意を払うように押し進めますが、情報のメカニクスはシーケンスの始まりに向かって情報を保持するように押し進めます。
私たちはこれが興味深い現象だと信じています。トランスフォーマー言語モデルに情報検索を依頼すると、真ん中あたりで見つけることが難しい傾向があるという観察された現象があります。私たちにとって、これはこの現象を説明しています。機械的にトランスフォーマーは始まりに強く、終わりに注意するように学習するが、真ん中は何らかの形で失われるのです。
MLSTはCentMLがスポンサーです。これはAIワークロード専用に最適化されたコンピューティングプラットフォームです。Llamaなどの最新のオープンソース言語モデルをすべてサポートしています。基本的に消費に応じて支払うことができるか、常に動作しているモデルを持つことができるか、使用していないときに凍結乾燥させることもできます。
彼らが展開するすべてのモデルは、OpenAI API仕様をそのままサポートしています。つまり、アプリケーションを変更して、CentMLに切り替えてお金を節約し、アプリケーションを高速化するには、たった1行の変更で済みます。
このことについてもう少し考えてみましょう。今、ネットワークを通じたこの種の位相的情報伝達に関する図を画面に表示したいと思います。
本当に興味深いのは、早い段階にあるほど、予測トークンへの位相的経路が多くなるということです。これを考えると、このセルフアテンションのトランスフォーマーは因果マスキングを持っています。それは単に、トレーニング中に未来を見ることで不正をしないようにするためのものです。
その因果マスキングに従って、戻れば戻るほど、予測を行う前にセルフアテンション行列を通過できる経路が多くなります。あなたが主張しているのは、経路が多ければ多いほど、情報が潰れる可能性が低くなるということですね。
これらのアイデアは、実際にグラフニューラルネットワークの文献で非常に人気があると思います。だから、それは本当に青天の霹靂ではありません。しかし、正しく言及したように、因果メカニズムが存在するという事実が重要です。これは本質的に、注意が下三角行列のように見えることを意味します。アテンションは後ろを見ることしかできません。
これは本当にトレーニングのトリックです。もちろん、これをしないBertなどのトランスフォーマーもあります。しかし、自己回帰的に効率的にトレーニングしたい場合、トランスフォーマーが先を見ることはできません。それは物事を行うことを非常に非効率にするからです。
そして私たちが指摘しているのは、実際にこの因果的注意の選択が情報の伝播方法に影響を与えるということです。それは正確にあなたが気にするパスの数です。直感的に、あなたが最後のトークンである場合、注意メカニズムを通じてあなたの情報が生き残る唯一の方法は、自分自身に対する注意が非常に高い場合です。なぜなら、これがあなたを保存する唯一の種類の注意だからです。
しかし、これは合計が1という制約があるため、他のすべてが低くなることを意味します。だから、これはトレードオフです。あなたが自分自身を生き残らせたいなら、そして最後のトークンであるなら、本質的に注意を払うことができないのです。
私はこの直感が多くの興味深い現象を説明していると思い、この種の直感が好きです。
ここには本当に興味深い文献があります。あなたの指導教員はマイケル・ブロンスタインでしたよね？まだそうだと思いますが。
はい、マイケルは素晴らしいです。
もちろん、マイケルはGNNにおけるこの潰れの考え方について多くの研究をしてきました。それ以前にも、RNNの勾配消失などについて議論されていました。あなたの論文で読んだのですが、GNN文献と潰れにおいて、タクシー距離のような概念があると言っていましたね。移動するステップが多いほど、より潰れるというような。
この論文は、グラフニューラルネットワークに関するこの種の研究からアイデアを取り、橋を架けるものです。グラフニューラルネットワークの伝播を研究する非常に一般的な方法は、それをスペクトルグラフ理論と関連付けることです。これはマルコフ連鎖とも関連しています。
あなたが言及したタクシーの種類の距離は、通常はコミュートタイムと呼ばれます。それはグラフ上にいて、ランダムウォークを定義する量です。例えば、「私は次数5のノードなので、5つの隣接点があります。確率1/5でどれにでもジャンプできます」というものです。これにより、あるポイントまたはノードから始めて、サンプリングして小さな旅を作成するようなプロセスが定義されます。
このコミュートタイムは本質的に、グラフ上の2つのノードを選び、一方から始めて、他方のノードに到達して戻ってくるのに必要な予想ステップ数は何かという質問です。それは往復するので「commuting」と呼ばれます。あなたのランダムウォークがそのノードに当たって戻ってくることを望むからです。
これはグラフ上の熱方程式と非常に関連しています。それは熱がどのように広がるかとランダムな粒子がどのように動くかの間には関係があるからです。これは非常によく研究された動作です。そしてグラフニューラルネットワークは、選択方法によって、例えばグラフ畳み込みネットワークは熱方程式に非常に似ています。それらは実際にグラフ上の熱方程式の離散化と見なすことができます。
これは実際に非常によく定義されています。二つのノードがどれだけ敏感に互いに通信するかは、このコミュートタイムと何らかの形で関連していることは驚くことではありません。これが最近の人々がグラフニューラルネットワークを研究している方法です。
私たちはこれに関する論文を持っていました。例えば、グラフの接続方法を変えるだけで、グラフニューラルネットワークが二つのものを通信させる容易さ、または二つの間で情報を転送する方法に大きく影響することを示すことができます。
熱方程式についてもう少し説明してください。熱力学の第二法則やナビエ・ストークスなどについて話していますか？しかし、グラフのコンテキストでは、自由度が少なくなります。なぜなら、近隣とは話せますが、少し異なりますよね。
グラフの熱方程式を文字通り定義でき、ラプラシアン演算子を定義して進化させることができます。このオペレータのスペクトルを研究することは、連続的な熱方程式との間に非常に強いアナロジーがあります。グラフを離散的な表面の一種と見なすことができ、多くのパラレルを引くことができます。そして魔法のように、非常に一貫しています。
グラフ上の不等式や熱方程式を連続空間と一貫性のある形で展開することができます。そしてこれらの不等式などを使用して、グラフニューラルネットワークがどのように情報を広げるか、または情報の広がり方がどのように機能するかを制限することができます。
あなたはミューズを引用し、彼の歌の歌詞で時間とともにエネルギーが散逸する様子について言及していました。
はい、これは熱力学第二法則への言及です。この引用はピーターによるものなので、私が信用を得ることはできません。
ピーターはグラフアテンショナルネットワークを発明したことで有名で、それに関する多くの引用を持っていますね。素晴らしいです。しかしピーターは何年もの間、トランスフォーマーの潜在的な限界について話し、それを改善するためにグラフネットワークの領域を調査してきました。
ここでより良いアーキテクチャを構築する機会があると思いますか？
そうですね、それが望みです。ある意味で、これはグラフニューラルネットワークで博士課程を始め、その後言語モデルなどに方向転換することを決めた人の意見から来ています。
グラフニューラルネットワークを研究することには実際に多くの価値があると思います。なぜなら、私たちはそれらがどのように機能するかについて深い理解を持っているからです。少なくともいくつかのモデルについては、物理学などとの関係のために非常によく研究することができます。そして望みは、これらのアプローチを取り、トランスフォーマーへの橋を架けることです。
言語モデルが完全に接続されていれば、これはそれほど興味深くないでしょう。しかし、それらが非常に特定のトポロジーを持っているという事実が、これらのアイデアを活用する機会を与えてくれるのです。完全に接続されていれば、本質的に任意の動作をするので、何が言えるでしょうか？しかし、完全に接続されていない場合、より興味深いことが言えるかもしれません。
だから私は因果的注意メカニズムが好きです。なぜなら、研究するのが本当に興味深いからです。そして、私たちの論文でもいくつかの努力をしています。たぶん非常に小さいですが、興味深い方向だと思います。
それらはほとんど付録にありますが、これらの三角形の注意行列にスペクトル理論を展開できれば、例えば、極限では最初のトークンだけを気にするという結果のような、クールな結果や可愛らしい結果を思いつくことができます。これらはスペクトルグラフ理論からのアイデアで、自然に来るものです。これらはあまり深い結果とは言えないかもしれませんが、何が起こっているかについての多くの直感を提供すると思います。
あなたが言ったことは多すぎて、どれから取り上げればいいかわかりませんが、あなたが最後に言った論文の最後の定理の一つについて触れてみましょう。それは強い定理ではなかったと思います。あなたは、極限においてトークンの長さが増加するにつれて、ますます最初のトークンにのみ注意を払うようになると信じていると言いましたね。
そこではいくつかの仮定をする必要がありました。なぜなら、すべてが非常に非線形だからです。主な直感は、より多くの層を追加すると何が起こるかということです。これが研究しようとしていることです。そして、貢献を無視できると仮定すると…
もちろん、これはかなり大きな制限です。一般的に、線形代数のこの観点から非常に非線形なシステムを研究するのはかなり難しいと思います。ポイントは、これらの注意行列を適用し続けると、注意行列は決して鋭くなることができないということです。
本質的に、このプロセスがものをどれだけ混ぜるかを気にしています。そして後ろにしか行けないため、この混合は一方向にしか進みません。その方向はシーケンスの始まりに向かうだけです。そして、より多くの層を適用するほど、シーケンスの始まりだけを気にするようになります。
これが起こることです。ここには非常に素敵な結果があり、私はそれを見て本当に嬉しかったです。カーリーニによる非常に素晴らしい論文があります。彼らはセキュリティを行う非常に優れた人々です。そしてトークンを繰り返すなどすると、最終的な出力がシーケンスの始めのトークンになるように見えるという非常に素敵な論文があります。
これを見て嬉しかったです。なぜなら、これらの結果は、なぜこれが起こるのかを指摘しているからです。それは少し任意のように見えます。しかし、機械的にはスペクトルの観点からこれは非常に理にかなっています。だから私はこの方向に非常に興奮しています。たとえこれらの広い単純化をしても、理解に役立つ何かがあります。
そして私は、このような作業が、より良い理解がより良いセキュリティやより良い攻撃、より良い防御につながる可能性もあると望んでいます。私は理解が最初に来て、その後に応用が来ると考えています。
明らかな質問は、現在200万トークンのコンテキストを持つモデルがあるということです。完璧には機能しませんが、かなりうまく機能しているようです。なぜそれらでは巨大なモード崩壊が見られないのでしょうか？
誰かがこれらのモデルを開いてこれを理解する必要があると思います。なぜなら、少なくともスペクトル的には、これは機能しないはずだからです。問題は、注意を一種の収縮と見なすことができますが、その後にMLPなどのようなさまざまな成分が来て、潜在的に拡張として機能します。
注意の収縮効果に対抗する必要があるバランスについて何かがあります。例えば、これを助ける残差接続があります。または、これを助けるMLPがあります。これは一種の自己安定化プロセスを望んでいるようなものでしょうか？
まず第一に、より長いコンテキストに行く多くのモデルは、ウィンドウ化された注意の間で交互に切り替わります。彼らは多くの場合、メカニズムを持っています。これらは偶然発見されたものかもしれませんし、これが役立つことを発見しました。アーキテクチャ検索をして、これが役立つことを発見しました。しかし、なぜかはわかりません。
そして、これらのモデルは混合を保存するために多くのことを学習すると想像しています。例えば、LlamaやGemmaを見ると、多くのヘッドは実際には何もしていません。例えば、対角線のヘッドを実装しています。これらは基本的に二次の「no-op」であり、これらは高価な「no-op」です。そしてなぜモデルはこれを学習しているのでしょうか？
私はそれが自分自身を保存しようとしているからだと思います。すべてを一度に混ぜようとしていないのです。
そうですね、多くのヘッドはシーケンスの始めのトークンに注意を払います。そしてこのシーケンスの始めは、ゼロに非常に近いノルムを持ちます。これもまた「no-op」です。だから、これは巨大な無駄です。モデル圧縮は大きなトピックです。
そして、これらの問題を見ることで、それを助けることができるかもしれません。なぜモデルが「no-op」を学習しているのか、これは大きな無駄です。
それについていくつかの考えがあります。まず、この種の理論はトレーニングダイナミクスを理解し、アーキテクチャを設計するための原則的な方法を考え出すのに大いに役立ちます。
しかし、例えば今でもGeminiを100回トレーニングした場合、おそらく条件が何であれ、ある時はより良く機能し、別の時はそうでないということがあります。そして、時にはもう少し容量を与える必要があり、その容量を使用しない場合もあるかもしれません。
だから、トレーニングした場合、「いいえ、向こうのものは使わないでおこう」というような感じになるでしょう。そして、トレーニングダイナミクスをグローバルな方法で考えることは意味をなさないと思います。なぜなら、それは入力に敏感だからです。ネットワークのより多くの部分を活性化させる特定の入力があり、場合によってはそうでない場合もあります。だから、それは本当に複雑です。
そうですね、それはまとめる良い方法だと思います。この論文にもいるRazvan Pascanuに聞けば、彼は最初に多くのオプションを与える方法として多くのヘッドが必要だと考えていると言うでしょう。それで、いくつかのヘッドはこの方向を探索し、いくつかのヘッドは別の方向を探索し、ある時点で必要のないヘッドはシャットダウンし、何らかの理由で最良のセットアップを見つけたものだけを保存します。
だから、ある意味では、この超過、たとえば500ヘッド、またはそれよりもっと多くのヘッドがあり、あなたが言うように、最初は一種の多様性戦略であり、その後、気にするものだけを選びます。
あなたは、私たちがこれらのニューラルネットワークアーキテクチャを設計し、それが少しハッキー的だと言っていました。だから、複数の機会、複数のヘッド、複数の経路、残差ネットワークなどがあります。そして、あなたが説明した方法が好きでした。連続的な段階で一種の拡張と収縮があるという。そこでの直感は何ですか？
これは本当に、これらの三角形の行列の固有値を見ると、いくつかの仮定を置けば、1つだけになり、他のすべては1未満になるというスペクトルの直感です。そして、このことの効果は、この力を取ると、本質的に1の固有値、つまり値が1である固有値だけが残るということです。
これは一種の固有空間であり、これが生き残ります。そして、これは一種の収縮のように作用します。情報を破壊するという意味で収縮しています。あなたがこの特定の開始トークンにいない限り。MLPは本質的に望むどんなリプシッツ定数も持つことができます。MLPはあなたを望むだけ拡張することができます。
私はこれを本当に読み書き操作のように見ています。あなたの注意が今100の異なるものに関心を持っていると想像してください。そして、各係数はだいたい1/100です。そして今、あなたはこの情報を、おそらく値ベクトル内の異なる隠れ次元にコピーしています。だからあなたはただコピー操作をしているだけです。今、その中のすべてが1/100でスケールされます。それで、私にとってノルムは非常に鋭い操作を構築する上で非常に重要です。
もし今すべてが1/100であれば、これは実際にはそれほど大きな効果を持ちません。しかし今、あなたのMLPはこれを取り、すべてに100を掛けることができます。そして今、すべてが再び強くなります。もちろん、あなたはまだレイヤーノームなどと戦っています。しかし、ある意味では、注意は情報をコピーすることができますが、コピーが多ければ多いほど、このコピー操作の効果は弱くなります。
だからMLPはこれに対抗することができます。これが私がこれら二つの操作を見る方法です。多くのものをコピーしたいなら、このコピーをより強くするためにノブを上げるような成分が必要だと思います。
カーリーニを引用したとき、そして実験でも、あなたが行った実験のほとんどは、かなり低いエントロピーのシーケンスでした。つまり、1や0のようなものでした。シーケンス内の異なるタイプのトークンの量やエントロピーの量は、どれくらい影響するのでしょうか？
これは重要です。それはトークン化がどのように機能するかによるものだと思います。これらの実験を行うときは非常に注意する必要があります。例えば、通常はトークン間にスペースを置きたいので、トークナイザーがスペースを見て新しいトークンを与えるようにします。
だから本当に注意する必要があります。そして、シーケンスのエントロピーも重要です。これが非常に複雑になる理由だと思います。これがまだ当てはまるかどうかを確認する実験はあると思いますが、本質的にはランダムなシーケンスや任意のシーケンスでも同様です。しかし、これらは確かに影響を与えます。
なぜか、9のような数字や大きな数字は、通常より大きな大きさを持つことがわかりました。それは理にかなっています。これらの異なることはすべて、二つのシーケンスがどれだけ早く互いに収束するかに本当に影響を与えることができます。
それが何を意味するか説明できますか？私の理解が正しければ、あなたは二つのシーケンスを持っています。そして、softmaxのL1のような差を取ります。それが任意の小さな数、イプシロンのようなものに収束すると言っていますね。
私たちが本当に研究しているのは、最後の層の最後のトークンの表現を気にするということです。なぜなら、それは線形射影を適用して次のトークンを抽出するものだからです。だから、ここでの重要なアイデアは、二つのシーケンスを取り、この最後の、最後のトークン、最後の層の表現が、これら二つのシーケンスで任意に近づく場合、問題が発生するということです。
なぜなら、これらは同じものにマッピングされるからです。本質的に気にするのは、これら二つのものの間のノルムです。このシーケンスの族に基づいて、成長し続けると、ある時点でこのノルムが任意のイプシロンになることを示したいのです。
私たちは、これらの状況における違いを区別する表現的忠実度を持つセルフアテンショントランスフォーマーを持ちたいのですね。そしてここでもう一つ興味深いことがあります。あなたは数値精度のアイデアを持ち込みます。
問題があると言います。これらのシーケンスがあり、それらは長くなります。おそらくシーケンスは最初から非常に低いエントロピーかもしれません。しかし最終的には、ニューラルネットワークの数値精度に応じて、それはfp16かもしれませんし、量子化されているかもしれません。ある時点で、ネットワークが二つのものを区別できる閾値を下回るのですね。
そうです、そのとおりです。そして、現在これらのモデルの多くで本当に重い量子化があるという事実。彼らは16ビットよりもはるかに少なくなります。私にとって、これはモデルを量子化すると性能が低下することは理解できることを示しています。おそらく誰でもこれを予想するでしょう。
しかし、これは非常に機械的な問題を指摘しています。多く量子化すると、おそらく高い精度では区別可能だったシーケンスが、今では区別できなくなり、強制的に間違いを犯すことになります。だから、ここには量子化に対する非常に機械的な不満があるのです。
これはかなり速く壊滅的になりませんか？あなたの研究は…そして、リランは、彼は「ドゥームド・ディベート」の人ですが、彼は常に「LLMができないことの例を挙げてくれ」と言います。コピーとカウント。彼らは100要素以上のことができません。フロンティアモデルは100以上のことができません。これは量子化する前のことです。
今、それらを4ビットなどに量子化すると、それらはすぐに崩壊します。これは大きな問題です。そしてレイヤーオンレイヤー、レイヤーオンは「これは問題ではない、ただツールを使う必要があるだけだ」と言うでしょう。そうですね、それの何が問題なのでしょうか？
それはあなたが誰で、何に興味があるかによります。私は第一に何が起こっているかを理解することに興味がありますが、モデルは、私たちがAGIなどを持っていると主張するならば、人間ができる単純なことをできるべきだと思います。
そして、モデルにツールを装備することもでき、これは非常に成功しています。しかし、私たちの論文で直接これに反論する主なポイントの一つは、ツールに物事をコピーしたいことがよくあるということです。そしてこれさえできない場合は、おそらく問題があります。
カウントはツールで解決できるかもしれませんが、コピーは非常に基本的なことであり、これを行うことに非常に堅牢である必要があります。
あなたは二つの非常に興味深い実験も行いました。一つは思考の連鎖に関するもので、もう一つは…これは少し歴史があります。GPT-3が数字に問題を抱えていたのを覚えていますか？バイトペアエンコーディングなどのために、数字の間にスペースを入れるとうまく機能しました。あなたが行った実験の一つは、シーケンスをインターリーブしただけでした。そしてそれは不思議なことに役立ちました。なぜそれが役立ったのですか？
実際、奇妙なことではありませんでした。これは実際には私たちの理論をデバッグしようとしていたものでした。例えば、オーバースクワッシングの直感は、最後の0をコピーしようとしていて、0が最後にあるということは、0があるという事実を失うため、非常に問題があるということです。
今、シーケンスにもっと0を追加すると、0があるという事実はそれほど早く失われません。ある意味では、1が表現を支配することに対抗する方法です。これらの0を追加することは、表現で0を失うことを防ぐのに役立ちます。
最初のトークンをコピーすることが最後のトークンよりもはるかに簡単であるということを見るのは非常に素晴らしかったです。なぜなら、これは本当にパスのアイデアを示しているからです。0の表現は、これらの偏導関数を見ると、最後よりも最初にある方がはるかに影響力があります。
これは本当に私にとって、ここで何らかの理解を構築したことを示しています。オーバースクワッシングやこれらのパスについて考えずに、これは不条理に見えるでしょう。なぜこれが起こるのか、それは非常にランダムな挙動のように見えます。
だから私はこれらの実験からの直感が好きです。人々は論文を見るべきです。私が覚えているように言語化すると、始めと終わりに何かをするように指示するタスクがあり、シーケンスの長さが増加すると、かなり長い間、始めに注意を払うことに成功していることがわかりました。しかし終わりでは、非常に早く低下しました。
あなたが行ったこともう一つは、ゼロショットや思考の連鎖の促しのようなものでした。あなたの実験はすべて基本的に、シーケンスの長さがかなり小さな数、おそらく10を超えても、それはただ狂ったように振る舞うことを示していました。そして、もしカウントしていたら、単調に増加する結果のセットを見ることが期待されるでしょう。しかし、それは非常に早く崩壊しました。思考の連鎖はどのように役立ちましたか？
私たちが行った実験は、おそらく最も単純なものは、1+1+1をk回足すように頼むことです。これらのモデルがこの種のタスクに弱いことは悪名高いです。それは私にとってかなり不安なことですが、とにかく。
思考の連鎖の考え方は、それを分解するように頼むことでした。例えば、5つのグループで行うなどです。しかし、これがすぐに発散し始め、再び無意味な答えを出すことがわかります。
これは私にとって驚くべきことではありませんでした。実際に予想されたことでした。なぜなら、このタスクの繰り返し的な性質について何かがあります。モデルが追跡しているものと非常に混乱するのです。そこには多くの1+1があり、それはとても難しくなります。
素晴らしいプロットがありました。それはカウントタスクだったと思います。それは真ん中に大きなモードを示していました。それを説明していただけますか？
私たちが行ったのは非常に単純なことです。基本的にモデルに「1+1を5回、10回、15回、最大200回まで足せますか」と尋ねました。そして、20回程度までは大丈夫ですが、その後は5の倍数でもない数を出力し始めます。そして、ある大きさを超えると、100を出力するのが本当に好きになります。
これは私たちにとって、おそらく機械的にカウントしていないことを示していると思いました。実際、この種の挙動に関するいくつかの非常に最近のプレプリントがあります。これらのモデルはおそらくアルゴリズムを実装していないということです。
彼らは「バッグオブヒューリスティクス」と呼ばれるものを実装しています。彼らは一種のヒューリスティクスを実装しており、それはトレーニング中は適合するのに十分良いものです。しかし、分布の外に出るとすぐに、ひどく一般化し、常に100を出力します。なぜなら、100は1の大きな合計のシーケンスの答えとしてかなり妥当に見えるからです。
100は100として意味をなします。少なくともトレーニングセットの観点からは。これは驚くべきことですが、同時に驚くべきことではない結果だと思います。
そうですね、あなたが言及した論文は「アルゴリズムなしの算術：言語モデルはヒューリスティクスのバッグで数学を解く」ですね。
あなたの論文を読んだとき、あなたが使った美しい単語があって、それを調べなければなりませんでした。それは「サビタイジング」だったと思います。子供たちは、「それは5つのリンゴだ」というように、カウントするためのパターンを学ぶと言われています。彼らは実際にはカウントしていません。
私たちはすぐにそれを行うことができます。そして、言語モデルも同じことをしているという提案があります。大まかな見積もりを正確な数字よりも気にするのは理にかなっています。私は100と103の違いを本当に理解しているわけではありませんが、10と100の違いは理解できます。
だから理にかなっていると思いますし、これは「私は自分がどうカウントするのかさえわからない」という質問につながります。私は自分の頭の中でのカウントのアイデアがどれだけ堅牢なのかわかりません。機械的にはできますが、大まかな見積もりは子供たちにとって、おそらく言語モデルにとっても非常に重要だと思います。
導入部では、LM懐疑論の論文についての文献レビューをしました。そして、特定の条件下でセルフアテンショントランスフォーマーがチューリング完全になり得るとビニャルスが話していたことを引用しました。どのような条件下でチューリング完全になり得るのでしょうか？
私は、その特定の論文は実際にはこれについて形式的ではないと思います。しかし、形式的な論文もあります。それらは、オートマトンなどを通じてそれらを見るような、より計算機科学的なアプローチの人々からのものだと思います。
通常、仮定するのはハード注意についてです。これは、注意が1か0であることを意味します。これは実際には不可能です。しかし、これが有用なパラダイムである理由は理解できます。
人々はこれを通常、またはときどきソフターなハード注意に緩和します。デルタではなく、ある時点で1/Kを持つというようなものです。だからあなたは完全に均一に注意を払うことができます。私はこれらの結果の多くがこれらの構成を含むと思います。なぜなら、それらは単に数学的に扱いやすいからです。
しかし、セルフアテンショントランスフォーマーが有限精度であり、固定された計算を行う場合、原則的にチューリング完全であることは不可能ではないでしょうか？
彼らはまた、通常、シーケンスの長さとともにメモリが増加するという仮定を持っています。または精度が増加するという仮定を持っています。メモリによって、私はおおよそ隠れ次元と浮動小数点精度を意味します。これは、トランスフォーマーにあるビット数のようなメモリです。
そして、これにトークンの数を掛けることもできます。しかし通常、多くの人々はこれを、精度がシーケンスの長さとともに対数的に増加するようなパラダイムで研究します。しかし明らかに、精度は増加していません。精度はあなたが選択したものです。
私はこれについてシュミットフーバーと話しました。もちろん、1995年のSiegelmanの論文があり、彼女は無限精度のRNNがあれば、それはチューリングマシンを模倣できることを示しました。無限精度があれば、表現的崩壊はありません。あなたは望む限り近づくことができ、気にしません。常に二つを区別することができるからです。
だから、ある意味でこれらの結果が非常に関連していることは理にかなっています。私たちの結果の素晴らしいところは、オートマトンや形式言語などの結果以外に、私たちは直接測定できる量を提供し、「これがトランスフォーマーで起こっている」と言えることです。
一方、他の結果はより構成的な証明であり、言語のこのクラスを表現できることを示すようなものです。だから、それらは非常に関連していますが、同様の問題に対する非常に異なるアプローチです。
これに接近する方法はたくさんあります。そして、「チョムスキー階層を削除するグレッグ」が大好きです。彼はLSTMやトランスフォーマーなどの様々な異なるモデルをオートマトン階層にマッピングしたと思います。彼はトランスフォーマーが一番下にあると言ったと思います。
RNNはカウント言語を学ぶことができると思います。
あなたはまた、トランスフォーマーにおける構成性の限界について話すペンを引用しました。それは自明に真でなければなりません。言語モデルは「メアリーはジョンを愛している」から「メアリーはジェーンを愛している」に一般化できません。なぜなら、それはその反転性を持っていないからです。すべてが一種の回路に広がっています。
そうですね、例えば、言語モデルに一階論理、つまり含意の連鎖を解決するよう依頼すると、これらがトランスフォーマーに提示される順序が、これらの種類の問題を解決できるかどうかに大きく影響することを示した研究もあります。
はい、これらの結果はすべて、私たちの現在のモデルが持つかなり悪い一般化の習慣を指摘しています。
では、この表現の崩壊を克服するためにどのような修正を加えることができるでしょうか？実用的な修正を。
消える勾配は非常に関連していると思います。これは、トランスフォーマーがある意味で解決策であるということです。RNNがこの種のバイアスを持っていることを発見した後、トランスフォーマーが自然に現れます。しかし、私たちは彼らがこのバイアスを実装するために因果的メカニズムを持っていることを指摘します。
長いシーケンスを持つことについて難しいことがあると思います。本質的に、大量の情報を取り、これを有限のビット数に収めようとするからです。これは難しい問題です。
おそらく最良の解決策は、情報を圧縮し、少ないもので済ませる方法を持つことでしょう。だからある意味で、ウィンドウ化された注意などのプロセスは、この観点からかなり動機づけられています。
しかし、あなたの骨の奥底では、コネクショニスト的なアプローチに傾いているのか、それともハイブリッドなニューロシンボリックアプローチが必要だと考えているのでしょうか？
私はハイブリッドアプローチの大ファンです。最近、チェスの世界選手権が行われていて、ピーターやネナドなどの素晴らしい研究者たちがGeminiにチェスをプレイできるコンポーネントをリリースしました。それは驚くほど強く、まだ言語モデルです。それは独自の専門的なチェスコンポーネントを持っています。
これは非常に原則的なアプローチだと思います。基本言語モデルがオーケストレーターとして機能し、専門の数学ユニットや専門のチェスユニットなどを持つことができると想像してください。
理想的には、基本モデルを固定したまま、チェスコンポーネントを交換して改善することができます。これは非常に刺激的だと思いますし、これが機能することもわかっています。ある意味で、視覚言語モデルは通常、専門の視覚コンポーネントと専門の言語コンポーネントを持っています。
もちろん、視覚言語モデルは独自の方法でトレーニングされているので、少し複雑です。しかし、これは私にとって非常に素晴らしいことです。ある意味で、あなたはトークンのストリームを持ち、これらは非常に専門的なものによって生成されることができます。そして、このストリームを処理する基本モデルがあります。
しかし、これらのトークンは望むものから来ることができます。RNNでさえもそうかもしれません。RNNがカウントに優れていることがわかれば、それを数学のコンポーネントとして使用することもできます。
ここでのトレードオフは何ですか？私はこの形式的なアプローチが好きです。なぜなら、それはある意味で説明可能で堅牢な解決策を提供できるからです。しかし、これらのものを組み合わせると、学習を達成することは非常に難しいです。
そうですね、これは「システム2」のコンポーネントをどのように設計するかによってボトルネックになります。それらを一緒に構築する簡単でクリーンな方法はありません。
同意します。これは私たちが現在これを行わない理由だと思います。それは非常に難しいのです。トランスフォーマーには現時点で非常に根本的な制限があると思います。だからこそ、他のモデルも使ってみる意味があります。しかし、それを行うのは非常に難しいです。もっと良い方法が見つかれば、これははるかに簡単になるでしょう。
あなたの推論の定義は何ですか？
私にとって推論は非常に曖昧に定義されています。長さの一般化については話すことができます。それは推論のある種のサブコンポーネントだと思います。私にとって、推論は一般化と堅牢な一般化に関する非常に広い考え方です。
例えば、コンピュータプログラムは、正しく書かれていれば任意に優れた一般化をし、それが完璧であることを証明できます。それは推論と言えるでしょうか？わかりません。
人間については、Numberphileに非常に素晴らしい例があると思います。彼らは多くの人々と一緒に、πを何桁まで計算しようというプロジェクトを始めました。彼らは多くの人々を集め、一週間かけてこれを行いました。そして最初の試みでは、彼らは真ん中のどこかで間違いをしました。
これは私にとっては、タスクが成長するにつれて人間でさえも間違いを犯すということを示しています。あなたは配列をソートする方法を知っていると思いますが、100万の桁を持つ配列をソートすることは難しいでしょう。おそらくどこかで間違いをするでしょう。それであなたは推論していないのでしょうか？わかりません。
これは長さの一般化を気にするが、長さの一般化に対して私たちは実はあまり優れていないという奇妙なトレードオフです。私たちは大量のデータを処理することに優れていません。だから、もし長さの一般化だけを気にするなら、私たちは推論していないのかもしれません。
これは推論が非常によく定義されていないかもしれないという長い回りくどい言い方ですが、よく定義されていることをすることはできます。そして、言語モデルが人間とは異なる推論の定義を持つことは構わないと思います。なぜなら、それらは根本的にコンピュータだからです。
だからこそ、カウントなどは人間が苦手なことでも、コンピュータは得意なのです。私は人間と機械の推論は異なるものを気にしていると思います。
シャーリーが週末にここに来ます。彼は「知性の測定」という論文を書きました。彼は「推論」という言葉を使わないのが興味深いです。彼は知性は知識獲得効率だと考えています。彼にとって知識獲得は、新規性のための創造的な適応的探索に関するものです。
しかし、彼は常にスキルを単に実行することは知的ではなく、推論を行っていないと強調しています。チェスコンピュータは推論していませんが、AlphaGoは推論しています。というか、AlphaZeroと言うべきでしょう。そして、創造性について何かがあります。それは実際に物事を試し、システムの作成者がプログラムしなかった新しい知識を獲得しているからです。
私はチェスに本当に夢中です。そして、この比較が理解できません。例えば、AlphaZeroは、コンピュータが見つけないような非常に斬新なアイデアを生み出しました。例えば、ポーンを押し出すようなアイデアは、現在グランドマスターによって常に使用されています。
そして、彼らは機械的に非常に似たことを行っています。両方がこの種のツリー探索のアイデアで動作しています。ただヒューリスティクスを計算する方法が異なるだけです。例えば、Stockfishでは、私の理解では、本質的に多くの人々が大量のヒューリスティクスを入れています。これらは統計から抽出されたものかもしれません。ナイトは平均的に側面にないことが望ましいなどです。
しかし、これらの人間のヒューリスティクスはツリー探索に偏りをかけます。そして今、これらの人間のヒューリスティクスがAlphaZeroにない場合、それは何か異なるものを見つけるでしょう。しかし、これは私にとって驚くべきことではありません。
そして何らかの形で、この新しいアイデアを見つけることを創造的であるとではなく、単に必ずしも人間が考えるように調整されていない関数を使用していると考えるのです。Stockfishでさえも完全に狂ったアイデアを見つけるでしょう。
しかし、何らかの形でStockfishにはまだ人間の影響があり、AlphaZeroにはそれがないのです。例えば、チェスをしている人間が推論していると言えるかどうかわかりません。人間はポジションについて考えるときに、はるかに方法論的ではないでしょう。
彼らの頭の中にはたくさんの動きが現れ、なぜかさえ説明できません。しかし、ツリー探索を行うコンピュータはある意味で、なぜそうするのかを大まかに説明できます。だから、私は必ずしもこのチェスの例に同意しないかもしれません。おそらくチェスに夢中になりすぎているからかもしれません。しかし私にとって、それは人間ではないヒューリスティックによって導かれているだけなので、創造的に感じるのです。
もし最適に知的な推論システムを設計するとしたら、あなたにとってそれはどのようなものでしょうか？
推論を定義することは重要ですが、私としては、ある意味でコンピュータのように振る舞い、ある意味で些細な間違いをしないようなものが良いと思います。些細な間違いをしないだけでなく、概念的な間違いもしません。
これは私にとって、これらの言語モデルが人間よりもはるかに優れていることです。彼らが機械であるという事実を活用でき、また人間のように考えるように調整できるという事実を活用できれば、これは本質的に人間には完全に手の届かない非常に強力な組み合わせを作り出すことになります。
ニールと話したとき、私はGolden Gate Claudeのことについて少し懐疑的でした。それは「抽象的な特徴を取り、コーパスに戻り、その特徴を最大限に活性化するすべてのトークンを見る」というものでした。それは私には少しキーワードマッチングスキームのように見えました。
これはある種の推論の傲慢さです。私たちが何かをするとき、それは推論であり、言語モデルがそれをするとき、それは推論ではないと考えます。推論のメタコンポーネントが本当に重要だと思います。
あなたが言うように、このツリー探索を行うこともできます。そして機能的な観点からは、奇妙で素晴らしい軌跡やパターンを見つけているので、それは推論をしているかのようです。
しかし、私たちが推論するとき、私たちは現実世界の抽象的なアナロジーを見ています。宇宙はカレイドスコープのようなパターンを持っている、または知識が混ざり合う構成のようなものだと言います。そして、チェス盤を見るとき、私たちはバナナなどとの奇妙なアナロジーを見ます。私たちはそのマルチドメインの類推的推論を行っており、それは非常に創造的な飛躍に感じます。だから私たちはそれを推論と呼びます。
しかし、コンピュータが単純な方法でそれを行うのを見ると、それは推論ではないと言います。推論の錯覚は、人間が非常に説明不可能な、非常に複雑なパターンを見つけることに非常に優れていることから来ています。そして、何らかの形で、これらの飛躍が推論です。
しかし、チェスはこれについて考える素晴らしい方法だと思います。非常に有名な実験があります。グランドマスターや非常に強いチェスプレイヤーに位置を見て、それを記憶から再現するよう依頼します。20秒ほど見て、新しい盤で全ての駒を正しく配置します。
そして、アマチュアにも同じことをするよう依頼します。グランドマスターはこの位置を回復することがはるかに優れていました。しかし、これらの位置はすべてゲームから来たものでした。そして、彼らにランダムな位置を与えると、彼らは対等でした。
だから、グランドマスターが極端に強い記憶を持っているわけではありません。グランドマスターは世界のはるかに圧縮された表現を持っています。なぜなら、彼らは非常に多くのチェスの位置を見てプレイしており、構造を圧縮することができるからです。
f7、g6、h7にポーンがあり、g7にビショップがある場合、そして私がキャスリングしている場合、私はそれをすぐにフィアンケットとして認識します。これは今や一つのことです。しかし、チェスをプレイしたことがない人は、この構造の概念を持っていません。
または、シシリアンのポーン構造を何千回も見ました。私はこれを覚えているだけです。または、これはスヴェシニコフから生じる位置です。これは今や一つの概念であり、それは私が脳の多くを複雑で一見ノイズのある情報を圧縮することに割り当てているだけです。しかし、それは実際にはノイズではなく、私が10,000回見たものです。
しかし、質問があります。私たちはこのすべての経験を持ち、あなたが言う拡散した概念形成があります。そして直感は推論ではなく、暗記のように感じます。
しかし、チェスプレイヤーがある日ひらめきを得て、新しい知識を定義し、その時点から直感的にその知識を掴むことができるという単純なケースではありません。それは本当に拡散したもので、あなたはこれらの多様な経験を持ち、この概念が現れます。それは模倣的に起こるかもしれませんし、多くの異なる人々に広がるかもしれません。
それは何らかの形で魔法的です。人間の脳の魔法の力です。なぜかはわかりませんが、ある日、この位置を見て、おそらく以前は考えもしなかった素晴らしい動きを思いつきます。
しかし、私のポイントは、極端に強い圧縮された表現を持った後にのみこれが起こるということです。そうすれば、ノイズを無視することができます。本質的に、これは「これらの駒はここにある」などと考えることなく、物事を計算するためのより多くの容量を与えます。あなたはただそれを見て、はるかに明確な表現で計算することができます。
そして、これは素晴らしい動きが起こり、魔法の動きが現れる時です。あなたはインスピレーションのひらめきの
ファンですか？あなたがこれらの種類の瞬間を持つとき、すべてがクリックするような瞬間、あなたはその小さなステップを登り、あなたの理解が深まるような。
これらの種類の瞬間は、少なくとも私の経験では、次のステップを思いつくためには多くのことが正しくなければなりません。少なくとも人間にとっては。あなたはこのタスクに非常に集中し、良い睡眠を取り、健康であることが必要です。
そして、あなたは一日だけ、はるかに良いレベルでプレイするか、何かをはるかに高いレベルで行うことができます。そしてこれは徐々に蓄積されていき、これらのインスピレーションの瞬間の連続が互いに積み重なっていきます。
しかし、それは確かにあなたが選ぶことができるものではなく、何かに多くの時間を投資しない限り現れないものです。
カール・フリストンはこれに美しい言葉を持っています。彼はこれを「認識的採集」と呼んでいます。それは少し、時間をかけて私たちはこの知識を発見し、知識の雲が増加するというようなものです。
フェデリコ、あなたをここに迎えることができて光栄でした。ありがとうございます。
ありがとうございます。