中国の新たなAIのブレイクスルー – アテンション・レジデュアルの解説

本動画は、中国のAI研究所であるMoonshot AIが発表した「Attention Residuals（アテンション・レジデュアル）」という新しいAIのアーキテクチャについての解説である。2015年以来変更されていなかった「残差接続（レジデュアル・コネクション）」の仕組みを見直し、各レイヤーが過去のどのレイヤーの情報に注意を向けるかを動的に選択できるようにすることで、計算コストをほとんど増やすことなくAIモデルの性能を大幅に向上させる画期的な手法を詳しく紹介している。

China’s New AI Breakthrough - Attention Residuals Explained -

Attention Residuals Explained - China’s New AI Breakthrough:🌐Subscribe To My Newsletter - your Free AGI Preparedness...

中国のAIによる新たなブレイクスルー
隠された配線の問題点と解決策
現代のAIモデルの仕組みと残差接続
アテンション・レジデュアルの革新性
パフォーマンスとコストの劇的な改善
ブロック・アテンション・レジデュアルによる効率化
AI研究への深い示唆とデータの構造化

中国のAIによる新たなブレイクスルー

中国でAIに関する新たなブレイクスルーがあり、あのイーロン・マスクでさえも「素晴らしい仕事だ」と評価しているんですよ。それでは、この件についてお話ししていきましょう。私たちがこれまでに使ってきたすべてのAIモデル、例えばChatGPTやClaude Sonnet、Geminiなどは、すべて同じ基本的な配線の上に構築されています。そして、その配線のうちの1つの部品は、2015年以来まったく変更されていませんでした。微調整されることも、アップデートされることもなく、全く同じ設計が11年間コピーされ続けてきたんです。

研究者たちはただそれが最善だと思い込んでいたのですが、そうではないことが分かりました。Kimiモデルを開発したチームであるMoonshot AIという中国の研究所が、この部品を再考する論文を発表したんです。これは「アテンション・レジデュアル」と呼ばれています。その中心となる主張は非常にシンプルです。すべての現代のAIモデルの基盤には欠陥が組み込まれているのですが、それが何も壊さないため、誰もそれに気づかなかったというのです。ただ、すべての性能を本来あるべき姿よりもわずかに悪くしているだけなんですね。

隠された配線の問題点と解決策

では、この隠された配線とは一体何なのでしょうか。何が間違っていて、どうすれば実際に修正できるのでしょうか。簡単に言うと、問題となっている配線は「残差接続（レジデュアル・コネクション）」と呼ばれるものです。これは、ニューラルネットワークの複数のレイヤーを通じて情報を前に渡すだけの役割を果たします。問題は、それがすべての情報を同じ重要度で前に渡してしまうことなんです。

フィルタリングも優先順位付けもありません。これを修正するには、モデル自身に何に注意を向けるかを選ばせる必要があります。あなたが入力した言葉を読んでいる時だけでなく、モデル自身が自分の内部レイヤーを再読している時にもです。

ここで、簡単な例え話を使って皆さんに説明させてください。あなたが報告書を書いていて、50人の編集者からなるチームがいると想像してみてください。1人目の編集者はあなたの原稿を読み、いくつかのメモを書き込んで、すべてを次の人に渡します。

2人目の編集者は、元の原稿と1人目の編集者のメモを受け取り、さらに自分自身のメモを書き込んで、すべてを次に渡します。そして3人目の編集者はそのすべてを受け取り、さらにメモを追加します。50番目のレイヤー、つまり50人目の編集者にたどり着く頃には、彼らはものすごい量の書類の山を抱えることになります。元の原稿に加えて、49人分のメモがすべて積み重なっているわけです。どのメモが重要で、どのメモがただのノイズなのかを見分ける方法は全くありません。

現代のAIモデルの仕組みと残差接続

そして、これこそが今日のほとんどのAIモデルの仕組みなんです。ChatGPTやClaude Sonnetのような大規模言語モデルには、数十、時には数百ものレイヤーがあります。それぞれのレイヤーは、先ほどの編集者の1人のようなものです。情報を処理し、自分自身の貢献を追加して、全体を次に渡していきます。その受け渡しを行うメカニズムが残差接続と呼ばれるもので、2015年に画像認識のために初めて導入されました。

そのアイデアはシンプルで素晴らしいものでした。情報が途中で失われないように、各ステップで元の入力を足し戻すというものです。そしてそれは機能しました。残差接続なしでは信号が劣化しすぎてモデルが学習できないため、私たちが非常に深いニューラルネットワークを訓練できるようになったのは、まさにこの仕組みのおかげなんです。これがあれば、100のレイヤーを積み重ねてもちゃんと機能します。

さて、10や20のレイヤーを持つ浅いモデルであれば、これで全く問題ありません。しかし深いモデル、特に現代の大規模言語モデルは非常に深いため、情報が積み重なりすぎて個々の貢献がかき消されてしまうんです。初期のレイヤーからの信号は埋もれてしまい、より深いレイヤーは、蓄積されたノイズの中で自分たちの声を届かせるために、ますます大きな声で叫ばなければならなくなります。

論文ではこれをノーム・ディリューションと呼んでいますが、ただ単に情報の山が高くなりすぎて、誰もその中から何も見つけられなくなる状態だと考えてもらえば大丈夫です。

アテンション・レジデュアルの革新性

ここからが賢い部分で、論文が本当に洗練されているところです。実はAIの研究者たちは、この問題を以前にまったく別の文脈で解決していたんです。説明しましょう。現在の世代のAIモデルが登場する前には、再帰型ニューラルネットワーク（RNN）と呼ばれるものがあり、それらはテキストを1単語ずつ処理していました。

そして各ステップで、それまでに読んだすべての情報を1つの要約に圧縮していました。単語が続くにつれて、その要約はどんどん過負荷になっていきました。モデルが500番目の単語に到達する頃には、3番目の単語の情報は基本的には消え去ってしまっていたんです。これ、なんだか聞き覚えがありませんか。トランスフォーマーです。現代のすべてのAIモデルの背後にあるそのアーキテクチャは、「アテンション」を導入することでこの問題を解決しました。

すべてを1つの要約に圧縮する代わりに、各ブロックが過去のすべての単語を振り返り、どれが最も重要かを決定できるようにしたんです。もし3番目の単語が関連していればそこに焦点を当て、200番目の単語が関連していなければ無視することができます。この選択的なプロセスこそが、現代のAIを可能にしたものなんです。

Kimiのチームが気づいたのは、残差接続も方向が違うだけで全く同じ問題を抱えているということでした。RNNは時間をかけて単語間の情報を圧縮していました。一方、残差接続は深さを通じてレイヤー間の情報を圧縮しています。同じボトルネック、同じ強制的な平均化、そして同じ有用な情報の喪失が起きていたんです。

パフォーマンスとコストの劇的な改善

ですから、この修正方法も同じです。すべてのレイヤーの出力を盲目的に足し合わせるのではなく、各レイヤーに過去のすべてのレイヤーを振り返らせて、どれに焦点を当てるかを選ばせればいいんです。単語間ではなく、モデル自身の深さにわたってモデルにアテンションを与えます。各レイヤーは「私の前任者たちのうち、今私が本当に必要としている情報を持っているのは誰か」と問いかけることができるようになります。

それがアテンション・レジデュアルの正体です。文字通り、トランスフォーマーを革命的なものにしたのと同じアイデアを、誰もアップグレードするのを忘れていたアーキテクチャの次元に適用したものなんですよ。すべてのレイヤーが同じ平均化されたスープを受け取る代わりに、入力が実際に必要としているものに基づいて、その場で組み立てられたカスタムブレンドを受け取るようになるんです。

さて、ここで当然の疑問が浮かびます。これは実際に違いを生み出すのでしょうか。そして、モデルの実行コストを大幅に上げることなくそれを実現できるのでしょうか。

最初の質問に対する答えは、明らかにイエスです。彼らはこれを5つの異なるモデルサイズでテストし、すべてのスケールにおいて新しいアプローチが標準的なアプローチを打ち負かしました。数字で言うと、その改善は無料で25%多くのトレーニング計算量を手に入れたのと同じくらいでした。同じモデル、同じデータ、同じコストで、ただ配線を良くしただけで、4分の1多いリソースで訓練されたモデルと同等のパフォーマンスが得られるんです。

彼らはまた、480億の総パラメータを持つ彼らの最大のモデルでもテストを行いました。そして、試したすべてのベンチマークで向上が見られました。推論能力は大幅に跳ね上がり、数学のパフォーマンスも向上し、コーディング能力も上がりました。しかも、それはわずかな向上ではありません。GPQAダイアモンドと呼ばれるある推論ベンチマークでは、スコアが36.9から44.4へと飛躍しました。レイヤー間で情報がどう流れるかという低レベルの変更にしては、これは途方もない飛躍です。

ブロック・アテンション・レジデュアルによる効率化

2つ目の質問については、コストに目を向けることができます。そしてここからがエンジニアリングの面白いところです。すべてのレイヤーが他のすべてのレイヤーを振り返るというこのアイデアの完全版は、確かに多くのメモリを使用します。そこでチームは「ブロック・アテンション・レジデュアル」と呼ばれる実用的なバージョンを構築しました。

各レイヤーが独自に振り返るのではなく、レイヤーを大体8つ程度のブロックにグループ分けするんです。そして各ブロックの内部では古いシステムを使用し、ブロック間では新しいアテンションベースのシステムを使用します。これにより、わずかなコストでほとんどのメリットを得ることができます。

では、どれくらいのコストなのでしょうか。トレーニングのコスト増加は4%未満です。そして推論時、つまりモデルが実際にあなたのためにテキストを生成しているときの遅延は2%未満です。全く気づかないレベルですよ。実質的に無料でパフォーマンスが向上するようなものです。

AI研究への深い示唆とデータの構造化

では、なぜこれが今日のAIにとってそれほど重要なのでしょうか。このことは、1つの論文を超えた理由で重要なんです。残差接続は、これまでに構築されたすべてのトランスフォーマーモデルの中に存在しています。すべてのチャットボット、すべての画像生成器、すべてのコーディングシステムにです。これは何か目立たない部品ではありません。すべてを動かしている配管そのものなんです。

そして、10年以上にわたって誰もそれを真剣に疑わなかったという事実は、AI研究がどのように進められているかについて重要なことを教えてくれます。トランスフォーマーの中には、みんなが「これで十分だ」と思い込んでいる他の部品がおそらくまだあるはずです。アテンションのメカニズム自体や、レイヤーの正規化の方法、パラメータの初期化の方法などです。もし、全体のアーキテクチャの中で最もシンプルで最も退屈な部品である残差接続にこれほどの改善の余地があったのだとしたら、他に何が目の前で隠れているでしょうか。

ここから得られるより大きな教訓は、AIの前提は複利で積み重なっていくということです。2015年に行われた設計上の選択の上に構築を続けると、10年後には誰もがそれを、見直すことができる「選択」ではなく「物理法則」のように扱ってしまうんです。

考えてみてください。2015年に、誰かがショートカットを追加することで深いネットワークを機能させる方法を見つけました。そして2017年には、ネットワークに何に注目するかを選ばせることで、言語を理解させる方法を誰かが見つけました。そして2025年、ついに誰かがその2つのアイデアを組み合わせて、誰も聞いていなかった最も明白な質問をしたんです。なぜモデルは文章の中では何に注目するかを選べるのに、自分自身のレイヤーの中では選べないのか、と。

そしてその質問に対する答えは、計算量の25%増大に匹敵し、あらゆるベンチマークでの向上をもたらすほどの価値があったと判明したわけです。モデルを大きくすることによってではなく、単に配管をアップグレードすることによってです。時に最大の成果は、システムの最も派手な部分にはありません。誰も見なくなった部分にあるんです。

さて、ある研究者であるジミン・リウは、Kimiの新しいアテンション・レジデュアルのアイデアを見て、非常に重要な問いを投げかけました。そして彼の答えは、基本的には「状況による」というものでした。

彼は2つの極端な条件を用いたおもちゃの実験を作りました。一方には、明確なパターンやルール、近道がある「構造化されたデータ」を置きました。もう一方には、基本的に利用できる都合の良いパターンがないランダムなデータ、つまりモデルが力任せに記憶しなければならないような乱雑な情報を置きました。

彼が発見したのは、データに明確な構造がある場合、アテンション・レジデュアルの方が良い結果を出す傾向があるということでした。なぜでしょうか。それは新しいシステムが、以前のより有用な表現に焦点を当てることを学習し、不必要なステップをほぼスキップできるからです。

しかし、そのデータがよりランダムでカオスな場合、標準的な残差接続の方が実際には優れていることがあるんです。古いシステムは力任せな方法でより表現力が高いのに対し、新しいシステムは時として情報を混ぜ合わせすぎて鋭さを失ってしまうような平均化行動に陥ることがあるためです。

ここでの大きな結論は、アテンション・レジデュアルがおそらく地球上のすべてのタスクにとって普遍的なアップグレードではないということです。基礎となるデータに明確な構造がある場合に、特に優れている可能性があります。そして、言語自体が高度に構造化されているため、これは大規模言語モデルにとって重要なことなんです。文法は構造化されていますし、コードも構造化されていますからね。