この動画は、Microsoftと研究チームが開発したWINA(Weight Informed Neuron Activation)という新しいAI効率化技術について解説している。従来のAIチャットボットは質問に答える際に全ての「デジタル脳」を稼働させるため電力とコストが膨大になるという問題があったが、WINAは人間の脳のように必要な部分だけを使用することでこの問題を解決する。この技術は既存のモデルに追加訓練なしで適用でき、約65%のニューロンを休止させながらも従来手法より2-3ポイント高い精度を実現し、計算量を約60%削減することに成功している。
AIチャットボットは日々賢くなっています。しかし、ここに問題があります。何か質問をするたびに、簡単な質問に答えるためだけに、まるでクリスマスツリーのようにデジタル脳全体を光らせてしまうのです。これは膨大な電力と時間を無駄にしています。
今回、Microsoftと研究チームが、人間のように実際に重要な脳細胞だけを使用してAIに思考させることで、この狂気を止めるコードを解読したかもしれません。
そして驚くべきことに、彼らは一切の再訓練なしにこれを成し遂げたのです。それでは、詳しく見ていきましょう。
大規模言語モデル、つまり内部に数十億のつまみを持つおしゃべりなAIについて話しましょう。質問をすると、そのデジタル脳のほぼ全ての電球を点灯させ、膨大な計算を行い、最終的に答えを出力します。
これは、一つのオフィスの中のホッチキスを見つけるために、20階建てのオフィスビル全体の照明を点けるようなものです。機能はしますが、電気、時間、お金を驚くほど無駄にします。
エンジニアたちは無駄を削減するために主に2つの手法を試してきました。1つ目はMixture of Expertsと呼ばれるものです。これは専門家のフルスタッフを雇うようなもので、文法オタク、雑学マニア、科学ギークなどを雇い、各文章に対してそのうちの数人だけを呼び出すようモデルに教えるのです。
訓練が完了すれば素晴らしい結果を出せますが、これらの専門家を訓練するのは全く別のプロジェクトです。人気のモデルをダウンロードしただけの会社で、今すぐに救済が欲しい場合、そんな贅沢はできないかもしれません。
2つ目の手法は訓練不要のルートです。追加の学習なし。実行中に脳の一部をシャットダウンするだけです。既存のTealやCatsという手法は、基本的に各ニューロンがどれくらい大声で叫んでいるかを見て、静かなものは完全に黙らせます。
脳の半分を静かにさせるほど積極的になるまでは簡単なアイデアです。しかし、一部のニューロンは静かに叫んでいるけれど非常に重要で、一方で大声で叫んでいるけれどほとんど重要でないものもあるため、パフォーマンスが崩壊してしまいます。
ここでWINAの登場です。これはWeight Informed Neuron Activationの略で、Microsoft、中国の人民大学、ニューヨーク大学、華南理工大学の合同チームによるものです。彼らは2025年5月29日に完全な学術論文を発表し、2日後にはより短いニュース記事も公開しました。
WINAの魔法のような工夫は、ほぼ明らかにシンプルです。ニューロンを叫び声の大きさだけで判断してはいけません。どれくらい大きなメガホンを持っているかを見るのです。
平易な表現で説明すると、各ニューロンは重みと呼ばれる数値の束を通して小さな信号を渡します。一部の重みはその信号を大幅に増幅し、他はほとんど増幅しません。WINAは音量の大きさとメガホンの大きさを掛け合わせ、最も大きな組み合わせパンチを持つニューロンだけを保持します。
残りはそのステップで休眠します。この単一の変更により、モデルは答えに脳の遅延が現れることなく、自分自身のはるかに多くの部分をスイッチオフできるのです。
鋭い視聴者の中には、「しかし、モデル内部の数学が適切に設定されていない場合、このランキングは公平なのか?」と質問する人もいるでしょう。研究者たちはそれを考慮しました。彼らは重みの各主要な塊を特異値分解を使用してきれいに整理します。
難しい表現ですが、すべてがきれいに並ぶように家具を回転させると考えてください。その整列の後、数学的証明の保証が有効になり、「はい、エラーは非常に低いままです」と言うのです。
どの程度効果があるのでしょうか?彼らはWINAを4つの有名なチェックポイントでテストしました。Qwen 2.5 7B、Llama 2 7B、Llama 3 8B、Yi 14Bです。
7Bや14Bはパラメータ数で、モデルが持つ小さなダイヤルの数です。評価には6つの公開ベンチマーククイズを使用したため、誰も結果をつまみ食いしていると非難できません。聞いたことがあるかもしれない名前として、物理推論のためのPiQA、小学校算数のためのGSM8K、混合科目のためのMMLUなどがあります。
面白い数字を見てみましょう。65%のニューロンをシャットダウンした時、つまりほぼ3分の2ですが、WINAはQwenでTealを3ポイント弱上回り、Yi-14で約2ポイント上回りました。
Llama 3では、半分オフマークを通過すると、WINAは1から2ポイントリードしました。機械学習の専門家が0.1ポイントにさえこだわることを考えると、これは大きく聞こえないかもしれません。しかし2ポイント全体は、昨年のマラソンタイムを5分短縮するようなものです。
ニューロンをカットすることで、FLOPS(浮動小数点演算)で測定される生の計算作業も大幅に削減されます。Qwen 2.5では、65%のスパース性でFLOPSが70億から28億に下がりました。Llama 2は66億から24億に下がり、ほぼ3分の2の馬力を節約しました。すべてのモデルが60%マーク付近で推移しました。
データセンターの費用で言えば、これは大きいです。同じチャットボットで、GPUの請求書がほぼ半分になります。素晴らしいことです。
追加の利点として、Mixture of Expertsの世界が必要とする面倒な追加訓練は一切行いません。既に持っているモデルにこのゲートを文字通りボルトで取り付け、どれくらい積極的に感じるか(25%、40%、50%、または65%オフ)をダイヤルするだけで完了です。
ある層が他よりも敏感に見える場合、異なるパーセンテージを割り当てることができます。そして、Tealから借用した小さな貪欲アルゴリズムがすべてのバランスを取るのを助けるため、全体的なターゲットが依然として一致します。
つまずく可能性のある1つのしわは、列直交重みに関する理論的主張です。論文はエラー数学をきれいに保つためにそれに依存しています。しかし、実際のモデルは常にうまく動作するとは限りません。そこで著者たちは変換を自動化しています。
重要な箇所でのみ準直交性を強制するための家具の回転を覚えていますか。そして他の場所で補償します。結果として、ニューロンがゲートされていない時の予測は同一のままです。この安全チェックが通過すると、WINAをクランクアップしてFLOPSを節約し始めます。
細かい点にこだわる方は数学を見たいでしょう。すべてが詳しく説明されています。補題3.1は、きれいな重みを持つ単一層について、同じ数の生存ニューロンに対してWINAのエラーがTealより悪くなることはないことを示しています。定理3.2と3.5は、それをスタック全体に拡張し、さらにReLUやSiLUのような活性化関数を通しても適用します。これらは負の値をゼロにしたり、0と1の間で押しつぶしたりする一般的な波形です。
彼らはまた、アテンションヘッド内に位置するSoftmaxが証明を継続するのに十分にうまく動作することも指摘しています。
WINAはデータセンター技術ですが、チームは製品を構築する場合に重要な2つの補足事項を投げかけています。まず、彼らはMicrosoft/WINAの下でGitHubにコードをオープンソース化しているため、誰でも自由にテストできます。次に、彼らは2025年8月2日にオンラインAIインフラミニカンファレンスを共同主催しており、講演者を探しています。
WINAを試して推論コストを半分にした場合、即座に話す提案があります。彼らはまた、企業がカスタマーチャットでチャットボットの動作を監視できるオープンソースツールキットParlantもハイライトしています。より高速な推論はより安価なアライメント実行を意味するため、叫び声は理にかなっています。
締めくくる前に、最後の疑問に答えましょう。これは新しいラベルを付けた重み刈り込みにすぎないのでしょうか?正確にはそうではありません。従来の刈り込みは実際にネットワークの一部を永続的に削除します。そして人々は通常、精度を復活させるために縮小したスケルトンを微調整します。それには追加の訓練フェーズが必要で、時には膨大になります。
WINAは重みの完全なセットをそのまま保持します。何も捨てられません。ニューロンは各フォワードパスで単純に短い昼寝をするだけです。
そして昼寝のスケジュールは入力ごとに変わります。言い換えれば、動的であり、永続的ではありません。だからこそ、簡単な文では勇敢にスパース性を大幅にクランクアップできます。そして質問が難しそうに見えたら緩めることができるのです。
まとめましょう。WINAは小さな論理変更を提供します。活性化サイズに重み強度を掛けます。最大のプレイヤーを保持し、証明が正直であり続けるようにきれいな数学的クリーンアップステップを実行します。
60%以上少ない計算で、本当にプッシュしている時には旧チャンピオンのTealより2から3ポイント正確なままです。ゼロの追加訓練セッションと、クローンする準備ができたApache 2ライセンスのリポジトリ。
あなたが自分の大規模言語モデルサービスを実行している場合、または趣味のサーバーでいじっていて、待機時間が忍び寄っていることに気づいた場合、これは2025年のこれまでで最も低くぶら下がっている果実の可能性があります。
しかし、ここに質問があります。AIの脳のほとんどをシャットオフしても、より賢い答えを得ることができるなら、私たちは一体この間何に数十億を無駄にしてきたのでしょうか?
あなたの考えをコメントに残してください。この種の狂気に興味があるなら購読を押してください。そして、あなたのGPUが休憩に値するなら、いいねを押してください。視聴ありがとうございました。次回でお会いしましょう。


コメント