15億の活性パラメータを持つMoEモデルがOPUS 4.6の推論性能を上回る理由

オープンソースのMoE(Mixture of Experts)モデル「Mio Version 2 Flash」が、わずか15億の活性パラメータでClaude Opus 4.6を因果推論タスクで上回った背景には、革新的なアーキテクチャ設計が存在する。本動画では、スライディングウィンドウアテンションと学習可能なアテンションシンク、マルチティア・オンポリシー蒸留、マルチトークン予測など、最新のAIモデル構築技術を詳細に解説。小規模モデルが大規模モデルを凌駕する理由を、技術レポートと数式を交えながら徹底分析している。

15B Active MoE BEATS OPUS 4.6 in Reasoning

Inside AI: to be specific, inside a real powerful reasoning engine MoE, and all the new methods and optimizations algori...

AIモデルの内部構造を探る
スライディングウィンドウアテンションの革新
マルチトークン予測とポストトレーニング手法
Mixture of Expertsシステムの安定化
マルチトークン予測と投機的デコーディング

AIモデルの内部構造を探る

皆さん、こんにちは。また戻ってきてくれて本当に嬉しいです。今日はAIモデルのフードを開けて、中を覗いてみましょう。現代のAIモデルはどのように構築されているのでしょうか。なぜそんなことを知る必要があるのかって?それは、こういうことなんです。Claude Opus 4.6という最先端モデルが、私の因果推論テストを解くことができませんでした。ところが、小さなオープンソースのMio Version 2 Flashという、15億の活性パラメータを持つMixture of Expertsシステムが、それを解くことができたんです。

どうしてこんなことが可能なのでしょうか。Opus 4.6が失敗したテストをMioが解けるという奇跡は、一体何によってもたらされたのでしょうか。見ていきましょう。もちろん、基礎となるのはXiaomiによるこちらの技術レポートです。2026年1月8日に公開された最新版を見ていきます。これをKimi K2とクロスリードしていただきたいのですが、ご存知のように、ここでは特定の事前学習と事後学習が行われています。

もちろん、事後学習というのは検証可能な報酬を用いた強化学習のことですが、これらの企業がAIモデルを構築し、事前学習や事後学習を行う方法には、いくつか異なる方法論や技術があります。では、始めましょう。2020年以降、私たちは完全なアテンション機構よりもはるかに高速なスライディングウィンドウアテンション機構を手に入れました。これはLongformerで示されたもので、アイデアはシンプルです。

スライディングウィンドウアテンションの革新

各トークンのアテンションスコープを完全なシーケンス全体ではなく、ローカルウィンドウに制限することで、計算量とメモリの複雑性を大幅に削減するのです。そして2025年8月、OpenAIはスライディングウィンドウアテンションにまだ問題が残っていることを示しましたが、解決策も見つけました。それが学習可能なアテンションシンクバイアスと呼ばれるもので、モデルが必要に応じてトークンにほとんど、あるいは全くアテンションを割り当てないようにできるものです。

これによって、スライディングウィンドウアテンションベースのアーキテクチャにおける大きな問題が解決されました。スライディングウィンドウアテンションは、ウィンドウの外側にあるトークンがマスクされるため、パフォーマンスの崩壊を引き起こしていました。これによって、アテンションヘッドが特定のトークンに確率質量をダンプするシンク現象が壊れてしまうのです。通常、それは最初のトークン、つまりトークン0にダンプされます。

しかし、例えば私たちがトークン5000の位置にいて、アテンションプロセスのために非常に小さなスライディングウィンドウしか持っていない場合、トークン0のビンに行くチャンスがありません。そのため、解決策はこうなりました。ウィンドウ内に学習可能なアテンションシンクという新しいものを構築し、そこに必要な質量をすべてダンプできるようにしたのです。

ソフトマックス最適化のために、ここに100%が集約されるわけです。これをコーディングしたい場合、簡単な数式があります。単一のヘッドにおけるトークンIとトークンJ間のアテンション確率AIJを見ると、ここにシンクパラメータが追加されているのがわかります。特定のローカルウィンドウに最大100%まで割り当てなければならないソフトマックスがある場合、トークンが全く関連性がなければ、ここにダンプするのです。

これによって、モデルはローカルウィンドウに新しいアテンションを割り当てることができます。仮想的なシンクタームに質量をダンプすることで、関連性のあるトークンがローカルアテンションウィンドウに全く存在しない場合でも、モデルの容量を確保できるのです。

なんとシンプルな解決策でしょう。でも、うまく機能しているようです。Mioは現在、アーキテクチャにハイブリッドブロックを使用しています。ローカルスライディングウィンドウアテンションと典型的なグローバルアテンションをインターリーブしているのです。特定の実験で、8つのハイブリッドブロックを積み重ね、それぞれが5つの連続したスライディングウィンドウアテンションブロックと、その後に続く1つのグローバルアテンションブロックで構成されている場合に、最良の結果が得られることがわかりました。ここにそれがあります。

エンコーディングとデコーディングを持つ古典的なトランスフォーマーアーキテクチャのシートをご存知なら、これがSWAブロック、グローバルアテンションブロック、そしてMTBブロックを持つ構成です。このMTBブロックについては、すぐに説明します。そういうわけで、ここにあります。完全なアテンションの二次的複雑性を軽減するために、Mioはローカルスライディングウィンドウとグローバルアテンションをインターリーブするこのハイブリッドアテンション機構を採用しています。

これが非常にうまく機能することがわかりました。特に長いコンテキストに対して、キーバリューキャッシュストレージとアテンション計算において6倍の削減を達成したからです。素晴らしいですね。考えてみてください。スライディングウィンドウサイズはわずか128トークンです。これは非常に小さいですが、ローカルとグローバルの比率を5対1に選択すれば、うまく機能するようです。

マルチトークン予測とポストトレーニング手法

さて、話さなければならない他の2つの効果があります。1つ目は、事前学習と事後学習のパフォーマンスを向上させるためのマルチトークン予測、つまりMTPです。さらに、推論デコーディングを加速します。そして2つ目は、マルチティア・オンポリシー蒸留と呼ばれる新しい事後学習パラダイムです。

もちろん、事前学習ルーチンは、Mio Version 2以前のモデルについてのこちらの論文で見つけることができます。これは2025年6月に公開されました。私たちが興味を持っているのは、新しいモデルの真の革新である事後学習の変換です。この事後学習パイプラインには、一般的に2つの課題があります。能力のアンバランスです。

1つのスキルを向上させると、他のスキルで後退が起こります。これはシーソー効果、または破滅的忘却と呼ばれるものです。そして学習の非効率性があります。既存のアプローチは、複数の専門モデルからの知識を組み合わせる際に、学習信号を完全に活用できないのです。このマルチティア・オンポリシー蒸留という新しいアイデアは、学生ポリシーπデータとドメイン固有の教師ポリシーπドメインxとの間の逆カルバック・ライブラー発散を最小化することに焦点を当てています。

つまり、私たちは1つの巨大なAIモデルを使うのではなく、まずスペシャリストであるエキスパートモデルであるAIモデルを訓練し、それからそれらのエキスパートモデルから、そのロジットと検証可能な結果の両方を使用して、オンポリシー蒸留を実行するのです。両方の世界の長所を組み合わせることを期待しているわけです。そして、Mioではそれに成功したようです。

簡単な例を挙げましょう。学生AIがいて、複数のスペシャリスト教師がいます。数学の教師AI、コードの教師AI、そして安全性の教師AIです。さて、この純粋な学生が今、何らかの演習をしていると想像してください。そして3人の教師全員が今、学生を見て、同時にこの学生を批評します。

さらに悪いことに、トークンごとにです。そしてこの素晴らしい学習環境で、私たちの学生AIは今、本当に単一の答えを統合することを学びます。そして美しいのは、それが数学教師のロジック、コード教師の構文、そして安全性教師のルールを同時に満たすということです。

これによって、すべてのスペシャリストのピークパフォーマンスを保持する単一のモデルが生まれるのです。これが、Mio Version 2の秘密のソースと言えるものです。なんとエレガントな解決策でしょう。基本的に3つのステージがあります。古典的な教師あり微調整があります。それから、ステージ2としてドメイン特化訓練があり、ドメイン教師の作成があります。

そして、私たちのMOPDがあります。もう少し詳しく見てみましょう。教師あり微調整ステージは古典的なもので、事前訓練されたモデルが指示に従い、多様なタスクに効果的に応答できるようにします。ドメイン特化訓練はすでに見せましたね。焦点を当てたタスククローゼットにおいて、独立した強化学習最適化を通じて、ドメイン特化教師モデルのスイートを訓練します。

そして今、彼らは面白いことをします。エージェント的能力と非エージェント的タスクを分離するのです。エージェント的能力とは、検索エージェント、コーディングエージェント、または一般的なツール使用エージェントなど、厳密にエージェント的能力に焦点を当てたものです。しかし、彼らは非エージェント的タスクも必要だと言います。数学的推論のような基本的なアイデア、モデルの一般的な推論能力のような基本的なスキル、または安全性アライメントなどです。

そして、これがMio Version 2の卓越したパフォーマンスに貢献するものだと思います。なぜなら、Opus 4.6の独自の訓練については何も知りませんが、純粋な数学的推論能力や一般的な推論能力のような非エージェント的タスクを見逃しているようだからです。

おそらく現在のモデルは、エージェントやエンキャンティック能力に過度に焦点を当てすぎているのでしょう。それらは素晴らしいものです。しかし、推論ができず、コーディングAIのエンキャンティック能力において完璧な小さなAIモデルがあったとして、その目的は何でしょうか。分布から外れた瞬間に失敗してしまうでしょう。興味深いことに、非エージェント的タスクのためのドメイン特化訓練があるんです。

そしてもちろん、マルチティア・オンポリシー蒸留があります。ここでは、オンポリシー強化学習プロセスとしてのマルチティア知識統合があります。このプロセスでは、学生と教師の間の逆カルバック発散損失が古典的な方法で定義されており、勾配は既知の数式表現です。

Mixture of Expertsシステムの安定化

興味深いことに、これは安定した訓練ではないことがわかります。つまり、これらのモデルを構築するスペシャリストは問題に遭遇するのです。そして、これらの問題の解決策がICEPOPと呼ばれるMixture of Expertsシステムのためのものです。そこに行けば、すべての数学的詳細が見つかります。結果だけを示しましょう。

ICEPOPの勾配は、この特定の方法で選択すれば、遭遇する問題の解決策を持てることがわかります。彼らは私たちに、訓練推論確率ミスマッチの分析があると言っています。特にMixture of Expertsシステムで発生するミスマッチです。なぜなら、オンポリシー強化学習訓練の不安定性があり、これは訓練エンジンと推論エンジンの間の確率の不一致の増大から生じるからです。ICEPOPは、損失トラベルでミスマッチを修正することで、この問題に対処します。

彼らは続けます。重要な方向性は、崩壊境界を正式に特徴付けることです。これは、オンポリシー訓練が不安定になる臨界確率不一致として定義されます。そして、この境界がモデルサイズ、バッチ構成、エンジンミスマッチとどのようにスケールするかを研究することです。AIモデルを構築する際に遭遇するものは信じられないほどです。

そして、MLPDの損失があります。美しいですね。そして、私たちが知っているパラメータがあります。でも、見てみましょう。私たちがここで今遭遇するのは、サンプリングポリシー、つまり推論エンジンであるミューテーターで、これは訓練ポリシーとわずかに異なる可能性があります。私たちのWデータです。

これは重要サンプリング重みで、もちろん安定性のためにクリップされ、学生の生成と訓練更新の間の分布シフトを修正します。そして、私たちのアドバンテージがあります。これが今、言うなれば魔法が起こる場所です。アドバンテージは今、そして美しいのは、教師の密な監督、教師のロジット、そして最初に始めたようなスパースなアウトカム報酬またはOMSの単一の複合体だということです。

そこにあります。アドバンテージは今、この数学的項です。標準的なアウトカムベースの報酬は、シンプルな質問に答えます。コードはユニットテストに合格しましたか?イエスかノーか?ブール値です。そして、私たちが探している密なトークンレベルの報酬項があります。もちろん、ターゲットが安定していることを保証するストップグラディエント演算子があります。これが今、私たちの結果です。

これが今、モデルにエンコードするものです。そして、別の問題に遭遇します。つまり、Xiaomi Mimoが別の問題に遭遇するのです。訓練と干渉ルーターを整列させることによって、Mixture of Expertsの強化学習をここで安定化させることです。何が起こっているんだって?2025年10月のこの出版物で、Mixture of Expertsシステムの強化学習において問題があることを示しました。推論、つまりロールアウトと訓練、つまりバックプロパゲーションの間の数値精度の違いが、Mixture of Expertsシステムのルーターに、まったく同じ入力に対して異なるエキスパートを選択させる可能性があるのです。

それによって、Mixture of Expertsシステムの訓練を完全に不安定化させてしまいます。信じられないですね。数値精度の違いがこれを引き起こす可能性があるのです。精度のミスマッチがあるんです。ローカルモデルをダウンロードして、8ビット、6ビット、4ビットなどを見た時のことを覚えていますか。これが私たちがここで遭遇しているものです。

しかし、私たちはこれを、干渉中の最適化カーネルのためのFP8のBF-16のレベルで遭遇しています。そして通常、私たちは勾配のためにFP32の混合精度で実行されるバックプロパゲーションを持っています。そして、浮動小数点の非結合性のため、訓練中のルーターは、ロールアウト中に使用されたものとは異なるエキスパートを選択する可能性があります。

つまり、生成された軌跡にまったく寄与しなかったエキスパートを更新することになり、したがってポリシー勾配の仮定を破ることになります。信じられないですね。すべては精度のミスマッチのせいです。本当に極端に注意しなければなりません。彼らはR3と呼ばれる解決策を見つけました。シンプルに、すべてをログに記録するのです。しかし、推論エンジンはロールアウト中に選択されたエキスパートの特定のインデックスをロックします。

そして今、訓練中、フォワードパス中、ルーターロジックは単純にバイパスされます。なぜなら、私たちはロックを持っているからです。だから、単に上書きするのです。これによって、訓練パスはロールアウトとまったく同じ計算グラフを横断することを強制され、訓練された行動に責任を持つMixture of Expertsシステムの特定のエキスパートへの一貫したクレジット割り当てを保証します。

新しいAIモデルを構築する際に注意しなければならない効果は、まったく信じられないほどです。決してそれほど難しいとは思わないでしょうし、ここで非常に多くの問題に遭遇します。そして多かれ少なかれ、見つける解決策は、一次最適化という数学的最適化にすぎません。

マルチトークン予測と投機的デコーディング

さて、本当に傑出した部分、つまりマルチトークン予測と、投機的デコーディングのためにマルチトークン予測を実装した方法について話さなければなりません。アーキテクチャは特定のものです。彼らは軽量にしたかったのです。重いMixture of Expertsレイヤーを複製する代わりに、MTPモデルは今、シンプルな密なフィードフォワードネットワークとスライディングウィンドウアテンションのみを使用します。グローバルアテンションからも、重いMOAレイヤーからも何もありません。

これによって、メインのMixture of Expertsボディと比較して計算的に安価な、軽量なドラフトヘッドが生成されます。彼らは、わずか3.3億パラメータのモデルを選択しました。3090億の自由訓練可能パラメータと比較すると、これは本当に小さいです。しかし、もちろんこのモジュールは単独では機能しません。

MTPは、MOAの隠れ状態、言うなればMOAの脳活動を入力として受け取り、そこから将来のトークンシーケンスを外挿しようとします。つまり、MTPモデルは、この深い思考トランスフォーマーアーキテクチャの上に座っている高速直感レイヤーのようなものです。そして損失関数はシンプルです。見逃した将来のトークンごとにペナルティを追加するだけです。なんてシンプルでエレガントなアイデアでしょう。

そして、絶対に驚くべきことを知っていますか?このMTPモデルは訓練と推論の両方で機能するのです。訓練では、より賢い脳、つまり次のトークンだけでなく、トークンのシーケンスの構造を理解するモデルを構築します。そして推論中、複数の推測を一度に検証することで、モデルが4、5、6トークン先に進むことを可能にします。

訓練目標は比較的シンプルです。位置TのMTPヘッドは、T+1からT+Kまでのトークンを同時に予測します。損失は、将来の位置でのクロスエントロピーの合計です。これが、K個の将来のトークンのための投影ヘッドで、Hはもちろん、ステップTにおけるメインモデルの隠れ状態です。

驚くべきことに、Orusは推論速度の向上があることを示しました。そして推論中、MTPモデルはK個のドラフトトークンを並列に生成し、メインモデルが並列検証を実行します。オーダーは、エントロピーの0.58乗に対する特定の相関が見つかりました。これは、コーディングのような低エントロピータスクの場合、MTPモジュールが2倍から3倍という大規模な速度向上を達成する一方、創造的な執筆や因果推論のような高エントロピータスクの場合は、あまり恩恵を受けないことを意味します。なぜなら、システムが計算能力を動的に調整しているからです。

コーディングのようなシンプルなタスクがあり、高い確率で予想できる固定されたトークンシーケンスがわかっている場合、推論時に速度の向上がありますが、MTPモデルにマルチトークン予測を含めることは、訓練の安定性自体のためだけでなく、干渉のためのドラフトモデルとしても再利用されます。

だから、本当の速度向上が得られるのです。これによって、システム最適化をモデルアーキテクチャ自体に、つまり次世代のAIモデルアーキテクチャをどのように構築するかの定義に直接統合するのです。2026年初頭の現在の方法論、つまり驚異的なパフォーマンス、特に因果推論タスク、科学的、金融的、医学的推論における推論タスクで驚異的なパフォーマンスを持つ最新世代のオープンソースAIモデルをどのように構築するかを探求する、より深い洞察を少しでも楽しんでいただけたら幸いです。私が前回のビデオで示したように、Opus 4.6でさえ完全に失敗した論理テストを解くことができるのです。

楽しんでいただけたことを願います。いいねを残したり、私のチャンネルを購読したり、チャンネルのメンバーになったりしませんか。とにかく、次のビデオでお会いできることを願っています。