この動画は、BYUとMBZUAIという2つの研究機関が発表した画期的なAI推論モデルについて解説している。BYUのA3Bは210億パラメータの混合専門家モデルで、各トークンに対して30億パラメータのみを活性化することで効率性を実現している。一方、MBZUAI(G42)のK2 Thinkは320億パラメータの密なモデルで、検証可能な報酬システムと推論時計画機能を特徴としている。両モデルともオープンソースで公開され、従来の巨大モデルに匹敵する性能を小さなパラメータ数で実現することで、AI推論の新たなパラダイムを提示している。

新たなAI推論モデルの登場
AI業界の巨人たちが恥をかくことになりました。2つの効率的なモデルが登場し、単純なサイズの大きさがもはや支配的ではないことを証明したのです。真の進歩は今や、より賢い訓練、より厳密な計画、そして実際に対応できるハードウェアから生まれています。
1つはMBZUAIから、もう1つはBYUからです。どちらもコンパクトで、どちらも高速で動作し、どちらもオープンソースです。この2つが一緒になって、フロンティアレベルが本当に何を意味するかについての常識をひっくり返しています。では、詳しく話してみましょう。
BYUのA3B – 混合専門家モデルの革新
まずBYUから始めます。彼らの新しいモデルは「ERA 4.521B A3B thinking」と呼ばれています。名前はかなり長くて複雑ですね。なので、シンプルにA3Bと呼ぶことにします。
しかし、その背後にあるアイデアは実際にはとても分かりやすいものです。これは混合専門家モデルなのです。つまり、全体では210億のパラメータを持っていますが、各トークンに対して活性化されるのは30億だけです。ルーターがどの専門家が活性化されるかを決定するので、毎回ネットワーク全体を点灯させる必要がありません。これが、専門化の利点を得ながらも計算コストを低く抑える方法なのです。
そして、これらの専門家がすべて同じことをするように収束してしまわないよう、ルーター直交化損失やトークンバランス損失といった追加の訓練トリックを加えました。結果として、活性化の多様性と、よりスムーズな訓練が実現されています。
パラメータ設計の最適化
では、なぜトークンあたり30億の活性パラメータなのでしょうか?BYUのチームは、この数字がスイートスポットかもしれないと主張しています。深刻な推論を処理するのに十分でありながら、訓練や展開が不可能になるほどシステムを巨大にしないのです。
そして、Apache 2.0ライセンスの下でリリースされているため、研究であれ商用製品であれ、誰でもHuggingFaceから取得できます。この種のオープンさは、特に現在推論に焦点を当てたモデルの多くがクローズドまたはAPIのみである状況では、非常に重要です。
長文コンテキストの革新
ここでの最大の特徴の1つは、コンテキストウィンドウです。A3Bは128,000トークンを処理でき、これはかなり良好です。そして、これを実現した方法は実際に非常に巧妙です。訓練中にロータリー位置埋め込みを10,000から500,000まで段階的にスケールしました。これをフラッシュマスクアテンションとメモリ効率的なスケジューリングと組み合わせることで、突然、長いコンテキスト訓練がハードウェアを破壊しなくなりました。
これは継ぎはぎの解決策でもありません。モデルに直接訓練されているのです。訓練自体は、かなり構造化されたレシピに従いました。ステージ1はテキストのみの事前訓練で、8,000トークンから小さく始めて、徐々に128,000まで上がりました。このモデルはテキストオンリーなので、ここではビジョンとマルチモーダル部分をスキップしました。
構造化された訓練パイプライン
次に、数学、論理、コーディング、科学に関する教師ありファインチューニングが行われました。その後、段階的強化学習です。まず論理、次に数学とプログラミング、そしてより広範な推論タスクです。
ここで興味深いことがあります。彼らは統一された選好最適化を使用しました。これは選好学習とPPOを融合させ、報酬ハッキングを避けて、アライメントをより安定させるのに役立ちます。基本的に、これはモデルをより良く推論させることにレーザー的に焦点を当てた訓練パイプラインです。
ツール使用能力
もう1つ際立っている点は、ツール使用です。このモデルには構造化された関数呼び出し機能が組み込まれています。つまり、単にテキストを生成するだけでなく、推論しながら外部APIや他のツールを呼び出すことができるのです。これは、プログラム合成や記号的推論などにとって大きな意味があります。
また、VLM Transformersバージョン4.54以上やfast deployと統合されています。長いコンテキスト推論と外部ツール使用の両方を必要とするマルチエージェントワークフローやエンタープライズシステムを構築している場合、この能力によってA3Bは非常に実用的な選択肢になります。
A3Bの性能評価
性能面では、素晴らしく見えます。論理的推論、数学、科学的質疑応答、プログラミング全体で強力です。長い思考連鎖ベンチマークで安定した精度を示し、はるかに大きな密なモデルに対して競争力のある結果を出し、信頼できる学術的合成出力を提供します。
BYUは、疎な混合専門家設計、拡張されたコンテキストウィンドウ、そして慎重な訓練パイプラインによって、兆パラメータ領域に入ることなくフロンティアレベルの推論を得ることができると主張しています。OpenAIのo3、AnthropicのClaude、またはQwenと比較して、BYUのアプローチは異なります。効率的で、長いコンテキストに対応し、最も重要なことは、寛大なライセンスの下でオープンです。
MBZUAI・G42のK2 Think
では、MBZUAIとG42からのK2 thinkを見てみましょう。BYUが疎にしたのに対し、MBZUAIは密にしました。K2 thinkは320億パラメータのバックボーンQwen 2.5 32Bから始まり、その上に重い後訓練パイプラインと推論スキャフォールドを重ねています。
彼らが証明しているのは、管理可能なベースモデルを取り、適切なレシピで、はるかに大きなシステムに匹敵する結果を得ることができるということです。
K2 Thinkの6段階訓練パイプライン
K2 thinkの訓練パイプラインには、すべてが連携する6つの大きな要素があります。平易な言葉で説明してみましょう。
最初の部分は「長い思考連鎖教師ありファインチューニング」と呼ばれています。しかし、これが本当に意味するのは、人々が問題を段階的に解決した大量の例をモデルに与えたということです。数学問題、コード、科学的質問、さらには一般的なチャットまでです。アイデアは、モデルに最終的な答えを吐き出すだけでなく、実際にその推論を示すことを教えることです。
そして、改善は迅速に現れました。わずか約半ラウンドの訓練の後、困難な数学タスクでの精度が急激に上昇し、モデルが予想よりも早く構造化された推論を学習していることを示しました。そして、これは強化学習を追加する前のことでした。このサイズのモデルにとって、これは既に本当に印象的です。
検証可能な報酬システム
次に、次の段階である強化学習に進みました。しかし、単に人間の選好を使用するのではなく、全く新しいもの、検証可能な報酬を導入しました。彼らは約92,000のプロンプトを含むGuruと呼ばれるデータセットを構築しました。これは数学、コード、科学、論理、シミュレーション、表形式データの6つの分野をカバーしています。
ここでの重要な違いは、モデルが良い響きのことに対してだけ報酬を受けるのではないということです。実際に正しいか間違っているかをチェックできる答えに対して報酬を受けるのです。これにより学習信号がはるかに信頼できるものになり、モデルがシステムをだます可能性が減ります。これが報酬ハッキングが通常どのように見えるかです。
また、本当に興味深いことも発見しました。この強化学習プロセスを、既に過度にファインチューニングされたモデルから始めると、改善が平坦になります。しかし、ベースモデルにより近い、より早い段階から始めると、改善は大規模になります。これは、バランスがあることを示しました。モデルに構造を与えるのに十分なファインチューニングが必要ですが、強化学習が実際にそれをより良くするための余地を残さないほど多くはありません。
推論時の計画機能
さて、K2 thinkをよりエージェントらしく感じさせる部分です。推論時、つまり実際に質問に答えているとき、直接解決策に飛び込むのではありません。代わりに、最初に短い計画を書きます。アウトラインのようなもので、そしてその計画に基づいて完全な答えを生成します。
その後、いくつかの異なる可能な答え、例えば3つを生成し、それらを検証器を通して実行し、どれが最も正しい可能性が高いかを見つけます。結果は、精度の向上だけでなく、より短く、よりクリーンな答えです。そして、これは珍しいことです。なぜなら、通常ステップを追加すると、より長い出力になるからです。
性能評価と効率性
推論時に、K2 thinkは精度、効率性、そして生の速度の稀有な組み合わせを示します。AIME24では90.83を記録し、応答が6.7%短くなりました。AIME25では81.24に達し、3.9%削減しました。HMMT25では73.75のスコアで7.2%カットしました。そして、最も困難な数学ベンチマークの1つであるOmnihardでは、答えを11.7%縮小しながら60.73を記録しました。
高精度と軽量な出力のこの組み合わせは稀有です。なぜなら、ほとんどのモデルはタスクが困難になるにつれて冗長になるからです。そして、他のシステムと比較して、その答えは実際にQwen 3 2.5 235B、A1 22Bよりも短く、GPT-4o-mini 120Bと同じ範囲にあります。これにより、これらの効率性の向上がさらに印象的になります。
コーディング・科学分野での性能
このパターンは数学以外でも続きます。主要なコーディングベンチマークであるLive Codebench V5では、K2 Thinkは63.97を記録し、56.64のQwen 3 2.5 235B A1 22Bを上回り、同時に応答長を10.5%削減しました。SciCodeでは、サブプロブレムで39.2、メインタスクで12.0を記録し、そのコーディング能力が単一のデータセットを超えて拡張されることを示しました。
科学的推論では、GPQA diamondで71.08、HLEで9.95に達しました。再び、これが単なる数学の専門家ではなく、知識集約的な分野全体で競争力があることを証明しています。
安全性と堅牢性
そして、単に良い性能を発揮するだけでなく、安全で堅牢です。マクロ安全性4のスコアは0.75で、拒否率83、会話の堅牢性89、ジェイルブレイク耐性72、サイバーセキュリティ56となっています。数学と推論がそのハイライトですが、MBZUAIのチームは明らかに生の能力とガードレールのバランスを考慮しました。
高速推論とハードウェア最適化
これらすべてが生の速度によって支えられています。複数のトークンを一度に予測する投機的デコーディングとCerebras Wafer-Scale Engineハードウェアが推論を処理することで、K2 thinkは毎秒約2,000トークンを出力します。これは研究速度ではなく、本格的な生産レベルのスループットです。そして、彼らの小さいが高速という哲学を生き生きとさせています。
総合評価とオープンソース戦略
すべてを合計すると、全体像は明確です。K2 Thinkは数学、コーディング、科学全体でフロンティアレベルの推論を提供し、ほとんどのものよりも高速で軽量に動作し、予想以上に安全性を保ちながらそれを行います。
そして真の決め手は、わずか320億パラメータでありながら、671億パラメータのDeepSeek V3や120億のGPT-4oのようなモデルと競争しながら、これらすべてを達成していることです。この種のパラメータ効率性が、このシステムを際立たせるものです。
そして、BYUと同様に、MBZUAIもこれをオープンにしましたが、彼らは完全に行きました。重み、訓練データ、展開コード、テスト時最適化コード。完全な透明性、これは稀有です。特に、これほど良い性能を発揮するモデルにとっては。
研究者にとっては巨大です。結果を再現し、新しいアイデアをテストし、システムを拡張することができます。企業にとっては、クローズドなプロプライエタリAPIに依存する代わりに、もう1つの強力なオープンオプションです。


コメント