DeepSeekとMicrosoftが狂気の新モデルでOpenAIに一撃を加える！

5,101 文字

DeepSeek and Microsoft Just Slapped OpenAI Across the Face with New Insane Models!

DeepSeek, Microsoft, and Xiaomi have just released powerful new open-source AI models focused on advanced reasoning, cod...

Deepseekが6710億パラメーターのモデルを発表しました。このモデルはまるでPhDを自動化しようとするかのように数学の定理を検証できます。Xiaomiはコーディングや数学タスクにおいて、はるかに大きなモデルよりも優れたパフォーマンスを発揮する、コンパクトな70億パラメーターのモデルを発表しました。そしてMicrosoftは、OpenAIの最高モデルに迫るベンチマークスコアを記録する140億パラメーターのモデルをリリースしました。これらすべてが2日以内に起こったのです。
これは単に数字が大きくなっただけの話ではありません。では、何が起こったのか詳しく見ていきましょう。最初の目的地は北京です。正確にはHugging Faceで、DeepseekがProver V2を爆発的に公開しました。そして、その名前が示す通り劇的なものです。去年の夏のR1スプートニクモーメントを覚えているなら、彼らが控えめなことをしないのはご存知でしょう。
彼らは記録を破り、議論を巻き起こし、何十億ものパラメーターを持つモデルを気軽に世に放ちます。Rover V2は驚異の6710億パラメーターを誇ります。それなのに、このモデル全体がMITライセンスという寛容なライセンスの下で公開されています。まるで大したことではないかのように。FP8に量子化されていますが、完全な重みは約650GBにもなります。
ダウンロードするのは午後の実験というよりは、週末の予定をキャンセルするレベルの話です。しかし一度ローカルに置けば、一つのことを信じられないほど上手くやってのけます。それは正式な数学的証明の検証です。単に答えを吐き出すような象徴的なものではありません。実際にオリンピアドレベルの問題を取り、それを形式的なLean 4コードに変換し、機械で検証可能な証明を生成します。
これは単に賢いというだけではなく、学術的な重労働が数秒に圧縮されたものです。ここでの系譜は単なる雑学ではありません。重要なのです。Prover V1とV1.5は70億パラメーターのDeepSeek Mathをベースに構築され、どちらも主に他のモデルによって生成された合成データで訓練されました。V1.5はトレーニング効率と実行速度の最適化に焦点を当て、テストセットでの精度向上につながりました。
しかしV2は別格です。その膨大なパラメーター数は、昨年すでにOpenAIのO1モデルと一対一のパフォーマンス比較で匹敵することで注目を集めた、以前のR1基盤の上に構築されていることをほぼ保証しています。DeepseekはProver V2が数学的知識を圧縮すると言いますが、これは詩的な表現で、厳密な証明を躊躇なく書いてチェックするのに十分な数学を知っているという意味です。
これは単なる象牙の塔のおもちゃではありません。教育、数学研究、自動採点、そして検証済みのロジックが単に役立つだけでなく使命的に重要である暗号技術における形式的方法など、潜在的な用途について話しています。オープンウェイトのリリースはすでにR1と同じような賛否両論の反応を引き起こしています。一部の人々は喜んでいます。
透明性、アクセシビリティ、オープンサイエンスにとって大きな勝利です。他の人々はそれほど喜んでいません。彼らは「GPUさえあれば誰にでもフェラーリを渡すとどうなるのか？セキュリティへの影響は現実のものであり、議論は再び加熱している」と問いかけています。しかし、ここで重要なのは、これは無謀なリークではないということです。
計算された動きであり、技術的な作業がそれを裏付けています。そのFP8量子化は単に賢いだけでなく、不可欠です。標準モデルはFP16で重みを保存し、メモリ要件を2倍にします。これを半分に減らすことで、ファイルサイズが減るだけでなく、メモリ帯域幅の効率とインファレンス速度が向上し、ハードウェアを手に入れられる人々にとって実際に使えるものになります。
そして、蒸留があります。小さなモデル（生徒）を訓練して、V2のような大きな教師を模倣させるのです。これにより、単一の高性能ワークステーション、さらには最終的にはラップトップでも実行できるProverの軽量バージョンが得られるでしょう。コミュニティはすでに熱心に取り組んでおり、初期の実験では4ビット、さらには3ビットの量子化技術をテストしています。
精度とパフォーマンスのトレードオフに関する未開拓の領域であり、急速に進展しています。R1のロードマップが何らかの兆候を示すなら、このモンスターの合理化されたバージョンが研究所や大学から民間の研究施設、さらには個人のリグにまで登場するのを見ることになるでしょう。結論として、Deepseekは定理証明を主流にし、誰もその意味するところに完全には準備ができていません。
その論争を念頭に置きながら、深圳へと視点を移しましょう。そこでスマートフォン大手のXiaomiが、大きさではなく危険なほど効率的であることを目指す新しい推論モデルMIMO 7Bを発表しました。ほとんどのオープンソース推論モデルが320億パラメーター前後を浮遊する中、Xiaomiはわずか70億パラメーターで柔軟性を示しています。
しかし、規模を拡大する代わりに、彼らは深く掘り下げました。このモデルは絶対的に膨大な25兆トークンで事前訓練され、3段階のデータミキシングパイプラインを通じて、最終段階では数学とコーディングタスクの割合を70%まで段階的に増加させました。それだけでも重量級になるでしょう。しかし彼らはさらにコンテキスト長を驚異の32,768トークンに拡張しました。
これは完全なコードベースや長鎖の数学証明を、ステップを一つも落とさずにメモリに保持するのに十分なスペースです。これはコンパイラをデバッグしたり、複数ステップのオリンピアド問題を解いたり、3つのネストされたforループと壊れた再帰を持つ乱雑なPythonスクリプトを書いたりする場合に大きな意味を持ちます。しかし、トリックはそれだけではありません。
MIMOはマルチトークン予測を使用しており、一度に1つずつ次のトークンを推測する代わりに、複数のトークンを同時に予測します。これにより、特に推論速度が実際に重要なタスクにおいて、より鋭いロジックと高速な推論が可能になります。ベースモデルが訓練された後、XiaomiはそれをRL（強化学習）の2つのバリアントに分岐させました。
MIMO 7B RL0は生のベースウェイトから始まり、一方MIMO 7B RL0は教師あり微調整版の上に構築されています。両モデルは130,000の厳選された検証可能な数学とコーディングの問題を処理しました。そして興味深いことに、Xiaomiはテスト難易度駆動の報酬システムを導入し、より難しいテストケースはより多くの報酬を支払うようにしました。これによりモデルが実際に重要な問題を解くよう促しています。
また、簡単な成功に過度に適合するのを避けるため、彼らは賢い簡単データ再サンプリングトリックを組み込み、モデルがより少ない頻度で問題を解くようにしました。これによりトレーニングが動的に保たれ、モデルが通常の繰り返しの罠に陥るのではなく、自分自身を伸ばすことを強制します。そして実際、数字がこれを裏付けています。AIME 2025では、MIMO 7B RLは55.4のスコアを記録し、OpenAIのO1 Miniを+4.7ポイント上回っており、これは決して小さな差ではありません。
Live Codebench V5では57.8%を達成し、320億パラメーターで41.9%に留まっているAlibabaのQWQ previewを完全に凌駕しています。公平を期すために言えば、Alibabaのより新しいQwen 330B A3Bは62.6%でまだ先頭を走っていますが、サイズが1/4のモデルであるMIMO 7Bは当然持つべき権利以上にその地位を保っています。
そして、これはクラウドのみのセットアップではありません。これを単一の高VRAM（ビデオメモリ）ワークステーションで実行できるため、外部APIやデータセンターに依存しないローカルファースト開発ワークフローの扉が開かれます。Xiaomiはモデルにいくつかの癖があることを認めています。数学面に強く出すぎると、コーディングの精度が少し下がることがあり、また英語タスク中に時々モデルが中国語に滑り込む瞬間があることもあります。
しかし、Base、RL0、RLという3つのバリアントはすべて、寛容なライセンスの下でGitHubに公開されており、誰でも好きなようにフォーク、微調整、またはリミックスできます。Xiaomiはまた、ユーザーがモデルのパーソナリティやドメインフォーカスをリアルタイムで切り替えられる制御ツールの登場を示唆しており、数学モードに深く浸るか、コードを書くか、あるいはその両方を混ぜるかに関わらず使用できます。
したがって、MIMO 7Bは単に大きな野心を持つ小さなモデルではなく、サイズがすべてではなく、よりスマートなトレーニングが力任せのアプローチを打ち負かす未来を目指した精密な一撃です。3番目の競合者はレッドモンド（マイクロソフト本社）からのものです。マイクロソフトリサーチはFI4推論ファミリーを発表し、140億パラメーターで固定しました。MIMOよりは大きく、Proverよりずっと小さいです。3つのフレーバーが出荷されています。
FI4 Reasoning、FI4 Reasoning Plus、そしてポケットサイズのMiniです。すべてのバリアントはベースV4から派生していますが、数学、科学、ソフトウェアにおける重い推論用に調整されています。これは教育、ソフトウェア、QA、エンジニアリングシミュレーション向けの展開可能で効率的な推論AIへのマイクロソフトの広範な取り組みの一部です。
マイクロソフトはXiaomiのスクリプトを反転させます。生データ量の代わりに、モデルを伸ばす140万の境界プロンプト、エッジケースを厳選します。参照回答はOpenAIのO3 miniの高推論モードから提供され、すべての回答は思考の連鎖と最終的な答えを区別する明示的なタグでラップされています。彼らはまた、54がMimoのワークスペースに匹敵する32kトークンを操作できるようRopeの周波数を調整しています。
この形式を意識したトレーニングにより、モデルは推測して近くに着地するのを望むのではなく、まず考えて答えるという学習をします。Fe reasoning plusはその後、6,400の厄介な数学パズルで群相対ポリシー最適化の洗練を受けます。報酬は簡潔さと適切なフォーマットを好み、繰り返しと冗長性にペナルティを与えます。マイクロソフトの分散チャートは50の生成実行において、FI4 reasoning plusがOpenAIのO3 MiniをAM 2025で一致または追い越し、蒸留されたDeepseek R1よりも安定していることを示しています。
また、明示的なトレーニングがないにもかかわらず、TSPやThreatのような計画パズルにも一般化します。これは小さな偉業ではありません。モデルが単にテンプレートを記憶するのではなく、抽象的な推論能力を開発したことを示唆しています。展開の観点から見ると、140億パラメーターはちょうど良いサイズであり、4ビットに量子化すれば、単一の強力な消費者向けGPUから提供できます。
教室や個人開発ツールに最適です。マイクロソフトはHuggingFaceに完全なトレーニングログと評価の痕跡を提供し、監査や派生実験を招待しています。そして彼らは、物理学、化学、高度な微積分のモジュールを含む、STEM家庭教師を目的とした将来のバリアントを示唆しています。考えるべきことがあります。
これらのモデルが数学、論理、コードに非常に優れるようになり、私たちが完全に理解していないシステムを書き始めたらどうなるでしょうか？我々が構築者であることをやめ、傍観者になり始めるのはどの時点でしょうか？それがあなたの頭を少し混乱させないなら、あなたは特別な構造を持っています。とにかく、まだの方は購読してください。
視聴いただきありがとうございます。次回の動画でお会いしましょう。