MiMo 2.5 PRO(1T)をテスト:これは知的なのか?

LLM・言語モデル
この記事は約17分で読めます。

本動画は、Xiaomiの新しいAIモデルMiMo 2.5 Proを、独自のエレベーターテストによって検証する内容である。1兆総パラメータ、420億アクティブパラメータを持つMoEモデルとして期待される一方、実際の因果推論、長い推論トレース、複雑な制約下での最適化能力はどの程度なのかが焦点となる。Kimi K 2.6との比較を交えながら、単なるベンチマークスコアでは見えにくい論理構造、探索と活用のバランス、科学的タスクへの適性を詳しく見ていく検証である。

MiMo 2.5 PRO (1T) Tested: Is It Intelligent?
Designed for “long-horizon tasks” and very long agent workflows, I test the NEW MiMo V2.5 PRO on a long reasoning test. ...

MiMo 2.5 Proの登場とテストの概要

コミュニティの皆さん、こんにちは。戻ってきてくれて本当にうれしいです。

はい、新しいAIモデルが登場しました。そして、これをテストしていきます。XiaomiのMiMo 2.5です。今回はProfessional版を使います。これはもともと2026年4月22日に公開されたもので、パブリックベータが提供され、まもなくオープンソース化される予定です。そして私たちはそれを入手したので、実際にテストしていきます。

これは総パラメータ数1兆のMixture of Expertsモデルで、アクティブパラメータは420億です。つまり、これは巨人級のモデルです。

ここで比較したい場合のために、私には標準テストがあります。エレベーターテストです。0階から50階まで移動し、ボタンを何回押すかが評価基準になります。

見てください。German 4.4BもMixture of Expertsですが、9回のボタン押下と非常口という結果でした。これは特別な解法です。Qwen 3.6、アクティブ3Bでは、8回のボタン押下と非常口でした。5.4 highも8回でした。

ですから、これで本当に比較できるわけです。ただし、これは私のテストに限った話です。私がテストしているのは、因果推論、長い推論トレース、10分にわたる推論トレース、科学的問題、密な論理ネットワークです。私が見ているのはそこです。

ベンチマーク上のMiMo 2.5 ProとKimi K 2.6の比較

それぞれのテストについて、私は個別の動画を用意しています。そこに行けば、ライブで見ることができます。前回のMiMo version 2 Proの動画は、もう12日前でした。いやはや、Minimaxと一緒に見たものです。

しかし今は、新しいMiMo version 2.5 Proがあります。そしてここでも、この会社によるArtificial Analysis Intelligence Indexが見えます。この会社は10個のベンチマークを取り、それら10個のベンチマークを組み合わせています。

その結果として、これはKimi K 2.6の性能と同一だという評価になっています。つまり、この10個のベンチマークによれば、MiMo version 2.5 ProとKimi 2.6は同等であるはずだということです。

そしてここにはDeepSeek version 4 Proがあり、こちらにはDeepSeek version 4 Flashがあります。私の科学的テストでは、これは正しくないと感じました。Flashのほうが良い性能を出しました。ただし、ご存じのように、これは統計モデルです。確率的なモデルです。つまり、非決定論的なモデルです。

Kimi K 2.6については、個別の動画があります。なぜかというと、これも総パラメータ1兆のモデルだからです。Mixture of Expertsで、現在アクティブパラメータは320億です。

最適な量子化は何かという質問もたくさんありました。ここではQ8が推奨されています。つまり8ビット量子化で、ディスク容量は約600GB必要になります。そして、おそらくVRAMは約80GBあったほうがよいでしょう。

Arenaでのライブ比較開始

ライブに行きましょう。

そして今、Arenaでライブです。ご覧の通り、標準テストを用意しています。左側にはMiMo version 2.5 Proがあり、右側にはKimi K 2.6があります。見てみましょう。

どちらのシステムも同じように開始し、ここで特定のボタン押下を理解しようとしています。ボタンAとは何なのか、ボタンBは何をするのか。このボタン押下の背後にある数学的アルゴリズムは何なのか。どれくらいのエネルギーを消費するのか。特定の階数で押した場合、何が起こるのか。

それは、その階数が素数かどうかにも依存します。そして、このAIモデルを待ち受けるさらなる問題もあります。なぜなら、これは本当に因果推論テストだからです。

これは、ホームページを作ってください、というようなものではありません。私は本当に、このシステムの知能、論理能力について見たいのです。

ご覧の通り、どちらのシステムもかなり良いと思います。今、ボタンEの押下を理解しようとしています。MiMo version 2.5では、システムの未解決パラメータ、自由パラメータを本当にすべて見ていっているのが分かります。

次にボタンFです。ここで何が起きているのか理解しようとしています。G、素晴らしいですね。Hもあります。今度は特殊な階のトリガーです。素晴らしいです。

特定のボタン押下の列があると、何かが起こります。もちろん、それは数学的アルゴリズムです。そしてシステムはこれを最適化しなければなりません。

0階から50階へ行くための、最短のボタン押下列を見つけなければならないのです。

MiMo 2.5 Proの推論トレースの印象

すぐに言えますが、MiMo version 2.5 Proは本当に良いです。古いモデルの推論トレースでは、ここまではっきり見たことがないような論理構造があります。本当に良いです。

かなり戦略的に開始しているように見えます。パラメータを理解しようとし、物理システム内の自由度を理解しようとしています。どんな選択肢があるのか。そして、ここで可能な最短経路は何なのかを理解しようとしています。

Kimi K 2.6もかなり似ています。ただ、感覚として言えば、現時点では、この推論トレースで見えているものについてはMiMo version 2.5 Proのほうを好みます。

0階から始めました。今、最初の前進経路を作り始めています。そしてコードカードを理解しようとしています。どのコードカードを、どの特定の階で有効化すれば、特定のボーナスが得られるのか。

ご存じの通り、このテストの中には、複数の絡み合った最適化問題があります。

ひとつは、利用可能なエネルギーを制限していることです。また、一定のトークン制限もあるはずです。さらに、特定のシーケンスを押すと時間が逆行する、といったものもあります。

ですから、何千、もしかすると1万通りの選択肢があります。単純に総当たりで、すべての解法を試すことはできません。だからこそ戦略が必要なのです。

そして、MiMo version 2.5については、私はこれをもう1年やっていますが、はい、本当に良いです。何が起こっているのかを正確に理解できます。

これはこの問題に対処する古典的な方法です。どのコードカードがどの階で必要なのかを探索しようとしています。13階にいる場合と15階にいる場合、その効果は何なのか。効果は異なります。その背後には異なる数学関数があります。

したがって、現在地と、過去にすでに押したボタンの列に応じて、ここで最適化していくことになります。

Kimi K 2.6との探索スタイルの違い

Kimi 2.6は、少し急ぎ過ぎている感じがあります。かなり探索フェーズにいると言えるでしょう。可能な解をすべて見つけようとしています。しかし、数千通りあるので、それにはあまり意味がありません。

戦略を持つべきです。少数の可能性のある探索に集中し、そこから掘り下げるべきです。より深いレベルへ行く。さらに2段階深く行く。数学的な解を見つけようとするべきです。

なぜなら、最初のレベルですぐに起こるほど簡単ではないからです。通常、解は3段階下、4段階下にあります。

この均衡、つまり解空間があり、そこにこの2つのモデルが入っていくとします。MiMo version 2.5 Proにも探索フェーズがあるのは分かります。しかし、ひとつの可能な解に集中すると、そこから1段階、2段階深く進んでいくのがはっきり分かります。そこで活用しようとします。

では、その後に何が起きるのか。そのステップの次のステップは何なのか。

Kimi K 2.6は、解空間全体を走り回っている感じが強いです。探索、探索、探索です。しかし、ある問題を、おそらく局所最小値として特定し、そこから本当に掘り下げて解を見つけようとする動きがありません。

この点では、MiMo 2.5のほうが少し良いです。

もちろん、これは数百もの推論トレースを見てきたうえでの個人的な感覚にすぎません。そして私は、この内部推論トレースを見るのが大好きです。また、どちらのモデルもオープンな推論トレースを持っていることを本当に高く評価しています。

ご覧の通り、ステップ12、ステップ13、ステップ14、ステップ15です。つまり、かなり重いチェーンです。

押下ステップ17。いやはや、20がここでの上限です。18回のボタン押下です。18回のボタン押下で解を見つけました。しかし私たちが探しているのは、8回のボタン押下プラス非常口のようなものです。最大でも10回のボタン押下プラス非常口です。

なぜなら、これは1兆パラメータモデルだからです。ですから、このシステムが強力であることを本当に期待しているのです。

このトレースを見てください。今、MiMoも少し掘り下げ始めています。はい。しかし残念ながら、これは解へ向かう正しい未来の道ではありません。

夜勤、night shiftを入れています。これは、1日の特定の時間帯では少し異なるようにするために入れたものです。そうです。システムの論理、因果推論を本当に複雑にしてテストしたかったのです。

なぜ1兆パラメータモデルが作られるのか

なぜ1兆パラメータのシステムなのか、とコメントで質問されます。

企業は、地球上のすべての人に対して、何でもこなすひとつのモデルを持ちたいのです。18世紀フランス風の詩を書き、絵を描き、動画生成のようなことをし、音楽を作り、テキストから動画への変換をし、その他すべてを行う。

ひとつの単一モデルを本当に訓練し、そのモデルがすべてをこなさなければならない場合、それらのモデルは本当に巨大になります。

私は、特定の仕事に特化したモデルを持つほうを好みます。たとえば、テキストから画像、テキストから動画といったモデルです。そして、科学的タスクを行うモデルを持つ。もしかするとLLMだけかもしれませんし、Vision Language Modelかもしれません。

しかし私は、より小さく、高度に専門化されたモデルで行くほうを好みます。この地球上のすべての人のために、すべてをひとつのモデルが行うという形ではありません。そうすると、事前学習可能な自由パラメータが1兆を超え、そのマシンを起動するだけで、どれだけのGPUノードが必要になるのか分かりません。

解空間の広がりとMiMoの苦戦

さて、推論トレースに戻りましょう。

ご覧の通り、より短いシーケンスを見つけようとしていますが、混乱してきています。今はエネルギー最適化のレベルにいます。そして、私たちのMiMoはかなり激しく戦っています。

まだここで解を見つけていません。ただ、時間はあります。問題ありません。

しかし、ここでQwen 3.6と比較して見ると、まだ最適化されていないと言えるでしょう。Qwen 3.6ははるかに速く、少数の可能な解に集中し、その少数の解だけを掘り下げていました。

しかし、ここではどちらのモデルも、解空間の中で広く散らばっています。多くの可能性を試しています。

そして言わなければならないのは、MiMo version 2.5 Proのほうが良いということです。少しだけ集中しています。しかしKimi K 2.6は、あちこちに飛び回っています。

見てください。これを試し、これを試し、ああ、今度は制約に戻っています。アイデアを組み合わせてみよう。D 4 15を使おう。今はバッファが必要だ。今度はこれをやる。次はこれをやる。

これは単なる試行錯誤の列です。もし解空間が本当に限られているなら、これでうまくいくかもしれません。非常に単純なタスクなら成功するでしょう。

しかし私は、自分のエージェントの中核、LLMそのものがどれほど知的なのかを本当に理解したいのです。

ご覧の通り、複雑さを踏まえ、上昇を短縮できるか試してみる、と言っています。

今、MiMoは0から50までを、5から10ステップ程度の部分に分割しようとしています。しかしこれはそれほど簡単ではありません。なぜなら、このパズルは段階的な最適化ができないように作ってあるからです。

システム全体を貫く複雑性があります。ですから、単にパートAを解き、次にパートB、そしてパートCを解く、ということはできません。システム全体を解かなければならないのです。

そして、それと格闘しています。しかしここで、29階の非常口を見つけました。

つまりMiMoは最初の解を見つけました。そう言ってよいでしょう。はい、これは素晴らしいです。本当にそうです。別ルートで29階に到達する必要があります。非常口を使えます。はい。

押下回数が多すぎます。おっと。さて、今何が起きているのでしょうか。非常口はボタン押下ではありません。正しいショートカットを見つけました。

両方クラッシュしました。両方のモデルがクラッシュしました。

2回目の試行とMiMoの最初の有効解

よし。誰にでもセカンドチャンスはあります。すべてのマシンをもう一度起動します。これをもう一度始めます。はい。

ただ、すでに解に近づき始めていたと思います。

この2回目では、実行しているところだけをお見せします。ただし、同じ考えをまた最初から全部一緒に追うことはしません。ご覧の通り、だいたい同じだからです。

5分24秒後、今何が起きているでしょうか。MiMoが、最初の答え、もしかすると有効な最初の解に近づいています。

見てください。すべてを再確認しています。シーケンスがあります。素晴らしい。

MiMo、はい。これは正しいでしょうか。最後の瞬間に少し評価があります。これは素数でしょうか。これを再検証しましょう。グリーンコードを再検証しましょう。ミラーモードを再検証しましょう。

すべてが今、検証され、再検証されています。そしてここに、MiMo 2.5 Proの最初の結果があります。

それは何でしょうか。

私たちは8回プラス非常口を探しています。今はいくつでしょうか。何ステップあるでしょうか。7、8、9、10。10回プラス非常口です。

つまり、10回のボタン押下プラス非常口です。これは有名な結果というほどではありません。まあ、悪くはありません。うまくいけば有効な解です。検証実行が必要ですが、少なくとも解は見つけました。

10は、10なら許容範囲です。許容範囲だと言えるでしょう。私は8以下を期待していました。このモデルのサイズを考えるとそうです。

しかしご覧の通り、1兆モデルであっても、AIで可能なすべてをこのモデルにやらせたい場合、それでも十分大きくはないのです。十分に知的ではありませんし、アルゴリズムも十分に戦略的ではありません。また、探索フェーズと活用フェーズの均衡も十分に正確ではありません。

ですから、10回のボタン押下プラス非常口は許容範囲です。ただ、少し、いや、本当に驚くほどではありません。

はい、29階を見つけました。非常口を見つけました。少し成功ではありますが、これは素晴らしい性能だったと言えるほどではありません。

Kimiは、理由は不明ですが、すみません、と言いました。

では、最初の検証実行を行いましょう。そこで、結果を検証してください、ステップごとに進み、与えられたすべての制約を守っていることを示してください、と言います。では開始です。

もちろん、ここでは左側のMiMo version 2.5 Proだけを見ています。Kimiはまた最初からやり直し、まだ解を見つけていないことを理解しているからです。

ただ、なぜなのかは分かりません。サーバーが停止したのかもしれません。タイムアウトかもしれません。あるいは現在、別の問題が起きているのかもしれません。まあ、気にしないでおきましょう。

Kimi K 2.6については動画がありますし、別の動画を見に行けば、最初でも2回目でもここで崩壊したことが分かります。そして幸運にも、これは統計モデルです。決して忘れないでください。解を見つけました。ですからKimiの性能については分かっています。

今はMiMoをテストしています。

検証中に解を修正するMiMo

見てください。実際に進めています。現在の階、はい、今Bを押します。6回目の押下はCです。

ただ、お気づきの通り、今何かが起きています。ここで間違いをしたことを発見しました。つまり、リアルタイムで修正しているわけです。

複雑になってきました。考え直しましょう。あるいは、そこへ行くべきかもしれません。もう一度経路を考え直しましょう。ああ、これは素数です。では、もう一度これを追跡しましょう。

そこで戻ります。今は5回目の押下、6回目の押下、8回目の押下です。そして、はい、軌道に戻りました。

ですから、推論プロセスの中で解を見つけたようです。

はい、これは今削除されました。つまり、新しい解があります。今、ダブルチェックする必要があります、とMiMo version 2.5 Proが言っています。

これを呼び出しましょう。ここを見てみましょう。上ボタンBのルール確認。はい、問題ありません。これは良さそうです。そして非常口。はい、これも良さそうです。

ここにチェックマークが出ました。すべてのボタン押下、素晴らしいです。

では、どこにいるでしょうか。10です。つまり10回のボタン押下と非常口です。ただし、今は異なるシーケンスになっています。

つまり検証によって、シーケンス自体が修正されたことが分かりました。しかしシーケンスの長さは同じままです。10回のボタン押下プラス非常口です。

ランダムトラップを確認しています。ゼロ。素晴らしい。連続したA押下。はい、これを検証しましょう。もう一度検証します。目標到達。すべて明確です。良さそうです。

もう一度確認します。すべて正しいです。青と赤のコードカードがあります。論理的に考えています。

最終確認。待って、もうひとつあります。自分の解をもう一度確認しましょう。Dを押したのは1回だけです。はい、確認。

いやはや。

そして今、最終回答があります。はい、見てください。2回目の押下、3回目の押下。今、新しいシーケンスがあります。少し大きくしましょう。

では、ここはどこでしょうか。ライブに行きましょう。6回目の押下、7回目の押下、8回目の押下、9回目、10回目は再びBであるはずです。はい。

そして非常口があります。アクション11は非常口の呼び出しです。つまりここで、見て分かる通り、10回のボタン押下プラス1回の非常口呼び出しだと伝えています。

はい。ただし注意してください。これは異なるシーケンスです。異なる結果が得られています。シーケンスの長さだけが同一なのです。

検証によって、MiMo 2.5 Proの新しい解が示されました。常に覚えておいてください。これは統計モデルです。すべてのルール、すべてのトリガー、すべてのコスト、すべての制約が満たされています。解は有効です。

そして今、もう一度、まさにこの解を検証しなければなりません。これは単なる新しい解です。最初の解を本当に検証したものではありません。ですから注意が必要です。

シーケンスを見たい場合、これはシーケンスを示してくれません。見てください。0から開始、とだけ言っています。そして1回目を押し、2回目を押す。つまりB、E。はい。

10回のボタン押下があります。そしてMiMo 2.5 Proの2回目の検証実行です。

Kimiはまた、どうしたのでしょうか。Kimiサーバーに何が起きたのか分かりません。もう忘れましょう。

最終検証と10回押下の確定

MiMoは、この2回目の検証実行で今何をしているでしょうか。

ユーザーは正確なシーケンスを出力してほしいと言っています。はい、分かりました。今、最終確認として検証します。

ここでもまたボタンについて進めています。はい、ボタンの機能が何なのか、ボタン押下の背後にある数学的操作が何なのかを再び理解しています。

これが私のシーケンスです。おお、良いですね。ここにあります。はい。これは良いです。

考え直しましょう。最初の解では、これを使いました。B、E、E、D。2つ目の解では、B、E、B、Dを使いました。異なるシーケンスです。はい。どちらも機能するはずです。2つ目は1つ目に比べて1回押下を節約できるので、2つ目で行きましょう。実際にゼロからもう一度検証します。

追跡してみましょう。つまり、ゼロからもう一度始めます。

すごいですね。8回目の押下、9回目の押下、非常口を呼び出します。よし。すべて確認できました。これを明確に示しましょう。

B、E。これは興味深いです。つまり、今は2つ目を採用しました。これはまさに私が検証してほしかったシーケンスです。

ただし注意してください。戻って、どちらも正しいはずだという考えを持っていました。奇妙です。ここに一貫性がありません。

では、最終結果がどうなるか確認しましょう。再び10回のボタン押下プラス非常口であることを期待しましょう。

9、10のほうが良いはずです。B、B、はい。そして最後に非常口の呼び出しがあります。よし。つまりシーケンスの長さは10プラス呼び出しです。素晴らしい。

ほら、これは良いですね。これは良いリストです。見てください。すべてが緑のチェックマーク付きで詳細に示されています。

ですから最終結果はここです。こう言っています。よく聞いてください。すべて、見てください。あなたのすべての条件について、私はすべて確認しました。これは10回のボタン押下による解で、そこに非常口が加わります。

MiMo 2.5 Proの評価と科学的長時間推論への適性

MiMo version 2.5は、許容できる性能だと思います。モデルサイズを考えると、少しがっかりです。覚えておいてください。Qwen 3.6のアクティブ30億パラメータは、これをより良い性能で解くことができました。

しかしいずれにせよ、これらは統計モデルです。通常、私は3回実行します。そして、この動画の録画を終えたあと、感覚をつかむためにさらに3回実行します。

ただ、現時点では、これが私たちの検証済みシーケンスです。

見てください。7、8、9、BのABCシーケンスは正しいです。しかし1から6まで、ここが最適化されていません。1から6が非最適化シーケンスであり、ここでMiMo version 2.5 Proは負けています。

ですから最終結果として、私はMiMo version 2.5 Proを、自分の特定の科学的な長時間推論タスクに使うでしょうか。

おそらく使わないと思います。

コメント

タイトルとURLをコピーしました