中国のスマートフォンメーカーXiaomiが、1兆パラメータ規模の大規模AIモデルMimo V2 Proをリリースし、AI業界に衝撃を与えた。当初DeepSeek V4と誤認されたこのモデルは、グローバルランキングで8位に躍進し、Claude Sonnetに匹敵する性能を大幅に低い価格で提供している。同時期にMistralは9言語対応の高速音声合成モデルVoxil TTSを発表し、NVIDIAはAIエージェント訓練を効率化する新システムProRL Agentを開発した。これらの動きは、AI開発における価格競争力の重要性と、音声・エージェント分野での技術革新の加速を示している。

Xiaomiの突然の登場が業界を揺るがす
Xiaomiが突如として大規模な新AIモデルを発表し、人々はこれがDeepSeek V4の早期リークではないかと考えました。Mistralは音声モデルを発表し、AI音声分野を大きく揺るがす可能性があります。そしてNVIDIAは、次世代のAIエージェントをより強力にする訓練システムを構築しています。
まずはXiaomiから始めましょう。今でも多くの人々は、特にアジア以外では、Xiaomiを安価なスマートフォンブランドだと思っています。その認識は完全に時代遅れです。Xiaomiは世界第3位のスマートフォンメーカーで、AppleとSamsungのすぐ後ろに位置し、2025年だけで約1億7000万台のデバイスを出荷しています。彼らのエコシステムは巨大です。
テレビ、スクーター、ウェアラブル、さらには自動車まで展開しています。彼らのSU7 Ultraは、ニュルブルクリンクで量産EVとして最速記録を樹立し、PorscheやRimacのようなブランドを上回りました。彼らはSEブロックチェーンと提携して、複数の地域でデバイスに暗号ウォレットを搭載しています。そして同社の時価総額は約1370億ドルに達しています。
ですから、彼らがAIモデルをリリースするとき、それは単なる実験的な試みではありません。これは真剣な動きなのです。3月18日、XiaomiのAI部門は3つのモデルをほぼ静かに発表しました。Mimo V2 Pro、Mimo V2 Omni、そしてテキスト読み上げモデルです。これは2025年12月のMimo V2 Flashをベースにしており、すでに3090億パラメータのミクスチャー・オブ・エキスパーツモデルでしたが、中国国外ではほとんど注目されませんでした。
謎のモデルHunter Alphaの正体
そして公式発表の前に興味深いことが起こりました。Hunter Alphaという謎の1兆パラメータモデルが、帰属情報なしでOpen Routerに登場したのです。これはリーダーボードの最上位に直行し、使用量が1兆トークンを超え、誰もがこれはDeepSeek V4だと思い込んでいました。DeepSeekの次期モデルへの期待はすでに高まっており、特にコーディングでClaudeやChatGPTを上回るという主張もありました。
しかし、これはDeepSeekではまったくありませんでした。XiaomiはHunter Alphaが実際にはMimo V2 Proの内部テストバージョンであることを明らかにしました。その明かしだけで、彼らの株価は約6%上昇しました。これは基本的に、誰もそれが何であるかに気づく前に業界を直撃したステルス発表でした。
Mimo V2 Proの技術仕様
さて、モデル自体は巨大です。総パラメータ数は1兆以上で、リクエストごとに420億のパラメータがアクティブになるミクスチャー・オブ・エキスパーツ構成を使用しています。
7対1の比率で動作するハイブリッドアテンションシステムを使用し、最大100万トークンのコンテキストウィンドウをサポートしています。さらに、マルチトークン予測機能を備えています。つまり、一度に1つのトークンを生成するのではなく、ステップごとに複数のトークンを予測するため、速度が大幅に向上します。現在はクローズドソースですが、Xiaomiは後で変更される可能性を示唆しています。
パフォーマンス面では、非常に競争力のある位置にあります。Artificial Analysis Intelligence Indexでは世界8位、中国モデルの中では2位で、GLM5のすぐ後ろに位置しています。実世界のコーディング能力をテストするSWE Verifiedでは78%のスコアを記録しています。これはClaude Sonnet 4.6の79.6%のすぐ隣で、Claude Opus 4.6の80.8%のすぐ下です。
エージェント能力を測定するClawalでは61.5で、Opusの66.3と比較されます。そしてPinchbenchでは81.0で、基本的にトップティアのモデルと並んでいます。しかし本当に際立っているのは価格設定です。入力トークン100万あたり1ドル、出力トークン100万あたり3ドルです。Claude Sonnetの3ドル15セントやOpusの5ドル25セントと比較してみてください。
大規模なエージェントシステムを構築している開発者にとって、これは小さな違いではありません。この価格設定は経済性を完全に変えてしまいます。
マルチモーダル版Omniの実力
そしてOmniバージョンがあります。これは視覚、音声、動画をネイティブに処理します。別々のモジュールをつなぎ合わせたものではなく、エンドツーエンドで訓練されています。ドライブレコーダーの映像をリアルタイムで分析し、一種の運転用ブレインとして機能するデモは、本当に強力に見えました。
これは単なるラベルではなく、本当のマルチモーダルシステムのように感じられます。なぜなら、AIがこれほど強力でこれほど手頃な価格になると、それは単なるツールではなくなり、生産エンジンになり始めるからです。
Higsfieldが今日の動画をスポンサーしています。そして最近、彼らのプラットフォーム内でテストしているものの1つがKling 3です。これは正直なところ、現在最も先進的なAI動画モデルの1つです。
Kling 3が違う点は、もはや短いクリップを生成するだけではないということです。実際にマルチショットシーケンスを一度に作成できます。つまり、カメラアングル、トランジション、シーンフローを自動的に処理するため、すべてを手動でつなぎ合わせる必要がありません。また、ネイティブオーディオが組み込まれているため、キャラクターは適切なリップシンク、異なるトーン、さらには複数の言語で実際に話すことができます。すべて生成内に直接含まれています。
追加の編集は必要ありません。もう1つの大きなアップグレードは一貫性です。カメラが動いたり、ズームしたり、角度を変えたりしても、キャラクター、オブジェクト、環境が安定しています。これは今までAI動画の最大の問題の1つでした。そしてこれらすべてがHigsfieldのプラットフォーム内にあり、Cinema StudioやSoulのようなツールと組み合わせることができます。だから、ランダムなクリップを生成するだけではありません。
ワークフロー全体を制御しながら、完全なシネマティックシーケンスを実際に構築しているのです。異なるツールを行き来する代わりに、アイデアから完成したシーンまで、すべてを1か所で行うことができます。自分自身のAI動画を作成し始めましょう。リンクは説明欄にあります。さて、動画に戻りましょう。
Mimo V2 Proの実践テスト結果
さて、実際にMimo V2 Proをテストすると、さらに興味深いことがわかります。クリエイティブライティングでは、単一のプロンプトから3000語以上を生成しました。完全な構造、5つの章、エピローグがあり、文章の質は異常に高かったです。メソアメリカの文脈のような文化的詳細を正確に扱い、ネイティブな用語、リアルな描写、適切な物語の流れを使用していました。
対話は不自然に埋め込まれているのではなく、自然に感じられました。感情の弧はテーマを過度に説明することなく適切に着地しました。実際にストーリーテリングを理解しているように感じられる数少ないモデルの1つです。単に組み立てているだけではなく。
コーディングでは、単一のプロンプトから動作するステルスゲームを提供しました。技術的に機能するだけでなく、視覚的に一貫性があり、実際に見栄えも良かったです。通常のフラットな2Dスタイルの代わりに、2.5Dデザインを選択しました。その後、サウンドやMIDI音楽のような追加機能が加えられたとき、複雑さを壊すことなく処理しました。これはほとんどのモデルが失敗するところです。コードは一貫性を保ち、全体的なデザインも理にかなっていました。
推論に関しては、少し微妙になります。論理的矛盾を含むトリッキーな法的質問をされたとき、モデルは欠陥を正しく特定しました。前提が意味をなさないことを認識したのです。問題は、それを明確にフラグを立てる代わりに、静かに質問を再構成し、そのバージョンに答えたことです。推論自体は堅実でした。しかし、矛盾に明示的に対処せずに進める決定は、より透明性が欲しいところです。
数学、特にフロンティアレベルの数学では苦戦しました。何度もフリーズし、トークンを消費し、答えたときは間違っていました。ステップバイステップの推論の後でもです。ですから、少なくとも今のところ、明らかに限界があります。
エージェント機能とOpenClawの統合
そしてエージェント面があります。XiaomiはこれをOpenClawと直接統合したため、ワンクリックで動作するエージェント環境を立ち上げることができます。セットアップも設定も必要ありません。ただ実行するだけです。セッションはシャットダウンする前に30分間続きます。これは制限です。しかし初心者にとって、これはエージェントシステムへの最も簡単なエントリーポイントの1つです。
全体として、このモデルはクリエイティブタスクとエージェントタスクで非常に強力で、コーディングで競争力があり、価格設定で積極的で、高度な数学や推論の透明性のような分野ではまだ発展途上です。
MistralのVoxil TTS音声モデル
さて、Mistralと彼らの新しいVoxil TTSに移りましょう。これはMistralのAI音声生成への最初の本格的な動きであり、重要なのは彼らが音声パイプラインの最後の部分をカバーしているからです。つまり、テキストや書き起こしを処理するだけでなく、実際の音声も生成できるようになりました。これにより、大手音声AI企業に対してはるかに強力な立場になります。
モデル自体は現在の基準では40億パラメータとかなり小さいです。そしてそれが興味深い点の一部です。Mistralは単に巨大にするのではなく、よりスマートな方法で構築しました。一部はテキストを処理し、何を言うべきかを把握します。別の部分はそれを音声の音のパターンに形成し、別の部分はそれを最終的な音声に変換します。
このセットアップにより、自然で表現力豊かな音を保ちながら高速を維持できます。そして速度はここで大きな部分を占めています。Mistralによると、Voxilは500文字の入力から10秒の音声サンプルに対して約70ミリ秒のレイテンシーで応答できます。これは非常に高速です。また、リアルタイムの約9.7倍の速度で動作します。つまり、人が話すよりも約10倍速く音声を生成できるということです。
リアルタイムアシスタントや音声ツールにとって、この種の速度は全体的な体験をはるかにスムーズにすることができます。
Voxilの多言語対応と音声クローニング
また、すぐに9言語をサポートしています。英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語です。そしてこれは単に異なる言語で単語を読むだけではありません。
Mistralによると、方言、リズム、そして人々が実際に話す方法の小さな違いもキャプチャできます。これはAI音声をより信頼できるものにするための大きな要素です。
音声適応も大きな機能です。Voxilはわずか3秒の参照音声を使用して音声をクローンできます。つまり、小さなサンプルで、異なる言語でもその音声で話し始めることができます。これはブランド化された音声、パーソナライズされたアシスタンス、ローカライズされたコンテンツへの扉を、はるかに低いハードルで開きます。
ベンチマーク結果も強力です。多言語音声クローニングテストでは、Voxilは人間の好みテストで68.4%の勝率でElevenLabs Flash V2.5を上回ったと報告されています。そしてElevenLabs V3に対しては、Mistralはスピーカー類似性で同等または上回ったと述べています。
これはオープンウェイト音声モデルが最上位のプロプライエタリシステムにはるかに近づいているという強力な兆候です。
オープンウェイトとローカル実行の可能性
モデルはCC BY-NC ライセンスの下でリリースされています。つまり、非商用利用のためのオープンウェイトです。これは、開発者に高価なクローズドAPIを強制することなく、より多くのコントロールを与えるというMistralの大きな戦略に適合しています。また、量子化されると、スマートフォンやラップトップを含むローカルハードウェアで効率的に動作するように構築されています。
そしてその部分は本当に重要である可能性があります。なぜなら、プライベートなオフライン音声ツール、安全なエンタープライズ使用、そしてすべてのリクエストをクラウドに送信する必要のない製品への扉を開くからです。
NVIDIAのProRLエージェントシステム
最後に、NVIDIAがProRLエージェントで何をしているかについて話しましょう。これは舞台裏でもっと起こっていますが、最終的には本当に大きな問題になる可能性があります。
基本的なアイデアは実際には非常にシンプルです。通常、AIエージェントが訓練されているとき、同じシステム内で2つの異なる種類の作業が同時に起こっています。一部はエージェントが実際に物事を行い、ツールを使用し、クリックし、タスクを段階的に解決することです。もう一部は、多くの計算能力を必要とするバックグラウンドで起こっている重い訓練作業です。
両方が一緒にパックされていると、すべてが遅くなり、より混乱する可能性があります。そこでNVIDIAはそれらを分離することにしました。すべてを1か所で強制する代わりに、ProRLエージェントはエージェントが実際にタスクを実行する部分を独自の別個のサービスにします。その後、訓練システムは外部からそれに接続します。
簡単に言えば、一方は作業を行うことに集中し、もう一方はそこから学ぶことに集中します。これにより、セットアップ全体がよりクリーンで効率的になります。
システムの3段階構造と最適化
システム内で、NVIDIAはプロセスを3つの部分に分割しました。一部はタスクを準備します。別の部分はエージェントが実際にそれを実行できるようにします。そして最後の部分は、どれだけうまくやったかをチェックします。これらの部分が分離されているため、互いに常に待つのではなく、よりスムーズに実行できます。これにより全体が高速化されます。
彼らはまた、時間を節約する多くの小さな改善を行いました。たとえば、システムがターミナルアクションを処理する方法を変更し、遅延をほぼ半分に削減しました。また、システムの異なる部分がより直接的に互いに通信する方法を見つけ、バックグラウンドで無駄になる時間を削減しました。
もう1つの有用な改善は、システムが最初から最後まですべてをより一貫性を保つことです。同じ情報を繰り返し再処理するのではなく。これにより、訓練中のエラーを回避できます。
NVIDIAはまた、異なる推論システムにわたってより賢く作業を分散させました。これにより、より長く複雑なタスクがより良く実行されます。
実績と実用性の向上
そして結果は実際にかなり強力でした。SWE Bench Verifiedでは、あるQwenモデルが9.6から18.0に跳ね上がり、より大きなバージョンは15.4から23.6になりました。これは大きな改善です。特にこれは何か新しいモデルのブレークスルーではなく、主により良いシステム設計から来たものだからです。
また、NVIDIAは特別な管理者アクセスを必要とせず、大規模な共有システムでより簡単に実行できる方法で構築したため、真剣なコンピューティング環境にとってより実用的です。これにより、大規模に作業している企業や研究室にとってより有用になります。
さて、今回は以上です。Xiaomiがこの分野に参入することについて、あなたの考えを教えてください。視聴ありがとうございました。次回お会いしましょう。


コメント