Microsoftの新AIはリアルタイムの60倍速を実現しトップモデルを凌駾する

Microsoftが自社開発したAIモデル「MAI Transcribe 1」「MAI Voice 1」「MAI Image 2」を発表した。これらはそれぞれ音声認識、音声合成、画像生成を担当し、業界トップクラスの性能と攻撃的な価格設定で競合他社に挑戦する。特に音声合成モデルはリアルタイムの60倍速で動作し、音声認識モデルは最低水準のエラー率を達成している。この発表はMicrosoftがOpenAIへの依存から脱却し、AI分野における自給自足を目指す戦略的転換点を示すものである。2025年後半に設立されたMustafa Suleyman率いる超知能チームによる最初の成果であり、今後さらなるフロンティアモデル開発を計画している。

Microsoft New AI Is 60X Faster Than Real Time (Beats Top Models)

Microsoft just launched MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2, though this story goes way beyond 3 new models. ...

Microsoftが示した本気の自社AI戦略
業界最高水準を主張する音声認識モデル
リアルタイムの60倍速で動作する音声合成
トップ3にランクインする画像生成モデル
OpenAI依存からの戦略的脱却
少数精鋭チームによる効率的な開発体制
投資家の期待に応えるコスト削減と収益化
ヒューマニストAIという企業向けブランディング
Copilotの免責事項が示す業界の現在地
エンタープライズ価値を中心とした実践的な超知能の定義

Microsoftが示した本気の自社AI戦略

これはMicrosoftにとって最も重要なAI発表の一つかもしれません。誇大広告のためではなく、同社がついに手の内を明かしたからです。自社開発モデル、攻撃的な価格設定、強力なベンチマーク結果、実際の製品への直接的な展開、そしてMicrosoftが永遠に誰かに依存したくないという明確なサインが示されました。

その真の証拠が、彼らが発表したばかりのモデル群です。それらはMAI Transcribe 1、MAI Voice 1、そしてMAI Image 2と呼ばれています。これら3つのモデルは、現在AIにおいて最も商業的価値の高い3つの分野をカバーしています。

音声からテキストへの変換、テキストから音声への合成、そしてビジュアル生成です。興味深いのは、これが単なる段階的なアップデートではないということです。

これは2025年後半にMustafa Suleymanの下で結成されたMicrosoftの超知能チームからの最初の実質的な成果物なのです。

業界最高水準を主張する音声認識モデル

まずMAI Transcribe 1から始めましょう。これは音声からテキストへの変換モデルで、Microsoftはこれを最高クラスと位置付けています。彼らは25言語にわたる標準的な多言語テストであるFLEURSベンチマークにおいて、最低平均単語エラー率を達成したと主張しています。

提示している数値は約3.8%のWERで、彼らのベンチマークによれば、OpenAIのWhisper Large V3を全25言語で上回り、Gemini 3.1 Flashを25言語中22言語で凌駕し、さらにElevenLabsのScribe V2やGPT Transcribeといったモデルもほとんどの言語で上回っています。

技術的な観点から見ると、双方向オーディオエンコーダーと組み合わされたトランスフォーマーベースのデコーダーを使用しています。MP3、Wave、FLACといった形式をサポートし、最大200メガバイトのファイルに対応し、クリーンな実験室環境だけでなく実世界での使用を想定して設計されています。

つまり、背景ノイズ、重複する会話、低品質の録音、これらすべてがトレーニング設定の一部となっています。彼らは制御されたスタジオ録音と、通りや子供の周りといった騒がしい環境で人々が自分自身を録音したものの組み合わせを使用したと述べており、さらに大量のオープンウェブデータも使用しています。

パフォーマンスの面では、Microsoftの以前のAzure高速文字起こしシステムの約2.5倍の速度です。価格設定は1時間あたり0.36ドルから始まり、明らかに競合他社を下回ることを狙っています。

リアルタイムの60倍速で動作する音声合成

次にMAI Voice 1があります。これは彼らのテキスト音声変換モデルで、速度とカスタマイズ性を非常に重視しています。

わずか1秒で60秒分の音声を生成できます。これは基本的にリアルタイムの60倍の速度です。これはエンタープライズレベルのワークロード全体に拡張しても、ボトルネックにならないほど十分な速度です。

さらに興味深いのは、長時間のコンテンツ全体で話者のアイデンティティを保持できることです。つまり、より長い音声コンテンツを生成しても、一貫した音質を維持できるのです。

さらに、わずか数秒の音声サンプルを使用してカスタム音声を作成できます。これにより、特にMicrosoftがこれをポッドキャストや音声ベースの体験といったCopilot機能に直接統合していることを考えると、ElevenLabsのような企業と直接競合することになります。

価格設定は100万文字あたり22ドルに設定されており、ここでも位置付けは攻撃的です。高性能、低コスト、そして大規模展開向けに構築されています。

トップ3にランクインする画像生成モデル

そしてMAI Image 2があります。これは彼らのアップグレードされた画像生成モデルです。これはすでに3月19日頃にMAIプレイグラウンドと呼ばれるもので先行デビューしており、現在はMicrosoft FoundryやBing、PowerPointといった製品全体により広く展開されています。

MicrosoftはMAI Image 2がarena.aiリーダーボードでトップ3のモデルファミリーにランクインしていると述べています。つまり、単なる内部ツールではなく、真剣な競合製品として位置付けているのです。

彼らはまた、FoundryとCopilotにおいて以前のバージョンと比較して少なくとも2倍の速度で生成できると述べています。そしてこの速度は、チームが複数のドラフト、キャンペーンビジュアル、プレゼンテーション素材、またはブランドコンテンツを大規模に作成する際に非常に重要です。

際立たせているもう一つの要素は、Microsoftがすでに指摘している顧客の種類です。WPPは、大規模なクリエイティブ制作にMAI Image 2を使用している初期のエンタープライズパートナーの一つであり、Microsoftがこのモデルをどこに着地させたいかについてより良い感覚を与えてくれます。

これはプロフェッショナルな用途を狙ったもので、クリエイティブディレクション、一貫性、そして納期が実際に重要な場所です。

そして価格設定はMAIラインナップ全体で見られるのと同じ戦略を維持しています。MAI Image 2はテキスト入力で100万トークンあたり5ドル、画像出力で100万トークンあたり33ドルから始まります。つまりMicrosoftは品質、速度、コストのすべてで一度に競争しようとしているのです。

OpenAI依存からの戦略的脱却

さて、この発表全体をより重要にしているのは、モデルそのものだけではありません。それらがMicrosoftにとって戦略的に何を表しているかです。

長い間、MicrosoftはOpenAIとのパートナーシップに基本的に縛られていました。2019年に最初に署名されたその契約は、実際にMicrosoftがAGIや超知能を独自に追求することを妨げていました。

それが2025年後半に契約を再交渉したときに変わりました。Suleymanによれば、その直前の数週間まで、Microsoftは文字通りその方向で独自のフロンティアレベルのモデルを構築することが許されていませんでした。

その制限が解除されると、彼らは非常に積極的に独自のスタックを構築し始めました。つまり今、Microsoftは依然としてOpenAIと深くパートナーを組んでおり、2032年まで延びるライセンス権を持ちながら、同時に独自のモデルを構築しているという状況があるのです。

これは基本的に二重戦略です。彼らはOpenAIのモデルをホストし、Foundryを通じてAnthropicのモデルを提供し、そして今、独自のモデルをミックスに加えています。

だからこそSuleymanはMicrosoftをプラットフォームのプラットフォームと表現したのです。彼らは競争しているだけでなく、競合他社のモデルも配布しているのです。

そして内部的には目標が非常に明確です。AIの自給自足です。彼らは必要に応じてMicrosoftが外部のラボに頼ることなく完全に独自のモデルで運用できる地点に到達したいのです。

少数精鋭チームによる効率的な開発体制

際立っているもう一つの詳細は、これらのモデルがどのように構築されたかです。例えば、文字起こしモデルは約10人のチームによって開発されました。画像モデルも同様です。

官僚主義があまりない非常にフラットな構造で運営されている、小規模で高度に集中したチームです。Suleymanはそれをスタートアップスタイルのコラボレーションのようなものと表現しました。人々が並んで働き、ほとんどトレーディングフロア環境のようなものです。

ここでのアイデアは、ほとんどの成果がアーキテクチャとデータ品質から来ているということであり、単に問題に対してより多くの人材や計算能力を投入しているわけではないということです。

これはコストに直接結びついています。Microsoftは、これらのモデルが競合他社と比較して約半分のGPUで実行できると主張しています。

そしてこれは大きな問題です。なぜならインフラコストは現在AIにおける最大の課題の一つだからです。同等またはそれ以上のパフォーマンスをより少ないGPUで提供できれば、マージンは大幅に改善されます。

そして規模が大きくなれば、それは大きな利点になります。特にTeams、Copilot、Bing、PowerPointのような製品を運用している場合はなおさらです。

投資家の期待に応えるコスト削減と収益化

これは投資家からのプレッシャーにも関連しています。Microsoftの株価は最近プレッシャーを受けており、2008年以来最悪の四半期の一つを経験しています。そして、このすべてのAI支出が実際に収益に変わることを示すという要求が高まっています。

つまり、これらのモデルはその答えの一部なのです。内部コストを削減し、同時に開発者や企業にAPIを提供することで新しい収益源を生み出します。

そしてMicrosoftは価格競争について非常に直接的です。SuleymanはGoogle、Amazon、その他のハイパースケーラーよりも安くするつもりだと公然と述べました。これは企業が通常ここまで明確に言うようなことではありません。

ヒューマニストAIという企業向けブランディング

さて、技術と価格設定を超えて、Microsoftが推進しているより広範な物語もあります。それは彼らがヒューマニストAIと呼んでいるものです。

これはブランディングのように聞こえますし、実際そうです。ただし目的も果たしています。アイデアは、彼らのモデルが人間を中心に設計されており、人々が実際にどのようにコミュニケーションし働くかに焦点を当て、安全性、整合性、制御を重視しているということです。

これは明らかにエンタープライズ顧客、特にガバナンスとコンプライアンスが重要な規制産業を対象としています。

彼らはまた、クリーンなデータソーシングを強調しており、彼らのモデルが適切にライセンスされたデータでトレーニングされていることを示唆しています。これにより疑わしいデータセットに依存している可能性のあるオープンソースの代替品と比較して、法的リスクが軽減されます。

同時に、Suleymanは長期的な目標について非常に明確です。これら3つのモデルは始まりに過ぎません。

Microsoftは完全なフロンティア大規模言語モデルも構築する予定であり、GPTスタイルのシステムと直接競合します。彼は自分たちの使命がすべてのモダリティにわたって最先端のモデルを提供し、必要に応じて完全に独立することだと明言しました。

これには今後数年間で必要なGPUインフラストラクチャの構築も含まれます。つまりここで見ているのは、Microsoftが主にAIモデルの配布者から、モデル開発における完全な競合者へと移行していることです。

Copilotの免責事項が示す業界の現在地

さて、このすべてが起こっている間、注目を集めているもう一つの角度があります。それはMicrosoftがCopilotをどのように位置付けているかです。なぜなら、これらの強力なエンタープライズモデルを推進しているのと同時に、Copilotの利用規約にはまだかなり明確な免責事項が含まれているからです。

彼らは文字通り、Copilotはエンターテインメント目的のみであり、間違いを犯す可能性があり、ユーザーは重要なアドバイスのためにそれに頼るべきではないと述べています。

そしてこれはMicrosoftに固有のものではありません。OpenAIとxAIも同様の免責事項を持っています。彼らは皆、ユーザーにAI出力を絶対的な真実として扱わないよう警告しています。

Microsoftはこの文言が時代遅れであることを認め、更新する予定だと述べましたが、これは依然として重要な緊張関係を浮き彫りにしています。

一方では、AIは企業にとって重要なインフラストラクチャとして位置付けられており、他方では、企業自身が依然として信頼性についてユーザーに警告しているのです。

そしてこれは業界が今いる場所を反映している部分があります。モデルはより能力が高くなり、実際のワークフローにより統合されていますが、同時に信頼性と正確性についての根本的な不確実性がまだあります。

エンタープライズ価値を中心とした実践的な超知能の定義

大きな絵に戻すと、Microsoftの戦略全体はエンタープライズ価値を中心に展開されているようです。Suleymanは超知能を非常に実践的な方法で定義しています。抽象的な概念としてではなく、何百万もの企業に実際の製品価値を提供できるシステムとして定義しているのです。

つまり、文字起こしの精度から音声生成速度、画像制作効率まで、すべてが生産性、コスト削減、スケーラビリティに結びついています。

そしてそれこそがMicrosoftが差別化を図ろうとしている点です。強力なモデルを持つことだけでなく、それらを使いやすく、手頃な価格で、既存のツールに深く統合されたものにすることです。

とにかく、これが現在の状況です。この動きについてどう思うか教えてください。視聴ありがとうございました。また次回お会いしましょう。