Microsoftの新しいMAI 2がOpenAIに衝撃を与えトップ3入り

この動画は、MicrosoftとMiniaxがそれぞれ異なる方向からAI競争を加速させている現状を解説する内容である。MicrosoftはMAI Image 2によって画像生成モデルの自前化を進め、OpenAI依存からの脱却とAI基盤の主導権確保を狙っている。一方のMiniaxは、M2.7を通じてモデル自身が学習環境やエージェント構造の改善に関与する自己進化型の仕組みを打ち出し、ソフトウェア開発や研究支援、オフィス業務まで含めた長時間・高難度ワークフローの自動化を前進させている。両社の動きは、単なる性能競争ではなく、AIを誰がどのような基盤で支配し、実運用へ落とし込むかという次の競争段階を示している。

Microsoft's New MAI 2 Shocks OpenAI and Hits Top 3

👉 Try Cinema Studio 2.5 here: just dropped MAI-Image-2, its own image model, and thi...

MicrosoftのMAI Image 2とMiniaxのM2.7
Microsoftの画像生成モデル自前化
MAI Image 2の本当の意味
フォトリアリズムと画像内テキスト
細密なシーン構築と現状の制約
Higsfield Cinema Studio 2.5のスポンサー紹介
MAI Image 2の提供状況
MiniaxのM2.7と自己進化の方向性
ソフトウェアエンジニアリング性能
本番障害対応と研究支援エージェント
再帰的改善ループ
低資源ML環境での検証
オフィス業務とナレッジワークへの展開
マルチエージェントに必要な役割一貫性と感情知能

MicrosoftのMAI Image 2とMiniaxのM2.7

Microsoftが独自の画像モデルを発表しました。そしてMiniaxは、システムそのものの改善を支援するAIを投入しました。今回の話は、Microsoftが外部パートナーへの依存を減らしてより多くの主導権を握ろうとしている動きと、Miniaxが自己進化型エージェント、実務的なエンジニアリング、そして長時間ワークフロー自動化へさらに踏み込んでいる動きについてです。

Microsoftの画像生成モデル自前化

ではまずMicrosoftから見ていきましょう。

長いあいだ、MicrosoftはCopilotやBing Image Creatorのような製品の中で高性能な画像生成を必要とするたびに、OpenAIのモデルに頼ってきました。これによってMicrosoftの製品には強力な機能がもたらされていましたが、その一方で、AI業界でも最大級の企業のひとつが、重要な視覚生成能力について外部の研究所に依存していたことも意味していました。

しかし、それが今まさに変わり始めています。Microsoftは独自のtext-to-imageモデルであるMAI Image 2を発表し、公開直後にarena.aiのAIリーダーボードで3位に入りました。これは非常に力強い登場です。特に、これまでMicrosoftは独立した画像モデルのプレイヤーとしてほとんど認識されておらず、そこから一気にGoogleとOpenAIのすぐ後ろにつけたのですから、なおさらです。

名前すら意図的に感じられます。MAIはMicrosoft AIの略であり、今回のローンチに関する報道では、特にヨーロッパやDACH地域において、今後のMicrosoft製モデル全体のより広いブランドになっていく可能性が示されています。つまり、これは単発のリリースには見えません。むしろMicrosoftが、自社のタイムラインで構築し出荷できる、より広範な社内モデル群の土台を築いているように見えます。

MAI Image 2の本当の意味

そして、ここが本当の変化です。MAI Image 2は単に画像品質の話ではありません。これはコントロールの話でもあります。Microsoftがモデルを所有していれば、反復改善のスピード、製品統合、機能展開、学習方針、そしておそらくコスト構造の一部までも自社で管理できます。検索、生産性ツール、企業向けソフトウェア、クリエイティブアプリ全体で画像生成を改善したいと思うたびに、他社のロードマップを待つ必要がなくなるのです。

さらに少し引いて全体を見れば、この動きはもっと意図的に見えてきます。MicrosoftはいまだにOpenAIと深く結びついている一方で、OpenAIの競合であるAnthropicにも資金を提供しています。つまりこの会社が、より多くの選択肢を持ち、自社の中核AIスタックをより多く自社内に取り込みたいと考えているのは明らかです。

性能面では、MAI Image 2によってMicrosoftはarena.ai上でtext-to-image分野のトップ3ラボに入りました。モデル群全体ではGoogleとOpenAIに次ぐ位置にありますが、報道によると、その順位だけでは見えない強みもいくつかあるようです。独立テストでは、特にフォトリアリズムと画像内テキスト描画で非常に強い性能を示したとされています。

フォトリアリズムと画像内テキスト

この2つ目のカテゴリは特に重要です。生成画像の中に入るテキストは、長年にわたり画像モデルにとって最もしぶとい弱点のひとつでした。ポスター、メニュー、看板、スライド、図表、インフォグラフィック、そのどれもが、モデルが正確な文言を安定したレイアウトに配置しなければならなくなると、崩れがちでした。Microsoftによれば、MAI Image 2はこれをはるかに高い信頼性で処理でき、場合によってはOpenAIのGPT Imageに匹敵、あるいは上回ることさえあるとのことです。

Microsoftはまた、このモデルが写真家、デザイナー、ビジュアルストーリーテラーたちの意見を取り入れて作られたとも述べており、それは同社が繰り返し強調している3つの強みとも一致しています。

まずひとつ目はフォトリアリズムです。このモデルは自然光、リアルな肌色、そして過度に人工的ではなく、実在感のある環境表現のために設計されています。目標は、生成後の修正作業を減らすことです。Microsoftが示した例には、やわらかな陽光を受け、枝の影が肌に落ちる顔のクローズアップ、鮮やかな色と質感を持つ精密な虹彩、さらに氷河の壁や、スケール感を示すために小さな人物が中に立つ巨大な青い氷の洞窟のような、より大きくシネマティックな環境が含まれていました。

次に、信頼性の高い画像内テキスト生成があります。Microsoftはこれを、画像生成を日常業務で本当に役立つものにする最も実用的な方法のひとつとして位置づけています。単に見栄えのよいビジュアルを作るだけでなく、MAI Image 2はポスター、サイン、メニュー、スライド、図表、そしてテキスト量の多いレイアウトを、プロンプトに沿った一貫性ある文字内容で生成することを目指しているのです。

例としては、力強い縦組みタイポグラフィを持つモダニズム風ポスター、価格と営業時間が書かれたカフェ風メニューデザイン、特定の日付や名称詳細を含むイベントポスターなどが挙げられています。これはまさに、広告代理店、マーケター、ブランド担当者、オフィス利用者がすぐに関心を持つタイプの出力です。

細密なシーン構築と現状の制約

そして3つ目が、細部に富んだシーン構築です。Microsoftによれば、MAI Image 2はシュールなプロンプト、装飾的な構図、シネマティックな発想、そして多くの細部を持つ野心的なビジュアル世界に向けて構築されています。つまり一方では実務的なデザイン作業を狙いながら、他方ではより凝ったビジュアルストーリーテリングにも対応したいわけです。

ただし同時に、MAI Image 2はまだ初期段階でもあります。現在のバージョンには厳しいコンテンツフィルターがあり、無害な創作プロンプトですらブロックされることがあると報じられています。また、生成のたびに30秒の待機があり、ネイティブインターフェースでは1日15枚までという上限もあります。

さらに機能面の不足もあります。現時点では、正方形の1:1出力しかサポートされていません。横長も縦長も、カスタムアスペクト比も使えません。そのうえ、image-to-image生成、インペインティング、参照画像のサポートもまだありません。

つまり品質は非常に強そうですが、製品としてはこの最初の形ではまだかなり制限があります。

Higsfield Cinema Studio 2.5のスポンサー紹介

高品質な画像を作ること自体はどんどん簡単になっています。しかし、その画像を実際に完成されたシーンのように感じられるものへ変えるのは、いまだに難しい部分です。ここはこの動画のスポンサーであるHigsfieldの紹介です。彼らはCinema Studio 2.5をリリースしたばかりで、ワークフローをさらに前へ押し進めています。

ここでの大きな違いは、作業の始まり方です。ランダムなフレームを生成して後から修正していくのではなく、まず最初にキャラクターとロケーションを設定します。最大3人までのSoulcastキャラクターを配置し、環境を定義し、何かが動き始める前にシーンを固定できます。

つまりショットの土台が、最初からすでにコントロールされた状態になるのです。そこからキーフレームを生成し、カメラ設定を組み、パン、ドリー、マルチショットシーケンスといったシネマティックな操作で動きを演出します。それもすべて同じワークスペースの中で行えます。

そして新機能が、内蔵カラーグレーディングです。別のツールに映像を書き出す代わりに、最終的な見た目をプラットフォーム内で直接仕上げられるようになりました。色温度、コントラスト、彩度、シャープネスを調整し、ブルームやフィルムグレインを加え、露出もコントロールして、最後のシネマティックな仕上がりまで詰められます。

つまり今のワークフローは、キャラクターとシーン設定から始まり、キーフレーム、モーション、そして最終カラーグレードまで、すべてがひとつの場所でつながっています。これこそがCinema Studio 2.5の考え方なのです。もはや単にクリップを生成しているのではなく、最初のフレームから最後の見た目まで、ショット全体をコントロールしているわけです。ぜひ自分でも試してみてください。リンクは説明欄にあります。

では動画に戻りましょう。

MAI Image 2の提供状況

アクセス面についてですが、Microsoftによれば、MAI Image 2は現在MAI Playgroundで利用可能で、ユーザーは最新のMAIモデルを試し、チームへ直接フィードバックを送ることができます。

さらに、CopilotとBing Image Creatorにも展開が始まっています。APIアクセスはすでにWPPを含む一部のエンタープライズ顧客向けに存在しており、Microsoft Foundryを通じたより広い提供も近いうちに行われる予定です。商用利用のための申請プロセスもあります。

ただし注意点がひとつあります。Playground版はまだEUでは利用できないため、アクセスは地理的に限定されたままです。

MiniaxのM2.7と自己進化の方向性

では次にMiniaxへ移りましょう。こちらはまったく別方向の話です。Microsoftが画像スタックの所有強化に集中している一方で、Miniaxは自己進化へ向かっています。同社はM2.7を発表し、これを自らの進化に深く関与する最初のMiniaxモデルだと説明しています。

最初に聞くとかなり劇的ですが、詳細を読むと、実際にはエージェント的なワークフローがモデル改善へフィードバックされる仕組みに近い話です。Miniaxによれば、最初のMシリーズモデルを公開したあと、ユーザーや開発者から多くのフィードバックを受け、それが反復改善の加速につながったとのことです。そこから同社は、単なる生産性向上から、モデルと組織の両方の自己進化と呼ぶものへ進んでいきました。M2.7は、その最初の大きな試みです。

このモデルは、複雑なagent harness、agent team、動的なツール探索、複雑なスキル、長時間ワークフローを扱うために作られています。開発中、MiniaxはM2.7に自らのメモリを更新させ、harnessの中に何十もの複雑なスキルを組み込み、強化学習実験も支援させたと述べています。

そして、その実験結果に基づいて、モデル自身が自らの学習プロセスやharnessを改善しました。これがMiniaxの説明する中核ループです。つまりこのモデルは、自分がどう動くかを支える足場を、自ら構築し、テストし、修正し、最適化することに積極的に関与しているわけです。

ソフトウェアエンジニアリング性能

Miniaxによれば、この強みは特にソフトウェアエンジニアリングで強く表れています。

SWE Proでは、M2.7は56.22%を記録し、同社によるとこれはOpusの最高レベルにかなり近く、GPT-5.3 Codexにも並ぶ水準です。Vibe Proでは、これはリポジトリ単位のエンドツーエンドなプロジェクト遂行を重視するベンチマークですが、55.6%を記録し、Opus 4.6とほぼ同等でした。Terminal Bench 2では、システムレベルの深い理解を試すテストで57.0%を記録しました。S Multilingualでは76.5、Multisubenchでは52.7、NL2Repoでは39.8という結果でした。

つまりMiniaxはこれを、単なるコード生成器として位置づけようとはしていません。M2.7を、ログ、インフラ、デバッグ、コードセキュリティ、機械学習ワークフロー、Android開発、本番環境まで理解できる、システムレベルのエンジニアリングモデルとして見せたいのです。

本番障害対応と研究支援エージェント

その売り込みの中でも、ライブデバッグの例はおそらく最も強い部分です。Miniaxによれば、本番環境でアラートが発生した際、M2.7は監視メトリクスとデプロイ時刻を対応付け、ありそうな原因を推論し、トレースを統計的に分析し、データベースへ接続して根本原因を確認し、たとえばリポジトリ内の欠落したインデックス移行ファイルのような問題を特定し、さらにマージリクエストを送る前に、まず非ブロッキングなインデックス作成を選んで状況を安定化させることまでできるとされています。

もしこれが実運用で本当に成立するなら、このモデルはコーディング支援ツールというより、かなり本格的な本番運用エンジニアに近い動きをしていることになります。Miniaxは実際、本番障害からの復旧時間を複数回にわたって3分未満まで短縮できたとまで述べています。

さらに社内研究用harnessもあります。Miniaxは、M2.7ベースの社内研究エージェントが複数のプロジェクトグループをまたいで協働し、学習環境とデータパイプラインを支援し、インフラを扱い、永続メモリを維持し、チーム間の連携調整まで支えていると説明しています。

同社が説明する強化学習ワークフローでは、人間の研究者が実験アイデアを出発点として提示し、エージェントが文献調査を支援し、実験仕様を追跡し、データや成果物を準備し、実験を開始し、進行を監視し、結果をプロファイルし、ログ読み取り、デバッグ、メトリクス分析、コード修正、マージリクエスト、スモークテストを実行し、スタック全体にわたる微妙な改善点まで見つけるとのことです。Miniaxによれば、M2.7はすでにそのワークフローの30〜50%を処理できるようになっています。

再帰的改善ループ

そして、そこに再帰的な層が加わります。Miniaxによると、このharnessは自律的にフィードバックを集め、社内タスク向けの評価セットを構築し、自身のアーキテクチャ、メモリ機構、スキル実装を反復改善することで、時間とともにタスク完了率を向上させていきます。

同社は、M2.7が社内のあるscaffold上でプログラミング性能を最適化した事例まで説明しています。そこでは、失敗の軌跡を分析し、変更を計画し、scaffoldコードを編集し、評価を実行し、結果を比較し、変更を残すか元に戻すかを判断するというプロセスを、100回を超える自律ラウンドで回したとのことです。

そのループの中で、M2.7は有用な最適化を見つけたとされています。たとえば、temperature、frequency penalty、presence penaltyのより良い組み合わせや、修正後に同じバグパターンが他ファイルにないか確認するといった、より具体的なワークフロールール、さらにエージェントシステム内部におけるループ検知の改善などです。

同社によれば、その結果、社内評価セットにおいて30%の性能向上が得られたとのことです。

低資源ML環境での検証

Miniaxはこの考え方を、より低リソースな機械学習環境でも試しました。そこで使われたのが22のMLE-bench Lite競技で、これは単一のA30 GPU上で動かしながらも、MLワークフローの大部分の段階をカバーできるOpenAIベンチマークです。

この設定のために、同社は短期メモリ、自己フィードバック、自己最適化を備えた、よりシンプルなharnessを構築しました。各ラウンドのあと、エージェントはメモリ用のMarkdownファイルを書き、自分自身の性能を批評します。そしてそのメモリの連鎖と自己フィードバックを使って、次のラウンドを改善していくのです。

24時間の実行を3回行った結果、最良の試行では金メダル9個、銀メダル5個、銅メダル1個を獲得しました。3回の実行全体での平均メダル率は66.6%で、MiniaxによればこれはGemini 3.1と並ぶ結果でした。一方でGPT-5.4は71.2%、Opus 4.6は75.7%に達したとされています。

オフィス業務とナレッジワークへの展開

ソフトウェアエンジニアリング以外でも、MiniaxはM2.7を、専門的なオフィス業務やナレッジワーク向けモデルとして押し出しています。GDP Valaでは、これは専門領域の知識とタスク遂行能力を測る指標ですが、ELO 1495に到達し、オープンソースモデルの中では最高だったとされています。

Miniaxのより広い比較では、これはOpus 4.6、Sonnet 4.6、そしてGPT-5.4の後ろにつく位置づけであり、GPT-5.3を上回るとされています。同社によれば、特にWord、Excel、PowerPointのワークフローにおいて大きな改善があり、複雑な編集、複数ラウンドの改訂、そして静的な出力ではなく編集可能な成果物を作る点で強みを見せたとのことです。

さらにMiniaxは、M2.7が40を超える複雑なスキルに対応し、それぞれが2,000トークンを超える長さでありながら、MM Clawテストで97%のスキル遵守率を維持したと述べています。Tulathonでは46.3%を記録し、同社によればこれは世界トップ層に位置する成績です。

また、金融分野の例もあります。M2.7は年次報告書、決算説明会の書き起こし、外部調査を読み込み、自ら仮定を立て、売上予測モデルを構築し、そこからテンプレートを使ってPowerPointのデッキと調査レポートの両方を作成するとのことです。

TSMCの事例は、ほとんどジュニアアナリストの仕事のように描かれています。つまりモデルが理解、判断、ドラフト作成、そして複数ラウンドの自己修正まで行うのです。実務家からのフィードバックによれば、その出力はすでに実際のワークフローで使える初稿として機能しうるレベルにあるとのことです。

マルチエージェントに必要な役割一貫性と感情知能

そして最後に、もうひとつの層があります。キャラクター一貫性と感情知能です。Miniaxは、マルチエージェントの仕事は単なるプロンプトの問題ではないと主張しています。モデルには、役割の境界、敵対的推論、プロトコル遵守、行動の差別化といった能力が、より強く内面化されている必要があるというのです。

その設定では、M2.7は自分の役割を保ち、必要に応じてチームメイトに異議を唱え、論理的あるいは倫理的な盲点を見抜き、複雑な状態機械の中で意思決定を下さなければなりません。

以上です。ぜひ感想をコメントで聞かせてください。ご視聴ありがとうございました。また次の動画でお会いしましょう。