Microsoftが予想を超えて衝撃的に優れた新AIを発表

本動画では、MicrosoftによるMAI-1という初の自社開発画像生成モデル、GoogleのNano BananaモデルとSpeech-to-Retrieval技術の統合、中国Ant Groupによる1兆パラメータのオープンソースモデルLing-1Tという、AI業界における最新の重要な進展を解説する。Microsoftは長年OpenAIなどのパートナーに依存してきたが、MAI-1の登場により独自の画像生成能力を確立し、LMアリーナのトップ10にランクインする成果を収めた。一方、Googleは検索体験にNano Bananaを統合し、さらに音声検索においてテキスト変換を完全に省略する革新的なS2R技術を導入した。そして中国からはAnt Groupが、DeepSeekやOpenAIに対抗する大規模なオープンソースモデルを発表し、AI開発における透明性と協力的なアプローチを提示している。これらの動きは、AI業界の競争構造が大きく変化しつつあることを示すものである。

Microsoft Just Dropped New AI That’s Shockingly Better Than Expected

Microsoft just dropped a new AI called MAI-Image-1 — its first in-house image generator, completely independent from Ope...

Microsoftの画像生成AI革命
GoogleのNano Banana統合
Ant GroupのLing-1T発表
GoogleのSpeech-to-Retrieval技術

Microsoftの画像生成AI革命

Microsoftがまさに全員を驚かせました。初の自社開発画像生成モデルを発表したのです。GoogleはNano Bananaモデルを検索に直接組み込みました。中国のAnt Groupは、OpenAIとDeepSeekに対抗するため1兆パラメータのオープンソース巨大モデルを発表しました。そしてGoogleは再び登場し、音声検索の完全な刷新を行い、プロセスからテキストを完全に削除しました。

さて、まずはMicrosoftから始めましょう。なぜなら、これは誰もが不意を突かれたものだからです。Microsoft AIは、完全に自社開発された初のテキスト画像変換モデルを発表しました。その名はMAI-1です。これまでMicrosoftは、生成モデルのほとんどをOpenAIのようなパートナーに大きく依存していました。しかし今回は、単独で取り組んでいます。それだけでなく、すでにLMアリーナ、つまり人間が画像品質に投票するオンラインリーダーボードでトップ10モデルの1つにランクインしています。

このモデルは基本的にMicrosoft独自のAIラインナップの新しい波の一部です。MAI Voice 1、MAI-1 previewに続いて、このモデルはブランドをビジュアル生成に拡張しています。同社は、1つの重要なアイデアを中心にこのモデルを構築したと述べています。本物のように感じられる画像を作ること、つまり私たちが何千回も見てきた同じようなリサイクルされたスタイライズされたものではないということです。

それを実現するために、彼らはデータ選択と評価に焦点を当て、すべてのデータセットが実際にプロのクリエイターが現実世界で行っていることを反映するようにしました。彼らは一般的な出力を避けるために、クリエイティブ業界の専門家とも協力しました。正直に言うと、初期の結果は印象的に聞こえます。MAI-1は、特に複雑な照明、反射光、風景、自然なテクスチャなど、フォトリアリスティックなビジュアルに優れているとのことです。

また、多くの大規模モデルよりも高速で、デザインアイデアを繰り返し試す際には非常に重要です。Microsoftはこれを高速な反復のために構築されたものと説明しており、つまり数秒で複数の高品質画像を生成し、それらをシームレスに編集ツールに引き渡すことができるということです。基本的に、ワークフローは高速に作成し、高速に洗練させ、遅いレンダリングを待つことなくクリエイティブであり続けることです。

このモデルはすでにLMアリーナで公開テストされており、ユーザーはプロンプトを入力し、結果に投票し、他のシステムと比較することができます。このフェーズは、Microsoftが安全ガードレールを調整するのに役立ちます。これは、同社がCopilotとBing Image Creatorを立ち上げて以来、改善するよう圧力を受けてきたものです。その段階をクリアすると、MAI-1はCopilotとBing Image Creator内に直接展開される予定で、つまりすぐにMicrosoftの消費者製品の一部となり、WindowsとMicrosoft 365のワークフローに統合されることになります。

内部の仕組みについてはまだ分からないことがたくさんあります。Microsoftは、アーキテクチャ、パラメータ数、トレーニングデータなどの詳細を共有していませんが、パフォーマンスから判断すると、重いオフラインレンダリングではなく、インタラクティブなスループットに調整されているようです。簡単に言えば、大規模なスタジオレベルのパイプラインではなく、迅速なユーザープロンプト、低レイテンシー、一貫した品質に最適化されています。

このようなセットアップは通常、トークンからピクセルへの緊密なパイプラインと、スタイル崩壊を防ぐ安全層の組み合わせを意味します。スタイル崩壊とは、類似したプロンプトが多すぎると、すべての画像が同じように見え始める現象です。興味深いのは、これがMicrosoftの戦略における明確な転換点を示していることです。彼らはOpenAIの最大の投資家の1つでした。

しかし最近では、静かに多様化を進めており、Microsoft 365の一部機能でAnthropicのモデルを使用し、より多くの独自システムをトレーニングしています。MAI-1は、Microsoftがもはやパートナーに依存するだけでなく、画像生成分野で直接競争したいと考えていることを示すシグナルです。そして彼らはすでに独自の名前でそれを実行しています。

LMアリーナのランキングが維持され、Copilotへの展開がスムーズであれば、これによりMicrosoftの画像モデルは数億人のユーザーにとってデフォルトのクリエイティブツールになる可能性があります。迅速でリアルなビジュアルを求めるすべてのWindowsユーザーが、すぐに検索バーやデザインアプリの中にこのモデルを見つけるかもしれません。そしてMicrosoftが精度と制御を目指している一方で、Googleは異なるアプローチを取り、AI作成をシームレスに感じさせています。

GoogleのNano Banana統合

同社は、Nano BananaモデルをGoogle検索に直接拡張しました。モデル自体は新しいものではありません。何ヶ月も前からGeminiや他のツール内に存在していましたが、これはLensとAIモードを通じて検索に完全に統合された初めての例です。これは、結果ページ上で直接写真を編集するという意味ではありません。

代わりに、画像生成が検索体験の中に存在するようになりました。Lensを開き、新しい作成ボタン、つまり黄色いバナナのボタンをタップすると、検索を離れることなく画像を変換したり生成したりできます。欲しいものを説明し、簡単な編集を加えたり、まったく新しいものを構築したりできます。すべて同じフロー内で行えます。展開はアメリカとインドで始まり、今のところ英語のみをサポートしていますが、Googleはすぐにより多くの地域と言語に拡大する予定です。

これは大きな派手な発表として売り込まれているわけではなく、検索を少しスマートでインタラクティブに感じさせる静かなアップグレードのようなものです。Nano Bananaの結果は一貫して堅実です。照明とリアリズムをうまく処理し、編集後も人物を認識可能に保ち、SynthIDを使用して可視および不可視の両方の透かしを自動的に適用するため、AI生成画像が適切にタグ付けされます。

高速で軽量、そして検索に組み込まれているにしては予想以上に洗練されています。Googleはここで何かを再発明しようとしているわけではありません。彼らは単に、何十億もの人々が毎日すでに使用している1つのプラットフォームに、クリエイティブモデルを組み込んでいるだけです。そしてその動きは、新しいAIツールを立ち上げるよりも強力になるかもしれません。

Ant GroupのLing-1T発表

そして突然、Ant Group、そうです、Alipayの背後にある中国のフィンテック大手が、Ling-1Tと呼ばれる怪物のようなモデルを発表しました。その名前は文字通り1兆パラメータを意味します。オープンソースで、大規模で、推論とコード生成においてDeepSeekとOpenAIに真っ向から対抗することを目的としています。

Antは、Ling-1Tを複雑な推論、数学、ソフトウェアインテリジェンスのために構築された汎用モデルと説明しています。簡単に言えば、コーダー、論理学者、数学の天才のすべてを1つのニューラルネットワークに詰め込んだようなものです。興味深いのは、これが単なる別のクローズドドアの中国モデルではないことです。彼らは実際にオープンソースでリリースしました。これは1兆パラメータシステムとしては珍しいことです。

これは、西洋企業が最大のモデルをロックダウンしている方法に対する直接的な声明です。パフォーマンス面では、すでに深刻な話題を呼んでいます。Live CodebenchやAmerican Invitational Mathematics Examinationのようなベンチマークでは、Ling-1Tは約70.4%の精度を記録し、GoogleのGemini 2.5 Proと並び、DeepSeek、OpenAIのo1-preview、Moonshot AIのKimi-k1.5を上回っています。

それを実現するために、各問題は4,000以上の出力トークンを使用しており、このシステムが内部でどれだけの推論の深さを実行しているかがわかります。Antは、これは単にスピードやサイズの問題ではないと述べています。それは実世界のテストで持ちこたえるインテリジェンスの問題です。

このモデルは、オープンシステムとクローズドシステムの両方と比較して、優れた論理的一貫性を示すとされています。また、これは同社の2番目の1兆パラメータモデルであり、以前のLing-1T previewに続くもので、彼らは世界初のオープンソース思考モデルだと主張していました。ここで起こっているのは、かなり明確な変化です。

中国はもはや自国市場向けに大規模モデルを構築しているだけではありません。この規模でオープンソース化することで、Ant Groupは世界の舞台でプレイしたいというシグナルを送っています。単にキャッチアップするのではなく、最大の西洋ラボと直接競争することです。そして今回、彼らは透明性を持ってそれを行っています。OpenAIがクローズドドアの研究に深く移行している一方で、ANTはオープンさとコミュニティの貢献に賭けています。

Ling-1Tが立場を維持できれば、AI競争全体をより協力的なモデルエコシステムへと押し進める可能性があります。1兆パラメータのシステムがAPIの背後に隠されるのではなく、実際に世界と共有される世界です。そして再びGoogleです。今回は、音声検索の仕組みそのものを静かに変えることをしています。

GoogleのSpeech-to-Retrieval技術

同社は、Speech-to-RetrievalまたはS2Rと呼ばれる新しいシステムを展開したばかりで、基本的にプロセスの最も古いステップの1つをスキップします。今まで、SiriからAlexa、Google自体まで、すべての音声アシスタントは同じように機能していました。質問を聞き、音声をテキストに変換し、それからウェブで答えを検索するというものです。

シンプルですよね?しかし、その中間ステップ、つまり音声をテキストに変換することが、実際に多くの間違いが起こる場所なのです。小さな書き起こしエラーが、あなたが意図したことを完全に変えてしまう可能性があります。ニースへのフライトと言ったのに、良いフライトと聞こえて、結果がめちゃくちゃになります。そこで、書き起こしを完璧にしようとする代わりに、Googleはそれを削除しました。S2Rでは、あなたの声はもう言葉に変換されません。

それはエンベディング、つまり意味の数学的表現と呼ばれるものに変換されます。そのエンベディングは、Googleのインデックス内の情報と直接マッチングされます。言い換えれば、システムは質問をどのように表現するかは気にしません。あなたが何を意味したかを気にするのです。そしてGoogleはこれを、書き起こしの忠実性から検索意図への移行と呼んでいます。

彼らはもはや、あなたが言ったことをどれだけ正確にタイプできるかを最適化するのではなく、あなたが何を求めているかをどれだけうまく理解できるかを最適化しています。S2Rはデュアルエンコーダーシステムを使用しており、1つのモデルがあなたの音声を意図ベースのエンベディングに変換し、もう1つがウェブドキュメントに対して同じことを行い、単語ではなく意味をマッチングします。リアルタイムでオーディオをストリーミングし、関連する結果を見つけ、Googleの通常のランキングシステムを通過させます。

17言語にわたるテストでは、古い音声からテキストへの方法を上回り、人間レベルの完璧な書き起こし精度に近づきました。つまり、これは基本的に、意図を理解することが完璧な言い回しよりも重要であることを証明しています。特に異なる言語やアクセントにわたって。Googleのテストでは、書き起こしエラー率が低いことが必ずしもより良い検索結果を意味するわけではないことも示されました。これは、音声検索精度の向上が天井に達し始めていた理由を説明しています。

S2Rはその天井を完全に打ち破ります。この変化を裏付けるために、Googleはsimple voice questionsと呼ばれる公開データセットもリリースしました。これはHugging Faceでホストされており、26のロケールと17の言語をカバーしています。クリーンなオーディオ、バックグラウンドのおしゃべり、交通音、さらにはテレビのノイズなど、あらゆる種類の条件下での録音が含まれているため、開発者は自分のシステムが現実世界の混乱をどれだけうまく処理できるかをテストできます。

これは、Massive Sound Embedding BenchmarkまたはMSEと呼ばれる、より広範なオープンソースベンチマークの一部であり、音ベースのAIシステムを測定する方法を標準化することを目的としています。次回、Googleに声で質問をして、誤解することなく答えを完璧に当てたとき、それはおそらく運ではありません。

それはS2Rがバックグラウンドで静かに重労働をしているのです。書き起こしも仲介者もなく、純粋な意図から一気に答えへと導きます。さて、動画を楽しんでいただけたら、コメントを残し、チャンネル登録をして、いいねを押してください。ご視聴ありがとうございました。次の動画でお会いしましょう。