
5,008 文字

マイクロソフトはOpenAIに何十億ドルもの資金を投じてきましたが、今では自社内AIである「MAi」を構築しています。これはおそらくOpenAIの高額なコストを回避するためで、新しいエージェントの利用料金は月額2万ドルになると噂されています。これは高度なAIとしては非常に高額であり、マイクロソフトの動きは、コスト削減と主導権確保のために自社技術に賭けていることを示唆しています。マイクロソフトのMAi、OpenAIの高額なエージェント、そしてAIの計画立案と思考方法を変える可能性がある魅力的な「Belief State Transformer」について詳しく見ていきましょう。
まず、マイクロソフトとOpenAIの間で高まる緊張関係から始めましょう。マイクロソフトとOpenAIはしばらくの間パートナーであり、マイクロソフトはOpenAIに約130億から140億ドルを投資し、初期段階での成長を支援してきました。実際、かつてはマイクロソフトがAzure上でOpenAIの独占的クラウドプロバイダーとなるほど密接な関係にありました。しかし、事態は今複雑になっています。
噂によると、マイクロソフトは独自の高度なAIモデルを訓練しており、これがOpenAIのGPTシリーズ(ChatGPTを動かしているもの)や、Anthropicなど他の大手企業のモデルと競合する可能性があるとのことです。様々な報告によれば、マイクロソフトは社内で新しい大規模言語モデルファミリーを開発しており、これはよく「MAi」(おそらくMicrosoft AIの略)と呼ばれています。彼らはこれらのMAiモデルを、マイクロソフトのCopilotシステム(文書作成やスプレッドシート管理、さらにはコーディングを支援する人気のAIアシスタント)を動かせるかどうかテストしました。Copilotは現在、OpenAIのモデルに大きく依存していますが、どうやらマイクロソフトはそのパートナーシップへの依存度を下げたいようです。おそらくコスト削減と柔軟性向上のためでしょう。
一部の情報筋によれば、MAiは主要なベンチマークにおいて少なくともOpenAIやAnthropicの主要モデル並みの性能を発揮しているとのこと。さらに、マイクロソフトは自社のLLMだけでなく、Meta、xAI、DeepSeek、Anthropicなどのサードパーティモデルもテストしています。
これは単なる性能やブランド価値だけの問題ではありません。大きな要因の一つはお金です。大規模言語モデルの維持、特に何百万人もが使用する製品の場合、膨大なデータセンターの費用がかかります。AIチップは1つあたり1万ドルから3万ドルかかり、サーバーラック全体では電源を入れる前に50万ドル以上のコストがかかることもあります。
この膨大なオーバーヘッドがAI業界での驚くべき価格設定につながっています。例えば、OpenAIは月額最大22万ドルの料金で、トップクラスの博士レベルの研究エージェントを提供すると噂されています。これは途方もない金額です。
例えば、ソフトバンクは今年だけでOpenAIからAIエージェントを購入するために30億ドルを投じることを約束しているとされています。これらのエージェントが金融や研究分野でトップレベルの専門家が行うような熟練作業を行えば、それだけの価値があると考えているからです。
しかし、この高度なAIアシスタントに月額1万ドルや2万ドルを支払う価値があるかどうかについては、誰もが納得しているわけではありません。一部の小規模スタートアップは月額500ドル程度でコーディングエージェントを提供していますが、これらは高額なOpenAIエージェントほど強力ではないかもしれません。それでも、高級OpenAIエージェントと比べれば大きな違いです。
誰もが考えている疑問は、AIは本当に人間の専門家の必要性を置き換えるのか、それともそれ以上の誇大宣伝なのかということです。
一方、マイクロソフトの方針転換は、今年初めにOpenAIとの契約を変更した方法からも見て取れます。彼らはOpenAIの独占的クラウドプロバイダーから、「先買権」を持つだけの関係に移行しました。これはマイクロソフトが希望すればOpenAIのワークロードをホストできますが、OpenAIもOracleなど他のクラウドプロバイダーを自由に使用できるということです。
これは、AIインフラに大規模な投資が行われている時期と重なっています。例えば、Oracle、ソフトバンク、NVIDIAとのStargateプロジェクトは、米国で最大5000億ドルを次世代AIハードウェアに投入する可能性があります。マイクロソフト自身も2025会計年度にAIデータセンターに約800億ドルを投資する計画であり、その健全な一部はインドに向けられます。
このような背景から、マイクロソフトは社内での先進研究に新たに力を入れています。その一部が「Fi」や「MAi」と呼ばれる一連のモデルであり、推論AIの新たな開発も含まれます。噂によれば、これらの推論モデルは複数ステップの論理的問題などのより複雑なタスクに取り組み、OpenAIやAnthropicの先進的なものと競合する可能性があるとのことです。これらは最終的にOpenAIのGPTモデルのようにAPIを通じてアクセス可能になるかもしれません。そうすれば、他の開発者も自分たちのアプリにマイクロソフトのAIを統合できるようになります。
製品とビジネスの競争だけでなく、マイクロソフトリサーチも純粋に技術面で忙しく活動しています。最大の新しいアイデアの一つは「Belief State Transformer(BST)」と呼ばれるものです。これはシーケンスモデリングへのアプローチであり、基本的にはAIがどのようにトークン(または単語)のシーケンスを処理し生成するかを意味します。
私たちが知っている典型的な左から右へのモデル(ほとんどの大規模言語モデル)では、AIは過去からのトークンは見えますが、未来からのトークンは見えません。しかし、Belief State Transformerは前方エンコーダと後方エンコーダの両方を使用します。特定のポイントまでの先行単語(プレフィックス)からの情報と、その後の単語(サフィックス)からの情報の両方を吸収できます。そして、次のトークンだけでなく、シーケンス内の前のトークンも予測できます。
なぜこれがそれほど大きな違いなのでしょうか?実は、計画を必要とするタスク、特に最終目標を知る必要があるタスクは、典型的な左から右のモデルを非常に混乱させることがわかっています。
一例は「スターグラフナビゲーション問題」と呼ばれるものです。スターグラフでは、複数の枝があり、開始ノードから目標ノードへの正しい経路を選ぶ必要があります。前方のみのモデルはしばしば目標ノードを無視し、任意の有効な次のノードを推測することでごまかします。これではモデルが開始から終了までの計画を真に学習しないため、平凡な結果しか得られません。
理論的には、標準の言語モデルがこのショートカットを身に付けると、勾配ベースのトレーニングで複雑なパリティ関数を解決するのと同じくらい修正が難しくなります。つまり、超難しいということです。
Belief State Transformerは、AIにサフィックスの前に来るものについても予測させることでこの問題を解決します。そのため、トレーニング中に簡単にごまかすことができなくなります。トレーニング中には、プレフィックスとサフィックスを見て、次のトークンと前のトークンの両方を生成する必要があります。
この強制的な双方向の視点は、正しいシーケンスを生成するために必要なすべての情報を実際に含むコンパクトな信念状態を維持するのに役立ちます。スターグラフでの実験では、前方のみのベースラインを大幅に上回る性能を示しました。複数予測やフィルインザミドル(目標として最後のテキストのチャンクを供給する)など他のアプローチでさえ、難しいシナリオではついていけません。
Belief State Transformerは、すべての関連する将来状態の分布を効果的に表す内部表現を学習し、計画や目標指向のステップを本質的に含むタスクをより良く処理できるようになります。
「Tiny Stories」と呼ばれるデータセットを使った小規模なテストでも、Belief State Transformerは与えられたプレフィックスとサフィックスの両方に合致する一貫性のあるストーリーを生成する際に、典型的なフィルインザミドル戦略よりも優れた性能を示しました。
このチームはGPT-4を使ってサンプルストーリーを比較し、文法、流れ、一貫性、創造性で評価しました。BSTベースのストーリーは、より滑らかな移行をし、適切に終了し、プレフィックスとサフィックス間でより論理的な構造を維持したようです。対照的に、標準の前方モードの多くの試みは突然終了したり、ストーリーの論理を破壊したりしました。
さらに、Belief State Transformerは前のトークンデコーダから自身の出力をスコアリングすることで無条件のテキスト生成を行うことができ、ストーリーを段階的に計画し、満足のいく結末があるかどうかを確認することができます。この余分な前方後方の相乗効果により、より流暢に読めるストーリーが生まれる可能性があります。
もちろん、これらはすべて大規模な商用モデルと比較するとまだ比較的小規模です。Belief State Transformerは一部の実験では約8000万のパラメータを持っていますが、GPT-4は数千億のパラメータを持っています。しかし、その原理は拡張可能であり、それが非常に興味深い点です。これらのアイデアが大規模システムに取り入れられれば、マイクロソフトが計画、推論、高品質なテキスト生成に優れた先進的AIを構築する上で強力な優位性を得る可能性があります。
MAiのような新しいLLMで独自の道を切り開き、MetaやAnthropicからの外部モデルをテストし、Belief State Transformerのような基礎研究を推進することで、マイクロソフトは複数の角度からAIに力を入れています。彼らはCopilotを最高のモデルで動かしたいと考えており、それが特定のタスクにOpenAIを使用すること、独自の大規模推論モデルを使用すること、あるいはコスト削減や性能向上のために他のものを取り入れることを意味するかもしれません。
一方で、OpenAIとの緊張関係は高まり続けています。マイクロソフトはGoogle、各種ソーシャルプラットフォームとともに、検索や広告などの分野でOpenAIを競合として挙げることに躊躇しなくなりました。これは興味深い変化です。かつては独占的なパワーカップルのようなものでしたが、今では協力と競争を同時に行う「フレネミー(友敵)」のような関係になっています。
OpenAIの新しい数百万ドルの高額な先進エージェントの価格設定と、GPUクラスタの高い燃焼率を考えると、両社ともAIフロンティアに金脈を見いだしていることは明らかですが、大きなリスクも伴います。
では、私たち残りの人々はどうなるのでしょうか?おそらく、より激しい競争、おそらく大手AI企業のサービスの多様化、そして可能性としては(指を組んで願いますが)より多くの実行可能な競争相手が現れることで、法外な月額料金への下方圧力が生まれるかもしれません。あるいは、主要なAIプロバイダーは高額のままで、絶対最高のものを必要とする企業顧客にフォーカスするかもしれません。いずれにしても、これからは激動の旅になるでしょう。
とにかく、競争はほぼ常にイノベーションを加速させますし、私たちが毎日使う製品に本当に次のレベルの機能が登場するのを目にするかもしれません。この解説を楽しんでいただけたなら、ぜひいいね、シェア、購読をお願いします。視聴いただきありがとうございます。次回またお会いしましょう。


コメント