MetaのMuse Sparkがついに登場 AI業界を驚かせたマルチモーダルモデルの全貌

Meta・マイクザッカーバーグ
この記事は約14分で読めます。


MetaがついにリリースしたMuse Sparkは、同社のIntelligence Labsが開発したMuseファミリーの第一弾モデルであり、ネイティブマルチモーダルを特徴とする。動画、画像、音声、テキストを基盤から理解できるよう設計されており、マルチモーダル領域では競合を大きく上回る性能を示す。Claude Opus 4.6に次ぐポジションに位置し、特にビジュアル認識やリアルタイムデータ取得で優れた結果を出している。複数エージェントが並列で推論する「Contemplating Mode」を搭載し、トークン効率を保ちながら科学的推論タスクでも高精度を達成。さらにMetaは9ヶ月かけてトレーニングレシピを再構築し、同等性能を達成するために必要な計算量を競合の3分の1から10分の1に削減することに成功した。ヘルスケア分野にも注力し、1000人以上の医師と協力してデータをキュレーションしている。ただしベンチマーク表示に関しては視覚的バイアスを誘発する可能性があり、全領域で最先端というわけではない点には注意が必要である。

Metas MUSE SPARK Just Surprised The AI Industry - Meta Muse Spark Explained
🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

Muse Sparkの登場とネイティブマルチモーダルの強み

ついにMetaが新しいAIモデル、Muse Sparkをリリースしました。それでは早速、このモデルについて詳しく見ていきましょう。

Muse Sparkは本質的に、MetaのIntelligence Labsに関して私たち全員が待ち望んでいたモデルなんです。これはMetaの新チームによって開発されたMuseファミリーモデルの第一弾となります。このモデルで最も興味深い点の一つは、ネイティブマルチモーダルであるということです。

まず、このモデルの素晴らしい点について全て説明してから、いくつかの欠点についてもお話しして、皆さんに非常にバランスの取れた視点を提供しようと思います。

Metaが最初に語っている点の一つは、これがリリースする最初のモデルの一つであり、現在すでに利用可能になっているということです。このモデルを試すことができますが、理解しておくべき重要な点は、これがネイティブマルチモーダルなモデルだということです。つまり、動画、画像、音声、テキストを理解するために基礎から構築されているということなんです。

ここで見ることができるベンチマークでは、マルチモーダル領域が多くの異なる競合よりも大幅に優れたパフォーマンスを発揮しています。

ただし、すべての領域で完全に際立っているわけではありません。GPT-4やGemini 3のような他のモデルがわずかに優れているエリアもいくつかあります。しかし、これは間違いなく新しいMuse Sparkモデルが優れている最も強力な領域だと言えます。

総合ベンチマークでの位置づけ

ベンチマークについては後ほど詳しく見ていきますが、全体的な状況を見てみましょう。

これはArtificial Analysisインデックスで、複数の異なるベンチマークを組み合わせたものです。例えば、GPQA推論などの多くの異なる要素が一つに統合されています。このインデックスでは、MetaのSparkモデルが現在Claude Opus 4.6 Maxの後ろに位置していることがわかります。

このインデックスが非常に良いベンチマークのベースラインだと思う理由は、一つの特定領域だけでなく、多くの異なる結果の組み合わせや平均を示しているからなんです。全体を通して、モデルがどこに位置しているかを正確に見ることができます。

多くの人がこのモデルはそれほど良くないと思うかもしれませんが、Llama 4 Maverickを作って以来、彼らが非常に大きな飛躍を遂げたことは明らかに見て取れます。

現在、これは明らかにフロンティアクラスのモデルです。そして、このモデルが優れているさらに重要な領域をお見せしていきます。

マルチモーダル性能の実力

正確にどこで優れているかを知りたい場合は、このマルチモーダル例を見てください。実際にMetaモデルについて追加のテストを行ったウェブサイトがありました。

このモデルは現在、ビジュアル領域で優れています。マルチモーダルがこのモデルが現在優れている領域だと言ったことを覚えていますか。これは彼らが示した例の一つです。

この例では、モデルにYezisという店の黒板メニューを見せました。もちろん、これはかなり難しいタスクです。なぜなら手書きのチョークで書かれていて、ガラスの反射があり、複数の異なるセクションに複数の異なる価格があるからです。

そしてもちろん、モデルにメニューには何があるかを尋ねることができます。ここを見ると、現在の応答を見た場合、Meta Muse Sparkは他のモデルと比較してほとんどの場合、これを正確に取得できたことがわかります。

もちろんMetaがこれをリツイートしていることを考えると、これはチェリーピッキングだと主張する人もいるでしょう。

しかし私が主張したいのは、ほとんどのモデルは実際にはネイティブにマルチモーダルとして構築されていないということです。ほとんどはシンプルにテキストベースなんです。だからこそ、GoogleやMetaのようにモデルをネイティブにマルチモーダルとしてトレーニングする企業がある場合、起こる傾向があるのは、マルチモーダル推論能力を持つ非常に効果的なモデルが得られるということです。

リアルタイムデータ処理での優位性

もう一つ非常に興味深かったのは、これを見ると、これがリアルタイムデータセクションと呼ばれるものだということです。このリアルタイムデータセクションは超興味深いです。なぜなら、これは現在Grokがリーダーボードを持っていると思うようなものだからです。

私を含むほとんどの人は、リアルタイムデータにGrokを使用しています。なぜなら、その分野に関しては現在非常に最新だからです。

しかし、実際にあったのはこれです。基本的に各モデルにNvidia、AMD、Intelの現在の株価を見つけるよう依頼しました。そして本質的に、ここであったのは、Meta Muse Sparkがそれを行うことができた最良のモデルだったということです。最新のニュースをすべて取得することができました。

これは非常に興味深かったです。なぜなら、Deep Search QAベンチマークを見ると、これもまたMeta Muse Sparkが実際に比較的良いスコアを出した領域だからです。

実際にこれを含めた理由は、これがおそらくほとんどの人が見逃す可能性のあるものだからです。もちろん、固有のベンチマークは何かと言う人もいます。しかし、これがモデルのパフォーマンスにとって非常に重要であることに気づかない人もいるでしょう。

Contemplating Mode:複数エージェントによる協調推論

それでは、Metaが実際にネイティブで持っているもので、他のモデルには実際にないものを見てみましょう。

このエージェント的な機能が、その効果を考えると他のモデルでもデフォルトになるのかどうか、私は気になっています。これを見てください。

これは実際のLLMで初めて見たものです。これをモデル評議会と呼ぶ人もいます。LLMジャッジや投票アリーナと呼ぶ人もいます。しかしMetaは本質的に、このモデルにContemplating Modeと呼ばれるものをリリースしました。

これは並列で推論する複数のエージェントをオーケストレーションするものです。そして、複雑な科学的推論クエリを処理するように設計されています。彼らのテストでは、Gemini DeepthinkやGPT Proのような他の極端な推論モデルと競争力があることがわかりました。

これは本質的に、他のエージェントを立ち上げて協力させ、彼らの推論努力を一つの最終判断に統合するAIです。

そうすることで、実際に現在のモデルよりも優れた結果を得られるだけでなく、よりトークン効率的でもあるんです。

ここで見ることができるように、Humanity’s Last Examでは、これは現在最先端のように見え、GPT 5.4 Proからわずか3ポイント後ろで、ツールを使用しない場合は実際に他のモデルよりも優れています。

Frontier Science Researchでは、実際に38.3を記録しており、これは現在最先端のベンチマークです。複数のエージェントが協力することは、おそらく将来のテーマになると思います。なぜなら、これらのモデルの能力のほとんどは互いに十分に到達可能な範囲内にあるからです。そこには大規模なギャップがあるような、狂ったような領域は見られないようです。

実際にContemplating Modeを見たい場合は、ここで異なるエージェントによって能力レベルがどのようにスケールするかを見ることができます。ここには1つのエージェント、それから2つのエージェント、そして4つのエージェント、そして16のエージェントがあるとき、その精度が向上し続けることがわかります。

彼らはこれについてあまり多くを語っていませんが、私が気になるのは、これは純粋な推測ですが、これらのエージェントに何らかの固有のスケーリング法則があるのではないかということです。もしかしたら、エージェントを増やせば増やすほど、より多くのことができるようになるのかもしれません。もちろん、LLM内にロックされている利益を解放する実際の異なるアーキテクチャで、これがどのように進化していくかを見るのは非常に興味深いでしょう。

実用的なマルチモーダル応用

他にも本当にクールだったのは、このプロンプトです。誰かが文字通り冷蔵庫のスクリーンショットを撮り、それをマルチモーダルAIに入れて、こう言いました。私は高コレステロールの人です。推奨される食品に緑の点を、推奨されない食品に赤い点を付けてください。

点を重複させないで、適切にローカライズしてください。そして点の上にカーソルを合わせたときに、その正当性と健康スコア、カロリー、炭水化物、タンパク質、脂肪を表示してください。

これはモデルが比較的うまく実行できたものでした。実際、私はこのデモをテストしましたが、説明通りに正確に機能します。

AI企業がリリースするものが、実際にはデモが機能しないということが何度もあって驚かされます。それを再現することができないんです。しかし、これは私がかなり効果的に再現できたものでした。そして、これがどれほど良かったかに非常に嬉しく驚きました。

これは非常に効果的だと思います。

これが示すのは、生のコーディング能力だけではありません。その分野で最先端というわけではありませんが、モデルが実際に優れたマルチモーダル機能を持っていることを示しています。繰り返しになりますが、Muse Sparkに導入されたマルチモーダリティで、私たちが持っているのは動画を分析する能力です。

ほとんどの人はこれに気づいていませんが、現在のLLMのほとんどはネイティブに動画を分析することができません。

現在それを本当に行うことができる唯一のモデルは、Geminiです。場合によってはGrokが、時々ChatGPTが幻覚を起こすこともありますが、Geminiが主なものです。そしてもちろん、今やMetaのマルチモーダルモデルも実際にそれを行うことができます。

これはもちろん、動画を分析するために使用できるものです。

はい、オープンソースのものもいくつかあることは知っていますが、これはもう少し優れています。

スケーリング曲線と思考圧縮の革新

非常に興味深かったのは、Metaが強化学習トレーニングからのスケーリング曲線を実際に共有したことです。そして、ここから面白くなってきます。

左側には精度があり、右側には保留された評価セットでの精度があります。つまり、モデルがこれまで見たことのない問題についての精度です。

そしてそれらの線を見ると、まだ上昇していることがわかります。プラトーはありません。平坦化もありません。つまり、Metaは本質的に、より長くトレーニングするだけでパフォーマンスを押し上げ続けることができると言っているのです。

そして、ここでの本当のブレークスルーは、彼らが思考圧縮と呼ぶものです。01や03のような思考モデルが問題を通して推論しようとして非常に多くの異なるトークンを消費する方法が好きでない場合、Metaは、モデルが長く考えることにペナルティを課すと、何か奇妙なことが起こることを発見しました。

モデルは実際に推論を圧縮することを学習し、より少ないトークンを使用して同じ問題を解決します。

これを見てください。考えています、考えています、それからペナルティを受けます、圧縮します、そしてまた長く考えます。

そして、本質的にそれがはるかに短くなることがわかります。つまり、何かを説明するために2000語のエッセイを書いているとしましょう。そして誰かがあなたに500語で同じことを言うように強制したとします。

各単語でより鋭くなりますよね。なぜなら、もし再び2000語を言うことが許されたとしても、各単語でより効率的になっているので、本質的により多くの範囲をカバーできるからです。

これがMetaが理解したことです。強化学習トレーニングを通じて、モデルにこれを自動的に行わせる方法です。これを大規模に考えてみてください。すべてのトークンはこれらのAI企業にお金がかかります。

Metaの場合、これは数十億のユーザーになり、それは狂ったような計算コストになるでしょう。

彼らがここで使用しているこのトリックは、モデルが実際に考えるために使用する単語を減らしながら賢くなることを意味します。つまり、これは実行がより安くなり、応答が速くなり、基本的に同じかより良い答えが得られるということです。これは非常に興味深いです。

そして、これまでこのようなものを見たことがありません。

これが示すのは、Metaが単に他のモデルがやったことをコピーしているだけではないということだと思います。彼らは実際にはイノベーションされていない領域でイノベーションしているのです。

トレーニング効率の圧倒的優位

Metaがトレーニングに関してどれほど効果的かを見ると、このチャートはMetaのスケーリングラダーです。これは、投入する計算量が増えるにつれてパフォーマンスがどのように向上するかをマッピングするためにトレーニングした、より小さなモデルのファミリーです。

Y軸の下の方が良いです。モデルがコードを予測するのが優れているということです。X軸の計算量が多いほど、モデルのトレーニングコストが高いことを意味します。

ここでの重要な部分は、それらの色です。曲線の右側にある色付きの点が見えますか。それらは競合です。Llama 4 Maverickは以前のモデルです。

それからDeepSeekがあり、それからGemini 2があります。乗数を持つ水平線は、それらのモデルがMuse Sparkと同じレベルのパフォーマンスに到達するために必要だった計算量がどれだけ多かったかを示しています。

Llama 4 Maverickは同じ品質に達するために10倍の計算量が必要でした。DeepSeekは8倍の計算量が必要で、Geminiは同じ品質に達するために3倍の計算量が必要でした。

これは何を意味するのでしょうか。つまり、Metaは9ヶ月かけて全体のトレーニングレシピを再構築したということです。アーキテクチャの最適化、データのキュレーションを再構築し、その結果、Muse Sparkは計算量の単位あたりはるかに多くの能力を抽出します。リソースのほんの一部を使用して、同じレベルの品質のモデルをトレーニングできます。

これは、考えてみると、コストとスピードの優位性です。同じパフォーマンスに到達するために10倍少ない計算量が必要な場合、同じモデルをはるかに安くトレーニングするか、同じ予算を使ってはるかに優れたモデルをトレーニングすることができます。

そしてMetaの規模では、これは再び数十億ドルの節約に換算され、競合よりもはるかに速く反復する能力につながります。

ヘルスケア分野への注力

彼らが実際にこのモデルのために焦点を当てることに決めたもう一つの点は、ヘルスケアでした。彼らは実際に1000人以上の医師と協力して、より事実的で包括的な応答を可能にするトレーニングデータをキュレーションしました。

Meta Sparkは、さまざまな食品の栄養成分や運動中に活性化される筋肉など、健康情報を解き明かして説明するインタラクティブな表示を生成できます。

もちろん、これを試してみる必要がありますが、今すでに有効になっていることを覚えておいてください。おそらく本日後ほどチュートリアルをドロップするつもりです。

ベンチマーク表示の問題点

ここで一つ取り上げたかったことがあります。それはもちろん全体的なベンチマークです。

これはMetaからちょっとずるいかもしれないと思います。なぜなら、彼らがこれをドロップしたとき、通常LLMをドロップする方法で、左側にMeta Sparkを配置した全体のベンチマークページをドロップしたからです。

通常、LLMをドロップするときは、少なくとも一つのカテゴリーまたはいくつかの領域で最先端であることを期待しますよね。しかしこの領域で、Metaが行ったかなり混乱させることは、すべてのMetaのモデルの結果を青にしたことです。

そして彼らがここで行ったのは、あなたに潜在意識的にモデルが全体的に最先端であると思わせるトリックです。

しかし詳しく見ると、実際に見てみると、Metaが最先端ではないいくつかの領域があります。実際に現在のベンチマークを見ると、これはTwitterで見つけたスクリーンショットで、実際にMetaがどこで最先端で、他のモデルがどこで最先端かを示していますが、モデルが現在フロンティアを持っている特定の領域が見られます。

これが重要だと思う理由は、これを見る場合、客観的であることが重要だからです。最初のスクリーンショットは少し潜在意識的に偏っている可能性がありますが、ここで見ることができるのは、Muse Sparkが私が言ったように、エージェント的検索、オープンエンドの健康、そしてもちろんマルチモーダル推論でうまくいっているということです。これは非常に良いです。

ベンチマークを見ると、Gemini 3.1 Proが現在全体的に優れていると書いてあります。しかし、現在、これらすべてのモデルが互いに2〜5パーセントポイント以内にある時点にいると言えます。

モデルがその特定のドメインで優れている限り、その差がどれだけ大きいかはもうそれほど重要ではないと言えます。

皆さんがご存知のように、現在Anthropicの領域はコードです。Geminiの領域はマルチモーダリティです。Metaもマルチモーダリティである可能性がありますが、彼らがどこに傾倒しようとするかを見るのは興味深いでしょう。

画像生成機能について

このモデルが画像を生成するかどうか疑問に思っている場合、実際にアプリを使用していて、これは私が疑問に思っていたことですが、モデルに画像がネイティブに埋め込まれているわけではありません。

単に内部でMidjourneyを使用するだけです。新しい画像と動画モデルを搭載していると思って使用している場合、そうではありません。内部で単にMidjourneyです。

Midjourneyは美的な画像を生成します。しかし、美的な画像は視覚的表現に関して最も正確な画像というわけではないことを覚えておいてください。

モデルを使って画像を生成しようとするときは、その点を念頭に置いておいてください。

コメント

タイトルとURLをコピーしました