Mistral 3の新モデル4つがリリース!

LLM・言語モデル
この記事は約9分で読めます。

Mistral AIが5ヶ月ぶりに大規模なモデルリリースを発表した。今回のMistral 3シリーズには、675Bパラメータを持つフラッグシップモデル「Mistral Large 3」と、3B、8B、14Bの3つの小規模な密モデル「Ministral 3」が含まれている。特筆すべきは、全てのモデルでベース版と指示調整版が提供され、Ministralシリーズには推論版も用意されている点である。ベンチマーク上ではDeepSeek 3やKimi K2と同等の性能を示し、オープンソースモデルの中では上位に位置する。中国勢の台頭により欧州限定の存在になったとの見方もあったが、今回のリリースはMistralが依然としてオープンソースAI分野で重要な役割を果たしていることを示している。ベースモデルの公開により、独自のファインチューニングや実験が可能となり、研究者や開発者にとって貴重なリソースとなっている。

4 NEW Mistral 3 Models!!
In this video, we look at the latest release from Mistral, a new Mistral-3 large model and 3 Minstral models. Blog: http...

Mistral AIの復活と新モデルリリース

さて、Mistral AIが帰ってきました。これは長い間、彼らからの大きなリリースがなかった後のことです。彼らの研究ページを見てみると、今日お話しするのはMistral 3についてです。そして単なるアップデートではない彼らの前回の新モデルリリースは文字通り5ヶ月前のことでした。これは現在のAI業界においては複数年分に相当する期間と言えるでしょう。

しかし彼らは戻ってきました。そして過去数ヶ月間人々が問い続けてきた疑問、つまりMistralは本当に欧州向けのモデル群に過ぎないのか、中国のモデルがこれだけ台頭した今、彼らはもはや無関係な存在なのか、という問いに対して明確に答えを示しています。明らかにMistralはそれに同意するつもりはありません。

そして今回のリリースはおそらく彼らの主張全体を裏付けるものとなっています。これがMistral 3です。そして実際に彼らはここで4つのモデルをリリースしています。ネーミングとナンバリングはかなり混乱を招くものになっています。彼らがここでリリースしているメインモデルはMistral Large 3です。ここで興味深いのは、過去においてMistralは小規模モデルのオープン版をリリースする傾向がありましたが、おそらく最大のモデルはそうではなかったということです。

Mistral Large 3は675BのMixture of Expertsモデルです。覚えていらっしゃるかもしれませんが、MistralはオープンなMixture of Expertsモデルを最初にリリースした企業の一つで、今から約2年前のことでした。オリジナルのMixtralモデルで、記憶が正しければ8×70億パラメータのMOEだったと思います。ですからこれは明らかにMistralの主要なフロンティアモデルの一つであり、これは675億パラメータのモデルで、410億パラメータがアクティブになっています。

アクティブなパラメータの量が、最近GPT-4oのようなモデルで見られたものよりもかなり多いことは非常に興味深いです。一般的にどの瞬間でもパラメータの約5%以下がアクティブになっていました。そしてQwenのMOEからでさえ、それらはより小さく、アクティブなパラメータもずっと少ない傾向がありました。

Ministral 3シリーズの登場

Mistral Large 3という本当に大きなモデルと並んで、彼らは3つの小規模な密モデルもリリースしています。そしてこれらをMinistral 3と呼んでいます。ある意味では、これらはおそらくMistral Smallからの置き換えのように見えます。最後のものはMistral Small 3.2だったと思います。しかし私にとって、ここでの大きな勝利の一つは、彼らが指示調整済みモデルの種類をリリースしただけでなく、これらのそれぞれにベースモデルをリリースしたということです。

つまり、4つの新しいベースモデル、新しい指示調整済みモデルが手に入りました。そしてMinistralモデルについては、各サイズのモデルの推論版があります。最も小さいものまで含めてです。さて、Mistral Large 3を見てみると、彼らがリリースしたベンチマークは、基本的にDeepSeek 3やKimi K2モデルと同等のレベルに位置づけられています。

これは間違いなくMistralに見られる変化です。過去において彼らは中規模モデルを比較する際にはClaude Sonnetのようなモデルと比較する傾向がありました。小規模モデルについて話すときはClaude Haikuと比較したり、GPT-4o miniなどと比較したりしていました。

これらの比較は基本的になくなりました。なぜなら、OpenAI、Google、Anthropicのようなフロンティアラボからのモデルは、多くの点で本当に次のレベルに到達しているからです。そして予算が足りない企業は単純にそれに追いつくことができないだろうと考えざるを得ません。実際、ここに来てLMArenaのスコアを見てみると、下に行って28位まで見ていく必要があることがわかります。そこでようやくMistral Largeが実際にここに見つかります。

とはいえ、これは間違いなくトップレベルのオープンモデルの一つです。下に来てApache 2ライセンスでソートすると、Mistral Largeがまさにそこにあり、トップのオープンモデルの中にあって、実際にQwen 3モデルの多くを上回っており、Qwenの大規模MOEモデルにわずかに負けているだけであることがわかります。

ベンチマークと性能比較

彼らがここに持っているベンチマーク比較は、実際に示しているモデルにおいて本当に非常に選択的です。そして覚えておかなければならないのは、この現在のバージョンは非推論版であるということです。彼らは実際に、推論版がそう遠くない将来に登場することさえ指摘しています。ここにある3つのMinistralモデルに飛び込んでみましょう。

3Bでさえ特定のタスクにおいてGemma 3 12B instructモデルと同等であるという、本当に印象的な結果が見られます。これは今ではかなり古く、実際にこの時点では前世代のモデルのようなものです。しかしここで素晴らしいことの一つは、これらのモデルが存在するということです。DeepSeekやKimiなどから新しいモデルが出ている一方で、それらは彼らがリリースしている単一の本当に大きなモデルである傾向があります。

推論版と非推論版があったとしても、彼らから小規模モデルは見られていません。小規模モデルについては、過去には多くの企業がこの分野で活動していました。今では、それらの企業の多くは単にそれらを出していません。新しいPhiモデルのいずれかを見てからはしばらく経っていますし、Phiのベースモデルが欲しいとなればさらに長い時間が経っています。

そして本当にQwenだけが多くの異なるサイズを出してきました。そしてLiquid AIのような新しいプレイヤーが、おそらくエッジデバイスや携帯電話などでの使用により焦点を当てた小規模モデルを作ることに参入してきています。ですから、Mistralが14Bモデル、8Bモデル、3Bモデルでこの分野に戻ってきたことを見るのは素晴らしいことです。

そしてこれらは、Mistralが本当に輝いていたサイズとほぼ同じです。大企業の一つから来たのではない最初の本当に優れたオープンモデルは、彼らの7Bモデルでした。そして私は間違いなく、彼らが推進してきたこと、そしてこのリリースでも依然として推進していることに感謝すべきだと思います。それは、人々が独自のファインチューニング、独自の実験を行い、これらのモデルに入った事前学習から最高のものを引き出す方法を見つけられるように、ベースモデルをリリースすべきだという考え全体です。

詳細な性能分析

これらを見てみると、3つのモデルがGemmaチーム、Qwenチームからの約4Bモデルと競合していることがわかります。8Bモデルも同様の種類のモデルと競合しています。そして14Bは一般的にQwen 14Bモデルと同等か、わずかに遅れているように見えます。ただし、Ministral 14Bは、おそらく他の一部のモデルよりも指示に従うことにおいて優れているようです。そして同じことが、ここでの推論ベンチマークを見たときにも当てはまるようです。

さて、それらのQwen 3モデルは4月末にリリースされました。今年の終わりか来年の初めに向けて、Qwen 3.5または4を見ることになるだろうと考えざるを得ません。そしてQwenとは異なり、彼らはこれらが何トークンで学習されたかなど、そのようなことを私たちに伝えていません。これらのモデルの論文をまだ見ていません。

しかしそれでも、比較できるこれらのモデルを持つことは本当に良いことだと私は思います。今ではすべてのモデルが非常に優れたものになっているため、モデルを非常に迅速に比較できるシステムを本当に持ちたいと思うでしょう。最近、私はVentureBeat Beyond the Pilotポッドキャストのために、大企業のAI責任者の多くにインタビューしています。

そして彼らと話しているときに見られる共通点の一つは、彼ら全員が基本的にモデルを非常に迅速に入れ替えることができる設定を持っているということです。そして新しいモデルが出るたびに、彼らはすぐに自分たちのベンチマークでそれをテストしています。彼らはもはや公開ベンチマークについては本当に気にしていません。

私は、これが人々が本当に焦点を当てるべきことの一つだと感じています。それは、モデルを使用している特定のアプリやユースケースのための独自のベンチマークを持ち、すべての新しいリリースをテストして、自分にとって何が最適かを確認できるようにすることです。これらのモデルはすべて実際に出ています。Ministralについてはベースモデル版、instruct版、そして推論版があります。

一般的なリリースと並んで、MistralはGGUF版の束もリリースしています。ですから実際にこれらを試してみて、それらの異なる量子化版を試すことができます。全体的にまとめると、多くの点で人々はこのリリースについて信じたいことを信じるだろうと思います。Mistralは本当に欧州に焦点を当てていて、EUが独自のモデルを持ち、そのシステムのために構築されたものを持ちたいと考えている欧州にのみ関連していると言う人もいるでしょう。

Mistralの今後の展望

しかし個人的には、このリリースはMistralがオープンソース分野で依然として関連性があることを本当に示していると思います。彼らはもはやAnthropic、Google、OpenAIに追いつくことができないかもしれません。しかし明らかにここで彼らは推論版と非推論版の両方を持つ堅実なモデルを出しています。忘れてはならないのは、Mistral 3 Largeの推論モデルがまだ登場していないということです。そしてそれがKimi K2 thinkingや最新のDeepSeekモデルなどとどのように比較されるかを見るのは本当に興味深いでしょう。

しかし彼らがベースモデルをリリースしたという事実は、これらで独自の実験を実行でき、ユースケースなどのために異なるファインチューニングを試すことができることを意味しています。いつものように、これらで遊べるリンクを説明欄に入れておきます。コメントであなたの考えを聞きたいと思います。Mistralは2年前、明らかにオープンモデルのナンバーワンプロバイダーだった当時と同じくらい、今日でも依然として関連性があると思いますか。それとも中国のモデルが今ではあまりにも支配的になっているため、Mistralは本当にEUに焦点を当てたものであり、Mistralモデルを使いたくない人々のためのユースケースに過ぎないのでしょうか。

とにかく、いつものように、この動画が役に立ったと思ったら、いいねとチャンネル登録をクリックしてください。次の動画でお話ししましょう。それでは。

コメント

タイトルとURLをコピーしました