Mistral Small 3.1 わずか4分で解説!

AGIに仕事を奪われたい
この記事は約4分で読めます。

2,138 文字

Mistral Small 3.1 in just 4 minutes!
Mistral AI announcementMistral Small 3.1: the best model in its weight class.Building on Mistral Small 3, this new model...

Mistralが最新のSmall 3.1モデルをリリースしました。最も素晴らしい点は、このモデルがApache 2.0ライセンスで提供されていることです。つまり、商用利用を含め、このモデルを使って自由に何でもできるということです。Mistralが再びApache 2.0の原点に立ち返ったことは大変喜ばしいことで、今後もこの路線を継続していくことを期待しています。
このモデルはMistral Small 3をベースに構築されており、全体的に改良されています。最も素晴らしい点は128,000のコンテキストウィンドウをサポートしていることです。このモデルは最近リリースされたGemma 3とも比較可能で、ベンチマークの面ではGPT-4o miniなどの商用モデルとも競合します。
良い点は、これが小さなモデルであるため、トークンあたりのレイテンシが最も低いことです。これは4台のH100でベンチマークされましたが、もちろんこれは私たちが日常的にアクセスできるものではありません。このモデルは量子化バージョンが利用可能になれば、理想的には32GBのマシンにも収まるはずです。つまり、オllama、LM Studioがあり、32GBのRAMを持っていれば、理想的にはこのモデルはそのRAMに収まるはずです。
このモデルは他の機能にも使用できます。例えば、まず明らかに人工知能の生成に使用できますが、このモデルが特に優れているベンチマークがいくつかあります。ここではGemma 3、Cohereのビジョンモデル、GPT-4o mini、Claude 3.5 Haiku、これらすべてのマルチモーダルモデルと比較されています。このモデルが27億パラメータと32億パラメータのモデルとほぼ同等、実際にはCohere 32億パラメータモデルよりもはるかに優れていることがわかります。
マルチモーダルベンチマークを見ても、このモデルは非常に優れています。すべてのベンチマーク(Math、Vista、MMMU Pro、MMMT、Multi-turn benchなど)でこのモデルが良い成績を収めているのがわかります。
最も重要な実用的なユースケースとして、多くの人々がVLM(Vision Language Model)を使用して文書やインフォグラフィックを理解していますが、このモデルはそれらのベンチマークで非常に良い成績を収めています。例えばChart QAでは86%、Doc VQAでは94%というスコアを獲得しており、CohereやGemma 3モデルよりもはるかに高いスコアです。
多言語性に関しても、このモデルはヨーロッパ言語と東アジア言語の良いバランスを持ち、中東言語に関しても同等のパフォーマンスを示しています。
このモデルを使用すべき最も重要な理由は、十分な計算リソースがあれば、長いコンテキストウィンドウのためです。このモデルは最初から128,000をサポートしていますが、llama、LM Studioで使用する場合は明示的に有効にする必要があります。そうでない場合、通常は4,000または8,000のコンテキストウィンドウで提供されますが、有効にすれば、このモデルが非常に良い仕事をすることがわかります。実際、Claude 3.5 Haikuと同等のパフォーマンスを示し、128,000ちょうどの長さではClaude 3.5 Haikuの1レベル下のパフォーマンスを持っています。
最近のベンチマークで私が物足りなく感じているのは、なぜ人々が「needle in a haystack」実験を行わなくなったのかということです。これは長いコンテキストに関する検索機能がどのように機能するかを理解するのに役立っていましたが、残念ながらベンチマーク自体が特に堅固ではないからか、人々はそれを行っていません。
このリリース全体の最も素晴らしい部分は、モデルのファインチューニングのファンであれば、事前訓練されたモデルが提供されていることです。会話可能なインストラクトモデルだけでなく、異なるユースケースのためにファインチューニングできるベースモデルも公開されています。
これが重要な理由は、例えばDeepResearchのような企業がこのモデルを取り、自社のデータとレシピでファインチューニングし、はるかに良い結果を得ることができるからです。例えば、GPQAというベンチマークでは、以前のバージョンのMistral 24億パラメータモデルの上に構築されたDeep Hermis 3モデルが、推論のみで56.57%、推論なしで56.5%のスコアを達成しています。これはファインチューニングができたからです。
このような新しいベースモデルで人々が何をできるか想像してみてください。企業であれ、趣味の人であれ、特定のユースケースのためにファインチューニングしたいだけの人であれ、このベースモデルを使って多くのことができます。このモデルの上に人々が何を構築するのか楽しみです。
このモデルが量子化バージョンとして利用可能になったら、必ず試してみます。また別の動画でお会いしましょう。ハッピープロンプティング!

コメント

タイトルとURLをコピーしました