ミストラルの新AIがGPT-4oとClaude 3.7を打ち負かし、DeepSeekよりも低コスト！

5,618 文字

Mistral's New AI Crushes GPT 4o and Claude 3.7 and Cost Less Than DeepSeek!

Mistral just released Medium 3, a powerful new AI model that outperforms GPT-4o and Claude 3.7 Sonnet in coding, languag...

ミストラルが新たにMedium 3をリリースしました。これはフロンティアクラスのAIモデルで、コーディング言語やマルチモーダルタスクにおいてGPT-4oやClaude 3.7 Sonnetを上回る性能を発揮しながら、実行コストはわずか一部で済みます。このモデルはClaude 3.7の性能の90%以上を達成しながら、入力トークン100万あたりわずか40セントのコストで、たった4つのGPUでスムーズに動作します。
そして現在、プライバシー重視のアーキテクチャとノーコードAIエージェントを備えた深い統合性を持つLay Chat Enterpriseの基盤となっていることで、ついにOpenAIにとってヨーロッパから台頭する強力な競合相手が現れました。ミストラル自身の研究ブログが掲げたキャッチフレーズは「ミディアムは新しいラージである」で、同社はこれを強く推し進めています。
Medium 3は、軽量級のSmallと、後に登場する予定の謎めいたLargeの間に位置しています。しかし名前に騙されてはいけません。内部的には「フロンティアクラス」モデルと呼ばれるものです。このモデルは、AnthropicのClaude 3.7 Sonnet、Cohereのcommand、MetaのLlama 4 Maverick、そして最近発表されたOpenAIのGPT-4oと同等の性能を、はるかに少ない計算資源で実現しています。
簡単に言えば、このモデルは4GPU程度のオンプレミス環境や、クラウドVPC上で動作させることができ、通常ならはるかに大規模なハードウェアを必要とする結果を出せるということです。そして、誰もが驚いた注目すべき数字はコストです。ベンチマークではMedium 3はClaude Sonnetの総合ベンチマークスコアの90%以上に達していることが示されています。
しかし、ミストラルのAPIでは入力トークン100万あたりわずか40セント、出力トークン100万あたり2ドル80セントとされています。比較すると、Sonnetは入力100万あたり3ドル、出力100万あたり15ドルです。ミストラルの研究資料では出力100万あたり2ドルという代替料金表も示されています。
正確な数字はどのSKUや導入経路を選ぶかによって異なりますが、いずれにしても約8分の1のコスト削減を実現しています。これはモデルの費用がGPUの発売日の株価のように急騰する市場において驚異的です。性能の主張には常に証拠が必要ですが、ミストラルはヒューマン評価と複数のコーディングベンチマークで準備万端でした。
誰もが引用する2つのコーディングベンチマークにおいて、Medium 3はClaude Sonnetやや GPT-4oと同等かそれ以上の性能を示しています。Sergからのサードパーティーのヒューマン評価では、Llama 4 Maverickに対して82%、Cohere Command Aに対して約70%のコーディングシナリオで勝利しています。コードだけではありません。多言語タスクでもLlama 4 Maverickに対して高い勝率を示しています（英語67%、フランス語71%、スペイン語73%、アラビア語65%）。
マルチモーダル推論においても、Doc VQAで0.53、AI2Dで0.937、Chart QAで0.826という数字を達成しており、これは中規模モデルとしては印象的です。この性能はSTEM関連のワークロードに特に有用で、Medium 3は大規模な数学の証明やエンジニアリングドキュメントを処理しても固まることがありません。
またコードのコンパイルも十分に高速で、金融、エネルギー、ヘルスケア分野の開発チームはすでにデータバージョンを本番パイプラインに組み込んでいます。これらの初期テスターの中には、モデルに専有データで継続的に事前トレーニングを行い、要件が変わった際に短時間の微調整を行っているケースもあり、毎回ゼロから始める手間なしに社内フィードバックループを効果的に運用しています。
この「進行しながら適応する」というアプローチはミストラルの売りの一つです。ブラックボックスのSaaSによる微調整かDIY展開かを選ぶのではなく、両方を組み合わせられます。コストも重要な要素です。Medium 3はAnthropicのラインナップと比較して安いだけでなく、これまでコスト効率のチャンピオンとして知られていたDeepSeek V3をも上回ります。DeepSeek V3は小規模チームがAPIを通じて試用し、その後CFOからデータレジデンシーやベンダーロックインについて圧力がかかり始めたときに、自己ホスティングイメージに移行できるという特長がありました。
ミストラルはMedium 3を「専有モデル」と呼んでいるため、MITスタイルのライセンスではありませんが、あらゆる面で柔軟性を保っています。Mistrala Platform上で使用するか、Amazon SageMakerで起動するか、あるいは数週間待ってIBM Watson X、Nvidia NIM、Azure AI Foundry、Google Cloud Vertexの統合機能が利用可能になるのを待つこともできます。どのルートを選んでも、完全なコントロールを望む場合は自分のGPUスタック上にモデルの重みを載せることができると同社は主張しています。
基盤となる戦略はハイブリッド展開についてです。推論をプライベートサブネットに保持したり、バーストトラフィック用に低レイテンシーのテナントをパブリックリージョンに配置したり、完全にオンプレミスで実行するために完全にフォークしたりすることができます。GDPRやまもなく施行されるEU AI法の下で運営するフランスの企業であるため、データガバナンスの要件が非常に厳格に満たされています。
監査ログ、高度に調整されたACL、メモリベースのパーソナライゼーション、クラウドから完全に切断する能力など、すべてがアーキテクチャに組み込まれています。これは規制に左右される銀行、病院、公益事業にとって非常に価値があります。そしてこの信頼性の向上は完璧なタイミングで訪れました。なぜならMedium 3はすでにLeChat Enterpriseの原動力となっているからです。
これはミストラルが優れた研究機関から大企業のワークフロー内の日常的な存在へと移行するための顧客向けレイヤーです。ソーシャルメディアプラットフォームが従業員の求めるものを正確に提供するのと同様に、CIOがAI RFPで赤丸をつけるようなあらゆる機能を備えています。Google Drive、Gmail、Calendar、Microsoft SharePoint、OneDriveなど、あるいは次に提供される予定のコネクターに接続すると、これらすべてのサイロにわたる単一パス検索を実行し、コンプライアンスが各文の出所を正確に把握できるようにソースのスナップショットを作成します。ファイルが60ページのPDFである場合、自動要約機能が内容をスキャンし、モデルは監査可能なリンクを提供します。
同じMedium 3スタックがノーコードエージェントビルダーを動かしています。いくつかのブロックをドラッグするだけで、アシスタントが契約書を取得し、CRMを更新し、法務部門に通知を送ることができ、誰もcronジョブを書く必要がありません。すべてがMedium 3の安価なトークン価格に基づいているため、財務チームは3つの重複するSKUではなく、クリーンな項目を手に入れることができます。
セキュリティは譲れない要素です。Lechat Enterpriseはミストラル自身のクラウドでSaaSとして実行されますが、シングルテナントリージョン、プライベートVPC、またはオンプレミスラックに切り替えて、ファイアウォール内にデータを保持することも可能です。アクセス制御はソースアプリから継承されるため、CFOのみにロックされた取締役会の資料はロックされたままです。完全な監査ログはSOC 2やISO文書用に出力され、これはGDPRやEU AI法の下で活動するフランスの銀行などにとって重要です。このEUの観点から、デリケートなトラフィックを米国のクラウドや中国のオープンウェイトモデルを経由することに慎重な顧客にとって、ミストラルは静かに優位性を得ています。
Medium 3とLechat Enterpriseが見出しを飾っていますが、ミストラルのカタログはどんどん充実しています。GPT-4クラスのフラッグシップであるMistral Large 2、画像とドキュメント向けのPixstrol Large、純粋なコード生成のためのCodestrol、スマートフォンに搭載できるLiz Ministralエッジモデル、そしてアラビア語に焦点を当てたMistral Sabaがあります。
3月には、Mistral OCRもリリースしました。これはあらゆるPDFをプレーンテキストに変換するAPIで、Medium 3が法務部門が印刷する資料も読めるようになりました。一部のモデルはApache 2.0の下で完全にオープンですが、Medium 3を含む最新の高性能ウェイトは専有のままで、ミストラルはライセンスコンテンツをロックダウンし、有料SLAを提供できます。
このツートラックアプローチにより、彼らは元々の「オープンネス」のスローガンと企業契約の現実を両立させています。ロードマップが急いでいるように感じられるなら、出資構成を見てみましょう。2023年6月以降、同社は約10億ユーロを調達しており、その中にはヨーロッパ最大規模の1億1200万ドルのシード資金、Andre Horowitzが主導する4億1500万ドルのシリーズA、そして昨夏の約60億ドルの評価額につながった6億ユーロの株式と負債の混合資金が含まれています。
マイクロソフトは1500万ユーロを出資し、Azureでウェイトをホストしています。また、NVIDIA、シスコ、サムスン、IBMもより小さなシェアを獲得しています。収益面では、有料API使用量と月額14.99ユーロのLchat Proプランは成長していますが、内部関係者は年間売上高を数千万ドル程度と見積もっています。そのため、急速な拡大が必要です。パートナーシップも役立っています。フランス通信社AFPはLchatが1983年以降のすべての記事を検索できるようにし、海運大手CMA CGMや防衛スタートアップHelsingも契約しました。
先週にはマクロン大統領さえもテレビでLchatを宣伝し、視聴者にChatGPTをインポートする代わりにフランス製アプリをダウンロードするよう呼びかけました。このような地元の支援は市場シェアを保証するものではありませんが、Arthur Mench CEOが示唆し続けるIPOに必要な数字を追いかける間、スポットライトを明るく保ちます。
このような背景があるため、Medium 3は単なる中規模の好奇心の対象以上のものです。4つのGPUで実行できるほど小さく、かつ実際の作業を完了できるほど賢いという甘い領域にヒットしています。そして、同じトークン数に対してAnthropicのClaude Sonnetのコストの約8分の1で実現します。クラウド請求書の急増を監視している開発チームにとって、GPT-4クラスのモデルと比較して60％のベンチマークタイを達成しながら、コストがはるかに安いという事実は会話のきっかけになります。
リスク担当者にとって、EU管轄とオンプレミスオプションは、OpenAIがまだチェックできない政治的・規制的ボックスにチェックマークを付けます。将来を見据えると、同社はLargeリリースを公然と予告しています。すでにMediumがLlama 4 Maverickのようなオープンウェイトフラッグシップとのギャップを縮めているなら、真のMistral Large 3はハイエンドのリーダーボードを再び揺さぶる可能性があります。
しかし、ミストラルのより大きな課題は技術的なものではなく商業的なものです。買収の噂がNASDAQの鐘よりも魅力的に見え始める前に、ブランドのバズや政府の支持を持続可能なポストGAPの収益に転換する必要があります。Menchはダボスで記者団に対し、スタートアップは売却されず、上場が計画されていると語りましたが、これらの言葉は収益が60億ドルの価格に追いつくかどうかにかかっています。
現在のところ、Medium 3とLchat Enterpriseによって、彼らには本当のチャンスがあります。推論コスト、オンプレミスコンプライアンス、あるいは英語と同様にフランス語やアラビア語を話すLLMが必要な場合は、昨日公開されたGoogle Cloud Marketplaceリスティングに注目してください。Azure AIとAWS Bedrockのスロットもまもなく登場予定です。
すでに公開されているチャットウェブアプリを試した方は、背後にあるモデルが現在、コードを書き、PDFを要約し、多数のプラグインを起動したりGPU予算を消費したりすることなく、SharePointを相互参照することを覚えておいてください。これがミストラルをOpenAIと同じ使用層に押し上げるのに十分かどうかは億万長者の問いです。
しかし少なくとも今、彼らは重量級のグローブで戦っています。視聴いただきありがとうございました。また次回お会いしましょう。