Qwen 3.7 Max:Claude Opusを打ち破る(誰も話題にしていない)モデル

Anthropic・Claude・ダリオアモデイ
この記事は約11分で読めます。

アリババが発表した新型AIモデル「Qwen 3.7 Max」の実力と、激変するAI業界の最新動向を解説する。Qwen 3.7 Maxは、コーディングやエージェントタスクのベンチマークにおいてClaude 4.7 Opusを凌駕する極めて高い性能を示しており、米国の主要ラボに対抗する新たな勢力として台頭している。また、来月ローンチ予定のGemini 3.5 Proに搭載されると噂される超高度な思考モードのリーク情報や、シャオミやDeepSeekといった中国系ラボによる、API利用料の破壊的な永久値下げ競争の裏側についても迫る。

Qwen 3.7 Max: The Model Beating Claude Opus (Nobody's Talking About)
Alibaba just shipped Qwen 3.7 Max and it's beating Claude Opus on agentic coding benchmarks. Plus a Gemini 3.5 Pro leak ...

誰もがノーマークだったQwen 3.7 Maxの衝撃

アリババがQwen 3.7 Maxをリリースしましたが、これについてはほとんど誰も話題にしていません。一方でGemini 3.5 Proは、リーダーボードを揺るがす可能性のある新しい思考モードを搭載して間もなく登場しそうな気配ですし、今週はさらに多くの中国の研究所がAPI価格を引き下げています。それでは、本題に入っていきましょう。

多くの人が静かに見過ごしていると思われる話題について深く掘り下げてみたいと思います。アリババは数日前にQwen 3.7 Maxをリリースしましたが、私が確認した限りでは、AI関連のツイッタースペースの外ではこのモデルについて本当に誰も話していません。それも無理はありません。私たちはGPT 5.5やOpus 4.7、そして新しいGemini 3.5 Flashモデルへの対応で忙しかったですからね。そのため、現在の最前線はアメリカの研究所に注目が集まっていますが、ベンチマークの結果は非常に驚くべきものです。そして、技術的な公開記事を深く読み込めば読み込むほど、Qwenが少なくとも現時点において、中国の中で実際に重要となる研究所へと静かに変貌を遂げつつあるのではないかと考え始めました。

皆さんに例を挙げますと、サンドボックスのターミナルで働く実際のソフトウェアエンジニアを基本的にシミュレートするベンチマークであるTerminal Bench 2.0において、Qwen 3.7 Maxは69.7を記録し、DeepSeekの最高峰モデルの67.9、Opus 4.6 Maxの65.4、そしてKimi K2.6 Thinkingの66.7を上回りました。つまり、これは現在このテストのオープンリーダーボードでトップの結果となっています。Software Engineering Bench Proでも同様の展開が見られます。Qwenは60.6に達し、Opus 4.6 Maxは57.3です。さらに、現実的なコーディングエージェントのベンチマークであるMCP Atlasでは、Qwen 3.7 Maxが76.4を記録したのに対し、Opusは75.8でした。したがって、もしあなたが開発者で、単純なアプリケーションだけでなくエージェントのワークフローを重視しているのであれば、このモデルは使用する上で素晴らしい選択肢になります。

そして本当に驚くべきなのは、アリババがQwen 3.7 MaxにGPUカーネルの最適化という非常に難しいコーディングの問題を与え、そのまま放置したことです。モデルは35時間自律的に実行され、1,580回の手法呼び出しを行い、基準線に対して10倍の幾何平均スピードアップを達成しました。そこに人間は一切介在しておらず、モデルがコードを書き、テストし、ボトルネックを見つけ、再び書き直してテストするというプロセスを繰り返しただけです。参考に言いますと、同じタスクでDeepSeekの最高峰モデルは最高で約3.3倍、Kimi K2.6は約5倍、GLM 5.1は約7.3倍にとどまり、Qwenは10倍に達しました。ですから、このモデルが現時点で他のすべての中国の研究所を確実に打ち負かしていることは間違いありません。

===

欧米の最先端モデルとの比較と圧倒的なコストパフォーマンス

しかし、ここで本当の疑問となるのは、これが西側の研究所の最新モデルと実際にどう渡り合えるのかということです。なぜなら、DeepSeekに勝つことと、Opus 4.7やGPT 5.5に勝つことでは、まったく話が違ってくるからです。人々が標準的な総合スコアとして使用しているArtificial Analysisのインテリジェンスインデックスでは、GPT 5.5が60.3でリードしており、Qwen 3.7 MaxとClaude Opus 4.7はどちらも57で並んでいます。つまり、純粋な知能の面ではOpenAIが依然としてトップに位置する一方で、QwenはOpusと同点であり、これ自体がアリババにとって非常に優れた成果と言えます。

さらに、コーディングの面ではより興味深いことになります。Terminal Bench 2.0において、Qwen 3.7 MaxはOpus 4.6 Maxの65.4に対して69.7を記録しました。Software Engineering Bench ProやMCP Atlasでも、QwenはOpusをリードしています。より新しいOpus 4.7は4.6よりも強力ですが、エージェントによるコーディングの格差は依然として大きく、これらの特定の評価すべてにおいてQwenが明らかに先行しています。

次にGemini 3.5 Flashについてですが、ここで価格設定の話が重要になってきます。Googleが公開しているベンチマーク表では、FlashがMCP Atlasで83.6、Tulathonで56.5とリードしています。Opus 4.7はSoftware Engineering Bench Proで64.3となっており、GPT 5.5はTerminal Bench 2.1で78.2です。つまり、Googleの安価なミドルクラスモデルであるFlashが、すでに2つの主要なベンチマークでフラグシップモデルを追い抜いているのです。来月登場するProモデルはまだ出荷すらされていません。

では、Qwen 3.7 Maxの位置づけはどうなるでしょうか。これはAPI専用で、入力トークン100万件あたり2.50ドル、出力トークン100万件あたり7.50ドルです。比較すると、GPT 5.5は入力が5ドル、出力が30ドルです。したがって、Qwenは入力がおよそ半額、出力は4分の1の価格になります。しかも、AnthropicのAPIプロトコルをネイティブにサポートしています。ClaudeのコードやOpenClaw、あるいはAnthropic互換のあらゆる環境の接続先を、そのままQwenのエンドポイントに直接切り替えることができます。そのため、もしあなたがエージェントを構築しているなら、文字通り今夜にでもエンドポイントを入れ替えて自分で試すことができるのです。

ただし注意点として、このモデルは冗長です。Artificial Analysisの評価では、約9,700万トークンが生成されたことが観察されました。これは中央値である2,400万トークンを大きく上回っています。トークンごとの価格は、特に長期にわたるエージェントの実行において、書類上で見るよりも早く積み重なっていきます。しかし、それがトレードオフというものです。

要約すると、Qwenが一般的な知能や文章の質においてGPT 5.5やOpus 4.7を追い抜いたと言っているわけではありません。OpenAIが明らかにまだ先行していますし、Anthropicは依然として多くの開発者が本番環境で最も信頼しているモデルです。しかし半年前の議論は、アメリカの最先端モデル、中国のオープンウェイトモデル、そして安価な選択肢としてのDeepSeekという構図でした。その枠組みは今、基本的に崩れつつあります。現在のQwenのリリース頻度や、長期的なエージェントワークにおいて彼らが広げた格差から見れば、これは通常、研究所が真の軌道に乗っているという明確な合図です。私は、Qwenが年末までに最先端の議論における3つ目の名前になり、DeepSeekは逆に追いかける立場になると考えています。とにかく、これが今ほとんどの人に見過ごされているモデルだと思いますので、アリババには間違いなく注目しておく価値があります。

先に進む前に、私たちはUniverse of AIニュースレターを立ち上げたばかりです。探しまわることなくAIのニュースを常に把握したい方は、概要欄にリンクがありますので、ぜひ見逃さないようにしてください。

===

Gemini 3.5 Proの「超高度思考モード」リーク

また、来月登場することが分かっているGemini 3.5 Proに搭載される、あるモードの初期のリーク情報もあります。今朝、誰かがGeminiのAPIを調べていたところ、思考レベル「エクストラハイ」はサポートされていませんという400エラーが返ってきました。通常、このようなエラーは、パラメータがAPI内に存在しているものの、まだ有効化されていない場合にのみ表示されます。つまり、Googleは極限に高い思考ティアの準備を進めているようで、これは来月の3.5 Proのローンチ時期と一致します。

参考までに、現在のGemini 3 Proの思考レベルパラメータは「ロー」または「ハイ」を受け付け、Gemini 3.1 Proでは「ミディアム」ティアが追加されました。これまでのGeminiモデルには、まだ「エクストラハイ」の設定はありませんでした。一方で、OpenAIは「エクストラハイ」を含む5つの取り組みレベルを備えたGPT 5.5を出荷しており、それが現時点でリーダーボードをリードしているモデルです。現在、Artificial Analysisのインテリジェンスインデックスでは、GPT 5.5のエクストラハイが60でリードしています。GPT 5.5のハイが59で2位です。そしてClaude Opus 4.7 MaxとGemini 3.1 Proのプレビュー版が57で並んでいます。

リーク自体は単なるAPIの文字列に過ぎません。エクストラハイがGeminiにどれほどの効果をもたらすのかは分かっていません。OpenAI側の基準で言えば、GPT 5.5におけるハイからエクストラハイへの上昇はインデックス上で1ポイントです。ですからそれ自体は大きな跳ね上がりではありませんが、すでに僅差であるならばリーダーボードの首位を奪還するには十分な数字です。そしてGemini ProはすでにOpusと同点であり、GPT 5.5のすぐ後ろにつけています。

もう一つ頭に入れておくべきなのは、エージェントの側面です。Gemini 3.5 Flashは、エージェント評価やMCPツール呼び出しにおいて、すでに大きな成果を上げています。もしProモデルにおいて、その上にエクストラハイの思考レイヤーが重なるのであれば、推論能力が高く、同時にツール利用能力も備えたモデルがひとつのリリースで手に入ることになります。実際のローンチまでは正確な数値にあまり確信は持てませんが、現在分かっていることからすると、3.5 ProのリリースはGoogleにとって大きな意味を持つことになるでしょう。なぜなら、3.5 Flashモデルのリリースは少し物足りないもので、人々はそれほど強い印象を受けていないからです。もし3.5 ProがGPT 5.5やOpus 4.7と競争してリードを奪い返すことができれば、Googleは本当に復活を果たすかもしれません。

===

中国系AIによるAPI価格の破壊的な引き下げ競争

これは、ここ1週間足らずの間で中国の研究所から行われた2回目の大規模なAPI価格引き下げです。本日早くにシャオミが、MIMOバージョン2.5シリーズの価格を従来の価格から最大99%永久に引き下げると発表しました。今夜6時から適用されます。実際の数字はかなり凄まじいものです。彼らのフラグシップであるMIMOバージョン2.5 Proは、キャッシュヒット時の入力が100万トークンあたり0.0036ドル、キャッシュミス時は0.435ドル、出力は0.87ドルになりました。キャッシュヒットの価格は、以前の価格から98%から99%の値下げとなっています。また、より小さなMIMOバージョン2.5モデルでは、出力が100万トークンあたり28セントとなっています。

シャオミは4月下旬にMIMOバージョン2.5およびバージョン2.5 Proをリリースしており、どちらもMITライセンスの下でオープンソースとして提供されています。Proモデルは、総パラメータ数が1兆200億、アクティブパラメータ数が420億のMixture of Expertsモデルです。1,000回以上のツール呼び出しにわたる長期的なタスクで構成されるエージェントワーク向けに訓練されており、ベンチマークの数値はトップクラスの商用クローズドソースモデルに匹敵します。例えば、Software Engineering Bench Proでは57.2に達しており、Claude Evalは63.8となっています。

そして、ここでのタイミングが非常に興味深いところです。DeepSeekも今週初めに全く同じ動きを見せました。彼らはこれまで行っていた最高峰モデルの75%割引を永久的なものにしました。入力は100万トークンあたり0.435ドル、出力は0.87ドルに下がり、これにより彼らの最高峰モデルは出力トークンにおいてAnthropicよりもおよそ7倍安く、OpenAIよりもほぼ9倍安くなりました。つまり、わずか1週間の間に、2つの中国の研究所がフラグシップモデルの価格を、西側の研究所が赤字を出さずには基本的には対抗できない領域まで永久に引き下げたのです。

これは、中国におけるインファレンスのコスト構造が変化している兆候かもしれません。DeepSeekは、これがHuawei Ascend 950チップの大量出荷に関連していることを示唆していました。シャオミは単にインファレンスの最適化によるものだと説明しています。私は、OpenAIやAnthropicのAPI利益ビジネスについて少し心配しています。もしこれが、現在噂されているようなパターンになるのであれば、今週中にさらに多くの中国の研究所がこれに追随する可能性があります。開発者が最先端モデルに対して実際にいくら支払うつもりがあるのかという、今後の議論がどのように変化していくのか注目に値します。

本日の動画は以上となります。チャンネル登録をお忘れなく。私たちの新しいニュースレター universeai.behive.com もぜひフォローしてください。メインチャンネルのWorld of AIへの登録や、XでのUniverse of AIのフォローによる応援もよろしくお願いします。それでは、また次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました