QWEN 3 CODERが解き放たれた…KIMI K2よりも優秀

Alibabaが新たにリリースしたQwen 3 Coderは、480億パラメータのオープンソースコーディングモデルである。Kimi K2を上回る性能を示し、Claude Sonnetと競合し、GPT-4.1を凌駕する結果を記録している。強化学習を活用した長期的タスク処理能力と、実世界のソフトウェア開発タスクに特化した訓練手法が特徴的で、オープンソースAIの急速な進歩を象徴する製品となっている。

QWEN 3 CODER is Unleashed... better than KIMI K2

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

Qwen 3 Coderの登場と基本性能
ベンチマーク結果とライバルとの比較
Qwen Codeツールの登場
強化学習への注目
実世界タスクへの特化
SWE-benchでの実績
長期タスクへの対応能力
Alibabaのクラウドインフラ活用
デモンストレーションの紹介
実際のテスト結果
オープンソースAIの進歩

Qwen 3 Coderの登場と基本性能

Alibabaがまた大きなもんを出してきたで、Qwen 3 Coderや。世間がKimi K2、あの大きなオープンソースのコーディングモデルに慣れてきたところで、AlibabaがQwen 3 Coderを投下してきたんや。

このQwen 3 Coderは複数のサイズで提供されとるんやけど、一番大きくて強力なやつがQwen 3 Coder 480B A35B Instructっちゅうやつや。つまり、これは4800億パラメータのモデルなんやけど、Mixture of Expertsで構築されとるから、実際に動作する時は350億パラメータだけがアクティブになるっちゅう仕組みや。Instructっちゅうのは、基本モデルがテキスト補完モデルみたいなんに対して、これは親切で役に立つアシスタントモードっちゅう意味や。

256kのコンテキストをサポートしとって、最大100万まで拡張できるんや。そして見てみい、このベンチマークの結果、めっちゃええやないか。

ベンチマーク結果とライバルとの比較

もちろん、ベンチマークだけを鵜呑みにするわけにはいかんから、みんなが実際に触って試すまで数日は様子見や。でもKimi K2はどう見ても非常に印象的やったし、Qwen 3 CoderはそのKimi K2を楽々と上回っとる。それだけやなくて、Claude Sonnetと比較できるレベルで競合しとるし、OpenAIのGPT-4.1も打ち負かしとる。

エージェント的なブラウザ使用やエージェント的なツール使用においても非常に強いスコアを記録しとって、一部のケースでClaude Sonnet 4だけがわずかに上回っとるっちゅう状況や。

Qwenチームは、これがコミュニティの最高の開発者ツールとシームレスに動作して、デジタル世界のどこでも、エージェント的コーディングの世界で使えるって約束しとる。そして彼らはこれについて冗談を言うとるわけやない。

Qwen Codeツールの登場

モデルと一緒に、彼らはエージェント的コーディング用のコマンドラインツール「Qwen Code」をオープンソースで公開しとる。これはGoogleのGemini Codeからフォークされたもんや。見てみい、GitHubでApache 2.0ライセンスでオープンソース化されとる。Claude Codeによく似とって、Qwen 3 Coderの能力をエージェント的コーディングタスクで完全に発揮できるように、カスタマイズされたプロンプトと関数呼び出しプロトコルで調整されとる。

基本的に、Qwen CodeはGemini CLIを調整したもんで、Qwenモデルを使うように修正されとるんや。Qwen 3 CoderモデルをClaude Codeと一緒に使うこともできる。多くの人がClaude Codeを好んどるから、Qwen 3 CoderモデルをClaude Codeと簡単に使えるようになっとるし、Kleinと一緒に使うこともできる。

リンクは下に貼っとくで。

強化学習への注目

今、大きく議論されとるテーマの一つが強化学習や。これらのモデルを強化学習のジムに送り込んで、コーディングや数学などの様々なスキルを教えるっちゅうやつや。ここに見えるのは、「コードの強化学習をスケールする、解くのは困難だが検証は容易」っちゅうやつや。ここで見て分かるように、訓練ステップを増やして、このモデルを訓練していくと、コード生成、ソフトウェア開発、競技プログラミング、SQL、指示に従うことなど、あらゆる異なるパフォーマンス領域で上がっていっとる。

彼らは他のフロンティア研究所に対してちょっとした皮肉を言うとる。「コミュニティで一般的な競技レベルのコード生成への注目とは異なり、我々はすべてのコードタスクが実行駆動の大規模強化学習に自然に適しとると信じとる。だからこそ、我々はより広範囲の実世界のコーディングタスクでコード強化学習の訓練をスケールしたんや。」

実世界タスクへの特化

基本的に、彼らが言うとることは、これらのクイズやテスト、競技スタイルの問題で最高得点を狙うんやなくて、実際にこのモデルを実世界で実際の仕事をするように訓練しとるっちゅうことや。

多様なコーディングタスクのテストケースを自動的にスケールすることで、高品質な訓練インスタンスを作成し、強化学習の潜在能力を完全に引き出すことに成功したんや。

これはコード実行の成功率を大幅に向上させただけやなく、他のタスクにも利益をもたらしたんや。つまり、このアプローチは汎化するっちゅうことや。他の公開された論文でも見たことがあるけど、例えばコーディングを訓練すると、明示的に訓練されとらんのに数学問題を解く能力も向上するっちゅうやつや。

確かに、彼らのアプローチは多くの異なるタスクに汎化するように見える。後でこのアプローチをどう取り組んだかを概説する論文を公開してくれることを期待しとる。でもここで彼らが言うとるのは、彼らのアプローチが「解くのは困難だが検証は容易」なタスクを大規模強化学習の肥沃な土壌として使うとるっちゅうことや。

SWE-benchでの実績

ここにSWE-bench verifiedでのパフォーマンスのチャートがある。これがモデルのサイズや。右側のモデルほど大きく、左側のモデルほど小さい。上に行くほどSWE-bench verifiedでのスコアが良いっちゅうことや。

SWE-benchは500の実世界で人間によって検証されたPython GitHubイシューで、人間によってレビューされて解決可能だと確認されたもんや。ここで見て分かるように、Qwen 3 CoderはKimi K2、GPT-4.1、さらにはGemini 2.5 Pro Previewを含む他のほとんどのモデルを上回っとる。

Claude Sonnet 4だけがわずかに上回っとるけど、それもはるかに大きなモデルやからな。控えめなサイズのモデルとしては、パフォーマンスの面で近づけるもんは何もない。Kimi K2ははるかに大きいのに、それほど良くないんや。

長期タスクへの対応能力

重要なことに、SWE-bench verifiedのような実世界のソフトウェアエンジニアリングタスクでは、Qwen 3 Coderは環境との複数ターンの相互作用に参加せなあかん。計画を立てて、ツールを使って、フィードバックを受けて、決定を下すっちゅうやつや。

つまり、これは単純な質問回答形式やない。計画とフィードバックを含む長期的なタスクなんや。彼らがこのモデルをこうした長期タスクでこんなに優秀にしたコツは何やったんやろう？

彼らがここで言うとるのは、Qwen Coderのポスト訓練フェーズで、長期強化学習を導入したっちゅうことや。彼らはこれを「エージェント強化学習」って呼んどる。これは、モデルがツールを使った複数ターンの相互作用を通じて実世界のタスクを解決することを奨励するためやった。

これは興味深い。このようなエージェント強化学習をやる上での主要な課題は、環境のスケーリングにある。これに対処するために、彼らは2万の独立した環境を並列で実行できるスケーラブルなシステムを構築した。

Alibabaのクラウドインフラ活用

これをAlibabaのクラウドインフラを使ってやったんや。これによって、この大規模な強化学習パイプラインを実行するのに必要なスケールが得られたんや。そしてこれが、Qwen 3 Coderがオープンソースモデルの中で最先端のパフォーマンスを達成することを可能にしたんや。そして、これは重要なことやけど、テスト時スケーリングなしでやっとる。

これはDeepSeek R1やGemini 2.5 Pro Previewのような推論モデルやない。これは非推論モデルや。

デモンストレーションの紹介

彼らが投稿したデモンストレーションのいくつかは、この建物解体デモンストレーションや。ここではQwenをKleinと一緒に使っとる。インタラクティブな色彩爆発を組み合わせとる。なかなかきれいに見えるで。だから、これらのいくつかをテストせなあかんな。

3D Google Earth地形視覚化、タイピング速度をテストする小さなアプリ、回転するハイパーキューブでバウンドするボール、超トリッピーや、太陽系シミュレーション、そしてデュエットゲーム。

実際のテスト結果

HuggingFaceとchat.qwen.aiで利用できる。だから、この子について完全なテストをやる予定や。でも今のところ、実行したいくつかの簡単なテストを紹介するで。

一つは、中にデスクとオフィスがあるオフィスビルのシミュレーションや。外側に透明な窓をつけようとしたんやけど、透明性を実現できんかった。非常に不透明やったり、完全に透明やなかったりした。でも、中にデスクやコンピューターや、あれは何やろう、各部屋にライトみたいなもんがある部屋を作ることはできた。だから、最初からは、そんなに悪くない。つまり、これは最初の試みとしてはなかなか良いで。

小さなドローン飛行ゲームも作った。街中でドローンを飛ばすことができる。文句は言えん。なかなか良い。でも、キーがちょっと変やけど、今のところ気に入っとる。慣れるのに少し時間がかかるけど、スロットルをうまく調整できるようになれば、飛び回ることができるし、ワンショットでやるには悪くない。

Minecraftクローンもある。Minecraftクローンなしにはどうなるやろうな？ブロックを置いて建設して移動することができる。悪くない。また、これもかなり簡単にワンショットでできた。