この動画では、Alibaba Cloudのチームが開発したQwen 3シリーズの最新コーディングモデルについて紹介している。このモデルは4800億パラメータを持つMixture of Expertsアーキテクチャで、Claude Sonnet 4に匹敵する性能を示すオープンウェイトモデルである。特にUI作成や長期間のマルチターン会話において優れた性能を発揮し、推論機能を持たないにも関わらずSWE-bench Verifiedで高いスコアを記録している点が注目される。

Qwenチームからの新たなコーディングモデル
よっしゃ、またQwenチームから新しいリリースが出てきたで、今度はコーディングモデルやねん。これはQwen 3シリーズをベースにしとって、おそらく彼らの最も重要なモデルの一つやと思うわ。なんでかっちゅうたら、これが初めてのオープンウェイトモデルで、複数の主要ベンチマークでClaude Sonnet 4に肉薄しとるからや。
でも、ベンチマークを超えて、僕の初期テストを見る限り、これは非常にしっかりしたコーディングモデルやねん。このモデルをテストすることを強くお勧めするで、なんか特別なもんがあるからな。
Qwenチームの貢献について
モデルを見る前に、Qwenチーム自体についても話したいねん。DeepSeekやKimiについてはよう聞くけど、Qwenチームはオープンソースとオープンウェイトモデルへの最も重要な貢献者の一つやと思うで。彼らは数多くの異なるモデルを持っとる。
Qwen 3シリーズがあって、それから埋め込みモデル、リランカー、ビジョン言語モデルもある。入力と出力の両方で異なるモダリティを持つマルチモーダルモデルであるオムニモデルもあるねん。そして通常、彼らが作るモデルは極めて強力や。だからNvidiaみたいな他の会社がこれらの上にモデルを追加しとるわけや。
Nvidiaは最近、Nemotron Open Reasoningファミリーをリリースしたけど、これらは本当に強力なモデルで、Qwenモデルの上に構築されとる。だから彼らがモデルをリリースする時は、実際に注目する価値があるねん。モデル以外にも、彼らはQwen Codeをオープンソース化しとって、これはGemini CLIの上に構築されとる。
これを彼らのCloud Codeバージョンやと思ってもらったらええ。このモデルはもう数多くの異なるプラットフォームで利用可能で、コード生成において極めて高速や。これは彼らの最大のコーディングモデルやけど、Mixture of Expertsやねん。
技術的詳細とモデル仕様
いくつかの例を見る前に、簡単な技術的詳細を説明するで。これは4800億パラメータのモデルや。めちゃくちゃ巨大なモデルで、そのうち350億パラメータだけがアクティブになってて、コンテキストウィンドウは256トークンで、100万トークンまで拡張可能やねん。
つまり、コンテキストウィンドウに関してはGeminiシリーズと同等のオープンウェイトモデルがあるってことや。これは特にコーディング用に訓練されとるから、エージェント的コーディング、エージェント的ブラウザ使用、エージェント的ツール使用が得意なはずや。コミュニティがこれの上に構築し始めたら、どうなるか見物やな。
でも、このモデルでの僕の限られた経験から言うと、UI作成とコーディングエージェントとしての指示追従が本当に優秀やで。Qwen Codeの中でも、Cloud Codeの中でも使えるねん。興味があったら教えてくれ、これについて動画作るから。そしてそれは、Cursorみたいな他のコーディングエージェントにもインストールできるってことや。
Open Routerでも利用可能やから、無料のAPIキーを取得してCursor内で有料オプションと無料オプション両方で使えるで。ブログ投稿に非常に興味深い観察があるねん。彼らは事前訓練でまだスケールする余地があると言うとる。現時点では7.5兆トークンを使ってて、そのうち約70%がコードや。
Kimi-K2を見てみると、これはほぼ1兆パラメータのモデルで約15兆トークンで訓練されとる。今回のモデルはそのほぼ半分のサイズで、訓練用のトークンもほぼ半分使ってるけど、Qwenチームは事前訓練のスケールアップにもっと機会があると考えてるみたいやな。
合成データとRL手法の活用
もう一つの傾向として、合成データの使用が見られるねん。この場合、彼らはQwen 2.5 Coderを使って、基本的にそれを事前訓練用のより綺麗なデータの基礎として使ってるねん。他のラボと同じように、彼らもポスト訓練中にRLに取り組んでて、まだモデルの改善やポスト訓練のスケールアップに関して多くの機会があるみたいや。
興味深いことに、これは推論や思考モデルではないねん。昨日リリースされた更新されたQwen 3モデルと非常に似てるけど、彼らが行ってる選択は他のフロンティア企業とは少し違うねん。
非推論モデルやのに、SWE-bench Verifiedみたいなもんでの性能は、DeepSeek R1やV3、そして最新のKimi-K2を含む以前のオープンウェイトモデルの反復と比べて非常に大きいねん。
特に長期間のマルチターン会話やマルチターンタスクに関しては、SWE-bench Verifiedでの性能がClaude Sonnet 4と十分比較できるレベルやで。これを長期間RLで訓練するために、彼らは特別に環境を作成したねん。この場合、Alibaba Cloudインフラストラクチャで並列実行される2万の独立した環境があったんや。
推論時間とモデル性能の考察
彼らはテスト時間スケーリングや推論なしでSWE-bench Verifiedでトップのオープンソースモデルの一つやと強調しとる。これは興味深い選択やけど、長期間の推論が常に役立つわけではないし、実際にARC AGI チームからの記事があって、早期の応答がより高い精度を示したと書いてあるねん。
モデルがより長く考えるからといって、より良い答えにたどり着くとは限らないって、これは非常に興味深い観察やで。これはo3を異なる設定で比較してて、特定の設定や思考予算内では、モデルは通常短期間考えれば答えを見つけるってことが分かったねん。長期間考え始めると、その答えを間違える確率が高くなるねん。
これは非常に興味深い観察で、時々推論モデルが大多数のケースで解決策にならないかもしれないと考えさせられるわ。
ベンチマークスコアへの注意点
ベンチマークについて一つ注意点があるねん。昨日、彼らはQwen 3の更新版をリリースしたけど、僕の注意を引いたのはこのARCスコアで、彼らはほぼ42%を主張しとった。これはどのモデルにとっても非常に重要やねん。
でも今日、ARC AGI チームの一部であるFrancis Shrawがこうツイートしたねん。「最新のQwen 3リリースで主張された41.8%のARC-AGI-1スコアを、パブリック評価セットでも準プライベートセットでも再現できませんでした。私たちが見ている数字は、他の最近のベースモデルと一致しています。一般的には、準プライベートセットでARC Prize財団によって検証されたスコアのみに依存してください。そうすれば、方法論がすべてのモデルで一貫して公正だったと信頼できます。」
それに対してQwenチームの誰かから返答があったねん。「我々は便利な解析のためにJSON形式を使用しました。再現のためにチームします。」だからQwenチームがARCスコアの再現を直接手伝ってくれるのは本当に良いことやで。
ARCが重要なのは、o3がリリースされた時に何か論争があったと思うからや。OpenAIは訓練データの一部を使ったけど、それは全く別の話やねん。だから、これらのベンチマークスコアは常に塩ひとつまみで受け取って、常に自分のプライベートベンチマークやプライベートテストセットでテストすることやで。
実際のテスト例とモデルの実力
でも、彼らが共有した例のいくつかは非常に印象的に見えるし、実際それは僕の限られたテストでの経験とも一致しとるねん。だから、僕がこれで作ることができたもののいくつかの例を見せるで。
ここに僕のお決まりのテストがあるねん。回転する七角形の中でボールが落下するやつや。次の反復では、コントロールを追加するように頼んだねん。そして全部うまく動いとるみたいや。これは比較的難しいテストやねん、なんでかっちゅうたらオープンウェイトモデルは通常これにめちゃくちゃ苦戦するからや。
最後の反復では、いくつかのアニメーションを追加したねん。ボールをクリックすると爆発があって、全部が散らばるねん。ボールのいくつかは外に出る。そしてちゃんと動くねん。
ここにもう一つの例があって、このモデルは明らかにこの種のアニメーション用に訓練されてて、非常に良い仕事をしとるみたいやで。
最後のこれはウェブアプリで、基本的に訪問した場所のギャラリーやねん。場所をクリックすると、撮影した画像のいくつかを表示することになっとる。これは全部シミュレートされたデータで、表示される場所も多分正確じゃないと思うけど、これは作成できる単一プロンプトタイプのアプリケーションの非常に良い例で、これはさらなるやり取りに基づいたいくつかの更新やねん。
迷路を解くのには苦労しとるで。例えば、ここに僕がこれで解こうとした迷路があるけど、あちこちに行ってしまうねん。でも、エージェントモードで使って、いくつかのコーディングツールへのアクセスを与えたら、この特定の迷路でもっと良い結果が出ると思うで。
まとめと推奨事項
でも全体的に、かなり印象的なリリースやで。テストして試してみることを強くお勧めするわ。Qwenプラットフォームで試せるし、Hugging FaceでもOpen Routerやancoderでも利用可能やねん。だから、動画の説明にそれらのリンクをいくつか載せとくで。このモデルでの体験がどうやったか教えてくれ、次の動画で会おう。


コメント