中国が静かに放つコーディングの怪物!

LLM・言語モデル
この記事は約13分で読めます。

Alibaba社のQuen3 Coderは、480億パラメータのMixture of Expertsアーキテクチャを採用した強力なオープンソースコーディングモデルである。256,000トークンのコンテキストウィンドウを持ち、100万トークンまで拡張可能で、SWEBenchで67%という優秀なスコアを記録している。このモデルは7.5兆トークンで学習され、そのうち70%がプログラミング関連データで構成されている。強化学習の大規模スケーリングや合成データの活用など、最新の学習手法が採用されており、リアルタイムのマルチターン対話でのコーディング支援に特化している。

China quietly drops a Coding MONSTER!
🔗 Links 🔗❤️ If you want to support the ...

Quen3 Coderの登場

Alibaba会社のQueんが、Quen3 Coderっちゅう本当に本当に強力なオープンモデルを発表したんや。これはクローズドモデルやなくて、オープンモデルなんやで。また中国が反撃してきよったわ。めちゃくちゃでかいサイズの新しいオープンモデルを出してきよった。これはミクスチャー・オブ・エキスパーツモデルなんや。この動画では、そのモデルについて話していくで。

モデルをちょっとテストもしてみるからな。始めていこか。Twin3がエージェンティック・コーディングの世界を発表したところや。これは主にエージェンティック・コーディングにフォーカスしたモデルで、めちゃくちゃすごいベンチマーク結果を出しとるんや。4800億パラメータのモデルで、350億パラメータがアクティブパラメータなんや。MOEは密なアーキテクチャとは違うんやで。

総パラメータ数があって、それとは別に各トークンが通るアクティブパラメータのセットがあるんや。この方法やと、めちゃくちゃでかいモデルで本当に優秀な知識を持てるけど、モデルが学習によって使われる推論時にモデルの一部だけがアクティブになるから、大きな計算量は必要ないんや。

256,000コンテキストウィンドウの威力

256,000のコンテキストウィンドウで学習させとるんや。一番面白いのは、まず256,000それ自体がすごいっちゅうことや。OpenAIを使ったら128kぐらいが見えると思うけど、プログラミングモデルのコンテキストウィンドウとしては256kはすごいわ。でも彼らがやったのはそれだけやなくて、yanを使って256kを100万トークンのコンテキストウィンドウまで外挿できるんや。

これはリポジトリスケーリングみたいなケースでめちゃくちゃ役に立つんや。リポジトリ全体を読みたい時、GitHubリポジトリがあって、それを読んで、バグを修正して、問題を解決したい時、100万トークンまでスケールするのは本当にええ問題解決になるんや。一般的に大規模言語モデルを100万コンテキストウィンドウまでスケールする時の問題は、それを提供できなあかんっちゅうことで、そこでもこのモデルは優秀なんや。これはMOEモデルで350億パラメータしかアクティブにならへんからな。

全体で4800億パラメータ持っとるけどな。オンプレミスセットアップが欲しい時の本当にええ候補になる、めちゃくちゃええモデルやと思うわ。

ベンチマーク結果の驚異

それで言うたら、モデルのベンチマークを比較してみると、このモデルはSweep Benchっちゅう人気のベンチマークでかなりええ成績出しとるんや。SweepbenchはSbenchで、GitHubの問題がいっぱいあって、これらのLLMがGitHubの問題を解決することが期待されるベンチマークなんや。

SWEBench verifiedはSWEBenchのちょっと絞られたバージョンで、SWEBenchから選ばれた特定のタスクセットがあるんや。この特定のモデルQuen3 Coderを見てみると、アウトオブボックスで67%のスコアを取っとるんや。Claude Sonnet 4の68%と比較すると、Gemini 2.5 Proの古いバージョンは49%、GPT-4o1は54%やった。アウトオブボックスでこれは素晴らしいモデルや。

視点を与えるために言うと、みんなが愛用しとるDeepSeekモデルのR1モデルは41%やった。彼らが発表した前のQuinnの汎用モデルは34%のスコアやった。アウトオブボックスでこのモデルはプログラミングで絶対的に素晴らしくて、それがこの特定のベンチマークに反映されとるんや。

マルチターン性能の向上

ターン数を増やすと、最近多くの会社がやっとることの1つは、ゼロショットスコアを見せて、モデルに何度も何度もクエリして最良の結果を選ぶスコアも見せることなんや。同じモデルで500ターンやると、67%から69.6%まで上がるんや。Claude Sonnet 4は70%やから、Claude Sonnet 4とQuen3 Coderの間には約8パーセントポイントの差があるんや。

注意してほしいのは、これはAnthropicが何百万もの資金を持つ会社やのに対して、Quen Coderモデルは十分な計算資源があれば無料で利用できるっちゅうことや。文字通りモデルをダウンロードして使い始められるんや。これは冗談やなくて、めちゃくちゃ興味深いことやと思うわ。こんなでかいモデルが使えて、それが無料で利用できるっちゅう事実がな。誰かがそれをただでくれて、使えるっちゅうのは本当に本当にすごいことやと思うわ。

学習データの革新的なアプローチ

このモデルについてもう1つめちゃくちゃ面白いのは、事前学習と事後学習の詳細を共有してくれとることや。ここにはいくつか興味深い特徴があるんや。まず、事前学習に馴染みがない人のために説明すると、インターネットにはめちゃくちゃデータがあるんや。誰かがそのデータを取って、大規模言語モデルを学習させなあかんのや。

大規模言語モデルを学習させる時、いくつかの選択をせなあかんのや。どれだけのデータが必要か、データの構成はどうするか、どれだけプログラミング言語を入れるか、どれだけ英語を入れるか。これらは大規模言語モデルプロバイダーやモデルトレーナーが作る選択なんや。

ここでこの特定のモデルQuen3 Coderを見ると、彼らはとことんスケールしとるのが分かるで。7.5兆トークンを使っとるんや。7.5兆トークンのうち70%がプログラミングだけなんや。インターネット上のテキストダンプで、彼らがデータ用に準備したものが7.5兆トークンで、これはめちゃくちゃでかいけど、7.5兆のうち70%、たぶん5兆以上がコードで、それがコーディングで優秀な理由やけど、30%の非コーディング要素があるから一般的能力と数学能力も保持しとるんや。

2つ目はコンテキストについて話したことや。1つ目はトークンのスケーリング、2つ目はコンテキストのスケーリング、3つ目は合成データのスケーリングや。これもめちゃくちゃ面白いことやで。

データクリーニングの画期的手法

大規模言語モデルの学習で一番大きな問題の1つは、大規模言語モデルが与えられたデータからシグナルを捉えることなんや。データがきれいであればあるほど、モデルは良くなる。ガーベージイン・ガーベージアウトやからな。Quenチームがやったのは、Quen2.5 Coderっちゅう前のバージョンのモデルを活用して、ノイジーなデータをクリーニングして書き直して、データ品質を大幅に改善したことなんや。

インターネットから取ってくるもの、Stack Overflowに行くと、正しい答えもあれば間違った答えもある。時には間違った答えが正しいとマークされてることもあるんや。インターネットはある意味ゴミ捨て場みたいなもんや。彼らがやったのは、ダンプをそのまま取るんやなくて、Quen2.5 Coderを使って一部のコードを修正したり、ノイジーなデータを書き直したりして、このパイプラインを構築した時に学習データが本当に高品質になるようにしたことなんや。

めちゃくちゃ面白いことで、会社がこれについて言及してるのを見たことがないわ。やってるかもしれんけど、これを見るのはめちゃくちゃ興味深いことや。

事後学習の革新

事後学習については、ベースモデルができた後にSFT(教師ありファインチューニング)をやってから、RL(強化学習)をやるプロセスや。実際、最近はRLVR(検証可能な報酬を用いた強化学習)が人気で、いろんな側面があるんや。

彼らが言うとるのは、リアルワールドのソフトウェアエンジニアリングタスクでは、Quen3 Coderはマルチチャット環境に関与せなあかんっちゅうことや。エージェントが欲しい時、エージェントのところに行って何か言って、それで出てくるっちゅうわけにはいかへんやろ。エージェントと複数の会話をすることになるんや。「おい、これ修正できる?」「めちゃくちゃになってしもた。また修正できる?」Cursorを使ったことがある人なら、この感覚は理解できるはずや。

長期的強化学習の導入

この理由で、マルチターンの会話が必要で、計画やフィードバックなどいろんなことをせなあかん複数のインタラクションが必要やから、Quen3 Coderの事後学習フェーズでは、長期的RL(長期的強化学習)とエージェント強化学習っちゅうものを導入して、モデルがツールを使ったマルチターンインタラクションを通じてリアルワールドのタスクを解決するよう促しとるんや。

エージェントRLの主要な課題は環境のスケーリングにある。これに対処するために、彼らはAlibabaのクラウドインフラを活用して、20,000の独立した環境を並列で実行できるスケーラブルなシステムを構築したんや。このインフラは大規模強化学習に必要なフィードバックを提供して、大規模な評価をサポートしとるんや。

結果として、Quen Coderは、テストタイムスケーリングなしでSWEBench verifiedでオープンソースモデルの中で最高の性能を達成しとるんや。シンキングなし、テストタイムスケーリングなしで、このモデルは67%を達成して、マルチターン会話では69.6%になっとるんや。

強化学習スケーリングの時代

一番面白い側面は、今やほぼすべての会社が強化学習をスケールせなあかんと決めたっちゅうことや。Grok 4の発表を知ってるなら、Grok 4も強化学習をスケールしとった。スケーリング法則によると、データをスケールして、モデルのパラメータサイズをスケールして、計算をスケールすると、モデルはより良くなることが期待されるんや。それがスケーリング法則やったし、今はスケーリング法則が強化学習の部分にも適用されると思うで。Grok 4がやっとるのも見たし、今Quen3 Coderでも見とるけど、彼らは20,000の独立した並列環境を持てるようにスケールしとるんや。

モデルはマルチターン会話中にリアルワールドの問題を解決することを自分で学習するんや。1回の会話だけやなくてな。ステップバイステップでやろうっちゅう感じやけど、実際にステップバイステップでやっとるんや。めちゃくちゃ面白いことやで。

デモとベンチマーク結果

Quen3 CoderがIMO(国際数学オリンピック)でどうなるか見てみたいわ。GoogleとOpenAIが金メダルレベルの性能を得たやつでな。これは主にQuen3 Coderについてや。デモにすぐ飛んで、モデルがどんなもんか見せたるわ。

ベンチマークがいっぱいあって、チャートとかすべてのパフォーマンスを見ることができるで。見ての通り、スケールするとどんどん上がっていくんや。それがスケーリングの部分やな。長くやるとどんどん上がっていくから、学習ステップが増えるとSQLが良くなって、競技プログラミングが良くなって、データ分析が良くなるっちゅう、めちゃくちゃ面白い側面が見えるで。

モデルのベンチマーク性能については、いくつかのタスクでモデルを試してみて、ゼロショットでもモデルは素晴らしい仕事をしたで。デモがあるから、YouTubeの説明欄にリンク貼っとくわ。「バービーテーマのキャンディショップのような美しいTailwind ミニマリスティックランディングページをデザインして」って言うただけや。それだけの情報しか与えてへんのに、「甘い夢、一番甘い夢が叶う。手作りキャンディ、カップケーキ、甘いお菓子の魔法のコレクションをお楽しみください」みたいなもんを作ってくれた。

めちゃくちゃ面白いことに、小さなアイコンを作って、それをうまく使ってくれた。使ったカラーパレット、いろんなピンクの色調がめちゃくちゃええし、証言もあって、これが全部ゼロショットなんや。ゼロショット以外何もしてへんのに、FBロゴ、インスタロゴ、Pinterestロゴを追加して、クイックリンクもあって、フッターも含めて全部追加してくれた。「All rights reserved made with love」まで。めちゃくちゃ面白いわ。

実際の使用例とアクセス方法

いろんなことを試せるで。例えば、リフレッシュして一から始められるようにしてみよか。実際にやるまでちょっと時間がかかるけどな。Quenにアクセスする別の方法は、彼らのインターフェースに行くことや。quen chat.quen.aiに行けば、ログインしなくてもモデルにアクセスできるんや。そのまま行ってテストできるで。

最近Macで大きな問題があったから、そのケースを説明して問題を解決してくれるか見てみるわ。俺のMacが死ぬことを決めて、アップデート後に起きなくなってしもたんや。15.5へのアップデート後にな。検索はしてほしくないねんけど、どうしたらええ?ステップを箇条書きで教えてくれ。指示にどれだけよく従えるかも見たいんや。これは汎用的な質問やと思うかもしれんけどな。

見ての通り、いろんなことをやってくれとる。期待してるのは、DFUモードに入らなあかんって言ってくれることや。これはApple siliconのMacで、これらは全部もうやった。もう1つあるはずや。そうや、DFUモードや。ちょっとプロンプトを出さなあかんかったけど、DFUモードをやらなあかんって言ってくれとる。サービスセンターに行ってこれをやってもらわなあかんかった。Apple Configuratorを使うって言うとるのは大丈夫やけど、DFUモードのステップは100%正しいか確信がないわ。たぶんシフト、コマンド、いくつかのボタンやと思うねん。そこにちょっと間違いがあるけど、コーディングモデルをテストしとるんやからな。検索を付けてこれをちゃんとやるべきやったな。

ゲーム開発デモ

デモに戻って、やろうとしてることをやってみよか。「オブジェクトの束にボールを投げられるシンプルな物理ゲームをデザインして。好きなアイコンを使って。スリングショットみたいにして。スコアボードもあるようにして」って言うてみるわ。

提出すると、コードを作り始めるのが見えるで。彼らのプラットフォームでも同じことができるんや。コードを生成して、レンダリングして、実行するんや。見ての通り、これは技術的にはReactコードで、デザインを始めとる。彼らが誇りにしとることの1つは、モデルがゲームのコーディングとかの理解でめちゃくちゃ優秀やっちゅうことや。

デモで物理ベースのシミュレーションを見ることができるで。制御された爆発がどうなるかテストしとるみたいで、人々が試してきた他のことも束ある。自分のキーボードのスピードトラッキングをデザインしたいなら、それもできるで。コード生成が起こってる間にな。

CLI ツールの登場

彼らが発表したもう1つの面白いことは、CLA(コマンドラインユーティリティ)インターフェースを発表したことや。これはClaude Code、Gemini Coderとか、使ってきたインターフェースとめちゃくちゃ似とるんや。使いたいなら、ダウンロードして使えるで。めちゃくちゃ似たセットアップや。

これをテストしようと思ってるけど、俺の動画のこの部分をスキップして自分でやり始めたいなら、ここの説明を見ればええで。YouTubeの説明欄にリンク貼っとくわ。やることはインストールするだけや。唯一の問題は、このOpenAIベースの環境変数をセットアップせなあかんことや。OpenAI互換のAPIエンドポイントをサポートしとるから、それをセットアップしたら使い始められるんや。

これもめちゃくちゃ便利や。オンプレミスセットアップをやりたい場合、システムインテグレーターとして働いて、企業向けにオンプレミスセットアップをやりたい場合、今やサイズがめちゃくちゃでかくて、めちゃくちゃ高性能なモデルがあるんや。CLIもあるし、Geminiでもできたけど、今はQuenモデルがあって、これらを組み合わせると、めちゃくちゃ強力なローカルコーディングアシスタントができるんや。

みんながこのモデルを実行できるとは言わへんけど、めちゃくちゃええ企業セットアップがあるなら、350億パラメータのアクティブモデルしか必要やから、このモデルを絶対デプロイできるで。総モデルサイズは4800億で、AppleにはUnified Memoryが512GBあるし、たぶんFP8でも実行できるはずや。

実際のデモ結果

まだ実行中やけど、終わって俺らのためにレンダリングしてくれた。見てみよか。どこから起動するんやろ?こんな感じか。わあわあわあ。なるほど。わあ、叩き潰しとるわ。なるほど。期待してたもんとはちゃうけど、何かしとるな。スコアが更新されてへんな。

マルチターン対話も使えるから、履歴が残るから、チャットして、それをやることができるんや。でも一般的に、基本的なコーディングタスクについては、例えば「Pythonで棒グラフを作るにはどうしたらええけど、ggplotみたいに見せたい」っちゅうめちゃくちゃシンプルな質問には、絶対的に優秀やで。見ての通り、すぐにplot 9を使えって教えてくれた。

このモデルを後で別の動画で徹底的にテストするつもりやけど、今のところこのモデルについてどう思うか教えてくれ。モデルの学習プロセスについてちょっと詳しい動画にしたかったんや。時間がかかってしもて申し訳ないわ。また別の動画で会おうな。

コメント

タイトルとURLをコピーしました