QwQ:DeepSeek R1を上回る小型思考モデル(オープンソース)

AGIに仕事を奪われたい
この記事は約10分で読めます。

5,655 文字

QwQ: Tiny Thinking Model That Tops DeepSeek R1 (Open Source)
Start building with Stagehand today: My Newsletter for Regular AI Updates 👇🏼 Links 🔗👉🏻 Subscribe:...

DeepSeek R1と同等の性能を持ちながら、はるかに小さいモデルがリリースされました。実際にあなたのコンピュータで実行できるほど小型です。同等の結果を出し、思考モデルであり、信じられないほど高速に動作します。そして最高の点は、完全にオープンソースであることです。これはAlibabaによるQwQ 32bです。Quenシリーズのモデルの一部で、つい先日公開されました。
このベンチマークを見てください。DeepSeek R1のフルバージョン(6710億パラメータ)と同等ですが、わずか320億パラメータしかありません。つまり、あなたのコンピュータで簡単に実行できるのです。
AMI 2024では79.5対79.8、LiveCodeBenchではいくつかポイントは低いですが非常に近い数値、LiveBenchではDeepSeekより優れ、EVVALBではDeepSeekより優れ、BFCLではDeepSeekより6ポイント先行しています。
ブログ記事では、もちろん強化学習から話し始めています。これはOpenAIがO1およびO3シリーズのモデルで使用したのと同じ技術であり、DeepSeek R1も独自に検証して基盤モデルから思考行動を引き出すのに非常に効果的であることが確認されています。小型または中型の優れた基盤モデルを取り、強化学習を適用すると、突然素晴らしい思考モデルになるのです。
彼らはこのモデルにエージェント関連の能力を特別に訓練しました。そのため、批判的に考え、ツールも非常にうまく使いこなせます。Grock GRQはこれをホストしており、1秒あたり450トークンを処理しています。見ていると本当に驚くべき速さです。これについては後ほどお見せします。
では、彼らはどのように作ったのでしょうか?コールドスタートのチェックポイントから始め、結果ベースの報酬に基づくスケーリングアプローチで強化学習を実装しました。
つまり、検証可能な報酬による強化学習を使用し、報酬はプロセスではなく結果に基づいています。結果ベースの報酬モデルとプロセスベースの報酬モデルには違いがあることを覚えておいてください。私は、プロセスベースの報酬モデルの方が優れていると考える傾向があります。なぜなら、最終的な答えが正しくなくても、複数のステップが正しい場合にモデルに報酬を与えることができるからです。これにより、モデルは最初の数ステップが正しいことを学び、後の段階で答えを正しく導き出すために最終ステップを改良できます。
結果ベースの報酬モデルでは、トータルのアウトプット、つまり解決策全体が正しいか間違っているかだけで報酬を与えます。10段階中9段階は正しくても、最後の1段階を間違えると、依然として否定的な報酬信号を受け取ることになります。
初期段階では、特に数学とコーディングタスクのために強化学習をスケーリングしたと彼らは言います。これが思考行動を引き出す方法です。フィードバックを与えることができ、数学とコーディングでは正誤を判断できるため、非常に強い報酬信号があります。
従来の報酬モデルに頼るのではなく、最終解の正確さを確認するための数学問題の精度検証ツールと、生成されたコードが事前定義されたテストケースに合格するかどうかを評価するコード実行サーバーを活用しました。これは興味深いアプローチです。数学については基本的に別のモデルを検証ツールとして使用し、答えが正解とどれだけ正確に一致するかを確認し、コードについてはサーバーを使用してコードが正しいかどうかをテストするためのテストを作成し、それを報酬信号として使用しました。
彼らは数学とコーディングで強化学習を使用し、継続的に改善しましたが、そこで止まりませんでした。最初の段階の後、一般的な能力のための強化学習の別の段階を追加しました。これは一種のハイブリッドアプローチです。検証可能な報酬を伴う強化学習で数学とコーディングを行い、さらに一般化された能力のためのより一般的な報酬モデルも使用しました。
「少数のステップでこの段階の強化学習トレーニングを行うことで、数学とコーディングのパフォーマンスを大幅に低下させることなく、指示に従う能力、人間の好みへの適合、エージェントのパフォーマンスなど、他の一般的な能力のパフォーマンスを向上させることができることがわかりました。」
数学とコーディングから始めて、非常に良い状態に到達させ、その後これらの他の技術を使用して一般化します。より汎用的なモデルを作るためのクールなレシピですね。
新しいレシピを開発しているのは他にも、今日の動画のスポンサーであるBrowser BaseによるStage Handがあります。開発者として、人々が毎週同じタスクに多くの時間を費やしていることは周知の事実です。メールのチェック、Amazonでの商品検索、食料品リストの設定など。もちろん、より簡単な方法があることはご存知でしょう。エージェントは今や人間のようにウェブを使い始めています。そこでStage Handの出番です。
Stage Handは、PlayrightのようなWebブラウザテストフレームワークの上に構築されたオープンソースフレームワークで、AIを使用して自動化を実際に堅牢にし、エージェントがウェブを閲覧できるようにします。クールなのは、自然言語で望むことを記述できながらも、自動化の動作方法を完全に制御できることです。
これを使って、Browser Baseチームはオープンオペレーターを作成しました。これはOpenAIのオペレーターのオープンソース版です。オープンソースのリポジトリへのリンクを下に貼っておきます。チェックしてスターを付けて、エージェントを接続してすぐにウェブの閲覧を始めることができます。素晴らしいツールをオープンソースコミュニティに提供してくれたBrowser Baseに大きな感謝を捧げます。コメントでこれについての感想を教えてください。では動画に戻りましょう。
「より強力な基盤モデルとスケールした計算リソースによる強化学習を組み合わせることで、人工知能の実現に近づくと確信しています。」
この点を強調したい理由は、GPT-4.5について多くの人々が否定的なことを言っていたからです。それは大きな改善ではなく、非常に高価でしたが、彼らはそれを発表し、ここ数日で実際に非常に優れていることがわかってきました。
これは新しい基盤モデルであり、GPT-4oよりもはるかに改良された基盤モデルです。その基盤モデルを取り、その上に強化学習を追加するというのが彼らが説明していることです。より強力な基盤モデルと強化学習を組み合わせるのです。
はるかに優れたモデル、そのモデルのシードから始めて強化学習を適用すると、結果ははるかに優れたものになります。そのため、GPT-4.5とその上に強化学習を追加する可能性に本当にワクワクしています。それがすでにO3 Proの正体かもしれませんが、まだわかりません。
彼らは最後に非常にエキサイティングなことを述べています。「さらに、長期的な推論を可能にし、より優れた知性を推論時のスケーリングで引き出すことを目指して、エージェントと強化学習の統合を積極的に探求しています。」すでに可能な以上のテスト時の計算能力です。
彼らがエージェントについて本当に考えていたことは明らかです。私はエージェントに強気で、特に最近Vibeコーディングをたくさんやっていますが、これは本質的にエージェンティックコーディングです。関数呼び出し、関数作成、ツール呼び出しを本当にうまく行うモデルは、Vibeコーディングが最も得意なモデルである傾向があります。
実際、エージェンティックタスクが特に得意ではないモデルを選択すると、Cursorはそれを教えてくれます。Gemini 2.0 Flash Thinking Experimentalを選択すると、「このモデルはまだエージェントのサポートが十分ではありません」と表示されます。モデルはエージェントを念頭に置いて微調整されなければならず、ツール呼び出しや関数呼び出しを念頭に置いている必要があります。
だからこそ、このモデルを試すことに特に興奮しています。これは推論モデルであり、非常に高速で効率的ですが、エージェンティックタスクにも優れています。
私はこのモデルに「回転する六角形の中でボールが跳ね返るPythonプログラムを書いて。ボールは重力と摩擦の影響を受け、回転する壁からリアルに跳ね返る必要がある」と指示しました。おそらくTwitterでこのテストを見たことがあるでしょう。
Hugging Faceスペースを使用していますが、無料なので試すことができます。最初に多くの思考を出力しているのがわかります。それなりに速いですが、後ほど信じられないようなものをお見せします。
長い思考の時間の後(本当に長かったです)、解決策ができました。試してみましょう。できました。明らかに完璧ではありませんが、ポイントは素早く改良できることです。どれくらい素早くできるかが問題です。
では、絶対に信じられないことをお見せします。信じられないほど高速な推論速度を持つGrock GRQはQwQ 32bをロードしました。これがどれだけ速いか見せましょう。
前のコードを取り、ここに貼り付けます。「シミュレーションでボールが正しく跳ね返っていません。壁に全く触れていません。修正してください。」と言います。この思考がどれだけ信じられないほど速いか見てください。この時点で1秒あたり450トークンを処理しています。
これにより、はるかに短い時間でより多くの思考ができるようになります。この種の速度には非常に大きな可能性があります。
ただし、批判的に言えば、Artificial Analysisは独自のベンチマークを実行し、Quenチーム自身のベンチマークほど良い結果を出していません。それを見せましょう。
GPT QA DiamondとAMI 2024の2つのスコアがあります。GPT QA Diamondでは59.5%となり、DeepSeek R1のスコア71%よりも大幅に下回り、Gemini 2.0 Flashのスコア62%をわずかに下回っています。
AMI 2024では78%で、彼らの主張と一致し、DeepSeek R1のスコアを上回り、O3 Mini Highを除く他のすべてのモデルを上回っています。
自身のベンチマークではGPT QA Diamondではあまり良い成績を出せませんでしたが、数学のAMI 2024ベンチマークでは同様に良い成績を出しました。
これがGPT QA Diamondの科学的推論です。さまざまなモデルがあり、最上位にO3 Mini HighとClaude 3.7 Sonnet Thinkingが両方とも77%で、Quen QwQ 32bは真ん中あたりの60%で、2.0 Flash、3.7 Sonnet、DeepSeek R1、4.5 Previewの後ろにいます。ちなみに、4.5 Previewはローンチでは印象的ではなかったにもかかわらず、実際にはとても良いです。
そしてこれがAMI 2024です。再び最上位にO3 Miniがあり、QwQ 32bは78%でQuenが主張したスコアと一致しています。
Artificial Analysisからのいくつかの事実:QwQ 32bはDeepSeek R1の6710億パラメータの総数よりも20倍少ないパラメータを持ち、DeepSeekの370億のアクティブパラメータ数よりも少なくなっています。DeepSeek R1はエキスパートの混合モデルであることを忘れないでください。プロンプトを与えると、推論を実行するためにそれらのパラメータの一部のみを使用します。しかし、アクティブなパラメータでさえ、Quenはまだそれより少ないです。
QwQ 32bはBF16で訓練されリリースされましたが、DeepSeek R1はネイティブにFP8で訓練されリリースされました。これは、QwQ 32bとR1のネイティブバージョンがそれぞれ65GBと671GBを占めることを意味します。
しかし、興味深いのは、NVIDIAのH100のようなネイティブFP8サポートを持つハードウェアでは、DeepSeek R1は実際にはフォワードパスあたりの実効計算量が少ない可能性があることです。全体的に見て、これは依然として非常に印象的なモデルです。
このサイズと効率のモデルで何が可能かがわかります。いくつかの批判があります。一つは、132Kのコンテキストウィンドウはそれほど大きくなく、現在の標準からするとやや小さめです。また、DeepSeek R1、O1、Claude 3.7 Thinkingよりもはるかに多く考えることに気づきました。そのすべての思考には多くのトークンが必要です。
おそらく私たちがするべきことは、Chain of Draftを適用することです。数動画前に、Chain of Draftについての動画を作りました。これは基本的に、モデルに思考させるが、完全な思考の連鎖ではなく重要な部分だけを出力させる新しいプロンプト技術です。
このモデルはオープンソースでオープンウェイトであり、すでに多くの異なる場所でホストされています。ぜひチェックして遊んでみて、感想を教えてください。Cursorに接続しましたので、ツールのサポートがすぐに得られることを願っています。この速度があれば、できることがたくさんあります。
この動画を楽しんでいただけたなら、ぜひ「いいね」とチャンネル登録をお願いします。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました