
4,866 文字

アリババが人工知能の推論モデルであるQwQ 32Bの新しいアップデートをリリースしました。これはオープンソースでHugging Faceで公開されています。いくつかのテストをして、その後PythonでAPIを実行して、どのように機能するか見ていきましょう。
まずは、チャンネル登録してくれた皆さん、いいねを押してくれた皆さん、そして特にこのAIチャンネルを支援してくれているメンバーの皆さんに感謝します。
QwQ 32Bは強化学習の力を活用しています。これは2024年3月6日、今日の発表です。強化学習のスケーリングには、従来の事前学習および事後学習の手法を超えてモデルのパフォーマンスを向上させる可能性があります。最近の研究では、強化学習がモデルの推論能力を大幅に向上させることが示されています。例えば、DeepSeek R1は、コールドスタートデータと複数段階のトレーニングを統合することで、深い思考と複雑な推論を可能にし、最先端のパフォーマンスを達成しました。
つまり、強化学習を使ってこれらのモデルをどんどん賢くしていこうという考えです。これが今後のトレンドになると思われます。強化学習の良い点の一つは、自律的な学習を促進できることです。これはモデルの大きな利点の一つです。私たちが子供の頃に学ぶ方法に似ています。家族や文化の影響を受けますが、それでも世界と自分で相互作用して学んでいくのです。
私たちの研究は、強化学習のスケーラビリティと、大規模言語モデルの知性向上における影響を探求しています。QwQ 32Bは、320億パラメータを持つモデルで、6,710億パラメータ(活性化されるのは370億)を誇るDeepSeek R1と同等のパフォーマンスを達成しています。
R1はミクスチャー・オブ・エキスパーツという技術を使用しているため、全体では6,030億パラメータがありますが、推論や応答を生成する際に実際に活性化されるのは370億パラメータだけです。32Bモデルは370億からそれほど遠くありませんが、ミクスチャー・オブ・エキスパーツではなく、単なる小さなモデルです。
この注目すべき結果は、広範な世界知識で事前学習された堅牢なベースモデルに適用された場合の強化学習の有効性を強調しています。さらに、モデルにエージェント関連の機能を統合し、ツールを使用しながら批判的に考え、環境からのフィードバックに基づいて推論を適応させることができます。
これらの進歩は、強化学習の変革的な可能性を示すだけでなく、人工知能の探求においてさらなるイノベーションへの道を開きます。人工知能へと向かう道を進んでいます。年末までには、想像以上に進歩しているでしょう。OpenAIだけだったら50年はかかったでしょうが、現在の激しい競争状態では皆が急速に進歩しています。
QwQ 32Bは、Hugging FaceとModel Scopeでオープンウェイトでパート2.0ライセンスの下で公開されており、Qwen Chatを通じてアクセスできます。すぐにアクセスしてみましょう。
パフォーマンスについて、QwQ 32Bは数学的推論、コーディング能力、一般的な問題解決能力を評価するために設計された一連のベンチマークで評価されています。赤色の部分がQwQ 32Bで、トップクラスの中でもDeepSeek R1と同等のパフォーマンスを示しています。Mini、DeepSeek R1蒸留版Llama、DeepSeek R1蒸留版Qwenなどの蒸留モデル(大きなモデルから小さなモデルへの知識の転移)はパフォーマンスが低くなっています。明らかに品質の高いモデルが利用可能になっています。
強化学習については、コールドスタート検証ポイントから始め、結果ベースの報酬によって推進される強化学習スケーリングアプローチを実装しました。DeepSeekがモデルをリリースした後、その論文に記載された手法を他の企業も少なくとも同じことを行わなければならなくなりました。これはGoogleのような企業が高度な知性レベルのモデルを作るのに時間がかかった一方で、今では確立された出発点があるため比較的容易になっています。
初期段階では、特に数学とコーディングタスクに対して強化学習をスケールアップしました。従来の報酬モデルに依存する代わりに、数学的問題の解の正確さを確保するための精度チェッカーと、生成されたコードが事前定義されたテストに合格するかどうかを評価するためのコード実行サーバーを使用しました。
コードをテストする場合、コードが実行されたかどうかがわかり、既知のプログラムには既知の回答があるので、目標を達成したかどうかを正確に判断できます。トレーニングエピソードが進むにつれて、両方のドメインでのパフォーマンスが継続的に向上しています。数学における強化学習の適用は、非常に優れた人工知能を生み出すでしょう。
最初の段階の後、一般的な能力のための別の強化学習段階を追加しました。この一般的な知性は、コンピュータコードや数学的コードのテストほど単純に実装できないため、後に追加されたのは興味深いことです。一般的な報酬モデルといくつかのルールベースの検証者から報酬を受けて訓練されています。
これは通常のことで、人間の経験に基づいて報酬を与えることを学んだ特定の人工知能があります。多くの人間に回答が良いか悪いかを評価してもらい、その人間の回答に基づいて、理論的には人間の経験に基づいて評価を行う人工知能モデルを作成します。この人間経験モデルを作成したら、そこから先はより簡単になります。
この強化学習トレーニング段階を少数のステップで行うことで、指示に従う能力、人間の好みとの整合性、エージェントのパフォーマンスなどの他の一般的な能力を向上させることができ、数学やコーディングのパフォーマンスの大幅な低下はないことがわかりました。完全に低下がないわけではなく、有意ではない低下があるということに注意してください。これは非常に良いことで、他のスキルが悪化する可能性があるため、スキルを向上させようとするとリスクがあります。
QwQ 32B の使い方ですが、チャットで使用するだけでなく、例えばHugging Faceやアリババのcloud-scopeのAPIを使用してコードで使うこともできます。ここに単純なコード例があります。Hugging Faceのコードを使って後で示しますが、今はここにあるコードを見てみましょう。
Qwen Chatにアクセスしてみましょう。いくつかのモデルがあり、そのうちの一つがQwQ 32Bです。選択すると自動的にこれが有効になります。それでは、チャンネルで最も有名な「コップの質問」をしてみましょう。これは今やモデルの知性が正解しやすくなっているので、もっと複雑なテストが必要かもしれません。
コップの質問とは:コップの中にサイコロを入れて、コップを逆さにするとサイコロはテーブルの上に落ちます。そのコップをストーブの上に持っていきます。サイコロはどこにありますか?期待される答えは、サイコロはテーブルの上にあるということです。推論モデルは通常この質問に正解します。推論モデルは、推論や反省を行い結論に至るからです。推論なしのモデルでは、即座に回答するため間違えることが多いです。
回答:「結論として、サイコロはテーブルの上に残ります。コップを逆さにした後、サイコロをコップの中に保持するものは何もないからです。」
良い答えですね。興味深いのは、彼がかなり長い推論を行ったことです。素早く答えず、かなりの時間を費やしています。これは必要以上に考えていることを意味します。この質問に対してはもっと少ない推論で済んだかもしれませんが、他の質問ではもっと推論が必要かもしれません。しかし、この設定を構成できるとは言及されていないようです。
それではAPIに移りましょう。開発者やマーケティング、法律の専門家など、これらのモデルに外部からアクセスするコンピュータプログラムを作成している人々のために、Hugging FaceでQwen QwQ 32Bにアクセスし、「Deploy」ボタンを使用してInference Providersにアクセスできます。
ここにはFireworks、Hyperbolic、Hugging Face Inference APIなどのオプションがあります。Hugging Face Inference APIを選択すると、Python、JavaScript、curlなどのコード例が表示されます。エンドポイントも確認できます。アクセストークンが必要で、新しいトークンを作成する必要があります。
トークンを作成する際には、プロバイダの違いをマークする必要があります。より高度な場合は、サーバーにエンドポイントをアップロードしてエンドポイントをマークすることもできますが、今は単にプロバイダを有効にすることが重要です。
VS Codeでは、3つのコードを用意しました。リンクは説明欄に載せておきます。Hugging Face Hubを使用しています。すべてPythonです。初期部分では、.envファイルからAPIキーを読み込みます。APIキーを.envファイルに入れるだけです。
APIキーが読み込まれると、変数に格納され、推論を行うためのクライアントが作成されます。「ブラジルの首都は何ですか?」というメッセージを送信し、テキストを完成させるようにリクエストします。モデルはqwq-32bで、応答がプリントされます。
同じロジックが他のプログラムでも機能します。これはOpenAIライブラリを使用した同様のプログラムです。最後のプログラムはもう少し長く、requestsライブラリを使用しています。requestsを使用する利点は、Hugging FaceやOpenAIの特定のライブラリを使用していないことです。インターネット上で質問するために正確なアドレスを指定します。
実行してみましょう。「ブラジルの首都は何ですか?」と質問しています。とても速く応答しました。プログラミングモードでは、フィルターなしで完全な回答が返されます。
応答の中で重要なのは、choicesセクションです。ここでは「role: assistant」から始まり、回答が示されます。「ブラジルの首都は何ですか?」というポルトガル語の質問に対して回答しています。途中で「f」という記号が表示されています。これは彼が推論を終了し、最終回答を送信するタイミングです。
最終回答:「ブラジルの首都はブラジリアです。1960年に設立されました。ブラジリアは同年4月21日に、ブラジル内陸部の開発計画の一環として、リオデジャネイロに代わって国の首都となりました。」
その他の情報としてlog probs、finish reason、usageなどがあります。例えば、プロンプトに16トークン、応答に226トークンを使用し、合計242トークンだったことが示されています。プログラマーなら、これらの詳細情報やコストが回答に含まれます。
コストについてですが、Billingセクションを見ると、毎月0.10ドル(10セント)のテスト用クレジットが提供されています。現在7セントを使用済みです。この10セントは本当に初期テスト用で、それを使い切ると実際にクレジットカードに請求が発生します。
Qwenの新バージョンについてどう思いますか?また選択肢が増えて良かったです。Qwenを使い慣れている方は、どう思いますか?コメントしてください。このようなビデオを継続して見たい場合は、メンバーになってサポートしてください。メンバーはWhatsAppグループへのアクセスや早期ビデオ視聴が可能です。いいねを残してください。


コメント