アリババの QwQ-32B が DeepSeek-R1 を圧倒!AI業界が衝撃を受ける!

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,466 文字

Alibaba's QwQ-32B CRUSHES DeepSeek-R1! AI Industry SHOCKED!
Today in AI news Alibaba released their new reasoning model QwQ-32B, a major leap forward in AI efficiency.👉 Support me ...

アリババが彼らの Quin シリーズの一部として新しい推論モデル QwQ-32B をリリースしました。このモデルは現在、AI 業界で大きな波紋を呼んでいます。わずか 320 億パラメータという小さなサイズでありながら、信じられないほど高いレベルのパフォーマンスを発揮しているのです。サイズが約 20 倍もある DeepSeek R1 を凌駕しているのです。
では、彼らはどのようにしてこれを実現したのでしょうか?彼らによれば、強化学習をスケールアップすることが単純な答えであり、もちろんそこにはいくつかの微調整が施されています。彼らは次のように述べています。「私たちの研究は、強化学習(RL)のスケーラビリティとそれが大規模言語モデルの知性向上に与える影響を探求しています。320 億パラメータを持つ QwQ-32B を導入できることを嬉しく思います。このモデルは、6710 億パラメータを誇る DeepSeek R1 に匹敵するパフォーマンスを達成しています。この驚くべき結果は、広範な世界知識で事前訓練された堅牢な基盤モデルに適用された場合の RL の有効性を強調しています。さらに、私たちはエージェント関連の機能を推論モデルに統合し、批判的に考え、ツールを活用し、環境からのフィードバックに基づいて推論を適応させる能力を可能にしました。」
ベンチマークから見ると、QwQ-32B は本当に最先端です。挑戦的な数学ベンチマークである AMI 2024 では、DeepSeek R1 とほぼ同等で、OpenAI の O1 mini を大幅に上回っています。より推論重視のベンチマークである LiveCodeBench と LiveBench でも、DeepSeek R1 とほぼ同等であり、再び O1 mini を大幅に上回っています。指示に従う能力をテストするベンチマークである IFEval では、O1 mini には劣りますが、DeepSeek R1 をわずかに上回っています。そして最後に、関数呼び出しの精度を測定するベンチマーク BFCL では、QwQ-32B は他のすべてのモデルを上回ります。
これが 320 億パラメータのモデルであることを念頭に置いてください。DeepSeek R1 や OpenAI O1 mini のような巨人と比べると桁違いに小さいのです。このような極端に縮小されたスケールで同等のパフォーマンスを達成することは、運用コストが大幅に削減されるだけでなく、知性のコストがいかに急速に下落しているかを強調しています。
中国の DeepSeek AI は、今年 1 月 20 日に DeepSeek R1 をリリースした時、テック業界全体に衝撃を与えました。初めて、OpenAI O1 レベルで動作するオープンソースの推論モデルが登場し、これは計算能力やお金がずっと少なくて開発されたと言われていました。これによりアメリカのテック部門では小規模な市場崩壊が起きました。そして今、そのわずか 2 ヶ月も経たないうちに、もう一つの中国企業であるアリババが、DeepSeek R1 と同レベルのパフォーマンスを発揮するオープンソースの推論モデルをリリースしましたが、サイズは 20 分の 1 です。基本的に、DeepSeek が OpenAI に R1 で行ったことと同じことを、アリババは今 DeepSeek に対して行っていますが、さらに極端なレベルで行っています。
アリババの QwQ-32B は単なる段階的改良ではなく、AI の効率性、コスト、アクセシビリティの可能性を完全に再定義するような飛躍です。ベンチマークに戻ると、なぜ O3 mini がこのリストに含まれていないのか疑問に思うかもしれません。最近リリースされたばかりなので、これらの各ベンチマークのスコアを持っていなかった可能性がありますが、おそらくこれらのモデル全てを凌駕していた可能性があるからかもしれません。
このモデルは依然として最先端の推論モデルと見なすことができますが、まだリリースされていないより大きく、より良いモデルが存在することに注意することが重要です。O3 mini は、これまでに発表されただけの完全版 O3 のミニチュア版に過ぎません。
再度強調しますが、アリババの QwQ-32B は、知性のコストとアクセシビリティの指数関数的な減少を表しています。こう考えてみてください。320 億パラメータのモデルで最先端のパフォーマンスを得られるなら、数千億、あるいは 1 兆パラメータにスケールアップすれば何が達成できるでしょうか。これがアリババが計画していることです。彼らは述べています。「これはクエンが推論能力を向上させるために強化学習をスケールアップする最初のステップを示しています。この旅を通じて、私たちはスケールされた RL の巨大な可能性を目の当たりにしただけでなく、事前訓練された言語モデル内の未開拓の可能性も認識しました。次世代のクエンの開発に取り組む中で、熟練した計算リソースによってパワーアップされた RL と強力な基盤モデルを組み合わせることで、人工一般知能(AGI)の達成に近づけると確信しています。さらに、長期的な推論を可能にし、推論時間のスケーリングでより大きな知性を引き出すことを目指して、エージェントと RL の統合を積極的に探求しています。」
彼らはまた、プレビュー段階にある QwQ-32B のより大きなバージョン、QwQ Max にすでに取り組んでいます。このモデルはさらに優れたものになり、Apache 2.0 ライセンスの下でオープンソースとなることは安全に推測できます。つまり、誰でもダウンロードして自由に改変できるということです。
中国は間違いなく AI レースでアメリカに追いついています。そして、中国のモデルはすべてオープンソースである一方、アメリカのモデルはほとんどがクローズドソースであることを考えると、オープンソース AI がクローズドソース AI に追いついているとも言えるでしょう。
この傾向は続くのでしょうか?それは次の主要なリリース次第です。中国では、DeepSeek R2 の発表が前倒しされたと報じられています。当初は 5 月初旬の予定でしたが、現在はできるだけ早期に発表される見込みです。一方、アリババは QwQ Max をプレビュー中で、今後数ヶ月でのリリースが予想されています。
そして米国では、OpenAI が O3、O3 Pro、GPT-5 の完全版を近々発表する準備をしています。また、最近市場初のハイブリッド推論モデルである Claude 3.7 Sonnet をリリースした Anthropic も、おそらくすでに Claude 4 Sonnet に取り組んでいるでしょう。
ですから、今後数ヶ月は間違いなく興味深いものになるでしょう。今年がオープンソース AI がついにクローズドソース AI を超える年になるのか、それともクローズドソースモデルがリードを維持するのか、興味があります。
ここで、「AI の神父」として知られるジェフリー・ヒントンの短いクリップを 2 つ紹介します。彼は人間の知性がどのように無関係になりつつあるのか、そしてそれが世界にとって何を意味するのかについて語っています。
「多くの人々が『それは特定のことについて雇用を増やすだろう』と言いますが、私はそれに納得していません。産業革命では人間の力を無関係にしました。今、私たちは人間の知性を無関係にしています。それは非常に怖いことです。需要が非常に弾力的な分野がいくつかあります。例えば医療です。私が週に 10 時間医師と話せるなら、70 歳を超える私は非常に幸せでしょう。だから、非常に知的な AI と一緒に働くことで誰かをより効率的にすると、その人は失業するわけではありません。そうした人々がほんの少ししか必要なくなるというわけではなく、ただより多くの医療を得ることになるのです。」
彼はここで非常に妥当な点を指摘していると思います。彼は産業革命中に蒸気機関や重機械で人間の力に取って代わったように、今や AI 革命で高度な AI モデルで人間の知性に取って代わっていることを認識しています。生き残る仕事は、需要に応じて動的に拡大または縮小できる弾力的な仕事だけです。例えば、医療、特に専門医療の需要は供給をはるかに超えています。地球上のすべての人が個人的なケアを受けるには医師が足りないのです。しかし、AI が医師の生産性を 10 倍にできれば、理想的には 10 倍の患者に対応できるでしょう。
問題は、これが特定の仕事にしか機能しないことです。ほとんどの企業はすでに需要と供給の均衡に近い状態で運営されており、常に効率性を最適化しています。このような場合、AI は単に生産性を向上させるだけでなく、人間の労働を積極的に置き換え、影響を拡大するのではなく、特定の役割を時代遅れにします。
起業家の視点から考えてみてください。あなたの従業員全員が今 10 倍生産的になったが、必要な仕事量が 2 倍程度しか増えていない、あるいはまったく増えていない場合、あなたは本当にそれほど多くの人を必要としません。その上、人間に取って代わる AI は、AI と一緒に働く人間よりもさらに生産的になり、もちろんはるかに安価になる可能性が高いのです。これは本当に当たり前のことです。
次のクリップでわかるように、私たちの現在のシステムはこれに対して単純に準備ができていません。
「これは生産性にとって素晴らしいことでしょう。それは真実です。それが社会にとって素晴らしいことかどうかは、全く別の問題です。まともな社会では、生産性を大幅に向上させれば、誰もが良くなります。しかし、ここで起こることは、生産性を大幅に向上させると、富裕層と大企業はさらに豊かになり、一般の人々は仕事を失うため、おそらく悪化するでしょう。」
私たちは仕事と雇用の構造をどのように再考するか、あるいは労働力の大部分が明確な前進の道がないまま時代遅れになる未来に直面するかのどちらかです。これは単に効率性だけではなく、価値がどのように創造され、社会で分配されるかの根本的な変化についてです。
個人的には、私には答えがありません。これがすべてどのように展開するのかまったくわかりませんが、間違いなく注意深く見守っていきます。しかし、これについてのあなたの考えを聞いてみたいです。あなたは将来に興奮し、希望を持っていますか?それとも、来るものについて心配していますか?
以上で今日は終わりです。視聴していただきありがとうございます。そして、いつものように、このような将来の AI ニュースを常に把握したい場合は、必ず購読ボタンを押してください。

コメント

タイトルとURLをコピーしました