
7,484 文字

AI業界に新たな中国製のモデルが登場し、私は非常に驚いています。私はDeepseeq R2に関する動画を準備していました。TwitterやXでの噂がどんどん本格的になってきて、誰もが発表を一刻一刻と待っていたのですが、突然、予告もなくバーン!登場したのはDeepseeqではなく、中国の巨人アリババでした。彼らは新しいオープンソースモデルを発表し、業界全体に衝撃を与えました。
彼らのTwitter投稿を見てください。新しいオープンソースの巨大なモデルが発表されています。これは無料で使えるモデルで、Gemini 2.5 Proと互角に戦い、さらにはChatGPT 4.5をも凌駕し、オープンソースで無料、そして何より誰も予想していなかったものです。この動画では、このモデルがなぜ業界を変えるのか、何が本当にユニークなのか、そしてローカルまたはオンラインでどのように使用できるのかを説明します。
また実際に例を使って試してみて、このモデルがAIのオープンソースの未来に何を意味するのかについても見ていきます。中国がまた強力な一手を打ってきました。それが今日の動画のテーマです。
始める前に、動画が気に入ったら登録やいいねをしていただけると嬉しいです。また、ニュースレターも設定しており、登録すれば月曜から金曜まで最新情報の要約メールをお送りして、重要な情報を見逃さないようにします。それでは、動画を始めましょう。
多くの人がDeepseeqからの発表を待っていたと思います。Deepseeq R2に関する噂がどんどん大きくなってきていて、中国からも情報が漏れ始めていました。しかし代わりに登場したのは、私が言ったように、Deepseeqではなく、同じく中国のオープンソースAIモデルで、驚くほど優れたパフォーマンスを持つものでした。
詳しく見ていきましょう。こちらがブログ投稿や論文で、モデルと共に公開されています。この新しいモデルはQwen 3-235B-A22Bと呼ばれています。AIモデルの命名規則は完全に複雑になってきていて、リリースのたびにますます奇妙になっています。彼らは巨大なモデルから抽出した他の小さなモデルも公開しましたが、今日の主役は上記のモデルです。
なぜこのような名前なのか説明します。「Qwen」はシンプルに彼らのモデルファミリーの名前です。3はメジャーバージョンを表し、これは3世代目になります。そして235Bはモデルのパラメータ数を指します。これがモデルのサイズと考えられるもので、モデルが大きいほど、より多くの異なるデータで訓練されており、パラメータ数も増えます。ここでは235Bつまり2350億のパラメータを持つモデルです。
最後のA22Bについて理解するには、このQwen 3 235Bが「Mixture of Experts (MoE)」モデルであることを知る必要があります。このチャンネルで以前も話しましたが、これは要求に応じてモデルの異なる部分が呼び出されることを意味します。各専門タスクに対して異なる「エキスパート」が存在するのです。つまり、プロンプトで何かを要求するたびに、全モデルではなく、専門化された一部だけを使用するということです。
例えば、数学専門の部分、詩を書くための部分、画像を認識するための部分などがあります。これを「アクティブパラメータ」と呼び、それがA22Bの意味です。つまり、各エキスパート呼び出しごとに220億のパラメータが使われるということです。
技術的な部分はこれくらいにして、本題に入りましょう。このモデルはDeepseeq R1などの高性能モデルと本当に競争力があります。ここにベンチマークスコアがあります。多くのベンチマークでDeepseeqやGrokより優れ、OpenAI O3 Miniよりも良く、Geminiにかなり近づいています。オープンソースモデルとしては、しかも比較的小さな235Bパラメータでこれは本当に素晴らしい成果です。
このモデルでは深い思考モードを有効にするかどうか選択できます。こうした高いスコアが出せるのは、これが「思考モデル」、「推論モデル」だからです。深い思考モードは有効にも無効にもでき、ベンチマークではもちろん有効にしています。
特に注目すべきテストは、現在のAI応用に最も代表的なこれらです。これらのテストでスコアが高ければ、私たちにとって非常に役立つでしょう。さらに二つに分けると、MATH 2024とMATH 2025という非常に高レベルの数学テスト、そしてコーディングテストがあります。コーディングができるということは、私たちが想像できるほぼすべてのものを作れるということです。
ご覧の通り、このモデルはCode Forceで全AIモデル中最高のELOを達成しており、これは驚異的なことです。しかし、ベンチマークは全体の一部に過ぎないことはご存知の通りです。最近のAIの進歩では、ベンチマークだけに頼ることはできません。実際の実用テストが本当にモデルの良し悪しを判断する指針になります。なぜなら、開発者たちはベンチマークに特化してモデルを過剰に訓練することもあるからです。
つまり、実際の使用ケースにはあまり役立たないことがあります。だから慎重に見る必要がありますが、この動画の最後で実際にテストしてみます。以前GeminiやOpenAI ChatGPTでテストした同じ例を使って、このモデルがどうなるか見てみましょう。
彼らがMoEの主力モデルに加えて、6つの「Dense」モデル(圧縮モデル)もオープンソースで提供しています。これらは巨大なモデルから抽出された小さなモデルです。少し注意点として、DenseモデルはMoEの反対です。基本的に二種類のモデルがあります:MoEとDenseモデルです。MoEは異なる部分が一つの大きなモデルに組み合わさるもので、Denseモデルはただの巨大なコンパクトモデルでこのカテゴリに属しません。
後ほどHugging Faceのリポジトリを見ますが、そこには彼らのすべてのモデルが公開されており、ローカルでモデルを使用したい場合にどの命名規則が何を意味するかが分かります。これらの太字のモデルはすべて今すぐダウンロード可能です。
彼らはA2.0ライセンスで公開していて、かなり良いライセンスです。ほとんどのことができるでしょう。簡単に言えば、これらのモデルを公開・オープンソース化することで、基盤モデルの研究と展開を大幅に進めることを期待しています。彼らの目標は、世界中の研究者、開発者、組織にツールを提供することであり、私はこの種のイニシアチブを本当に称賛します。
もう一つ興味深いのは、アリババQwenでこのモデルを開発したチームの開発者の一人が、論文に記載されていないQwen 3の興味深い機能があると述べており、研究や製品に新たな視点を開くと考えていることです。現時点では少し謎めいていますが、人々がこのモデルを手に取り、テストし、最適化し、微調整し始めれば、このモデルのすべての能力と実用的な応用が明らかになるでしょう。その時には情報を共有します。
彼らの発表で私が本当に気に入っているのは、このモデルをどのように訓練してこの結果に達したかを説明していることです。これは研究開発、そして世界的なAIの進歩にとって素晴らしいことです。私の考えでは、オープンソースAIが本当に皆の進歩を可能にします。
このAIの主な機能の一つは、前述したように、「思考モード」と通常モードの両方をサポートすることです。思考モードを有効にすれば、最終回答を出す前にすべてを考慮します。無効にすれば、非常に素早く回答しますが、精度は落ちます。これらのベンチマークとグラフを見てください。非常に明白です。
前のベンチマークがあり、下の軸に「思考予算(トークン)」があります。1,000トークンから32,000トークンまでです。このモデルの素晴らしい点は、AIがどれだけ考えるか、どれだけ力を入れるか、考える時間をどれだけ取るかをコントロールできることです。
1,000トークンの思考ウィンドウを有効にすれば、あまり考えません。32,000トークンの思考ウィンドウを有効にすれば、32,000トークンに達するまで長く考えさせることになります。もちろんその方が良い結果が出ますが、より多くのトークンを消費するので予算も多くなります。より多くのトークンを消費させるほど、コストは上がりますが、AIはより賢くなります。
これこそが今日のAIに本当に不足していたものだと思います。各モデルの思考力や思考時間を選択できることです。これは本当に素晴らしいです。赤い線は非思考モードで、思考モードを全く有効にしていない状態です。全体的にスコアは非常に低いです。これは高レベルの数学の問題だということを思い出してください。思考モードなしでは、このモデルは下位にあり、正直に言えばあまり優れていません。
しかし、思考モードを有効にすると、問題をより深く考える余地を与えるにつれて、非常に明確な改善が見られます。1,000トークンを与え、32,000トークンを与えると、非常に顕著な改善が見られ、かなり印象的です。これは私たちが知っていたことを確認するだけです:問題をより多く考えるほど、結果は良くなります。
もちろん、最後には「収穫逓減」と呼ばれるものがあり、最初はコンテキストトークンを増やすとAIの結果が迅速に大幅に向上しますが、ある時点でトークン数をいくら増やしても、AIはそれほど賢くなりません。これらはすべて計算され、32,000トークンという結果に達しました。これがAIで有効にしたものです。
また、119の言語と方言をサポートしており、オープンソースAIとしてはかなり優れています。フランス語が英語に次いで2番目に習熟している言語であることも分かります。
非常に簡単に事前訓練について話しましょう。彼らはQwen 2.5と比較して、18兆トークンとウェブやPDFからの多くのデータベースで大幅に改善したと述べています。実際、Qwen 2.5 VLを使用して、Qwen 3のトレーニングデータを作成しました。これもAI分野で見られる興味深い現象で、より良いモデルを得るためには、毎回前のバージョンを使用する必要があるということです。これは段階を飛ばせないことを示しています。一歩一歩進む必要があります。
下に進むと、AIトレーニングで最も重要なステップである後処理があります。彼らがどのように行ったか見てみましょう。まず基本モデルがあり、事前トレーニングから直接出てきたものです。最初のステップは「長い思考の連鎖(Chain of Thought、COT)のコールドスタート」です。思考の連鎖とは、質問に答える前に考える能力です。後処理の最初のステップは、AIに推論を訓練することです。これはDeepseeqが発明したもので、彼らが米国のすべてのモデルを一気に上回るモデルを作成できた理由です。この訓練技術を使用して、完全に驚異的です。
思考の連鎖のコールドスタートは、基本的に推論方法の少量の例を与え、それによって推論能力を開始させることです。次に第2段階、強化学習(RL)で、特に読解と推論に特化したものです。AIがこの段階で正しい答えを得ると、正の強化を受けます。報酬を与えられ、逆に成功しなければ何も与えられません。
第3段階は思考モードの融合です。先ほど述べたように、思考モードと非思考モードの2つのモードがあり、有効化・無効化できます。第3段階はこれら2つのモードを1つの大きなモデルに融合することです。そして第4段階は一般的な強化学習です。今回は推論だけでなく、一般的な質問に対する強化学習を行います。
最終的に得られるのが大モデル、Qwen 3 235B A22Bです。はい、変な名前ですが、これが彼らの「フロンティアモデル」、彼らの研究室が作れる最高のものです。次にライトウェイト化のステップがあります。これは、より強力または弱力な機器で実行できる小さなモデルの作成です。
基本的に、これらのモデルの結果を取り、それらを合成データとして使用して、よりライトな小さなモデルを訓練します。これは過去の研究で見たもので、チャンネルをフォローしていれば、これを行う方法に関する論文をすでに分析しています。これにより、非常に小さく、コストが低く、非常に高速で、独自の専門分野で非常に優れた小さなモデルが生産されます。
最大のモデルは「教師モデル」と呼ばれ、小さなモデルは「生徒モデル」と呼ばれます。これを適用した後、より小さくても同様に有能なこれらの小さなモデルが得られます。実際、非常に特定の領域で多くの能力を保持する非常に小さなモデルを見てきました。確かに能力は失われますが、はるかに高速に実行できるという利点があります。現在、一部の小さなモデルは携帯電話上でローカルに使用できるほど小さいです。
さて、技術的な話はここまでにして、冒頭で言ったように、Qwenはオープンソースなので、さまざまなプラットフォームにリダイレクトしています。GitHubに行くと公式ページに行き着き、そこでソフトウェアをローカルにインストールする方法が説明されています。もちろん、動画の説明欄にすべてのリンクを載せます。
彼らはHugging Faceにもリンクしており、そこがAIモデルを保存するサイトです。ここでQwen 3モデルを入手できます。クリックすると、サイズ別にすべてのモデルが表示されます。最大のものは、先ほど見た235Bパラメータを持つMoEで、昨日から10,000回ダウンロードされています。これはかなりの数で、このモデルへの人々の熱意を示しています。
動画が少し長くなってきましたので、このようなモデルをインストールする方法を正確に示すことが目的ではありません。それにはもう少し時間がかかります。もし興味があれば教えてください。いずれにせよ、私の生徒のために新しいモジュールを計画しており、これらのAIをローカルにインストールする方法を示す予定です。生徒の方はぜひお知らせください。
もし好みであれば、ここにあるウェブインターフェースがあり、無料で誰でもアクセスできます。Qwen Chatをクリックするだけです。これはChatGPTのようなものですが、無料です。そしてこのインターフェースに到着します。
では動画を締めくくるために、このモデルが何をできるか、いつも使用している例でテストしてみましょう。チャンネルをフォローしている方なら知っていると思いますが、新しいモデルが登場するたびに、特定の例をテストしています。ここでは有名なテトリスをテストします。他の動画と全く同じプロンプトを使用します。
プロンプトを準備しました。モデルを選択するには、左上の矢印をクリックします。すべてのQwenモデルがあります。最大のモデルはQwen 3 235B A22Bです。また、このモデルが性能を発揮するには思考モードを有効にする必要があります。ここをクリックするだけです。これで思考モードが有効になりました。
矢印をクリックすると、個人的に最も素晴らしいと思う機能が表示されます。思考の最大長さを選択できるのです。これは思考時間と、どれだけ深く考えるかを意味します。このテストでは、38,000トークンの思考に設定し、送信をクリックします。すぐに何が起こるか見てみましょう。
典型的なAIのように思考を始めました。予算と言いましたが、トークンのことを意味しています。現在は無料で、お金の意味ではありません。3〜4分かかり、正確には数えていませんが、GeminiやOpenAIより時間がかかったのは確かです。これは38,000トークンのコンテキストに設定したからでしょう。かなり大きな設定です。
最終回答が完成するのを待ちましょう。コードをコピーして実行します。これが結果です。見た目にも良いテトリスゲームです。他と比べて最初に気づくのは、右や左をクリックすると最初から非常に速いことです。これは異なるアプローチです。速い降下が機能するか見てみましょう。はい、それも機能します。ラインが完成したときに消えるかも確認したいです。すぐに確認します。はい、機能しています。すべてうまく動作しています。
もう一つの違いは、Geminiのようなスコアカウンターやボタンがないことです。最初の印象としては、かなり印象的です。これはローカルで実行できるオープンソースモデルであり、サイトでGPUをレンタルするか、単純に彼らの無料インターフェースを使用することもできます。
Qwen 3 235B A22Bはこのテストに合格しました。当然、ベンチマークの結果を見ればそれは納得です。このモデルについてどう思いますか?個人的にはかなり印象的だと思います。特に私たちが期待していたのはこのモデルではなく、R2でした。
ここでアリババはDeepseeqに対して、さらに速く進むよう小さな一撃を与えました。両社とも中国企業ですが、中国でも競争は存在し、アリババはDeepseeqのライバルであり、互いに妨害し合うのは当然です。
最新情報を得たい方はTwitter/Xに来てください。リンクは説明欄に載せますが、AIの分野で起こることをほぼリアルタイムでカバーしているのはここです。あらゆる方向から絶え間ない発表があり、スピードが非常に速いです。
TwitterにUb関心がなければ、ニュースレターも設定していますので、メールで最新ニュースを受け取りたい方はそちらもあります。チャンネル登録もぜひお願いします。チャンネルの成長をサポートし、私がこのような動画を続ける励みになります。
この動画が役立ったと思います。この発表についてできるだけ多くのことをカバーしようとしました。近日中に発表されるDeepseeqについても同様に行う予定で、OpenAI、Google、そして誰もが辛抱強く待っています。きっと業界に大きな影響を与えるでしょう。
最後に、この動画の説明欄やピン留めされたコメントに、すべての情報へのリンクがあることを覚えておいてください。


コメント