この動画では、新たにリリースされたQwen 3とKimi K2という二つのオープンウェイトモデルを比較検証している。Qwen 3は推論専用と非推論の2つの専用モデルに分かれており、非推論モデルでありながら複数のベンチマークで最先端の性能を示している。実際のタスクを通じて両モデルの能力を評価し、コーディング、物理シミュレーション、迷路解決などの複雑なタスクでの比較結果を紹介している。

最新オープンウェイトモデルの性能比較
ここに2つの最先端オープンウェイトモデルと、いくつかのプロプライエタリモデルの同一プロンプトに対する結果があるんや。どのモデルがどの出力を生成しているか、当ててみてほしいねん。
比較しているモデルはKimi K2とQwen 3で、最新のアップデートが適用されたものや。そのうち片方が、すべての主要ベンチマークでもう片方を上回っているんや。
ハイブリッド推論モデルから専用モデルへ
でもベンチマークが全体像を見せてくれるとは限らんねん。4月にQwenがQwenturyをリリースしたんやけど、これは初のハイブリッド推論モデルで、同じモデルを思考モードと非思考モードの両方で使えるという代物やった。最先端の研究所はほぼ全部これをやってるんや。
でも、ハイブリッド思考モデルがいつでも必要というわけやないんや。時には専用の推論モデルと非推論モデルを分けて持つのがええこともある。
そこで今日、彼らはQwen 3 2.5Bをリリースした。活性パラメータは220億で、元のQwen 3モデルをベースにしているんやけど、今度は推論能力ありの専用モデルと非推論モデルに分かれてるんや。この非推論モデルの性能が、彼らが共有した複数の異なるベンチマークで現在最先端なんや。
既存モデルとの性能比較
例えば、これが新バージョンと前バージョンの比較や。思考を無効にして見ると、他のすべてを上回ってるんや。
興味深いのは、先週リリースされた主要オープンウェイトモデルのKimi K2と直接比較することにしたことや。さらに興味深いのは、Opus 4の思考を無効にしても、この新しいモデルがOpus 4をも上回ることができるということで、これはかなり印象的やねん。
個人的に最も印象的やったのは、RKGIスコアで、これまでの非推論モデルの中で最高や。Claude 4の思考を無効にしても30%しか取れへんのに対して、こいつは41.8%を取ってる。これはかなり印象的や。これは特にRKGI1を見たものやと思う。
コーディング能力の評価
もう一つの興味深い能力はコーディングや。この特定の列がKimi K2を表してるんやけど、これは最高のオープンウェイトコーディングモデルとされてるんや。この新しいQwen 3は、2つのコーディングベンチマークでKimi K2を上回ってる。AD polyglotではかなり接戦やけどな。
そこで、この新しいQwen 3とKimi K2を直接比較してみることにしたんや。今からその結果を見せるで。
実際のタスクでの比較テスト
このモデルは非推論モデルやけど、特定の推論タスクでは実際に推論モデルのように動作するのが見て取れるんや。
モデルはQwen Chatで利用できる。彼らは命名規則を整備する必要があるけどな。
まず、25体の伝説的ポケモンを含むウェブサイトを作成し、タイプ、説明、画像を含めるという非常にシンプルなタスクから始めるで。
これは実際に失敗したタスクやねん。ここに作成されたウェブサイトがあるんやけど、画像を適切に取得できへんみたいや。参考として、Kimi K2が作成したウェブサイトがここにあって、これはかなり良く見える。ウェブサイトの最後には免責事項も付けてて、これはええタッチやった。
実はQwenも同じことをしてたんや。
より複雑なタスクへの挑戦
さて、もっと複雑なものに移るで。これはバイラルになった六角形の中の跳ねるボールのバリエーションや。この場合、回転する七角形の中で20個のボールが跳ね回るものを作らなあかん。かなり複雑なプロンプトや。
ここがその出力や。実際に見事にやり遂げてて、これはかなり印象的や。大きなモデルでも、これら20個すべてのボールを追跡できへんものもあるからな。
これまで見た中で最高の性能はおそらくClaude 4と、Claude 3.7 Sonnetからやと思う。
参考として、Kimi K2の出力がここにある。これもかなり印象的で、特にボールが中央から来る時に、これらのボールのより現実的な散乱が見えるのが気に入ってる。
場合によっては、ボールのいくつかが端から落ちてしまうこともあるんやけど、それを再現できへんみたいや。あ、実際に今起こったわ。視覚的には、こっちの方がずっと良く見えるけどな。
物理シミュレーションタスク
次のプロンプトはもっと複雑で、実際に物理学の深い理解と、生成しなあかん複数の異なるレイヤーが必要や。
この場合、モデルはランダムに生成する惑星の幾何学を理解し、バイオーム、テクスチャを見て、惑星表面自体に雲や異なるものを追加せなあかん。
これがQwen 3の出力や。この特定のケースでは、惑星表面の残りは動いてるけど、その上の主要コンポーネントは全然動いてへん。
これらは動いてへん陸塊のようやけど、惑星の内核は動いてて、これは我々が求めてるものやない。その上に山も配置してるみたいで、これはかなりええ効果やけど、ズームインしたり、回転させたりもできて、非常にレスポンシブや。
もう一つテストしてたのは、太陽の角度からの影の生成や。これに関してはあまりええ仕事をしてへんと思う。
参考として、Kimi K2の出力がここにある。これもかなりええ見た目や。ここでは、我々が期待する適切な回転がある。惑星自体の周りには大気層もあるみたいや。今の問題は、実際に回転させることができへんことや。
でも全体的に、形成されてる影は実際に見ることができる。
Claude 4 Opusとの比較
QwenturyはClaude 4 Opus非思考と直接比較されたから、Claude 4 Opusに思考なしで同じプロンプトを実行することにした。ここが得られた出力や。詳細が少し欠けてると言えるやろう。
でも同じプロンプトをClaude 4 Opus思考有効で使った時の出力がこれや。ずっとレスポンシブで、これまで見てきた他の出力すべてと比べて、プロンプトにずっと忠実に従ってる。
これらのプロンプトは、Xで見つけたものをベースにしてる。Future Crewというユーチューブチャンネルのものやと思う。動画説明にリンクを貼っとくで。
迷路解決による推論能力テスト
もう一つテストをやってみよう。これは迷路を解くことによる、これらのモデルの推論能力や。これもFeature Crewのプロンプトをベースにしてる。実際に異なるサイズの迷路を生成できて、単にコピープロンプトをクリックすれば、この迷路といくつかのテキスト指示もコピーされるんや。
ここで、Kimi K2とこの新しいQwen 3モデルの両方から、非常に興味深い動作を見始めたんや。
ここにプロンプトがあって、これがQwen 3の出力や。基本的に各ターンを通って、取る予定のパスを更新してるんや。推論モデルのように、こんなものが見えるで。
「待って、3つの内部の壁しか見えへん。セグメントを数えよう」と言ってる。ここでは「でもこの線は行1の下のセル間の接続を示してる」と言って、それから「実際にこの線は行1から行2に下に移動できるかどうかを決定する」と考える。これが永遠に続くんや。実際に自己対話をしてるのが見て取れる。
例えば「でもこれは迷路が解けへんということを意味する。でもそんなはずはない。おそらく座標はA1が左上で…」といった具合に続く。
ここに別のコメントがある。「多くの努力の後、オンラインまたは洞察によって可能なパスを見つけた。でもできへんから止めて、おそらく答えはこれやろう」それからもっと考えて「おそらくこれが答えや」と言う。推論モデルやないのに、実際に思考の連鎖や内的独白の痕跡が見て取れるんや。
残念ながら、提案した解決策は機能せへん。プロットしてみると、この時点まではうまくいってたと思うけど、実際に解決に到達するには数回曲がる必要があったんや。
一方、Kimi K2も非常に似たことをする。場合によっては、実際にバックトラックするのを見たことがあって、これは非常に興味深い動作で、異なるパスを試すんや。例えば「最終有効パス」と言う。
これが最終有効パスということになってるけど、それからこれを思い付いて、ここが提案する最終パスや。でもそのパスをプロットしようとすると、めちゃくちゃになってる。
他のモデルとの比較結果
こんな迷路を解くには、おそらく迷路自体と相互作用できる何らかのツールが必要やろう。でも本当に驚いたのは、Claude 4 Opusでさえ、創造的反復でこれを解くことができへんかったことや。
でももう一度試してみよう。拡張思考を無効にして、これをClaude 4 Opusに渡してみる。実際、間違って思考を無効にする代わりに有効にしてしもた。実際に今考えてるんや。
これを思い付いたわけや。これをレンダリングしてみよう。実際にかなり近い。ここで間違った方向に曲がったと思うけど、それ以外はかなり正確や。
同じプロンプトをO3にテストのために渡してみた。O3は実際にツールを使うことにした。Pythonコードを書いて、幅優先探索をしてるんや。
O3は約3分20秒かかった。ここで、コードインタープリターまたはコード実行機能を使って、この解決策を思い付いたのが実際に見て取れる。
真実の瞬間や。実際に動作する、これはかなりすごいやろ。エージェントがアクセスできるツールの重要性を実際に示してて、頭の中だけでやろうとするのと比べて、ずっと簡単になるんや。
まとめと評価
Qwen 3モデル自体に戻ると、かなりまともなモデルのようや。個人的には、この限られたテストに基づいて最先端と呼べるかどうかはわからん。
でも試してみて、体験がどうやったか教えてほしい。また、個人的に、なぜ彼らがこのハイブリッドモデルを単純に再訓練できへんかったのかが本当に気になる。これは十分大きなモデルやし、より高品質なデータとより良いRLで再訓練すれば、おそらくこのハイブリッド能力を保持しながら、もっと性能を引き出せたやろうと思うんや。
でも彼らが2つの専用モデルというこのルートを取ったのは非常に興味深くて、これが今後も彼らの戦略になりそうやねん。
どう思うか、そしてこのQwen 3非推論モデルでの体験がどうやったか教えてくれ。とにかく、この動画が役に立ったと思ってもらえたら嬉しい。
見てくれてありがとう、そしていつものように、次回また会おう。


コメント