Qwen3 NEXT A3B:推論とMCPツールの可能性は?

LLM・言語モデル
この記事は約9分で読めます。

この動画では、新しいオープンソース推論モデルQwen3 Nextの性能を、複雑な因果推論テストで徹底評価している。80億パラメータのMixture of Expertsアーキテクチャながら、実際に訓練可能なのは30億パラメータのみという効率的設計が特徴である。エレベーターの複雑な制約問題を通じて、モデルの推論能力、自己検証機能、誤り訂正プロセスを詳細に検証し、中程度の複雑さの問題には有効だが、高度な因果推論では限界があることを明らかにした実験的評価レポートである。

Qwen3 NEXT A3B for Reasoning and MCP Tools?
I test the new Qwen3 MoE 80B A3B model on a complex causal reasoning test. Detailed explanations and live recoding of pe...

Qwen3 Next:究極の訓練・推論効率モデルの登場

こんにちはコミュニティの皆さん。戻ってきてくれてほんまに嬉しいわ。今回は全く新しいモデル、QN3 nextっちゅうのがあるんや。ここにあるのがQN3次世代モデルや。これはオープンソースで、究極の訓練と推論効率を目指したモデルに向かっとるんや。よかったら一緒に見てみようか。

ここに技術レポートのQ Nextがあって、これ約1万語もあるねん。美しいやろ。

実際の動作テスト開始

さあ、今からライブでやってみるで。ここでnext 80スピードで行くで。ここで同期させるわ。ここに完全な同期パワーが見えるやろ。ここに私のロジックテストを挿入して、82kトークンで行くで。素晴らしいやん。

ここを見てみ。これが同期プロセスや。200%で加速させとる。そうせんかったらただ退屈になってまうからな。

でも見てみ、指示を理解しようとしとるやろ。そしてこれが見えとる推論プロセスや。この推論はかなり長い時間続くんやけど、9分後に見せることができるで。

最初の結果とその問題点

今、最初の結果が私の定義済みテンプレート通りに出てきた。まさに私が見たかったもの全部や。どうやってやったかを教えてくれて、「解決策を見つけました」って言うとるわ。素晴らしいことに、ここに7つのプレス解決策があって、もしそれが正しかったら素晴らしいんやけどな。効率的で、安全で、最適で、これより短い解決策は存在せん。エネルギー制限内やった、トークン制限内やった、コードカード制限内やった、全てのルールが守られとる。これは素晴らしいことや。

でもな、一つ問題があるねん。もちろん、いつものテストでのことやけどな。数学が現実世界とは違うっちゅうことや。これを見てみ。うちのビルは50階までしかないエレベーターなんや。それなのに63階を計算しとって、これが50にキャップされとる。これは間違った解決策や。

モデルの改善点と性能比較

でもな、ここで何を達成しようとしたかを見てみよう。訓練コストが大幅に削減されたんや。そして、非常に古いベンチマーク精度を見ると、81%から約84.7%に上がったんが見えるやろ。より良いパフォーマンス、加速度でもずっと良くなって、訓練コストも少ない。

このちっちゃなMixture of Expertモデルと、アクティブ30億の訓練可能パラメータのATBが推論できるか、同期できるかを見てみよう。

ここに人工分析のインテリジェンス指標があって、これは10の異なる評価の合計で、ここでQ3 next ATBアクティブ3Bが少しDeepSeekより良くて、Claude Sonnetと比較できるレベルやけど、QN3 235Bほど良くはないっちゅうことが分かる。オープンソースモデルとしては本当にいい感じやな。

価格設定と修正プロセス

価格を見てみたかったら、ここに入力トークン価格と出力トークン価格がある。これがこの動画を録画した時点でのコストや。

私が正しく「ビルは50階しかない。0から50の間隔内に留まらなければならない」と言うと、Q13 next ADB A3Bが動き出して「オーケー、もう一度計算してみよう」と言う。これは素晴らしいことや。

また200%で加速されとるのが見えるやろ。Q1プラットフォーム自体で。別の解決策を見つけようとしとるけど、そう簡単やない。対称性と反対称性があるし、反時間もある。ミラー動作もここにある。3Bモデルにとっては複雑さが本当に複雑やねん。これは絶対に明確にしとかなあかんことや。

継続的な推論プロセス

でも見てみ、強力やろ。諦めてへん。パワーで押し切ろうとしとる。解決策を見つけたくて、これはかなり長時間続く。そして見ての通り、これはまだ推論プロセスや。この推論プロセスもかなり時間がかかるけど、4分間の推論の後、システムが戻ってきて「解決策を見つけました、これを見てください」と言うてきた。それで「素晴らしい」と思ったんや。

パレート最適で全て素晴らしい。9ボタンプレスやけど、解決策を見ただけで間違いがあることが分かったわ。

Open Routerでの利用可能性

もちろん、これはOpen Routerで見つけることができる。ここにあるで。これは非同期モデルやけど、「超長入力とマルチターン対話に優れており、RAG(検索拡張生成)ツール使用とエージェントワークフローに適している」と言うとる。美しいやん。

もちろんHugging Faceにもある。MBF16でな。2つのプロバイダーがある。すぐにテストできる。そして予算ライセンスもある。素晴らしいやん。

詳細機能と自己検証

詳細機能が欲しかったら、ゲート注意、ゲートデルタ、Mixture of Expertがあって、全てコンテキスト長付きや。素晴らしいやん。

もう少し詳しい情報が欲しかったら、Qwenブログで利用できる。Hugging Faceでもこのモデルの新機能について詳細がある。

私が「自分で検証してみて」と言うと、システムが検証しようと動き出す。すぐに「間違いがあった。これは正しい解決策やない」と発見するのが見えるやろう。

私に「最適化すべきか」と聞いてくることなく、自分で最適化を始めたんや。間違った解決策だと理解して、もっと良いパフォーマンスをしなければならないと思ったんや。それで今、深い深い推論プロセスに入っとる。うちの小さな30億モデルがな。10分間の激しい思考の後、戻ってきて「解決策を見つけました」と言うたわ。

継続的な問題解決への挑戦

これがそれや。私の指示に従って全て。出力プロセスでもまだ考えとって、「ちょっと待て、これとこれができる。いや、見つけた。10ボタンプレス未満の解決策は存在せん。解決策は証明可能に最適」と言う。これは正しくないけど、まあいいわ。

緊急出口を見つけた。これは素晴らしい。ABC ABCシーケンスを見つけた。制限内やし、これがそうかもしれんと思う。

もちろんコードはここで利用できる。Hugging Faceでのシンプルなコードスニペット。モデルの使い方や。シンプルなモデル名が見えるやろ。これや。全て利用できる。

MCPとツール使用で行きたかったら、この特定のことのために訓練されとる。コードはHugging Faceで利用できる。

検証プロセスでの発見

それで私が「これを検証して」と言うと、「正しい道筋にいるな。検証してみて」と言う。それで「重大な問題を見つけた」と言うねん。とても惜しかった。「間違いがある。私が見つけた解決策やない」と言う。それでまた解決策を見つけようとするわ。

本当に素晴らしい、勇敢な小さな30億モデルや。でも私のここでの因果魔法テストの複雑さには、脳が十分大きくないんが見えるやろ。複雑さを小さな小さなピースに分けて、それぞれの小さなピースを解決しようとして、それを一緒にまとめて連結しようとするけど、失敗するんや。

8分間の深い深い思考の後、解決策を持って戻ってきて、何かを見つけたことを見せたいと思う。でも見てみ。緊急出口付きの10ステップ。これは素晴らしいはずや。でも見て、別の赤十字を見つけた。エラーや。それでまた解決策を考え出そうとする。

「緊急出口。別のエラー。『ちょっと待って、修正したわ。もう一度やってみよう。緊急出口。そうや。9個。これは素晴らしい。』別のエラー。『修正をもう一度させて』」

何が起こってるか見えるやろ。うちの小さな3Bモデルがな。

最終的な結果と評価

それで今ここに解決策がある。最終制約。重大エラー。別のエラーで戦うとる。戦うとるけど、複雑さには脳が小さすぎるんが見えるわ。

だから近いねん。人間やったらと言いたくなるような解決策を見つけようとしとるけど、まあしゃあないな。

それで私が「これが唯一の有効な解決策や。10ボタンプレス」と言うた。でも問題があるねん。問題がある。見てみ、この状態は無効や。もしタイポがあるんやったら、そうでなかったら有効な解決策は存在せん。

だからこのテストの結果は、80億のMixture of Expertで、アクティブなのは30億の部分だけで、純粋な同期時間だけを見た場合や。約30分使った。何トークンかは分からんけど、純粋な思考だけで。でも結果はまあまあやった。

詳細な分析結果

最初の9分間の実行で解決策を見つけた。残念ながら、ここで現実世界の物理学を数学モデルから切り離した。ただ50のモデルやった。だからこれは現実世界の解決策やなかった。

それで私が「ビルは50階しかないから63階には行けない」と言うた。「分かった」と言うて。4分後、システムが戻ってきて「別の解決策を見つけました」と言うた。残念ながら、このテストを1年以上使ってるから、これが有効な解決策やないことが分かったわ。

それで「検証実行してみて」と言うた。良いか悪いかは言わんかった。ただ自分で検証してって言うた。10分間考えた後、戻ってきて「私の解決策は間違ってました。でも新しい解決策を見つけました」と言うた。これは30億モデルにとって本当に良い解決策やと思った。本当に近い解決策やった。絶対に美しかった。

でもそれから起こったんや。また8分間、これを検証しようとして、何かに入ってしもた。リアルタイムで見てたら明らかやった。正しい解決策を見つけようと一生懸命やってたけど、この構成での30億の訓練可能パラメータは、私の因果推論テストの複雑さレベルを解決するには十分大きな脳やなかった。

最終評価と結論

もしもっと簡単な問題やったら、本当に優秀なモデル、オープンソースモデルになれると思う。でも本当に難しい因果推論については失敗した。解決策は見つけたけど、間違った解決策やった。

最後の結果、最後のスクリーンを見ると、「何かを見つけましたが、これはあなたが指示で与えてくれたトークン指示が有効な場合のみ有効です。指示にタイポがある場合、緊急出口のコストがずっと少ない場合、この修正された条件の下では、有効なシーケンスを見つけたと思います。そうでなければ、Q13 next ADBアクティブ3Bは、有効な解決策は存在しないと言うています」と言うた。

でも私たちは両方とも知っとる。もちろん解決策は存在するし、GPT-4は問題なかったし、Gemini 2.0 ProもGrok-2も解決策を見つけた。でもこの小さな3Bには、本当にクソ近かったにも関わらず、解決策を見つけるチャンスはなかった。

まとめ

というわけで、これが私の個人的なテスト、本当に複雑な推論テストでの経験や。中程度の複雑さやったら、これは本当に興味深い推論モデル、オープンソースになれると思う。

試してみてくれ。このモデルでの経験をコメントで共有してくれ。次の動画で会おうな。

コメント

タイトルとURLをコピーしました