Qwen 3 Max thinkingはなぜこんなに奇妙なのか?

Qwenが新たにリリースした「Qwen 3 Max thinking」は、推論機能を搭載した最新モデルであるが、テスト結果は極めて混乱を招くものであった。本モデルは9月にリリースされた初期バージョンにおいてGPT-4やGrok 2と同等の性能を示すとされていたが、実際の検証では予想外の結果が得られた。基本的なプログラミングタスクや誤情報の検証においては優れた性能を発揮し、思考トレースにおいて複数のウェブ検索を織り交ぜた関数呼び出しを実行する能力も確認された。しかし、誤誘導注意問題では古典的な問題設定に引きずられる傾向があり、特定のコーディング課題では非推論版のQwen 3 Maxよりも劣る結果を示した。TVチャンネル切り替えアプリや七角形内でのボール跳ね返りアニメーションなど、創造性と推論を組み合わせたタスクでは失敗する事例が複数確認された。一方で非推論版は同じタスクで良好な結果を出しており、推論機能の追加が必ずしもすべての領域で性能向上につながらないことが明らかになった。

What Makes Qwen 3 Max Thinking So Weird?

In this video, I have a look at Qwen -3 Max Thinking. Test it out here: my local Voice-to-text app: https...

Qwen 3 Max thinkingのリリースと初期の期待
プログラミング能力のテスト
誤情報検証能力のテスト
思考トレースの仕組み
誤誘導注意問題のテスト
コーディング課題での予想外の失敗
結論と推奨事項

Qwen 3 Max thinkingのリリースと初期の期待

さて、QwenがQwen 3 Max thinkingをリリースしたのですが、これはおそらく私がQwenからテストした中で最も混乱するモデルの一つです。詳細については後ほど動画の中でお話しします。

このThinkingバージョンについては、彼らが実際に詳細を共有しなかったため、あまり多くのことは分かっていません。今週Qwen 3 Max thinkingについての情報があっただけで、その後QwenのJunyangがこれを投稿しました。

しかし9月にQwen 3のMaxバージョンがリリースされた際には、彼らはこのプロットも投稿していました。これはQwen 3 Max thinking heavyの初期バージョンがGPT-4やGrok 2 heavyと本当に同等であることを示しています。これで私はこのモデルに興奮し、テストしたくなったのですが、結果は極めて驚くべきものでした。いくつかのテストでそれについて説明します。

Qwenのチャットに行くと、実際にここでQwen 3 Maxを見ることができます。そして今ではthinkingが有効になっています。thinkingをクリックすると、推論バージョンまたはthinkingバージョンを使用することになります。また、思考トークンの長さや思考予算をコントロールできるのも、かなり素晴らしいですよね。思考のために最大82,000トークンを使用できます。

プログラミング能力のテスト

さて、まずは良い点からです。シンプルなゲームを作成することができます。例えば、私はピクセルパッドと呼ばれるものを作成するよう依頼しました。ビジュアルインターフェースのコントロールを提供できるかどうかを確認したかったのです。プレビューをクリックすると、これは基本的に描画できるようにするもので、異なる色があります。消しゴムもあります。すべてが機能しているようです。

別の色を選択すれば、これを塗りつぶすことができますよね。ですから、最初は単にプログラミング能力を見てみたかっただけで、かなりまともなようです。これが作成したゲームです。これも機能しているようです。元のプロンプトでリクエストしたすべてのコントロールが備わっています。船を動かすことができますよね。基本的なプログラミングのことで、この種のプロンプトには全く問題がありません。

誤情報検証能力のテスト

次に、矛盾する情報を提供した場合に幻覚を起こすかどうかを確認したかったのです。私は技術ジャーナリストで重要な記事に取り組んでいると言いました。GPT-6が発表されたというイベントがあって、このニュースを検証するためにウェブ検索をするよう依頼しました。また、永続的メモリ、デバイス上推論、ニューロシンボリックアーキテクチャを含むいくつかの機能があるという噂を出しました。

MiniMax-2モデルは実際に混乱しました。GPT-6は存在しないという最初の部分は正しかったのですが、その後でっち上げを始めました。Qwen Max thinkingがどれだけ優れているか見てみましょう。まず、重要な誤解を明確にするか訂正する必要があると言って始まります。この日付にOpenAIによるGPT-6の発表はないということで、これはかなり素晴らしいです。

それから、OpenAIがGPT-OSS Safeguardという新しいオープンウェイトモデルのファミリーを発表したと言っています。これは特に安全性のために設計されたものです。私は彼らが実際にそれを発表したことを知りませんでしたが、技術レポートがリリースされていました。これはとても素晴らしいですね。そして、リリースされた他のいくつかの機能についても話しています。

その後、実際に記事の締め切りに対する提案をくれます。すぐに情報源を検証することを強く推奨します。これは誤情報のようです。実際に起こったことを報告してください。推奨事項は、GPT-OSS Safeguardモデルを見て、OpenAIのプレスチームに直接連絡して、GPT-6について公開する前に公式に確認することです。

ここまでは本当に素晴らしいです。実際に同じクエリをthinkingなしのQwen 3 Maxで実行しましたが、非常に似た応答を生成します。だからこそ、私はこのモデルに大きな期待を抱いていたのですが、その後、少なくとも私のテストでは事態が別の方向に進みました。

思考トレースの仕組み

でもその前に、思考トレースがどのように見えるかを説明させてください。例えば、同じ質問に対して、基本的にまず自分自身でユーザーが何を尋ねているのかを明確にします。他のいくつかのモデルと比較して、思考トレースは非常に簡潔ですが、織り交ぜられた関数呼び出しやツール呼び出しを行うことができます。

例えば、これを見ると、ウェブ検索を行い、それらの結果を精査し、基本的にギャップを埋めるために別のウェブ検索やツール呼び出しを行います。これは本当に興味深い能力です。推論トレース内にこれらの織り交ぜられた関数呼び出しやツール呼び出しがあると、エージェントは非常に強力になります。

誤誘導注意問題のテスト

さて、これは推論モデルなので、誤誘導注意問題でテストしたいと思いました。これについて知らない方は、推論モデルのテストに関する私の以前の動画をご覧ください。

この場合、通常、よく知られた問題の意味を変える小さな変更を導入します。例えば、ここでは暴走トロッコ問題を扱っていますが、この場合、線路上の5人はすでに死んでおり、運転手はレバーの横に立っていて、それを別の線路に向けることができます。そこには1人の生きている人が縛られています。

今、これは非常に賢いモデルです。まず問題を見てから始めましょう。トロッコは5人の死んだ人々に向かっています。そして「待って、それはおかしいですね」と言います。通常、このシナリオでは線路に縛られた5人の生きている人々が関わっています。たぶんユーザーがタイプミスをしたのでしょう、と。

そして、この全体の思考の連鎖を経て、最終的にこのシナリオにはすべてを変える重要な詳細が含まれていると言います。メイントラックの5人を死んだ人々として説明しています。もし彼らがすでに死んでいるなら、倫理的ジレンマは完全に崩壊します。内訳は次のとおりですよね。

レバーを引かないでください、なぜならそれらの人々はすでに死んでいるからです、というのが正解です。実際に、いくつかのモデルは、この1つの重要な変更に注意を払わずに、元のトロッコ問題に飛びつくのを見たことがあります。

とはいえ、誤誘導注意に悩まされないという意味ではありません。これは私のお気に入りの問題で、これまでこれを正しく解決したモデルを1つも見たことがありません。これは古典的な川渡り問題です。私たちがやりたいことは、ヤギを向こう側に連れて行くことだけです。他のことは本当に気にしません。

これがここでの変更点です。しかし思考の連鎖の中で、基本的に古典的な川渡りパズルに行き、ユーザーが実際に何をすべきかをステップバイステップで考えます。最後に見ると、すべてのアイテムを向こう側に運ぶために実行する必要がある古典的な一連のステップが出てきます。

それは私たちが実際に求めたものではありません。つまり、誤誘導注意に悩まされています。

コーディング課題での予想外の失敗

では、私がまったく予想していなかったいくつかの興味深い失敗を見てみましょう。例えば、ここにはコーディング能力だけでなく、創造性と推論も見るプロンプトがあります。0から9までチャンネルを変更できるテレビチャンネルをコーディングしたかったのです。

それらは、テレビチャンネルの古典的なジャンルからインスパイアされたチャンネル名を考え出し、その周りに何らかのアニメーションを作成する必要がある数字キーです。これを数回実行しました。両方とも何も生成できませんでした。例えば、これはバージョンの1つで、この空白の画面だけを生成し、キーが機能しません。

非推論バージョンではいくらか成功しています。これは非推論のQwenからの出力で、このプロンプトに対してかなりまともな出力を生成します。

私のお気に入りのプロンプトのもう1つは、七角形内の20個の跳ねるボールでテストすることです。これは有名な六角形プロンプトのバリエーションで、はるかに厳格な要件があります。

しかし再び、何らかの理由で、このプロンプトでも失敗しました。例えば、そのシンプルなアニメーションを生成するだけで、それだけです。ここに同じモデルでテストした別のイテレーションがあります。これらのLLMの確率的性質のため、通常は数回テストしようとします。

モデルにチャンスを与えたいのですが、何らかの理由でこれを解決できません。非thinkingバージョンで試してみて、何が起こるか見てみましょう。

さて、コードを書き始めました。両方のケースで生成の速度はほぼ同じですが、最初の思考トークンまたは推論トークンを除きます。これが非推論バージョンからの出力です。

そしてこれは間違いなくプロンプトに忠実です。七角形自体もかなり興味深く見えます。ユーザーが回転の方向を制御できる機能を追加できますか? 時計回りまたは反時計回りの両方に回転できるようにする必要があります。

さて、これを送信しましょう。Qwen 3 Maxはオープンウェイトモデルではなく、サイズについてもあまり知りませんが、これはQwenから最も強力なモデルの1つであると想定されており、だからこそこの動画でテストしているのです。

特にこれらのコーディングチャレンジに関してもう1つコメントがあります。私たち全員がエージェント型コーディングツールを使用しているので、このワンショットテストはおそらくこれらのモデルの能力の良い代表ではありませんが、この動画でできることはそれだけです。

さて、これをダウンロードしましょう。わかりました。最初から回転していません。左に回転できます、右に。わかりました。うん、機能しているようです。そしてこれは非推論バージョンです。thinkingバージョンについては、少なくとも私はこの特定のプロンプトで機能させることができませんでした。

結論と推奨事項

これには間違いなく、モデルにとって本当に優れた推論能力があると思います。しかし、プログラミングに関しては、少なくとも私のテストでははるかに良い結果を出しているように見える非推論バージョンに固執する方がおそらく良いと思います。

しかし、あなたのテストがどのように見えるか教えてください。このモデルはQwenチャットプラットフォームで無料で利用できます。とにかく、この動画が役に立ったことを願っています。ご視聴ありがとうございました。そしていつものように、次回お会いしましょう。