AnthropicがリリースしたClaude Opus 4.6について、思考型(Thinking)と非思考型(Non-Thinking)の2つのバージョンを独自の論理推論テストで比較検証した動画である。テスト内容は制約条件付きエレベーター問題で、ボタン押下回数の最小化と複数の制約を満たす最適解を求めるものだ。非思考型は10回のボタン押下で初回解答を提示したが検証段階で失敗、思考型は詳細な推論プロセスを示すものの戦略的アプローチが欠如しループに陥り2度クラッシュした。最終的に両バージョンとも有効な解を検証できず、初見での性能評価としては期待外れの結果となった。この検証は63種類のモデルテストプレイリストの一環として実施されている。

はじめに
こんにちは、コミュニティの皆さん。新しいClaude Opus 4.6が登場しましたね。ご覧ください。エキスパートレベルの推論の最前線を拡張するとのことです。推論について語るのですか? そうです。これが私のテストです。私の特定の論理推論テストでテストされた63種類のモデルの完全なプレイリストがあります。
テスト開始と初期設定
それでは並行テストを開始します。左側はClaude Opus 4.6非思考型です。そして右側はClaude Opus 4.6思考型です。ご覧のように、4.6はもう利用可能になっています。私のエレベーターテストのためのボタン押下がここにあります。これは内部を深く掘り下げていくだけです。おお、決定論的経路の修正計画ですね。
オーケー、1を押します。2を押します。3を押します。そして思考型の側では、深い思考プロセスが展開されているのが見えますね。ここで戦略を準備して、行動計画を立てようとしています。
非思考型4.6の推論プロセス
左側はクリーンな再スタートです。ここでOpus 4.6を再起動します。オーケー、これは要件を破っています。戻る必要があります。ご覧のように、4.6ではトライアンドエラー、トライアンドエラーが繰り返されています。これは問題ありません。これは非推論モデルです。これはまさに私たちが期待していることです。
オーケー。7を押します。ご存知のように、8は優秀です。9は非常に良いです。10回のボタン押下でもまだ良好です。では見てみましょう。修正された戦略があります。オーケー。そうです。非常口です。これが正しい方向です。素晴らしい。
7を押します。はい。おお、良いですね。オーケー。8を押します。9を押します。50を超えたらどうなるでしょうか? 9を押します。オーケー。29階で非常口です。素晴らしい。
非思考型の初回解答
非常口を使った有効なシーケンスが得られました。これは本当に興味深いですね。これは実際の解決策になり得るかもしれません。そしてここに要約が表示されています。10回のボタン押下です。制限と制約の範囲内に収まっています。素晴らしい。10回のボタン押下がOpus 4.6による最初の解決策です。
より少ないボタン押下で実行できるでしょうか? 答えはいいえ、実際にはできません。リソースの最適性とボタン押下数は、ここでは最適なもののようです。素晴らしい。4.6はここで終了しました。非思考型はおそらく最初の解決策を見つけたようです。
思考型4.6の推論プロセス
しかし、反対側を見てみましょう。こちらで何が起こっているでしょうか? アプローチ全体を再考しています。おそらくここで優先順位をつけるべきでしょう。ここでも戦略的思考が展開されています。
そうですね。前後に揺れています。私の戦略はこれを実行することで、開始階を見つける必要があります。つまり、多くの思考が進行中です。かなり遅いと言えるでしょう、そしてご覧のように。オーケー。このシーケンスには不可能です。これはあまり良い響きではありません。
オーケー。さあ。ここでの思考プロセスは本当に正しい軌道に乗っていません。中間のどこかで迷っています。50階のうちの23階です。n=13をチェックしています。アプローチを再考しています。15に近いところで終わりたいのです。ご覧のように、これは本当の戦略ではありません。これは単なるトライアンドエラーです。ここでは確実にOpus 4.6思考型に戦略的アプローチが欠けています。
思考型の戦略的課題
推論トレースを見る限り、14階から他のボタンオプションをチェックしています。オーケー。これに到達する必要があります。はい。そしてこれです。オーケー。しかし、ご覧のように、これは本当の戦略ではありません。そうです。これはただ線形シーケンスで試されている異なる行動シーケンスに過ぎません。
ああ、完全なパッチを通して作業しています。オーケー。青いコード要件のための4レンズ9からです。オーケー、無効化されたので、今この思考プロセスは本当に興味深い思考ではないと言えるでしょう。なぜなら、ご覧のようにループに陥っており、本当に前進戦略を開発していないからです。
そうです、これは単に一段階戦略です。別の一段階戦略です。0から2に移動してから3に移動します。それから3からEを押します。ご覧のように、これは本当にそうではありませんが、時間を与えましょう。4.6思考型にはここでチャンスがあります。すべてのシステムにチャンスがあります。
17でBを押します。はい、これは1つのエネルギーパッケージを消費します。再び無効化されました。ミラーモード。これはわずか25%のチャンスしかない危険な罠です。行き詰まっています。オーケー、代わりに29から逆算しましょう。これは良いアイデアです。後付けしましょう。ここにあります。
思考型のループと問題点
しかし、ご覧のように、これが私が言うところの戦略的アプローチではありません。これは息をのむようなものではありません。そうです、利用可能な状態で14に到達するために、バックトラックしたり、ここでシーケンスを再構築したりできるかどうかを考える必要があります。
オーケー、本当にここでは息をのむようなものではありません。思考プロセスに過ぎないので、ここで最初の結果が出るまで加速すると思います。しかし、もちろん私はOpus 4.6思考型の最初の結果に興味があります。Opus 4.6非思考型もすでに結果を出しているのをご覧になりました。
それでは4.6思考型も結果が出るまで待ちましょう。しかし、どうやらループに陥っているようです。今、いくつか正しいアイデアを持っていますが、そうですね、行き詰まっていて、AIが行き詰まっていると言うときは、これは良いアイデアではありません。それでは早送りしましょう。
システムクラッシュと再試行
オーケー、この応答で何かがうまくいきませんでした。ご覧のように、システムがクラッシュしました。Float 4.6思考型がクラッシュしました。
そして私は言いました、オーケー、もう一度チャンスをあげます。そして400%に加速しました。ご覧ください、Claude Opus 4.6思考型が再び動いています。それでは2回目のチャンスを与えます。すべての人が2回目のチャンスを得ます。AIがここで局所最小値に陥ることはあり得ます。
しかし、これを見ると、本当にすでに見たことがあるもののように見えます。これは問題です。AIは、黄色のコードカードが不足しているため、と言っています。オーケー。使用不可です。後ろに移動します。修正された戦略は、コードカードを順番に収集することです。それから非常口を使って勝ちます。オーケー、これは可能な方法の1つです。
まず11階に到達する方法を考える必要があります。おお、新たに開始します。オーケー。今は13階からです。つまり、到達したい異なる目標階があります。
ここで完全なフロアホッピングを複数のシーケンスにシーケンス化しています。これは進むべき道ではありません。これは分離可能な数学的問題ではありません。新たに開始します。再び新たに開始します。ロックダウンが有効で、代替の開始が今27階からです。いいえ、これはそうではありません、進むべき道は。そこに到達します。いいえ、何かがうまくいきませんでした。思考型が2回目のクラッシュをしました。
検証フェーズ
さて、両方のシステムで検証実行を行いましょう。検証は、結果をステップバイステップで検証してください、と言いましょう。見せてください。それでは左側を見ています。Opus 4.6です。素晴らしい。良いスタートです。はい。素晴らしい。良さそうです。
4を押します。まさに私が求めたものです。これはOpus 4.6非思考型による完璧な答えです。前提条件です。はい、良さそうです。おお、無効化されました。これは問題です。オーケー、おお遭遇しました、おお修正された計画です。
検証実行により、これがOpus 4.6による有効な解決策ではなかったことが示され、今ステップ6から先に進む修正された解決策を見つけようとしています。これを行うために、Bを使って29階に着陸したいです。私の代替案は何でしょうか。以下の条件を想定します。
問題は新しい戦略です。オーケー。それで4.6は新しい戦略を得る必要があると言っています。他のアプローチはどうでしょうか? またしても新しい戦略です。オーケー。異なる戦略です。別の戦略です。もちろん、これは非思考型モデルです。これは私が予想していた本当のトライアンドエラーです。
複数の戦略試行
しかし別の代替案です。オーケー。それではこのシーケンスを試してみましょう。まだ同じ問題です。初期バッファリングがあります。オーケー。もしあなたが今1年間これを知っているなら、ご覧のように、まさにここで推論トレースを読み取り、システムが正しい軌道に乗っているかどうかを理解できます。
ここでは、うーん、いいえ、本当に解決策を見つけることができるようには見えません、と言っています。これを見てください、11回の押下です。つまり、すでに11回のボタン押下があります。これが検証できれば良い解決策かもしれませんが、そうですね、Googleは8ステップでそれを達成しました。
うーん、オーケー、Claude Opus 4.6は一見したところ、本当に息をのむようなものではなく、最初の間違いを犯し、検証に失敗し、思考型モデルはループに陥ったためクラッシュしました。しかし、これはもちろん最初の印象に過ぎず、今後数日間でより詳しく見る必要があります。しかし、私はこれについて感触を得たかっただけです。新しいアプローチを見てください。
オーケー、それでOpus 4.6は他の何かを試しています。新しい推論トレースを試しています。新しいシーケンスを試しています。ここで異なる組み合わせを試していますが、ご覧のように、まだ無効です。そうですね、反対側では4.6思考型は、私にはわかりません、何か別のことをしています。
最終結果
ヘイ、最初の有効な解決策があります。はい。5回の押下です。6回の押下です。良さそうです。9回の押下を行いました。いいえ、問題があります。別の失敗です。Opus 4.6非思考型は検証実行で別の失敗を発見しました。別の失敗です。このオプションは機能していません。これは機能していません。再起動する必要があります。何かがうまくいきませんでした。
両方のシステムがクラッシュしました。つまり4.6思考型と非思考型です。どちらも単一の実行を検証できませんでした。これがClaude 4.6の初見です。


コメント