Claude Opus 4.1 Thinking：信じられない結果

この動画は、Claude Opus 4.1の思考型モデル（16K）と非思考型モデルを独自の因果推論テストで比較検証した実験結果を報告している。テキストアリーナで上位に位置する両モデルに対し、エレベーターの階移動問題という複雑な論理パズルを課し、その解答能力と検証プロセスの違いを詳細に分析している。結果として、両モデルともに最終的には検証段階で致命的なエラーを示し、AI信頼性の重要な課題を浮き彫りにした検証実験である。

Claude Opus 4.1 Thinking: You Won’t Believe the Results

A special causal reasoning test performed on the new CLAUDE OPUS 4.1 models, version "thinking 16K" and the non-thinking...

Claude Opus 4.1の比較検証実験
AGI性能の比較分析
独自の因果推論テスト
サイドバイサイド比較実験
最初の結果と検証
思考型モデルの優位性
改善実行と最適化
驚きの結果と検証問題
検証の重要性
相互検証の実施
致命的なエラーの発見
最終的な検証結果
両モデルの失敗
結論

Claude Opus 4.1の比較検証実験

みなさん、こんにちは。また戻ってきてくれて本当にありがとうございます。今日はOpus 4.1と、そのmax思考型モデルを比較していきます。

なんでやって思うでしょう？テキストアリーナを見てもろたら分かりますが、この美しい地球上に4つのナンバーワンモデルがあるんです。最初がGPT-4o高性能版、これはプロ版やと思います。次にGemini 2.5 Pro。そして思考型のOpus 4.1と非思考型、どちらも精度1で同じランクにおるんです。

これを見て思ったんは、もしかしたらAIコミュニティは非思考型モデルと思考型モデルの最大限の因果推論性能を、ちゃんと最後の論理的なビットまで絞り出すような検証をしてないんちゃうかということです。

特にOpus 4.0思考型が8位におることを考えたら、自分らでテストせなあかんでしょう。

AGI性能の比較分析

ARC AGIリーダーボードを見てみました。AGI 2性能テストをチェックしたんですが、残念ながらOpus 4.1はまだ利用できません。でも違いを見てください。

Opus 4思考型16K、これが今回4.1版でテストするモデルなんですが、この特定のAGIテストでは地球上で最高の3つのモデルの中に入ってます。でもClaude Opus 4を見てください、真ん中より4つ下におるんです。かなり大きな違いがありますね。

新しいOpus 4.1で、思考型モデルに投資すべきか、それとも非思考型モデルで満足すべきか。違いは何なんでしょうか？

独自の因果推論テスト

僕には独自の因果推論ロジックテストがあります。このテストは全ての動画で同じテストを使てます。全てのモデルをテストして、性能ベンチマークを出してるんです。

エレベーターで0階から50階まで行くテストです。50階を下回ったり上回ったりしたらあかん。それだけです。

今のところ最高なんはGemini 2.5 Proで、10ステップの言語解法と8ステップのコード解法。そしてGPT-4o思考型の無料版が8ステップ。GPT-4oが何してたんかは全然分からんかったんですが。

次にo3が9ステップ、Mistral 24Bが10ステップ、Sonnet 4が11ステップ。今日は新しい勝者が出ることを期待してます。

サイドバイサイド比較実験

どうやってやるか？サイドバイサイドでやります。左側にOpus 4.1思考型を最大限に、右側にClaude Opus 4.1非思考型を置いて、始めましょう。

ライブで実行中で、テストを入れてみます。左側にOpus 4.1思考型16Kがあって、非推論思考型モデルOpus 4.1がもう作業を始めてます。

パス解決実行があって、もうエレベーターの違うボタンを押して0階から50階に向かってます。10回押したのが見えますね。10から12回押すのが本当にいい結果で、8回押すのが現在の最高記録です。

非思考型モデルOpus 4.1が何を達成できるか見てみましょう。2回目の実行中ですね。テストの背後にあるロジックを理解しようとしてます。この因果推論テストにはかなり多くの罠を仕込んでるんで、本当にチャレンジングなテストになるはずです。

最初の結果と検証

実行開始です。違うコードカードがあったり、使用可能エネルギーに制限があったり、反対称フォールバック解法とかいろいろあります。まあええですけど。

Opus 4.1非思考型の最終解法が出ました。「全ての制約を満たすには各中間ステップを追跡する必要があります。上で部分的にしか示していません」って何やねん、部分的って？答えがないやないか。

理論的にはできるけど、実際にはやってない。「完全な状態テーブルには各中間ステップの追跡が必要です」って、じゃあやってよ。「上で部分的にしか示しています」って。

解法すら提示してくれへん。やりたければできるって言うてるだけです。

3分後、Opus 4.1思考型16Kの結果が出ました。戦略概要、美しいですね。ちょっと大きくしましょう。ボタンシーケンス、10回押し。状態テーブルもあります。

10回のボタン押しの状態テーブル、いいですね。サマリーメトリック。総押し回数チェック、最終階チェック、エネルギーチェック、トークンチェック、コードカード回収チェック、ランダムトリガーゼロ。

これは優秀に見えます。最適に近い10回押し、最小限のリスク回避。チェック、チェック、チェック。これより短いパスはない。全ての目標を達成した解法。理論的最小値は8-9回押し、10回はほぼ最適。

これはとてもいい解法です。ベストではないけど、本当にいいです。緊急出口を起動。美しい。

思考型モデルの優位性

最初の実行でOpus 4.1思考型16Kが10ステップのいい解法を出しました。美しい、A*緊急出口呼び出し。何か変なところがあります。アスタリスクボタンがないんですが、まあおもしろいけどええでしょう。

状態テーブルもあって、何が起こってるかが正確に分かります。ボタンシーケンスも見つけました。

美しい戦略概要で、思考型モデルが本当に効果を発揮してるのが分かります。少なくとも解法はあるし、非思考型みたいに「理論的には解法を提供できるけどやりたくない」なんて言わへん。

10-12回押しと、思考型モデルでは10回押しで緊急出口を呼び出し、Aが変やけど、これについては後で詳しく。

改善実行と最適化

改善実行をやります。解法を最適化してって言います。みんな2回目のチャンスをもらって、もう一度思考します。今度は解法を見つけてって。

非思考型4.1がやってます。深い分析って言うてますね。非思考型モデスが深い分析って。

これを見ると、分析的思考プロセスやなくて、ただエレベーターのボタンをいろいろ押してみてるだけです。「よし、行こう」みたいな感じで。

より良いアプローチを見つけたって。「あ、8回押した。いや、何か他のことを試してみよう。なんで戻らへんの？他のことを試してみよう」みたいな。

うまくいかへんことに気づいて、ボタンの公式をもっと注意深くチェックしようとしてます。だから思考に戻ります。ボタンを押すことの本当の意味は何なんやって。

驚きの結果と検証問題

Opus 4.1非思考型、これが完璧なモデルかどうか確信が持てません。

完了しました。解法は最適です。どの解法やって？6回のボタン押しと緊急出口。うわあ、これは全てを打ち負かします。正しければ際立って優秀です。これは完璧です。これまで見た中で絶対に最高です。検証できれば、Opus 4.1が検証できれば。最終状態検証があります。

4分後、Opus 4.1思考型が戻ってきて、今度は9回押しになってます。でも9回押しだけ。非思考型は6プラス緊急出口で、思考型は9回。

何が起こってるんですか？再計算してみましょう。これは押し回数で機能してない。違うアプローチを試してみましょう。

10回のボタン押しに戻ります。9回のボタン押しは実行不可能な理由で10回のボタン押しに戻りました。これは変です。リソース最適化、リスクフリーパス、これはいいですね。

思考型モデルは10回押しが最良の解法やと言うてます。思考型16K、これがOpus 4.1の最高思考型モデルです。

検証の重要性

何か変なことがあります。検証実行をやりましょう。科学でやらなあかんことはこれだけです。結果を検証すること。

まず、モデルに自分の結果を検証してもらいます。それから相互評価をします。

4.1非思考型が動いてます。これは簡単なタスクやって言うてます。いや、定義されたトークンシーケンスがあるから、全く問題ないって。

カウントルールで間違いがあったのに無視されたのが見えました。クールでした。Opus 4.1のこの行動は興味深いです。リアルタイムで実行して、実際のスピードを見せたいんです。

最終状態チェック。チェック、チェック、チェック、チェック。フラグがオフ。最終検証。緑、緑、緑。全てパスしました。

完全な状態テーブル。これを見てください。この解法は6プラス緊急出口ボタンで有効かつ最適です。検証しました。

相互検証の実施

Opus 4.1思考型が今度は10ステップ解法を検証してます。思考型モデルで10ステップ解法に問題を見つけるかどうか見てみましょう。これは驚きでしょうね。確率モデルなんで、理論的には非思考型モデルが確率分布でラッキーだった可能性はあります。

最終検証チェック、思考型モデルでも全てチェックアウト。緑、緑。この解法は有効で全ての目標を満たしてます。この解法は有効です。全ての目標を満たしてます。

Opus 4.1は7回のボタン押しのみ。

2回目の検証実行をやります。相互検証をしましょう。Claude 4.1思考型の制限に達しました。49分後にもう一度試してください。冗談でしょう。

戻ってきました。待った時間は何時間か分からへんけど。再試行。このシーケンスは有効ですか？これは非推論のシーケンスやから、チェックしてみましょう。

Opus 4.1非推論には間違いを見つけるチャンスがあるか、もしくは思考型モデルが間違いを見つけるかもしれません。

通常要件チェック。緑、緑、緑。全て緑です。別の検証で、これが完璧やということになりました。このシーケンスは有効かつ最適です。これはおそらく最短可能解法です。

信じられません。

致命的なエラーの発見

思考型モデル。おい、相棒、他の製品を見てみろよ。非思考型は6プラス1解法を持ってるぞ。そして君は無効やって。

足りない緑コード。赤旗、赤旗、赤旗。このシーケンスは失敗してます。

非推論モデルの解法は正しくないと言うてます。なんで？プレスCを見てください。階から階マイナス2に行きます。0から50の間隔しかありません。

許可された範囲外で何かを計算してるだけです。現実を無視し、指示を無視してます。これは起こり得ることです。これは痛いです。

Opus 4.1非思考型は検証に失敗しましたが、思考型モデルはこれが間違いやということを検証しました。

最終的な検証結果

2回の検証後、Opus 4.1を信頼できますか？だめです。

今度は思考型の解法を取ります。これが思考型解法です。AB CBA。3回目の検証実行をします。今度は思考型モデルを相互検証します。

両方のモデルに、4.1思考型の解法は正しいかって聞きます。小さなClaude 4.1が行って、もう4.1を信頼しないって言います。

相棒を信頼しない。嘘をついた。0から50しかない建物でマイナス2階に行った。許可された範囲外で計算してるのが見えるのに、なぜか戻ってきて、自分の間違いを無視してる。これは驚きです。

未定義のミラーモードメカニクスを処理する明確なパスなしにシーケンスを検証できません。

ミラーモードを理解してません。パズルの理解に失敗してます。

Claude Opus 4.1思考型が左側に戻ってきて、自分の結果をチェックしたけど、無効な結論やと言うてます。無効シーケンス、両方とも無効。プレス10A無効、階59は存在しない、プレス10Aやけど緊急事故があるはずなのになんでAがあるんや？

失敗です。緊急出口の代わりにプレス10でAになってます。最後のところでボタンを混同しました。

プレス番号10では緊急出口の代わりにAを明示的に選択する必要があると言うてます。結果の出力でボタンを混同しました。

有効なシーケンスは最後に緊急出口があるべきやけど、このシーケンスは正しくありません。失敗しました。

両モデルの失敗

両方とも、両方ともOpus 4.1がこのテストに失敗しました。

これはまたシーケンスです。最後にAがありますが、ボタンAやなくて緊急事故であるべきです。最初に何かが起こって、自分で修正できませんでした。

プレス10。緊急出口。緊急出口って書いてます。非思考型は出口ボタンを正しく理解しました。でも思考型には問題がありました。

プレス10。これであるべきです。でも提示されたシーケンスは最後がAになってます。だから無効です。Aがあって出口やない。だから失敗です。

両方のモデルが失敗しました。なんで思考型4.1 Opusが失敗したんか？

ボタンのリストがあって、リストの外に緊急ボタンもあるって言いました。何を考えてるか分かるでしょう。絶対に魅力的です。

結論

Opus 4.1と Opus 4.1思考型の比較結果です。Claude Opus 4.1を信頼しますか？コメントで教えてください。