「おっと…何かがうまくいきませんでした」(SONNET 4.5 THINK 32K)

Anthropic・Claude・ダリオアモデイ
この記事は約6分で読めます。

本動画では、Anthropic社の最新モデルClaude Sonnet 4.5(32K推論版)の性能検証を行い、驚くべき問題点を明らかにしている。AGI 2リーダーボードでは高スコアを記録しているものの、実際の複雑な論理推論タスクにおいて、モデルが誤った解答を正しいと主張し、自己検証さえも通過してしまうという致命的な欠陥が発見された。さらに注目すべき点は、不確実性評価を追加で要求すると、モデルが自身の誤りを認識し、以前「検証済み」とした解答が完全に間違っていたことを認める点である。この事例は、最先端AIモデルであっても、複雑なタスクにおける信頼性には重大な課題が残されていることを示唆している。

"Ooops ... something went wrong" (SONNET 4.5 THINK 32K)
In-depth causal reasoning test of the new CLAUDE SONNET 4.5 THINKING 32K from Anthropic. For all test videos of my speci...

Claude Sonnet 4.5の驚異的な性能と隠れた問題

こんにちは、コミュニティの皆さん。戻ってきてくれて本当に嬉しいです。そうです、新しいSonnet 4.5の32K推論版が登場しましたが、警告を発しなければなりません。なぜかって? 皆さんご存知の通り、Claude Sonnet 4.5はAGI 2リーダーボードで32K推論版が登場しています。なんてことでしょう、絶対に驚くべき性能です。こちらのパフォーマンステストをご覧ください。そして、よく見てみると、わあ、信じられない結果がここにあります。

GB5 Nano、GBD5ハイ、そしてここにClaude Sonnet 4.5の32K推論版があり、この特定の、非常に特定的なテストで既に14%に到達しているんですよ。私はこれは素晴らしいと思ったのですが、100%との差はどうなんでしょうか? これは残りの部分では失敗するということを意味するのでしょうか? さて、私は信じられないと言いました。オリジナルを見てみましょう。

そしてここでAnthropicは私たちに教えてくれています。そう、Sonnet 4.5はここで、ドメイン固有の知識と推論が今や非常に向上しているんです。そして私はこちらのSTAMを見てみます。そして気づくんです、ああそうだ、Opus 4.1の16K推論版は62%だと。そして今、私たちは69%を持っていることを想像してみてください。しかしこれは何を意味するのでしょうか? もし実世界のテストがあった場合、この70対30は何を意味するのでしょうか? あなたは30%の確率で失敗し、不正確な結果を得るということです。

実際のタスクでの検証結果

私はこれはあり得ないと言いましたが、幸運なことに私には自分自身のタスクがあります。そしてここでご覧いただけるように、使用するステップが少ないほど、それらはより優れているんです。そして今、1年間ここでタスクを実行してきました。ここで現在の最良のモデルはGemini 2.5 ProとGPT-5推論版で8ステップの解決策ですが、ここにはSonnet 4も11ステップの解決策があります。つまり、ステップ数が少ないほど優れているということで、8ステップがここでは絶対的に最高なんです。

そして今、皆さんはこう言うかもしれません。オーケー、ここにすべてのモデルからのすべての動画があるけれど、残念ながらSonnet 4.5の非推論版はそれほど良くなかったと。でも、Sonnet推論版を最大推論バリアントで試したことはありますか? 試してみましょう。

推論トレースでの驚くべき発見

それでは、ここにあります。Sonnet 4.5の32K推論版が右側にあります。左側については、GLM 4.6は無視してください。私たちはここでSonnet 4.5を見ています。そして最初に目にすることは、ええ、非常に加速されている700%だということです。つまりこれは皆さんが見ているリアルタイムではなく、ここで両方のモデルの推論トレースを見ているんです。これは出力ではなく、単なる推論プロセスであり、これら2つのモデルの間に大きな違いが見られます。なぜならSonnet 4.5は私たちに完全にナンセンスな内容を提供しているからです。

モデルは私たちに教えてくれます。私はこれをやっています。私はここで追跡しています。そしてそう、最初の結果はありますか? 14プレスがSonnet 4.5による最初の結果です。これは最良で最小です。すべてが完璧です。これはパレート最適であり、これは不正確です。しかし少なくとも14プレスで、私たちは解決策を見つけました。

それでは検証実行をしてみましょう。システムは自動的に自身の結果を検証すべきです。ステップバイステップで進みます。すべての制約が満たされていることを示してください。そしてSonnet 4.5は始まりました。私は皆さんに言っていましたが、ここでSonnet 4.5の推論トレースは使えないんです。ああ、もう完了しました。はい、すべて準備完了です。素晴らしい。見てください、すべてが検証されました。

Sonnet 4.5は私たちに教えてくれます。ええ、これは14ステップです。これは検証済みです。美しい。ゴージャス。完了です。つまり、私たちには確認された結果があるんです。

最適化試行と致命的なエラーの発見

そして今、最適化をしてみましょう。なぜなら8が最良で、Sonnet 4.5は14を持っているからです。それでは、Sonnet 4.5が少し、わかりませんが10ステップの解決策に到達できるか試してみましょう。なぜなら、これは最高のモデルの1つですからね。いいえ、違います。

それでは見てみましょう。そして私は言います。より短いボタン押下のシーケンスを見つけてみてください。そしてここで再び推論トレースが見られます。この推論トレースは、私はこれをやっていて、今さらに探索していますという感じです。ねえ、私の現在のアイデアはというものですが、これを左側と比較してみてください。そこでは本物の推論トレースが見られます。

Sonnet 4.5、オーケー、何かありますね。そして今、最適化結果を検証します。そしてこれは新しいことです。私は言います。すべてのステップについて、あなたの不確実性のリスク評価を見せてくださいと。そして今、それが起こるんです。

覚えていてください、私たちには有効な検証、確認された結果の検証があります。しかし、もし私がただ「すべてのステップについてあなたの不確実性のリスク評価を見せてください」と追加するだけで、推論トレースではないものが出てきます。でも待ってください、今何かが起こりそうです。それで今、2つの結果があります。そして何だと思いますか? 見ましたか? 気にしないでください。戻ります。

ただお伝えしますが、ここでエラーを検出したんです。私は検証できません。完全な失敗があります。なぜならSonnet 4.5が今、私たちに教えてくれるんです。私の解決策を検証できませんと。3つの試行すべてが無効です。検証された試行も無効なんです。

今、私に何をしてほしいのでしょうか? 今、私は新しい解決策を見つける必要があります。つまり、検証の検証が私たちに示しているのは、それが最初からずっと不正確だったということです。3回の実行すべてにおいて致命的な失敗がありました。検証された実行においても、ここで不正確な解決策を提供していたんです。

3分51秒の思考の後、モデルは気づきました。ああ、私はずっと間違っていたと。

複雑なタスクにおける注意喚起

ですから、もしあなたがより複雑な因果推論タスク、論理タスク、あるいは拡張されたコーディングタスクを持っている場合は、極めて慎重になってください。なぜなら、たとえ検証があったとしても、モデルはあなたに教えてくれます。はい、私は正しいですと。

しかしここで見られるように、さらに4分後、モデルはあなたに教えるんです。私は完全に間違っていました。すべてをめちゃくちゃにしてしまいました。今、私は何をすべきでしょうか? これが最先端のSonnet 4.5、32K推論版の状態です。見てください、無効化されています。致命的なエラーが検出されました。

ですから、おそらくあなたは追加すべきです。ねえ、すべてのステップについてあなたの不確実性のリスク評価をしてくださいと。なぜならそうすれば、ここで不確実性が中程度であることが見られるからです。なんて素晴らしいことでしょうか?

ですから注意してください。Sonnet 4.5です。

コメント

タイトルとURLをコピーしました