衝撃のClaude Sonnet 4.5失敗(推論)

Anthropic・Claude・ダリオアモデイ
この記事は約12分で読めます。

この動画は、Anthropic社の最新モデルであるClaude Sonnet 4.5の推論能力を検証する実証実験である。テストに用いられたのは、0階から50階までのビルにおいて、特定の数学的機能を持つエレベーターボタンを押し、最短の操作手順で目的階に到達するという複雑な論理パズルである。このテストは純粋な因果推論と論理的思考を必要とし、非対称なボタン操作、鏡像オプション、エネルギー制約、コードカード取得などの多層的な制約条件が組み込まれている。投稿者は47本の動画で様々なAIシステムをこの同一テストで評価してきたが、Claude Sonnet 4.5は戦略的分析を欠いたまま試行錯誤を繰り返し、最適解である8手順に対して18手順以上の非効率な解を提示し続けた。システムは階数制限を無視して50階を超える移動を提案したり、エネルギー不足に陥ったり、検証段階で自身の解が無効であることを認識しながらも根本的な戦略の見直しを行わなかった。最終的にClaude Sonnet 4.5は29階までしか到達できず、他のほぼすべてのLLMが解決できたこの問題を完全に解決することができなかった。この結果は、Claude Sonnet 4.5が非推論型モデルであり、複雑な制約充足問題における因果推論能力に重大な欠陥があることを示している。

Shocking SONNET 4.5 Failure (Reasoning)
Anthropic just released the new SONNET 4.5: "Claude Sonnet 4.5 is the best coding model in the world. It's the strongest...

Claude Sonnet 4.5の推論能力テスト

こんにちは、コミュニティの皆さん。戻ってきてくれて本当に嬉しいです。Claude Sonnet 4.5、できたてほやほやのモデルです。私はQ3や他のすべてのテストで使ったのと同じテストを使用します。それでは始めましょう。あなたは私とライブで一緒にいます。Claude Sonnet 4.5の最初のテストです。この特定のテストについて、私はここに47本の動画を持っています。すべてのシステムをテストしてきました。それでは、Claude Sonnet 4.5が何ができるか見てみましょう。

ご覧のとおり、これは非思考型、非推論型のモデルです。なぜなら、いきなりパフォーマンスに飛び込んで、いくつかのボタン操作をここで進めているだけだからです。

さて、タスクはこうです。0階から50階までのビルがあります。エレベーターがあり、押すことができる特定のエレベーターボタンがあり、それらには数学的な機能があります。そしてあなたのタスクは、AIとして、0階から50階まで行くための最短のボタン押下手順を見つけることです。

いくつかの非対称なボタン押下が可能です。特定の手順があります。いくつかの鏡像オプションも可能です。これは本当に因果推論についてのものです。これは純粋な論理です。そしてご覧のとおり、このシステムはいきなり飛び込んで、18回の押下が最適だと言っています。これは恐ろしいことです。なぜなら、最良の解は8回の押下だからです。

それで、どうしましょう?もう一度始めます。いいえ、もう一度チャンスを与えましょう。最初からやり直します。続けても意味がありません。これほどひどいのであれば、やり直します。

素晴らしい、まったく同じテストです。ただやり直すだけです。最適なエレベーター実行解。おそらく、すでに最初の実行がここにキャッシュされているかもしれません。気にしません。おお、また20手順近くの別の手順です。これを見てください。ああ、だめです。

推論がありません。分析がありません。このタスクにおける重要な要素は何でしょうか?ただ飛び込むだけです。ご覧のとおり、ここにいくつかのボタン押下があるだけです。9を押す。10を押す。11を押す。ボタンE。ボタンD。

ああ、私は考慮していませんでした。最終的に修正された解決策です。それで今、手順の最後に到達していないことが分かり始めました。それで今、ここでいくつかのボタン押下を修正しているだけです。しかし戦略がありません。

少なくとも、推論のトレースで私にここで戦略を提供してくれません。最終的に最適化された解決策は、今度は17回の押下です。ご覧のとおり、ここで手順を試しているだけです。このアプローチには問題があります。やり直させてください。

わかりました。これはただの試行錯誤です。そしてClaude 4.5にとって、これは違います。

ああ、出力シーケンスに制限があります。わかりました。それでは、続けてくださいと言うだけです。29階から続けてください。素晴らしい。続けてくださいで、まったく問題ありません。

しかしご覧ください、ああ、解決策を見つけました。待って、これを検証する必要があります。それで完全に最適な解決策で、今システムの状態を教えてくれます。ご覧ですか?3番を押す。4番を押す。これが何かをトリガーします。

はい。5番を押す。わかりました。今ここで見つけようとしています。はい、いくつかのコードカードがあります。いくつかのコードカードとエネルギーパッケージがあります。そしてエネルギー最適化タスクがあります。

もちろん、これでは100段上や下に行くことはできません。限られたエネルギーしかありません。

これは本当に因果推論についてのものです。そして今ここで見ているように、これはこれに関する私の48番目の動画ですが、議論もなければ、推論もなく、思考もなく、私のテストの重要な制約の分析もまったくありません。これはただ、試してみて、何かを入れて、ここで最後に到達できるか見てみましょう、50階に到達しました、ああ、パレート最適、冗談でしょう。

この12回押下の解決策は、多目的制約問題に対して最適です。そして私は言います、わかりました、あなたの解決策を検証してください、しかし段階的に進んで、すべての解決した制約を見せてください。

入ります。わかりました、1回目の押下はA。有効な動きです。素晴らしい。2回目の押下はボタンB。有効な動きです。素晴らしい。3回目の押下。有効な動き、ここに示されています。

はい、特定の日付の夜勤があります。ここには何か違うものがあります。それから、ここに無効化があります。あなたが取ることを許されていないボタン押下の手順があります。これは本当に因果推論についてのものです。

8回目の押下。わかりました。状態が変化します。わかりました。有効な動きです。青いコードカードがあります。これは素晴らしい。11回目の押下。有効な動きです。わかりました。

ここまでは良さそうです。問題が検出されました。12回の押下の現在の状態ですが、私はまだ31階にいるだけです。それで、50階にあると判断しましたが、実際には31階にしかいませんでした。これは成功した検証ではありません。

それでは、続けてくださいと言いましょう。それで今、より良い解決策を見つけようとしています。14回目の押下。15回目の押下。私たちは有効な解決策とは何かというものからはるかに外れていますが、気にしません。

73階に連れて行きますが、階数は50で上限です。ええ、建物の説明には、建物には50階があると書いてあります。以上です。それで、50階に到達します。わかりました、「やあ、解決策を見つけました」と言っています。素晴らしい。

ボタン固有のルール。はい、コンプライアンスが私に与えられています。これは興味深いです。ボタンD、ボタンEをご覧ください。ええ。わかりました。コード取得の検証。わかりました。

緑のコード、黄色のコードカード、状態フラグ。ええ。それからエネルギーパッケージの追跡。わかりました。それで、十分なエネルギートークン追跡があります。はい、トークンの複雑さを組み込んでいます。ここにテーブルがあります。

ああ、ご覧ください、50階で保持されました。いいえ、これは有効な解決策ではありません。

パレート最適だと言っています。なんてことだ。15回の押下。15回より少なくできますか?わかりました、また到達しました。続けます。問題ありません。Claude Sonnet 4.5。これが最初の実行です。

わかりました。もっと少ない回数で終えることができますか?いいえ。収穫逓減です。はい、簡単ではないことは分かっています。もっとコードカードを集めます。どうやって青いコードを手に入れることができますか?ご覧のとおり、そこにはたくさんの問題があります。これは非線形の手順です。

戻らなければなりません。閾値に遭遇したら、最初からやり直さなければなりません。はい、簡単なテストではありません。ご覧のとおり、戦略がありません。ただ何らかの手順を試しているだけで、思考プロセスの分析がありません。

わかりました。新しい要約テーブルがあります。12ステップ後にゴールに到達しました。12の方が良いです。わかりました。

それでは見てみましょう。主要な目標はすべて達成されました。わかりました。コンプライアンスがあります。違法な動きはありません。リソース効率があります。すべてのトラップを回避しました。12回押下の解決策は最適です。

そして私は言います、50階で上限に達していないことを検証してください。重大なエラーが検出されました。あなたは完全に正しいです。再検討させてください。15回目の押下と12回目の押下。

問題があります。50階を超えてしまいました。重大な曖昧さです。解決策を再評価し、再検証します。無効です。今新しい解決策を見つけます。それで最初からやり直します。そして赤い軸でご覧のとおり、機能していません。新しい有効な解決策はありません。それについて考えないでください。何かで進みましょう。修正された試み。問題です。もう一度試させてください。別の道を見つけさせてください。それを飛び越えようとさせてください。今試させてください。

以前と同じ問題です。

ええ、沈んでいません。ご覧のとおり、ただ何かをしているだけです。どのように決定したのか見当もつきません。1つのランダムなトラップを使用しています。あなたと私の間では、これは良い考えではありませんが、まあいいでしょう。

ご覧ください、赤です。課題はありません。道を見つける必要があります。今、戦略分析を始めます。今、わかりました、この最終的な有効な解決策をトレースさせてください。14回目の押下。チェック。

チェック。トークン、コード、押下をチェックします。これが正しい有効な解決策です。そして私は言います、あなたの解決策を検証してください。それだけです。

完全な段階的検証。大文字です。わかりました、これをもう一度やりましょう。1回目の押下。わかりました、これが状態です。2回目の押下。これが新しい状態です。3回目の押下。新しい状態です。4回目の押下。

すべて順調に見えます。新しい状態。5回目の押下。そうです。さあ。新しい状態。6回目の押下。わかりました。

良さそうです。今、依存関係を理解しようとしています。素晴らしい。8回目の押下。もしかしたらチャンスがあるかもしれません。14は中程度の結果、平凡な結果ですが、少なくともそれを解決できるでしょう。11回目の押下。12回目の押下。

ええ、これは良さそうです。13回目の押下。あと1回だけです。わかりました。続けます。さあ。続けます。13回目の押下。はい。始めましょう。続きました。14回目の押下。重大なエラーが検出されました。42階は25より上です。ええ。

わかりました。無効な解決策です。それで検証は無効です。間違った解決策でした。それでは今、新しい解決策の試みをしましょう。戦略。ワオ。

ああ、突然10分後に戦略が出てきました。コードカードを手に入れて、そこに行きます。ご覧ください、機能していません。機能していません。機能していません。問題を再検討します。今、戻って問題を再検討します。新しい戦略。1回の大ジャンプ。これは良い考えではありませんが、まあいいでしょう。

代替案、25階を使用します。最終分析。解決不可能な問題。完全に失敗します。

理論3の解決策を階数上限の仮定でテストします。無効な動きに戻っています。51階の最終解決策を見てください、上限の仮定で。何も見つかりませんでした。それで戻ります。

重要な仮定は、50階を超えて移動できる場合のみ有効です。これは正しくありません。いいえ、私は言います、階数の上限はありません。続けてください。

解決策を見つけることができます。Claude Sonnet 4.5を使ってください。あなたは最新のAIモデルです。さあ。言語経路の分析。失敗。失敗。失敗。失敗。失敗。失敗。失敗。失敗。失敗。黄色のコードの問題。今、ここで戦略問題があることを分析しています。いいえ。

今トリガーを分析しています。有効な解決策。

わかりました。計画。今失敗。リソース要件の計算。緊急脱出を伴う解決策の試み。わかりました、これは興味深いです。またご覧のとおり、私たちのボタン押下がトリガー失敗を起こします。修正された解決策。

わかりました、ご覧のとおり、ただのアイデアで、25階を避けますが、戦略がありません。推論がありません。ただホップホップホップとどこかに行って解決策を見つけるだけです。

これは因果推論の解釈のためのモデルではありません。中間階に着陸します。エラー。これに到達する必要があります。21階への修正された経路。今、すべての階を試しています。エラー。エネルギーが不足しました。研究の最適化。ああ、勘弁してください。Claude Sonnet 4.5。これは推論のためのモデルではありません。

ご覧のとおり、エラー、エラー、別のエラー。25階が問題です。それで、キャンセルします。え?それについて考えません。ご覧ください。エラー、エラー、エラー。ターゲットが今29を超えました。わかりました。それで過去のエラー。もっとエネルギーパッケージを得る必要があります。

ご覧のとおり、トラブルに陥っています。気づいていますが、戦略を構築しません。解決策を構築しません。逆算します。ええ。また行き詰まりました。

やあ、これは知的な動きのエラーです。ボタンCを使用した解決策。ご覧のとおり、ただ試しているだけです。複雑さの理解がありません。これは推論のためにまったく機能していない非推論型モデルです。

Cを避けます。Cなしで試させてください。わかりました。14階からAを使用します。試していますが、戦略がありません。何もありません。

これはただの試行と純粋なエラーです。すみません、15階から14階に到達できません。私の、痛いです。このシステムがどれだけ愚かかを見るのは本当に痛いです。これは完全に時間の無駄です。Claude Sonnet 4.5の推論。あり得ません。

ただチャンスを与えたかったのです。今10分か15分だと思いますが、本当にチャンスを与えたかったのです。

しかしこれをご覧ください。最初の試みが完全にモードから外れたときに、ここで止めさえしました。しかしこれはどこにも行きません。これをご覧ください。リソースを最適化した最後の試み。わかりました、これが今本当に最後の試みです。

押下します。わかりました、戻ります。11回目の押下。14回目。混乱してきました。体系的な解決策。今、体系的に無効化されたエラーで始めます。

再計算させてください。14階にどうやって到達しますか?何もありません。エラー。エネルギーが不足しました。ボーナスを早く挿入する必要があります。これはただ1つの解決策です、ご存知でしょう。

ああ、神よ。わかりました。3番目のBボーナスを追加します。今、同じことをもっとやっているだけです。解決空間における多様性がもうありません。同じ解決策に戻っているだけです。

エラーを見つけようとします。エラー、エラー、エラー。そして今、同じエラーを5回適用します。抜け出せることを期待していますが、チャンスはありません。これは本当の論理的問題です。解決策を見つけるためには、理論的な観点からこれを分析しなければなりません。

ただ試行錯誤して抜け出して解決策を見つけることはできません。したがって、Claude Sonnet 4.5は失敗するでしょう。

このアプローチでは、私はこの複雑な手順から抜け出せないように構築しました。パズルは極端に制約されています。はい、パズルは解決不可能かもしれないことは分かっています。勘弁してください。ほぼすべての他のLLMがこれを解決できました。

Claude Sonnet 4.5は、これを完全に解決できなかった最初のものになるでしょう。私の最善の試みは、不十分なリソースで29階に到達しました。

隠されたコードがあるかどうか探求してほしいですか?隠されたコードはありません。推論をするだけでいいのです。完全に失敗しました。

コメント

タイトルとURLをコピーしました