NEW SONNET 4 – 私の2回目のテスト：エレベーター

3,267 文字

I perform a 2nd logic benchmark on the NEW SONNET 4, from Anthropic, my extreme logic test II, called the elevator test....

こんにちは、コミュニティの皆さん。はい、私たちは再びClaude Sonnet 4と一緒にいます。こちらは日常使用のためのスマートで効率的なモデルです。そして2回目のテストがあります。ここではエレベーターテストを行います。
これは論理パズルです。解いてみましょう。あなたは超高層ビルのエレベーターシステムに閉じ込められており、特定のルールがあります。5つのボタンがあり、それぞれのボタンを特定の順序で押さなければなりません。さらに、2つのトラップフロアがあります。
では説明的に進めて、通常モードで行きましょう。通常のスタイルで行きましょう。これが何を意味するかは分かりませんが、私たちの新しい…あ、あなたの制限は午前2時にリセットされます。気にしないでください。
では始めましょう。分析、トラップフロア。はい。解決パス。ステップ1修正済み。ステップ1。ステップ2。ステップ3。ボタンRをもっと注意深く再計算させてください。
体系的パス探索戦略。はい、パス探索戦略は優秀なAIシステムすべてに必要なものです。ここに10回の移動があります。より良い解決策が見つかりました。
それは素晴らしいです。移動3が修正されました。5回の移動で最適解を見つけます。これは不可能です。4回の移動での真の最適解も不可能です。完全に最初からやり直しましょう。これは良いアイデアです。はい。
検証済み最適解。はい。これを試してみましょう。いいえ。より良い移動があります。試行しています。試行しています。
最終回答。6回の移動。はい、これです。6回がここでの正しい答えです。体系的分析。これをもっと注意深く解決しましょう。各ボタンの正確な動作を追跡します。これは美しいです。今ここで検証しています。代替移動がここにあります。フロア。はい。
完全に異なるアプローチを試してみましょう。30から逆算して作業します。これは良いアイデアです。これは30に到達するための優秀なアイデアです。逆算して、ここに検証があります。素晴らしいアイデアです。
異なる移動を試しています。移動4。移動5。複雑になってきています。真の最短パスを見つけましょう。6回の移動。検証済み最適。5回の移動。いえ、5回の移動は機能しません。はい。
これを書き直します。書き直し演習があります。申し訳ありませんが、テキストが修正されました。それは決して起こりませんでした。いえ、これが新しい真実です。ところで、私たちが何をしているのかさっぱり分かりませんが。
こんにちは。誰かいますか？誰かそこにいますか？あ、アーティファクトを下書きしています。戦略的組み合わせを考慮してこれを検証しましょう。アーティファクトを下書きしています。
下書きされるアーティファクトを待ちましょう。今何が起こっているのか全く分かりません。下にスクロールできますか？はい。あ、すべてを書き直しています。あ、はい。待って。見てください、今テキストを挿入しています。今何が起こっているのですか？テキストをその場で構築しています。これは全く魅力的です。アーティファクトを下書きしています。分かりません。
上下にスクロールできません。何もできません。画面がロックされています。より大きなジャンプを探ってみましょう。これは良いアイデアです。これは優秀なアイデアです。見てください、今書き直しています。沈んでいます。最適解を見つけました。はい、それは素晴らしいです。しかし、それは何ですか？教えてくれませんか？いえ、教えてくれません。
今6回移動の解決策を探求しています。はい、既に1、2分経っていると思います。アーティファクトを下書きしています。上下にスクロールできますか？いえ、ここではスクロールが有効になっていません。
招待リンクを共有して1ヶ月間のチャンスを獲得しましょう。はい、確かに。何かを獲得します。
Claudeがメッセージの最大長に達したため、この応答は一時停止されました。では、最新の解決策は何でしたか？最適6ボタン解決策。これを追跡して再計算しましょう。
しかし、より良い解決策が見つかりました。6回の移動でより良い解決策を見つけました。修正済み。最終最適解は5回の移動です。真の最適解は4回の移動です。検証済み最適解。
体系的分析を試してみましょう。各ボタンの正確な動作を注意深く追跡してこれを解決しましょう。これは素晴らしいでしょう。いえ。これは最適ではありません。
5回の移動が見つかりました。不可能です。申し訳ありません。これは間違っています。逆算作業。はい、27から来ることができます。はい、逆算しています。はい、最適解。4回の移動は間違っています。
さあ、私の小さなClaude Sonnet 4よ。4回を期待していました。これは複雑になってきています。はい、分かっています。だからこそ私がやっているのです。
真の最短パスを見つけましょう。6回の移動。はい、最適。5回の移動。突破口。3回の移動。解決策が見つかりました。これは素晴らしいですが間違っています。
体系的に再計算しましょう。はい、異なる最初の移動を試してみましょう。修正されたアプローチ。3から30への単一移動はありません。
最も効率的な解決策が4回の移動で見つかりました。徹底的な分析の後、4回の移動を見つけました。最終検証済み解決策、5回の移動。
はい、あなたと一緒です。しかし今、彼に与える最終回答は8回の移動です。
つまり、はい。最もシンプルな検証済み解決策、6回の移動。すべて6回の移動。すべてボタンDを押します。それは実際には6回ではなく10回の移動です。
システムは完全なでたらめなナンセンスを書いていることを理解しており、最終回答の8回の移動は間違っています。なぜなら最終回答は6回の移動だからですが、ここでは見せてくれません。より良い解決策のための戦略的分析。
これが好きです。重要な洞察、最適化された4回移動解決策。今突破口のパスがあります。これは素晴らしい最適解、7回の移動です。
はい、間違っていますが、良く聞こえます。いえ、これが最適解です。それからステップバイステップの検証があります。この7回移動解決策が最適です。間違っていますが、良く聞こえます。つまり、Claude Sonnet 4は素晴らしく聞こえますが、事実的に正しくありません。
なぜこの7回移動解決策が最適なのですか？トラップを避けるからです。ペナルティを最小化するからです。重要な洞察、フロア14がスイートスポットです。はい。
ここにあります。今最終解決策は最適解決策です。7回の移動、そしてこれは間違っています。Claude Sonnet 4による謎かけ2番。残念ながら、これは正しい解決策ではないとお伝えしなければなりません。
Claude Sonnet 4の限界を明確に示したと思います。このようなビデオをもっと見ることに興味があるなら、購読してみませんか？ところで、他のモデルでまったく同じエレベーターテストを見たい場合は、LLaMA 4 Maverick 400Bのテストと呼ばれるこのビデオで、LLaMA 4モデルのエレベーターテストをご覧いただけます。
OpenAIの03 Mini Highでまったく同じテストを見たい場合は、これです。ただし、このビデオには2つのテストがあります。21分55秒に行くと、ビデオの中央、ここの始まりでエレベーターテストの開始が見えます。まったく同じテキストです。ここでOpenAI 03 Mini Highのパフォーマンスが見えます。
より大きな兄弟、OpenAI 03を見たい場合は、これがまったく同じライブテストです。
そういうことです。このビデオで、AnthropicのClaude Sonnet 4という新しいモデルを追加し、同一のエレベーターテストを実行しました。論理的推論と因果推論におけるSonnet 4のライブパフォーマンスをご覧いただきました。