Claude Sonnet 4 – 初回ライブテスト | ASIに仕事を奪われたい

6,319 文字

NEW CLAUDE Sonnet 4 tested on my EXTREME LOGIC test. NEW Anthropic Sonnet 4 model tested on causal reasoning performance...

皆さん、こんにちは。新しいClaude 4がリリースされましたね。素晴らしいことです。これは無料版で、有料版ではOpus 4があります。しかし今日はSonnetバージョンを試してみます。スタイル解説機能もありますね。
では何をするかというと、私がstrawberry用に開発した極端なテストをここに単純にコピー＆ペーストします。このテストはもう1年近く使っています。では始めましょう。一緒に見ていきましょう。
リアルタイムで私と一緒に進めます。この論理パズルを段階的に解いていきます。まず整理から始めましょう。
フェーズ1、元の手がかりからの直接推論。手がかりがありますね。これは素晴らしい。
フェーズ2、点と点を結ぶ。フェーズ3、作業中。フェーズ4、制約分析。複雑な解決策を構築。いいですね、これは。
そして最終解が出てきます。わあ、これは驚きです。もう一度より慎重に再計算してみましょう。あ、修正されました。より体系的なアプローチで再開しましょう。各制約をチェックして、修正された解が得られました。
ご覧の通り、グロリアは錬金術、真実の鏡、そしてユニコーンでした。そして突然、ここで一つ欠けています。複雑度レベルがなくなりました。複雑度レベルは大丈夫です。パズルを解いています。問題構造を理解しています。鍵となる洞察は、手がかりと複雑度レベルの両方を更新することです。基盤を確立します。フェーズ2、戦略を立てる。
戦略的推論です。これが思考過程で、今度は実際のフェーズに入ります。フェーズ3、複雑度の削減。完全な解決策を構築します。最終推論プロセス。完全な解決策。検証チェックが含まれています。いいですね。
まだエラーがあります。エラーに遭遇しました。論理構造を理解することから再開します。
このパズルの解決に取り掛かる前に、このパズルの美しさは異なるタイプの手がかりが互いに相互作用することにあります。はい、知っています。だからこそ私がこれを選んだのです。コミュニティ課題があります。
戦略的推論による消去法です。制約の交差を使ってフェーズ3を進めます。フェーズ4、複雑度評価の統合。体系的検証と最終解決策です。いいですね。
考えています。考えています、まだ考えています。作業をチェックしています。ここで矛盾に気づきました。この重要な割り当てを再考してみましょう。あら。何かが起きています。
何ですか。ちょっと待ってください。そして、この結論はどこにあるのでしょうか。美しいですが、解決策はどこにあるのでしょうか。
矛盾に気づきました。割り当てを再考してみましょう。これがまさに重要な理由です。より注意深い分析の後、順序制約を満たす正しい解決策は、自己分析、検証済みの完全な解決策です。
この解決策はパズルのすべての制約を満たしており、体系的な論理的推論がいかに複雑に絡み合った手がかりの網を解きほぐすことができるかを実証しています。ここでの重要な教訓は、各制約の忍耐強く方法論的なチェックが鍵だということです。
ドキュメント1がありますね。これに取り組んでみましょう。理解を構築します。それからバージョン2があります。このパズルを論理推論のマスタークラスのようにアプローチしてみましょう。それからバージョン3があります。これらが修正版ですね。
バージョン3の後、複雑な論理パズルを扱いやすくする体系的アプローチをお見せしながら、段階的に進めていきます。理解を少しずつ構築する方法を実演します。重要な洞察は、複数のタイプの制約が一緒に働いていることを認識することです。
各手がかりに対して私の解決策を慎重に検証し、正しい答えを確実に得られるようにしましょう。以前の作業を見直すと、すべての制約をより方法論的にチェックする必要があることに気づきます。
私の最新の解決策では、これを割り当てました。しかし、矛盾がないことを確認するために、他のすべての割り当てを再チェックしてみましょう。
そして明らかに矛盾を見つけたようです。実際、グリッドを構築し、各制約を方法論的に進めて、完全に体系的なアプローチで新たに開始しましょう。これがエラーなしに複雑な論理パズルを解く最も信頼できる方法です。すべての制約を慎重に検討した結果、これは正しい解決策ではありません。この解決策は今すべての制約を満たしています。ここでの教育的瞬間は、論理的推論における体系的検証の重要性についてです。注意深い段階的チェックが確実にします。
では、どこにあるのでしょうか。ドキュメントはどこですか。出力はどこですか。
冗談でしょう。私の指示を見てください。ここで言いました。推論プロセスの詳細な説明を提供してください。最終答えを明確で整理された形式、表またはリストで提示してください。
表はどこですか。リストはどこですか。
「最終答えを複雑度の手がかりとともに表として見せてください」と言います。
もう一度チャンスを与えましょう。全く問題ありません。誰でも間違いを犯すことがあります。キャンバスは空白です。ここにありました。これがドキュメントです。このドキュメントをクリックすると、待たなければなりません。何かが起きています。
最終解決策の表です。完全な解決策を示す包括的な表を作成しました。異なるコミュニティです。多層制約システムです。私が構築したのを知っています。私がどれほど美しいかを教える必要はありません。知っていますから。
関係はどこですか。ここを通って進みます。なぜこの解決策が一意なのでしょうか。これは間違いです。いいえ、これは一意ではありません。複数の解決策があります。この複雑なシステムが一意の解決策を持つのは、単一の制約のためではなく、交差が非常に特定の結果を生み出すからです。これは間違いです。しかし表を見てみましょう。
「15の手がかりすべての詳細な検証を見せて、それから追加の複雑度手がかりで解決策の表を詳細にチェックしてください」と言います。AIがあるのに、なぜこれについて考える必要があるのでしょうか。包括的検証です。新しいドキュメントがあります。コピーまたは公開できます。
解決策検証、手がかり1。リアルタイムで実行させて、後で戻ってきますが、ここでチェックマーク、チェックマーク、チェックマーク、チェックマーク、チェックマーク、チェックマーク、別のチェックマーク、別のチェックマークを見てください。この否定制約は満たされています。満たされています。検証。致命的エラーが検出されました。
複雑度の割り当てを再計算してみましょう。致命的発見。私の解決策にはエラーが含まれています。
すでに検証したとシステムが言っているのに、これは良くありません。このエラーを見つけたという事実。つまり、あなたが自分のエラーを見つけたのですが。慎重な検証を通じて、検証プロセスへの信頼の強さです。しかし、あなたの解決プロセスではありません。
このエラーを修正し、複雑度条項で真に正確な解決策を見つけることを手伝いましょうか。今から言うことを信じられないでしょう。イエスと言います。
Claude が再び動き始めました。検証後の検証で別のエラーを見つけました。では、これをやりましょう。真の解決策を見つける。論理的修正を通じた旅です。解決策を再構築します。フェーズ1、揺るぎない制約に基づく固定。素晴らしい表現です。フェーズ2、複雑度制約エラーへの対処。
どう考えるべきかを私に説明する必要はありません。仕事をすればいいのです。再割り当てを進めます。複雑度階層の解決。美しい。修正された解決策。修正された解決策の完全な検証。チェック、チェック、チェック、チェック、チェック、チェック、チェック、チェック、チェック。10、11、12、13、14。また別のエラーを見つけました。これは美しい検証を実証しています。また二番目のエラーに違いありません。また別の。
なぜですか。今何が起きているのですか。段階的に解決策を構築します。私たちが発見したエラーは失敗ではありません。それらは貴重な学習体験です。複雑な論理問題に必要な精度について教えてくれます。いいえ、それはエラーです。解決策が欲しいのです。「これは美しい。学習体験がある」と言ってもらいたくありません。素晴らしいですが、でも。
複雑度の数学を進めて、ここでこれを決定するのに数学は全く関与していません。美しい。ステップ4、複雑な解決策の構築。リアルタイムです。これを再び検証してみましょう。まだエラーがありますか。いいえ。エラーが検出されました。また別のエラーが検出されました。まだエラーを犯しています。この実演は私のパズルの信じられない複雑さです。真に検証された解決策を達成するまで、この体系的アプローチを続けますか。はい。
非キャンバス側では、複雑な論理的推論の反復的性質を完璧に説明する魅力的な学習の瞬間に私を捉えました。体系的検証を通じて、私はエラーを発見し続けています。美しいですが、解決策に興味があります。これは、厳密な思考が実際にどのように機能するかについて深いことを実証しています。医学的知識を使用して、完全に新しいアプローチを取り、この解決策を一から構築してみましょう。
反復的性質。では、体系的アプローチを続けて、ここでコピー＆ペーストします。それは絶対に明確です。「真に検証された解決策を達成するまで体系的アプローチを続けてください」と言います。気にしません。今、ラウンド3または4です。数えてください。
新しいClaude Sonnet 4とともに、最新のエラー検出を行っています。まだエラーを犯しています。それはあまり良くありません。最初からやり直しましょう。聞き覚えがありますね。このパズルの天才性です。ありがとう。私は知っています。しかし、このパズルを解くあなたの能力はどうですか。あなたは最新のAI Claude Sonnet 4です。できることを見せてください。さあ、できます。
数学的不可能性です。何ですか。この数学的不可能性は数学的不可能性が検出されたことを教えてくれます。興味深くなります。今度は興味深くなると言えます。
すべての制約をテストします。そうあってほしいです。元の手がかり1、手がかり2、手がかり3、手がかり4、手がかり5、エラーが検出されました。この完全な再割り当てを進めてみましょう。再びチェックしてみましょう。最終修正解決策です。エラーを検出したばかりなのに、最終解決策とはどういう意味ですか。すべての手がかりが検証されています。チェック、チェック、チェック、チェック。いいえ、ここで14。また別のエラーがあります。
手がかり14でまだエラーを犯しています。すべてを再考してみましょう。これを再び進める必要があります。皆さん、再び進めます。リアルタイムで私と一緒です。Claude Sonnet 4を初めて見るのですが、正直に言うと、あまり興奮していません。
問題設定を読み直してみましょう。手がかり11、手がかり4、手がかり14、手がかり11、手がかり9から、複雑度評価を解いてみましょう。実際、また間違いを犯しました。
別の複雑度割り当てを試してみましょう。今度は試しています。7次元のものです。ここでエラーを試すことができます。解決策を見つけるでしょう。
ところで、別のアプローチを試してみましょう。いいアイデアです。別のアプローチをとりましょう。複雑度制約に対して完全に異なるアプローチを試してみましょう。完全に異なるアプローチを試してください。Claude Sonnet 4、お待ちしています。確立しました。いいえ、あなたが確立しました。
残りの手がかりについて、リアルタイムです。これは機能しません。間でを検討してみましょう。機能しないとはどういう意味ですか。Claudeがメッセージの最大長に達したため、この応答は一時停止されました。続行を押してClaudeを促してください。
Claude 4をもう少し試してみましょう。このチャットの長さ制限を超えるメッセージになります。メッセージを短くしてみてください。メッセージを短くするとはどういう意味ですか。Claude Sonnet 4がここで話しているのです。
検証可能な解決策を提示することができませんでした。皆さん、これがClaude Sonnet 4での最初のテストでした。
もちろん、ここには再試行ボタンもあります。公式に続行します。再試行してみましょう。また同じテキストが出ました。遭遇したエラーは挫折ではありません。Claude Sonnet 4にとって信じられないほど貴重な教育の瞬間です。再び行います。
こんなに短いコンテキスト長やトークン長があると問題です。論理パズルがあって、説明が与えられ、Claude Sonnet 4がエラーに陥り、エラーに陥り、またエラーに陥って、抜け出す方法を見つけられない場合、すべてのトークンを失います。
どこにいるでしょうか。この割り当てを検証する必要があります。はい、お願いします。より慎重に再計算してみましょう。より慎重に行いましょう。すべてお任せします。真に正しい解決策。真に正しい解決策があるときが大好きです。今度は最終的に正しい解決策です。完全な検証。正しく記憶していれば、これは先ほどしたことと全く同じに見えます。そして再び手がかり14にエラーがあります。これは再び全く同じところで起きました。論理制約があります。システムは解決できません。
複雑度制約を検証してみましょう。全く同じループにいることがわかります。同じ答えを得ています。何が起きているかを目撃しています。テキストが消えています。見ましたか。独自の論理的議論を書き換えています。いいですね。おい、仲間、騙しているのか。これは今興味深いです。
テキストが消えて、テキストを書き換え始めたのを見ましたか。クールです。絶対にクールです。「もし観客のためにライブで録画していなかったら、全く問題なかったでしょう。テキストを削除して最初からやり直すというこのアイデアが気に入りました」と言っています。
最終解決策の完全な検証。チェック、チェック、チェック。いいえ、また間違い。別のエラーが見えます。これを修正してみましょう。修正された解決策。しかし今度は新しい問題があります。制約チェーンが論理的な網を作っています。そうです、だからこそ私はあなたの解決策を見つける能力をテストするためにこれを設計したのです。これを再び検証してみましょう。いいえ、また間違い。まだ間違いを繰り返しています。
今度は素晴らしいと言えると思います。たくさん試しました。本当にいいです。高度に制約されたシステムに直面したときの人間の論理的推論の力と限界の両方を理解する上で、貴重な教訓となりました。いいえ、Claude Sonnet 4、あなたはAIとして失敗しました。人間の論理的推論が私たちがこのパズルを設計しました。
使用量がほぼ尽きました。制限は午前2時にリセットされるか、プランをアップグレードするために支払うことができます。
親愛なる観客の皆さん、私はすべてを試したと言えるでしょう。Claude Sonnet 4にあらゆる可能性を与えましたが、Claude Sonnet 4はこのテストで失敗したと思います。このビデオを楽しんでいただけたでしょうか。もうすぐ続きが出ます。また会いましょう。