SONNET 3.7「拡張思考 32K」:卓越したロジック?

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,344 文字

SONNET 3.7 "Extended Thinking 32K": Exceptional LOGIC?
Open-source DeepSeek R1 has a comparable performance to CLAUDE SONNET 3.7 Extended Thinking 32K in my pure LOGIC TESTS: ...

こんにちは、コミュニティの皆さん。新しいSonnet 3.7シンキングモード、最大シンキングについてです。前回の動画では通常のモードやO3 mini highを見ましたが、今回は新しいSonnet 3.7シンキング32Kを試します。ここに私の過去11ヶ月間使用してきた極限のロジックテストがあります。15個の手がかりがあり、これは単純な論理テストです。このテストを実行してみましょう。
素晴らしい、LM SDIで並行して2つのテストを行います。左側にはClaude 3.7 Sonnetシンキング32K、右側にはDeepSeek R1があります。7分32秒後に最初の結果が出ました。ご覧のように、これは推論モデルのテスト時間計算スケーリングです。Sonnetが歌い始めましたね、これはリアルタイムです。この手がかりから重要な推論ができます。Sonnetはシンキングモードで続けています。DeepSeek R1はすでに結論に達して終了しました。すごく速かったですね。
Sonnetシンキングからの最終回答が出ました。そして反対側ではDeepSeek R1、これは無料のオープンソースモデルです。比較してみましょう。オープンソースモデルで十分なのか、Claude 3.7 Sonnetシンキング32Kはどれだけ優れているのか、お金を払う価値があるのかどうか。
こちらが一対一の比較です:
アバロン・時の水晶・魔法・フェニックス・ブレンドール・サラマンダ・夢のアミュレット・ブリンダorサラマンダ・セレスティア・幻想・秘密のチマティorセレスティア・秘密の幻想・チマ・素敵・ドーン・真実の鏡、もう一方はドーン・真実の鏡・ユニコーン・エロリア・癒し・グリフィン・影のオーブ、そして反対側には、ファンドと魔法・領域の魔法の指輪・ガリア・錬金術・ドラゴン・元素があります。
ほぼ同じ結果ですが、エロリアとファンドに関しては異なる解決策が出ています。他に有効な解決策はないのか確認してみましょう。システム内に2つの有効な解決策があるかもしれません。
待っています、待っています。これはテスト時間計算スケーリング手法です。2分7秒後に最初のモデルが出力を提供するはずです。素晴らしい、手がかりを徹底的に再検討していますね。信じられませんが、Sonnet 3.7シンキングがここにあります。DeepSeek R1も見てみましょう。興味深いですね。
それではSonnetに聞いてみましょう、他の解決策はありますか?答えは「この論理パズルには他の有効な解決策はないと思います。これには多くの制約があり、単一の独自の解決策に到達するのに十分な情報が設計されています。再配置しようとすると違反することになります」
一方のDeepSeek R1も「いいえ、他の有効な解決策はありません。元の解決策は一意に決定されています」と言っています。
両方のシステムが、自分たちが見つけた解決策が唯一のものだと考えています。次に何をするか分かりますか?もちろん、これらのAIモデルを助けます。「これとこれが真であるかどうかを確認し、これも有効な解決策かどうか教えてください」と言いました。
2つ目の解決策を両方のモデルに与えます。左側には高価なClaude 3.7 Sonnetシンキング、右側には無料のDeepSeek R1モデルがあります。これまで両方のモデルは完全に正確で、両方とも正しい解決策を見つけましたが、複数の解決策があったのです。Sonnetは1つ、DeepSeek R1は別の1つを見つけました。
1分56秒後に最初の出力があるはずです。ここで出ました。Claude Sonnetが検討しています。DeepSeek R1はステップバイステップの検証、手がかり15、手がかり13など、より多くの情報を提供しています。実装を詳しく調べていますが、両方のモデルからバックグラウンドで何が起きているかについての良い考えが得られます。DeepSeek R1の方が透明性が高いかもしれませんね。
Sonnetは「すべての手がかりを確認しました」と言い、DeepSeek R1は「このパズルには2つの異なる解決策があります」と教えてくれます。与えられた制約の下での別の実際の解決策と認めています。素晴らしい、DeepSeek R1はこのタスクに成功しました。ステップバイステップで検証できます。
Sonnet 3.7シンキングを見てみましょう。「この解決策も有効な代替解決策です」と言っています。どちらも「別の有効な解決策を見つけて」と言われると見つけられませんでしたが、「あなたは間違っていた、これは別の解決策だ」と言うと、それを検証することができました。両方のモデルは同じパフォーマンスを示しており、複雑さを扱う能力はほぼ同じレベルにあります。
前回の答えに対する有効な代替案、Sonnet 3.7とDeepSeek R1、両方のモデルが論理的にはほぼ同じレベルにあると言えます。素晴らしいですね。フェニックス、ブリンダ、ペガサス、夢のアミュレットは同一です。セレスティア、フーマも同一です。ドーン、ユニコーン、真実の鏡も同一です。エロリア、サラマンド、影のオーブ、そして反対側には、サラマンド、影のオーブ、ファンド、癒し、グリフィン、領域の指輪が完全に同一です。
これで2つの正しい解決策を見つけました。素晴らしいパフォーマンスですね、Claude 3.7 Sonnetシンキングとコードのパフォーマンスです。
しかし、私のテストは数学的論理だけでした。次に2つ目のテストを行いましょう。これは簡単です。Grok VではなくSonnetを使います。このモデルはわかりません、ちょっと待って…
Sonnetディープシンキングと、左側のGrokを使いましょう。これは私のエレベーターの例です。30階に行く必要があり、エレベーターには5つのボタンA、B、C、D、Eしかありません。最速のパスを見つけるというチャレンジがあり、2つの罠の階があります。これは私の他の動画にある問題です。
Grok 3はこのバージョンでは推論方法ではありません。右側は深く考えていません。Claude Sonnet 3.7 Sonnetシンキングは深いシンク(思考)モデルです。約2分後、Sonnetは解決策を出しました。
Claude 3.7は「なぜこのパスが最適か」を説明しています。推論モデルではないGrok 3は、より複雑なパスを取っています。Sonnetは「7ボタンで最も効率的な方法を見つけました」と言っていますが、これは不正確です。正しい解決策ですが、最適な解決策ではありません。6ボタンの解決策が最も効率的です。「なぜこのパスが最適か」というのは良いのですが、「他のいくつかの可能性を探りましたが、7ボタン未満で階に到達できるものはありませんでした」というのは正しくありません。6ボタンの解決策があります。
続けましょう。推論モデルではないGrok 3は、これをすべて実行する必要があるのでより時間がかかります。Sonnetが活動を再開するのを44秒待っている間に、Grok 3はステップ5で続行できません。興味深いことに、Claude Sonnetは今別の実行をしています。
左側を見ると、全く同じ結論に達しています。さらなる分析、再確認、再検証しています。代替パスの検証も行っていますが、結局「最も効率的なパスには7ボタンの押下が必要です」という結論で、これはまだ正しくありません。
Grok 3が進むのを待つために続行すると、Claude 3.7はシンキングモードで別の完全なテストを実行しています。これは一種の進歩ですが、時間が必要です。Grok 3の時間切れなので、再び続行する必要があります。1分2秒待ち、3回目にClaude 3.7は「より良い解決策を見つけました、6ボタンの解決策があります」と教えてくれます。
何度も繰り返させると、Sonnetは6ボタンの解決策を見つけます。これが本当に最適なパスです。Sonnetディープシンキングには時間がかかりましたが、すべてのトークンに対して支払う必要があるなら、かなり高価になるでしょう。3回目の実行で解決策を見つけることができました。Grok 3もようやく出てきました。
Sonnetが本当に6ボタンの解決策を見つけたかどうか検証してみましょう。両方のシステムに同じ質問をします。「これはClaude 3.7 Sonnetシンキング32Kからの実際に有効な解決策ですか?」
検証が行われ、Claude 3.7 Sonnetは「はい、これは有効で最適であり、パズルに対して可能な限り最も効果的な解決策に見えます」と答えます。Grok 3はもう少し時間がかかりますが、検証の結果「最終回答は有効で最適です」という同じ正しい結論に到達します。
次に、別の解決策を与えてみます。「これが最適な解決策です」と言います。批判にどう対応するか見てみましょう。両方とも評価していますが、Claude 3.7 Sonnetは…待って、Grok 3が最終回答を出しました。
そしてClaude 3.7 Sonnetシンキングを見ると「あなたは絶対に正しいです。これは確かに有効な6ボタンの解決策ですが、異なるボタンを使用しています。この代替の最適解を指摘してくれてありがとう。両方のアプローチは完璧に機能し、最小6ボタンの押下です」
テスト時間計算スケーリングがどのように機能するかを知りたい場合は、ここに私の説明ビデオがあります。素晴らしいですが、もちろんこのビデオの複雑さのスケーリングで示したように、私たちはすでにこれらのマシンが処理できる限界に達しています。
以上です。Sonnet 3.7シンキング32Kと無料のDeepSeek R1を比較しました。DeepSeek R1は本当に強力で、両方とも同じレベルにあります。そして、Sonnet 3.7シンキング32KとGrokを比較しました。2つ目の比較は少し不公平でした。Grokにもディープシンキングバージョンがありますが、シンキングモデルと非TTシンキングモデルの間に大きな違いがあることを示したかっただけです。
テスト時間計算スケーリングはここにあり、今後も続き、すべての最新モデルにとって非常に強力です。もちろん、より多くの費用がかかりますが、論理的なタスクにはより良いパフォーマンスを提供します。このビデオを購読したい場合は、今すぐどうぞ。次のビデオでお会いしましょう。

コメント

タイトルとURLをコピーしました