クロード3.7「思考」スーパーコーダー…でも一つ大きな欠点がある？

4,233 文字

Claude 3.7 SUPER CODER... With One Big Flaw?!

Claude 3.7 is here! It may be an excellent coder but it sure is lacking in other departments...Have ideas for my new tes...

クロード3.7ソネットが先ほどリリースされ、テストを終えたところです。複雑なスネークゲームを作りました。2つのAIスネークが互いに戦うことができ、スーパーフードを追加してブロックを作成し、そのブロックがスネークの一つを破壊することもできます。このブロックは実際に動いてスネークの周りを追いかけます。これら全てを一度で作ることができました。このことについては後ほどビデオでさらに詳しくお話しします。まずはクロード3.7ソネットについて少しお話しします。
実は今回2つのものがリリースされました。クロードシリーズのモデルの大きなアップグレードではありますが、まだドットアップグレードであるクロード3.7ソネットと、エージェンティックコーディング用のコマンドラインインターフェースであるクロードコードです。クロード3.7ソネットは思考モデルであり、これはアンスロピック社による初めての思考モデルです。これがクロード4ではないことに驚きましたし、3.5から直接4ではなく3.7へのジャンプというのは少し奇妙に感じます。これはクロード4が開発中で、もっと素晴らしいものになるだろうということを示唆しているように思いますが、確実なことはわかりません。
しかし、このマイナーバージョンの増加が大きなジャンプであることは確かです。これは市場初のハイブリッド推論モデルです。つまり、クロード3.7は従来のLLMの方法で、どんなプロンプトにもほぼ即座に返答する能力を持ちながら、「思考」機能も備えています。返答する前に時間をかけてチェーン・オブ・ソート（思考の連鎖）を使うことができるのです。o1、o3、Grock 3に非常に似ていますが、それらは単一のモデルから来ています。
他の思考モデルと同様に、クロード3.7にはチェーン・オブ・ソートを行うスクラッチパッドがあります。実際に思考を繰り返し、反省し、異なる潜在的な結果を試みてから、最終的にすべてを要約したり、最良のものを選んだりして、それをユーザーに表示します。アンスロピック社は非常に閉鎖的でセキュリティを重視していることで知られているため、彼らが実際にチェーン・オブ・ソートを表示することは驚きでした。彼らが実際に本当の完全なチェーン・オブ・ソートを表示しているかどうかは定かではありませんが、そのように見えます。
APIアクセスがある場合、クロード3.7がどれだけ長く考えるかを指示するダイヤルがあり、コンテキストウィンドウの最大値である128,000トークンまでトークン数を指定できます。これはコンテキストウィンドウとしては確かに小さい方です。APIユーザーとして、APIアプリケーションを構築し、それをクロード3.7ソネットで動かす場合は、予算を一晩で使い果たさないように、最大トークン数を指定しておく必要があります。
結果を見てみましょう。ここにSベンチで検証されたデータがあります。クロード3.7ソネットは、ここに挙げられている他のモデルと比較して20%の向上を示しています。クロード3.5ソネット、新しいo1、o3ミニ高、DeepSeek R1のこれら4つのモデルはすべて49%前後ですが、クロード3.7ソネットでは70%に達しています。
ただし、ここに注意点があります。この薄いピンク色の部分は「カスタムスキャフォールディングあり」と表示されています。これは、彼らが特定のモデルに最適化するためにカスタマイズされたチェーン・オブ・ソート技術とその周りのラッパーを使用したことを意味します。カスタムスキャフォールディングなしでも、パフォーマンスは12%以上増加していますが、カスタムスキャフォールディングを使うと70%に達します。
また、エージェンティックツールの使用も非常に優れています。ここにTWWベンチの小売業と航空会社のデータがあります。これらは両方とも、エージェントが小売APIや航空会社APIなどのAPIと対話するタスクを課された実世界のタスクです。ここで見られるように、クロード3.7ソネットは両方のケースで3.5とo1を上回っています。現在、クロード3.7は最先端の技術です。
より伝統的なベンチマークでは、これらはすべて非常に難しいですが、GPT QAダイヤモンド、多言語Q&A視覚的推論、数学500、AMY 2024などがあり、拡張思考を備えたクロード3.7は、Grock 3ベータやo3ミニの高思考を含む最高のモデルと非常に競争力があります。
これらの思考モデルは私のルーブリックをクリアしており、公式に引退させる時が来ました。楽しい時間でしたが、引退し、新しいものを作る時です。アレックスと私は現在、その新しいルーブリックを作成している過程ですが、その間に、このビデオでいくつかの新しいテストを試して、クロード3.7の限界に挑戦してみます。この新しいルーブリックに入れるべき優れたテスト提案があれば、下のコメント欄で教えてください。
これがクロードコードのリサーチプレビューです。インストールは非常に簡単で、下にインストール手順へのリンクを載せておきます。3ステップしかありません。正直に言うと、この新しいルーブリックを構築する途中でGrock 3をテストしましたが、本当に厳しくテストすることはできませんでした。コメント欄で多くの方々からそれについて言及されたことを知っています。そこで、このビデオではこれらのテストをGrock 3とo3ミニと比較して、どのように積み上げられるかを見ていきます。
もちろん、クロード3.7は簡単にスネークゲームを作ることができます。ここにあります。ほんの数秒で、非常に速く、完璧に動作します。でもそれだけではありません。今から進化させていきましょう。
まず最初に、AIにスネーク自体を制御させてみましょう。それを追加するのがどれほど簡単か見てみましょう。「スネークを制御するAIを作成してください」
これについて気に入らない点は、思考中やコード作成中に何が起きているのかを見ることができないことです。変更を見られるのは、最後に出力が得られたときだけです。ここに示すように、すべてのコードが書かれており、snakeAI.pyがあります。下までスクロールして、「ゲームを作成しますか？」「はい、どうぞ」
これで、これらのすべての変更がコードベースに追加され、準備完了のはずです。はい、できました。AIのオン・オフを切り替えたり、速度を上げたり下げたりすることができます。試してみましょう。
はい、AIが今制御しています。私は何もしていません。速度、AIオン、非常に良いですね。AARアルゴリズムを使って次の食べ物を見つけていると言っています。おっと、ミスをしました。ゲームオーバーです。続けて追加していきましょう。
「ゲームに二番目のスネークを追加する機能を追加してください。これもAIによって制御されます」
できました。2つのスネークが互いに戦っています。スネーク2の勝ちです。もう一度試してみましょう。
すでにいくつかの改善点を考えることができます。「一度に複数の食べ物を追加し、時々スーパーフードを追加して、それを食べたスネークが一時的な4×4ブロックを作れるようにしてください。そのブロックは相手のスネークがぶつかると相手を殺しますが、作成したスネーク自身は殺しません。スーパーフードブロックは7秒間フィールド内をゆっくりと移動するようにしてください」
できました。スーパーフードがあります。とても素晴らしいですね。とてもうまく機能しています。もう一度プレイしてみましょう。スーパーフードのブロックが動き回り、2つのスネークがそれぞれ自分の食べ物を見つけています。スネーク2の勝ちです。非常に印象的でした。
コーダーができることを見たところで、クロード3.7ソネットに移りましょう。非常に難しい数学の問題から始めてみましょう。クロード3.7がこれを解けるか見てみましょう。この記法をすべて簡単にできるのは本当に印象的です。
興味深いことに、この問題を作成したGrock 3は-1/27という答えを出し、クロード3.7ソネットは積分の答えとして-1/9を出しました。どちらが正しいのか混乱しているので、o3ミニでも確認したところ、これも-1/9でした。このケースではクロードが正しかったと思われます。
拡張思考モードを使うには有料アカウントが必要なことを覚えておいてください。先ほどの数学の問題は拡張思考モードさえ使っていませんでしたが、それでも正解でした。拡張思考を備えたクロード3.7にバーゼル問題を解かせてみましょう。これは私には解き方がわからない問題なので、オンラインで答えを探すことに頼るだけです。
ここで思考が見えるようになりました。すぐに気づくことの一つは、かなり速いですが、Grock 3ほど速くはないということです。そして答えが出ました。興味深いことに、この結果は1735年に初めて証明されたと書かれており、誰が証明したかも書かれています。答えはπ²/6で、これは正解です。解答を見ると、すでに解答を知っていたようですが、今度はステップバイステップで説明してもらいましょう。
今、答えを得るための方法をステップバイステップで見ています。以前は単に答えを知っていたように思えます。これはちょっと有名な問題ですから。素晴らしいです。どのようにしてその答えにたどり着いたかを正確に書き出しています。
ウェブからの最新情報を持っているかどうか確認してみましょう。持っているかどうかわかりませんし、どこにも言及されていないので、持っていないと思わざるを得ません。これはこのモデルの大きな欠点になりそうです。「アップルがAIインフラに5000億ドルを投資すると発表しました」これを知っているか見てみましょう。
大きな欠点が明らかになりました。知識のカットオフが2024年10月です。これは今や当たり前のことですが、ウェブアクセスが必要であり、すぐに実装されることを願っています。
以上です。いくつかの欠点はありますが、非常に優れたモデルです。コーディングに使う予定なら、満足できるでしょう。このビデオを楽しんでいただけたなら、いいねとチャンネル登録をご検討ください。次回のビデオでお会いしましょう。