クロード・ソネット3.7が登場!実際の問題に対する最初のテスト

AGIに仕事を奪われたい
この記事は約5分で読めます。

2,687 文字

Claude Sonnet 3.7 is out! First test against a real world problem

ソネットは私のメインで使用しているモデルです。時々O3-miniも使いますが、ほとんどの場合はソネットを使っています。なぜならコードを書くのが非常に優れているからです。しかし正直なところ、最近はソネットが新しいコードを作るのに最適なモデルであり続けているとはいえ、特にコードに関する複雑な推論やバグの発見などの面では、少し遅れを取り始めていました。
ついに数分前にクロード・ソネット3.7がリリースされ、私はすでにここで持っているこれに対してテストしています。expr.cとは何でしょうか?これは最近実装したソースコードで、radベクトルセットのベクトル類似性に使用されています。
例えば、このケースではこのベクトルインデックス内で「マトリックス」という要素のベクトルに似たベクトルを探したいのですが、これらの式のおかげで今ではフィルターを追加できるようになりました。映画の公開年が2014年より大きく2017年未満という条件も追加できます。それだけです基本的に。ここの各要素では属性の設定と取得ができ、これらはJsonブロブとして保存されます。そして、ベクトル内でハイブリッド検索ができるようになります。これは近日公開予定のRedisのベクトルセットデータ型の機能の一つになる予定です。
この式エンジンを実装しました。基本的に式をスタックベースのステートマシンにコンパイルし、演算子の優先順位をコンパイル時に解決するので、最終的なプログラムは実行が非常に高速で、あるセレクタを持つオブジェクトに対して実行されます。
昨日、この式評価コードを作成中にバグがありました。ここのコードです。基本的に何らかの理由で、正しいオフセットで終了させることができませんでした。Jsonの属性を選択する際に最初の文字(単なるピリオド)をスキップしたいのですが、ここにマイナス1を入れるのを忘れたのです。そのためプログラムは一貫性なく動作し、デバッグのためにprintfを追加すると、このスタック文字列はゼロでより埋められ、デバッグなしでは動作しませんでした。この種のバグはあなたを狂わせます。
そのため昨日、このコードをクロードやDeepSeek V3、O3-mini highに渡してこの問題を修正しようとしましたが、彼らはこの問題を見つけることができませんでした。結局、デバッガーと多くの作業で発見しました。プログラムの動作が非常に不安定だったため、アドレスサニタイザーを使っても、このばかげた問題を追跡するのは不可能でしたが、最終的に修正しました。
昨日、これらのモデルで他のバグを発見しようとして、これが頭に新鮮に残っていました。そして今日クロード・ソネット3.7がリリースされるとすぐに、他のモデルで試した同じ問題を試してみました。そして、はるかに優れていました。
このコードにいくつかの本当の問題を見つけました。これらはテスト後、おそらく統合テストなどを全部書いた後に出てくるでしょう。しかし今、修正できるバグのリストがあります。これは正しくありません。redモジュールのmodule unlockはメモリ不足の場合にアボートし、これは私が認識していたことですが、これはバグです、これはバグです、これは実際には影響のない潜在的なバグですが、信じられません。
この場合、新しい拡張思考モードを使用しました。これは多くのトークンを消費しますが、思考の連鎖がこれまで見たものよりもはるかに一貫性があり、クリーンで、明晰です。
非常に興奮しています。なぜなら、ここ数ヶ月で私はクロードに真の協力者を見つけました。本当に私が短時間でより多くの仕事をできるようにしてくれました。これは素晴らしいことです。そして、はるかに強力に見える新しいモデルをリリースしたという事実は、この進化が続くことを意味し、以前よりもさらに多くのことができるようになります。この思考過程はまったく不明瞭ではありません。これは深い思考であり、すべてが明確でここでは理にかなっています。ここでバグを読んだ後、そこに行って何が起こるか確認することもできます。
もう一つ興味深いのは、最初のものを正確に見てみましょう。クロードはプログラマーにとって非常に重要です。彼らは彼らのサービスを使用する人の約35%がプログラミングに使用していると言っています。
もう一つ信じられないのはこのクロードコードというものです。彼らは絶対に今後数日間でこれを使用したいと考えています。基本的にはCLIがあります。リンクを見つけられるか確認しましょう。
「プレビューに参加する」。プレビューは研究プレビューですが、正しく理解していれば、誰でもアクセスできるようです。基本的にコマンドラインがあります。それはとてもクールです。カーソルやその他のAI拡張エディタのような全てのものの後、彼らは私のためにこれを作ったように見えます。
私はmakeを使うVIユーザーで、ターミナルやコマンドラインにいることが多いです。コマンドラインは主にプログラマーのためのインターフェースであり、このツールはこのようにコードベースについて質問できるツールです。
チャットCLI、つまりクロードを起動してそこで直接チャットを書くコマンドラインで、ファイル内を検索する方法もあります。クロードの非常に強力な点の一つは、ファイル添付にRAGを使用せず、非常に強力でありながら、他のシステムと比較してもファイルの完全な可視性を持っていることです。これは資産であり、彼らがここで何をしているのかはわかりませんが、あなたのファイルにアクセスできます。
彼らがどのファイルをコンテキストに取り込むかを理解するためにドキュメントレベルのRAGを使用することを願っています。そしてファイルがコンテキストに適合するなら、全てを中に入れることを望みます。なぜなら、クロードの一般的なバージョンを使用するには基本的にAPIを購読する必要があるので、トークンに対して支払います。必要でない場合にRAGを使用する理由はありません。あなたはより多く支払いますが、モデルはより良く機能します。「outモジュールの型エラーを修正してコミット」、gitも理解し、コミットなどが可能です。
非常に興奮しています。続報をお知らせします。Redditでクロードが少し遅れを取り始めたため、サブスクリプションをキャンセルする人がますます増えているのを見ました。これは非常に必要とされていたので、タイミングも非常に良かったです。さようなら。

コメント

タイトルとURLをコピーしました