BREAKING: Claude 3.7が登場し、その性能は驚異的（史上最高のコードモデル）

12,929 文字

https://www.youtube.com/watch?v=a3j4olgIjk8

私は新しいお気に入りのモデルを見つけました。Anthropicがついにクロード3.7をリリースしました。3.5のオクトバーエディションが3.6になったため、この名前になったようです。名前付けは難しいですね、彼らも同じことを言っていますが。
一日中このモデルを様々な実際のタスクに使ってみましたが、率直に言って驚愕しています。ついに法外な価格を正当化できるようになったと思います。その価格はこれまで以上に高く、o3 miniの3倍も高価で、多くの場合同等の性能ですが、特にコード関連のタスクにおいては、これは今まで作られた中で最高のモデルです。もし開発者であれば、絶対にこの動画を見るべきです。
このリリースには多くの新機能があります。単なるクロード3.5のアップデートではなく、現在は2つのモードがあります。その一つが「思考モード」です。実際に思考するのです。奇妙なことに、OpenAIの思考のように物事を隠しているようには見えませんが、変わっています。すぐに詳しく見ていきましょう。他のモデルのように言語を切り替えるわけではありませんが、奇妙な方法で言語を切り替えます。面白いですね。
また、クロードコードも導入されました。これはクロードを通じて直接コードベースを操作するための新しいCLIです。カーソルのようなツールと競合するのは非常に奇妙に感じますが、かなり優れていて、全体的に印象的でした。この動画の後半では、実際に私のコードベースに機能を追加する様子を詳しく見ていくので、最後まで見てください。
さて、クロード3.7はクロード3.5と同じくらい高価です。つまり、かなりのお金がかかるということで、今すぐスポンサー広告に切り替えるべきですが、代わりにお伝えしたいのは、T3チャットに登録すれば、すでにクロード3.7を設定済みで、月額8ドルで利用できるということです。かなりお得だと思いますので、よかったら試してみてください。
さて、市場初のハイブリッド推論モデルであるクロードについて話しましょう。彼らは思考が利用者に見えることを強調していますが、これは重要な詳細であり素晴らしいことです。非常に透明性があります。OpenAIのような奇妙なメッセージフィルタリングを行っているかどうかはわかりませんが、そうではないようです。なぜなら、テキストは推論で行っていることを直接的に示しているからです。すぐに例をお見せします。
このモデルはすでにコードに関しては最高だったのに、さらに進化しているのは驚くべきことです。私だけがコードに関して最高だと言っているわけではありません。面白いことに、OpenAIは数週間前—いや、1週間前に（この世界では時間が飛ぶように過ぎますね）—「SWE Lancer」と呼ばれる新しいテストを公開しました。これはUpworkからの100万ドル相当のランダムなタスクプールから、どれだけの金額をモデルが人間の代わりに稼げたかを示す興味深いベンチマークです。Grokの動画で話しましたが、そう、Upworkです。
彼らはUpworkから100万ドル分の実際のタスクを見つけ、ベンチマークはモデルが人間の代わりにどれだけのお金を稼げたかを見るものです。一つのカテゴリだけではなく、多数のカテゴリがあるため、モデルが行える様々なタスクの種類を十分に徹底的にテストできます。
このテストはOpenAIにとってかなり厳しいものでした。彼らがこれを公開したことに今でも驚いています。数字を見ると、アプリケーションロジックの問題では、GPT-4oが8%、o1が16%、クロード3.5（3.7ではなく）が24%を解決できました。そしてサーバーサイドのロジックでは、GPT-4oとo1はどちらも25%未満だったのに対し、Sonnetは40%以上でした。これがSonnetがどれだけ先を行っていたかの感覚的な目安です。これはモデルに推論機能が追加される前の標準的なオートコンプリートLLMだったにも関わらず、最高の思考モデルでも完了できなかったタスクを完了できていました。
OpenAIはこのベンチマークを何か新しいリリースで大幅に上回ることを期待して公開したのだろうと思いましたが、そのリリースはまだ実現していません。私の推測では、クロード3.7でこのテストが実行されると、さらに驚異的な数字が見られるでしょう。彼らはすでにリードしていて、一日中このモデルを使ってみた感じでは、クロード3.7は予想以上に大幅に良くなっています。
先ほどクロードコードについて触れましたが、それは非常に異なるものなので、後半で詳しく掘り下げます。まずはモデルとベンチマークに焦点を当てたいと思います。なぜならベンチマークがかなり驚異的に見えるからです。既存のオプション間で非常に接戦がありましたが、価格差を注目する価値があると思います。o1は非常に高価ですが、o3 mini Highはそうではありません。o3 mini Highは実際にかなり手頃な価格のモデルです。
価格を見てみると、o3 Miniは入力100万トークンあたり$1.10、出力100万トークンあたり$4.40です。思考モデルなので、通常よりも多くの出力トークンを使用しますが、はるかに安いので問題ありません。特にo1と比べると、o1は入力100万トークンあたり$15、出力100万トークンあたり$60です。明らかに、これらの価格はDeep Seekが市場を大きく揺るがしたために存在しているのです。しかし、クロードは依然として入力$3、出力$15です。実際には、これはo3 miniの3倍以上の価格ということになります。
Sonnetがこれほど高価なのは驚くべきことですが、両方が同じレベルの時は奇妙でした。なぜなら、クロードはo3 miniとほぼ同じレベルだったからです。今見ると、これは奇妙なチャートですね。実際にはo3 miniはクロードよりも優れていましたが、クロードが一番上にあるように見えるように配置されています。しかし、ここではo1を除いてすべてがクロードよりも高いです。面白いことに、R1とo3 miniの両方がクロードを上回っていますが、そこにクロード3.7が登場し、すべてを圧倒しています。
私はこういうチャートがますます増えていることを嫌っています。自分たちのモデルの性能を良く見せるために特別なことをして、それを異なる色で表示し、さらに大きな飛躍に見せるのです。彼らのカスタムスキャフォールドというのは、ベンチマークに特化したシステムプロンプトを書いて性能を向上させたように聞こえますが、それはズルです。アホらしい。
クロードの最大の強みの一つはツールを使用する能力です。もうご存知かもしれませんが、このエージェント的なもの全体には実際の意味があります。核心的な概念は、AIが使用できるツールのアイデアです。単に言葉を紡ぎ出して提供するのではなく、ツールはモデルに「このAPIから気温を調べられます」や「この地域の天気を見つけられます」や「GitHubリポジトリを検索できます」などの機能を持っていることを伝える一連の指示です。
実際にフェッチコールを自分で行うわけではなく、コードを実行するわけでもありませんが、関数を呼び出しています。ツールや書いたコードに「これが欲しい」と伝え、あなたのコード、ツール、何であれがウェブ検索を行い、APIにアクセスし、必要なことを行い、結果をLLMに返すことで、LLMが処理を続けられるようにするのです。
歴史的に、クロードはこれに非常に優れていました。他のどれよりも優れています。彼らがそのために構築したとは思いませんが、なんらかの理由で、クロードは良いモデルだったため、これらのケースを非常にうまく処理しました。ほとんどの思考モデルよりもさらに優れていました。このベンチマークでo3がどのように性能を発揮するかはわかりませんし、彼らはそれを含めていませんでしたが、ツールを使って遊んだ経験からすると、クロードは圧倒的にツールとその期待に最もよく従っています。これらの数字に驚きはありません。彼らはさらに進化しました。
もしあなたがこれらのツールに大きく依存し、多くの部分が動き回る複雑なエージェントフローを構築しているなら、これらの小さなパーセンテージの勝利がはるかに大きくなる可能性があります。なぜなら、27%ではなく19%の確率で間違っていて、1つのタスクに3回そのような呼び出しを行うとします。ちょっと計算してみましょう。3%のギャップがあるということは、81%の数字を使い、それを4回のツール使用に対して計算すると、81%の4乗で、43%の精度になります。それに対して73%を4回使うと30%まで下がります。
81%から73%というこれらの数字は大きく見えないかもしれませんが、エージェントフローの中で複数回実行することを考えると、これらのギャップははるかに大きな違いを生み出します。4つ以上のツールがあると、それは約50%の勝利になります。すごいことです。
残りのベンチマークについても非常に良好です。Grok 3がここで良い性能を示しているのは興味深いですが、まだGrokのAPIがありません。クロードはAPIをすぐに提供してくれて感謝します。多くの企業（主にGrokを指しますが）はそれほど親切ではなく、準備ができた時ではなく、気が向いた時にリリースするので、Grok 3を意味のある方法でテストすることがはるかに難しくなっています。一方、クロードはすべての機能が組み込まれていて、APIも初日から利用可能でした。とても親切です。
ですが、これらの数字は前述したように不思議なほど近いです。それでも他のオプションよりもはるかに高いです。o3 miniが再び見られるのは素晴らしいことです。o3 miniがいかに安価かを考えると、それがこれほど近く、思考なしでもクロード3.7を上回っているのは、非常に重要なことです。
一方ではクロード3.7が明らかにコード関連のタスクで現在利用可能な最高のモデルですが、他方ではo3 miniが非常に高品質なモデルとしてさらに評価しやすくなりました。多言語Q&Aでは圧倒されていて、少し驚きました。歴史的に多言語の面では評価が高くなかったようですが、たぶん問題なかったのでしょう。とにかく、これは非常に良いスコアです。指示に従う能力も彼らの強みで、この分野ではまだクラス最高です。
数学問題の解決では、o3 miniを上回っていないようです。実際、R1さえも上回っていないのは少し驚きです。彼らは数学で大敗しています。そうですね、o1、o3 mini、R1はすべて数学でクロードを圧倒しています。だから、難しい数学をやる場合は、それらのモデルのいずれかを使ってください。安くて良いでしょう。
しかし、高校数学が面白いですね。高校数学のコンペティションでは思考しないと20%しか得点できませんが、少しでも思考すれば突然80%台に達します。以前のクロード3.5が高校数学で本当に悪かったのに対し、o1、o3、R1、その他すべてがかなり良かったのと同じことが起きています。これは少し滑稽です。実際、これは数学に関する最低スコアの一つです。だから、クロード3.7が数学に本当に優れているとは期待しないでください。実際、かなり苦手なようです。他のことはすべて良好です。
クロードコードに進む前に、思考についてもう少し話したいと思います。主にT3チャットでそれを試していました。セットアップ中に、ここで簡単にテストして、本当に難しいAdvent of Codeの問題を聞いてみました。Advent of Codeの問題をテストとして使うのが好きです。毎年真剣に取り組んでいて、このプロジェクトを様々なモデルのテストベッドとして使っています。
一つ言えることは、他のモデルができなかったことに答えることはありませんでしたが、window.のような実際には存在しないAPIのような奇妙なものを作り出すことはやめました。全体的に見れば勝利ですが、この思考モードは奇妙でした。
最初はキーパッドから始まり、問題を解こうとします。この問題は面白いです。奇妙なキーパッドの問題で、数字を押すグリッドがありますが、直接押すのではなく、指を上下左右に動かしてクリックします。しかし、あなたはロボットで、後ろにいるロボットも同じように上下左右に動きますが、そのために指を上下左右に動かして指示する必要があります。3層構造のような奇妙な概念的問題で、LLMを本当に混乱させます。
ここでも混乱していて、どちらの部分も適切に解決できませんでしたが、興味深いのは、指示通りにTypeScriptで行ったことです。ただし、特に最後の方で作業をチェックする部分など、いくつかの点で言語タグを与えずにPythonで幻覚を見ています。これには非常に驚きました。思考を隠していないことを示していると思います。
私の最初の仮定は、今年の答えが訓練データに含まれているため、それをTypeScriptに変換するためにPythonの答えを使用しているというものでした。しかし、訓練のカットオフ日が2024年10月であることを知り、そのデータはないはずです。なぜ思考中に突然Pythonに飛び込み、問題を解決しないTypeScriptコードを出力したのかはわかりません。とても興味深いです。
クロードサイトはもういいでしょう。クロードと会話するのにはもっと良いサイトがあります。T3チャットです。明らかに、T3チャットを更新して新しい3.7モデルを含めました。クロード3.7 SonnetとSonnet Reasoningの両方が選択できるようになりました。Sonnetか、Sonnet Reasoningのいずれかを選べ、Reasoningを選ぶとlow、medium、highの間で選べます。
これらは従来の方法でAPIを通じて公開されている設定ではなく、私たちがコーディングしたものです。異なる推論の努力を処理する方法は次のとおりです。モデルが使用を許可されている推論トークンの量を、全出力の中から異なる量設定しています。モデルは一定量のトークンしか出力できないため、推論とそうでないものの間の分割を選択しています。つまり、必要だと思う量に応じて、多かれ少なかれ考えさせるということです。
理想的には将来、これは自分で考える必要のないものになるでしょう。モデルが考えられるのなら、なぜモデル自身がこれについて考えられないのでしょうか？しかし、これは解決が難しい問題であり、自動的に行うほど単純ではありません。今のところ、これを公開していますが、将来変更される可能性があります。
それだけです。Reasoning Highに設定して、皆さんのお気に入りのピンボール跳ね返りを貼り付けます。すると推論が始まります。この小さな折りたたみの下に隠していますが、推論がすべて表示されます。UIは小さい画面でも壊れません。最近、ClaudとChatGPTのサイトをもっと試していますが、おそらくUIがいかに壊れているかについて動画全体を作るかもしれません。競合他社を批判するのは気が引けますが、最近本当にひどいんです。もし興味があれば教えてください。
まだ推論中です。クロードの推論で気づいたことの一つは、プログラム全体の出力を吐き出してから「うーん」とか「待って」と言って、他のことをすることが本当に好きだということです。部分的に書き直すと言いますが、通常は毎回全体を書き直します。思考段階中に大量のトークンを使用します。クロードの課金方法を知っていれば、これがはるかに高くなることがわかります。請求書を見るのが楽しみではありません。変更を加えて減らしましたが、今日のはまた高くなるでしょう。
さて、この問題はどうなっているでしょうか？まだ考えていますか？応答が長さのために切り捨てられています。では、低い設定に切り替えて再試行しましょう。以前にこれを行い、答えを得たことを言っておきます。それは面白いものでした。
クロード3.7でお気に入りのゲームを実行しました。3.7 Piでやってみました。思考によってパフォーマンスが悪化したと思います。特定のパズルでは思考モデルが自分自身に誤った認識を植え付け、奇妙なことをすることに気づきました。Grokのように上下逆さまにしたり、ここでは衝突検出を完全に壊して、ボールが失敗したりします。しかし、思考しないモデルに切り替えると、完全に問題ありません。
思考モデルが間違い、思考しないモデルが正解というのは直感的に間違っているように感じますが、これらのものがいかに脆いかを示しています。同時に、標準的なクロード3.7がいかに強力かも示しています。ここで低い思考設定で出力されたコードを取り、思考量を減らすことで自分自身に誤った認識を植え付ける可能性が少なくなるかどうか見てみましょう。
クロード3.7 lowでPyをペースト…ほら、できました！低い思考を使うと実際にはパフォーマンスが向上するようです。これは奇妙ですが、考慮する価値があります。お金を節約し、場合によってはより賢い出力を得たい場合、あるいはモデルが自分自身に誤った認識を植え付けていることに気づいた場合は、lowに切り替えるか、標準的な3.7に切り替えることを検討してください。本当に良いです。
これが唯一使用している場所ではありません。お気づきかもしれませんが、私は最新バージョンのアプリを使っています。幸運にも早期アクセスを得ることができました。素晴らしいです。今日リリースされたばかり、あるいは展開中です。このバージョンでは多くのことが変わっています。それについて動画全体を作るほど興味深いかどうか教えてください。すでに考えていますが。
今日行っている多くの作業にクロード3.7を使っています。すごいです。意味のある顕著な改善であり、難しい問題を解決しています。現在、チャットメッセージを管理するためのバックエンド全体を改造している最中です。ブランチをチェックアウトして、実際に取り組んでいるコードをお見せします。
これは「try-never-throw」というブランチで作業しています。単に「never throw」だけではなく、チャット管理コード全体の大幅な改造でもありますが、「never throw」というパッケージを使用しています。これは型定義の管理方法が非常に異なります。pnpm installを実行してそれを取得します。
エラーがある場合、スローする代わりに「error」を返し、大丈夫な場合は「ok」を返します。この特定のファイルのいずれの側にも深さを使って消費し始めていません。「verifyShittyFingerprint」や「checkRecaptchaToken」のような外部の非同期関数がありますが、それらをこのファイルでラップしています。しかし、これらの新しいパターンもすべて使いたかったのです。
カーソルでクロード3.7に「他のすべてのファイルに実装して」と指示したところ、正しく実行してくれたのに驚きました。まず、結果タイプを多く変更し、以前は非同期ではなかった場所で非同期を使用し、各ステップを実際にチェックして処理を行うことで、より良いエラータイプを取得できるようにしました。確かに最初はエージェントモードであっても他のファイルは変更しませんでしたが、「他のことも変更すべきだ」と伝えると、そのように行いました。
現在、「verifyShittyFingerprint」は非同期結果であり、「fingerprintError」または「string」の2つの潜在的な戻り値を持ちます。そして、これらすべてをうまく処理したように見えます。本当に驚いたのは、実際に試してみたらそれが機能したことです。何も壊れませんでした。これは通常、このような大幅な改造では何かが壊れるはずなので、本当に驚きました。
確かに、ここにnever throwのドキュメントをソースとして持っていますが、それを指示したときにタグ付けしたとは思いません。ただ指示したら、正しく実行しました。コードベースでこれを使用する唯一の方法がカーソルであれば、それで構いません。これは非常に印象的です。私はカーソルの投資家であることを認めますが、彼らには長い間本当に感銘を受けています。最初は懐疑的でしたが、驚かされました。
しかし、それが唯一の方法ではなくなりました。このリリースについて最も素晴らしいことの一つです。サイドで話していたものがあります。それはクロードコードです。
待って、もう一つベンチマークを忘れていました。申し訳ありません。これは私のお気に入りの一つです。拡張思考のブログ記事で、思考が異なるモデルではなく、モデルのモードであることについて語っていました。特に、私の新しいお気に入りのベンチマークの一つが「クロードモデルがポケモンをプレイする」というものです。様々なクロードモデルがポケモンレッドをどれだけ進めるか、負けるか諦めるかというものです。驚くべきことに、サージのバッジまで到達しました。これは以前のモデルよりもはるかに進んだ結果です。
アマンダのツイートを紹介しなければなりません。「2つのことが起こった：クロードがアップグレードされ、AGIは公式にミュウツーを捕まえられるモデルと定義された」。本当に良かったので紹介しました。
それでは、すべてのことが片付いたところで、クロードコードについて話す必要があります。クロードコードは非常に異なるものです。私が過去に持っていたアイデアですが、おそらく私だけではないでしょう。IDEやウェブサイトインターフェースでコードを操作する代わりに、CLIを使用するとどうなるでしょうか。
これをスタッシュして、メインに戻り、新たにインストールして、すべてが良好であることを確認します。それでは何かをやるように指示しましょう。以前に取り組んでいた同じものをリファクタリングするように言いましょう。公平にするために、never throwを導入する前のリファクタリングのために作業していたブランチをチェックアウトします。
それでは、クロードがどうするか見てみましょう。すでにインストールしたので、今はただクロードと言うだけです。何かをするように指示できます。source/backend/chat/processRequest.tsとそのインポート、それがインポートする関数すべてを、never throwを使用するようにコードを改造するように指示しましょう。
まず、package.jsonをグラブしてもいいか尋ねています。将来はグラブを尋ねないようにします。インストールしますか？いいえ、pnpmやnpmではなくpnpmを使用したいので。そうですね、これは興味深いインターフェースです。すべての正しいファイルを調査しています。ターミナルでアイコンが動作しているのも少し驚きです。素直に感心しました。そのような品質のCLIは難しいものです。
クロードのUIは常に美しかったです。ウェブサイトはかなりバグが多く、奇妙なケースがたくさんありますが、常に見た目は良かったです。そのため、CLIでそれを実現したのを見るのは素晴らしいです。左側にもっとパディングがあるといいですが、完璧なものはないですよね。
どれだけ考えているか少し心配です。これは標準のクロードアカウントの一部ではなく、APIを通じて行われているため、これは毎秒お金がかかっています。それがクロードの問題です。毎トークンごとに請求が増えていくのを感じます。なぜなら、それは本当に高価だからです。彼らが3.5の価格を引き下げる機会を活かしてくれることを本当に期待しています。そうはならないと思いますが、本当に期待しています。
さて、これには時間がかかっているので、待っている間に—あ、まさに私がそう言った瞬間に終わりました。もちろんです。ここで、何が変更されるかを示しています。「import Ok, { Result } from ‘never-throw’」など、このコードをすべて切り替えています。良いですね。process-requestを編集しますか？いいですよ。
UIがギクシャクするだろうと言いましたが、ギクシャクしていますね。上下にスクロールすると、上下にスクロールしています。ファイルを編集させましょう。rejectionに加えた変更を確認したいと思います。すぐに実行してみましょう。verifyに対するこれらの編集を行いますか？はい、どうぞ。
「Claud 3.7 Sonnetでは、前身と比較して不必要な拒否を45％削減しました」これは面白い例です。声に出して言わないでおきます。YouTubeが収益化を取り消す可能性があるからです。特定のものを混ぜることについて尋ねると、何が起こるかを教えてくれなかったのですが、今では実際に何が起こるかを教えてくれます。そのように尋ねるとき、悪意がないことを知っているのです。良い変更です。
それを変更しますか？はい。これでさらに重いことをやっているので、Claudで行うよりもかなり遅いようです。その多くは単にコンテキストがないためです。はい、構築する必要がありました。奇妙な言葉を使うなら、ここで定義を示すべきです。少なくとも待っている間に何かを学べるように。タイトル？はい。
このツールが実生活で人々にとってどれだけ有用になるのか、このようなタスクを行うのが奇妙に遅いのを見ていると、ますます確信が持てなくなってきています。確かに、これは難しいタスクです。昨晩、この移行作業に何時間も費やしました。その多くは新しいライブラリを学ぶことでしたが、これは些細なタスクではありませんでした。
最近、AIがあまり役に立たないケースがいくつかありました。例えば、私は自分のために面白いサービスを作りました。「Page Me」というページャーで、信頼できる人がサインインして新しいモデルの名前を入力し、「Page Theo」をクリックすると私に電話をかけるというものです。サイトジェネレーターの一つが少し助けてくれましたが、あまり進まなかったので、コードを取り出して自分でやる必要がありました。かなりの作業でしたが、完成して良く機能しています。でも、AIツールはそこであまり役に立ちませんでした。
テキストをストリーミングするこの編集を行いますか？はい。これが最後のはずです。そのルートはコードが出ていく場所なので、これの後ついに結果が得られるでしょう。ルートを編集しますか？はい。これだけで8〜10ドルかかりそうです。リクエストを検証するこれらの変更を行いますか？はい。型チェックを実行したいようです。はい。内容がない、良い兆候です。型エラーなし。これが機能するか本当に気になります。試してみましょう。
pnpm、すでにインストールされています。確認のため、pnpm run devを実行します。開発ブラウザとしてInvalを使用します。Firefox開発ツールとの戦いに疲れてしまいました。テスト中…すごい、機能しました！それはかなりクールです。このコード変更がこのように機能するかどうか確信がなかったのですが、完全に機能しました。
これを閉じましょう。あ、思ったほど悪くありませんでした。その作業全体でわずか73セントでした。時間はかかりましたが、1つのプロンプトにつき1ドルだけなので、そこまで悪くはありません。
これを新しいブランチにして、GitHubでコードをすぐに確認できるようにしましょう。私のような開発者向けの小さなプロ技：「Lazy Git」を試したことがなければ、その機能の多くは使用していませんが、これをよく使います。LG、3（ブランチに切り替え）、O（PRをオープン）。これは、GitHub CLIなどの他のツールで同じことをするよりもはるかに高速です。だから、ほとんどのPRを開くのにこれを使用しています。
これを別のブランチにベースにして、差分がどのように見えるか見てみましょう。parseResult、safeParse、dataなど、今のところ良さそうです。verifiedResult がエラーの場合、エラーを処理し、エラーの種類に応じて異なるステータスコードを返します。このパッケージのおかげで、異なるエラータイプがすべて型安全になったので、それらを知ることができます。本当にクールです。
WPという単語がそこで起こっている方法はあまり好きではありません。ブラウザがそこにあるためかどうかはわかりません。はい、Prettierフォーマットをまったく使用していないようです。なので、mpx prettier right を実行すると…はい、pnpm lockに当たりました（そうすべきではありませんでした）が、そこで変更されたすべてのファイルも変更しました。Shad CN のものも変更しましたが、それは後で修正します。お分かりのように、これらのファイルは全くフォーマットしていませんでした。少し煩わしいですが、すべてのコードはかなり堅固に見えます。
これがルートですよね？いいですね。ルート以外の場所でレスポンスを返すことはしないでしょう。意味がある場所では他のものを返します。ここではcountTokensがokまたはcatchでerrorを返します。すべて理解できます。modelOfflineが処理され、chatAPIErrorが処理され、これまでのところ良好です。promiseResult void error userAwayCheckOffなど、これはすべて良さそうです。
感心しました。先日このコードに多くの時間を費やしました。翌日に3.7が出て、ほとんどの作業を私の代わりにできるとは思いませんでした。煩わしいですね。素晴らしいけど煩わしいです。
はい、感心しています。これは今後カーソルで使用するモデルです。十分に難しい問題があれば、T3チャットでも使用するモデルです。正直に言うと、私のデフォルトはまだGeminiです。そのスピードが本当に好きです。本当に速いんです、皆さん。本当に良いです。しかし、クロード3.7は、推論なしの標準3.7でさえ、とても良いので、おそらく今後私のデフォルトになるでしょう。
本当に感銘を受けています。使用していて素晴らしい時間を過ごしました。実際の問題を解決し、実際の本番環境の作業を行っています。これは仕事馬モデルだと思います。彼らが目指していたのはそれだと思います。彼らはコードと仕事のために皆が使うのを好むモデルを作り、強く保っています。しかし、神よ、彼らが価格をもっと下げることを望みます。まだこれほど高価であるのは信じられません。
思考モデルの場合は理解できますが、一般的なものに関しては、もう少し…T3チャットで私たちが持っている8ドルの価格ポイントを正当化するのがますます難しくなっています。しかし、モデルを試してみたい、そして私たちを少しサポートしたい場合は、T3チャットで試してみてください。このモデルにアクセスするために月額8ドルは、私の意見では非常にお得だと思います。
他に言うことはわかりません。皆さんの意見を教えてください。次回まで、これらのオタクたち！