Claude 3.7はプログラマーに強力なサポートを提供

3,488 文字

https://www.youtube.com/watch?v=x2WtHZciC74

昨日、Anthropicがついに待望の大規模言語モデルClaude 3.7 Sonnetをリリースしました。これはプログラマーたちから最も愛され、そして最も恐れられているモデルです。彼らの発表動画は大きな話題を呼び、その動画の最上位コメントは「この動画を待っていた人たち」というものでした。私の適当なAIレビューにそれほどの信頼を寄せてくれることに、謙虚に感じると同時に光栄に思います。
すでに数百万トークンを費やしてテストしましたが、簡潔に言うと、Claude 3.7は最高です。マジでヤバい、神がかってます。本当に凄いです。新しい基本モデルは自分自身を上回り、プログラミング能力をさらに向上させながら、DeepSeek R1やOpenAIモデルの成功を踏襲する新しい思考モードを追加しました。しかし最も驚くべきことは、Claude Codeと呼ばれるCLIツールのリリースです。これによりあらゆるプロジェクトでコードを構築、テスト、実行できるようになり、理論上はすべてのプログラマーを置き換える無限のフィードバックループが作成されます。すべてのコード系インフルエンサーは私たちがもう終わりだと言っていますが、今日の動画ではそれが本当かどうかを検証します。
本日は2025年2月25日、「The Code Report」へようこそ。
数週間前、AnthropicはAIが労働力にどのように影響するかを研究した論文を発表しました。彼らの発見によると、プログラマーは労働者全体のわずか3.4%にすぎないにもかかわらず、プロンプトの37%以上が数学とコーディングに関連しているとのことです。まだ人間のプログラマーの仕事を奪ってはいませんが、Stack Overflowの仕事は奪っています。
多くのAI用語が飛び交っていて、すべてを把握するのは難しいですが、ウェブ開発の指標の一つとしてWeb Dev Arenaがあります。以前のバージョンであるClaude 3.5はすでにそのリーダーボードのトップに位置していましたが、実際のGitHubの課題に基づいた人間が検証するソフトウェアエンジニアリングベンチマークでは、他の最先端モデルとほぼ同等でした。
しかし驚くべきことに、新しい3.7モデルはOpenAI O3 mini highやDeepSeekを含むすべての他のモデルを圧倒し、GitHubの課題の70.3%を解決できるようになりました。もしベンチマークを信じるなら、そしてClaude CodeのCLIを試した後では、私はそれを実際に信じるかもしれません。現在は研究プレビュー段階ですが、npmを使ってClaude CLIをインストールできます。ただし、これはAnthropic APIを直接使用し、Claudeは安くありません。Gemini FlashやDeepSeekなどのモデルよりも10倍以上高く、出力トークン100万あたり15ドルかかります。私の性格全体よりも高いコストです。
インストールすると、ターミナルでClaコマンドにアクセスでき、プロジェクト内の既存コードの完全なコンテキストを提供します。すぐに気づいたのは、CLIのテキスト装飾がこのチャンネルで紹介したオープンソースツールのSSTとほぼ同じに見えることです。これは偶然かもしれませんが、Claudeのロゴも私のお気に入りの作家カート・ヴォネガットによる「お尻の穴」の描写に基づいて盗用されたように見えます。ロゴをスフィンクターにデザインすることは問題ありません。多くの企業がそうしていますが、Claudeはちょっと露骨すぎるように思います。
Claudeをインストールしたので、inコマンドを実行でき、プロジェクトをスキャンして初期コンテキストと指示を含むマークダウンファイルを作成します。それはいいですが、現在セッションが開いており、プロンプトによってこれまでにいくらお金を失ったかを確認したい場合があります。costコマンドを使用すると、そのAITファイルの作成に約8セントかかったことがわかります。
最初に与えた実際の仕事は比較的簡単で、Dinoでランダムな名前ジェネレーターを作成することでした。プロンプトを入力すると、何をすべきかを理解し、はい・いいえで確認を求めます。この場合、新しいファイルを生成したいと提案しています。承認すると、そのファイルをファイルシステムに書き込み、専用のテストファイルも作成します。
これは重要です。なぜなら、強く型付けされた言語とテスト駆動開発を使用することで、AIが書いたコードが実際に有効かどうかを検証できるからです。そのテストが失敗した場合、AIはフィードバックを使用してビジネスロジックを書き直し、正しくなるまで何度も行ったり来たりすることができます。この例では、私が完璧と考えるコードを書きました。
しかし、今度はより難しいことをして、実際の視覚的なフロントエンドUIを構築してみましょう。Reactではなく、Sveltを使います。設定を生成したとき、テキストスタックがTypeScriptとTailwindを使用していることを理解していることがわかります。そして、適度に複雑なフロントエンドUIをプロンプトします。マイクにアクセスして波形を視覚化できるアプリケーションです。
この最初のプロンプトの後、約20の異なることを確認する必要がありました。見てわかるように、プロジェクトに多くの新しいコンポーネントを書きました。ウェブUIでClaudeをプロンプトするよりもはるかに時間がかかりましたが、最終結果は待つ価値がありました。アプリケーションでは、波形、周波数、円形のグラフィックをクリックして、私の声の音を視覚化できます。
比較対象として、OpenAI O3 mini Highに同じものを生成させましたが、最初はエラーが出ました。修正は簡単でしたが、最終結果はClaudeに比べて恥ずかしいほどひどいものでした。しかし、詳しく調べると、Claudeのコードにも多くの問題がありました。例えば、テキストスタックにあるはずのTypeScriptやTailwindをまったく使用していませんでした。また、新しいSvelte 5のRune構文の使用にも失敗しており、セッション全体で約65セントかかりました。これは卵やバナナに使った方が良かったでしょう。
最後のテストとして、最近Appleが英国での端末間暗号化を中止した件について触れます。政府がバックドアを要求し、Appleがそれを構築することを拒否したためです。もしあなたがこの影響を受けているなら、自分で端末間暗号化アプリを構築することができます。私はJavaScriptでそれを自分で試みていますが、試したすべての大規模言語モデルが失敗します。Claude Codeがこの ChatGPTのひどいコードを修正できるか見てみましょう。
かなり時間がかかり、多くのコードを変更しましたが、何らかの理由でまだ実行に失敗します。残念ながら、AIに依存しすぎているため、このようなエラーメッセージを修正する方法がわからず、次の最良のモデルが出るのを待つしかありません。
ビデオを通して、Claudeがフロントエンド開発にどれだけ優れているかを見てきましたが、アプリケーションのもう半分はバックエンドです。アプリを速く構築したい場合は、今日の動画のスポンサーであるConvexを試す必要があります。これは、型安全なクエリ、スケジュールされたジョブ、サーバー関数、Firebaseのようなリアルタイムデータ同期など、多くの機能を提供するオープンソースのリアクティブデータベースです。
最も優れているのは、データベースクエリが純粋なTypeScriptで書かれていることで、スタック全体で美しいIDE自動補完が可能になります。しかし、それはもう一つの副作用も生み出します。ConvexはAIによる自律的なコーディングに非常に適しているのです。ClaudeのようなAIモデルはConvexコードをより簡単に理解し、エラーを少なくして書くことができ、より生産的になります。
フロントエンドアプリの構築方法を知っているなら、すでに半分は完了しています。画面上のリンクを使用して無料のConvexプロジェクトを作成し、残りの半分を構築してください。
以上、The Code Reportでした。ご視聴ありがとうございます。次回でお会いしましょう。