AnthropicがClaude Sonnet 4.5をリリースした。このモデルは30時間連続で自律的に動作し、約11,000行のコードを生成してSlackやTeamsのようなチャットアプリを完成させた。SWE-bench Verifiedでトップの座を獲得し、コンピュータ操作ベンチマークOS Worldでは61.4%という圧倒的なスコアを記録している。コンテキスト管理機能の改善により、長時間の複雑なタスクを遂行できるようになった。Chrome拡張機能を通じてGmailやGoogle Docsなどのウェブサービスと直接対話し、ユーザーに代わってタスクを実行できる。さらに「Imagine with Claude」という実験的機能では、コードを事前に書くことなくソフトウェアをリアルタイムで生成する新しいアプローチを示している。Apollo Researchの評価によれば、これまでリリースされた中で最もアライメントされたフロンティアモデルである。

Claude Sonnet 4.5の驚異的な能力
AnthropicがClaude Sonnet 4.5をリリースしました。これは大きな飛躍です。見出しをお見せしましょう。Meter Researchの調査をご覧になったかもしれませんが、これはAIが長時間タスクを完了する能力を測定したものです。ご覧のとおり、これは人間がタスクを完了するのにかかる時間を示しています。30分、1時間、2時間といった具合です。そして時間の経過とともに、さまざまなAIモデルが、例えば人間が1時間かかるタスクをどの程度完了できるかを示しています。
ここでご覧いただけるように、急速な指数関数的増加が見られます。ちなみに、AI Villageの背後にいる人々、つまりAI digestの人々は、これが最近さらに速くなっていると示唆しています。つまり、このチャートが示すよりもさらに速いペースでトレンドが加速しているということです。しかしここでご覧いただけるように、例えばo3とGrok 4は、人間が1時間半から2時間かけて行うタスクを完了できます。
GPT-5はさらに先を行っていますよね。2時間を超えています。さて、このチャートに基づいて、Claude 4.5 Sonnetがどこに位置すると予想されますか。もし賭けるとしたら、おそらくGPT-5を超えたあたり、もしかしたらGPT-5の近くに賭けるでしょう。まあ、ちょっとだけ外れています。そう言っておきましょう。
The Vergeの記事がこちらです。AnthropicがClaude Sonnet 4.5をリリース、AIエージェントとコーディングの覇権を目指す最新の試みです。Anthropicによれば、30時間連続で自律的に動作できるとのことです。Anthropicの最新AIモデルは、30時間自力で動作してSlackやTeamsに似たチャットアプリをコーディングしました。Anthropicによれば約11,000行のコードを生み出し、タスクを完了したときにのみ動作を停止したそうです。
ここで理解しておくべき重要なことは、これは同じ条件での比較ではないということです。Meter Researchで測定されているのは、人間のタスク所要時間ですよね。そしてAIがそのタスクを成功させる確率、例えば50%の確率を見ています。ここをクリックして80%の成功確率を見ることもできます。
例えば、これはGrok 4が50%の確率でタスクを完了できる、つまり成功する確率が五分五分で、人間なら約2時間、2時間弱かかるタスクだということを示しています。ここで話していることは同じではありませんが、どのように似ているかがわかります。ここではAnthropicの最新AIモデルが30時間連続で動作してタスクを自律的に完了する様子を見ています。
急速に加速するAIの進化
いずれMeter Researchがこれをチャートのどこにプロットするかは確実でしょう。彼らの測定方法でテストする必要がありますが、これはかなり高い位置、おそらく予想よりもずっと高い位置に来ると感じています。これはAI digestからの情報です。Meter Researchを指して、AIができるコーディングタスクの長さが増加していると言っています。
約7ヶ月ごとに倍増しています。問題はこうです。より最近の視点から見ると、2024年以降の進歩のみを測定しているこの赤い線を見ると、4ヶ月ごとに倍増しています。つまりトレンドが加速しているということです。これが理解して心に留めておくべきポイントその1で、これらのAIエージェントができる長期的なタスクが増加し続け、倍増し続けているという考えと一致しています。
少し上がっているだけではありません。急速にジャンプしています。もはや簡単な小さなアプリをコーディングして、私たちが毎回それを後押しする必要があるという話ではありません。今では数日がかりの仕事を完了できるのです。そしてこの新しいAIモデルが成し遂げた、注目を集めたもう一つの大きなことがこれです。
これはEmad Mostaqeです。昨日、彼はこう投稿しました。今後数年のうちのどこかで、コードモデルが通常のソフトウェアをゼロから書き直す方が効率的になるでしょう。既存のコードベースがプロンプトになり、その後プログラミング言語を完全にスキップして直接コンパイルするようになると。つまり彼は、今後数年のうちにということを言っているわけです。
そのツイートが公開された翌日、もちろんClaudeがリリースされて、Emad Mostaqeは更新せざるを得なくなり、「その後プログラミング言語を完全にスキップする」というのは彼の元のツイートを引用しているのですが、「その後」というのはこのツイートの翌日だったと判明したと言っています。そして彼が言及しているのは、このAnthropicのリリースで発表されたことです。
Claudeがコードを書いたり作成したりすることなく、想像できるものは何でもその場で構築する実験的な新しいソフトウェア設計方法です。つまり、リアルタイムでソフトウェアを作成し、進行中にあなたのリクエストに応答し、適応しているのです。これは新しいアプローチです。
これは新しいアイデアではありません。ただし、このアイデアが実際に公開された最初の例だと思います。しかしElon Muskはこのアイデアについて話していました。必要なソフトウェアはその場でリアルタイムで作成されるだけだと。事前に作られることはないでしょう。もはや従来のようなサービスとしてのソフトウェアというモデルは持たなくなるでしょう。
これらのものは、必要なもの、必要なソフトウェア、必要な機能を何でもリアルタイムでその場で作成します。そして今これがまさにそれを示しています。さて、以上を踏まえて、詳しく見ていきましょう。2025年9月29日、Claude Sonnet 4.5がリリースされ、Anthropicによれば世界最高のコーディングモデルです。
しかしご覧のとおり、彼らは単にそう言っているだけではありません。それには根拠があります。複雑なエージェントを構築する上で最も強力なモデルです。コンピュータを使用する上で最高のモデルであり、推論と数学において大幅な向上を示しています。コードはどこにでもあります。使用するすべてのアプリケーション、スプレッドシート、ソフトウェアツールを動かしています。
これらのツールを使用し、難しい問題を推論することが、現代の仕事を成し遂げる方法です。彼らは出荷している新機能のいくつかに言及しています。Claude Codeのアップデートがあります。チェックポイントが追加されましたが、これは非常に必要とされていた追加機能です。ネイティブのVS Code拡張機能があります。これは30時間自律的にコーディングできる能力と関連していると思います。
コンテキスト管理の革新
コンテキスト編集機能とメモリツールがあります。もちろんすべてのモデルには一定のコンテキストウィンドウがあります。いわば作業メモリに保持できる情報の総量のようなものです。それに近づいたり超えたりし始めると、問題が発生し始めます。より複雑なタスクを構築する際、その効果的なコンテキストウィンドウに近づくと、エージェントのトランスクリプトを削減するか、パフォーマンスを低下させるかの選択を迫られます。
そして彼らが追加しているこの新機能、このコンテキスト管理は、これらの問題を2つの方法で解決します。開発者が関連データのみがコンテキストに残り、貴重な洞察がセッション間で保持されることを保証するのを助けます。彼らはこれがどのように機能するかについてのプレゼンテーションを提供しています。
そして彼らがテストしているものが気に入っています。実際にこれらのエージェントにCatan、つまりカタンの開拓者たちをプレイさせているのです。明らかに、これらの長いゲームを時間をかけてプレイする場合、覚えておく必要があることがたくさんあります。ボードの状態、他のプレイヤーが何をしたかなどです。そしてこれがカタンの開拓者たちです。何人かのプレイヤーがいるようです。
そしてこれがエージェントがコンテキストウィンドウ内に保持しなければならないメモリです。AIエージェントは対戦相手の戦略を覚えておく必要があります。レンガを溜め込んで取引を拒否するなどのさまざまな取引行動、現在の備蓄などです。この新しいコンテキスト管理は、起こっていることをまとめ、古くて関連性の低いものを削除し、そのコンテキストウィンドウ、つまりそこにあるコンテキストの量を圧縮して、新しい重要なコンテキストを追加するためのスペースを残します。
これにより効果的にコンテキストウィンドウが大幅に増加します。これはおそらく30時間の自律作業実行に貢献している最大のものです。これが最大のものなのか、それとも多数の新しい革新がそれに投入されているのかはわかりませんが、確かにこれは大きな、大きな部分を占めているようです。
Claudeアプリでは、コード実行、スプレッドシート、スライド、ドキュメントなどのファイル作成を会話に直接組み込みました。そして先月ウェイトリストに参加したMacユーザー向けにClaude for Chrome拡張機能を利用可能にしました。ウェイトリストに登録していた方、それを入手した方、おめでとうございます。
Chrome拡張機能とウェブとの統合
オンラインで何にでも対話できるようになったようです。例えばGoogle Sheets、Google Docsが彼らが挙げた例の一つで、右上のChromeタブに表示される小さなボタンをクリックします。Google Docsにいて、AnthropicアイコンであるClaudeアイコンをクリックして、「このGoogle Docと対話して、やりたいことをやってください」と言えるのです。
これはかなりクールな機能です。なぜなら、今では自分専用のモデル、あなたのことを記憶していてあなたについてのコンテキストを知っている自分専用のエージェントが、さまざまなウェブサイトと対話し、場合によってはあなたに代わってタスクを完了できるからです。まだ試していませんが、こういったものには間違いなくワクワクします。オンラインでやっている仕事の多くを本当に圧縮できると感じているからです。
これらのものがより良くなり、あなたについてもっと知るようになれば、オンラインで完了させる必要がある実際のタスクをますます多くこれらのエージェントにアウトソースできるようになるでしょう。もちろんプライバシーの問題があります。多くの人がそのデータで何が行われるのか、これはどれくらい安全なのかについて多くの質問を持つでしょうが、単純に生産性の観点、自動化の観点から言えば、これは間違いなく非常にエキサイティングなものになると思います。
また驚くべきことに、これはAnthropicがこれまでにリリースした中で最もAIアライメントされたモデルです。これが、これまでにリリースした中で最もアライメントされたフロンティアモデルであり、以前のClaudeモデルと比較してアライメントのいくつかの領域で大幅な改善を示しています。こちらが彼らのシステムカードからです。彼らはApollo Researchと提携しました。
私たちはApollo ResearchのCEO兼創設者にインタビューしたばかりです。そのインタビューが非常に、非常に近いうちに公開されるのを楽しみにしてください。絶対に信じられないものです。これらのフロンティアラボがこれらのモデルが策略や嘘、ハッキングなどの悪質なことをしないようにしようとしている舞台裏で何が起こっているのかを本当に垣間見ることができ、その問題がどれほど難しいかがわかります。
OpenAIとAnthropicについて話していますが、ここで彼らが言っているのは、彼らの評価において、これはApollo Researchです。これはある種の第三者AI安全性テスト機関です。彼らはAnthropicと一緒に仕事をしているという意味では提携していませんが、別々のグループです。これは多くのこれらのモデルをテストしてレッドチームを行う第三者であり、OpenAI、Apollo Researchなどのためにそれを行っています。
そしてApollo Researchによれば、このモデルは比較モデルよりも少ない状況で戦略的な欺瞞を使用しているとのことです。システムカードについては時間があれば別のビデオでより深く掘り下げる予定ですが、ポイントはこれがこれまでで最もアライメントされたモデルのようだということです。コーディングタスクでどれだけうまくやるのでしょうか。
ベンチマークでの圧倒的な性能
SWE-bench Verifiedでナンバーワンです。SWE-benchはソフトウェアエンジニアリングベンチマークの検証版です。これらはGitHubから選ばれた実世界のシナリオで、人間の専門家による既知の解決策を持つさまざまなタスクを解決する実世界の問題です。そしてここでは、これらの問題の500のサブセットを使用しており、すべてのモデルがテストされてどれだけうまくやるかが見られます。これはコーディングのトップベンチマークの1つと見なされています。
これが唯一のものだと言っているわけではありません。他にもあります。しかしこれは、ますます多くの人々がこれらのモデルがコーディングでどれだけうまくやるかの本当に良い尺度だとして指摘しているものの1つのようです。興味深いのは、他の誰かがさらに次のレベルのベンチマークをまとめているということです。なぜならここでご覧のとおり、これは少し飽和し始めているからです。
今や80年代に近づいているので、これらのモデルの進歩を測定できるように、おそらくもっと複雑なものが必要です。1位にSonnet 4.5があります。2位にOpus 4.1があります。3位にSonnet 4があります。
つまり1位、2位、3位はAnthropicのモデルで、その後にGPT-5 Codecs、GPT-5、Gemini 2.5 Proが続きます。また、あなたや私がコンピュータを使うように、画面上のものを見てクリックしてコンピュータを使う能力においても大きな飛躍を示しています。OS Worldという、実世界のコンピュータタスク、例えばEコマースサイトの検索やナビゲーションなどでAIモデルをテストするベンチマークで61.4でリードしています。
実際にOS Worldの実際のランキングを見ていませんでした。これが私が見つけられる限りです。OS-world.github.ioです。彼らには論文、データ、ドキュメント、コードなどがあります。OS World、実際のコンピュータ環境でのオープンエンドタスクのためのマルチモーダルエージェントのベンチマークです。このリリース以前は、Claude for Sonnetが2025年7月27日からナンバーワンの座についていたようで、成功率は44%としましょう。
他のほとんどはByte DanceやDeepMindなどの第三者です。私たちが知っているフロンティアラボではありません。これはWangらによる論文からのものです。これらは私たちが知っているようなフロンティアラボではありません。ずっと下の13位までスクロールすると、computer use previewが31%に位置しているようです。
そしてそれはOpenAIのモデルです。使ったことがあります。あれはかなり良かったです。これらのどれも人間がコンピュータを使うほど良いとは思いませんでした。computer use previewはかなり印象的でした。Claude 4が一般的なモデルとして44%、43.9%としましょう、44%としましょうか、ナンバーワンの座についているという事実は確かに印象的です。
しかし今彼らが言っているのは、Sonnet 4.5というこの新しいモデルが今61.4%だということです。それは巨大な、巨大な飛躍であり、私はそれをテストするのを本当に楽しみにしています。それは他の何よりもレベルが上です。ですから、私は間違いなくそれをテストするのを楽しみにしています。そして彼らが話しているのは、何らかの足場ではなく、実際のモデルについてです。実際のモデルがコンピュータをナビゲートするのにそれほど優れているのです。
Claude for Chrome拡張機能はこれらのアップグレードされた機能を活用します。ここにちょっとしたデモがあります。誰かがビデオゲームをプレイしていて、恋人、おそらく恋人だと思いますが、「やるべきことをやった?これは私の人生の物語です」と言っています。それで「ああ、待って。実は遅れているんだ」と。
それでAnthropicのClaudeアイコンをクリックして、「ねえ、Claude。やるべきことを先延ばしにしているんだ。直してくれる?」と言います。そしてリクエストしている人にメールを送ります。それでClaudeが作業を始め、スクロールダウンします。必要なドキュメントから情報を引き出し、Gmailに行き、必要なメールを作成するようです。そこにはユーザーがクリックしなければならない小さなチェックボックスがありました。メールを通じてこのアクションを実行したいですか?というものです。ユーザーは「ええ、やって」とクリックしなければなりませんでした。
そしてこれが書き出されて送信されます。次に家計予算を見ています。Google Excelスプレッドシート、何と呼ばれているのか、で総予算を更新して、請負業者の適切な価格がそこに更新されていることを確認しています。メール、ドキュメント、スプレッドシートと対話していて、これは印象的です、言わせてください。
それから送信をクリックして、それが送信されます。Claude for Chromeがあり、この研究プレビューではClaudeがブラウザ内で直接ナビゲートし、ボタンをクリックし、フォームに記入できます。Maxユーザーは早期アクセスを取得して、テストし、探索し、形作ることができます。次は何でしょうか。今年のほとんどの間、私はすべてのモデル、OpenAI、Google、Grok、Claudeのマックスプランに登録していましたが、本当に高くつきます。
それでついにすべてキャンセルするかダウングレードすることにしましたが、モデルリリースシーズンに戻ってきたようです。ですから再び、私はこれら全部に登録することになります。これから経済的に回復できないかもしれませんが、これはあなたのためにやっていることです。それは「いいね」に値するでしょう。いいねボタンを押してください。必ず登録してください。それで今登録したところです。
うまくいけばアクセスできるでしょう。まだウェイトリストがあるようです。様子を見ましょう。そしてこれがチャートです。Agentic CodingではClaude 4.5がトップにいるか、別のClaudeモデルがトップにいますが、GPT-5やGemini 2.5 Proよりも優れています。ターミナルコーディングでは1位のようです。
小売、航空、通信でのAgentic tool useでは1位か、それにとても近いです。繰り返しますが、1位でない場合、Claude 4.1 Opusが1位です。コンピュータ使用は驚異的な、驚異的なパフォーマンスで、これはどれだけ高いかが絶対に狂っています。なぜなら、OpenAIのコンピュータ使用モデル、汎用モデルではなく特定のモデルを見たことを覚えておいてください。
31%、32%くらいでした。ですから、コンピュータ使用においてまったく別のレベルにあるのです。次に彼らは高校数学コンテストをリストアップしています。それほど良くは見えませんが、彼らはこれらのベンチマークを最大化することに焦点を当てていないと言っています。特定のベンチマークをうまくやるようにこれらのモデルを調整しようとはしていないのです。
実世界での応用と影響
彼らは実世界のユースケースで本当に優れたものにしようとしています。ですから私にとって、これらの結果とSWE-bench Verifiedは、つまり私にとって、それははるかに印象的です。AIMEやGPQA diamondなどでそれほど良くないからといって、モデルの能力を割り引くつもりはありません。ファイナンシャルアナリスト、ファイナンスエージェントとして、このベンチマークには詳しくありませんが、55.3で圧倒しています。
ですから、これまでのところ、このモデルには本当に感銘を受けています。明らかに使ってみる必要があります。まだテストしていません。マックスプランに再登録したばかりです。それでテストする予定です。しかしCursorはそれについて素晴らしいことを言っています。Windsurfではライブで使用できるようです。Windsurfで使用する準備ができています。なぜならOpenAIとWindsurf、Anthropicの間に問題があったことを覚えているからです。
彼らがそれを修正したか、何か他の取り決めがあるようです。しかしこの新しいモデルはそのプログラムを使用する人々のためにWindsurfでライブになっているようです。興味深いことに、Netflixはそれについて良いことを言っています。Netflixに開発者の生産性のためのGen AIという部門があり、このモデルを使用しているようです。
繰り返しますが、Anthropicは本当にその種のエンタープライズコーディングセクターをターゲットにしているようです。ですから、これは間違いなく、Netflixや、コーディングを行う他のすべての会社のような企業で、彼らがターゲットにしていると思うものと一致しています。それからこれ、Packer One、それがそう書いてあると仮定しますが。
セキュリティエージェントが44%改善され、精度が25%向上したようです。Thomson Reutersでは複雑な訴訟タスクで役立っているようです。そしてNorway’s Bank Investment Managementでは、複雑な財務分析について、このモデルは人間のレビューをあまり必要としない投資グレードの洞察を提供しているようです。
おそらくこれは、Anthropicの創設者Dario Amodeiについて言及する良いタイミングです。彼らは経済指標を公開しており、Stanfordがそれについてのフォローアップ論文を書き、彼らの発見は少し悪い、怖い、ある意味厄介かもしれません。それは、これらのモデルの使用が、多くのホワイトカラーの職場環境で人々がキャリアパスで引き受ける最初の数年を本当にターゲットにしているということです。オフィスでの法律分析、財務分析などです。
22歳から26歳の人々、大学を出た後の最初の数年のようなときで、会社でインターンかもしれないし、基本的な下働きをして学んでいるような時期です。これらのチャットボットは、仕事のその特定のセクションにかなり大きな影響を与えているようです。
10年、20年の職務経験を持つ人々は、チャットボットでより良くなる傾向があります。彼らはより効果的で、より効率的です。しかし今始めたばかりの人々については、それらの人々への需要を本当に減少させているようです。ですから私はAnthropicがその研究を公開していることを称賛したいと思います。なぜなら明らかにそれは、もし彼らがただお金のためだけにやっていて、与えている影響を気にしていないのなら、おそらくそれを隠しておきたいでしょう。
しかし彼らはそれを公開しています。Stanfordや他の人々がそのデータを使って独自の研究を行うことを許可しています。ですから少なくともこれを可視化し、透明性を持たせ、こういったことを気にかけていることについて、彼らに間違いなく称賛を送ります。
次に、彼らはClaude agent SDK、ソフトウェア開発キットについても話しています。これを開発者が利用できるようにしており、これはClaude Codeを動かしているのと同じインフラストラクチャですが、コーディングだけでなく非常に幅広い種類のタスクに対して印象的な利点を示しています。今日の時点で、これを使って独自のエージェントを構築できます。agent SDKは、解決しようとしている問題が何であれ、同じように能力のあるものを構築するための同じ基盤を提供します。
そしてこのボーナス研究プレビューがあります。これがImagine with Claudeですよね。先ほどEmad Mostaqについて話しましたが、彼はLLM、これらのAIが探しているソフトウェアを生活の中に夢見るようにするというアイデアについて話していました。必ずしもコードを開発するわけでもありません。これがClaude Sonnet 4.5に同梱されているものです。
彼らはこれをAIがソフトウェアを構築する新しい方法と呼んでいます。Imagine with Claudeと呼んでいます。ここでご覧いただけるように、Claudeはそれについて考えており、ほとんどリアルタイムでそれを生活に夢見ているようです。Claudeはソフトウェアをオンザフライで生成します。機能は事前に決定されていません。コードは事前に書かれていません。彼らが正確に何をしているのか100%確信していません。
うまくいけば、これを説明する論文か何かを出してくれるでしょう。それについてのビデオがあるかもしれません。舞台裏で正確に何が起こっているのか知りたいです。それでは簡単にいくつかテストしてみましょう。彼らの既製のものを使ってから、独自のカスタムなことをやってみます。これはユーザーが対話できるノスタルジックなデスクトップコンピュータゲームを作成するというものです。
それについて考えていて、そこにあります。Brick Breaker Classicです。そしてそれが設計されていて、確かにこのようなデスクトップ環境を持っています。これについて人々は以前に話しています。頭に浮かぶのはElon Muskがそれについて話していたことだと思います。彼がマイクロソフトの競合であるMacro Hardのリリースについて話す直前だったと思います。明らかにMacro Hard対Microsoftです。最初の製品はDoorsと呼ばれるべきだと思います。Doorsです、わかりますか。わからない?わかりました、続けます。
しかしアイデアは、大規模言語モデルがリアルタイムで作成するこの種のほとんどデスクトップのようなものがあるということでした。検索しているものに対してリアルタイムで作成されるインターネットを想像できます。必要なソフトウェアは何でもリアルタイムで作成されます。何も事前に構築されたり、事前に決定されたりしていません。探している機能が何であれ、リアルタイムで構築されます。
ここでご覧のとおり、これはBrick Breaker Classicです。では、機能しますか。スタートをクリックすると、考えています。それは興味深いです。リアルタイムで作成しているようです。プレイしている間でも、それについて考えています。
ボールの位置のようなすべてのものを置き換えています。私が見る限り、リアルタイムでゲームがどこに行くかを決定しているようです。ボールが何らかの理由でずっと揺れています。ちょっと奇妙です。また、たまにテキスト内に小さな進行状況バーが表示されることに気づいてください。23%と言っていました。
それをやっている間、コンテキストウィンドウを見せてくれています。パドルを左右に動かせますか。興味深いです。つまり、これについてもっと知りたいです。舞台裏で何が起こっているのか知りたいです。何をしているのか。コードは書いていません。わかりました。しかしリアルタイムで構築しています。
将来さらにテストし続けます。今のところ、何をしているのか理解したいです。私が見る限り、それは文字通り「ボールがパドルの後ろに行った。だからユーザーは命を失うべきだ」と言っているようです。そうのようです。今は3つではなく2つの命を持っています。ですから文字通りこのゲームをリアルタイムで夢見ているだけです。コードはありません。それは奇妙です。
考えるのは興味深いです。将来のスマート高速モデルがこのようなことをしてコードなしでリアルタイムでゲームを作成することを想像できます。ユーザーが発射ボタンをクリックしたというような感じです。何が起こるべきか。これが起こるべきだ。そしてそれをオンザフライで作成しているだけです。それは興味深いです。
奇妙ですが興味深いです。とにかく、それが最初の発表です。これはほんの数時間前にライブになったばかりです。まだテストしていませんが、これについて気に入っていることがたくさんあります。興味がある方は、Maxプランを持っている場合、Chrome拡張機能のウェイトリストに登録してください。ウェブをナビゲートしてくれそうで、現在それに利用可能な最高のもののようだからです。
それに興味がある方は、チェックしてみてください。Maxプランが必要です。ウェイトリストに登録する必要があります。また、Maxプランをお持ちの場合、claude.ai/imagineに行って、先ほど見たImagine with Claudeというものを試すことができます。Claude Codeをチェックする予定です。おそらくCursorやWindsurfでもテストして、どれだけうまく機能するか見る予定です。
他のモデルとどのように比較されるでしょうか。30時間連続で自力で動作してチャットアプリをコーディングするようなことを再現できるかどうか、非常に興味があります。EveryのDan Shipperが簡単なvibe checkをしています。彼は数日間使っていて、GPT-5 Codecsより速く、Opus 4.1よりスマートで操縦しやすいと言っています。
長時間実行されるエージェントタスクが非常に得意です。そして彼らが損益、会計、週次パフォーマンストラッカー、コンサルティングトラッカーを実行するために使用している3つのスプレッドシートに使用しました。そしてわずかな微調整だけで送信できたであろう第3四半期の投資家向け更新のWordドキュメントを簡単に書きました。Kieranは、Opus 4.1がまったく解決できなかったcoreのバグを約20分で解決したことを発見しました。
それで、どう思うか教えてください。試してみる機会があった方は、コメントを投稿して、どう思うか教えてください。確かに非常に堅実な、非常に大きな前進のようです。ここまでたどり着いた方は、視聴していただきありがとうございます。いいねして、チャンネル登録してください。次の動画でお会いしましょう。


コメント