Claudeが帰ってきた!(30時間の思考!)

Anthropic・Claude・ダリオアモデイ
この記事は約15分で読めます。

AnthropicがリリースしたClaude Sonnet 4.5は、単なる性能向上ではなく、コーディング能力における大きな飛躍を遂げたモデルである。最大の特徴は30時間以上にわたって自律的に思考し続ける能力であり、これはエージェント型AIの未来を示唆している。SWEBenchをはじめとする各種ベンチマークで他のモデルを大きく引き離し、長期タスクの実行能力において指数関数的な成長を見せている。AIが自律的に実行できるタスクの長さは7ヶ月ごとに2倍になるという新たなスケーリング則が示され、当初2028年に到達すると予測されていた30時間の自律実行を2025年時点で達成した。また、Claude Imagineという新しいデスクトップ環境のデモでは、ユーザーの要求に応じてアプリケーションをその場で生成する未来のソフトウェアの姿が提示されている。

Claude 4.5! (30 Hours of Thinking!)
Try Vultr yourself when you visit and use promo code "BERMAN300" for 0 off your first 30 days.Download Humanities Las...

Claude Sonnet 4.5の衝撃的な登場

Anthropicが発表したばかりのClaude Sonnet 4.5は、単なる改良版ではありません。すでに世界最高のコーディングモデルだったものに対する段階的な変化ではないのです。これは全く異なるものです。コーディング能力における大きな飛躍なのです。このモデルは30時間以上にわたって独立して、自律的に思考することができており、その全てを今からお話しします。

この動画は素晴らしいパートナーであるVultureの提供でお送りします。詳細は動画の後半でご紹介します。まずはブログ記事からご覧ください。Claude Sonnet 4.5は世界最高のコーディングモデルです。最初の一文からはっきりと述べています。これをまず確認しておきましょう。もちろん、Anthropicによるとですが。しかし、このモデルを本当に特別なものにしているのは、タスクを受け取って長時間にわたって自律的に思考できる能力なのです。

つまり、これは本当にエージェント向けに構築されているということです。そしてこのリリースによって、Anthropicはソフトウェアの未来がどのようなものになるかという大きなプレビューを私たちに見せてくれています。実際に、オペレーティングシステムの未来がどのようなものになるかというデモも用意されており、それをすぐにお見せします。まずはベンチマークから見ていきましょう。

圧倒的なベンチマーク性能

Claude Sonnet 4.5はSWEBench verifiedの評価において最先端の性能を示しています。ここをご覧ください。Opus 4.1が79.4パーセントで、それから数パーセントポイント上昇してSonnet 4.5があります。そしてこちらがGPT-5 CodexとGemini 2.5 Proです。Gemini 2.5 Proは一時期私のお気に入りのコーディングモデルでした。しかし、これはSWEBench verifiedで約20パーセントポイントも先行しています。

他のベンチマークも見てみましょう。Terminal Benchでは50パーセントを記録し、これらすべてのモデルの中で最高です。aentic tool useでも最高スコアの一部を獲得しています。コンピュータ使用では圧倒的に最高のスコアです。高校数学AMC 2025のPythonでは100パーセント、完全にテストに合格しています。このモデルは全面的に最高であることがわかります。

CursorのCEOであるMichael Truelはこう述べています。Claude Sonnet 4.5から最先端のコーディング性能が見られており、より長期的なタスクにおいて大幅な改善が見られます。多くの開発者がCursorを使用する際に、最も複雑な問題を解決するためにClaudeを選ぶ理由が強化されています。こちらはGitHubの最高プロダクト責任者のコメントです。

Claude Sonnet 4.5はGitHub Copilotの中核的な強みを増幅させます。私たちの初期評価では、複数ステップの推論とコード理解において大幅な改善が見られました。では、長期タスクについて少し時間を取ってお話ししましょう。これが本当にAI進化の次のフロンティアのようです。

長期タスク実行能力の指数関数的成長

調査会社Meterがこの素晴らしいブログ記事、この素晴らしいウェブサイトをまとめており、AIの長期タスク完了能力の指数関数的増加について語っています。これらのベンチマークが完全に飽和状態になっているのを見ていますが、AMC 2025、MMLU、すべての最先端モデルが現時点でほぼ満点を取っているベンチマークにおいて、私たち全員が目にしている素晴らしい改善を本当にどのように測定できるのでしょうか。さて、ここにあります。見てください。

X軸はLLMのリリース日です。Y軸は人間にとってのタスク所要時間です。例えば、ここにウェブで事実を見つけるというタスクがあります。10分未満で、次は1時間未満です。分類器の訓練は約1時間15分、小規模なPythonライブラリのバグ修正があります。そして上の方には2時間以上かかるバッファオーバーフローバグの悪用があります。

ここで何が見られるか見てみましょう。GPT-3は9秒のタスク長に対応可能でした。3.5は36秒、GPT-4は5分、そして突然この成長率を見てください。o1は大きなアップデートでした。これは内部推論が本当に見られ始めたときです。モデルが応答を出力する前に思考の連鎖を使って考えるようになったときです。そしてそれが本当にこの曲線を動かし始めたのです。Claude 3.7 Sonnet、o3、Grok 4、GPT-5があり、そして今30時間という数値があります。これははるか上の方になるでしょう。Claude Sonnet 4.5があります。

そしてポイントはこうです。AIができるタスクの長さは7ヶ月ごとに2倍になっているということです。これが新しいムーアの法則です。ムーアの法則を覚えていない方のために説明すると、チップ上のトランジスタの数は約18ヶ月ごとに2倍になるというものです。これはしばらくの間そうでした。そして今、私たちにはAIが自律的かつ成功裏に実行できる時間量という新しいスケーリング則があります。

ここをご覧ください。この曲線が見えるでしょう。7ヶ月ごとに2倍です。正直なところ、実際にはこれが加速しているかもしれません。なぜなら今私たちは30時間に達しているからです。そしてその30時間は、その周りにエージェント的なフレームワークがあるわけではないということを覚えておいてください。それはモデル自体だけなのです。

そしてこの投稿によると、これはわずか数ヶ月前に書かれたものですが、私たちは2028年まで30時間に到達しないはずでした。私たちは今そこにいます。そしてここで彼らはそれを示しています。最近、トレンドは加速しています。つまり、私たちは実際に彼らの初期予測を上回っているのです。

Vultureによる提供

この動画のスポンサー、Vultureに感謝します。これをチェックしてください。Vultureは世界最大の独立系クラウドプロバイダーであり、私たちにとって素晴らしいパートナーです。ですから、今日また彼らについてお話しできることを本当に嬉しく思っています。

もしGPUをプロビジョニングする必要がある場合、自分のAIプロジェクトで試しているだけでも、本番環境にスケールアップしている場合でも、Vultureが行くべき場所です。彼らは最新のAMDとNvidiaのGPUを提供しており、6大陸の32拠点にまたがっているため、最低のレイテンシを得ることができます。

また、業界をリードする価格対性能比を提供し、深刻なアクセシビリティと信頼性を備えています。Vultureのグローバルで完全に構成可能なクラウドインフラストラクチャにより、アプリケーションをユーザーの近くに移動させ、ベンダーロックインから解放されます。このチャンネルでかなり話してきたことですね。

彼らはVulture Kubernetes Engineも持っており、単一のコンテナを超えてスケールすることができます。他のGPUプロバイダーの待ち行列に疲れている場合は、今日Vultureをチェックしてください。私の視聴者には最初の30日間で300ドル分のクレジットを提供しています。getvulture.com/bmanにアクセスしてください。そしてコードBurman 300を使用することを忘れないでください。Vultureに再度感謝します。

動画に戻ります。長時間考えることができるということは、方程式の半分に過ぎません。同じくらい重要なのがタスク効率です。1足す1が何に等しいかを見つけ出すのに30時間考えるのであれば、それは良くありません。本当に必要なのは、超タスク効率的で超トークン効率的であることです。そして最近それについて多く語っている人がGreg Cameritです。

彼はARK 3賞について話しています。コストパフォーマンスは良いのですが、インタラクティブな環境は私たちにアクション効率を評価する新しい尺度を与えてくれます。私が本当に求めているのは、最も効率的なトークン使用です。最短時間で最も多くのことを達成したいのです。そしてその時間量を拡大して、より難しく、より難しいタスクを行います。

Gregが提案する最良のAIの尺度は、ワットあたりの知性です。興味深いのは、新しいデータセンター、Stargateのような新しい大規模プロジェクトについて聞くたびに、常に使用される電力の総量について聞くからです。しかし、電力の総量は実際には最も重要なことではありません。

与えられた電力あたりにどれだけの知性が生成されるかということです。そしてそれがワットあたりの知性です。しかし、それは測定するのが少し難しく、全面的に等しいわけではありません。そして、Anthropicがアプリケーションの未来、ソフトウェアの未来のプレビューを提供していると私が言ったことを覚えていますか。

Claude Imagineによる未来のソフトウェアビジョン

私はSaaSの未来について山ほど話してきました。SaaSは死んだのです。私が本当に言いたいのは、すべてがエージェント的になるということです。すべてが生成されるようになります。私は本当にこれを信じています。そして今、私たちはその未来のビジョンを持っています。これはClaude Imagineと呼ばれています。Claudeで想像しましょう。始めましょう。デスクトップのように見えるものがあります。完全にインタラクティブです。

「オーケー、クール。おそらくClaude codeを使って自分で作れるだろう」と思っているかもしれません。そうですね、おそらくそうでしょう。でもこれを想像してください。これが今あなたのデスクトップであり、その場で、その瞬間に欲しいものを正確にアプリを生成できるのです。では、これらのサンプルの1つを試してみましょう。3025年のメールクライアントを作成してください。オーケー。

私は欲しいものを入力するだけです。このデスクトップ環境内で構築を開始します。そして数秒以内に、完全に機能するメールクライアントができあがります。ここで見ることができます。構築されています。左側にすべてのタブがあります。偽のメールを入れ始めています。まあいいでしょう。繰り返しますが、これはすべてデモですが、これは本当に近い将来可能になることです。特にGrokとCerebrasが可能にしているような推論速度に近づいたときには。

そして、これを生成するのに1分か2分かかる代わりに、文字通り一瞬で完了します。では、始めましょう。これは完全に機能するアプリケーションです。クリックしてみると、オーケー、開き始めています。そして繰り返しますが、これをその場で生成しているだけです。チェックしてください。メールがあります。すべて適切にフォーマットされています。

ダウンロード可能なデータがあり、もちろんこのデータはまだ実際には存在していません。でもダウンロードすれば、それを生成してからダウンロードしてくれます。ここで返信できますが、返信をクリックするとその機能はまだ準備ができていません。その場で生成しているのです。そして、ソフトウェアの未来がどのようなものになるかを本当に想像し始めることができます。

では始めます。hello neuralと入力します。実際には何を意味するのかわかりませんが、実際にデータを送信するためにニューラルネットワークを使用するという意味だと思います。そしてできました。量子もつれメッセージ粒子など。オーケー、これはすべてデモです。実際には機能していませんが、実際の機能は機能する可能性があります。

様々なアプリケーションの生成デモ

では、別のものを試してみましょう。計算機アプリを作ってください。これをここに残しておきます。そして今、計算機アプリを構築するはずです。もちろん非常にシンプルですが、ここからさらに良くなるだけです。では、始めましょう。ウィンドウ内でリアルタイムで構築されているのが見えます。そしてできました。8をクリックしました。

実際にはそれを生成する必要があります。繰り返しますが、完了するまでビューを生成しているだけです。プラス、それを生成しています。2、イコール。そしてできました。10です。そして繰り返しますが、はい、少し遅いですが、その場ですべてのインタラクションを生成しています。もう一つ試してみましょう。ToDoリストを作ってください。そしてできました。実際には非常に速いです。

何をする必要があるかを生成するのにわずか数秒です。犬の散歩と言いましょう。そしてもちろん、ここで見ることができるように、実際にその場で生成しています。始めます。犬の散歩。完了したと言いましょう。チェックを外します。そして今完了しました。削除したいと言いましょう。繰り返しますが、これをすべてその場で生成しているだけです。

さて、ウェブを閲覧したいと言いましょう。ウェブブラウザを作成してgoogle.comに移動してください。オーケー、始まりました。ブラウザを生成しています。実際にはウェブをナビゲートしていませんが、Googleがどのように見えるかを生成しているだけです。そしてできました。ではボーダーコリーを検索したいとしましょう。これは犬の品種です。オーケー。

繰り返しますが、これをすべてその場で生成しているだけです。Wikipediaがあります。akc.orgがあります。広告はありません。なぜならもちろんClaudeがなぜ広告を入れるでしょうか、少なくとも今のところは。ではボーダーコリーのWikipediaをクリックしてみましょう。Wikipediaサイトを生成できるか見てみましょう。そしてできました。ボーダーコリーのWikipediaページを生成しています。わかりました。

さて、reddit.comがどのように見えるか知っているか見てみましょう。reddit.comと入力します。ここで始まっているのが見えます。まだ生成しているだけです。わかりました。そしてできました。Redditの非常に基本的なバージョンがあります。ウェブに接続できたはずです。しないはずがありません。おそらくセキュリティ上の理由で防いだのでしょう。でもそれだけです。機能しました。

業界の反応とテスト結果

今、業界の反応をお見せしましょう。もちろん、Pliny the Liberatorは、Anthropic 4.5をジェイルブレイクしました。うわあ、このモデルは本当に賢いです。こんなレシピは見たことがありませんでした。彼は何について話しているのでしょうか。彼はいくつかの毒物、麻薬を作らせました。これらは一切お見せしませんが、はい、彼はジェイルブレイクしました。

Matt Vid Pro、シャウトアウト、仲間のAIクリエイターは言いました。「使おうとすると徐々にコメディ的に崩壊するウェブサイトを作成してください。」見てみましょう。では、始めます。そしてできました。はい、崩壊しています。そして面白いです。BoxのAaron Levyは言います。「BoxはBox AIを使用して40,000フィールド、1500以上のドキュメントにわたってデータ抽出精度についてClaude Sonnet 4.5をテストしました。

全体的に、モデルはSonnet 4よりも4パーセントポイント優れたパフォーマンスを示し、特に複雑なドキュメントと画像理解を必要とする分野で大きな利益を得ました。では始めましょう。これが4.5対4です。全体的に4パーセントポイントが見られます。そしてPlinyが再びやりました。彼はシステムプロンプトを抽出し、それはCloudSonnet 4.5の大規模なシステムプロンプトです。

80,000文字で、彼は完全なシステムプロンプトをGitHubにドロップしました。下のリンクからご確認ください。バイアスについて気づいたことがいくつかあります。一つ、ウェブコンテンツを参照する際は可能な限り政治的に中立であること。Claudeは事実的かつ客観的にほぼすべてのトピックについて議論できます。Claudeは児童の安全を深く気にかけています。化学的または生物学的または核兵器を作るために使用できる情報を提供せず、マルウェアを含む悪意のあるコードを書きません。

明らかに、これはすべてPlinyが証明したようにジェイルブレイク可能であり、彼らは特にハードコーディングしました。ドナルド・トランプは現在のアメリカ合衆国大統領であり、2025年1月20日に就任しました。ドナルド・トランプは2024年の選挙でカマラ・ハリスを破りました。ユーザーのクエリに関連していない限り、この情報に言及しないでください。なぜ彼らは明示的にそれを述べる必要があったのでしょうか。

私が思うに、それは非常に熱い話題であるため、誰かがClaudeにドナルド・トランプは大統領ではないなどと言わせた場合、それは非常にネガティブな方法で絶対的にバイラルになり、全員がAnthropicが偏っていると非難するからです。彼らがこれを行ったのは興味深いです。将来のモデルや他の会社のモデルにどのような事実がハードコーディングされるのか気になります。これは実際に非常に興味深い点であり、おそらくこれをますます多く見ることになると思います。

GPT-5と比較してどうなのか知りたい場合は、これをチェックしてください。Flavio Adamoは、どちらがより良く行いましたか。同じプロンプト、2つの完全に異なるUI。これが一つです。そしてこれがもう一つです。興味深いことに、これがClaude 4.5です。これがGPT-5です。どちらが好きですか。コメントで教えてください。

AnthropicのCEOであるDarioは、わずか数日前にClaudeがすでにClaude用のコードの大部分を書いていると述べました。これが本当に重要なことです。その自律的なウィンドウを拡張することは非常に重要です。私たちはOpenAIの主任研究者の一人と話したばかりで、彼も同じことを言いました。そのウィンドウを拡張できることで、彼らははるかに多くのことができ、より困難なタスクを完了できるようになります。では今、Darioのこのクリップをご覧ください。

Claudeをサポートし、次のClaudeを設計するために使用されるコードの大部分は、現在Claudeによって書かれています。Enthropic内やその他の急速に動いている企業では、コードの大部分です。同じことが当てはまります。まだ世界中に完全に拡散しているかどうかはわかりませんが、これはすでに起こっています。

今日使用できます。価格はSonnet 4と同じで、入力100万あたり3ドル、出力100万あたり15ドルです。まだ比較的高価ですが、少なくとも価格の上昇ではありません。そして彼らはすべてのユースケースで直ちにアップグレードすることを推奨しています。

そして再度、この動画のスポンサーであるVultureに感謝します。コードBurman 300を使用すると、最初の月が300ドルオフになります。すべてのリンクを下の説明欄にドロップします。Vultureに再度感謝します。この動画を楽しんでいただけた場合は、いいねとチャンネル登録をご検討ください。

コメント

タイトルとURLをコピーしました