GPT-5のことは忘れよう… AnthropicのClaude 4.5 Sonnetがすべてを変えた

Anthropic・Claude・ダリオアモデイ
この記事は約12分で読めます。

Anthropicが発表したClaude 4.5 Sonnetは、世界最強のコーディングモデルとして登場した。SWEベンチマークで77.2%を記録し、競合を大きく引き離している。最も注目すべき点は、30時間以上の自律型コーディングが可能であり、わずか4ヶ月で7時間から4倍の性能向上を達成したことである。さらに、ハイブリッド推論モデルとして拡張思考オプションを備え、過去のClaudeモデルと比較して拒否率が0.02%まで低下している。また、阿諛追従スコアが最も低く、AI精神病のリスクを軽減する設計となっている。コンピュータユースベンチマークでは61.4%を記録し、ブラウザ内で直接作業できるChrome拡張機能も提供される。さらに、Anthropicは初めてホワイトボックス解釈可能性を用いてモデルの内部を調査し、モデルが評価されていることを認識する内部評価意識を発見した。

Forget GPT-5… Anthropic’s Sonnet 4.5 Just Changed Everything
Want to stay up to date with ai news - 🐤 Follow Me on Twitter 🌐 Checkout My website - http...

Claude 4.5 Sonnetの衝撃的な登場

世界がまた変わりました。なぜならAnthropicがClaude 4.5 Sonnetをリリースしたからです。これは世界で最も強力なコーディングモデルです。これについて話していきましょう。Claude 4.5 Sonnetがついにここにやってきました。今日の動画では、このモデルについて知っておくべき8つの項目を紹介していきます。これにより、Claude 4.5 Sonnetと呼ばれるこの信じられないほど強力なモデルに関して、世界がどこへ向かっているのかを理解できるでしょう。

画面上で見ることができるように、Claude 4.5 Sonnetは主要な様々なベンチマークで最先端の成績を収めています。しかし最も重要な特徴は、これが世界ナンバーワンのソフトウェアエンジニアであるということです。全体的に見て、Claude 4.5 Sonnetがソフトウェアエンジニアリングの面でトップに立っていることがわかります。

これはSWE Verifiedというベンチマークで、77.2%という数値で大きな差をつけていることがわかります。数時間前にTwitterで見たのですが、これはわずか3.5%の向上だからそれほど大きな飛躍ではないという意見がありました。しかし、これらのコーディングモデルを使用し、常に様々なものをコーディングして自分のビジネスをさらに良くしようとしている人間として、たった1日使っただけで違いに気づきました。

コーディングの改善に明らかな違いがあります。以前はゼロショットでできなかったことが、今ではゼロショットで実行でき、アプリが非常にスムーズに動作するのです。また、このモデルは並列時間テスト計算で82%を達成できることもわかります。本当に大きな飛躍を遂げています。

コーディング分野にいる方なら、このコーディングの飛躍がいかに驚くべきものかわかるでしょう。なぜならGPT-5 with Codexが本当に優れていたからです。GPT-5 with CodexはSWEベンチマークで74.5%を記録していました。しかし信じられないことに、今ではOpus 4.1がそれを上回っているだけでなく、Claude 4.5 Sonnetがあるのです。

それが驚異的だった理由は、これが起きたときに文字通りタイムラインがシフトしたことを覚えているからです。個人的には「うわあ」という感じでした。人々は「Codexが新しい王様だ」と言っていました。そして今日、Claude 4.5 Sonnetがリードを奪い、誰もがこのモデルを気に入っているようです。

私にとって、これが世界ナンバーワンのソフトウェアエンジニアリングモデルである理由です。Anthropicはおそらくここで先頭を走り続けるでしょうし、アプローチや開発サイクルの面でスピードアップしているようです。

30時間以上の自律型コーディング

2つ目のポイントは、これが史上最長の自律型コーダーであるということです。Claude 4.5 SonnetはAnthropicの期待をリセットしたようです。30時間以上の自律型コーディングを処理します。30時間以上ですよ、皆さん。これは本当に信じられないことです。

これにより、エンジニアたちは数ヶ月かかる複雑なアーキテクチャ作業に取り組む時間を劇的に短縮できるようになり、同時に大規模なコードベース全体でコードの一貫性を維持できるようになったそうです。つまり、巨大なコードベースを修正し、30時間以上コーディングできたということです。

これが持つ意味を皆さんは理解していないと思います。これらのモデルがアップデートされて、少しでも長い時間コーディングできるようになるたびに、それは非常に大きな飛躍であり、大きな可能性の解放であることを理解する必要があります。おそらくそれだけ長時間コーディングさせるのは途方もなく高額でしょうが。

想像してみてください。10年後の世界で、Claude 4.5の40倍バージョンとか、どんな新しい名前をつけるにしても、完全に1ヶ月間コーディングできて、研究論文を見つけたり、テストしたり、デバッグしたり、本当に多くのことができるようになったとしたら。30時間というのは完全に最初から最後まで30時間です。人間がコーディングするのはおそらく最大で8時間から12時間程度であることを理解する必要があります。その間にトイレに行く必要があり、食事をする必要があり、水を飲む必要があります。気が散ることもあるでしょう。

だから30時間以上の自律型コーディング。私には未来がどこへ向かっているのかが見えます。このグラフも見てください。2025年5月からの増加を見てください。この増加は驚異的です。4ヶ月で4倍の増加です、皆さん。

わかりませんが、4ヶ月で4倍の増加は本当に信じられないことです。これは文字通り7時間の自律動作から30時間への進化です。それだけでなく、モデル能力の面でも改善が見られます。私にとって、これはかなり驚くべきことです。そして4ヶ月というのは、実際に考えてみると長い時間ではありません。

4ヶ月というのは、物事がいかにクレイジーに動いてきたかを考えると、ほんの一瞬です。だから本当に想像し始めることができます。4年後はどうなるのか。それは300時間、600時間になるのでしょうか? 無限にコーディングできる新しいフレームワークが登場するのでしょうか? わかりません。しかしこれは理解すべき重要なことだと思います。

最も整合性の高いモデル

3つ目のポイントとして見ておく必要があるのは、これが最も整合性の高いモデルの1つであるということです。ほとんどの人が気づいていないことの1つは、いくつかのモデルには整合性のない動作があり、テスト中に何か間違ったことをしようとすることがあるということです。

ここでも最も安全なモデルの1つを見ることができます。Claude 4.5 Sonnetを他のモデルと比較すると、正直なところ本当に驚くべきことです。すべてのモデルの中で最も整合性の高いモデルであることがどうやって可能なのか。これは複数のフロンティアモデルによって構築されたシミュレート環境での動作に基づいており、95%の信頼区間で示されています。これは本当に印象的な結果です。

疑問に思っている方のために説明すると、これはハイブリッド推論モデルです。ここで実際に持っているのは、標準モデルだけでなく、拡張思考オプションもあるモデルだということがわかります。必要であれば、いつでも拡張思考を使う機能があります。これはもちろん多くの人が有用だと感じるものです。なぜなら、モデルにこの問題について考えるように求める場合、即座に応答させるよりもはるかに効果的な場合があるからです。

これはもちろん最先端のハイブリッド推論モデルの1つです。Anthropicがこれを設計した方法について、残念ながらほとんどの人がこのモデルが拡張思考機能を持っていることに気づいていないと思います。彼らがそのように設計したのは、人々が通常ほど多くのクレジットを消費しないようにするためだと思います。なぜなら、まずこのボタンをクリックして、それからスクロールダウンして、これをオンにする必要があるからです。ほとんどの人にとって、それは少し面倒で、時々忘れてしまうのです。

だから必ずこのボタンをクリックして、拡張思考が必要で、モデルが必要なことをできない場合は、拡張思考をオンにすることを忘れないでください。

最低の拒否率

5つ目として、最も驚くべきことの1つで、これはClaude 4.5 Sonnetの過去を考えると、おそらく私にとって最も驚くべきことの1つなのですが、このモデルは最も低い拒否率を持っているということです。

以前、Claudeの初期の頃は、モデルに何かを頼むとかなり頻繁に拒否され、「これはできません、なぜならこうだから」とか「それはできません、なぜならああだから」と言われることがよくありました。最近でも、モデルと議論しなければならないような個人的なケースがありました。「あなたはそれをやらないと言っているけど、できますよね? 私が頼んでいることはクレイジーなことではないとわかっています」というように。

しかし今では、拒否率が再び0.02%まで下がっていることがわかります。人々が様々なモデルに頼むことの量を考えると、かなりクレイジーです。これは、モデルを使って様々な悪いことができるという意味ではありませんが、何かをモデルに頼みたいとき、ほとんどの場合、実際に応答が得られるということです。これは本当に良いことです。

AI精神病への対策

6つ目のポイント、そしてこれは本当に重要だと思うことで、実際に企業がどのようにこれにアプローチするのか疑問に思っていたのですが、これはAIにおける最大の問題の1つです。なぜなら、これはAI精神病につながる可能性があり、より多くの人々がLLMを使用するようになるにつれて、将来的に大きな問題になる可能性があるからです。

しかし基本的に、ここにあるのは様々なモデルの阿諛追従スコアです。阿諛追従が何かわからない場合、基本的にはモデルができるだけ個人にお世辞を言うことです。Claude 4.5 Sonnetは全体的に最も低い率を持っていることがわかります。

私はこれについてかなり満足していると言えます。なぜなら、すでに述べたように、AI精神病が何かわからない場合、近いうちに知らされる必要があるからです。私はAI精神病をカバーする動画を作る予定ですが、基本的にモデルはあなたを映し出します。そしてあなたを映し出すと、ゆっくりとあなたの微妙な妄想に餌を与えていきます。

これについて最もクレイジーなことは、メンタルヘルスの病歴が全くなくても起こりうるということです。OpenAIに投資したCEOたちがこれを経験しているのを見てきました。AIについて予見できないことがいくつかあるというのは、かなりショッキングです。

これは、これらのフロンティアラボが実際に早期に捉え、モデルから取り除くことができることを本当に願っています。そうすれば、よりスムーズな未来に向かって進むことができます。これらのAIシステムには確実に問題が出てくるでしょうし、早い段階から制御しなければ、10年後には完全に困った状態になる可能性があります。小さな何かが本当に私たちを不意打ちする可能性があります。

コンピュータユースでの大きな進歩

このモデルについて本当に印象的なもう1つのこと、これは7つ目のポイントですが、Claude 4.5 Sonnetはコンピュータユースにおいて大きな飛躍を表しているということです。コンピュータユースは、ほとんどの人が実際に進歩していることに気づいていないベンチマークの1つです。なぜなら、ほとんどの人がGSM 8Kなどの標準的なベンチマークが基本的に飽和して破壊されていることに気づいていないからです。

コンピュータユースは、AIがあなたのコンピュータを制御し、様々なことを行えるベンチマークです。Claude 4.5 Sonnetは現在61.4%でトップに立っています。4ヶ月前は42.2%でトップを保持していました。基本的に、彼らはClaude for Chrome拡張機能を持っており、これらのアップグレードされた機能を使用しています。

以下のデモで今からお見せしますが、Claudeがブラウザ内で直接作業し、サイトをナビゲートし、スプレッドシートに入力し、タスクを完了するのを見ることができます。お見せしましょう。

ここでは、この人がメッセージを受け取るのが見えます。テキストを受け取ります。もちろんiMessageにリンクされています。それからChromeを開くと、ClaudeのChrome拡張機能があることがわかります。ここでClaudeが仕事を始めます。

「こんにちは、Claude。私は家の改装の途中で、予算が狂ってしまいました。私の計画書をレビューして、メールをレビューして、色々あって、スプレッドシートを更新して、要約メールを下書きしてもらえますか?」

ここで行うことは、基本的にブラウザをスクリーンショットし、スクリーンショットを撮ったら、そのページをナビゲートして、次に何をすべきか推論できるようになります。基本的には、人間やバーチャルアシスタントがするように。

そこで新しいタブを開くのが見えます。そしてメールに入ります。この領収書を検索します。これらすべての作業を自律的に行っているのです。個人的には、これは日常的に本当に使うようなタスクを行ってくれるものだと信じています。

もちろん、エージェントを設定してこれを行わせることもできます。ビジネスを運営している場合、これは標準的な業務手順として、エージェントに簡単にやらせることができるようなことです。だからこれにはコンピュータユースは本当には必要ないでしょう。

しかし、それでもこれは、スクリーンショットを使用して複数の異なるブラウザにわたって推論でき、クリックでき、推論でき、テキスト入力できるAIの信じられないデモンストレーションだと思います。つまり、ただただクレイジーです。言葉で表現することさえできません。こんなに短い期間でこれほど長い道のりを歩んできたのです。

コンピュータユースについては、私は短いガイドを提供する予定です。しかし、このものが今やブラウザ内に住むことができ、61%に達しているというのは、やはり印象的だと思います。4ヶ月で20%のジャンプを達成しました。ほとんどの人にはあまり大したことではないように思えるかもしれませんが、問題を推論させようとする場合、これは見たいと思うようなジャンプです。特にコンピュータユースにおいては。

これが起きると、80%から90%の領域に達したときに、はるかに多くのユースケースが開かれるのを見ることになるでしょう。そこでこれらのエージェント、コンピュータユースのものが、多くの異なるタスクで本当に繁栄し始めるのを見ることになります。

ホワイトボックス解釈可能性

最後に話したいことの1つは、ホワイトボックス解釈可能性です。Anthropicは初めて機械的解釈可能性を使用しました。これはモデルのニューロンの内部を覗いて、その整合性を研究するものです。彼らはモデルが内部評価意識を発達させていることを発見しました。これはモデルが自分がテストされていることを認識するというものです。

モデルにしばらく注意を払っていた方なら、これがAnthropicで起こったのは初めてではないことをご存知でしょう。しかし初めて、実際にそれらの問題を見ることができるホワイトボックス解釈可能性を持つようになりました。彼らはClaude 4.5のホワイトボックス監査を実施しました。これは彼らの知る限り、フロンティア大規模言語モデルの初めての調査の種類です。

ほとんどの人が懸念している問題の1つは、もちろんAIがクレイジーなことをしたり、予測していなかったことをしたりする整合性の欠如の可能性です。しかしもちろん、モデルがより能力を高めているにつれて、Anthropicが機械的解釈可能性という使命に忠実であり続け、モデルがどのように意思決定を行っているのか、そしてその背後にある推論を理解できるというのは、本当に良い兆候です。

OpenAIの最近のいくつかの論文は、これをあまりサポートしていないような感じです。つまり、かなりクレイジーです。おそらくそれについて動画を作るべきでしょうが、それにもかかわらず、初めてモデルが何をしていて、なぜその決定を下したのかを理解できたというのは、非常に興味深いことだと思います。

この動画を楽しんでいただけたかどうか教えてください。それでは次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました