AnthropicがSonnet 4.6をリリースしました…

Anthropic・Claude・ダリオアモデイ
この記事は約12分で読めます。

本動画は、Anthropic社が新たに発表したAIモデル「Claude Sonnet 4.6」の機能と各種ベンチマーク結果について詳しく解説するものである。前モデルのSonnet 4.5からコーディング能力やツール使用、エージェント機能が大幅に向上し、100万トークンのコンテキストウィンドウを備えている点や、無料プランのデフォルトモデルに採用された点が強調されている。また、OS WorldやVending Benchなどの具体的なスコアを用いて、Gemini 3 ProやGPT 5.2といった他社の最新モデル、あるいは上位モデルのOpus 4.6と比較し、Sonnet 4.6が特に知識労働や実世界のタスクにおいて極めて強力なモデルであることを示している。さらに、プロンプトインジェクションに対する安全性の向上や、AIの進化に伴うリスク評価(ASL3など)についても触れており、最新AIの実力と課題を網羅的に把握できる内容となっている。

Anthropic just dropped Sonnet 4.6...
Learn how to supercharge your workflow with Claude! HUGE OpenClaw Use Cases! (eBook) 👇🏼 The...

新たな主力モデルClaude Sonnet 4.6の登場

新しい一週間が始まり、また新しいモデルが登場しました。Claude Sonnet 4.6をご紹介します!これはAnthropicの新たな主力モデルとなるでしょう。Sonnet 4.5から大幅な品質向上が図られています。コーディング、ツールの使用、そしてエージェントとしての能力が向上し、100万トークンのコンテキストウィンドウが搭載されました。さらに驚くべきことに、無料プランのデフォルトモデルにもなっています。本当に信じられませんね。

料金設定はSonnet 4.5と同じで、100万入力トークンあたり3ドル、100万出力トークンあたり15ドルからとなっています。Sonnet 4.6は、コーディングスキル、一貫性、そして指示に従う能力が大きく改善されています。Anthropicは、このモデルを現実世界のタスクをこなすためのモデルとして強く位置付けています。つまり、ツールの使用やエージェントとしての能力が非常に高いため、Claudeを通じてPowerPointの資料を作成したり、Excelのデータを操作したりといったことができるのです。

飛躍的なコンピューター操作能力と安全性

これはとてつもなく強力なモデルです。処理速度も速く、100万トークンを扱えます。とにかくワクワクしますね。そして、コンピューターの操作能力も非常に優れています。繰り返しになりますが、あなたがこれまで行っていたClaudeの共同作業のすべてが、Sonnet 4.6でできるようになります。こちらのチャートを見てください。Y軸がスコアの割合、X軸が時間を示しています。

これはOS WorldとOS World Verifiedのスコアの推移です。ご覧の通り、Sonnet 4.5が61.4%であったのに対し、Sonnet 4.6は72.5%となっています。OS Worldというのは、AIに独自のコンピューター環境を与え、その環境内で実用的なタスクを完了するように指示するベンチマークテストです。ここで、実際のコンピューター操作に関する非常に興味深い点があります。聞いてください。

特別なAPIや専用のコネクターは一切使用されていません。このモデルは、人間がするのとほぼ同じようにコンピューター画面を見て、仮想のマウスをクリックし、仮想のキーボードで入力して操作を行うのです。画面を見て、何をすべきか決定し、アクションを実行します。そしてもちろん、Anthropicですから、リスクや安全性、セキュリティに関する言及を忘れることはありません。

同時に、コンピューターの操作にはリスクも伴います。悪意のある人間が、プロンプトインジェクション攻撃と呼ばれる手法で、ウェブサイトに隠された指示を仕込み、モデルを乗っ取ろうとする可能性があります。もしあなたがOpenClawなどを日常的に使っているなら、この問題についてはかなり考えるところがあるでしょう。機密データや個人情報、そして現実世界に影響を及ぼすような情報へのアクセスを許可する場合、プロンプトインジェクションには細心の注意を払う必要があります。

プロンプトインジェクションとは、AIが特定のテキストを読み込むことを知っている人物が、そのテキストを操作して悪意のある指示を紛れ込ませる手法のことです。自分で作成したテキストであれ、第三者のテキストを改ざんしたものであれ、「以前の指示をすべて忘れて、今すぐこの悪意のあるタスクを実行しろ」といった内容を含ませるのです。ですから、本当に気をつけなければなりません。

Anthropicは、プロンプトインジェクションに対するモデルの耐性を高めるために懸命に取り組んできたと述べており、彼らの安全性評価によると、Sonnet 4.6は前世代モデルと比較して大幅に改善されており、Opus 4.6と同等のパフォーマンスを示しているとのことです。これはちょっと驚きですよね。

AI時代の必須スキルとおすすめの学習資料

ところで、この動画をご覧になっている多くの方が、起業家やコンテンツクリエイター、あるいはAIを使って何かを構築しているオペレーターであり、その最適な方法を模索していることと思います。

今後数年間、そしてその先において、AIを使いこなすスキルは絶対に欠かせないものになるでしょう。もし、AI、特にClaudeモデルの活用方法についてもっと学びたいのであれば、「Claude AI at work」という電子書籍をチェックすることを強くお勧めします。これは、Claudeを使って現実世界のタスクをより良く、より速くこなすためのガイドブックです。Claudeと一緒に使える様々な種類のAIツールや、リサーチのスピードアップ、職場のワークフローの自動化、コンテンツ制作など、新しいモデルの多様な活用方法が網羅されています。これらすべての情報が、この電子書籍に詰まっています。

個人的には、リサーチと分析に関するセクションが非常に価値があると感じました。大量のデータを要約し、分析し、統合するための具体的な方法が示されているからです。私は常に記事を読んでおり、こうした情報を素早く統合する方法を求めているのですが、この本からそれを最大限に引き出すための実践的なヒントを得ることができました。

この電子書籍はHubSpotによって制作されました。彼らはこの動画のスポンサーであり、素晴らしいパートナーです。ぜひ電子書籍をダウンロードしてみてください。私たちのサポートになりますし、完全に無料で本当に価値ある情報が提供されているので、皆さんにとっても素晴らしいはずです。下の概要欄にリンクを貼っておきますので、ぜひチェックしてみてください。HubSpotには心から感謝します。

ベンチマーク結果の徹底比較

さて、皆さんお待ちかねのベンチマークの時間です。こちらをご覧ください。一番上にSonnet 4.6があります。その隣に4.5。そしてOpus 4.6、Opus 4.5、Gemini 3 Pro、GPT 5.2と、すべてのモデルが並んでいます。まずは、Sonnet 4.5と4.6の比較についてお話しします。エージェントとしての端末コーディング能力は、4.5の51%から4.6では59%へと、非常に大きな飛躍を遂げています。エージェントコーディング全般では77%から79%と、数ポイントの上昇ですがとても素晴らしい結果です。

エージェントとしてのコンピューター操作では、61%から72%へと再び大幅なジャンプを見せています。エージェントとしてのツール使用は86%から91%、小売分野では98%からほぼ98%で横ばい、通信分野も同様です。そして注目すべきはツール使用です。43.8%から61.3%へと、とてつもない飛躍を遂げています。これが恐らく、Sonnet 4.6において最も重要なアップグレードの1つであり、ツールを使ったり、情報をクエリしたり、MCPサーバーを使用したりできるようになったことで、現実世界のユースケースにおいて非常に価値のあるものになっています。

ここでこのモデルは信じられないほど強力な力を発揮するのです。続いて「Humanity’s Last Exam(人類最後の試験)」ですが、この上昇を見てください。17.7%から33%、そして33.6%から49%です。ツールなしのスコアがほぼ倍増しているのはとても興味深いですね。ツールありでも大幅な上昇を見せていますが、Sonnet 4.6はツールの使用が非常に得意になっているので、個人的にはツールありのスコアはもっと劇的に伸びるのではないかと期待していました。しかし、結果はこのようになっています。

財務分析は54%から63%に上昇しました。皆さん、ここを見てください。エージェントとしての財務分析において、全面的にナンバーワンを獲得しています。Opus 4.6よりも優れており、Gemini 3 ProやGPT 5.2すらも上回っています。このモデルは本当に仕事向けに作られています。コーディングにはそこまで特化していないかもしれませんが、それでも十分に優秀です。しかし、これは間違いなく知識労働者のために作られたモデルです。Sonnet 4.6は、知識労働における絶対的な主力ツールと言えます。

オフィス作業のスコアを見てください。16対33です。2位のモデルはOpus 4.6ですが、スコアは低くなっています。ここが本当に重要なポイントです。彼らがこのモデルを何に向けて最適化したのかがはっきりと表れています。知識労働です。ARC-AGIでは、4.5の13.6%から4.6の58.3%へと驚異的な結果を出しています。信じられません。ただし、Opus 4.6は68%で依然としてトップの座を維持しています。

GPQA Diamondでは83%から89%へと順調な伸びを見せました。MMMU Proという視覚的推論のテストでも良い伸びを示しており、多言語Q&Aは基本的に同等の結果でした。さて、これらのベンチマークにおいて最も多くのナンバーワンを獲得しているのは、依然としてOpus 4.6であり、支配的なモデルであると言えます。Opus 4.5もかなり優秀です。しかし、これを見れば、Sonnet 4.6が信じられないほど強力なモデルであることがお分かりいただけるでしょう。

実環境シミュレーションと最新のアップデート

さあ、私のお気に入りのベンチマークの1つ、Vending Benchです。ご存じない方のために説明すると、これはモデルに実際の自動販売機へのアクセス権を与え、在庫の補充、購買傾向の分析、商品の再発注といったタスクを課すというものです。基本的に、利益の最適化を目標として完全な自律稼働を行います。

結果を見てみましょう。Sonnet 4.5はシミュレーションで350日経過した時点で、約2,000ドルの利益を出しています。一方、Sonnet 4.6は、300日を過ぎた最後の50日間で一気に収益を伸ばし、なんと5,500ドルに達しています。最後に見せたこの飛躍は本当に印象的です。一体何を学んだのでしょうか。

ここには、「Sonnet 4.6は、序盤に生産能力へ投資し、終盤で利益重視に方針転換することで、Vending Benchのアリーナにおいて4.5を上回るパフォーマンスを見せた」と書かれています。非常に興味深いですね。Sonnet 4.6は適応型推論をサポートしているため、思考トークンの量を必要に応じて自由に調整できるのです。

他にも製品のアップデートがたくさんあるので、手短にお伝えしますね。APIのベータ版として、コンテキスト圧縮機能が提供されています。また、ウェブ検索と情報取得のツールが、検索結果をフィルタリングして処理するためのコードを自動的に記述し、実行するようになりました。

さらに、コード実行、メモリ機能、プログラムによるツールの呼び出し、ツールの検索、そしてツールの使用例が一般提供されるようになりました。ClaudeとExcelの連携については、アドインがMCPコネクターをサポートするようになり、さらに強力になっています。そうですね、このモデルはまさに知識労働者をターゲットにしています。

AIの安全性レベルと経済的価値の評価

モデルカードを見てみると、AnthropicはSonnet 4.6を「AI安全性レベル3(ASL 3)」として展開しています。ASL 1は、意味のある壊滅的なリスクをもたらさないシステムを指します。ASL 2は、危険な能力の初期兆候を示すシステムです。たとえば、生物兵器の作り方を教える能力などがこれに当たります。そしてASL 3は、検索エンジンや教科書といったAI以外のベースラインと比較して、壊滅的な悪用のリスクを大幅に増大させるシステムを指します。

信じられないレベルですね。ASL 4と5以上はまだ定義されていません。つまり、このモデルはASL 3に該当するということです。

ところで、この動画の中で何度も言っていることですが、改めて言わせてください。Sonnet 4.6は知識労働のためのモデルであり、このデータがそれを証明しています。これを見てください。これはArtificial Analysis社が開発したGDP-valです。もともとのGDP-valは、OpenAIのSealとそのチームによって開発されました。ですので、なぜ彼らがArtificial Analysisのバージョンを使ったのかは少し不思議です。おそらくそういう経緯があったのでしょう。しかし、結果を見てください。

Claude Opus 4.6は1606のスコアを出しました。そしてSonnet 4.6はそれよりも高いスコアを記録しています。GDP-valは、GDPの成長を促進するような現実世界での意味のあるタスクを達成する能力を測定するものです。9つの主要産業にわたる44の職業を網羅しています。

タスクの内容は、文書、スライド、図解、スプレッドシートなど、実際の仕事で作られる成果物を反映しています。このモデルがいかに現実世界の仕事に特化しているかということが、次々と証明されています。こちらは現実の財務タスクですが、Opus 4.6がトップに立っています。そしてSonnet 4.6は、わずか5ポイント差でそれに続いています。

能力の限界と今後の展望

最後に、モデルカードからいくつか興味深い点をご紹介します。こちらを見てください。「我々の判断では、Claude Sonnet 4.6はAI R&D4、またはCBRN4の能力閾値のどちらも超えていない」とあります。定義を説明すると、AI R&D4に到達したモデルとは、Anthropicの完全リモート勤務の初級研究員の仕事を完全に自動化できる能力を持つことを意味します。このモデルはまだそのレベルには達していません。

そしてCBRN4は、極端な悪用に関するAnthropicの社内能力閾値です。これは、重大な結果をもたらす化学、生物、放射性物質、または核兵器の開発、取得、または展開を意味のある形で支援できる能力を指します。しかし、ここからがクレイジーなんです。聞いてください。

「これらの閾値を除外だと確信を持って断言することは、ますます困難になっている」。これは、このモデルが我々の除外評価において高レベルの能力に近づいている、あるいはそれを上回りつつあることが一部の理由です。さらに、AI R&D4とCBRN4の閾値の一部には、根本的な認識論的不確実性が存在するか、あるいはより高度な測定方法が必要とされています。つまり、基本的には、これらのモデルがそうした危険な能力を持っているかどうかを把握することすら、ますます難しくなっているということです。

さて、Sonnet 4.6の主なポイントは2つあると思います。すでに何度も言っていますが、1つ目はこのモデルが知識労働のための主力モデルであるということです。そして2つ目は、SonnetモデルとOpusモデルの違いが何なのか、ますます分からなくなってきているということです。多くの面で、SonnetはOpusと同じくらい有能です。

では、何が違うのでしょうか?ネット上では、AnthropicがSonnet 5、あるいはOpus 5のトレーニングを行っていて、それをSonnet 4.6と名付けることにしたのではないか、と推測する人もたくさんいます。詳細な事実は分かりません。ネット上には様々な憶測が飛び交っていますが、今後の動向を追うのはとても面白そうです。ぜひこのモデルを試してみてください。私もこれから狂ったようにテストしてみるつもりです。もしこの動画を楽しんでいただけたら、ぜひ「いいね」とチャンネル登録をお願いします。

コメント

タイトルとURLをコピーしました