AnthropicがClaude Opus 4.1をリリースしたことを伝える動画である。前バージョンの4.0から各種ベンチマークで改善が見られ、特にエージェント的タスクやコーディング、推論能力が向上している。SWEBench verifiedでは74.5%を記録し、OpenAIのo3やGemini 2.5 Proを上回る性能を示している。一方で高校数学コンペティションなど一部分野では他モデルに劣る結果も示されている。

クロードが大幅アップデートを受ける
まあ、新モデル週間やな。Anthropicがクロード Opusの新バージョンを出してきよった。これがクロード Opus 4.1や。せや、当然4.0より良くなっとる。ブログはこれやで。
今日、我々はクロード Opus 4.1をリリースする。これはクロード Opus 4のエージェント的タスク、実世界のコーディング、推論におけるアップグレードや。今後数週間で、モデルに対するより大幅な改善をリリースする予定やで。素晴らしいわ。
クロード4みたいな新モデルが出てくるの、ほんまに好きやねん。なんでかっちゅうと、奴らがこれからもどんどん改良し続けて、良くしていって、これらの基盤モデルから知能の欠片まで絞り出してくれるのが分かっとるからな。
ベンチマーク結果の詳細
早速ベンチマークを見ていこか。これはSWEBench verifiedや。ここでSonnet 3.7が62.3%。Opus 4が72.5%まで跳ね上がって、Opus 4.1がさらに2%絞り出して74.5%をSweetbench verifiedで叩き出しとる。
大したことないように見えるかもしれんけど、1%ポイントずつでも大事やねん。投稿によると、クロードの深い調査とデータ分析スキルも改善されとる、特に詳細追跡とエージェント検索周りでな。これは嬉しい話やで。エージェントフレームワーク内でうまく動くほど、能力が上がっていくからな。
足場さえあれば十分やねん。もうちょっとベンチマークを見てみよか。これはTerminal Benchで、ターミナルを使う能力が43.3%、39.2%と比べてや。ここでも一桁台のパーセンテージ向上やな。
GPQA diamondっちゅうのがある、これは大学院レベルの推論や。わずかな向上で80.9%、79.6%と比べてやで。TowBenchもあるな。
これはエージェント的ツール使用で、エージェントフレームワークにとって非常に重要なベンチマークや。小売りTowBenchでは82.4%、81.4%と比べて1%向上や。けど航空会社では実際に下がっとって56%、59.6%と比べてやで。多言語Q&Aでは89.5%、88.8%と比べて、視覚推論でもう1ポイント向上、そしてAMC 2025で2.5ポイント向上して78%まで上がっとる。
他モデルとの比較
これら全部をOpenAIのo3とGemini 2.5 Proと比べてみると、Sweet Benchでは両方に勝っとるのが分かる。Terminal Benchも同じやな。
けど、GPQA Diamondでは、この2つのモデルに負けとるし、エージェント的ツール使用でもだいたい同じくらいや。けどこれを見てみ。高校数学コンペティションでは、正直かなりやられとる。o3が88.9%、Gemini 2.5 Proが88%、そしてOpus 4.1が78%や。
これらのベンチマークは実際にはそんなに重要やない。本当に重要なんは、実際に使い始めた時にどう動くか、どんなパフォーマンスを示すかやねん。今のところ、クロードは市場で最高のコーディングモデルとして知られとる。これがすぐに変わるかどうかは分からんけど、今のところは、クロードがエージェント駆動開発でのエージェント的コーディングで現在最高やっちゅうのが広く理解されとる。
まとめ
ほんで、それだけや。非常に短いブログ投稿やった。今のところ持っとる情報はこれだけや。絶対にテストするつもりやで。君らもやってみたら、どう思うか教えてくれや。この動画を楽しんでもらえたら、いいねと登録を考えてもらえたら嬉しいわ。次の動画で会おうな。


コメント