小型モデル、大きなインパクト:Haiku 4.5はエージェントのチートコード

Anthropicが新たにリリースしたClaude Haiku 4.5は、価格が上昇したものの、その性能は数ヶ月前に最先端とされていたSonnet 4を特定のタスクで上回る驚異的なモデルである。入力100万トークンあたり1ドル、出力100万トークンあたり5ドルという価格設定は過去のHaikuモデルと比較して高額だが、Sonnet 4の2倍の速度で動作し、コーディングやエージェント関連のベンチマークで優れた結果を示している。特にSWE benchやコンピュータ使用タスクではSonnet 4を凌駕し、GPT-5やGemini 2.5 Proといった競合モデルをも上回る性能を発揮する。Sonnet 4.5の3分の1のコストで利用できることから、高度な推論タスクには大型モデルを使用し、実行作業にはHaiku 4.5を活用するという使い分けが効果的となる。このモデルはエージェント構築におけるデフォルト選択肢として、開発者コミュニティにおいて重要な位置を占める可能性を秘めている。

Small Model, Big Impact: Haiku 4.5 Is the Agent Cheat Code

In this video, I look at the latest model from Anthropic, Claude Haiku 4.5, and see how it stacks up both in intelligenc...

Claude Haiku 4.5の登場と価格上昇の意味
Haikuという名前に相応しい驚異的な性能
役割分担による効率的な活用戦略
実際の速度テストと比較結果
エージェント開発における今後の活用可能性

Claude Haiku 4.5の登場と価格上昇の意味

さて、AnthropicがClaude Haiku 4.5をリリースしました。そして何だと思いますか。価格がまた上がりましたが、これは悪いことではないかもしれません。この動画では、Anthropicの最新リリースであるClaude Haiku 4.5モデルを見ていきます。このモデルの価格についてだけでなく、このモデルがどのようにしてSonnet 4の代替となっているかについても話していきます。Sonnet 4は文字通りつい最近出たばかりで、数ヶ月前には最先端のモデルでした。

また、エージェントにおいて小型が大型に勝る方法、特にHaiku 4.5がどのようにしてエージェント構築のデフォルトモデルの1つになる可能性があるかについてもお話しします。それでは始めましょう。

まず最初に、やや残念な部分、つまり価格についてです。モデルの価格が上がっています。現在、入力100万トークンあたり1ドル、出力100万トークンあたり5ドルとなっています。

これを以前のHaikuモデルと比較すると、Haiku 3.5は出力100万トークンあたりわずか4ドルで、Haiku 3は出力100万トークンあたりわずか1.25ドルでした。Haiku 3が登場したとき、これは私のお気に入りのモデルの1つでした。非常に安価で、非常に高速で、多くのことができたからです。ですから、価格だけを見れば、これは興味深いモデルではないと考えたくなるでしょう。

Haikuという名前に相応しい驚異的な性能

しかし実際には、これは非常に興味深いモデルです。このモデルは単にHaikuという名前ではなく、独自の名前に値するのではないかと思うほどです。ただ、ここでAnthropicが言おうとしているのは、私たちの最小のモデル、最速のモデルは常にHaikuモデルになるということなのでしょう。これに関連する統計を見ると驚くべきものがあり、またOpus 4.5が登場したときには完全に怪物級のモデルになるだろうと期待せざるを得ません。

リリース内容に飛び込んでみると、Claude HaikuがClaud Sonnet 4を特定のタスクで上回るという話が出てきます。彼らはClaude for Chromeアプリを使用する例を挙げています。これはまだあまり広く利用できていないと思いますが、Haiku 4.5のベンチマークをいくつか見てみましょう。

ここで比較されているものを見ると、まず最初に気づくのは、Gemini FlashやGemini Flash Lite、GPT-5 miniなどとの比較がないことです。本来ならこれらと比較すべきなのですが、そうした比較はここにはありません。ここでは他のプロバイダーの大型モデルだけでなく、以前のSonnet 4モデルとの比較も見られます。

実際、このモデルはSonnet 4をSWE benchで上回っていることがわかります。さまざまなエージェント関連のベンチマークやコンピュータ使用などでも優れており、正直なところ推論のベンチマークでもそれほど遅れを取っていません。Haikuはおそらく最高の推論を求める場合に使用するモデルではないように見えます。

役割分担による効率的な活用戦略

しかしAnthropicが言おうとしているのは、推論タスクには大型のSonnet 4.5、あるいはOpus 4.5が登場したらそれを使用するということです。そして、多くの作業を非常に迅速な方法でこなすための、いわば実働モデルとしてこのHaiku 4.5モデルを使用できるということです。

全体として、ベンチマークを見ると、このモデルがGPT-5を打ち負かし、Gemini 2.5 Proを打ち負かせることができるというのは驚くべきことです。エージェント関連のタスクやコーディングタスクを、おそらく多くの既存モデルよりもはるかにうまくこなせるようです。

それだけでなく、Sonnet 4の2倍の速度でそれを実行できるようです。これは、Anthropicが基本的にインテリジェンスレベル、タスクを実行する能力のレベルだけでなく、速度レベルでもモデルを改善する方法を見出しているということを本当に示しています。

Claude Codeのようなものを使用している人々にとって、さまざまなエージェントを構築している人々にとって、これはますます重要になってきています。人々は既存のものよりも速いモデルを本当に必要としているのです。

Anthropicは、Claude Sonnetが依然として彼らのフロンティアモデルであり、世界最高のコーディングモデルであると述べています。しかし、この2倍の高速化と、Sonnet 4とほぼ同等になってきたインテリジェンスを考えると、古いHaikuと比較して実際に高価になったという事実は本当に重要なのでしょうか。

これは現在、Sonnet 4.5を使用する場合のコストの3分の1です。つまり、これがあなたの実働モデルになるというシナリオに戻ると、多くの作業をこなし、おそらく計画を立てるより賢いモデルによって作業が委任されるモデルということになります。

これは、それらの計画を実行し、Sonnetモデルに組み込まれてきたすべての関数呼び出しやエージェント関連の機能を活用するために使用するモデルの種類となるでしょう。それでは、コードに飛び込んで、Sonnet 4、Haiku 4.5、Sonnet 4.5の間で速度、インテリジェンス、返される応答について実際に比較してみましょう。

実際の速度テストと比較結果

さて、実際にモデルを実行してみると、GCP経由で実行しています。BedrockやAnthropicの独自インフラでは異なる結果が得られるかもしれません。私の理解では、これらはTPU上で実行されるモデルのバージョンなので、それに最適化されています。ですから、わずかに異なる結果が見られるかもしれませんが、基本的にここで試したかったのは、最初のトークンまでの時間を計測し、これらのモデルの多くを実行して、基本的に何かを生成するのにどれくらい時間がかかるかを見ることでした。

ここで見ることができるように、シンプルなプロンプトを与えると、Claude Haikuは超高速で処理しています。3.6秒で応答が返ってきました。最初のトークンまでの時間は0.5秒弱です。これは実際にこのモデルがどれほど速いかを本当に示していると思います。

Sonnet 4.5に戻ると、最初のトークンまでの時間がかなり長く、2倍以上です。完全な応答についても長くなっています。Sonnet 4と比較すると、最初のトークンまでの時間がさらに長くなっていることがわかりますが、応答時間は少し短くなっているようです。これは返されるトークン数によるものかもしれません。

次に、Haikuを古いバージョンのHaikuと比較し始めると、このバージョンの前のバージョンである3.5 Haikuと比較して、実際にはパフォーマンスまたは速度でかなり良い向上が見られることがわかります。最初のトークンまでの時間は約0.7秒でした。

しかし、Claude 3 Haikuまで遡ると、これは多くの点で非常に伝説的なモデルだったと今でも思いますが、これはおそらくより小さいモデルであることがわかります。最初のトークンまでの時間は4.5 Haikuとほぼ同じですが、生成の総時間はここの方が速いようです。

全体として、Claude Haikuは、はるかに多くのインテリジェンスを持ちながらも、実際にClaude Haiku 3.5よりも速い時間を実現しており、確実にSonnetモデルよりもはるかに速いという、本当に素晴らしいバランスを持っているようです。

エージェント開発における今後の活用可能性

ですから、動画の中で既に何度か述べたように、これは多くのことを投げかける本当に優れた実働モデルになるだろうと考えなければなりません。それがエージェント用であろうと、構造化された出力、分類タスク用であろうと、この種のモデルで本当にうまくできると想像できるあらゆる種類のことがあります。

ですから、いくつかのエージェントフレームワークに関するフォローアップを行う予定です。そこでは確実にClaude Haikuモデルを試してみるつもりで、おそらくそれを近日公開予定の動画に入れます。

ご視聴ありがとうございました。このような動画をもっと見たい場合は、いいねとチャンネル登録をクリックしてください。次の動画でお話ししましょう。それではまた。