
本動画では、Claude 4およびGemini 2.5モデルが専門家混合(MoE)アーキテクチャを採用している可能性について、独自のベンチマークツール「Chuck LLM」を用いて検証している。トークン毎秒生成数と初回トークン生成時間を指標とし、OpenAI、Anthropic、Google、Mistralの各モデルを比較分析した結果、新しいClaude 4モデルやGemini 2.5モデルは初回トークン生成に時間がかかる傾向が見られ、これはMoEアーキテクチャの特徴と一致するという結論に至った。
14,038 文字
こんにちは、お帰りなさい。今週はClaude 4のOpusとSonnetモデル、そして新しいGemini 2.5モデルの両方をいじり回していました。そして、両方のモデルについて興味深い発見をしたのですが、どちらも専門家混合モデルだということです。
この動画では、ベンチマークを使ってモデルの分類を発見する方法についてお話しします。
もしあなたが「それで?Claude 4がMOEモデルだろうとGemini 2.5がMOEモデルだろうと、私はただモデルを使いたいだけだ」と思っているなら、実は、これらのモデルプロバイダーに対して非機能的ベンチマークを行う方法を理解することは有用なのです。なぜなら、プロバイダーによってモデル間の性能差が劇的に異なるからです。
この動画では、どのようにこれを行い、どのように独自のベンチマークを作成できるかをお見せします。
なぜ私がプロバイダーをベンチマークしているのか疑問に思っているでしょう。理由は、MCPLIと呼ばれるものを持っていて、これによって異なるモデルプロバイダーやモデルに接続し、それに対してモデルコンテキストプロトコルを使用できるからです。
そして、異なるプロバイダーに接続できるように、その下にあるLLMエンジンを取り出しています。LLMのようなものがあることは承知していますが、最大の性能と最大の機能を引き出したいのです。そのため、自分のライブラリをコントロールしたいのです。そこで、Chuck LLMと呼ばれるライブラリを構築しています。
ここで見ていただけるように、現在Grokプロバイダーを使用していて、これは非常に高速です。でも、例えばOpenAIに切り替えて「こんにちは」と言えば、今度はGrokではなくOpenAIと話していることになります。ストリーミングなどを実装しようとしています。
そのため、既存のライブラリを取り出して、新しいChuck LLMライブラリを入れたいのです。それが私がこれを行っている理由です。
これを機能させるために、私が行っていることの一つは、たくさんの使用例スクリプトを構築することです。Chuck Lalmというプロジェクトがあります。これは私のGitHubにあります。リンクを投稿します。そして、たくさんの使用例を作成しました。
例えば、OpenAIの使用例を実行すると、GPT-4に行くのが見えます。基本的なテキスト補完を行います。ストリーミングを行います。モデル情報を取得します。そして関数呼び出しのようなことを行います。ビジョン、JSONモードなどをテストします。
これにより、Chuck LLMライブラリを通じて接続している各モデルが実際に機能し、私が求める機能を持っていることをテストできます。しかし、これは非機能的な観点からのことをカバーしていません。
そこで必要だったのは、各モデルがトークン毎秒の観点からどのように実行されるかを判断できるベンチマークスクリプトでした。また、最初のバイトをいつ送信するかを理解することも重要で、これはストリーミングとチャンキングに非常に有用です。
これが、各モデルを互いに対戦させることができる新しい種類のベンチマークスクリプトを作成した理由です。
この場合のOpenAIを機能的な観点から見ると、正常に動作しています。基本的なストリーミング、モデル情報、ビジョン、JSONモードを教えてくれます。これはすべて非常に良好です。
先ほど申し上げたように、異なるモデルプロバイダー用にもこれを作成しました。Anthropic用、Mistral用、Grok用、Gemini用も作成しました。
Anthropicのものを実行してみると、新しいClaude 4 Sonnetモデルを使用しているのが分かります。そして今、そこでビットストリーミングを行っています。これもすべて非同期で動作し、関数呼び出しを行っています。これはすべて素晴らしいです。
では、ベンチマーキングと各モデルの実行方法の理解に移りましょう。ここで小さなスクリプトを作成しました。これはbenchmarksフォルダーの下にあり、compare modelsと呼ばれるスクリプトです。そして、プロバイダーを設定します。この場合はOpenAIです。そして、互いに対戦させたいモデルのリストを提供します。
GPT-4.1対GPT-4.1 mini対nano対GPT-4.0 mini turboなどを実行できます。そのプロバイダースイート内の任意のものを互いに対戦させることができます。
実行回数を設定できます。デフォルトで3回にしていますが、5回、10回でも構いません。実行回数を多くするほど、平均が滑らかになり、スパイクが少なくなるため、結果が良くなります。
しかし、この動画のために、デフォルトの3回に固執します。変更したい場合は、–runsを使用して5、10などに設定できます。
まずはOpenAIを実行してみましょう。ベンチマークバトルの観点から見ると、コンテンダーがいます。これを楽しい小さなボクシングリングのようなアリーナタイプの雰囲気にしました。
最初に行うことは、これらのモデルをウォームアップし、テストをランダム化することです。そして、各テストを文字通り実行します。この場合、最初にturboに行き、miniに行き、文字通りテキストを送信し、全体的なトークン毎秒をキャプチャします。
この場合、GPT-4 turboが36トークン毎秒で実行されているのが分かります。そして4.1 miniが46で、4.0 miniが47で実行されています。
なぜこれがすぐに重要なのでしょうか?これらのテストを行うと理解し始めることができるのは、トークン毎秒に影響する多くの要因があるため完璧ではありませんが、モデルについて持っている知識や同様に実行されているモデルから、アーキテクチャが何であるかについて合理的な推測を行うことができます。
この場合、4.1 miniと4.0 miniがほぼ同じ性能を発揮していることが分かります。46トークン毎秒、47トークン毎秒です。同じシリーズの4.0 mini、4.1 miniであることを考えると、それらがほぼ同じアーキテクチャ上にあると推測するのは不合理ではありません。
また推測できることは、それらが同じインフラストラクチャ上で実行されているということです。そのため、同様の結果が得られます。実行回数を多くするほど、良くなります。
これは完璧な比較ではありません。モデルが異なるアーキテクチャ上にある場合、性能に影響する異なる要因があるからです。しかし、何が似ているかを推測し始めることができます。
しかし、モデルアーキテクチャとその類似性を推測していなくても、モデルアーキテクチャから得られる性能を知ることは依然として有用です。本番環境に移行するときに、これが300トークン毎秒、50トークン毎秒、または1,000トークン毎秒で実行されていることが分かるからです。
これにより、アプリケーションから何を期待できるかについて良いアイデアが得られます。
これを進めていくうちに、リーダーボードが表示されるまで待ちます。実行に少し時間がかかりますが、その後AnthropicとGeminiのテストに移ることをお約束します。
OpenAIの出力を見ていて興味深いのは、GPT-3.5 Turboモデルです。これに注目してください。GPT-3.5、元のGPT-3.5ではなく、Turboを覚えていますか?ChatGPTを初めて使用したときのことを覚えていますか?あの速さを覚えていますか?あれは本当に速く出力して、「なんて速いんだ」と思ったものです。
APIで依然として利用可能なそのモデルは、絶対に圧倒的です。GPT-3.5 Turboを見ると、約103トークン毎秒で実行されています。GPT-4.1 nanoモデルだけが実際にこれに近いものです。
最初のラウンドのリーダーボードを見ると、これは各ラウンドが発生するたびに更新され、面白いことに、期待通りでもあり、同時に期待通りでもありません。
GPT-4.1 nano、これは最小のモデルです。最新のアーキテクチャ、最小のモデルで、最高の平均TPSで実行されており、確実にピークを持っています。最初のトークンまでの時間、つまり最初にトークンを出力するまでの時間は0.45秒です。これは非常に高速です。実際に本当に良いです。
GPT-3.5 Turboは私を驚かせます。これは2番目に高速なモデルです。GPT-3.5 Turboのサイズは分かりません。しかし、高速なモデルであることは分かっています。
しかし、そこから推測できることがあります。GPT-4.1は新しいアーキテクチャですが、おそらくGPT-4.1 nanoよりも少し大きなモデルですが、それほど大きくはありません。そして4.1 nanoはより最適化されたアーキテクチャを持っているでしょう。
GPT-3.5 Turboは確実に小さなモデルです。元のGPT-3自体のサイズを覚えているなら、公開されたときは約1750億パラメータでした。したがって、その3.5 turboモデルははるかに小さなモデルであることが分かります。
これは依然としてGPT-4.1よりも高速です。サイズ的には、その2つの間のどこかにあります。
これらのケースで注意してほしいクラスターがあります。これら2つのモデルは本当に低い最初のトークンを持っています。最初のトークンまで0.45秒、そして0.52秒です。
モデルを下に見ていくと、何かを見始めることができます。GPT-4をちょっと無視しましょう。後で戻ってきます。
GPT-4.0 miniと4.1を見ると、これらはおそらくより大きなモデルで、0.72秒と0.65秒です。これらから何を取ることができるかは分かりませんが、GPT-4.0、GPT-4.1 mini、そしておそらく4.1、GPT-4 Turboを見ると、最初のトークンを出力するまでにかなり長いギャップがあります。
実行が進むにつれて、これは時間とともに平均化され、その数値のより良い手がかりが得られます。これが現実的に教えてくれると思うのは、4.0モデルはおそらく専門家混合モデルだということです。実際、おそらくではなく、その意味で確実だと私は主張します。
Anthropicに移るときも同じ仮定をします。専門家混合モデルについての特徴は、密集モデルとは異なり、すべてがメモリにあるのではなく、専門家混合モデルはこの時点でアクティブスライスと呼ばれるもののみを持っているということです。
モデルの特定の数のエキスパートまたはスライスを持つ傾向があります。これは小さなモデルで構成され、その後より大きなパラメータ数になります。
例えば、100億パラメータのエキスパートまたはモデルのスライスが10個あれば、それは1000億パラメータモデルになります。しかし、その時点でメモリに必要なのは、アクティブなエキスパートの数だけです。
2つのアクティブなエキスパートがあれば、1000億パラメータモデルを持つことができますが、メモリには100億パラメータの2つのスライスしかありません。つまり、200億パラメータのみがその時点でメモリにあります。
推論が発生すると、必要なエキスパートをロードし、それらのエキスパートを使用するだけです。実質的に200億パラメータでのみ動作しています。
これは多くの人々が行っている大きな最適化です。しかし、そこにはコストがあります。メモリに適切なエキスパートを用意する必要があり、したがってルーティングレイヤーがあります。適切なエキスパートにルーティングする必要があり、そのコストが最初のトークンで影響します。
すべてがメモリにロードされている完全に密集したモデルを考えると、最初のエキスパートにすぐに到達できます。これらが専門家混合を持っていないとは言いませんが、他よりもアクティブなエキスパートが確実に多くあります。
そのサイズでの相関関係も見ることができます。4列モデルが1.7秒を見ているからです。
第2ラウンドに入り、少し正規化され始めているのが分かります。3.5 turboと4.1 nanoが平均TPSでリーダーを争っています。
私のネットワークなど、遅延、クラスターの実行状況などがすべてこれに影響します。実行回数を多くすることで、より良いアイデアが得られます。
私の統計について皆さんが反対し、議論することは確実で、それで構いません。しかし、これは理にかなっているようです。4.1 Nanoがかなり高速で実行されるというのは異常値ですが、理にかなっているようです。
4.1は4.0 miniよりも高速で実行されているようです。現時点では4.1 miniよりも高速であるようですが、実行回数とともに時間をかけて滑らかになると思いますが、4.1はおそらく最初に4.1 miniよりも使用されているでしょう。
考慮すべきことは、プロバイダーがモデルからどれだけ忙しいかということです。それがロードされ、良いアーキテクチャ上にあるが、実際には過負荷になっていない場合、異なるモデルからより高速な性能を得ることができるかもしれません。
特にモデルアーキテクチャが近い場合、いくつかのことは高くなったり低くなったりします。しかし、判断できる大きなことは、元のGPT-4がただ最も遅いモデルだということです。毎秒28です。
高速な最初のトークンを持っています。そのため、おそらく密集モデルか、もしそうなら、深いバックボーンを持つ少数のエキスパートです。一方、これらの向こう側、特にGPT-4は、すべてクラスター化されています。確実に大きな古い専門家混合モデルです。
ここでも同じように主張しますが、これらは非常に密集しています。おそらく単純な密集モデルです。
最終結果を見ると、3.5 Turbo 1位、4.1 Nano、そして4.0 mini、4.1 mini、4.1、4.0です。
時間とともに滑らかになると言ったように、4.1は4.0とともにあるべき場所に移動し、すべてクラスター化されています。これを10回実行すれば、もっと理にかなうでしょう。
3.5 TurboとGPT-4はおそらく密集モデルだと主張しています。もしそうなら、非常に軽いですが、4.1 nanoは確実に密集モデルではないと思います。
今度はまったく同じスクリプトを実行しますが、今回はOpenAIではなくAnthropicを使用します。この場合に比較するモデルは、新しいClaude 4 Opusモデル、Claude Sonnet 4モデル、Claude 3.7 Sonnet、Claude 3.5 Sonnet、3.5 Haiku、Claude 3 Opusになります。
基本的にAPIで利用可能なモデルです。前と同じように、3回実行しています。5〜10回実行すればより良い結果が得られますが、この動画のために短時間で済ませようとしていますが、5〜10回実行すれば滑らかになります。
第1ラウンドの結果が出ています。2ラウンド残っていますが、第1ラウンドで既に見ているいくつかのことを説明したいと思います。結果の一部に驚かれるでしょうし、一部は一貫して残り、また一部は時間とともに滑らかになります。
おそらく期待するであろう最初のことは、Opusモデルが最も遅いモデルであるべきだということです。なぜなら、それらは大きなモデルだからです。そして、それがその通りであることが分かります。
下の方にClaude 3 OpusとClaude Opus 4が見えます。これらは遅いモデルです。Opus 4での平均TPSが23トークン毎秒であることが分かります。Claude 3のものは29トークン毎秒です。
これについて考えてみると、これは実際にOpenAIの実行で見たGPT-4 TPSとほぼ同じサイズです。完全に異なるアーキテクチャで実行されているため、比較することはできません。Claude 3とclaude 4はAWSまたはGoogleのいずれかで実行されているでしょう。
APIを動かしているのがどれかは分かりませんが、いずれかでしょう。確実にAzureで実行されているわけではありません。しかし、そのような類似性能があることから、モデルアーキテクチャが似ているのは驚くことではありません。
本当に驚くのはおそらくこれです:Haikuが安価なモデルであることを覚えていますか?実際に何が起こっているのでしょうか?Haikuモデルは実際に3.5 Sonnetモデルよりも遅く動作しています。Haikuはより小さく、より安価なモデルであるはずなのに、これは私を驚かせます。
アーキテクチャ的に、Sonnetはおそらくその時点で最も多くの人がヒットしているモデルなので、Claude 3.5 Sonnetと3.7 Sonnetが可能な限り高速で実行されるように大幅に最適化されていると思います。
何かがより小さいからといって、より大きなモデルよりも高速で実行されないわけではありません。それをより高速で実行させる多くの最適化とアーキテクチャ的なことがあるからです。
しかし、Haikuでより高速なモデルを得られると思っているなら、それは事実ではないということを考慮すべきだと思います。
時間とともに滑らかになりますが、いくつかのことを指摘したいと思います。Claude 3 opusを見ると、この場合の最初のバイトまでの時間は0.87でした。一方、opusは約3秒という驚異的な時間でした。
3.5 haikuは1.6、claude 4 sonnet 2.45秒、一方3.5 sonnetと3.7 sonnetは約1.137秒でした。
3ベースのモデルの最初のトークンまでの時間が4ベースのモデルよりも高速であることが既に分かります。Sonnet 4とOpus 4は両方とも最初のトークンを得るのに大幅に長い時間がかかっています。
この最初の実行だけに基づくことはできません。滑らかになるのを待つ必要があります。しかし、創造的テストエリアでも確実にBDKが少し高いように見えます。opus 4を見ると、それは再び他のすべてよりも高いです。
最初のトークンまでの時間が長くなるという傾向が見えており、これは専門家混合の良い指標です。最初のトークンまでの時間が他のモデルよりも長くかかるということは実際に、密集モデルと比較しているか、はるかに多くのヘッドを持つ何かがあり、通過するのに時間がかかることを意味します。
3.5と3.7モデルについて、最初のトークンを得るのにかかった時間を見ただけでも、それらがMOEモデルである可能性を議論できると思います。しかし、3 opusモデルはそうではないと思います。それは0.87です。
しかし、誰が知っているでしょうか?その下にあるアーキテクチャは分からないのです。しかし、確実に言えることは、特にこれが滑らかになるにつれて、4を見ると、4は確実にMOEモデルだということです。
このアーキテクチャで本当に見ているのは、最新の実行を見ると、Sonnet 4が3.5よりも高速で実行されているということです。より高いTPSを持っていますが、最初のトークンまでの時間が長いです。実行とともに滑らかになりますが、これは専門家混合モデルの指標です。
Claude 3 opusとclaude 4 opusを比較すると、十分類似したTPSです。時間とともにこれを滑らかにしますが、opus 4は最初のトークンに到達するのに大幅に長い時間がかかります。
第2ラウンドが来て、次のスコアを見ることができます。Sonnetはこの約62トークン毎秒で一貫して保持されています。その時点で3.5と3.7よりも確実に高速で実行されています。最初のトークンまでの時間はおそらく1.3で滑らかになっています。
私の仮説は少し間違っているかもしれません。一貫した最初のトークンまでの時間を得ているからです。しかし、Sonnet 4はより高いTPSで実行されています。
増加したTPSが見えますが、実際には最初のトークンまでの時間は似ています。しかし、再び下のopusで本当に違いが示されています。Opusは2.5秒かかりますが、claude 3 opusは0.83です。
第3ラウンドで、言ったように滑らかになります。実行回数を多くするほど、より滑らかになります。62平均トークン毎秒で滑らかになりましたが、最初のトークンまでの平均時間は1.8で、一方3.5は1.1、1.3に座っています。
Haikuはひどいです。Haikuで何が起こっているのか分かりません。Claude 3 opus低い最初のトークン時間0.83。claude 4 Opus 2.5、そして再びTPSは少し異なります。
これは期待するであろうことです。Sonnet 4が最も高速なモデルであることを期待するでしょう。個人的にはHaikuが最も高速であることを期待していましたが、それを超えて、Sonnet 4が最も高速なモデルであることを期待するでしょう。
しかし、Sonnetのこの新しいリリースで、信じられないモデルですが、最初のトークンまでの時間が増加していることが分かります。これはかなり良い指標だと思います。
専門家混合モデル対そうでないものを気にしなくても、モデルから得られるTPSを知ることは本当に有用になります。Sonnet 4の平均TPSが62トークン毎秒であることが分かります。これは私たちにとって非常に興味深い情報です。
Anthropicのものでは、多くのエラーも発生することが分かります。この実行ではありませんが、見られることです。これは注意すべきことです。
OpenAIモデルと比較し始めると、OpenAIのものよりも遅いです。GPT-4のものよりは遅くありませんが、minisやnanosの類を見ると、そこで約2倍のTPSを得ています。
これらのベンチマークを行うことは有用で、モデルの性能対能力のトレードオフを開始できます。これは今後本当に重要になると思います。
もう一つやりましょう。今度はGeminiのものを実行します。Geminiモデルを接続しました。Geminiをプロバイダーとして設定しました。この場合実行するモデルは、4月からの2.5 flash previewと今週初めにリリースされた5月のものです。
pro previewも実行します。Gemini 2 Flash、Gemini 2 Flash Light、Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini 1.5 Flash 8Bも実行します。
これは有用です。それが80億パラメータモデルであることを知っているからです。彼らがそれが80億パラメータモデルだと教えてくれたからです。何が起こるか見てみましょう。
すべてのウォームアップエラーは無視できます。それほど重要ではありません。一部のモデルをまだ修正中です。しかし、このベンチマークには実際に問題ありません。
注意してほしいことの一つは、これがOpenAIとAnthropicの両方よりもはるかに高速で実行されていることです。時間とともに滑らかになりますが、これはおそらくGoogleが推論用に最適化された独自のチップを実行している利点だと思います。
ここを見ると、Gemini 1.5 8Bモデルが驚異的な236トークン毎秒で実行されています。それが80億パラメータモデルであることを知っているので、これはベースラインのアイデアを与えてくれます。
これらはここで137トークン毎秒です。これは4月の2.5 flash previewです。そして5月のものは148です。改善などを行ったでしょうが、大差ありません。
古いモデル、1.5 Proのようなものを見ていくと、毎秒51トークンであることが分かり始めます。1.5 Flashは毎秒149トークンで、Gemini Flashのものと似ています。
リーダーボードを見てみましょう。滑らかになります。これはテストとして非常に高速で実行されています。しかし、すぐに理解し始めることができるいくつかのことがあります。
Gemini 1.5 flash 8B。80億パラメータであることを知っているので、平均236トークン毎秒を実行する良い参照点です。2.5モデルは非常に高速で実行されており、これは素晴らしいです。
しかし、これら2つの5 flashのものに注意してほしいのは、再び私のポイントに戻ると、Anthropicのように、そのflash 8Bモデルの最初のトークンまでの時間がここで0.48です。
Gemini 1.5 flashが密集モデルだった推測を取ることができると思います。0.48の専門家混合ではなかったと確信できると思います。おそらくそうだったかもしれませんし、そうでなかったかもしれませんが、密集モデルだったと仮定できると思います。
Gemini 1.5 flashが0.27で実行されているのは確実に密集モデルと仮定できます。0.5と0.27での最初のトークンまでのこれらの時間により、これらは密集モデル、つまりMOEモデルではないかなり良い推測を取ることができます。
ここで最初のトークンまでの時間が2.5 flash previewで5.7秒、ここで6.3秒であることが分かります。そしてpro previewでは12秒なので、最初のトークンに到達するのに驚異的な時間がかかっています。
他に何かが起こっている可能性があり、アーキテクチャが設定した方法やその他である可能性があります。専門家混合のことが起こっていると思いますが、最初のトークンに到達するのにそれよりも高速で実行されるべきだと思います。それは多くの遅延とラグです。
それは彼らのAPIの問題である可能性があります。しかし、これらの問題にはヒットしていません。いずれにせよ、おそらく専門家混合モデルだとかなり明確だと思います。しかし、ある意味では重要ではありません。
見てほしいことの一つは、これらのトークン毎秒が素晴らしいということです。本当に高度に最適化されています。
考慮すべきことの一つは、OpenAIやAnthropicモデルと同じ結果をGeminiモデルから得ることができるなら、機能的に同じになるなら、TPSの戻りがはるかに速いため、よりスナッピーなアプリケーションを得ることになるということです。
これらのGeminiモデルで指摘したい最後のことは、これら2つの5 flashについて、8Bを参照点として使用していたなら、APIのオーバーヘッドなどを考慮すると、これら2つの性能はかなり近いです。
これらのflashモデルはおそらく専門家混合だが、おそらく90億パラメータスライスがあり、その上でいくつのエキスパートが実行されているかという良い可能性があると思います。
最終結果を見ると、期待するように、8Bモデルは最終的にflash previewに負けました。これは驚異的です。本当に速度に最適化しています。
最後の比較のために、Mistralモデルに対してこれを実行します。Mistral large、medium、small、code minusなどに対して実行します。
これはおそらく実行するのに興味深いものです。何かがほぼ同じ速度で実行されるという事実を、ハードウェアがどれだけ割り当てられているかなどに依存するため、モデルのサイズのガイドとして取るべきではない理由のアイデアを与えてくれるからです。
しかし、密集モデルがどのように見えるかのアイデアも与えてくれます。Mistralについて透明性がないことを知っているからです。彼らのモデルが専門家混合ではない、または少なくとも私がここで実行したものはそうではないことを知っています。それらはすべて密集モデルであることを知っており、彼らのハードウェアインフラストラクチャを見ると、これは驚異的です。
Mistral 3Bモデルを見ると、216トークン毎秒で実行されています。そしてMistral 8Bモデルを見ると、104トークン毎秒で、ML largeは70トークン毎秒です。
時間とともに滑らかになりますが、異なるプロバイダーで類似のモデルがそれぞれのAPIで異なる性能を持つというアイデアを与えてくれます。テストする価値があります。
しかし、期待するであろう大まかなサイジングを与えてくれます。例えば、Mistral largeが8Bモデルよりも遅く実行されることを期待するでしょう。
正直に言うと、70トークン毎秒を見ていると、mediumモデルがlargeよりも遅くなることは確実に期待しないでしょう。実行回数とともに滑らかになりますが、ちょっとしたことです。しかし、実際には、これはかなり良いです。
Mistral 3Bが最も高速なモデルであることを期待するでしょう、216トークン毎秒で。8Bが約100トークン毎秒で良い性能を発揮することを期待するでしょう。そして、small、medium、largeが下がっていくことを期待するでしょう。
Mistral smallは240億パラメータモデルで、8Bとあまり違わない性能を発揮していません。これは、アーキテクチャの性能、メモリに何がロードされているか、GPUをどこに置いたかなどによるものです。
アーキテクチャは、サイズが必ずしもTBSを決定するわけではないことを意味しますが、これは期待するであろうことの種類です。しかし、これは清潔な最初のトークンまでの時間です。どれほど清潔かに注意してください?0.28、0.283、0.39。私たちは既に彼らがすべて密集モデルであることを知っています。
Geminiモデル、特に新しいもの、そしてAnthropicのものに戻ると、確実にMOEモデルだと言えます。2.5のものについては少し疑わしいです。ライブ実行を見るよりも、少し外れているように感じるからです。
実際のライブ実行を見るのではなく、以前に行った実行を持ち出し、それをchat GPTに入力して、何かがMOEか否かについての予測を見るのが面白いと思いました。非常に興味深いと思いました。
この場合の最初のトークンまでの時間は0.55で、タイミングは私が持っていた実行とは少し異なります。2.5 proの最初のトークン時間は13秒でしたが、その実行では2.5 flashのものは4.2秒から6.5秒だったので、これらの実行では少しより合理的でした。
それに何のモデルだと思うかを推測するよう求めました。1.5 flash、2.0 flashがすべて密集モデルだと思いました。これは合理的だと思います。そして、すべてのProモデルがMOEモデルだと思い、2.5 flashモデルの種類がMOEだと思いました。
これはかなり興味深いと思います。アクティブパラメータを推測しました。おそらくそこで正しいと思います。2.5 flashモデルが90億パラメータモデルだと思い、これらが約200億、1.5が360億パラメータだと思っています。エキスパートの数を推測しています。
正しいか間違いかは分かりませんが、十分合理的に思えます。
少し前に行ったAnthropicの実行を見ると、Haikuが密集モデルだとかなり確信していました。3.5 sonnetと3.7 sonnetは、最初のトークンまでの時間が少し高いにもかかわらず、密集モデルでした。
議論できます。しかし、claude 4については、これがMOEモデルだと非常に確信していて、約10のエキスパートを考えています。100億パラメータと言っていますが、これについてはそれほど確信していません。これらのモデルのアクティブパラメータははるかに高いと思います。
3は確実に密集だと思います。これらのいくつかはより少ないパラメータ数でMOEである可能性がありますが、そしてclaude 4についても同じことを言いました。
OpenAIのものを実行しました。実際にそれで戻ってくることができたのに驚きました。その数字には同意しません。nanoが密集モデルだと言っており、3.5 Turboが密集モデルだと言っています。これらすべてに同意するでしょう。
GPT-4が密集モデルだったと言っています。それについてはそれほど確信していませんが、それを基にします。そして、他のすべての4.1のすべてのモデルが基本的にMOEモデルだと確実に言っています。
これはかなり興味深いことだったと思います。
とにかく、これが私の性能実行です。私のベンチマークを更新していただけます。私のレポジトリに行けば、Chris UK Chuck LLMで、そこでベンチマークを実行できます。
これは非常に楽しいと思います。MCP CLIに持ち込むので、これを改善するつもりです。現時点でAPIの問題かどうかを判断するのは困難ですが、新しいGemini 2.5モデルも同様にMOEモデルである可能性が高いと言うのはおそらく公正でしょう。
しかし、この目的は本当にベンチマークに行くことです。今日見たように、ヒットしているアーキテクチャに基づいて、非常に異なるトークン毎秒を得ています。それで遊ぶ価値があります。
私のトークン毎秒を当然のものとして受け取らないでください。OpenAIでtick tokenを使用しているため、より正確なものはOpenAIにあります。ある時点で異なるプロバイダーモデルを使用するように切り替える必要があります。クラウド間で比較することはできません。
時間をかけて修正する必要があることですが、OpenAIのもの以外はより多くのガイダンスです。しかし、自分でこれをテストする必要があります。異なるモデル、異なるプロバイダーが異なる結果を持つからで、それをチェックアウトする価値があります。
とにかく、この動画が役に立ったことを願っています。次回お会いしましょう。


コメント