同じモデル、まったく違う結果—その理由を解説

この動画では、同じAIモデルであってもAPI提供者や推論設定によって大幅に異なる結果が生まれる理由について詳しく解説している。OpenAIのGPT-o1を例に、異なるクラウド提供者間でのパフォーマンス差を検証し、量子化、プロンプトテンプレート、推論設定などの技術的要因がモデルの性能に与える影響を分析している。特にMicrosoft AzureやAmazon Bedrockといった大手プラットフォームが必ずしも最高の性能を提供していない実態を明らかにし、ローカルホスティングソリューションでも同様の問題が発生することを指摘している。

Same Model, Totally Different Results—Here’s Why

Deciphering GPT-OSS Performance: Why Inference Setup MattersWe explore the performance variability across different API ...

ローカルモデルの推論設定は難しい
ベンチマーク結果による提供者比較
GPQA、AME 2025、IFBenchの結果分析
パフォーマンス差の原因
プロンプトテンプレートとハーモニー形式
推論設定と推論努力
ローカルホスティングソリューションでの問題
動画の本当の目的

ローカルモデルの推論設定は難しい

ローカルモデルの適切な推論設定っちゅうのは、めっちゃ難しいもんや。最大手のAPI提供者でさえ間違いを犯すし、全機能を提供してへんのが現状や。OpenAIのGPT-o1がええ例やな。

Open Router上には、同じモデルを異なる価格帯と異なるレイテンシで提供しとる複数のプロバイダーがあるんや。でも問題は、これらの提供者から同じパフォーマンスが得られるかっちゅうことや。

残念ながら答えはノーや。提供者によって、価格と速度だけやなくて、知性レベルも大きく違ってくるんや。そして最悪の2つが、おそらく最も広く使われてるやつらなんや。

残念ながら、ローカルでホストするソリューションでも同じことが言える。この後の動画で詳しく説明するで。

ベンチマーク結果による提供者比較

Artificial Analysisチームが、3つの異なるベンチマークで異なるAPI提供者のベンチマークを実施したんや。これにはGPQA、AME 2025、IFBenchが含まれとる。

彼らは複数回ベンチマークを実行して、API提供者によって大きな差があることを示したんや。GPT-o1について話しとるけど、リモートAPI提供者でホストされとる他のオープンウェイトモデルでも同じことが言えるで。

実際、昔にLlama 4で全く同じ問題を取り上げた動画を作ったことがあるんや。

価格の面では、ほとんどが似たようなもんや。GroqとCerebrasがおそらく最も高いけど、市場で利用可能な最高のスループットも提供しとる。

Cerebrasは速度に最も大きな差があるけど、毎秒約3,000トークンっちゅう信じられん速度で、これに近いもんは他にないで。でも問題は知性についてはどうかっちゅうことや。

GPQA、AME 2025、IFBenchの結果分析

結果を一つずつ見ていこか。最初はGPQAや。最高のパフォーマンスを提供するのはNavitaとParalelや。最悪はAzureとAmazonで、差は約8%もあるんや。これはかなりすごい数字やで。

もう一つ注目すべきは、CerebrasとGroqも上位のAPI提供者と比べてかなり悪い結果やっちゅうことや。企業の多くはベンダーロックインのせいでAmazon BedrockやMicrosoft Azureを使うと思うけど、AME 2025ではさらに悪化するんや。

トップモデルでは、AME 2025でAmazon Bedrockが約10%、Azureが約13%もパフォーマンスが低下しとる。IFBenchでも非常に似た状況で、Azureが再び最低のパフォーマンスや。一方、Deep Infra、Fireworks、NovaがこのベンチマークではGPT-o1に最高のパフォーマンスを提供する最良のAPI提供者やな。

Peter Gstovが同じ結果を基にした非常に良い表現を作ってくれた。彼をフォローすることを強くお勧めするで。XでジェネレーティブAI関連の非常に興味深い見解を持っとるからな。

再び、これら3つのベンチマークを見ると、AzureとAmazon BedrockがGPT-o1にとって最悪のAPI提供者やっちゅうことがわかる。

パフォーマンス差の原因

なんでこんな大きなパフォーマンス差が生まれるんやろか？いくつかの理由があるから、リストアップしてみるで。これは実行したいオープンウェイトモデルにとって重要になるんや。

最初のやつで、これが以前は最大の要因やったんが量子化や。大きなモデルの場合、モデル提供者は16ビットか8ビットでモデルをリリースして、その後コミュニティが利用可能なハードウェアに基づいてさらに量子化するんや。

量子化は特にMixture of Expertsに大きな影響を与える。通常、これらのモデルは8ビット、最低でも4ビットで実行することを推奨するで。それより下は避けた方がええ。この場合、OpenAIは4ビットの浮動小数点精度でモデルをリリースしとって、みんながそれを使ってることを願うで。

プロンプトテンプレートとハーモニー形式

パフォーマンスの差に2番目に大きく貢献するのは、通常プロンプトテンプレートや。これは昔のオープンウェイトモデルでは大きな問題やった。標準的なプロンプト形式がなかったからや。

幸い、これは解決されたけど、残念ながらOpenAIがこの新しいハーモニー応答形式を導入したんや。だからAPI提供者が応答形式を適切に設定してへんかったら、パフォーマンスの低下につながる可能性があるんや。

OpenAIの公式ブログ投稿で指摘されとるように、GPT-o1はハーモニー形式を使わずに使用すべきやない。正しく動作せーへんからや。

推論設定と推論努力

3番目は通常推論設定や。これには温度設定、トークンのサンプリング方法などが含まれる。でも今、これらの推論モデルでは、推論提供者が考慮せなあかん新しいパラメータがある。それが推論努力や。

推論努力を適切に設定せーへんかったら、パフォーマンスに大きな差が出るで。これは特にMicrosoft Azureで起こってるようや。

Lucas Beyer、彼はOpenAIからMetaに雇われた人の一人やけど、こう言うとる。「この写真に写ってることをもう一度言わせてもらうわ。かなり残酷やから」そしてパフォーマンス数値を参照しとる。

Microsoft Azure AIチームの一員らしいLucas Pickupからの返答がある。彼は「推論努力を尊重せーへん古いVLMコミットや。だから全てのリクエストがデフォルトでミディアムになってた。これは昨日の午後に全インスタンスで修正された」と言うとる。

彼は特に120BのGPT-o1モデルについて話しとる。「推論努力を処理するVLMコミットがo1メインにヒットした先週水曜日から昨日まで、これが本稼働してるべきやなかった」明らかにな。

だから今は正しい設定が動いてるはずや。

ローカルホスティングソリューションでの問題

これらの大きなモデルをAPI提供者経由で使いたいなら、複数の異なる提供者を比較することを強く推奨するで。こんな違いが見られる可能性があるからや。

残念ながら、ローカルでホストするソリューションでも大きく異なるパフォーマンスが見られる。例えば、LM StudioとOllamaを使ってる場合、いくつかの違いが見られるかもしれへん。

ここに誰かがこう言うとる。「なんでOllamaのGPT-o1 20億バージョンがLM Studioバージョンと比べて遅すぎるんや？何か問題があるんか？」

これはllama cppの作者や。ローカルでホストする解決策のほとんどが、llama cppをバックエンドとして使ってる。彼は、LM Studioが上流のggml実装を使ってて、これが大幅に優れていて最適化されてると指摘した。GGMLはllama cppからの独自実装や。量子化技術の一種やな。

そして彼は「Ollamaの変更を見てると、GGMLに分岐が多すぎるし、MXFP4（これはOpenAIモデルが使う浮動小数点精度や）とattention sync実装が本当に非効率的で、非効率性が予想される」と言うとる。

Ollamaからの応答があった。OllamaチームはLlama CPPから離れて、独自の実装を使ってるんや。

彼らが共有したプロットには非常に興味深いことがあった。例えば、長いコンテキストを処理してる場合、速度が低下するはずや。でもここでは毎秒もっと多くのトークンを示してた。これは指摘されたけど、実際に説明があったんや。

実際にテストを行った人がこう言うとる。「生成されたトークンがここでの犯人やとわかった。16kでは193トークンしか生成されんかったけど、8kでは600トークンや」だから、少なくとも彼らが議論してた時点では、Ollamaの実装がLM Studioと比べて遅かったようや。

動画の本当の目的

この動画の実際の理由は何やったか？オープンウェイトモデルの推論が非常に難しいことを強調したかったんや。

これらのモデルを自分でホストしてる場合、注意を払わなあかんパーツがたくさんある。モデル自体は実際に良いかもしれへんけど、ホストの仕方や使ってるパラメータが最適化されてなくて、非常に劇的なパフォーマンス差が出るんや。

Hugging FaceのCEOがこう言うとる。「GPT-o1について相反する意見がたくさんある。我々はHugging Face推論提供者でOpenAIの公式デモを支えてる。Fireworksシステム、Groq、Together AIのおかげやな」でも、これらのいくつかは我々が見たベンチマークで本当に悪いスコアやった。

彼は「新しいフロンティアオープンモデルの推論は簡単やない。特にハーモニーのような新しい形式や、GPT-o1が最初から得てる関心の量を考えるとな」と言うとる。

これには完全に同意するで。特に自分のローカル環境でこれらのモデルをホストすることを考えてる場合、これらの問題を考慮する必要がある。場合によってはモデルが悪いんやなくて、推論の実行方法が全てやからな。

今日共有された非常に興味深いベンチマークがある。これは以前に取り上げたPeter Gstovからのもんやと思う。GPT-o1 120億モデルが数学でGPT-4と同等か非常に近いようや。Grok 4より優秀やな。

これは非常に興味深い観察で、これらのモデルが我々が期待してるより遥かに有能かもしれへんことを改めて示してる。

とにかく、この動画が役に立ったことを願うで。見てくれてありがとう。そしていつものように、次回また会おうな。