
6,420 文字

OpenAIがAPIでGPT-4.1をリリースしました。これはコーディングや指示対応が改良され、OpenAIの初めての100万トークンのコンテキストウィンドウを持つモデルです。この動画では、発表されたすべてのことと、他のプロバイダーとの比較など具体的に言及されなかったことについて見ていきます。
このリリースには3つの異なるモデルがあります。GPT-4.1、4.1 Mini、4.1 Nanoです。彼らは命名にもっと工夫する必要がありますね。GPT-4.5をリリースした後、別の名前にすべきだったかもしれません。これらのモデルはGPT-4、mini、4oよりも優れているとされ、最大100万トークンのコンテキストウィンドウをサポートしています。ただし、知識のカットオフ日は2024年6月で、コーディングモデルとしてはかなり悪いと思います。多くのパッケージやAPIがそれ以降に変更されているからです。
このブログ記事全体を通じて、彼らはGPT-4.1ファミリーをOpenAIモデルとのみ比較していることに気づくでしょう。私は他のベンチマークを示して、これがGeminiやClaudeなどの他のプロバイダーとどう比較されるかを見ていきます。
OpenAIが行った重要なことの一つは、彼らの内部ベンチマークの一部を公開していることです。これらのフロンティアラボのほとんどは内部ベンチマークを持っています。彼らがこれらの一部をコミュニティに公開しているのを見るのは本当に良いことです。
これは彼らがリリース時に強調したことです。これは知性対レイテンシーを示しています。GPT-4.1ファミリーは、より低いレイテンシーでより良い知性を持つとされています。しかし、私個人的にはラベルが欠けているこのようなプロットは好きではありません。これは良い全体像を伝えていません。しかし、ブログ記事によると、GPT-4oの知性と同等かそれを上回り、レイテンシーをほぼ半分に削減し、コストを83%削減したとのことです。これは特に開発者向けとなるとかなり大幅な改善です。
作業用モデルを探しているなら、彼らはGPT-4.1 nanoをお勧めしています。これはOpenAIから入手可能な最速かつ最も安価なモデルとされています。良いことに、このnanoも100万トークンのコンテキストウィンドウを持ち、needle in the haystack(干し草の山の中の針)テストで非常に似たパフォーマンスを提供します。これについては後で詳しく見ていきます。
これらのモデルは指示対応とコーディングに非常に優れているため、エージェントシステムの構築にも非常に適したオプションになると思います。彼らは関数呼び出しに関するベンチマークも提供しており、これも動画の後半で見ていきますが、特に以前のGPT-4oと比較すると非常に印象的なようです。
これらの新しいモデル群はAPIを通じてのみ利用可能で、ChatGPTには導入されません。そのため開発者向けが中心となります。また、GPT-4.5は廃止されます。彼らによると「GPT-4.5は大規模な計算集約型モデルを探索し実験するための研究プレビューとして導入され、開発者からのフィードバックから多くを学んだ」とのことです。100万トークンあたり150ドルという価格を考えると、実際に使用できた人がいたのかどうかはわかりません。
ではいくつかのベンチマークを見ていきましょう。まず最初はコーディングです。彼らによると、GPT-4.1はGPT-4oよりも様々なコーディングタスクで大幅に優れており、エージェント的にコーディングタスクを解決したり、フロントエンド開発において余分な編集が少なく、div形式を確実に守り、一貫したツール使用を確保するなどの点が挙げられています。
彼らが提供した最初の比較はHumanEvalベンチマークに基づいています。ここでは55%を達成しています。HumanEvalは特にPythonに焦点を当てたベンチマークです。ここで彼らは「パフォーマンスはプロンプトと使用されるツールに大きく依存し、結果を再現し文脈化するために、私たちのセットアップをここで説明します」と述べています。これは別の動画で詳しく見ていく予定です。
ここで最も重要なのは「我々のスコアは、インフラストラクチャで実行できなかった500問中23問の解答を省略しています。保守的に0に設定すると」というところです。例えば、これら23問で何もスコアを付けなければ、パフォーマンスは52%になります。それでも元のGPT-4oよりも優れています。そして、このベンチマークでは、o3 mini highのような大きな推論モデルよりも優れているようです。
これらの新しいモデルは推論モデルではないことに注意してください。これは間違いなく大幅なパフォーマンス向上を示しています。では、他のモデルと比較するとどうでしょうか。こちらはHumanEval verifiedベンチマークです。完全版はこちらですが、verifiedはこの辺りになります。パフォーマンスの点では、コーディングタスク向けに特別に設計されたAmazon Q開発者エージェントの少し後ろに位置することになります。モデルとして、GPT-4.1は間違いなく非常に印象的ですが、システムとしてはどのように見えるか、まだ確認する必要があります。
彼らのリリースで私が本当に気に入っている点の一つは、ADASポリグロットベンチマークの結果を報告していることです。これはより多くの言語を含むため、はるかに難しいベンチマークです。HumanEvalはPythonに限定されています。この場合も、GPT-4oと比較すると非常に良い結果ですが、OpenAIの推論モデルには遅れをとっています。
ベンチマークには2種類あります。一つは「whole」で、モデルがファイル全体を編集または再作成する必要があるもの、もう一つは「diff」で、ファイルの特定の部分を変更するモデルの能力です。他のモデルと比較するとどうでしょうか。こちらがポリグロットコーディングベンチマークです。トップにはGemini 2.5 Proがあり、ほぼ73%です。52%のパフォーマンスを仮定すると、コア・アルファの隣に位置することになります。これはOpenAIが実環境でテストした4.1のバージョンのようです。
DeepSeek R1やDeepSeek W3のようなものがあると仮定すると、コーディングの最初の選択肢ではないかもしれません。V3とR1が比較的同様のコストでより良いパフォーマンスを提供すると仮定した場合です。
コーディングモデルの主な使用例の一つはフロントエンド開発です。OpenAIはフロントエンド機能の改善に多くの時間を費やしたようです。これは同じプロンプトでGPT-4oと4.1が作成したものの例です。美的に見て、4.1は間違いなくはるかに優れたフロントエンドを提供しています。
コーディング以外にも、彼らは指示対応も強調しました。GPT-4.1はより確実に指示に従い、さまざまな指示対応評価で大幅な改善を測定しています。彼らが定量化した指示対応は、フォーマットの遵守、否定的指示、順序付き指示、コンテンツ要件、ランキング、過信などであり、これらは特に優れた推論モデルにおいてコーディングに必要なものです。
これは優れたコーディングモデルにとって重要です。なぜなら、創造的な解決策を考え出して指示から逸脱するのではなく、コーディングモデルがあなたの指示に望む通りに正確に従うことを望むからです。彼らは実際に内部指示対応評価データセットを作成し、このデータセットでGPT-4.1はGPT-4oよりもはるかに優れた性能を示しています。nanoとminiバージョンでさえ、以前のGPT-4oと比較してはるかに優れています。
マルチターン指示対応は、多くの開発者にとって非常に重要なもう一つの側面です。モデルが会話の深い部分で一貫性を維持し、ユーザーが以前に伝えたことを追跡し続けることが重要です。いくつかのモデルでは、会話が続き長時間実行されるにつれてコンテキストを失うという問題が見られました。彼らはマルチターン会話での指示対応のために特別に内部評価を設計しています。
これらのフロンティアラボのほとんどは内部ベンチマークを持っています。彼らは私たちが見る外部ベンチマークに依存していないと思います。しかし、OpenAIがこれらのベンチマークの一部を実際に公開しているのを見るのは非常に良いことです。全体的に、GPT-4.1は間違いなく4.0よりも優れていますが、推論モデルやGPT-4.5には遅れをとっています。
私が個人的に興味を持っているのは、特にGPT-4.1が100万トークンという巨大なコンテキストウィンドウを持っていることを考えると、長いコンテキストです。問題は、128,000トークンしかなかったGPT-4oと比較して、そのコンテキストから情報を取得する信頼性はどの程度かということです。
この100万トークンは、長いコンテキスト取得が優れていれば非常に役立ちます。彼らはこのプロットを示しました。これは異なる深さでのニードル・イン・ザ・ヘイスタック(干し草の山の中の針)の精度です。正直、これはかなり悪いテストであり、特に長いコンテキストから単一の事実を取得しようとしている場合、ニードル・イン・ザ・ヘイスタックテストを完全に無視し始めるべきだと思います。これは実世界のアプリケーションを表していません。OpenAIもそれを認めています。彼らは「しかし、実世界のタスクの中には、単一の明白な針の答えを取得するほど簡単なものはほとんどない」と述べています。
ユーザーは私たちのモデルが複数の情報を取得して理解し、それらの情報を相互に関連して理解する必要があることがよくあると述べています。これは特に検索システムにも当てはまります。彼らは長いコンテキスト取得のための新しいベンチマークを導入し、これをマルチラウンド共参照と呼んでいます。
このベンチマークはテキスト内に巧みに隠された複数の針を見つけて区別するモデルの能力をテストします。評価はユーザーと助手の間の多ターンの合成会話で構成されており、ユーザーはあるトピックについて文章を書くよう依頼します。例えば、タッパーに関する詩を書いたり、岩に関するブログ記事を書いたりします。次に、コンテキスト全体に2つ、4つ、または8つの同一のリクエストを挿入します。モデルは特定のインスタンスに対応する応答を取得する必要があります。つまり、特定の1つのことを尋ねることができます。
干し草の山に2つの針を入れると、GPT-4.1は既存のモデル、特に4.0シリーズと比較してはるかに優れているようです。推論タスクでさえ、推論モデルはGPT-4.1と比較して失敗するようですが、ここでは2つの針についてのみ話しています。
針の数を増やすと興味深いことが起こり始めます。これを4つに増やすと、推論モデルの方がはるかに優れているようです。OpenAI o1(high設定)は約8,000トークンでははるかに優れていますが、システムに供給されるトークン数が増えるにつれてパフォーマンスが低下します。
また、より短いコンテキストで干し草の山に8つの針がある場合でも、推論モデルはこの新しいシリーズのモデルよりもはるかに優れているようです。興味深いことに、ある時点を過ぎると(例えば128,000トークン)、これらの長いコンテキストモデルでもパフォーマンスは横ばいになります。これは、複数の事実の複数の取得を必要とするシステムを構築しようとしている場合、注意すべき点です。
データセットが現在公開されているので、他のモデルプロバイダーもこのデータセットでモデルをテストすることを期待しています。マルチターン取得タスクでのGeminiなどのモデルが4.1とどのように比較されるかを見るのは興味深いでしょう。
彼らはまた、長いコンテキストの取得タスクに焦点を当てた「graph」と呼ばれる別のベンチマークも導入しました。ここでもGPT-4.1は4.0よりもはるかに優れているようですが、o1よりは遅れているか、実際にはかなり類似したパフォーマンスを示していますが、4.5よりも遅れていることは確かです。この場合、精度は128,000トークン未満でのみ測定されています。これは、これらの他のモデルのほとんどがコンテキストウィンドウが128,000トークンしかないためです。
次に、彼らはマルチモーダル推論とマルチモーダル機能に関するベンチマークをいくつか発表しました。最初のものはMMUです。再び、GPT-4oよりも優れており、これはこのリリース全体を通じて一貫したテーマとなっています。しかし、他のモデルと比較するとどうでしょうか。ここでは75%のスコアを獲得しており、これはリリース時のLlama 4 behemothのすぐ隣に位置するでしょう。全体的に、MMUでは他のいくつかのモデルと比較してはるかに優れていると思います。
長いビデオコンテキストでの推論については、ビデオMMEベンチマークで72%を達成しています。再び、他のモデルとの関連で考えると、これは字幕なしで約72%を達成している上海ラボのintern vision language model 2.5のような720億パラメータのモデルと非常に似たパフォーマンスを示しています。GPT-4oと比較すると間違いなくはるかに優れていますが、より広い文脈で考えると、いくつかのオープンウェイトモデルと同等であることがわかります。
パフォーマンス以外に開発者にとって最も魅力的な部分は価格設定でしょう。GPT-4oのようなものと比較して間違いなくはるかに安価で、このモデルの代替として位置づけられています。GPT-4oとGPT-4.1を比較すると、価格差は約26%または25%低くなっています。コーディングと指示対応タスクではるかに優れているため、非常に実行可能なオプションとなります。
しかし、DeepSeek R1のようなものと比較すると、価格はまだかなり高いです。これはGemini 2.5 Proとより近いかもしれません。20万トークン未満の入力を使用している場合、2.5 Proの方がはるかに優れたモデルなので、より良いオプションかもしれません。しかし、20万トークン以上ある場合、Gemini 2.5 Proはわずかに高価になります。しかし、出力トークンについては、Gemini 2.5 Proははるかに高価になります。関連するオプションとしては、Gemini 2.0 FlashまたはEvelの数週間後に出てくるであろう新しい2.5 flashがあります。
ブログ記事の終わりに、彼らはOpenAIモデルに特に焦点を当てた学術データセットのベンチマークを追加しました。再び、彼らはモデルを他のプロバイダーと比較していませんが、これは良いことではないと思います。特に別途これらを調べる必要があります。彼らがこれらの比較を行う際に他のモデルを載せる伝統を維持し続けることを期待しています。しかし全体的に見て、かなり印象的なモデルのようです。しかし、これは4.0の代替として位置づけられているため、実世界のアプリケーションと使用法をまだ確認する必要があります。
とにかく、この動画が役立つことを願っています。ご視聴ありがとうございました。いつものように、次回の動画でお会いしましょう。


コメント