OpenAIの新しいGPT-4.1モデルは私が思っていたよりも優れている…

5,186 文字

OpenAIs New GPT 4.1 Model Is Even Better Than I Thought...

Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

OpenAIがモデルGPT-4.1をリリースしましたが、これは多くの人を混乱させています。このビデオでは、あなたが知っておくべきことを詳しく説明します。
まず最初に、ほとんどの人が気づかないかもしれない注意点があります。それはGPT-4.1はAPIを通じてのみ利用可能だということです。なぜそうなのか疑問に思うかもしれませんが、その理由を説明します。基本的にGPT-4.1は開発者向けに設計されたモデルであり、チャットユーザーインターフェース向けには設計されていません。GPT-4.1のすべての利点は徐々にGPT-4oに組み込まれてきました。
ここに「ChatGPTでは、指示に従うこと、コーディング、知性における改善の多くが、最新バージョンのGPT-4oに徐々に取り入れられており、今後のリリースでもさらに取り入れていく予定です」と書かれています。つまり、彼らが言っているのは、GPT-4.1は特定の領域ではGPT-4oとそれほど違いはないけれど、他の領域では実際にかなり異なっているので、特に開発者向けに作ったということです。
しかし、これを無視してもGPT-4.1を使いたい場合は、実際にチャットインターフェースで使用することができます。openouter.comに来ると、これはLLMのための統合インターフェースで、価格が良く、稼働時間も長く、サブスクリプションも必要なく、基本的に無料です。チャットをクリックして、新しいルームをクリックし、このアイコンをクリックすると、すべてのモデルが表示されます。モデルをクリックすると、GPT-4.1が表示されます。「適用」をクリックして、Xをクリックすると、GPT-4.1と文字通り会話できるようになります。ここにはさまざまなプロンプトがあり、例えば「個人の財政」と言えば、何と言うか見ることができます。
これがGPT-4.1にアクセスする方法です。モデルをテストしたり、さまざまなプロンプトを試したり、モデルと対話してみたい場合はこの方法を使います。
GPT-4.1だけでなく、異なるユースケース向けに2つの小さなバージョンのモデルもリリースされました。ほとんどの人が使用するユースケースは、複雑なタスク向けの最も賢いモデルです。このモデルは100万トークン以上のコンテキスト長を持ち、最大出力トークンは32,000で、価格は他のモデルと比較して比較的安いことがわかります。テキスト入力、画像入力、テキスト出力があり、予想されるレイテンシはGPT-4oと同様です。
他の2つのモデルを見ると、これらはGPT-4.1の能力を蒸留した小さなモデルで、価格がはるかに安く、速度も速いです。これはGPT-4.1 miniで、GPT-4.0より40%速く、速度と知性のバランスがとれた手頃なモデルです。そして、GPT-4.1 nanoは、低レイテンシタスク向けの最速かつ最もコスト効率の高いモデルです。これは非常に安価で多くのタスクを実行できるモデルです。OpenAIがこれを行った理由は、現在、比較的安価に多くの異なるタスクを実行できる多くのモデルがあるため、提供できるモデルの品揃えを強化したいのだと思います。
ベンチマークの一つのカテゴリを見てみましょう。これはベンチマーク的なビデオにはしませんが、OpenAI自身が実際に実世界での実装を持つモデルに焦点を当てたいと言っていたからです。しかし、これは特に見る必要があります。なぜならSS Benchに関して他のすべてのモデルを上回ったからです。これがAI分野での主な議論でした。
GPT-4.1はソフトウェアエンジニアリングにおいてGPT-4.0よりも大幅に優れています。エージェント的にコーディングタスクを解決したり、フロントエンドコーディングをしたり、余分な編集を少なくしたり、diff形式に確実に従ったり、一貫したツール使用を確保したりするなどの点で優れています。これは非常に印象的なモデルであるOpenAI O3 Miniや、OpenAI O1 Highよりも優れているので、本当に驚きです。全体として、これはコーディングに関して他のモデルと比較してスーパーモデルであることがわかります。
開発者にとってより興味深いかもしれない別のモデルですが、技術的な専門用語はあと2枚のスライドで終わります。これはGPT-4.1がGPT-4.0と比較してどれだけ正確かを示しています。劇的な改善が見られます。ここでは31%、そこでは52%です。もちろん、O1推論モデルは完全に別のカテゴリーですが、はるかに安価で速いモデルとしては、特に開発者にとって非常に有用だと思います。
GPT-4.1を視覚化したい場合、このグラフはモデルがどこに位置するかを視覚化するのに少し役立ちます。左側に知性、下にレイテンシがあります。GPT-4.1 Nanoはレイテンシと知性のバランスをとる非常に効果的なツールであり、GPT-4.1 Miniはおそらくそれらすべてのバランスをとる最も効果的なものでしょう。比較的賢く、比較的速く、また安価だからです。これはおそらくGemini 2.5 Flashに対する最大の競合相手の一つでしょう。そのモデルは非常に安価で、優れた知性を持っています。
先ほど言ったように、技術的な開発者の専門用語はここで終わります。OpenAIが焦点を当てたかったことの一つは実世界での有用性です。彼らは述べています。ベンチマークは貴重な洞察を提供しますが、実世界での有用性に焦点を当ててこれらのモデルをトレーニングしました。開発者コミュニティとの緊密な協力とパートナーシップにより、アプリケーションに最も重要なタスクに対してこれらのモデルを最適化することができました。この目的のために、GPT-4.1モデルファミリーは低コストで卓越したパフォーマンスを提供し、これらのモデルはレイテンシ曲線のすべてのポイントでパフォーマンスを向上させます。
実世界の例に関しては、WindinsurfでGPT-4.1はWindinsurfの内部コーディングベンチマークでGPT-4.0より60%高いスコアを獲得しました。これは最初のレビューでコード変更が受け入れられる頻度と強い相関があります。そして、ユーザーはツール呼び出しが30%効率的で、不必要な編集を繰り返したり、コードを過度に狭い増分ステップで読む可能性が約50%低いことに気づきました。これらの改善はエンジニアリングチームの迅速な反復とスムーズなワークフローにつながります。Windinsurfについて詳しくない場合、これは基本的にAIコーディングツールまたはアシスタントです。
また、GPT-4.1はこの会社の内部ベンチマークで実世界の困難な税務シナリオにおいてGPT-4.0より53%正確であることがわかります。システムのパフォーマンスとユーザー満足度の両方の鍵となるこの正確性の飛躍は、GPT-4.1の複雑な規制の理解力と長いコンテキストにわたる微妙な指示に従う能力を強調しています。GPT-4.1は非常に長いコンテキストウィンドウを持っており、実世界のユースケースでは非常に重要です。なぜなら、私たちはしばしば長い文書上で推論する必要があるからです。
その検索能力がどれほど優れているかを視覚化したい場合、彼らは「干し草の中の針」正確性テストを行いました。これは基本的に100万トークンを見て、そこに針（おそらく小さなフレーズ）を置き、モデルにそのフレーズを取得するよう求めるテストです。100万のコンテキスト長にわたる成功した検索に関して、ほぼ100%の精度を持っていることがわかります。これは特定のアプリケーションに非常に有用で、100万トークンはReactのコードベース全体の8コピー以上に相当します。コードベース全体に適合させるのに非常に優れているため、小さなものを見つけて変更することができます。これは彼らがモデルをトレーニングした点の一つであり、他の長いコンテキスト領域で多くの実世界のユースケースを持つことになると思います。
モデルはビデオの長いコンテキストに驚くほど優れていました。モデルは実際にビジョン機能に関しては適切です。ここでGPT-4.0よりも少し良いパフォーマンスを示していますが、OpenAIが最近2025年にGPT-4.0を更新したことを考えると、これは本当のモデルではないと思います。おそらくGPT-4.0はこのベンチマークと同等だと思いますが、これはビデオの長いコンテキストです。モデルは字幕なしの30〜60分の長いビデオに基づいて多肢選択問題に答えます。
もちろん、ビジョンベンチもあり、特別に優れた領域ではないことがわかりますが、ビジョンをアプリケーションの一部として持つものを構築したい人々にとって、GPT-4.1 Miniが選ばれるものになるでしょう。このモデルはMMUで73%のスコアを持っており、これは基本的にビジョン機能に関してGPT-4.1と同様ですが、コストはごくわずかです。
これらのベンチマークすべてがある中で、私は混乱したとは言いませんが、見たかったのは、さまざまな異なるベンチマークでこのモデルが他のすべてのAIモデルとどのように適合するかです。ここではコーディングベンチマークに関してGPT-4.1がどこに位置するかを見ることができます。Claude 3.7 Sonnetとジェミニの新しい2.5 Proのすぐ後ろにあり、それほど遅れていません。そして他のモデルよりも快適に上にあり、コーディング能力に関しては優れています。このモデルは他の企業が直面したような失敗作ではなく、コーディングや実世界の多くの他のことに関して本当に優れたモデルであることがわかります。このモデルは、異なるアプリケーションにプラグアンドプレイできるモデルであり、あなたの日常生活について話したいモデルではないと言えるでしょう。それはおそらくGPT-4.5になるでしょうが、残念ながらGPT-4.5は実際になくなります。
彼らはGPT-4.5について、GPT-4.1が多くの機能で改善されたまたは同様のパフォーマンスをはるかに低いコストとレイテンシで提供するため、APIでそのモデルの廃止を開始すると言及しています。開発者が移行する時間を与えるために、2025年7月14日の3ヶ月後に無効になります。GPT-4.5は、もし知らなかったとしたら、非常に大きなモデルで、トレーニングするのに非常に高価で、出力も同様に高価でした。おそらくこれが彼らがこのモデルを廃止しなければならなかった理由だと思います。出力はコストに見合わず、彼らに莫大な費用がかかっていたからです。
そのため、GPT-4.5がなくなるのが最大の理由でしょう。GPT-4.5と話したことがある場合は、2025年7月14日までに多くの会話を済ませておいた方がいいかもしれません。そして、それについて少し悲しいと言いたいです。なぜなら、それは実際に日常的なことについて推論する際の私の頼りになるモデルだったからです。人間の視点から問題を見る際に異なる能力を持っていました。
コーディングがどれほど改善されたかを視覚的に見たい場合、彼らはGPT-4.1がフロントエンドコーディングにおいてGPT-4.0を大幅に改善し、より機能的で美的に優れたウェブアプリを作成できることについて語っています。彼らの比較では、有料の人間の評価者は80%の場合でGPT-4.1のウェブサイトをGPT-4のものよりも好みました。これは非常に大きな改善です。
ここで、これは比較的印象的です。左側が古いGPT-4で、右側が新しいGPT-4.1です。これはモデルがフロントエンドのコーディングに明らかに優れていることを示していますが、他の同様のモデルと比較してこれがどうなのか尋ねる必要があります。現在、私はこれらのモデルでコーディングをたくさん行っているわけではなく、単にこれらのモデルでエージェントを構築しているだけなので、それは今から数時間後にビデオで見ることになるでしょう。しかし、フロントエンドの構築は当然ながら人々が行っていることなので、それがどのように機能するのか見るのは本当に興味深いです。
これらの3つの異なるモデルについてどう思いますか？開発者であれば、使う予定ですか？これについて興奮していますか？私はこれを使ってまさに今日エージェントを構築する予定なので、どうなるか見るのは非常に興味深いでしょう。ビデオを楽しんでいただけたなら、いいねとチャンネル登録をお忘れなく。