
2,429 文字

GPT-4.1が発表されました。これから5分間で、このモデルについて知っておくべきことをすべてお伝えします。
まず大きな発表ですが、Quazer AlphaとOptimus Alphaは実は同じモデルです。みんながこのモデルについて話していましたが、これこそがGPT-4.1なのです。このモデルは最終的に開発者向けAPIエンドポイントでGPT-4.5に取って代わります。OpenAIはGPT-4.5を廃止し、GPT-4.1を維持する予定です。
GPT-4.1には3つの異なるバリエーションがあります:GPT-4.1、GPT-4.1 Mini、GPT-4.1 Nanoです。これはOpus、Sonnet、Haikuに似ていますが、ここでの最高モデルでさえもさまざまなタスクでClaude 3.7 Sonnetには及びません。
このモデルは主に開発者を対象としています。彼らが行った改良の種類、トレーニングの種類、すべてが開発者のためのものです。このモデルはコーディングが得意で、GitHub上の問題を解決するSWBベンチでGPT-4.5よりもはるかに優れており、54.6%のスコアを記録しています。
また指示に従う能力、つまり複数のターンで「テーブルをください」「JSONをください」「5×3のテーブルをください」などの指示に従う能力も向上しており、これは開発者にとって非常に重要です。このモデルは前のモデルより優れており、38.3%のスコアを記録していますが、GPT-4.0は10.5%しかありませんでした。
このモデルの他の利点は、他のOpenAIモデルとは異なり、非常に大きなコンテキストウィンドウを持っていることです。これら3つのモデル(4.1、4.1 Nano、4.1 Mini)は100万トークンのコンテキストウィンドウを持っています。100万は一般的に入力用で、出力用には32,000コンテキストウィンドウに増加しています。入力は100万コンテキストウィンドウ、出力は32,000コンテキストウィンドウで、これは本当に素晴らしいことです。
そして最も素晴らしいのは、コンテキストウィンドウだけでなく、モデルが本当に優れていることです。モデルのデータカットオフ日は2024年6月なので、外部ツールに接続することなく、約6〜8ヶ月前の最新の知識を持っているはずで、これは多くの異なるユースケースに非常に役立ちます。
このモデルについて詳しく見ると、業界で非常に尊敬されているベンチマークの一つ、Ader’s Polyglotベンチマークでは、GPT-4.1は全体で52%、コード編集を意味するdiffで53%のスコアを記録しています。このチャートを見て、OpenAIが最高のモデルを持っていると思うかもしれませんが、それは真実ではありません。同じAers Polyglotリーダーボードを見ると、Gemini 2.5 Proは72%であり、コストは6ドルです。私たちが議論しているQuazer Alphaでさえ、それには近づいていません。
モデルはGPT-4と比較すると本当に優れていますが、まだ間違いなく最高のコーディングモデルではありません。人々がそれを使い始めるにつれて、もっと多くのことが分かるでしょうが、ベンチマークだけでOpenAIが新しいフラッグシップモデルをリリースしたと思わせるべきではありません。
彼らはさまざまな例を示しています。このプレゼンテーション中に彼らが繰り返し強調していることの一つは、このモデルがベンチマークで特定のスコアを記録する一方で、実世界のユースケースと例のために設計されているということです。彼らはWindsの創業者または共同創業者にも話をさせ、GPT-4.1はGPT-4.0より60%高いスコアを記録し、GPT-4.0と比較するとあらゆる面で優れていると述べています。
ユーザーはこのモデルがツール呼び出しで30%より効率的で、不必要な編集を繰り返す可能性が50%低いと指摘しており、これはVibe Codingの最大の問題でした。また、これが優れたモデルであることを説明するための他の多くのベンチマークもあります。
より大きなコンテキストには、モデルが物事を忘れてしまうかもしれないという問題も伴いますが、彼らは「干し草の中の針」というベンチマークを示しており、これは現時点ではやや微妙なベンチマークですが、100万全体でモデルは何も忘れず、100%成功した検索があり、これが本当かどうかは非常に興味深いところです。
価格に関しては、このモデルは非常に適正な価格設定になっています。実際、彼らは長いコンテキストに対して別途料金を請求していません。小さなコンテキストモデルを使用しているか、長いコンテキストモデルを使用しているかにかかわらず、これら3つのモデルはすべて単一の価格設定で提供されます。
入力に関しては、より大きなモデルである4.1は100万トークンに対して2ドルを請求し、4.1 Miniは40セント、GPT-4.1 Nanoはわずか10セントを請求します。出力に関しては、それぞれ8ドル、1.6ドル、40セントであり、これは本当に優れています。
全体として、あなたが開発者であれば、これはあなたを幸せにするはずのものです。特にAnthropicが持っているようなインフラを考えると、OpenAIだけに依存しているなら、これは本当にあなたを幸せにするはずです。このモデルは既に開発者プラットフォームで利用可能なので、プレイグラウンドで試してみるをクリックするだけでモデルで遊び始めることができます。
このモデルについてどう思いますか?OpenAIはAnthropicのClaudeに勝てないと思いますか?それともOpenAIは本当に優れていると思いますか?また別の動画でお会いしましょう。Happy Prompting!


コメント