GPT 4.1 API向けモデル

9,648 文字

Join Michelle Pokrass, Ishaan Singal, and Kevin Weil as they introduce and demo our new family of GPT-4.1 models in the ...

皆さん、私はOpenAIでプロダクトを率いているケビンです。こんにちは、私はミシェルで、OpenAIでポストトレーニングの研究リードをしています。こんにちは、私はイシャンで、同じくポストトレーニングを担当しています。
本日、私たちはGPT 4.1を発表できることをうれしく思います。これは開発者のために特別に訓練されたAPIのモデルファミリーです。3つのモデルがあります。GPT 4.1、GPT 4.1 Mini、そして初めてのGPT 4.1 Nanoです。Nanoは私たちの最小、最速、そして最も安価なモデルとなります。
これらのモデルはほぼすべての面でGPT 4.0より優れています。多くの重要な点ではGPT 4.5に匹敵するか、それを上回るほどです。また初めて長いコンテキストを扱えるようになりました。Nanoモデルを含む3つのモデル全てが最大100万トークンのコンテキストを処理できます。また、料金に関しても楽しいお知らせがありますが、それは後ほど説明します。
4.1と名付けた決断は意図的なものでした。単に命名が下手というだけではありません。それもありますが。これらのモデルはあらゆる面で優れています。コーディングが得意で、複雑な指示に従うのも上手く、エージェント構築にも最適です。
それではさっそく詳細に入りましょう。評価結果についても、デモも見ていきましょう。始めてもらえますか？
はい、まずはレイテンシと知能の曲線を見てみましょう。4.1シリーズは4.0から大きく改善しています。ここで緑色の4.0とMiniが見えますが、4.1では新しい3つのモデルがフロンティアを引き上げています。より高い知能を持っているからです。また、Nanoが新しく登場し、はるかに高速でありながら、知能面でもしっかり踏ん張っています。
これがモデルの大まかな形状であり、使い分けについてですが、まずは4.1からスタートすることをお勧めします。コーディング、指示への従順さ、長いコンテキストという3つの側面で主力モデルとなります。もう少し高速なものが必要な場合や、やや単純なユースケースには4.1 Miniをお勧めします。そして最後に、Nanoは自動補完や分類、長い文書からの情報抽出など、多くのアプリケーションにおける絶対的な働き者です。
それではコーディングについて詳しく見ていきましょう。開発者はコーディングを非常に重視しており、私たちはモデルの機能的なコード作成能力を向上させてきました。これは、差分形式のより良いフォロー、リポジトリの探索、ユニットテストの作成、そしてコンパイルされるコードの作成を意味します。
SWEBenchはこうしたパフォーマンスを評価するための優れた評価方法です。モデルはPythonリポジトリに投入され、タスクが与えられ、探索し、コードを書き、テストを作成する必要があります。GPT 4.1は過去のモデルから大幅に向上し、以前のGPT 4.0モデルの33%から55%の精度に達しています。これは推論モデルではない割に印象的だと思います。01や03 miniも上回っています。
ただ、SWEBenchはすべてPythonですが、このモデルは他の言語でのコーディング能力も向上しています。Ader polyglotはそれを評価するための優れたベンチマークです。多くの言語があるだけでなく、差分形式も備えている点が素晴らしいです。開発者が時にファイル全体を書き直したいこともあれば、差分を生成したい場合もあります。これは、変更されていないトークンでレイテンシーを節約できるため、より高速なアプリケーションを実現できます。もちろんお金も節約できますね。
ここでは、全体および差分のパフォーマンスの差を大幅に縮め、GPT 4.0から4.1の差分パフォーマンスを2倍に向上させたことがわかります。また、Miniも4.0 Miniから大幅に向上しています。どちらのモデルもあらゆるコーディングタスクに最適だと考えています。
これらはコーディングのベンチマークですが、モデルを使用する際の無形の要素もあります。フロントエンドを作成する際、それが機能的で美しく、的確かどうかという点です。そのために、私が作成しているフラッシュカードアプリの例を用意しました。
ヒンディー語を勉強中なんですよね？
はい、頑張っています。
ここにはかなり複雑なプロンプトがあります。かなり具体的なアプリを要求しており、フラッシュカードをクリックしたときに素敵な3Dアニメーションが欲しいと伝えています。これをGPT 4.0に与えると、このような結果になります。いくつかの指示に従い、アプリの一部は機能していますが、GPT 4.1ではより良いものを作れるよう訓練してきました。
このモデルでは見た目が格段に良くなっています。色を発見し、3Dアニメーションも実現できています。フロントエンドコーディングのこの改善は気に入っていただけると思います。
これは先ほどのプロンプトだけで作られたのですか？
はい、1つのプロンプトだけで完全に動作するアプリケーションが返ってきます。素晴らしいですね。
コーディング以外にも、指示に従う能力も向上させてきました。コーディングと同様に、モデルはあなたが提供するすべての指示に厳密に従うようになりました。私たちが受けたすべてのフィードバックを活用して、API開発者がどのようにモデルを使用するかを模倣する内部指示従順性評価を作成しました。
評価の各サンプルには、フォーマット、ランキング、順序付き指示、過剰な自信など、いくつかのカテゴリに分類される複雑な指示セットが含まれており、サンプル全体に簡単、中程度、困難などの難易度が付けられています。このモデルはすべての軸と難易度レベルで非常に良い成績を収めています。
ここでは困難なサブセット評価の結果を見ることができます。このモデルは以前の4.0モデルよりはるかに優れています。
本当に難しい指示セットの例はどんなものですか？
例えば、旅行計画アプリを構築していて、「回答する前にユーザーからすべての情報を確実に受け取る」「旅程を表形式で回答する」「表は5行3列で構成され、列は特定の方法でフォーマットされる」などの指示を与える場合です。
プロンプティングでこうしたトリックを学んだ経験がありますよね。「いや、本当にリストではなくテーブルにしてください。信じてください、ボスが正しくしないと本当に怒ります」などと。そういったことが必要なくなるでしょう。
実際、人々はただ指示に従わせるためだけにそうしていました。今はそれが不要になります。モデルはあなたの指示を完全に守り、本当に優れています。また、モデルから最高のパフォーマンスを引き出す方法について、新しいプロンプティングガイドも公開する予定です。
内部評価だけでなく、Scale’s multi-challenge evalのような外部ベンチマークでも優れた成績を収めています。これは複数のターンにわたる指示従順性をテストするものです。例えば、3ターン前の指示をモデルが覚えているか、それに従い続けるかをテストします。モデルの一貫性とメモリもテストします。
これらの改善は長いコンテキストデータでもうまくスケールします。大量のデータを与えても、モデルから抽出しようとしている動作を継続的に従います。
大量のデータといえば、GPT 4.1 MiniとNanoは初めて100万トークンをコンテキストとして持つモデルです。これは過去のモデルの128Kから8倍の向上であり、かなり大きな改善です。しかし、コンテキストを持つだけでは十分ではなく、効果的に使用できる必要があります。
そのために、「針を干し草の山から探す」という評価を作成しました。大量のテキストの中に特定のテキストを挿入し、モデルにそれを見つけるよう求めます。モデルは文書の始め、中間、終わりなど、どんな深さでも見つけることができ、コンテキストの全長（最大100万トークン）にわたって機能します。
これは非常に退屈に見えるグラフですが、素晴らしい退屈さです。すべてのマスが機能していることを示しているからです。通常、長いコンテキストが特定の領域で機能しないなど、いくつかが赤になるはずですが、すべてが青いということは、モデルが探しているものを見つけられることを意味します。
これは3つのモデル全てでNanoも含めて機能します。しかし、これは長いコンテキストの全てを評価するものではありません。長い文書内の要素を見つけることは素晴らしいですが、それが開発者がやっていることの全てではありません。
そこで、OpenAI MRCRという評価も作成しました。これは長いコンテキストにおけるモデルのパフォーマンスをより厳しく評価する方法です。GPT 4.1（青）がGPT 4.0（緑）を128Kトークンまで大幅に上回り、100万トークンまでかなり良好なパフォーマンスを維持していることがわかります。
この評価は実際にかなり複雑です。もう少し詳しく説明していただけますか？
はい、非常に複雑です。基本的に、ユーザーとアシスタントが交互に話す合成的な会話を作成します。ユーザーは「梨についての詩を書いて」「カエルについての詩を書いて」「涙についての短い物語を書いて」などと要求し、そして「梨についての2番目の短い物語を見つけて」とモデルに尋ねます。詩やカエルに惑わされず、2番目（1番目ではない）を見つける必要があるので、かなり複雑です。
このパフォーマンス向上には非常に期待していますが、まだ改善の余地があることもわかります。その一環として、この評価を今日Hugging Faceで公開します。OpenAI MRCとして、より困難な長いコンテキスト処理領域での研究を促進したいと考えています。
マルチモーダルな長いコンテキストについても触れておきましょう。テキストだけでなく、ビデオをアップロードしたい場合もあります。ビデオMMEベンチマークでは、GPT 4.1が最先端のパフォーマンスを達成し、72%に達しています。このベンチマークは素晴らしく、字幕なしの30～60分のビデオをアップロードし、モデルに多肢選択式の質問をします。GPT 4.1はこのような理解が格段に優れています。
マルチモーダル処理全般に関する最後の評価ですが、これらのモデルは大幅に向上していますが、本当の驚きはGPT 4.1 Miniです。このモデルは、マルチモーダルな推論と知能において本当に格を超えたパフォーマンスを発揮します。マルチモーダルや画像処理を行う場合に最適なモデルだと考えています。
素晴らしいベンチマークですね。デモを見てみましょう。
ここにOpenAIのプレイグラウンドがあります。これはOpenAIのAPIを反復処理するための素晴らしいUIです。私は最新の4.1モデルを事前に選択し、システムメッセージで軽いアイデンティティを与えました。そのアイデンティティは、最小限のセットアップで単一のPythonファイルコードアプリケーションを生成する必要があるというものです。また、最大100万トークンの入力と32Kの出力を処理できる最新の4.1モデルにアクセスできると伝えました。
右側にはユーザークエリを模倣しています。ユーザーは大きなテキストファイルを取り込み、それについての質問に答えるウェブサイトを作成するよう依頼しています。限られたスタイルのガイダンスを与え、OpenAIのレスポンスAPIを使って文書に関する質問に答えるよう指示しています。実際にやってみましょう。
デモの一部として、ウェブサイトを作成させて、そのウェブサイトをデモの残りの部分で使用するのですね？
その通りです。
今、数百行のコードを生成しています。この問い合わせは以前に実行したことがあり、出力されたコードをこのapp.pyファイルにコピーしました。数百行のファイルであることがわかります。HTMLがこのファイル内にインライン化されています。スクロールし続けると、アップロードコード、質問を尋ねるコード、レスポンスAPIにヒットするコードがあります。
モデルはこれを一発で作成したのですか？
はい、今あなたが見ているように、コードを生成しています。
起動方法を教えてくれていますね。試してみましょう。どう思いますか？かなりかっこいいですね。ちょっとシンプルBtoBサイト風ですが、うまく機能していると思います。下部に自己宣伝しているのも気に入りました。「Powered by GPT 4.1」と。
私たちが与えた限られたガイダンスに基づいて、このウェブサイトを作成したのは素晴らしいですね。アップロードしようとしているログファイルをテストするために、そのファイルは1995年8月のNASAのサーバーリクエスト応答ログファイルです。そのファイルを見せましょう。
このファイルをずっと持っているのですか？
ええ、あなたはお持ちではないのですか？実は94年版の方が好きなんです。
ああ、94年版は素晴らしいバージョンですよね。いいですね。
このログファイルでは、左側にNASAサーバーにリクエストを行ったクライアント名、タイムスタンプ、アクセスされたリソース、HTTPレスポンスコードが表示されています。これは多くのログ行を含む長いファイルで、左側に約45万トークンのコンテンツがあることがわかります。
以前のモデルではこれを使用できなかったのですね？
はい、これは不可能でした。このファイルをアップロードしてみましょう。私がしたのは、実際にはHTTPリクエスト応答ではない行をこっそり挿入したことです。それを見つけられるか見てみましょう。
とても狡猾ですね。干し草の山から針を探すようなものですが、この場合は針がどのように見えるかも教えていないんですね。ただ「何が違うか見つけて正確に教えて」という感じですね。
全ファイルをスキャンし、すべてのログ行がどのように見えるかパターンマッチングを行い、他とは異なる行があるかどうかを確認しようとしています。
このスピナーが気に入りました。これは先ほどのデモで作成したフロントエンドですね？
その通りです。素敵なアクティブスピナーで、フロントエンドの改善もここに表示されています。単一ページのPythonアプリケーションでありながら、スタイリングのための追加ファイルなどにアクセスする必要もありません。
このフロントエンドは私が作れるものよりもはるかに優れていますね。私の基準を満たしています。このスピニングアニメーションもなかなか良いですね。少し時間がかかっていますが、もうすぐ完了するでしょう。
できました！HTTPリクエスト行のように見えない行を見つけました。確かにそうですね。この行が実際にアップロードしたログファイルにあるか確認しましょう。このキーワードをコピーします。
ここにありました！45万トークンのログファイルに忍ばせたこの行を見つけることができました。とても難しいはずなのに、よくやりました。素晴らしい仕事ですね、GPT 4.1！別のデモを見てみましょう。
ここでは先ほどのデモに基づいたものを見ていきますが、こちらはAPI開発者がどのようにモデルにプロンプトを与えるかに焦点を当てています。ここでも4.1モデルを選択しました。ここでのアプリケーションの個性はログアナリストアシスタントです。
入力データがどのように構造化されるかを伝えています。log dataタグ内にあり、ユーザーのクエリはqueryタグ内に構造化されると伝えています。そして一連のルールがあります。これはAPI開発者がモデルに提供する指示の一種です。
log data内のコンテンツに関する質問にのみ答えること、質問は常にqueryタグ内にフォーマットされているべきこと、これらのいずれかが真でない場合はエラーメッセージで応答することなどを指示しています。応答はXML形式であるべきで、XML形式がどのようなものであるべきかについて軽いガイダンスを与えています。resultやfinal answer、referencesなどのタグを含むべきだとしています。
これは開発者がよく使うシステムメッセージによく似ていますね。かなり実質的なものです。
こちらにはログファイルを事前に読み込んでいます。これは先ほど見たログファイルのトリミングバージョンです。
最初に「fnal.govによって行われたリクエストの数はいくつですか」と尋ねましたが、queryタグ内にフォーマットされていなかったため拒否されました。同じリクエストをqueryタグ内で行ってみます。
今度はログファイル内にある2つの参照を見つけることができました。これは40でよく見られる相互作用の一種で、ユーザーが特定の動作を望み、特に特定の動作が発生しないことを望んでいるのに、モデルが時々見逃すことがあります。
40に同じクエリを行った例があります。queryタグに包む必要があると言う代わりに質問に答えてしまいました。
それは開発者から聞く重要な詳細ですね。否定的な指示に従い、正確に指定された通りに実行して欲しいということですね。
その通りです。
素晴らしいベンチマークの結果でした。素晴らしいライブデモも見せていただきました。開発者が日常的に直面するタスクでこのモデルが本当に優れたものになるよう、大量の作業が行われてきたことを知っています。あなたとあなたのチームはそれに多くの時間を費やしてきました。少しお話しいただけますか？
もちろんです。現実世界の開発者がこれらのモデルを使用するのを好むのは偶然ではありません。その目的のために、昨年データ共有プログラムを開始しました。開発者は無料クレジットと引き換えにトラフィックの共有を選択できます。そのトラフィックが入ってくると、個人を特定する情報を除去し、識別詳細を削除してから、モデルの改善に使用します。
実際に私たちがそれで行う重要なことの1つは評価の作成です。評価は、新しいモデルを作成する際に正しい道を進んでいるか、開発者がこれを気に入るかどうかを判断するのに役立ちます。ショーンが最初に言及した指示従順性の評価は、これから直接インスピレーションを得ました。
まず、オプトインしたすべての開発者に感謝したいと思います。あなたがたのおかげで、はるかに優れたモデルを作ることができました。まだオプトインしていない開発者に対しては、モデルが自分にとってより良くなるのを望むなら、オプトインすることをお勧めします。本当にあなたのための素晴らしいモデルを構築するのに役立ちます。
料金についても話すと言っていましたね。私たちの使命はAGIが全人類に利益をもたらすことを保証することです。私たちが何度も学んできたことの1つは、コスト効率よくモデルを提供できればできるほど、より多くのユースケースを構築でき、世界中の人々を支援するためにAIをより多く使用できるということです。
特に、ミシェルとイシャンが話してきたすべての改善を備えたGPT 4.1は、GPT 4.0よりも26%安くなります。そしてGPT 4.1 Nanoは、100万トークンあたりわずか12セントで、私たちの最小、最速、最も安価なモデルとなります。
競合他社が提供するものを超えて、長いコンテキストに対する価格の上昇はありません。長いコンテキストモデルを使用する場合、非長いコンテキストリクエストと同じ方法でトークンに対してのみ支払いを行います。
少し楽しみを削ぐような更新もあります。GPUが貴重であることは知っています。GPT 4.1をできるだけ広くみなさんに提供したいと考えており、4.1が多くの重要なベンチマークで4.5さえも上回ることについてお話ししてきました。そこで、APIでのGPT 4.5を廃止することを発表します。今日ではなく、今後3ヶ月程度かけて行われますが、本当にそれらのGPUを取り戻す必要があります。
研究用に取り戻せることを非常に楽しみにしています。ありがとうございます。
私たちは皆GPT 4.5を愛していますが、私たちが行ってきた多くの改善はこのモデルや他のモデルで継続されます。非常に成功した実験でした。
もう一つサプライズがあります。Windsurfの創設者兼CEOであるヴァルンをお招きできることを嬉しく思います。Windsurfは市場に出ている主要なエージェンティックコーディングIDEの一つです。ヴァルンとそのチームはGPT 4.1の初期テスターであり、直接彼からの感想を聞けることを嬉しく思います。いかがでしたか？
GPT 4.1へのアクセスを得て、テストできることに非常に興奮していました。そのパフォーマンスに非常に驚きました。SWEBenchに非常に似た内部ベンチマークがあり、エンドツーエンドのソフトウェアパフォーマンスを検証していますが、GPT 4.0から60%の改善が見られました。これは大幅な向上です。
しかし内部ベンチマークは物語の一部に過ぎません。ユーザーにとって、単に解決策に達することよりも重要なのは、アプリケーションの構築や修正時の滑らかさや対話性です。実際に発見したのは、GPT 4.1は劣化した動作のケースが大幅に少ないということでした。
いくつか例を挙げると、GPT 4.1は他の主要なモデルに比べて不必要なファイルを読み取る必要のある回数が40%減少しています。また、不必要なファイルを修正する頻度も他の主要なモデルより70%少ないです。さらに、このモデルは驚くほど冗長さが少なく、他の主要なモデルより50%も簡潔です。
これらすべての理由から、私たちはそのパフォーマンスに非常に興奮しており、実際に無料および有料のすべてのユーザーに1週間GPT 4.1を無料で提供し、その後もしばらくの間大幅に割引することにしました。
要約すると、WindsurfではGPT 4.1が次の7日間完全に無料で、その後しばらくの間大幅に割引されるということですね？
その通りです。
素晴らしいですね！私も先週末、8歳の息子がレゴを売り始めたいと言いだし、Windsurfを開き、GPT 4.1を使って彼の今後のビジネスのためのレゴウェブサイトをコーディングしました。素晴らしく機能しましたよ。
それを共有していただけますか？
ライブストリームと一緒に投稿します。きっとみなさん興味があるでしょう。
参加していただきありがとうございます。Windsurfやそれ以外で人々が何を構築するのか、とても楽しみにしています。
今日の発表をまとめると、GPT 4.1、GPT 4.1 Mini、GPT 4.1 Nanoという3つのモデルのファミリーがあります。これらは私たちが今までに構築した中で最もスマートで高速、安価なモデルであり、開発者向けのAPIのみで提供されます。ちなみに、今日からGPT 4.1と4.1 Miniをファインチューニングすることもできます。Nanoも近い将来ファインチューニングが可能になります。
ミシェル、イシャン、そして彼らのチーム全体に大きな感謝を述べたいと思います。これらのモデルは素晴らしいです。皆さんが何を構築するのか非常に楽しみにしています。
今日はこれで終わりです。これらのモデルは現在利用可能で、APIにあります。どうぞ使い始めてください。皆さんが構築するものを見るのを楽しみにしており、フィードバックをお待ちしています。どうもありがとうございました。