OpenAIの「超大質量ブラックホール」AIモデル（4.1）

4,735 文字

OpenAI's "supermassive black hole" AI model (4.1)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

OpenAIがGPT-4.1を発表しました。ついにQuazarの正体も明らかになりました。また、噂によればOpenAIのモデルは月額20,000ドルで、博士レベルの研究者のような能力を持つと言われています。これは今後登場予定のO3とO4 miniのことです。そして、早期プレビューがすでに科学的発見や斬新なアイデアの創出に貢献しているようです。これは非常に近い将来に登場する予定です。
また、ほとんどの人が見逃していますが、OpenAIはプロンプティングガイドをリリースしました。これは主に4.1向けですが、他のモデルにも適用できます。ご覧のとおり、プロンプトの方法にちょっとした工夫を加えるだけで、様々なタスクの性能が20%ほど向上することもあります。
まず最初に、Quazarについて説明します。これはLMシステムアリーナに登場した謎のモデルで、サム・アルトマンはこれがOpenAIのモデルの一つだとほのめかしていました。クエーサー（準星）とは、電磁スペクトル全体にわたって非常に大量のエネルギーを放出する超大質量ブラックホールによって駆動される、非常にエネルギッシュで遠方の活動銀河核のことです。
GPT-4.1を発表したOpenAIのライブストリームは「開発者と超大質量ブラックホール」という名前で握手の絵文字が付いていました。恥ずかしながら、私はこの関連性を見逃していました。今やっと理解できました。基本的に、QuazerモデルはGPT-4.1 Miniだったのではないかと思われます。彼らはライブストリームでそのことを漏らしたようですが、現在このモデルは利用可能になっており、APIで使用できます。より馴染みのある形式で試したい場合は、OpenAI Playgroundを使って試すこともできます。
より徹底的なテストを後ほど行いますが、これらの一連のモデル、このモデルファミリーについての大きな見出しをいくつか紹介します。彼らは3つの異なるモデル（4.1、4.1 mini、4.1 nano）をリリースしています。
コーディングに関して、4.1はSUI Bench Verifiedで54.6点を獲得し、GPT-4Oよりも21.4%向上しており、スコアリングにおいて主要なモデルとなっています。GPT-4.5よりも優れていますが、SUI Benchでは54.6点です。SUI Benchはもちろんソフトウェアエンジニアリングのベンチマークです。
これを何と比較すべきかを理解することが重要です。Gemini 2.5 Proと比較すべきか、どれが最も適切な比較対象なのかということです。このモデルはコーディングに非常に優れているとされており、それはベンチマークだけでなく、LMアリーナでのユーザーテストでも示されています。多くの人がコーディングに優れていると報告しています。
また、マルチモーダルビデオを含む長いコンテキストと指示に従う能力も備えています。これについては後ほど詳しく説明します。ライブストリームで言及されたことの一つに、開発者がAPIを使用している場合、OpenAIにフィードバックや情報を共有する意思があれば、無料のOpenAIトークンを取得できるということがあります。
OpenAIにフィードバックとプロンプトを共有できるだけでなく、プロンプト、完了、トレースをOpenAIと共有することも可能です。これにより、追加のトークンが得られます。OpenAIと共有するトラフィックについては、4月30日まで無料の日次使用量が利用可能です。4.5プレビュー、4.1、4O、O1では1日あたり最大100万トークン、4.1 mini、4.1 nano、GPT-4O mini、その他のminiモデルでは最大1,000万トークンが利用可能です。
また、Windsurfについても聞いたことがあるかもしれません。これはIDE（統合開発環境）、つまりコーディングに使用するツールです。彼らはGPT-4.1への無制限の無料アクセスを提供しているようです。ご覧のとおり、4月14日から4月21日まで無料です。これはスポンサー付きではありません。創設者の一人がOpenAIのライブストリームに登場してこれを発表しました。
実際に試してみる予定です。私はCursorを使っていますが、Windsurfはまだ試していません。GPT-4.1はすでに統合されて使用可能なようです。また、OpenAIを通じて無料の日次使用量も利用できます。OpenAI APIキーを生成する場所に行き、左下にポップアップが表示されます。
紹介された3つのモデルを見てみましょう。ここに紫色で示されており、以前のモデルである4Oは緑色です。レイテンシー（応答速度）に関しては、グラフ上で右に行くほど遅くなります。4.1と4Oはほぼ同じレイテンシーで、同じくらいの速度です。4.1 miniと4O miniもほぼ同じレイテンシーです。
興味深いことに、4.1 nano（miniよりさらに小さいモデル）は非常に高速ですが、知性（多言語MMLUで示される指標）は低下します。しかし、これが必要になるようなエッジデバイスもあるでしょう。4O miniから4.1 miniへの大幅な向上と、4Oから4.1への小さいながらも十分な向上が見られます。
これらのモデルの違いを理解するための良い方法があります。ここでは4.1、O3 Mini、GPT-4を比較しています。4.1は4Oと同様に非推論モデルであることに注目してください。O3 Miniは推論モデルです。O3 Miniはテキスト入力と出力を持っています。4Oと4.1はどちらもテキストと画像の入力、テキストの出力を持っています。全体的にほぼ同じ速度です。
4Oは「賢さ」を表す3つのドットがありますが、4.1とO3 Miniは4つのドットがあり、4より賢いことを示しています。基本的にこれが言っているのは、非推論モデルを推論モデルと同じくらい優れた性能にすることができるようになった、ということです。推論モデルのミニバージョンと同じくらい高速で、画像も入力として扱えます。
4と4.1を比較すると、価格が約20%引き下げられています。O3 Miniよりは高価ですが、コーディングでは他のモデルを上回り、Sweet Bench Verifiedで55点を獲得しています。現在のトップであるGemini 2.5 Proと比較すると、Sweet Bench Verifiedで63.8点を獲得していますが、これは推論モデルなので完全な比較ではありません。非推論モデルが最先端の推論モデルに追いついてきていることがわかります。
AERS Polyglotベンチマークでは、4Oよりも優れていますが、O1 highとO3 mini highほどではなく、GPT-4.5よりは優れています。彼らが多く語ったのは、指示に従う能力の向上です。GPT-4.1はより確実に指示に従います。彼らは先ほど紹介したプロンプトガイドを公開しており、これによってこれらの利点を得るために正しくプロンプトする方法を示しています。
「干し草の中の針」の精度でのベンチマークでは、全ての項目で100%を達成しています。これに対する批判もあります。これは実際のユースケースシナリオではないからです。通常、私たちは厚い本の中にパスワードが隠されているような状況で、それを見つけるように頼むことはありません。より良いテストは、モデルが大きなテキストを処理する際にコンテキストを保持し、指示を理解できるかを確認するものです。
OpenAIは独自のベンチマークを開発したようです。「OpenAI MRCR（マルチラウンド共参照）」と呼ばれるこのベンチマークはオープンソース化されています。彼らが示した例では、「バクについての詩を書いて」「岩についてのブログ記事を書いて」といった2つ、4つ、8つの同一のリクエストを作成します。そして「バクについての3番目の詩を教えて」と言います。ここでモデルは、特定の詩が何回リクエストされたか、どれが1番目か2番目かなどを記憶しておく必要があります。そして、書いた特定の詩に関する情報を思い出して返す必要があります。
彼らは、モデルが「バクについての詩」ではなく「バクについての短い物語」や「バクではなくカエルについての詩」といった微妙な違いに簡単に混乱する可能性があると指摘しています。ちなみにバクとは何かと気になる方のために、これがバクです。このチャンネルではいろいろなことを学べますね。
先ほど説明した2針、4針、8針の結果を見てみましょう。ご覧のとおり、上部の紫色の線が新しいGPT-4.1です。これを例えばGPT-4Oと比較してみてください。緑色のこの線です。精度が大幅に向上していることがわかります。
ほとんどのモデルは128,000トークンのコンテキストウィンドウでここで止まりますが、これらの新しいモデルは100万トークンのコンテキストウィンドウを持っています。これはGemini 2.5 Proや他のGeminiモデルと同じです。かなり大きな進歩です。
これはコーディングなどに大きな影響を与えます。より大きなコンテキストにアクセスでき、それを考慮できるからです。このような大きなコンテキストウィンドウがあり、効果的にナビゲートして活用できる場合、何かが本当に改善されると感じることができます。情報を失わずにいられるのです。
もちろん、モデルが大きいほど精度が高く、入力トークン数が増えても優れた性能を発揮します。これが4.1、4.1 mini、4.1 nanoです。これは2針のテストです。こちらは4針のテストです。そして8針のテストです。miniは極端な端でやや良いパフォーマンスを発揮していますが、nanoは完全に落ち込んでいます。
PlaygroundやAPIキーで自分自身で試すこともできますし、Windsurfを試したい場合は、彼らが言及した1週間の無料期間があります。
総じて、これは最も刺激的なリリースではなかったかもしれませんが、次世代のモデルが登場することで、物事はもう少し興味深くなりそうです。これは「The Information」からの情報で、様々なモデルのリリースタイムラインを示しています。
Google Gemini 2.5 Proは2025年3月にリリースされ、現在LMアリーナやチャットボットアリーナでの様々なユーザーテストで1位に位置しています。次に登場する完全版のO3およびO4ファミリーのモデルが、私たちが本当に期待している大物モデルです。
「The Information」によると、初期ユーザーの一部は、これが新しい材料や科学的情報の発見に貢献する可能性があると報告しているようです。O3 mini highなどの以前のモデルを使用していた多くの科学者や研究者は、これが実験を行う能力を大幅に向上させると報告しています。これは実際に彼らの仕事を遂行するスピードを向上させ、次のシリーズのモデルはそれをさらに次のレベルに引き上げる可能性があります。
すぐに一連のテストをご紹介する予定です。ご期待ください。Windsurfを使用したことがある方は、初心者へのアドバイスを共有してください。また、4.5の後に4.1がリリースされた理由に混乱している人たちへ、これはGPT-4.10（テンテン）のことで、GPT-4.5の後に来るのは明らかだと思います。