OpenAIがo3-Miniをリリース!驚異的な速さを誇るコーディングの化け物!

AGIに仕事を奪われたい
この記事は約7分で読めます。

4,094 文字

OpenAI Releases o3-Mini! A Blazing Fast Coding BEAST!
o3 Mini is here and it's available to everyone right now! Even free users! Watch the video then try it out yourself!Join...

OpenAIがo3-miniを突如リリースしました。少し休憩できると思った矢先に、OpenAIは「そうはさせない」と言わんばかり。これはDeep seekの影響でしょう。OpenAIはおそらくo3-miniのリリース日を早めたのでしょう。結果として、私たち全員が恩恵を受けることになります。素晴らしい内容なので、詳しく説明していきましょう。
o3-miniは本日、無料ユーザーを含む全ユーザーにリリースされ、タスクに応じて思考の深さを調整できる「低」「中」「高」の3つのモードが用意されています。すでにAPIで利用可能で、ここに記載されている通り、ファンクションコール、構造化出力、開発者メッセージをサポートしています。つまり、すぐに本番環境で使用できる状態です。私もすでにチャットGPTo3-miniにアクセスできますが、テストは後ほど行いましょう。
まず、これらの思考モデルがSTEM(科学、技術、工学、数学)分野で特に優れている理由について説明します。このチャンネルで話してきた強化学習が関係しています。モデルに対して明確な報酬関数を設定できる場合、それには質問に対する答えを知っている必要があります。「詩を書いて」のような開放型のプロンプトには決定的な答えはありませんが、「2+2は?」には唯一の答えがあります。
また、思考レベルを「低」「中」「高」の3段階から選べるのは非常に素晴らしいと思います。長時間の思考を強制されることなく、コストを抑え、効率を上げ、レイテンシーを下げることができます。
o3-miniは本日から、チャット補完API、アシスタントAPI、バッチAPIにおいて、APIの利用層3から5の一部の開発者向けにロールアウトされています。ChatGPTのPlusユーザーおよびチームユーザーは本日からo3-miniにアクセスでき、エンタープライズ版は1週間後に提供開始予定です。
o3-miniはモデルピッカーでOpenAIのo1-miniに置き換わります。Plusユーザーとチームユーザーのレート制限は、o1-miniの1日50メッセージから、o3-miniでは1日150メッセージに3倍増加します。無料プランユーザーも本日から利用可能で、メッセージコンポーザーで「reason」を選択するか、応答を再生成することでo3-miniを試すことができます。
さらに素晴らしいことに、検索機能が最初から組み込まれています。コンポーザーのこの小さな「ウェブを検索」ボタンを選択するだけで、検索と優れた推論能力を組み合わせることができます。
o3-miniはまだビジョン機能をサポートしていないため、開発者は視覚的な推論タスクにはo1を使用し続ける必要があります。o1は引き続き幅広い一般知識と推論のモデルですが、o3-miniは精度とスピードを重視する技術分野向けの特殊な代替モデルとして提供されています。
ベンチマークを見てみましょう。o3-miniはSTEM向けに最適化されています。中程度の推論努力でo1の数学性能に匹敵します。こちらがA224競技数学の結果で、黄色で示されているのがo3-miniの「低」「中」「高」のスコアです。複雑な数学問題において、「低」「中」「高」の選択が大きな違いを生むことが分かります。
o1と比較すると、o3-mini「低」は全く及びませんが、o3-mini「中」はかなり近く、o3-mini「高」はそれを上回っています。開発者としてo3-miniを使用する際は、どの設定を使うか慎重に検討する必要があります。モデルが問題の複雑さに基づいて「低」「中」「高」を自動的に判断できれば、非常に便利だと思います。
GPT QAの博士レベルの科学の質問では、3つのスコア間にそれほど大きな差はありませんが、それでも相当な違いがあります。o1プレビューとo1は3つのo3-miniスコアすべてを上回っていますが、o3-mini「高」は77.2%と、78%および78.3%に迫る成績を収めています。
フロンティア数学は、世界で最も難しい数学の問題です。世界最高レベルの数学者でも、いくつかの問題を解けることを期待するのがやっとというレベルです。o1のpass 1では5.5%、o1-miniは5.8%、o3「高」は9.2%です。さらにpass 4とpass 8と進むと、8回目のパスでo3-mini「高」は20%という非常に印象的な結果を示しています。
競技プログラミングのベンチマークであるCode Forcesでは、これはELOレーティングですが、o3-miniが本当に力を発揮しているようです。o1プレビューが1258、o1が1891で、o3-mini「低」はo1のスコアをわずかに下回りますが、o3-mini「高」はo1プレビュー、o1、o1-miniのすべてを上回っています。
ここにはo3プロや標準のo3は記載されていませんが、o3-miniがコーディング向けに設計されていることは明らかです。このモデルによって、AIを使用したコーディング体験がどれだけ向上するか想像してみてください。
SweetBench Verifiedという別のコーディングベンチマークでも、これは実世界のコーディング課題ですが、o1プレビューとo1がそれぞれ41%と48%、o3-mini「低」が40%から、o3-mini「高」が50%近い精度を達成し、o1を上回る非常に優れた結果を示しています。
人間の選好評価では、y軸にAIの勝率があり、o1-miniチャットGPTのベースラインがここにあり、o3-miniがここで大きく上回っています。これはSTEM分野の結果です。非STEM分野では、見て分かる通り、o3-miniはSTEM関連の質問で特に優れています。その理由は、動画の冒頭で説明した通り、STEM分野の質問には定義された答えがあり、オープンエンドな質問とは異なり、強化学習でモデルを改善できるからです。
o3-miniと他のすべてのminiモデルは、特にスピードを重視しています。上記のSTEM評価を超えて、o3-miniは高速なパフォーマンスと改善された効率性を提供します。追加の数学と事実性の評価でも優れた結果を示し、中程度の推論努力でABテストにおいて、o3-miniはo1-miniより24%速い応答を提供し、平均応答時間は10.16秒に対して7.7秒でした。
ミリ秒単位の初トークンまでの待ち時間を示す黄色のグラフでは、o3-miniが75-500ミリ秒なのに対し、o1-miniは10,000を超えています。また、Deep seekの影響により、価格設定も非常に積極的です。
価格を見てみましょう。o3-miniは入力トークン100万件あたり1.10ドル、キャッシュされた入力トークン100万件あたり55セント、出力トークン100万件あたり4.40ドルです。Deep seekと比較するとどうでしょうか。
Deep seekのホスト版、Deep seek Reasonerの価格は、入力トークン100万件あたり55セント(キャッシュミス時)、14セント(キャッシュヒット時)、出力トークン100万件あたり2.19ドルで、基本的にo3-miniとDeep seek R1は非常に似た価格設定となっています。
さて、話はここまでにして、いくつかテストしてみましょう。まずはコーディングをテストしたいと思います。今は簡単なテストだけですが、後ほど通常の評価基準で完全なテストを行う動画を作成する予定です。
最初にPythonでスネークゲームを作ってみましょう。私が注目し、お見せしたいのはスピードです。編集や切り取りは一切せず、そのまま再生します。では、推論を開始します。クリックすると、出力の一部が表示されます。残念ながら内部の考察プロセスは見えず、要約だけが表示されます。
ほら、出力の速さを見てください。思考を含めてスネークゲームを作るのに6秒です。では、すぐにテストしてみましょう。コードを貼り付けて、動作を確認します。スネークが動き、餌を食べることができ、問題なく機能しています。たった6秒でこれができました。
このバージョンでは壁を通り抜けることができます。実際、壁を通り抜けられるゲームもあれば、そうでないゲームもあるので、どちらも問題ありません。ただし、自分自身に衝突するとゲームオーバーになります。
次に、同じ質問でo3-mini「高」を試してみましょう。「Pythonでスネークゲームを作成して」。編集や修正は一切せずに、速さを確認します。
内部の考察の要約が表示され、思考にはやや時間がかかっていますが、それでも驚くほど速いです。コード量は似ているように見えます。このバージョンは9秒で、前のバージョンは57行のコードでした。このバージョンは約103行あります。ゲームの出来が良くなっているか見てみましょう。
実行してみると、動きが明らかに速くなっています。今回は壁に当たるとゲームが終了し、「Qで終了、Cで再開」というメッセージが表示されます。少し異なるゲームですが、基本的には同じです。先ほど見たように、o3-miniは特にコーディングが得意です。
o3-miniの発表直後に、WindsurfとCursorの両方が相次いでタイムラインに登場し、これらのAIコーディングプラットフォームでo3-miniが利用可能になっています。コーディングがさらに簡単に、さらに生産的になっていくでしょう。
本当に印象的です。素晴らしいリリースを実現したOpenAIに祝福を。私も徹底的にテストを行い、評価基準に基づく完全なテストを別の動画で紹介する予定です。そして、この数週間でこんなにも多くのAIの恩恵を受けている私たち全員にも祝福を。今は本当にワクワクする時代に生きています。
この動画が気に入ったら、いいねとチャンネル登録をよろしくお願いします。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました