OpenAI O3 Mini: より速く、よりスマート、しかし本当に優れているのか？

3,109 文字

OpenAI O3 Mini: Faster, Smarter, But Is It Better?

OpenAI finally released the o3-mini series with 3 models - low, medium and high. LINKS:Announcement: Card: htt...

さて、OpenAI O3 Miniのリリースがついに行われ、ChatGPTおよびAPI上で正式に利用可能となりました。まだ私自身はこのモデルにアクセスできていないため、展開途中だと思われますが、アナウンスメントはすでにOpenAIのウェブサイトに掲載され、システムカードも公開されています。本動画では、アナウンスメントを詳しく見て、モデルの優れている点とそうでない点について検証していきます。

まず、アナウンスメントの内容を紹介します。

「OpenAI O3 Miniをリリースします。これは、当社のReasoningシリーズの中で最新かつ最もコスト効果の高いモデルです。ChatGPTとAPIの両方で利用可能となります。他のReasoningモデルと同様に、特にSTEM、つまり科学、数学、コーディングにおいて非常に優れた能力を発揮することが期待されています。これらの分野においては、Reasoningモデルを利用して文章を作成すべきであり、通常の生成モデルはあまり適していません。」

このモデルは、小型、中型、高性能の3種類のバリエーションが用意されます。すべてのバリエーションは、ファンクションコーリング、構造化出力、そしてデベロッパーメッセージに対応しています。これは、エージェント型ワークフローを構築する際に特に優れており、モデルにファンクションコーリングを行い、構造化された出力を生成させる能力が求められる場合に大いに役立ちます。また、ストリーミングにも対応しているため、開発者にとっても非常に良い機能となっています。ユーザーが全体の応答が一度に表示されるのを待つ必要がなくなるのは大きな利点です。

先述の通り、低、中、高の3種類があり、用途に応じて最適化されています。高性能バージョンは3種類の中で最も知能が高いですが、その分処理速度は遅くなります。各アプリケーションに合わせて使い分けが可能です。なお、O1シリーズとは異なり、現時点ではO3 MiniはVision機能に対応しておらず、Chat Completions API、Assistant API、Patch APIで本日から順次展開される予定です。以前にAssistant APIを通じてOpenAIアシスタントを作成していた場合でも、O3 Miniで動作するはずです。さらに、Plus、Team、Proユーザーに加え、無料ユーザーにも一定のクォータが提供されます。

PlusおよびTeamユーザー向けには、レートリミットが従来のO1 Miniの1日50メッセージから3倍の1日150メッセージに引き上げられました。これは非常に良い点で、以前のクォータではPlusユーザーであっても実用性に欠ける面がありましたが、今回の改善により、十分なレートリミットが確保されたと言えます。ただし、DeepSeekのような他のプロバイダーでは、無料ユーザーにも無制限のメッセージ提供が行われている点は留意が必要です。

また、検索機能が初日から利用可能となるため、O3 Miniを活用して検索機能で補強することもできます。さらに、無料プランのユーザーも、メッセージ作成画面で「Reason」を選択するか、応答の再生成を行うことでO3 Miniを試すことが可能です。

アナウンスメントでは、O1がより広範な一般知識のReasoningモデルであるのに対し、O3 Miniは精度と速度を求められる技術領域に特化した代替モデルとして提供されると説明されています。低、中、高の中から用途に合わせて選択可能です。これらの各モードに対して別々のレートリミットが設けられているかは不明ですが、PlusユーザーおよびProユーザーは、O3 MiniとO3 Mini Highの両方に無制限でアクセスできるとのことです。

次に、ベンチマークの結果を見ていきましょう。冒頭でも述べたように、ReasoningモデルはSTEM分野、つまり客観的な推論が実際に役立つ分野で優れているため、コーディング、数学、コンピュータサイエンスが最も恩恵を受ける領域となります。

まず、数学分野では、O3 Mini Highが従来のO1を上回る成績を示していますが、O1 Miniと比較すると、O3 Mini Lowは前世代に劣る結果となっています。一方で、中型および高性能モデルは良好な成績を収めています。私個人の見解としては、博士課程レベルの科学の問題に関しても、O3 Mini HighはO1に匹敵する性能を発揮しています。

次に、コードコンペティションの結果についてです。O3 Mini Highはここでも大幅な改善が見られ、O3 Mini LowもおそらくO1およびO1 Miniに匹敵する成績を収めています。Sweet Benchmarkにおいても同様の傾向が確認されますが、なぜか一部のベンチマークではO1 Miniの結果が省略されており、これらを含めた比較が今後の興味深いポイントとなるでしょう。

続いて、ライブコーディングのベンチマークでは、O1 Highと比較されています。実際、私はO1 Highを見たことがないため、これは標準モデルなのか、O1モデルの拡張Reasoningなのかは不明ですが、予想通り、O3 MiniのHigh設定はO1 Highさえも上回る結果を示しています。

次に、スピードとパフォーマンスの比較です。以下に示すのは、O1 Miniと比較した場合の応答速度の改善です。システムカードに記載された結果によれば、O3 Miniは、O1 Miniと比べて応答速度が25%向上し、平均応答時間が10.1秒から7.7秒に短縮されています。これは、応答速度および効率性において大幅な改善を意味しますが、効率性自体はO1とほぼ同等とされています。

このブログ記事では、特にファンクションコーリング、構造化出力、デベロッパーメッセージに優れたエージェント型ワークフローへの応用を強調しています。しかし、システムカードに示されたエージェントタスクに関するベンチマーク結果を見ると、実際にはO1に比べてO3 Miniは劣っていることが明らかです。例えば、あるエージェントタスク用データセットでは、O3 Miniの前後の結果がO1およびO1 Miniを下回っています。

さらに、Kaggleが開発したMLE Bench（機械学習モデルの設計、構築、トレーニングをGPU上で行う課題に対処するためのもの）では、エージェントにGPUおよびKaggleからのデータと命令セットが提供され、エージェントは24時間（場合によっては100時間まで拡大）でソリューションを開発するという試みが行われました。このベンチマーク結果においても、O3 MiniシリーズはO1シリーズに劣る結果となっています。

また、内部データセットであるOpenAI PRSにおいても、O3 MiniはO1シリーズと比べてかなり低い成績を示しています。さらに、MMLという多言語テストセットにおいても、O1シリーズはGBD4にさえ劣る言語が多いという結果が示されています。私自身はまだ実際に試す機会がありませんが、全体として非常に興味深いリリースだと感じます。ただし、エージェント型ワークフローのような主要な分野でのパフォーマンス向上は、我々が期待していたほどではないようです。

コミュニティの皆さんがこのモデルをどのように評価するのか非常に楽しみです。もし機会があれば、ぜひコメント欄で感想をお聞かせください。ご視聴ありがとうございました。