o3と04-miniが登場！すべてを凌駕する性能

4,736 文字

o3 and o4-mini ARE HERE! | BEATS EVERYTHING

OpenAI just dropped o3 and o4-mini, and they’re absolute monsters. Insane performance, jaw-dropping benchmarks, and game...

皆さん、ついに待望のo3と04-miniが登場しました。OpenAIは今朝のライブストリームでこれらのモデルを発表しましたが、これらは噂された通りの素晴らしいものでした。私たちはもはやこれらを単なるAIモデルと呼ぶ段階を超えています。なぜなら、これらはもはやモデルではなく、ツール使用、エージェントワークフロー、さらには新しい科学的アイデアを生み出す能力を持つ、完全なAIシステムだからです。早速、今回のリリースの詳細を見ていきましょう。
まずはベンチマークから始めて、次にいくつかの驚くべきデモを紹介し、最後にOpenAIがもう一つの驚きを用意していました。ターミナル内で直接実行できる新しいコーディングエージェントです。
ベンチマークを見てみましょう。AME 2024、AME 2025（どちらも難しい数学ベンチマーク）、コーディングベンチマークのCode Forces、そしてもちろん博士レベルの科学的質問であるGPQAがあります。AMEでは、o3と04-miniのスコアが、ツール（特にPython）を使用した場合と使用しない場合の両方で表示されています。これらのモデルはもはや単なるモデルではなく、ツールにアクセスできるようになり、それが全てを変えています。彼らは文字通りPython、ブラウザ、コードインタプリタ、さらには画像ベースのツールを使用でき、タスクの途中でそれらをいつどのように使用するかを決定できます。
例えば、AME 2025ベンチマークを見ると、ツールなしのo3は88.9%のスコアですが、ツールありでは98.4%になります。04-miniも同様に大幅なジャンプがあり、ツールなしの92.7%からツールありの99.5%になり、ほぼベンチマークを飽和させています。これらのツールは明らかにゲームチェンジャーです。
Code Forcesベンチマークでは、o3と04-miniは約2700のスコアを獲得しており、少なくともこのベンチマークに基づくと、世界のトップ200位の競争的コーダーに入るレベルです。GPQAではツールなしのパフォーマンスのみが表示されていますが、それでも以前のo1と03-miniから大幅な向上が見られます。
次のコーディングベンチマークに移る前に、ツール使用の実際の様子を示すクイックデモをお見せしたいと思います。これらのモデルが実際にどのようにツールを使用するのか、なぜそれらが非常に知的で有用になるのかを実感できるでしょう。
「数値だけでなく、問題解決のためにモデルがどのようにツールを使用するかをお見せしたいと思います。例えば、AME数学コンテストの問題があります。この問題は2×2のマス目を見て、ある制約を満たす色分けの条件の数を数えるものです。モデルがどのように解決するか見てみましょう。
モデルの考え方は本当に素晴らしいです。まず総当たりのプログラムを作成し、Pythonインタプリタを使って実行して、正解である82を得ます。しかしこれは乱雑で不格好な方法です。モデルはそれを認識し、解決策を簡略化してより賢い方法を考え出します。さらに、信頼性を高めるために答えをダブルチェックします。
これらのモデルは単に正しい答えを出力するだけでなく、人間にとって有用であるように訓練されています。この場合、人間に説明するために言葉で解決策を提供します。本当に素晴らしいと思ったのは、解決策を簡略化したりダブルチェックしたりするような特定の戦略を直接モデルに訓練したわけではなく、自然にこれらのことを学習するという点です。
人間が行うような直感的な解決策を生み出すのが非常に素晴らしいです。一方、最初の総当たり解決策は実際のコンテストでは時間が足りなくて実行できないでしょう。」
次にコーディングベンチマークを見ていきましょう。フリーランスのソフトウェアエンジニアリングタスクで構成されるSULancer、コーディングベンチマークの標準であるSWEBench、そして複数言語のコード編集のためのARDER Polyglotがあります。どのベンチマークでも、o3と04-miniは最先端のパフォーマンスを示していますが、特に注目すべきはBench Verifiedです。o3は69.1%、04-miniは68.1%を獲得しており、これらは驚異的なスコアです。
現在最高のコーディングモデルと称されるGemini 2.5 Proでさえ63.8%のスコアしか達成していないのですから、私たちは正式にコーディングの新しいリーダーを手に入れたと言えるでしょう。
まだ感心していないならば、o3と04-miniがマルチモーダルベンチマークでも最先端のパフォーマンスを達成している点を見てみましょう。これらのベンチマークで高いスコアを獲得している特定の理由があります。それは、これらのモデルが初めて画像で「考える」ことができるからです。
OpenAIによれば、これらのモデルは画像を思考チェーンに直接統合できるとのことです。彼らは単に画像を見るだけでなく、それを用いて考えます。これにより、視覚的推論とテキスト推論を融合させた新しいクラスの問題解決が可能になり、マルチモーダルベンチマークでの最先端のパフォーマンスに反映されています。
これらのモデルは、AME、GPQA、Code Forcesなどの従来のタスクで最先端であるだけでなく、SWEBench Verifiedでの記録的スコアでコーディングの新しいリーダーともなっています。さらに、これまで不可能だった方法で言語と視覚を融合させ、マルチモーダル推論の限界も押し広げています。
それだけでなく、これらのモデルは非常にコスト効率が良いのです。ここで見られるように、高計算能力のo3を実行するコストは、低計算能力のo1を実行するコストとほぼ同じですが、パフォーマンスの向上は大幅です。AMEとGPQAの両方のベンチマークで、o3は同等または低いコストで全てのo1バリアントを上回っています。つまり、より優れた推論、コーディング、マルチモーダル機能を手に入れながら、コストも大幅に削減できるのです。
これが新しいo3と04-miniモデルについて知っておくべきことのほぼすべてです。これらは現在、Plus、Team、Proユーザーに提供されており、o3 Proは実際に数週間後にProティアに展開される予定です。そのパフォーマンスがどうなるか興味深いところです。
冒頭で述べたように、OpenAIはライブストリームを驚きの発表で締めくくりました。Codeex CLIという新製品を発表しました。これはコンピュータ上で直接実行されるコーディングエージェントで、完全にオープンソースで今日から利用可能です。OpenAIによれば、時間とともに急速に改善されるとのことです。
これは本当に驚くべきことであり、開発者の仕事のやり方を変える可能性があります。
「今日、私たちはCodeexのレガシーの継続をお見せします。プログラミングの未来がどのようなものになるかを定義すると思われる一連のアプリケーションをリリースする予定で、今日は最初のものから始めます。
今日、私たちはCodex CLIを共有できることを嬉しく思います。これは私たちのモデルをユーザーとそのコンピュータに接続する軽量インターフェースです。コード実行エージェントを安全に必要な場所に展開する方法のリファレンス実装と考えることができます。
これは、応答APIのような公開APIの上に構築されており、そのAPIの思考チェーンの要約のような新機能や、マルチモーダル推論機能を持つo3や04-miniのような最新モデルを活用しています。しかし、言葉だけでなく実際のデモを見てみましょう。」
「素晴らしいです。私はo3-miniで人々が何を構築したかをオンラインで調べていました。そこで、この素晴らしい画像から質問ジェネレーターを見つけました。作者はo3で構築したと言っていましたが、おそらくo3-miniを意味していたのでしょう。時間旅行でもしていない限りは。
そこで今日は、この投稿からCodeexと04-miniを使って再実装してみようと思いました。スクリーンショットを撮って、それを私のターミナルにドラッグします。Codeexに渡します。
ご覧のように、imageフラグを使って渡しており、Codeexは04-miniからの先ほど見たマルチモーダル推論を使い始めます。これらのモデルをコンピュータ上で直接使用する素晴らしい点の一つは、作業中のファイルやコードベースを取得して、Codeexに入れることができることです。
ここでは、先ほど話していた思考チェーンの一部を実際に見ることができます。質問を明確にし、物事について考え、そして実際に画像を見て、それで何ができるかをいくつか提案しています。何を考えていましたか？」
「ただ投稿で見たものを再実装しようと思っていました。」
「でも、ライブなので少し楽しくしましょう。ウェブカメラAPIを追加して、ライブストリームを見ている人のために16:9を維持しましょう。小さなビデオは避けたいですから。やってみますか？」
「大胆ですが、いいですね。」
「考えている間に、Codeexの素晴らしい点の一つは、考えるだけでなく、マシン上で直接ツールを実行できることです。APIの関数呼び出しと同様に、将来使用する既存の関数を公開できます。将来的にはAPIで使用できるツールの完全なセットが利用可能になります。考えている間に、実際にどのようにコマンドを実行するか少し話しませんか。実際にいくつかのコマンドを実行しているのが見えますね。」
「デフォルトでは、Codeexは’suggest’モードで実行されます。実行中にコマンドの編集や実行、ファイルの編集を提案し、それぞれを承認できます。しかしそれは少し面倒になることがあるので、デモのために’full auto’モードで実行しました。」
「full autoモードについて少し説明すると、これはエージェントが作業を進めることを許可しながらも安全性を確保するモードです。ネットワークを無効にしてコマンドを実行し、実行したディレクトリに編集を制限します。これにより、何かを実行できる安心感を得られますが、望むどのようなコマンドでも実行させるリスクはありません。もう完了したようですね。かなり速いです。」
「HTML ファイルを作成したと言っていますので、それを開いてみましょう。いくつかの許可が必要です。常に許可が必要ですね。見てみましょう。素敵ですね。幅のスライダーまであります。幅のスライダーが何をするかは想像と違いましたが…低解像度版もいいですね。こんにちはと言ってみませんか。こんにちは、いいですね。」
驚くべきことにOpenAIは再び頂点に立ちました。現在、最高の推論モデルを持ち、今週初めにGPT-4.1をリリースしたことで、最高の非推論モデルも持っているといえるでしょう。彼らは可能性の限界を押し広げ続けています。画像で考えるというのは本当に驚異的です。
このリリースで最も気に入った点は何でしょうか？新しいモデル、つまり新しいAIシステムでしょうか？それともターミナルで直接実行されるコーディングエージェントでしょうか？下にあなたの考えを書いて、いいねボタンを押してください。この簡潔な解説を楽しんでいただけたなら、ぜひチャンネル登録をお願いします。これが私たちがここでやっていることですから。