OpenAI o3 & o4-mini

11,464 文字

Greg Brockman, Mark Chen, Eric Mitchell, Brandon McKinzie, Wenda Zhou, Fouad Matin, Michael Bolin, and Ananya Kumar intr...

こんにちは、ようこそ。私はグレッグ・ブロックマンです。私はマーク・チェンです。OpenAIでリサーチをリードしています。
未来への質的な一歩と感じるモデルがいくつかあります。GPT-4はそのひとつでした。今日もそんな日になるでしょう。私たちは2つのモデル、o3とo4-miniをリリースします。これらは、トップ科学者たちが「正当に優れた有用な斬新なアイデアを生み出す」と言っている最初のモデルです。法律分野で素晴らしい結果を見てきました。昨日、同僚の一人と話していたところ、o3がシステムアーキテクチャについて素晴らしいアイデアを提案してくれたと言っていました。これまでこのようなものは見たことがありません。
これらのモデルの素晴らしい点は、単なるモデルではなく、本当のAIシステムであるということです。私たちは以前の推論モデルではしていなかったことですが、ツールを使うように訓練しました。難しい問題を解決しようとする過程で、実際にチェーン・オブ・ソートの中でこれらのツールを使用します。例えば、o3が非常に難しいタスクを解決しようとして、連続して600回以上のツール呼び出しを使用するのを見てきました。
私たちは本日からAPIとChat GPTで、これらのモデルを段階的に利用可能にし、できるだけ迅速に展開していきます。私の心に非常に近いのは、ソフトウェアエンジニアリングにおけるそれらの能力で、単に一回限りのコードを生成するだけでなく、実際のコードベースで作業することです。これらのモデルは実際に私よりもOpenAIのコードベースをナビゲートするのが上手いことがわかりました。それは本当に便利です。
私よりも確実に優れていますね。私にとっては長い間そうでした。はい、はい。しかしそれは、あなたがはるかに多くのことを成し遂げるのに役立ちます。だから私たちは、世界にこれらを提供し、皆さんがそれらで何をするのかを見ることに本当にワクワクしています。
ツール使用に私たちが興奮している理由は、それが推論モデルをより有用で、より賢くするからです。難しい数学の問題を解くために電卓を使ったり、未知の道を通るために地図アプリを使ったりするように、私たちのモデルも適切なツールと組み合わせることで、それだけ強力になります。
それを念頭に置いて、私たちはOシリーズの推論モデルと完全なツールスイートを組み合わせて、AMY、GPQA、Code Forces、Sweetbenchなど、非常に難しいベンチマークで最先端の結果を達成しました。
ツールのパワーを示すために、それは多くの新機能も提供します。例えば、モデルが画像で考えることができるようになりました。つまり、モデルはPythonを使って、あなたがやりたいタスクのために画像を操作し、切り取り、変換することができます。つまり今日、複雑な画像や、ぼやけた上下逆さまの画像をアップロードすることができ、モデルは問題なくそれを処理します。
これらの進歩は、RLパラダイムにおける継続的なアルゴリズムの進歩によって支えられています。私たちは訓練時のスケーリングとテスト時のスケーリングの両方を拡大し続けてきました。これらのモデルについて私をとても興奮させるのは、ほんの1、2週間前に、凝縮物質物理学の新しい論文があったことです。それはo3 mini highを使って、新しい未解決の定理の証明を助けたのです。このモデル群、o3とo4-miniによって、私たちはそのような進歩をもっと見ることになると本当に信じています。
ここに私たちの研究者が2人います。エリックとブランドンで、彼らがデモを見せてくれます。
はい、ブランドン・マッケンジーです。OpenAIでマルチモーダル推論を担当しています。
こんにちは、エリック・ミッチェルです。他の多くの人たちと一緒に、Oシリーズモデルのポストトレーニングに取り組んでいます。
それでは、o3ができることをいくつか紹介しましょう。まず科学の例から始めます。これは物理学のポスターになります。o3に考える時間を与えるために、今から始めさせます。私が与えるのは、2015年、つまり10年前に私がやったある物理学インターンシップのポスターです。このポスターやプロジェクトは、陽子のベクトルスカラー電荷と呼ばれる量を推定するためのものでした。これは標準モデルを超えた素粒子物理学の量で、短距離相互作用がどれだけ強いかを教えてくれます。
ご覧のように、モデルo3はズームインして、ここでブラウジングしています。少し見やすくするためにズームアウトしますね。それは私が尋ねた質問、基本的に私の結果を見つけて最近の文献と比較するという質問のために正しい量を探しているようです。
しかし小さなひねりがあります。実際には結果はポスターには載っていません。それはまだ私が持っていなかったからです。この最終論文には載っていますが、このポスターには載っていません。実際、私はo3に私のためにプロジェクトの残りの部分をやってもらうようお願いしています。
彼はOpenAIでも同じトリックを使っていますね。そうです、そうです。
素晴らしい。私が見つけて欲しかったプロットを見つけました。このプロットの傾きを見つけて、特定の物理的なクォーク質量まで外挿し、その量を取得し、その値を正規化するために別の量を適用する必要があることを理解するはずです。それがやるべきことだと既に理解しているようですが、もう少し画像を探索する時間を費やしているようです。
いいですね。今、最近の結果についてウェブを閲覧しています。なぜウェブを検索しているのですか？あー、そうですね、私は「最近の推定値を更新した結果を見つけてください」と頼んだと思います。だから今、文献を見て、人々が何をしたか、そして（それが思っている）私の最終的な結果とどう比較されるかを見ています。
このタスクを完了するのにどれくらい時間がかかると思いますか？かなり長い時間ですね。私のポスターが何を意味していたのかを覚えるだけでも長い時間がかかりました。また、この質問を最初に尋ねたとき、結果がそこになかったことにさえ気づきませんでした。それを教えてくれたのは良かったです。
自分のプロジェクトに戻るためだけでも何日もかかり、その後さらに数日かけて文献を調べることになるでしょう。それは数秒で少なくとも10の異なる論文を読んだに違いありません。それは大きな時間の節約です。
素晴らしい。私の結果をまとめていて、これらの数字は正確に見えます。外挿することで推定された、この正規化されていない値があり、特定の定数を掛けると再正規化され、「あなたは最終的にこれになっただろう」と言っています。私の論文では最終的に約1.2になったと思います。そして実際の文献と比較しています。いくつかの異なる推定値があり、少し近いように見えます。
何と言っているか見てみましょう。私の裸の値は再正規化が必要なので高く見えると言っています。それは正しいです。それを掛けた後、最先端の結果と一致するものが得られます。それは素晴らしいです。しかし、私の精度は最先端ほど良くないと言っています。それは大丈夫です。インターンシップでしたから。
悪くないですね。その通りです。喜んで受け入れます。最近の結果よりも少し不確実性が高いかもしれませんが、それでも合理的な推定値のようです。素晴らしいことに、この分野は進歩していますね。
これはすごい例ですね。本当にクールです。
では、エリックに彼の例を紹介してもらいましょう。
素晴らしい。そのようなデモの後に続くのは難しいですが、私はo3の能力の別の側面を紹介したいと思います。それも非常にクールだと思います。
マークとグレッグが言ったように、これらのモデルについてのクールなことの一つは、Chat GPTで利用可能なすべてのツールを使用できることです。私はこのモデルのためにメモリをオンにしました。モデルは私についていくつかのことを知っています。これも始めましょう。
人々が言うように、モデルは非常に賢いです。それは本当に素晴らしいことで、あらゆる分野の最先端の研究でも役立ちます。しかし、あなたが文字通り素粒子物理学の研究者でなくても、この新しい知性とツールを使用するこの種の「エージェント的な」能力は依然として役立ちます。それはあなたにとっても非常に価値があるものです。
ここでo3に頼んだのは、「私について知っていることに基づいて、ニュースを読んで、私がおそらく知らなかったけれど本当にクールだと思うことを教えてください」ということです。特に、これには私についての何かを知ることと、関連する興味深いことを探すために、このエージェントの思考とツール使用を行うことが含まれます。
また、もし私がこの新しい事実について人々に伝えたいならば、ブログ投稿に入れることができるデータや情報をプロットするように依頼しました。
私の趣味はスキューバダイビングと音楽を演奏することです。そして、これらの興味を組み合わせて、実際にこのデモに取り組むまで知らなかった研究の一部を見つけました。それは、研究者たちが健康なサンゴ礁の録音を作り、それを水中スピーカーで水中で再生すると、新しいサンゴの定着や魚の集まりが加速され、サンゴ礁の回復と再生が早くなるというものです。
これは、サンゴ礁の保全における実際の研究の一部です。それは、水中探検と音楽の両方の非常にクールな統合でした。ここには素敵なブログ投稿があります。モデルは、高度なデータ分析を使用して私にデータを表示し、プロットし、キャンバスを使用してブログ投稿を生成しています。最後に引用付きで結果とその情報源についてまとめています。
繰り返しになりますが、これらのモデルは非常に賢いです。それは素晴らしいことで、本当にワクワクしています。この新しい知性とツールを使用する能力は、あなたが科学分野の最先端にいるか、日常のワークフローにこのモデルを統合しているかに関わらず役立つでしょう。
物理学者のために音を再生して、彼らの結果を改善することもできるかもしれませんね。職場で何を再生すべきでしょうか？健康な物理学者の音を。健康な物理学者はどんな音がするのでしょうか、ブランドン？それを調べてみます。o3に尋ねます。
素晴らしい。二人とも、これらの説得力のあるデモを見せてくれてありがとう。次に、ウェンダとアナに来てもらって、モデルがどのように訓練されているか、そして評価がどのようなものかについて少し話してもらいます。
大変ありがとう。二人とも素晴らしい。知識労働において非常に信じられないほど役立ちますし、単に高度にパーソナライズされたことをしているだけでも非常に有用です。私にとって魔法なのは、フードの下では依然として次のトークン予測に過ぎないということです。RLの少しの添加物と共に、次に何が来るべきかを考えているだけのモデルです。
その通りです。我々は目標を変え、データの由来を訓練し、今や世界に本当に接続することができるようになりました。
こんにちは、ウェンダです。OpenAIの研究者で、スキャニングRLシステムに取り組んでいます。
アナです。OpenAIの研究者で、これらのモデルのいくつかのアルゴリズムに取り組みました。
まず、数学、コーディング、科学の標準ベンチマークでのこれらのモデルの結果を示したいと思います。これらのプロットでは、濃い黄色のバーが新しいモデルセットで、薄い黄色のバーが古いモデルセットです。かなり大幅な向上が見られます。
難しい数学コンテストのAMでは、o4-miniはツールを使って99％の精度を達成し、評価をほぼ飽和させています。Code Forcesでは、これらのモデルは2700以上を獲得し、世界のトップ200のコンテスタントの中に位置しています。GPQAは難しいPhDレベルの質問のセットで、o3は83％以上を獲得しています。これはかなり信じられないことです。かなり良いですね。
評価数値を超えて、モデルがこれらの問題を解決するためにどのようにツールを使用するかを少し示したいと思います。例えば、ここにはAM数学コンテストからの問題があります。問題は、2×2の正方形のグリッドを見て、いくつかの制約を満たす着色条件の数を数えることを求めています。モデルがどうするか見てみましょう。
モデルの考え方は本当にクールです。最初に総当たりプログラムを作成し、Pythonインタープリターを使って実行します。そして正解である82を得ます。しかし、これは乱雑で、かなり洗練されていません。モデルはそれを認識し、解決策を簡素化して、より賢い方法を考え出します。その後、信頼性を高めるために答えをダブルチェックします。これはかなり素晴らしいです。
これらのモデルは、単に正しい答えを出すように訓練されているだけでなく、役立つように訓練されています。この場合、人間に説明するために言葉で解決策を提供します。ここで本当にクールだと思ったのは、モデルに特定の戦略を直接使用するように訓練していないことです。「解決策を単純化する」や「ダブルチェックする」とは言いませんでした。それは自然にこれらのことを学びます。これは非常に信じられないことです。
人間が実際にできる知的な解決策を本質的に考え出すことは本当にクールです。一方、最初の総当たり解決策はもちろん、実際のコンテストではそれを行う時間はありません。
数学、科学を超えて、多くの方がコーディングにこれらのモデルを使用していることも共有したいと思います。Sweet AnswerとPolyDotでは、ツールをエンドツーエンドでハーネスや特定の仕組みなしで使用できるモデルで、最先端の結果を達成しています。さらに詳しく説明するために、Sweet Benchの例を皆さんと共有したいと思います。
この例では、コンテナツールにアクセスできるAPIでo3 highを実行しています。残念ながら、APIでツールを実行する最終的な仕上げには数週間かかるため、今日はこれを実行することはできませんが、モデルがどのようにツールを使用しているかについて非常に興奮しているので、これを共有したいと思います。
モデルが取り組むように求められた問題は次のとおりです。それは、「senpai」と呼ばれるパッケージのバグに関するものです。これは象徴的な数学を操作するために使用されるPythonパッケージです。モデルに質問をプロンプトし、また仮想マシンであるコンテナへのアクセスも提供しています。シンプリポジトリが事前にロードされています。つまり、モデルはすべてのコードが既にあるシェルにアクセスでき、モデルはバグを見つける必要があります。
クールなのは、モデルが最初に私の言っていることをダブルチェックして、同じことを観察しているかどうかを確認することです。誰かが私に何かについてバグを報告したとき、私がするように、実際に問題があるかどうかを確認します。モデルは「ああ、そうですね、丸括弧と角括弧付きの2xの最大値を出力しているようです」と気づきます。ウェンドをよくバグらせますが、彼はいつも良い質問をします。
その後、ダブルチェックのために、サインが正しく表示されているかを確認します。これは角括弧が内部動作で、私たちが修正しようとしているバグです。モデルは周りを見回し、リポジトリの様子を把握しようとします。そのために、日常的な作業で使用する一般的なターミナルツールを使用します。ファイルの一覧表示など。指定したファイルを開き、関連ファイルを印刷して探しているものを見つけようとします。
いくつかのブラウジングの後、最終的にモデルはMROと呼ばれるものをチェックできると考えます。これはクラスの継承について教えてくれるPythonの構造です。そして、モデルが獲得した以前の知識に基づいて、何かが間違っていることに気づきます。このクラスはfunctionではなくapplicationから継承していません。
モデルはもう少し周りを見回し、最終的に良い解決策があることを見つけます。このファイルを変更して実装します。apply patchはパッチを適用し、希望としてこれが正しい解決策です。これを確認するために、モデルは任意の優れたエンジンと同様に、単体テストを実行して、正しいことを確認します。そして確かに今は角括弧で印刷されています。
これは本当にクールなルートで、モデルが自分自身ですべてを整理するのを見るのは本当にクールです。このルートは実際にSweet Bunchの短い方で、約22の相互作用と16,000トークンありました。場合によっては、モデルは100以上のコンテナ相互作用を使用し、平均で37を使用します。これほど多くのコンテナ相互作用を持つ長いロールアウトを実行し、正しい答えを得ることができるのは非常にクールです。
それほど長いロールアウトを信頼性を持って行うことは、決して簡単なことではありません。本当に難しいです。
また、標準的なマルチモーダルベンチマークの数値も示したいと思います。MMU、Math Vista、Charive、Vstarのこれらの数値は単に驚異的です。これらのモデルがあなたのマルチモーダルタスクに役立つことを本当に願っています。
これは本当に、以前は不可能だったマルチモデルに推論パラダイムを適用することです。そして今、ブランドンがデモンストレーションしたように、モデルは思考の連鎖の中で直接画像を操作することができ、それによってマルチモデルの能力が大幅に向上します。
最後に、外部で実行する他のいくつかの評価を共有したいと思います。Humanity Tax Examでは、ご覧のように私たちのo3モデルはDeep Researchに近い結果を得ることができますが、o3はずっと速く実行され、Chat GPTでの制限率もはるかに少ないです。Deep Researchが生成するような完全なレポートが必要ではなく、情報を集めるためのエージェント的な振る舞いに興味がある場合、非常にクールなモデルだと思います。
これらのプロットでは、y軸上のパフォーマンスとx軸上の推定推論コストを示しています。o4-miniは任意の推論コストに対してo3-miniよりもかなり優れていることがわかります。さらに、ここには示されていないことの一つは、o4-miniはo3-miniのようなマルチモデルモデルであるということです。小さく高速なマルチモデル推論モデルが必要な場合は、o4-miniを試してみることを楽しみにしています。
o3の結果はさらに顕著です。はるかに少ない推論コストで同じパフォーマンスを得ることができ、o1と同じ量を支払う意思があれば、はるかに高いスコアを得ることができます。これらは本当に驚くべきモデルです。これが、私たちがo1モデルを新しいものに置き換える理由です。
一つ迅速に言及すべきことは、理由をより費用効率的にし、一般的にモデルをより有用にするために行った最適化のため、クリスマスの12日間で共有したベンチマーク最適化とは異なるということです。小さな差異があるかもしれません。マルチモデルでは一般的に向上しています。これは実際の使用ケースに対してより最適化されたモデルであり、答えを求めるときに長く待つ必要がないため、これはずっと良いモデルだと考えています。
人々は忍耐強くありません。私は忍耐強くありません。
これらのモデルは、厳密な科学、創意工夫、職人技の結果です。o3を生産するために、o1の10倍以上のトレーニングコンピューティングを投入しました。多くの人々による多くのハードワークでしたが、最終的な結果は本当に美しいものでした。x軸上のコンピューティングをスケールアップするにつれて、AMのような評価のパフォーマンスは上昇し続けました。
これは本当に、予測可能なスケーリングと事前トレーニングというGPTシリーズを通じての私たちのステップを再トレースしています。そして今や目標は、RLでのスケーリングを通過し、より多くのRLコンピューティングを投入すると、コメンタリーの利益も得られることを示すことです。
o4はどのように見えますか？線を引くと、110％でしょう。ここで初めて聞きました。
モデルを試してみることをとても楽しみにしています。ありがとうございます。
モデルをお見せしましたが、もう一つ特別なサプライズがあります。それを紹介するのはフアドとマイケルです。
こんにちは、エージェント研究チームのフアドです。私はマイケルで、同じくエージェント研究チームにいます。
数年前にCodexのデモを見たのを覚えています。これらの新しいSweetbenchの数字でどれだけ進歩したかを見るのは本当に驚くべきことです。
そうですね、そのデモのモデルは、今バイブコーディングと呼ばれているものを誰かが初めて見た時でした。素晴らしい用語ですね。当時持っていればよかったですね。私たちはそのモデルをCodexと呼びました。なぜなら、コードが私たちがモデルに訓練しようとしていたことに非常に不可欠だったからです。
そして今日、私たちが皆さんにお見せするのは、Codexレガシーの継続です。私たちは、プログラミングの未来がどのようなものかを定義すると思うアプリケーションのシリーズをリリースする予定です。そして今日は最初のものから始めます。
素晴らしい。今日、私たちはCodex CLIを共有できることを嬉しく思います。これは、モデルをユーザーとそのコンピュータに接続する軽量インターフェースです。必要な場所でコード実行エージェントを安全に展開する方法のリファレンス実装のように考えることができます。
それはレスポンスAPIのような公開APIの上に構築されており、そのAPIの新機能（チェーン・オブ・ソートの要約など）や、マルチモーダル推論機能を持つo3やo4-miniなどの最新モデルを活用しています。
しかし、話はこれくらいにして、実際にデモを見てみましょう、マイケル。
素晴らしい。o3-miniで人々が何を構築したかを見るためにオンラインに行きました。そして、この素敵な画像を尋ねるジェネレーターを見つけました。作者はそれをo3で構築したと言っていましたが、o3-miniを意味していると確信しています。タイムトラベルをしない限りは。そうですね。
今日はCodexとo4-miniを使って、投稿からこれを再実装しようと思いました。まず、スクリーンショットを撮ることから始めます。スクリーンショットを撮って、それを私のターミナルにドラッグします。そしてCodexに渡します。
ご覧のように、イメージフラグを使ってそれを渡しました。そしてCodexは、先ほどo4-miniから見たマルチモーダル推論を使い始めます。これらのモデルを直接コンピュータで使用する素晴らしい点は、作業しているどんなファイル、どんなコードベースでも取って、それをCodexに入れることができることです。
ここでは、先ほど言及した思考の連鎖の一部を実際に見ることができます。いくつかの明確化質問を尋ね、物事について考え、そして実際に画像を見て、それで何ができるかをいくつか提案してくれました。何を考えていますか？
投稿で見たものを再実装しようと思っていましたが、生放送なので少し面白くしましょう。ウェブカメラAPIを追加しましょう。そして生放送を見ている人のために、16対9に保つようにしましょう。本当に小さなビデオにはしたくありません。やってみませんか？
大胆ですが、気に入りました。
思考中ですが、Codeexの素晴らしい点の一つは、あなたのマシン上で直接思考し、ツールを実行するのを見ることができることです。APIでの関数呼び出しで言及されたように、実際に既存の関数を公開することができ、将来的にはAPIで使用できるツール一式を完全に使用できるようになります。思考中ですが、コマンドを実際にどのように実行するかについて少し話しませんか？今、いくつかのコマンドが実行されているのが見え始めています。
デフォルトでは、Codeexは「提案モード」と呼ばれるもので実行されます。実行中に、編集コマンド、実行コマンド、または編集ファイルを提案し、それぞれを承認することができます。しかし、それは少し面倒になる可能性があります。デモのために、「フルオート」モードと呼ばれるもので実行しました。
フルオートモードについて少し説明します。エージェントが仕事を進めることを許可できるが、安全で安心できる状態を保つモードです。コマンドを実行でき、ネットワークは無効化され、実行したディレクトリへの編集が制限されます。これにより、何かを実行できるものを持つことができますが、望むコマンドを実行させることのリスクなしに安心感を得られます。
そして、すでに完了したようです。かなり速いですね。すでに完了しています。表示してみましょうか？
ASKIのHTMLファイルを作成したと言っています。それを表示してみましょう。いくつかの権限を与える必要があります。常に権限が必要ですね。
見てみましょう。素晴らしい。幅スライダーさえあります。幅スライダーがそのように動作するとは思っていませんでした。しかし、低解像度の私たちです。低解像度バージョンが好きです。挨拶してみませんか？どうぞ。こんにちは。素晴らしい。
ご覧のように、Codeexを使うのはとても楽しいです。私たちはCodexを使ってCodeexを構築していました。それが完全に利用可能になった今、あなたが何をするのかを見るのをとても楽しみにしています。
ツールが利用可能になるだけでなく、すべてのコードもオープンソース化しています。数分前からGitHubのOpenAI/Codexにアクセスして確認できます。Codexを使ってリポジトリを説明してもらうこともできます。あなたが何をするのかを見るのをとても楽しみにしています。
Codex CLIと合わせて、最新のモデルを使用し、Codex CLIを使用してオープンソースのフロンティアを加速するプロジェクトをAPIクレジットでサポートするための100万ドルのオープンソースイニシアチブも発表します。詳細は研究ブログ投稿にリンクがあります。
それでは、マークに戻します。
お二人とも、ありがとうございます。
Chat GPTの可用性について少し話したいと思います。本日より、ProまたはPlusチームの登録者の方々には、o3、o4-mini、o4-mini highへのアクセスの展開を開始します。そして、アナの投稿からわかるように、これらは以前の世代のモデルよりも厳密に優れています。したがって、以前持っていたo1およびo3-miniシリーズのモデルに取って代わります。
EnterpriseまたはEduの方は1週間待つ必要があります。今日o1 Proを使用していて、それが好きな場合、o3 Proをロールアウトする予定ですが、すべての最後の機能が整っていることを確認するには時間がかかります。
また、APIでもこれらのモデルをリリースしています。今後数週間で、APIでのツール使用もリリースする予定です。これで人々が何をするかを見るのは本当にエキサイティングでしょう。
これらのモデルは、チーム全体から利用可能にするための膨大な作業量です。そして世界にこれらをもたらすことは本当に愛の労働であり、私たちの使命、すなわち人類全体に利益をもたらすAGIをもたらすことにおける大きな一歩前進と見なしています。
それらは科学的応用に非常に有用ですが、日常生活でも役立つと思います。ぜひ使用して、何ができるかを探ってください。あなたが何をするのかを見るのをとても楽しみにしています。
ありがとう。チームに感謝します。