
7,828 文字

おはようございます。今日は皆さんにエキサイティングなお知らせがあります。12日間のイベントを12日前に、私たちの最初の推論モデルであるO1の発表から始めました。人々がそれを使って何をしているのか、そしてどれほど気に入っているのかを見るのは素晴らしいことでした。
これは、多くの推論を必要とする、ますます複雑なタスクにこれらのモデルを使用できるAIの次のフェーズの始まりだと考えています。このイベントの最終日である今日は、一つのフロンティアモデルから次のフロンティアモデルへと移行するのが面白いと思いました。
論理的に考えれば「O2」と呼ばれるべきかもしれませんが、Anthropicの友人たちへの敬意を表して、そしてOpenAIが本当に命名が下手だという伝統に則って、「O3」と呼ばれることになります。実際、今日は2つのモデルを発表します。O3とO3 miniです。O3は非常に賢いモデルで、O3 miniは信じられないほど賢いモデルですが、パフォーマンスとコストのバランスが取れています。
まず悪いニュースから言うと、今日は一般公開はしません。良いニュースは、今日からパブリックセーフティテストのために利用可能にすることです。申請することができ、後でその詳細についてお話しします。モデルがより高性能になるにつれて、私たちは安全性テストを真剣に受け止めてきました。この新しい能力レベルでは、安全性テストの手順に新しい部分を追加してみたいと思います。それは、テストを手伝ってくれる研究者のためのパブリックアクセスを許可することです。
これらのモデルをいつ一般公開する予定かについては後で詳しくお話ししますが、そのパフォーマンスについてお話しし、デモをお見せできることにとてもワクワクしています。それでは、さらなる前置きなしにMarkに話を渡したいと思います。
ありがとうございます、Sam。私はMarkで、OpenAIで研究を率いています。O3の能力について少しお話ししたいと思います。O3は非常に難しい技術的ベンチマークで非常に強力なモデルです。まずコーディングベンチマークから始めたいと思います。
ソフトウェアスタイルのベンチマークでは、実世界のソフトウェアタスクで構成されるSweet Bench Verifiedで、O3は約71.7%の精度を示しており、これはO1モデルより20%以上優れています。これは私たちが実用性のフロンティアを確実に登っていることを示しています。
競技プログラミングのCode Forcesでは、O1は最も積極的なハイテストタイム計算設定で約1891 ELOを達成しましたが、ここではほぼ2727 ELOを達成できます。Markは競技プログラマーで、現在も競技プログラミングを指導していますが、比較可能なサイトでの彼の最高スコアは約2500でした。
私たちの主任科学者であるYakovのスコアよりも優れています。OpenAIにはまだ3000点台の人が一人いますが、数ヶ月後には追いつけることを期待しています。このモデルはプログラミングにおいて信じられないほど優れています。
プログラミングだけでなく、数学でも同様です。競技数学のベンチマークでも、競技プログラミングと同様に非常に強力なスコアを達成しています。O3はAMCで96.7%の精度を達成し、O1の83.3%を上回っています。AMCでのあなたの最高スコアは?一度だけ満点を取ったことがあります。
これが意味するのは、O3は米国数学オリンピックの予選試験で通常1問だけ間違える程度だということです。GPT-Q Diamondという別の非常に難しいベンチマークがあり、これはPhDレベルの科学の質問に対するモデルのパフォーマンスを測定します。ここでも87.7%という新記録を達成し、O1の78%を約10%上回っています。
参考までに、専門家のPhD保持者は通常、自分の専門分野で約70%を取ります。これらのベンチマークから気付くかもしれませんが、多くのベンチマークで飽和に達しているか、近づいています。昨年は、フロンティアモデルを正確に評価するためにより難しいベンチマークが必要であることが浮き彫りになり、ここ数ヶ月でいくつか有望なものが登場しています。
特に注目したいのは、Epic AIのフロンティア数学ベンチマークです。以前のベンチマークよりもスコアが低く見えますが、これは今日最も難しい数学ベンチマークとされているためです。このデータセットは、未発表の新しい問題と非常に難しい問題で構成されています。プロの数学者でも1問解くのに何時間もかかる、時には何日もかかるような問題です。
現在、このベンチマークで2%未満の精度しか達成できていない中、O3は積極的なテストタイム設定で25%以上を達成しています。素晴らしいことです。Epic AIフロンティア数学ベンチマークに加えて、もう一つサプライズがあります。
ARCベンチマークについてお話ししたいと思いますが、ARC財団の会長であるGregを招いてこのベンチマークについて話していただきたいと思います。
SamとMark、今日は招いていただきありがとうございます。こんにちは、私はGreg Kamadで、ARC Prize財団の会長です。ARC Prizeは、永続的なベンチマークを通じてAGIへの北極星となることをミッションとする非営利団体です。
私たちの最初のベンチマークであるARC AGIは、2019年にFrançois Cholletが「知能の尺度」という論文で開発しましたが、5年間誰も破ることができませんでした。AI業界では、それは何世紀にも感じられます。ARC AGIを打ち破るシステムは、汎用人工知能への重要なマイルストーンとなりますが、今日、新しい記録を発表できることを嬉しく思います。
その前に、ARC AGIがどのようなものか説明したいと思います。例を見てみましょう。ARC AGIは入力例と出力例に関するものです。目標は、変換のルールを理解し、出力を推測することです。Sam、ここで何が起きていると思いますか?
空いているスペースに濃い青い四角を置くということですね。その通りです。これは人間には直感的に簡単に推測できますが、AIにとっては何が起きているのかを理解するのは驚くほど難しいのです。
もう一つ難しい例を見てみましょう。Mark、この課題で何が起きているか当ててみてください。
それぞれの黄色い四角の中で、色のついた四角の数を数え、その数で境界を作っているということですね。その通りです。ほとんどの人よりも早く解けましたね。興味深いのは、人間のパネルで検証したにもかかわらず、AIはこれまでこの問題を解くことができなかったということです。
ARC AGIのユニークな点は、すべてのタスクが異なるスキルを必要とすることです。つまり、青い四角の角を埋めるような同じタスクを繰り返すことはありません。それは意図的なものです。なぜなら、私たちはモデルが新しいスキルをその場で学習する能力をテストしたいからです。既に記憶していることを繰り返すだけではなく、それが重要なのです。
ARC AGI バージョン1は、主要なフロンティアモデルで0%から5%になるまでに5年かかりました。しかし今日、O3が低計算で新記録を達成したことを発表できることを大変嬉しく思います。O3はARC AGIのセミプライベートホールドアウトセットで75.7%を記録しました。
これは、公開リーダーボードの計算要件の範囲内で達成された素晴らしい成果であり、新しい1位のエントリーとなります。おめでとうございます。さらに、O3に長く考えさせ、高計算にすると、同じ隠されたホールドアウトセットで87.5%を達成することができました。
これは特に重要です。なぜなら、人間のパフォーマンスは85%の閾値で比較可能だからです。これを超えることは大きなマイルストーンであり、これまでこれを達成したシステムやモデルはありませんでした。ARC AGIの世界では新しい領域です。おめでとうございます。
素晴らしいベンチマークを作っていただき、ありがとうございます。これらのスコアを見ると、私のAIに対する直感を少し修正する必要があることに気付きます。特にO3の世界では、AIが実際に何ができるのか、何が可能なのかについての直感を修正する必要があります。
しかし、仕事はまだ終わっていません。これはまだAIの初期段階です。ARC AGIのような永続的なベンチマークが、進歩を測定し、導くために必要です。その進歩を加速することに興奮しており、来年OpenAIと協力して次のフロンティアベンチマークを開発することを楽しみにしています。
素晴らしいですね。これは私たちが長い間ターゲットにしてきたベンチマークでもあり、私たちはそれを素晴らしいと考えています。ただし、特別な対策は取っていません。これは単にO3の一般的な能力です。パートナーシップに感謝し、これは楽しいものでした。
次に、O3 miniについてお話ししましょう。O3 miniは私たちが本当にワクワクしているものです。Honghuが出てきて説明してくれます。
こんにちは、私はHonghuです。OpenAIの研究者で、推論を研究しています。9月に、O1ファミリーの効率的な推論モデルであるO1 miniをリリースしました。これは低コストでありながら、数学とコーディングにおいて世界最高レベルの能力を持っています。
今回、O3と共に、O3 miniについてお話しできることを嬉しく思います。これはO3ファミリーの新しいモデルで、コスト効率の高い推論の新しいフロンティアを定義します。素晴らしいモデルですが、今日はまだユーザーには提供されません。安全性とセキュリティの研究者にモデルのテストアクセスを開放しています。
数日前にAPIで適応的思考時間を導入したことで、O3 miniは低・中・高の3つの推論努力オプションをサポートします。ユーザーはユースケースに応じて思考時間を自由に調整できます。たとえば、より複雑な問題には長く考えさせ、より単純な問題には短く考えさせることができます。
それでは、O3 miniの最初の評価セットをお見せしましょう。左側のグラフはコーディング評価で、Code Forces ELOを示しています。これはプログラミング能力を測定するもので、高いほど良いです。グラフから分かるように、思考時間が長くなるとO3 miniのELOは上昇し、O1 miniを上回ります。
中程度の思考時間でもO1と同等以上のパフォーマンスを発揮できます。つまり、1桁以上のスピードとコストで、同じコーディングパフォーマンスを提供できるということです。最高設定でもMarkのスコアからはまだ数百ポイント離れていますが、それほど遠くありません。おそらく私よりも優秀です。O1で提供できたものと比べて、コストとパフォーマンスの点で信じられないほどの向上です。
右側のグラフは、推定コストとCode Forces ELOのトレードオフを示しています。O3 miniがコーディングにおいて新しいコスト効率の高い推論フロンティアを定義していることは明らかです。O1の何分の一かのコストでより良いパフォーマンスを達成しています。
それでは、O3 miniのライブデモをしたいと思います。3つの異なる思考時間(低・中・高)をすべてテストできればと思います。タスクは、Pythonを使用してコードジェネレーターとエグゼキューターを実装することです。
このPythonスクリプトを実行すると、テキストボックスを含むUIを持つサーバーがローカルで起動します。テキストボックスでコーディングリクエストを行うと、O3 mini APIにリクエストを送信し、O3 mini APIがタスクを解決してコードを返します。そのコードをローカルのデスクトップに保存し、自動的にターミナルを開いて実行します。かなり複雑なタスクですね。
大きな三角形のコードが出力されました。このコードをサーバーにコピーして貼り付け、サーバーを起動すると、テキストボックスが表示されるはずです。はい、良いですね。コーディングプロンプトを入力できるUIができました。
簡単なものを試してみましょう。「プリントして任意の数字を表示して」というプロンプトを入力します。O3 mini中程度の設定にリクエストを送信しているので、かなり速いはずです。このターミナルで…41が魔法の数字ですね。生成されたコードをデスクトップのローカルスクリプトに保存し、41をプリントアウトしました。
他に試してみたいタスクはありますか?
自身のGPQスコアを取得させることはできますか?
まさに期待していた質問です。昨日たくさん練習しました。コードをコピーしてコードUIに送信してみましょう。このタスクでは、モデルに低推論努力でO3 miniを使って難しいGPQセットを評価させます。
モデルはまずURLから生データをダウンロードし、どの部分が問題で、どの部分が回答か、どの部分が選択肢かを理解する必要があります。そしてすべての質問を定式化し、モデルに回答させ、結果を解析して採点します。非常に速いですね。O3 miniを低推論努力で呼び出しているからです。
うまくいくか見てみましょう。2つのタスクは本当に難しいですね。GPQは難しいデータセットです。内容は186の簡単な問題と2つの本当に難しい問題です。結果を待っている間に、リクエストをもう一度見てみませんか?
実際に結果が返ってきました。61.62%です。低推論努力のモデルとしては、1分以内で完全な評価を行うことができ、かなり速いですね。モデルにこのように自己評価させるのはとても面白いですね。
そうですね。私たちが行ったことをまとめると、モデルに自身をこの難しいGPQセットで評価するスクリプトを書かせました。しかも、モデル自身が最初に作成したコードジェネレーターとエグゼキューターによって作られたUIを通じてです。
来年は、モデルに自己改善させなければなりませんね。たぶんそれはやめておきましょう。
Code ForcesとGPQの他に、このモデルは優れた数学モデルでもあります。このグラフで示すように、AMC 2024データセットでO3 mini低設定はO1 miniと同等のパフォーマンスを達成し、O3 mini中設定はO1よりも優れたパフォーマンスを達成しています。実線のバーはパス1を示しており、O3 mini高設定でさらにパフォーマンスを向上させることができます。
右側のグラフでは、匿名化されたOMプレビュートラフィックでレイテンシーを測定すると、O3 mini低設定はO1 miniのレイテンシーを大幅に削減し、GPT-4とほぼ同等の1秒未満のレイテンシーを達成しています。つまり、ほぼ瞬時の応答が可能です。また、O3 mini中設定はO1の半分のレイテンシーです。
さらに興奮するような評価セットをお見せしましょう。それはAPI機能です。開発者コミュニティから、O1 miniシリーズモデルで関数呼び出し、構造化出力、開発者メッセージをサポートしてほしいというリクエストを多く受けていました。O3 miniはO1と同様にこれらすべての機能をサポートし、ほとんどの評価でGPT-4と同等以上のパフォーマンスを達成し、開発者により費用対効果の高いソリューションを提供します。
数日前に実行した本当のGPQ Diamondのパフォーマンスは実際に62%でした。基本的にモデルに自己評価させたのと同じですね。次回は評価を自動的に行うようモデルに依頼すべきですね。
以上がO3 miniについてです。来年にはユーザーの皆さんがより良い体験をできることを願っています。
素晴らしい仕事です、Honghu。ありがとうございます。
皆さんがこれを自分の手で使えるようになることを楽しみにしていることは分かっています。現在、このモデルのポストトレーニングと安全性の介入を行うために一生懸命取り組んでおり、内部での安全性テストも多く行っています。
今回新しく行うのは、今日からO3 miniを、そして最終的にO3も外部の安全性テストに開放することです。安全性研究者やセキュリティ研究者として早期アクセスを得るにはどうすればよいでしょうか?私たちのウェブサイトにアクセスすると、画面に表示されているようなフォームが表示されます。
このフォームへの申請は随時受け付けており、1月10日に締め切られます。皆さんのご応募をお待ちしています。どのような探求をされ、どのようなジェイルブレイクやその他の発見をされるのか、楽しみにしています。
もう一つ、お話ししたいことがあります。昨日か今日発表された新しいレポートについてです。これは私たちの安全性プログラムを進展させる新しい技術で、熟考的アラインメントと呼ばれています。
通常、モデルに安全性トレーニングを行う際、安全なものと安全でないものの決定境界を学習しようとします。通常は、これは安全なプロンプトと安全でないプロンプトの純粋な例を示すことによって行われます。
しかし今、私たちのモデルの推論能力を活用して、より正確な安全性の境界を見つけることができます。この熟考的アラインメントと呼ばれる技術により、安全な仕様を取り、モデルにプロンプトについて推論させ、それが安全なプロンプトかどうかを判断させることができます。
多くの場合、推論の過程で「このユーザーは私を欺こうとしている」とか「隠された意図がある」といったことを発見します。したがって、プロンプトを暗号化しようとしても、推論がそれを解読することが多いのです。
主な結果はこの図に示されています。X軸は拒否ベンチマークのパフォーマンス、Y軸は過剰拒否を示しています。右側が良い結果です。これは、拒否すべきものを正確に判断する能力と、レビューすべきものを判断する能力を表しています。
通常、これら2つの指標にはトレードオフがあると考えられ、両方を同時に達成するのは非常に難しいです。しかし、熟考的アラインメントにより、右上にある2つの緑のポイントを達成できるようです。一方、赤と青のポイントは以前のモデルのパフォーマンスを示しています。
より良い安全性を得るために推論を活用し始めています。これは安全性に関する本当に素晴らしい結果だと思います。
まとめると、O3 miniとO3の安全性テストに参加を希望される方は、ぜひ申請してください。これらのモデルのテストを支援する追加ステップとして、O3 miniを1月末頃に、完全なO3をその直後にリリースする予定です。より多くの人々が安全性テストを手伝ってくれれば、それだけ確実にその目標を達成できます。
ぜひチェックしてみてください。皆さんにご協力いただき、ありがとうございました。私たちにとって楽しい時間でしたし、皆さんにも楽しんでいただけたことを願っています。メリークリスマス!


コメント