OpenAIが数学を解決。皆さんお疲れさまでした。（o3とo4の反応）

2,970 文字

OpenAI solved math. gg everyone. (o3 and o4 reaction)

OpenAIが歴史を作ったと言っても大げさではないでしょう。できるだけ明確かつシンプルに述べるために、o3とo4のパフォーマンス、特にPythonを使用したo4 miniの2つの数字に注目してほしいと思います。これはo4のフルバージョンではなくo4 miniです。AIM（AIM 2024）コンペティションの数学ベンチマークで、Pythonツールのみを使用したo4 miniは98.7%を達成しました。さらにAIM 2025では99.5%を達成しました。これはあくまでもPythonのみを使用したo4 miniの結果です。
「サム・アルトマンがベンチマークを飽和させると言っていたから、それを実現しただけだ」と思うかもしれません。しかしベンチマークは何の代理指標でしょうか？この場合、それは数学的パフォーマンスの代理指標です。私は人間として、o1レベルの数学にさえ到達することはないでしょう。そういうことはありますが、ここでは他の人々の反応をお見せして、これらの数字がなぜこれほど驚くべきで信じられないものなのか、私の完全な反応を解説していきたいと思います。
最初にお見せしたいのはAidenの反応です。Aidenは OpenAIの社員で、本当にクールな人です。彼と私はそれほど頻繁ではありませんが会話を交わしており、本当に落ち着いた人物です。彼が言っていることの一つは「全てのベンチマークを無視してください。o3の最大の特徴はツール使用です。もちろん賢いですが、30秒で深い研究品質のことをこなし、ドキュメントをGoogle検索し、Stack Overflowをチェックしてデバッグし、フェルミ推定のために思考の連鎖の中で完全なPythonスクリプトを書くなど、多くのことをします」ということです。
o3とo4の発表ライブストリームで述べられたことの一つは、いくつかのテストでは600回連続でツールを使用したということです。「人間ならもっと少ない回数でできるだろう」と思うかもしれませんが、それほど複雑なタスクを追跡できたという事実は、それがより一層エージェント的になっていることを意味します。
2つ目の反応はDariaからのものです。DariaはTwitterで有名で、慢性疲労と免疫系の研究者です。彼は実際に私の燃え尽き症候群を助けてくれました。Dariaは本当に良い人です。彼はまた、しばしばOpenAIのものに早期アクセスを得ています。彼はこの投稿を準備していたようです。彼はこれらのツールのパワーユーザーであり、研究を助けるためにこれらのツールを積極的に使用しています。
私は、これらの推論ツール、o3 mini、o1 proなどを使用することで、彼のレベルを超えるとは言いませんが、少なくとも私が学んできた燃え尽き症候群、慢性疲労、免疫関連の問題については、彼とほぼ同レベルで話せるようになりました。これは自慢ではなく、これらのモデルが賢く、非常に速く教えてくれること、そして慢性疲労のような分野で世界をリードする専門家であるDariaのような人々も感銘を受けるレベルで動作していることを言っているのです。ちなみに彼はo1とo3 miniにも感銘を受けていましたが、今や彼らはそれを次のレベルに引き上げました。
これらが私の反応を共有する前に共有したかった他の2つの反応です。私の反応はこちらです。「AIは数学を解決しました。OpenAIがo4でそれを成し遂げました。数学に近づいたとか、数学で競争力があるというレベルではなく、解決したのです。これは誰もが認識しているよりもはるかに大きなことです。その理由を説明しましょう。
まず、歴史的な文脈を理解する必要があります。通常、AI/MLでは、問題空間を完全に一般化に近づいていることを知るのは、70%から80%の解決範囲に達したときです。ちなみに、前世代のモデルはそのレベルにありました。わずか8ヶ月で彼らはそのギャップを埋めました。これらのモデルは2024年9月に登場したことを強調しておきます。
しかし、現実はエッジケースにあることが多いです。つまり、80%から99%への最後の一歩は、しばしばはるかに難しいのです。新しいAI技術で0%から70%に到達するのに、70%から99%に到達するよりもはるかに長い時間がかかることが普通です。彼らは8ヶ月で99.5%に到達しました。OpenAIはそれを何年もかけてではなく、数ヶ月で達成しました。o1とo3は昨年9月に発表されました。それからわずか8ヶ月強でギャップを埋めました。研究開発の観点からだけでも、これは驚くべき速度です。
しかし私はベンチマークについて話しているのではなく、現実世界への影響について話しています。これにより、世界クラスの数学者があらゆるポケットに、あらゆるチームに配置されることになります。数学がほぼすべての基盤になっていることをご存知ですか？数学を征服した半エージェント的AIシステムの第一次的帰結は明らかです。数学を必要とするものはほとんど、自力で、あるいはごくわずかな方向転換で解決できる可能性があります。
例えば、私の友人はCFD（計算流体力学）に携わっており、これは海洋学や気象学で広く使用されています。彼はこれらの推論モデルが登場して以来使用しており、彼にとって役立ちましたが、それでも専門家の指導が必要でした。これらの新しいモデルはそれを不要にするかもしれません。
第二次的帰結、つまり下流への影響は予測が難しいですが、過小評価することは難しくありません。第二次的帰結を実践的な言葉で表現しましょう。これはAI研究自体を加速させるでしょう。AI研究は他のものの中でも、数学です。それはまたコードでもあります。これらのモデルは数学とコードを圧倒的に攻略しました。
さらに、これらは半自律的、つまり部分的にエージェント的です。より少ない人間の指示、修正、監視を必要とします。実践的な言葉で言えば、助けなしでより多くのツールを使用し、監視なしでより大きな、長期的な問題に取り組み、ユーザーの意図を誤解する可能性が低いということです。
他に何が数学を集中的に使うでしょうか？生化学、ロボット工学、宇宙飛行、暗号学、核物理学、ブロックチェーンなど。これらすべてが今解決されたのです。
さらに印象的なことに、これらのモデルはPythonというたった一つのツールでこれを達成しました。一連のツールではなく、MATLABでもなく、スーパーコンピュータでもなく、Pythonです。
長期的に何を意味するのか強調させてください。あなたのスマートフォンはすぐに数学の天才になるでしょう。そしてコーディングの天才にも、言語学の天才にもなるでしょう。この技術だけの第三次、第四次、第五次的帰結は過大評価することが不可能です。そしてこの技術はさらに良くなるだけです。
トニー・スタークが自分のキッチンでタイムトラベルを解明するあのシーンを覚えていますか？そのレベルのAI数学について話しているのです。あと1〜2世代で。ワープドライブが可能なら、これらの機械が解明を助けてくれるでしょう。
これがどういう意味を持つのか、文脈を提供できたことを願います。