OpenAIのIMOチームが語る:なぜモデルがついにエリートレベルの数学を解けるようになったのか

*重要記事
この記事は約19分で読めます。

OpenAIの研究チームがついに国際数学オリンピック(IMO)で金メダル級の成績を達成した歴史的な快挙について、その舞台裏を詳しく解説する。わずか3人の小規模チームが数か月という短期間で実現したこの成果は、数学推論における飛躍的な進歩を示すものである。モデルは0.1分の推論時間から100分へとスケールアップし、検証困難なタスクに対する汎用的な手法を開発することで、競技数学の枠を超えた応用可能性を秘めている。この技術的ブレークスルーが人工超知能への道筋をどのように切り開くのか、そして今後の科学的発見への展望について議論する。

OpenAI’s IMO Team on Why Models Are Finally Solving Elite-Level Math
In just two months, a scrappy three-person team at OpenAI sprinted to fulfill what the entire AI field has been chasing ...

数学における進歩のペースが驚異的な加速を見せている

進歩のペースっちゅうのはほんまにすごいもんで、数学の分野で特によう見えるんや。アレックスもこのことについてツイートしとったけど、ほんの数年前まではこれらのモデルは小学校レベルの数学でも苦戦しとったんやで。

そんで2024年には、みんながモデルをリリースする時の標準的な評価としてGSM8Kが使われとったんを覚えとる。その後しばらくの間はMathが使われて、それからAMEになって、そしてUSAMOになって、数学のベンチマークを次々と突破していくペースがほんまに驚異的やったんや。

OpenAIのIMO金メダル達成チームへのインタビュー

今日はアレックス・ウィーイ、シェリル・スー、ノーム・ブラウンの3人に来てもろた。この3人組が、国際数学オリンピックで金メダル級の成績を達成したOpenAIモデルの背後におるんや。

IMOの金メダルっちゅうのは、人工超知能への競争における最も重要なマイルストーンの一つなんや。そしてこのブレークスルーで特に魅力的なのは、単なる数学の実力だけやなくて、その根底にあるアーキテクチャなんや。テスト時間計算をスケールアップし、検証困難なタスクを扱うための汎用的な技術で、競技数学の枠をはるかに超えた応用が期待できるんや。

わずか1年前には10分の1分程度の推論しかできんかったモデルが、今では100分のオーダーで推論し集中できるシステムまで発展しとる。

人工超知能への希望っちゅうのは、推論を数千時間、数十万時間にスケールアップできれば、数学、科学、その他の分野で人類最大の未解決問題を解き始めることができるやろうちゅうことなんや。

チームの起源と経緯

アレックス、シェリル、ノーム、今日は来てくれてありがとうな。OpenAIとして初のIMO金メダルを獲得したチームに来てもろて、ほんまに記念すべき成果やと思う。

この起源についてちょっと聞かせてもらいたいんやけど、IMOの金メダルっちゅうのはAI界でずっと追い求められてきた手の届かんものやったんは知っとる。2021年にサムがプレゼンした時にもスライドに載っとって、その時は「あー、それはずいぶん先のことやな」って思ったもんや。

この具体的な取り組みについて、いつ頃から考え始めて、どんなふうに始まったんか教えてもらえるか?

これはずっと考えとったことの一つやな。OpenAIに入って最初の週に、ノームが「いつ頃モデルがIMOの金メダルを取れると思う?」って聞いてきたんを覚えとる。その時は2025年に取れる可能性は低いやろうって思っとった。

でもサムが何年も前から言っとったように、いつも頭の片隅にはあったんや。この具体的な取り組みについては、今年のIMOに向けて全部準備するための最後のスプリント期間は、ほんまに数か月程度やった。

もちろん強化学習アルゴリズムの改善には取り組んできとったし、このアイデアが形になり始めたんは6か月くらい前やったけど、今年のIMOに向けて何かやってみようっちゅう最後の押し込みは、ほんの数か月やった。

小規模チームでの成果

関わったチームの規模はどのくらいやったん?

OpenAIの多くの人の仕事の上に成り立っとるのは確かで、推論チームやスケーリング組織の人たち、事前学習や強化学習訓練をやっとる人たちの助けなしには不可能やった。でもコアチームとしては、わしら3人だけや。ほんまに小さなスクラップなチームでの取り組みやった。

主にアレックスがこの技術に取り組んできて、わしとシェリルはIMOに向けて現実のものにするために手伝ったちゅう感じやな。

こんなことってどうやって始まるんや?自分で方向性を決めて「IMOの金メダルを取りたい、そこまで持っていくで」って自分で手を上げて取り組むもんなんか?

なんとなく可能性があるんちゃうかって感じがしたんや。数か月頑張ったらいけるかもしれへんってな。OpenAIの良いところは、研究者がインパクトのある研究を自由にできる環境があることやと思う。

アレックスが「この新しい技術がめっちゃ役立つと思うんや」っちゅうピッチをしてきて、正直言うと結構懐疑的な声もあった。応援してくれる人もおったけど、みんなが探求する自由を与えるべきやって感じとった。

そんで強い証拠が出始めて、まだ懐疑的な人もおったけど、だんだん興奮する人が増えてきて、最終的にはもっと本格的なものになって、今ではみんなめっちゃ興奮しとる。

初期の兆候と検証方法

その強い証拠についてもうちょっと詳しく聞かせてもらえるか?どんな初期の兆候があって、本気で取り組むことにしたんや?

検証困難なタスクでの進歩が見えたことやな。これまでは検証可能な報酬があるタスクにもっと焦点を当てとったけど、こういう検証困難なタスクでの改善が見えたのが興奮する要因やった。

その検証についてやけど、結果が正しいってどうやって分かったんや?GitHubに証明を公開しとるのは見たけど、答えを発見したってどうやって分かるんや?人間の回答とはちょっと違うやり方でやっとるって理解しとるんやけど。

モデルの出力スタイルはちょっと…まあ、ひどいって言葉は使いたくないけど、エイリアンの言語みたいに創造的やな。

小さなスクラップな取り組みやったから、人間の読みやすさを最適化するのにそんなに力を入れんかった。でもそれはできることやと分かっとる。ChatGPTが読みやすいのと同じように、ここでも同じことができるんや。

人間の読みやすさを最適化する必要があるんかな?それって重要なことなん?

人間に見せるなら、読みやすい方が好まれるやろうな。実際、証明ができた時に「ChatGPTに通してもっと読みやすく書き直してもらおうか」って話し合ったことがある。証明は正しいままで、ちょっと読みやすくなるだけやからな。

オンラインに投稿する時に、ChatGPTを通したもっと読みやすいバージョンを投稿するか、生の元バージョンを投稿するかで悩んだんやけど、完全な透明性のために元のバージョンを投稿することにした。みんなが理解してくれるやろうって。

OpenAIのスタッフにはIMOメダリストや参加者が結構おるんやろ?余暇にモデルが出した答えの採点とかやっとるん?

テスト中はたくさんのサンプルを読んだけど、この具体的な採点については外部の元IMOメダリストを雇ったんや。各証明を3人のメダリストが採点して、それぞれが正しさについて全員一致の合意に達した。

わしに関しては、証明は理解する能力を超えとる。数学専攻やったけど競技数学はやったことないし、このモデルが書いとることは採点できるレベルを超えとるんや。

同じやな。それがこのモデルがどんなに賢いかを更に驚異的にしとると思う。

問題6について

問題6についてはどうや?今年のIMOでどのモデルも解けんかったし、あんたらのモデルも問題6には挑戦すらせんかった。問題6の何が違ったんか、そして伝統的に問題6は常にIMOで最も難しいんか?

問題3か問題6が一番難しいことが多いな。

問題6の何が違って、あんたがツイートしとった「モデルが問題6を解けないと分かっとったことが希望を与えてくれた」ちゅうのはどういうことか、もうちょっと説明してもらえるか?

問題6はほんまに難しい問題なんや。何か月も考える時間をもらって、メインアイデアについて大きなヒントをもらったとしても、わしには解けんと思う。めちゃくちゃ難しい問題で、できることはいっぱいあるけど、証明を見つける道筋は非常に狭いんや。

数学はほんまに難しいもんなんや。問題6にはたくさんの計算リソースを投入したけど、モデルが幻覚を起こしたり適当な解を作ったりせずに、代わりに「答えなし」と言うのを見るのは良かった。

あんなに作業した後で「答えなし」と言うのはちょっと残念やけど、それを実際に認めるのは良いことやと思う。

自分の限界についてのその自己認識レベルは驚異的やな。数年前のモデルは常に役に立とうとして答えを作り上げとったからな。だからこのモデルからこの自己認識レベルを見るのは驚異的や。

推論モデルをリリースした時に、数学者やコンピュータ科学者の教授たちと話したんやけど、「これらのモデルに価値を見つけとるか?」って聞いたんや。答えは「よくある」やったけど、一つ文句があって、分からん質問をすると非常に説得力があるけど間違った答えを出力することやった。

それが完全に正しいか、モデルが不等号を逆にしたりしとるかを慎重に調べなあかんかった。このモデルが分からん時は少なくともそれを認めるのを見るのは良いことや。

内部での予想と期待

内部でIMOの金メダルを取れるかどうかの賭けとかポリマーケットみたいなんはあったん?内部の雰囲気はどんな感じやった?

チャンスはあると思っとったけど、確実やとは思ってなかった。モデルが人間より苦戦するやろう問題の分布もあれば、モデルが非常に強い問題の分布もある。今年は中間くらいやった。

問題6みたいなんは今の最先端モデルには手が届かんと思うし、一般的にこの手の難しい組み合わせ論の問題(問題6もそうやった)はより困難で、モデルがまだ苦戦する分野やと思う。

なんで組み合わせ論が難しくて、例えば幾何学みたいなん(あんたらが得意そうな)とは違うんや?

組み合わせ論はもうちょっと抽象的で高次元やからやと思う。組み合わせ論の問題は信念の飛躍や洞察の飛躍を必要とすることが多くて、モデルはそれが得意やない。

モデルはたくさんの小さなステップを必要とする問題の方が得意やと思う。

あんたらの視点から、内部の雰囲気は楽観的やった?金メダルを取れるっちゅう感じやった?

そんなに楽観的やなかった気がする。可能性はあるって分かっとったと思うけど、1か月か2か月前でも、結構改善せなあかんって感じやった。まあ実際改善したんやけどな。

競技の2か月前にOpenAIの別の研究者と話しとって、「賭けるとしたら」(わしは賭けるのが好きやからな)「どんなオッズやったら受けるか?」って言うとったんや。わしは「絶対金メダル取れる」って賭ける気やった。

彼は「可能性なんて全然ない」って言うて、2対1のオッズでも喜んで受けるって言うとった。つまり3分の1以下のチャンスやと思っとったけど、チームに対して賭けるのは雰囲気悪いから賭けんかった。

数学における驚異的な進歩

あんたが15か月前にAMEで12%ってツイートしとったよな?スケールとOpenAIに対して賭けるのは嫌やけど、あんたらがここで成し遂げた勾配は驚異的や。

進歩のペースはほんまにすごくて、数学で特によく見えると思う。アレックスもこのことについてツイートしとったけど、ほんの数年前はこれらのモデルが小学校の数学で苦戦しとった。

2024年でもGSM8Kがみんながモデルをリリースする時の標準的な評価として使われとったのを覚えとる。それがしばらくの間はMathになって、それからAMEになって、それからUSAMOになって、数学のベンチマークを次々と突破していくペースは本当に驚異的や。

2年前にGSM8Kでモデルを訓練しとったのを覚えとるわ。評価が飽和してしもたな。

将来の展望

次は何や?来年にはミレニアム懸賞問題を解いとると思うか?

それはまだ遠い先やと思う。一方で、GSM8K以降にどれだけ数学の進歩があったかを考えてみると、2年前は人々が押し上げようとしとった標準やったのに、それは驚異的なレベルの進歩や。

でも一方で、人がどれだけ時間をかけるかを考えてみると、GSM8Kの問題は小学校の数学で、数学が得意な人なら数秒で解ける。それが数秒から、これらの優秀な学生が1問平均1時間半かかるもの、つまりIMOは3問で4時間半になった。

研究数学になると、同じ優秀な学生が成長して研究者になって、1500時間かかるようになる。つまり1000倍の思考時間や。ミレニアム懸賞問題は分野全体、人々の生涯をかけた思考が必要で、ほとんどの問題でまだあまり進歩がない。

一方では非常にエキサイティングな進歩やけど、一方では1時間半から数万時間、数十万時間の人間の思考まで、どれだけ進歩せなあかんかを見ると謙虚になる。

テスト時間計算のスケーリング

ノーム、この未来を見通したあんたは多くの称賛に値すると思う。OpenAIに参加する前にも来てくれて、ゲームプレイの結果について、モデルに何時間も何十時間も考えさせたらどうなるかについて話しとった。あんたは本当にこの未来を見通しとった。

実際に起こるのを見るのは興奮するな。

0.1分のオーダーから100分のオーダーまで計算時間・推論時間をスケールアップする時に起こる困難なことは何や?AI研究者やない聞き手がほとんどやから高レベルで説明してもらえるか?モデルを軌道に乗せ続けるために何が困難なんや?

一つはっきり指摘できる挑戦は、モデルに1500時間考えさせるなら、評価するのに1500時間考えさせなあかんちゅうことや。だから最終的にはモデルの評価が進歩の重要な障害になる。

まだそのレベルには達してない。モデルに1時間半考えさせるのは大した問題やない。そのテストは実行できる。でもモデルが1か月考えるテストを実行するには、そのテストを完了するのに1か月かかる。だからそんな結果を待ちたいなら、進歩は一定の速度でしか進まない。

マルチエージェントシステムの役割

あんたら二人はマルチエージェントチームにおるよな。この中でマルチエージェントシステムが果たす役割について教えてもらえるか?

モデルに非常に長時間考えさせて、検証困難なタスクで大きな進歩を遂げることに加えて、これは並列計算のスケールアップも含んどった。だからマルチエージェントの要素がある。

具体的な技術について詳しくは話せんと思うけど、IMOでテスト時間計算をスケールアップできた一つの方法やった。

マルチエージェント、並列計算スケーリングについて付け加えると、わしらがやった方法では、技術の汎用性を本当に優先した。例えば、わしはポーカーのAIに取り組んだことがある。アレックスとわしは二人とも外交のAIに取り組んだことがある。アレックスはCiceroに取り組んだチームにおった。

それらは本当に誇りに思うプロジェクトやったけど、その結果を達成するために何年もかけて取り組んだプロジェクトでもあった。AIの進歩のペースがこんなに速いと、一つのタスクしかできない非常に特注のシステムを開発するのに時間を使うのは最良の使い方やないって感じた。

だからわしらみんな汎用的な技術を本当に優先して、思考時間のスケールアップ、検証困難なタスクの作業、並列計算に使った技術は全て汎用的な技術で、他のシステムにも使う計画があるか、既に使っとる。

Leanを選ばなかった理由

それがあんたらがLeanでこれをやらんことを選んだ理由か?公式のIMO AIトラックは今年Leanでの解釈やったって理解しとるけど、それがLeanを選ばんかった理由か?

そうや。Leanにはツールとして多くの価値があるのは確かやと思う。数学者も有用やと感じとる。でもわしらの優先事項は本当に汎用的な推論能力で、Leanには限界がある。だからわしらは自然言語を優先したかったんや。

素人の理解では、Leanは形式的検証ツールや。あんたらの結果はここで、スケールを使った非形式的検証が形式的検証と同じレベルで実行できる、あるいはそれを超えることができるって言っとるんか?それが正しい解釈か?

それが正しい解釈やとは言わんな。アレックス、どう思う?

これらは直交する二つの要素やと思う。わしらは非形式数学を興味深い問題やと感じた。なぜならテスト時間計算のスケールアップや検証困難なタスクといった困難の核心を表しとって、汎用的な観点から興味を持っとった非常に幅広いタスクからの困難を表しとったからや。

Leanはもうちょっと狭い分野で、形式化できるものより非形式的推論でアプローチできる世界の方がはるかに多いと思う。

狭いAIに何か問題があるとは思わん。狭いAIは非常に効果的で、特定の分野では汎用AIをはるかに上回ることができる。正しい考え方は、人間の数学者がLeanに多くの価値を見つけるのと同じように、汎用AIは形式数学に焦点を当てたより狭いシステムと互換性があるちゅうことやと思う。その組み合わせが更に良いものになると思う。

他のOpenAI製品との共通基盤

TwitterでOpenAIの複数の人から、そしてあんたらも言うとったと思うけど、このシステムは最近のOpenAIのローンチの多くと非常に似たアプローチとインフラで構築されたって見た。先週はチャットエージェントローンチのIssaをポッドキャストに呼んだ。

似た基盤とアプローチについてもうちょっと教えてもらえるか?

インフラ的には、みんな同じインフラを使っとる。でもこの質問の核心については、アレックスが言ったように、IMOに非常に特化したものは何もなくて、希望は本当にアレックスが取り組んだ技術を、非検証可能なタスクやテスト時間計算のスケールアップに関して、他の推論分野や他のモデル能力分野に適用できるちゅうことなんや。

そして更に強いモデルを構築して、エージェントを改善し続け、ChatGPTやその他すべてを改善し続けることや。

IMO当日の体験

実際のIMO当日の体験について教えてくれ。どんな感じやった?

参加者が試験を終えると問題が投稿されるから、それを待っとった。問題をモデルに入力したのは夜遅く、1時頃やったと思う。正直、わしは寝た。1時やし、4時間半も起きて見とるつもりはない。朝起きて見るわって感じやった。

でもこの二人は実際に起きとって、リアルタイムでモデルを見て、結果が入ってくるのを見とった。

めちゃくちゃ楽しかった。

誰か電話しようとせんかった?「起きろ、起きろ、やったで」って。

アレックスがめちゃくちゃ疲れて昼寝することにした瞬間が何回かあったけど、「電話をサイレントにしとって、起こす必要があったら電話できるようにしとけ」って言うた。

実際に一度電話したことがあったけど、起きんかった。

すごく興奮して高揚感があったやろうな、特に1時から始まって。9時頃には分かったんか?

4時間半やからな。最初の問題について部分的に見ることができる。だからシステムが安定しとるか確認しとって、アレックスが向こうで読んで、モデルがどうしとるか見とった。

あんたがライブで人間による証明チェックをして、実際に正しいかどうか見とったんか?

結果について自然に非常に不安やったから、モデルが作っとる部分的な進歩を見とった。それを観察できるんや。採点者に送る予定やったけど、めちゃくちゃ好奇心があったから手でもチェックしとった。

今度は電話してくれ。そこでぶらぶらしたいわ。眠りに行くのやめるわ。すごそうやな。

これらのモデルの面白いところの一つは、証明は理解できんけど、モデルが考えとるのを見ると、プロセス全体を通して自然言語で不確実さや自信を表現することや。証明を理解したと本当に自信があったら「良い」をたくさん言うし、確信がなかったら疑問符をたくさん入れる。

だから正しいかどうかは本当に分からんけど、モデルがその進歩について「どう感じとるか」をフォローして見ることができるのは面白い。

恐ろしい「難しそう」を得るんやな。問題6でそれを得た。

「難しそう。進歩なし。続ける。残念」

次の目標

将来を見据えて、競技数学の頂点の結果を得た。来年はPutnamもできるけど、基本的に頂点におるよな?次は何や?

実際、Putnamについては、試験がIMOより問題あたりの時間が少なくて、もうちょっと知識集約的やから、わしらの評価ではモデルがPutnamの問題でIMOの問題よりもめちゃくちゃ良い成績やった。

だからここでの最前線は、もうこういう非常に時間が限られた競技問題についてやなくて、本当により長い期間とより深い思考を必要とする問題についてなんや。

だから今度は新しい定理を証明するんやな。

競技問題と実際の研究のブレークスルーの間には非常に威圧的なギャップがあると思う。1年分の作業、つまり1.5時間やなくて1500時間のオーダーが必要やからな。

問題を見つけることの重要性

関連して、昨夜Demisのポッドキャストを聞いとったら、最も難しいのは実際に解くべき興味深い問題を見つけることやって言うとった。あんたらもそれに同意するか?

それには一理あると思う。これらのモデルは今、こういう問題を解くのが本当に得意になっとる。問題を考え出すのは確かに挑戦やけど、わしらが見とる驚異的な進歩のペースも注目する価値がある。

いつも次のハードルがあるんや。最初にLMが出た時は「どうやって推論させるか?」やった。推論できるようになったら「どうやって検証困難なタスクで推論させるか?」になった。今は検証困難なタスクで推論できるようになった。

次のハードルは「どうやって新しい質問を考え出させるか?」になると思う。IMOの問題を作ることでさえ挑戦やし、多くの優秀な数学者と多くの作業が必要や。でもそこに到達することを阻む根本的な障壁は見えん。

数学から一般推論への汎化

数学での結果は、科学的推論や一般的推論でより良くなることに完全に汎化するんか?競技数学が得意になることで、他のすべてでも得意になるんか?

わしらがこれにアプローチした方法は「競技数学が得意になろう」やなくて、強化学習を改善するための汎用的な技術の開発に焦点を当てとった。これらの技術を数学以外の他の分野でもモデルを改善するために使うことにめちゃくちゃ興奮しとるし、日常的な使用でモデルをより有用にすることも期待しとる。

これは非常に新しい結果で、OpenAI内部の人にとってさえ驚きやった。だから次のステップは、これをもっと広くモデルに組み込んで、全体的な推論能力を改善することや。

でもそのプロセスを経て世界に展開するには少し時間がかかる。来ると思うけど、もうちょっと時間が必要やな。

物理オリンピックとの比較

これらのモデルにとって、IMOと物理オリンピックのどっちが難しい?

絶対に物理オリンピックやと思う。物理オリンピックには実験セクションがあるからな。

ロボティクスを最初に解決する必要があるんやな。

それは知らんかった。紙の上だけでやるもんやと思っとった。

モデルは紙の部分では良い成績やと思うけど、実験をするのはもうちょっと時間がかかると思う。ワールドモデルでは無理やな。

モデルの一般利用について

顧客が遊べるようにこのモデルをリリースするんか?Ruofの息子は数学オリンピックの子で「数学オリンピックモデルにアクセスしたい」って言うとる。人々はこれで遊べるようになるんか?

これを数学者が使えるようにしたいと思っとる。どうやってそれを実現するかの詳細はまだ考えとる最中やけど、数学にめちゃくちゃ得意なシステムを開発したのは本当に面白いことで、数学者がそれで何ができるかを見るのは理にかなっとる。

実際、もうスタンフォードの数学教授とメールのやり取りしとる。約1年前、o1を発表する前に彼がメールしてきて「難しい数学問題を解くコラボレーションをしたいか?」って言うてきた。

基本的にわしが彼に言ったのは、汎用推論能力を進歩させれば、最終的に難しい数学問題を手伝えるようになると思うし、それが最も有望な道やと思うちゅうことやった。

彼はちょっと懐疑的やったけど、推論モデルをリリースするたびにフォローアップのメールをくれて「今度はこの問題を解けるか?」って聞いてくる。それを入力して何が出力されるか分からんけど、彼にメールで送り返して、彼は「うん、それは間違っとる」って言う。

今回も同じ問題でフォローアップのメールをくれて「今度は解けるか?」って聞いてきた。まだ解けんけど、少なくとも今回は解けないと認識しとるから、それは大きな一歩やと思う。

数学者が挑戦したい他の問題がたくさんあって、このモデルがそれに取り組めるかどうか見てみたいと思っとる。

結論

おい、あんたら全員におめでとうや。これは分野全体が長い間待っとった記念すべき結果やと思う。わずか3人のチームが2か月という期間で成し遂げたちゅう事実は、並外れたことや。おめでとう、そしてTraining Dataに参加してくれてありがとう。

ありがとう。

ありがとう。呼んでくれてありがとう。

コメント

タイトルとURLをコピーしました