2025年国際数学オリンピアードにおいて、OpenAIとGoogle DeepMindの両社が金メダルレベルの成果を達成した画期的な出来事を紹介する。注目すべきは、これが過去のデータセットを使った単なるベンチマークテストではなく、人間と同じ条件下でリアルタイムに行われた競技であることである。両社とも6問中5問を正解し35点を獲得したが、OpenAIが結果を早期発表したことで論争が巻き起こっている。専用ツールやインターネットアクセスなしに、汎用推論モデルが人間の数学者レベルの証明を構築した意義は計り知れない。

大型言語モデルが数学を制覇寸前
大型言語モデルがほぼ数学を制覇してしもうた。2025年国際数学オリンピアードで、2つの違う会社から出た2つのモデルが金メダルレベルのパフォーマンスと同等の成績を出したんや。ここで一番ええところは、これが過去のデータセットを使ったベンチマークテストやないってことなんや。誰かが2024年に行って、そのデータセットを取ってきたみたいなもんやない。
やから、このモデルがデータ漏洩を起こしてる可能性は一切あらへん。なぜなら、この競技会、この大会は人間と一緒に行われたからや。オリンピアードは2025年に開催されてる。人間も同じ時に参加してるんや。これらの会社、大型言語モデルのプロバイダーも自分らのモデルを出して、それで参加してるんや。6問あって、そのうち5問がGoogleとOpenAIの両方によって解かれてる。これはかなり興味深くて、かなり魅力的な結果やけど、ちょっとした論争があるんや。
この動画では、その論争について取り上げて、どんな種類のモデルなのかも理解していこうと思う。7月19日にOpenAIが発表した。オープンリサーチャーのアレクサンダー・Vが、最新の実験的推論大型言語モデルを発表したんや。これは推論大型言語モデルなんや。とても興味深いな。将来は推論モデルだけになりそうやな。
AIの長年の目標を達成
AIの長年の大きな挑戦を達成したんや。世界で最も権威ある数学競技会、IMO、国際数学オリンピアードでの金メダルレベルのパフォーマンスや。これが一番大きくて重要なことやと思う。大型言語モデルが人間と同じルールで参加したんや。君らのうち何人がKaggle競技会に参加したことあるか知らんけど。
これはとても興味深くて重要な側面なんや。25時間計算時間を与えたら、4.5時間計算時間を与えた時とは全く違う結果を期待できるやろ。これはとても重要で、ここでは試験が4時間、4時間半で行われて、大型言語モデルも人間の参加者と同じ時間やったんや。
とても興味深い情報やな。2回の4.5時間の試験セッション、ツールなし、インターネットなし。やから大型言語モデルは何のツールも使えへんかった。これもまた別の話や。大型言語モデルにたくさんの数学問題を解くように頼んで、大型言語モデルがターミナルのbashを使うこともできるやろ。この特別なケースでは、生の大型言語モデルそのままなんや。ツールもあらへん。インターネットもあらへん。公式な問題文を読んで、自然言語での証明を書く、文字通り人間が答えるようにや。
やから、そうやって答えたんや。これが2025年IMO問題1や。彼らが出した問題がある。なぜこれが大きなことなんか?それは汎用推論モデルやからや。数学だけのために微調整されたモデルやない。Dotaをプレイするために設計されたモデルやない。
汎用モデルの意義
チェスをプレイするために設計されたモデルやない。見てみ、DeepMindという会社からそういうモデルをたくさん見てきたやろ。Dotaをプレイするモデル、どんなゲームでもプレイする、囲碁とか、そういう全部や。でもこれは汎用モデルなんや、そうやろ?つまり、これは君と私が将来使うことになるようなモデルなんや。
やから、この汎用モデルが、何のツールもなしに、インターネットアクセスもなしに、実際このモデルはLeanすら使わへんかった。やから、このモデルは人間が答えるように自然に答えたんや。数学問題をもらったら、「あ、xは2やな、aはbと等しいな」みたいに自然に書くやろ。IMO提出物は検証が困難で、複数ページにわたる証明の進歩は、明確で検証可能な報酬という今までのパラダイムを超えて行く必要がある。そうすることで、人間の数学者のレベルで複雑で完璧な論証を作り上げることができるモデルを手に入れたんや。
私にとって一番重要なのは、これが汎用モデルやってことや。モデルは何のツールも使わへんかった。モデルはインターネットアクセスもなかった。それでも4.5時間、4時間半以内に、隣に座ってる別の人間みたいに、いや、AIの隣に座るとは言わんけど、この競技会で競争してる別の人間みたいに、モデルは6問のうち5問を正しく解いたんや。
2025年の6問それぞれについて、3人の元IMOメダリストがモデルが提出した証明を独立して採点し、全員一致の合意の後にスコアが確定された。モデルは合計42点中35点を獲得し、金メダルに十分やった。
Googleも同様の成果
Googleでも非常に似た話がある。これはOpenAIの発表や。Googleからの似た話は、Google Geminiの高度バージョンで、deep thinkという推論を使って、国際数学オリンピアードで公式に金メダル基準を達成したんや。
彼らは4問を解いた前のモデルについて話してる。28点やった。今はもう確実にもっと高い点数を取ってる。これが2024年IMO、2024年のAlpha Proof geometryや。これらは本格的な数学モデルやろ。2025年には、OpenAIがやったことと全く同じことをやった。たぶん道筋は違ったやろうけど、彼らは汎用モデルを使った。それはdeep thinkを使った高度なGeminiで、これもまた汎用モデルや。それが競技会が開催されてる間にIMO 2025を解くことができたんや。
IMO会長自身が、Google DeepMindが42点中35点を獲得し、OpenAIと非常に似た金メダルの得点を取ったことを確認してる。
インターネット上の論争
両社ともにこの競技会で本当に良い成果を出したけれど、インターネット上で炎上が起こってる。理由は、OpenAIが初めてこの発表をしたからや。OpenAIがGoogle DeepMindよりもずっと前に発表したんや。そしてデミス・ハサビス、Google DeepMindのCEO、DeepMindの創設者で、後にGoogleに買収されたんやけど、彼は今AI界でたぶんインターネットのお気に入りの男の子みたいな感じや。
デミス・ハサビスがこれを発表した後、これは7月21日に起こった、OpenAIは7月19日に発表してたんやけど、この発表の後にデミス・ハサビスがこんなことを言ったんや。
「ちなみに、余談やけど、私たちが金曜日に結果を発表しなかったのは、IMO委員会の元々の要請を尊重したからや。その要請は、全てのAI研究所が独立した専門家によって公式結果が検証され、学生たちが当然受けるべき称賛を正当に受け取った後にのみ、結果を共有するべきやというもんやった。なぜなら、明らかに人間が関わってるからや。私たちは今、結果を共有する許可をもらった。」
これはOpenAIが早く結果を共有したことに対する間接的な当てこすりや。OpenAIの弁護としては、ノーム・ブラウンという人がいる。彼は推論の責任者か何かやと思う。「GDM(Google DeepMind)のIMO結果おめでとう。彼らのアプローチは私たちとは少し違ってた。どうやってそのアプローチを知ったかは分からんけど、将来のさらなる進歩のための多くの研究方向があることを示してると思う。」
OpenAIの反論
たくさんの情報がある。主な点は、彼らが提出した後、私たちが結果を共有する前に、私たちはIMO委員会のメンバーと話した。その人は、表彰式の後まで公開を待つように私たちに頼んだ。私たちは喜んでその要請に応えた。私たちは太平洋時間午前1時に発表した。タイムゾーン変換はせえへん。表彰式が終了した後や。誰も私たちにそれより遅く発表するように要求した人はいなかった。
何よりも、私たちは自分たちの製品を共有することに興奮してた。やからOpenAIは「私たちはIMO委員会の要請に従ったし、何も悪いことはしてない」と言ってる。一方で、この時点でインターネット全体がOpenAIに怒ってる。なぜなら、学生たちが当然受けるべき評価をもらう前に、OpenAIがこれを共有したと思ってるからや。
分からへん。インターネット上で大きな、大きな戦いが起こってる。誰かは「Googleは素晴らしいリソースを持ってるけど、GoogleのCEOのスンダーはサム・アルトマンのようにクラウドを追いかけてない」みたいなことを言ってる。よく分からんし、この時点ではかなり不当やと感じる。
この発表にサム・アルトマンが特に関係してるとも思わへん。サム・アルトマンはOpenAIのCEOやって知ってるけど、この時点では、特に物理学、数学、生物学といった分野で進歩があるとき、これは人類にとって素晴らしいことやと思う。薬学、医学とか、たぶん安い薬とか、たくさんの興味深いことを進歩させることができる。文字通り全ての会社がこのモデルでやろうとしてるような、プログラマーを仕事から追い出すだけのことやないんや。
成果への期待
とにかく、この特定の結果を見ることができてとても嬉しい。これは汎用モデルや。彼らがもっと結果を共有してくれたらええのにな。強化学習をスケールしたんか?何か興味深いことをしたんか?これは待って見るしかないやろ。でも、これが起こったことをとても嬉しく思ってる。
これについてどう思うか教えてくれ、特にこの論争が正当やと思うか、OpenAIがインターネットで受けてる非難が必要やと思うか、それとも私たちは単に成功を祝うべきなんか。どう思うか教えてくれ。また別の動画で会おうや。ハッピー・プロンプティング。


コメント