Googleが金メダル獲得。OpenAIが炎上中。

AIベンチマーク
この記事は約13分で読めます。

この動画は、Google DeepMindとOpenAIの両社が国際数学オリンピック(IMO)で金メダル標準を達成したという画期的なニュースについて解説している。両社とも大規模言語モデルを使用し、6問中5問を解いて35点満点中35点を獲得した。しかし、OpenAIが発表のタイミングを巡ってIMOから批判を受けているという疑惑も取り上げられている。また、従来の専用数学AIモデルとは異なり、今回は汎用的なLLMが自然言語で問題を理解して解答したという技術的進歩についても詳しく説明されている。さらに、強化学習技術の進歩がAI開発の次の大きな波となる可能性についても論じている。

Google Takes the Gold. OpenAI under fire.
Google Deepmind wins the IMO 2025 Gold Medal using Gemini Deep Think.Advanced version of Gemini with Deep Think official...

Googleと OpenAIの歴史的快挙

まあ、この件についてはずっと噂が出てたんやけど、ついに正式に確認されたわ。Google DeepMindが、自分らのGemini with Deepthinkが国際数学オリンピックで金メダル標準を正式に達成したって発表したんや。つまりな、OpenAIとGoogle DeepMindの両方が金メダルを取ったってことやねん。どっちも大規模言語モデルでやり遂げたんや。

これ、めっちゃ大事なポイントやから覚えといてや。彼らは42点満点中35点を獲得して、IMOの6問中5問を解いたんや。OpenAIのモデルも同じく6問中5問を解いて、42点中35点を取った。つまりな、その6問目がほんまに難しい問題やってことやねん。それが真のAGIテストなんか、新しいベンチマークなんか、まあ何て呼ぼうが勝手やけどな。

おもろいことに、1位に5人が並んだんやって。Ivan、Jiang、Deng、Warren、それからSatoshiや。つまりこの人らは、最後の6問目を解いて7点を取って、満点の42点を叩き出したってことやねん。OpenAIとGoogle DeepMindの2つのモデルは最初の5問は解けたけど、最後の1問は逃した。そして人間の1位入賞者らは、もちろん全問正解で満点の42点や。

誰が我々人間はもう時代遅れやって言ったんや?まだまだ競争に残ってるがな。

OpenAIへの批判疑惑について

さて、ちょっと急いで指摘せなあかんのが、OpenAIが結果発表して以来、めっちゃ炎上してるってことや。詳細は全部分からんから、何が起こったかを正確に推測するつもりはないねん。ただ、いろんな側面からの意見をちょっと見せたるわ。

噂によるとな、IMOがAI企業に対して、子供らからスポットライトを奪わんように、閉会式の1週間後まで結果発表を待てって頼んだらしいねん。OpenAIは閉会式前に結果を発表した。これ、本当やと思わんけどな。Google DeepMindのCEOが後でいくつか詳細を提供してくれてる。

OpenAIのNoam Brownが、こういう疑惑に対して反論したんや。この人はこの分野でめっちゃ尊敬されてる人やから、言うてることは100%本当やと思うわ。彼は言うてる。「僕らは閉会式の後に投稿した。ライブ配信されてたから、これは確認するの簡単や。」

それから「僕らはIMOと連絡は取ってなかった。投稿前に1人の主催者と話して知らせたんや。その人が、子供らに敬意を示すために閉会式が終わるまで待ってほしいって要請してきて、僕らはそうした。僕の知る限り、OpenAIでIMOと話したのは僕だけや。」

つまりな、調べた限りではGoogle は正式にIMOを通してやったけど、OpenAIは正式なルートは通さんかったけど、ちゃんとテストは解いたってことや。僕は今利用できる情報だけで判断してるからな。OpenAIは過去のIMO入賞者にこの問題を採点してもらったみたいや。

これはOpenAIのこのプロジェクトのリーダーの1人であるAlexanderが言うてることやけど、「3人の元IMO メダリストが独立してモデルが提出した証明を採点した」ってことや。これに疑問を持つ人もおるけど、要するに現時点では、僕らが知る限りOpenAIとGoogle DeepMindは同じスコア、同じ問題を解いたってことや。どっちも大規模言語モデルでやって、自然言語で終わらせた。つまり問題を証明に翻訳する必要がなかったってことや、知らん人のために説明するとな。

従来の手法との違い

Googleは2024年のIMOで銀メダルを取ったけど、その時はAlphaGeometry 2とAlphaProofを使ったんや。これらは数学専用のAIモデルで、汎用のLLMとは違うねん。問題を手動で正式な数学言語に翻訳せなシステムが理解できんかったんや。それが去年のやり方や。それがGoogleの銀メダル獲得方法やった。

これが、Noam BrownがIMOが数カ月前にOpenAIに連絡してきて、競技直後にLeanバージョンの問題を提供すると申し出たって言う意味やねん。つまり、これらのモデルが理解できるようにLean言語に翻訳されたものやったってことや。従来はずっとそうやってたからな。

でも2025年は、GoogleもOpenAIも、君や僕が読むのと同じように問題を読めるLLMを使ったんや。彼らが使ったモデルはGemini with Deep thinkや。

ファインチューンしたバージョンを使ったみたいやな。ちょっとそれを見てみよか。でもGemini Deepthinkは僕らも使えるようになるで。Googleの発表によると、このモデルは現在、信頼できるテスター、レッドチーマーによってテストされてて、Google AI ultraプランにロールアウト予定やって。

つまりこのGoogle AI ultraプランでな、このモデルが利用者に提供される予定や。ここで説明してる内容を見ると、ファインチューンバージョンみたいやな。「僕らはさらに、より多段階推論、問題解決、定理証明データを活用する新しい強化学習技術でこのGeminiバージョンを訓練した」って言うてる。

そして高品質な数学問題解決のキュレートされたコーパスにアクセスできるようにして、IMO問題にアプローチする一般的なヒントやコツを指示に追加したって。このdeep thinkモデルのバージョンを信頼できるテスターに提供して、その後Google AI ultraの契約者にロールアウトするって。

再度言うけど、これはファインチューンバージョンやったみたいで、通常バージョンがプラン利用者全員にロールアウトされるってことやな。このGemini deep thinkはparallel thinkingを含む最新の研究技術を取り入れてるんや。これでモデルが最終回答を出す前に、複数の可能な解決策を同時に探索して組み合わせることができるんや。

並列思考とコンピュート使用量

いやあ、研究内容が見てみたいわ。システムカードに載せてくれたらええのになあ。Grok-4 heavyも似たような機能を使ってるみたいやからな。Googleがどうアプローチしたかめっちゃ興味あるし、Grok-4 heavyが裏で何やってるかは詳しく分からんからな。Googleは透明性があって、研究をたくさん公開するから、どうやったのかめっちゃ興味深いはずや。

全ての問題でテストが人間と同じ4.5時間の競技時間制限内で完了したんやって。でも実際にどれくらいのトークンを使ったか、どれくらいのコンピュートを使ったかは全然分からんねん。つまり、こういうテストでこんな印象的な結果を出すために、これらのモデルを動かすのにどれくらいコストがかかるかってことや。

例えばな、ARC AGIテストでは、API クレジット、APIコストで30万ドルくらいかかるって推定があったんや。モデルを動かしてこれらの問題を解くためにな。

Noam Brownはこう言うてる。このモデルは長時間考えるんやって。OpenAIのモデルについて話してるけど、Geminiモデルも同じことをしてるって仮定してるわ。

長時間考えるだけやなくて、複数の思考プロセスが並列で動いてるみたいやねん。何個かは分からんけどな。Grok-4 heavyは4つのエージェントが動いてるみたいや。Gemini deep thinkは、1つの線形な思考チェーンじゃなくて、複数の可能な解決策を探索してるって言うてる。

「複数」って何個のことなんか気になるなあ。Google DeepMindの投稿の下で、イーロン・マスクがコメントしてる。「注目すべきマイルストーンやけど、AIにとってはもうボーダーライン的に些細なことや。」

強化学習の新時代

まあどうであれ、大きなアイデアを掴んでおこうや。ここ数カ月、新しいRL技術に関する論文がいくつも出てるんや。つまり、これらの大規模言語モデルに、コーディングでも数学でも、その他何でも、新しい強化学習技術を通して上達することを教えてるってことや。

ソフトウェアエンジニアリングではちょっと難しいねん。検証可能な報酬を得るのが難しいからや。検証可能な報酬は簡単で、二進法、ゼロか1、良いか悪いかや。強化学習をそれらの報酬に結び付けることができれば、そういう訓練をするのは簡単やねん。

犬に座れって言ったら、やるかやらんかで、見分けるのはかなり簡単や。曖昧さはほとんどない。猫にもっと優しくするように訓練しようとすると、急にめっちゃ曖昧になる。その行動のより小さな近似に分解することはできるけど、これらのモデルがよくやるように、報酬をハックされる可能性があるねん。

Googleは、これらの新しいRL技術が何なのか、あんまりヒントをくれへんかった。もっと情報が投稿されたら、すぐに出てくることを願うわ。アーカイブやブログに論文が公開されて、読んで詳細が分かるかもしれん。でもNoam Brownはヒントをくれた。彼はここで言うてる。LLMを検証が困難なタスクでめっちゃ上手にする新しい技術を開発したって。

この図は前にも見せたことあるな。昔は僕らのコンピュート、ハードウェア、時間、GPUが唸ってる時間、全てが事前訓練コンピュートに向かってたんや。GPT-4、GPT-4o、全部事前訓練コンピュートやった。推論モデルから始まって、その一部がRLコンピュート、つまりその上に積まれるのを見るようになった。

ベースモデルがあって、特定の強化学習パイプライン、そう呼ぼうか、により多くのコンピュートを投入することで推論モデルを作るんや。時間が経つにつれて、このRLコンピュートがどんどん成長することが期待されてる。最終的に、事前訓練モデルに投入するコンピュートの量は依然として大きいかもしれんけど、比較してRLコンピュートは何倍も大きくなるやろう。

Grok-4とコンピュート投入量の実例

例えばな、イーロン・マスクは世界最大のコンピュートを1箇所に集めたColossusデータセンターを使って、Grok-4の訓練に前のモデルの10倍のRLコンピュートを投入したんや。

イーロン・マスクはかなり議論を呼ぶ人物やから、このモデルについて史上最悪か史上最高かって言う人がたくさんおるやろう。どっちも無視してええよ。現実は、これはめっちゃ興味深いモデルで、そこそこのモデルを取って、とんでもない量のRLコンピュートを投入してGrok-4を得たってことや。

これはSimple Benchや。この背景にいる1人は、AI Explainedの本人、素晴らしいAIユーチューブチャンネルのMr. AI Explainedや。彼の最新動画で、Grokがこのベンチマークでかなり良くやったって指摘してた。このベンチマークは、これらのLLMがゲームしたり、それらで訓練したりするのを防ぐために特別にデザインされたものや。

他のベンチマークとはかなり違う特別なベンチマークや。レッドヘリング、つまりノイズ、提供される余分な詳細を無視できれば、非常にシンプルなパズルって言うたらええかな。でもそれらを無視できれば、質問自体は大抵かなりシンプルや。

例えばな、「このペンを放したらどうなる?」って聞いて、次の1時間惑星の重力極や太陽の周りをどう回ってるかについて話すとするやろ。答えは単にペンが床に落ちるってことや。惑星の回転について話しても、それには全く影響せえへん。

でも大規模言語モデルはこういうのに騙されがちなんや。訓練データで似たような問題を見てたら、より可能性の高い答えを選ぶ傾向があるんや。だからこういうのをよく間違える。Grokはかなり上手くやる。これより高いのはGemini 2.5 Proだけや。

この状況全体について最も知的な見解を持ってた人がここにおる。Wool Brownや。彼は言うてる。「OpenAI内のRLシステムがAGIやって言う方が、そこから出てくる固定されたモデルチェックポイントよりもずっと傾いてる。」

Google DeepMindの結果でも、Google DeepMindについて同じようなことが言えるかもしれんな。これらの企業内には、大規模言語モデルのための大学があるみたいや。Andre Karpathyが言うてるように、強化学習のためのジム、これがより良い類推かもしれんな。

つまり、これらのモデルを訓練して、インターネットや教科書や他の場所のデータをたくさん含んだ大規模言語モデルが出てくる。それから数学のやり方、コーディングのやり方などを学ぶためにジムやブートキャンプに行く。出てくるモデル、それがそのモデルチェックポイントや。それのバージョンや。

Google DeepMindが言うてるように、「このモデルのバージョンをテスターに、それからGoogle AI ultraに提供する」って。サム・アルトマンもほぼ同じこと言うてた。僕らが出てくるさまざまなモデルに感動してる間、本当のAGI、本当の秘伝のタレは、それらを生産するLLMファクトリー、これらの企業内部にあるってことや。

自己学習とカリキュラム生成

これらのアルゴリズムの進歩が何なのかの直感、自己検証、学習カリキュラムの自己生成を大規模で機能させることは、僕の本ではAGIにカウントされるやろな。

このチャンネルをフォローしてる人なら、僕がよく言ってることの1つは、論文が公開されてから6〜12カ月後に、これらのAI研究所で結果が製品やモデルなどとして出てくるのを見るってことや。だからabsolute zero reasonerやDeepSeekのR1-0、僕らがカバーした強化学習論文など、こういうのに繋がるような研究論文をたくさん見てきたんや。

でも本当に、この全てがどこに向かってるかの大きなヒントは、少なくともAI年数では昔に学んだalpha zeroの教訓やと思う。実際、これらの新しい論文の多くは、DeepSeek R1-0やabsolute zero reasonerって呼ぶ時にこれを参照してるんや。それが彼らが言及してる「zero human data」やと思うわ。

AIが何かを本当に得意になるために、必ずしもルールや戦略、人間のデータを与える必要はないってアイデアや。でも自己対戦、合成データ生成、自己検証、学習カリキュラムの自己生成などを通して自分自身に教えさせる方法を見つける必要がある。これが次の大きなステップや。

これは去年のGoogleのIMO銀メダルからの同じ教訓でもあるねん。手作りルールなし、キュレートされたデータセットなし、ただ合成定理だけでやったんや。自分のカリキュラムを作って、そのカリキュラムを勉強して、数学的推論がめっちゃ上手になったんや。僕らが学んでるのと同じ教訓、alpha zeroの教訓や。

これが、AI進歩を前進させる次の本当に大きな波やと思う。事前訓練コンピュートについて話してたスケーリング法則があった。推論モデルでは、テスト時コンピュートがあった。つまり、考えてる間にどれくらいの時間とトークンとGPU時間を燃やすことを許すかや。

これは、ある意味でAI開発においてAIに手綱を握らせることやから、これまでで最大の飛躍かもしれん。

IMO勝利への詳細とタイミング問題

最後にまとめてる時に、Demis Hassabisが IMOの勝利、金メダルについて投稿したんや。ここで何が起こったかについてちょっと光を当ててくれてる。彼は言うてる。「ちなみに付け加えると、僕らが金曜日に発表しなかったのは、全てのAI研究所が独立した専門家によって公式結果が検証され、学生らが当然受けるべき称賛を受けた後にのみ結果を共有するというIMO理事会の元々の要請を尊重したからや。」

残りの情報はブログ投稿で既にカバーした内容や。でもこれについて君らの意見を聞かせてや。まず、OpenAIがフライング したと思うか、それともGoogleから雷を盗むためにIMOの指示に反して意図的にやったと思うか?確実に、OpenAIはそういうのが好きやからなあ。

これは難しい問題や。DemisもNoam Brownも、この分野でめっちゃ尊敬されてる人らやから。どちらもこういうことについて嘘を付くとは思わん。でも教えてや、策謀か単純な誤解か。

それから、これらの結果は印象的やけど、そうやな、もうちょっと当たり前になってきて、もうちょっと期待されるようになってるっていう事実に同意するか?「そうやな、もちろんIMOで金メダルを取るやろう。」みたいな感じで。

ちなみに覚えといてや、これはほとんどの人が認識してたよりもずっと早く起こってるってことを。ベッティング市場では、AI モデルが今年IMOで金を取る可能性を、この発表に至るまでの数カ月間で10〜15%って見てたんや。Eliezer Yudkowskyは2025年までにAIモデルがIMOで金を取る可能性は16%って予測してた。

つまり、この手のことを考えて予測して、早く起こることに賭ける傾向がある人らでさえ、不意を突かれたってことや。ちなみに、GeminiモデルがOpenAIモデルと同じように話すのか気になってるなら、残念やけどそうやない。もうちょっと普通や。

OpenAIモデルは証明を詳細に書き出したけど、英語についてはかなりケチやった。Googleの解答はここで見つけることができて、完全な文章を書き出して、人間が書くと期待するような感じで書いてるけど、全然面白くない。

ここまで見てくれたなら、ほんまにありがとうございました。僕の名前はWes Rothで、また次回お会いしましょう。

コメント

タイトルとURLをコピーしました