この動画は、OpenAIの最新モデルo4-miniが世界最高レベルの数学問題を解く能力を示し、数学者たちを驚愕させた秘密の数学シンポジウムについて報告している。30名の世界的に著名な数学者が参加したこの会合で、AIは従来2%未満しか解けなかった超高難度問題の大部分を解決し、その推論過程は「数学的天才に近づいている」と評される水準に達していることが明らかになった。
AIの数学能力に対する懐疑と現実
数日前に公開されたこの論文は、秘密の数学会議でAIを出し抜こうと奮闘した研究者たちの話を伝えています。研究者たちは、AIが世界で最も困難な解決可能問題のいくつかに答える能力を持っていることを発見して驚愕しました。
もちろん、この記事に全員が同意しているわけではありません。そこにいた人物の一人、世界最高の数学者の一人と評されるJasperからの投稿もあります。彼はその数学シンポジウムに参加しており、実際に何が起こったのかを語っています。彼が言うように、一部は少し誇張されていました。つまり、これは決して全体を覆すものではありませんが、使われた言葉遣いが少し大げさだったということです。
フロンティア数学ベンチマークの登場
AIが数学において本当に優れた能力を持つようになっているという考えは、驚くべきことではありません。フロンティア数学という全く新しいベンチマークが基本的に作成されなければならなくなりました。なぜなら、AIが数学において非常に優秀になったため、通常の人間レベルの問題、つまりそれらのベンチマークが飽和状態になり、100%に近づいているからです。そこで、最前線にあるようなものを作成する必要があったのです。
ここに質問の例があります。「大きな順列における再帰的構築」というものです。そこにあります。どうぞお読みください。音声リスナーの方々にとっては、ほとんどの人にとって完全に意味不明です。最初の文は「Wを正の整数のアルファベット上のすべて異なる文字を持つ有限語の集合とする」というもので、その後さらに複雑になります。しかし、これらが次世代AIモデルをテストするために使用しているベンチマークの種類なのです。
ご覧のように、OpenAIはフロンティア数学に何らかの関係があります。資金提供したか、何らかの形で取り組んだのでしょう。これについては少し後で詳しく説明します。一部の人々にとってはこれが少し警告サインでしたが、AIモデルが数学において非常に優秀であることを示す他の例もたくさんあります。
Google DeepMindの成果
Google DeepMindには、AlphaProofとAlphaGeometryがありました。これらはIMO国際数学オリンピックで銀メダルを獲得しました。しかも、これは少し過小評価されています。金メダルまであと1点でした。もちろん、すべての問題は競技当日まで厳重に秘密にされています。実際に、IMOを運営している人々がこのテストの実施を支援したのです。ですから、すべてが正当に行われました。これは正当な結果なのです。
AIME(アメリカ数学コンクール招待試験)のような他のベンチマークでは、これらのモデルは答えが公開される前の新しい年度でテストされます。つまり、これらのモデルがその特定の問題を見たことがないことを非常に確信できる状況で、これらのモデルが極めて優秀な成績を収める例を再び見ているのです。
秘密の数学会議
この記事は次のように始まります。「5月中旬の週末、秘密の数学集会が開催された」という素晴らしい文章ですが、基本的に世界で最も著名な数学者30名がこの場所に集まり、推論チャットボットとの対決に臨んだのです。
研究者たちは、それが世界で最も困難な解決可能問題のいくつかに答える能力を持っていることを発見して驚愕しました。バージニア大学の数学者で、この会議のリーダーで審査員でもあるKen Onoは言います。「私には文字通り、これらのモデルが数学的天才に近づいていると言った同僚がいます」。
問題となっているチャットボットはo4-miniによって動作しており、ここでEpic AIとフロンティア数学ベンチマークに話が及びます。
Epic AIとの協力関係
o4-miniの進歩を追跡するため、OpenAIは以前に大規模言語モデルをベンチマークする非営利団体であるEpic AIに、解法がまだ公開されていない300の数学問題を作成するよう依頼しました。過去に、これらのモデルがこのような非常に難しい問題を尋ねられたとき、2%未満しか答えることができず、これらのLLMには推論能力が欠けていることを示していました。しかし、o4-miniは非常に異なることが判明するでしょう。
重要なことに、これはEpic AIからの情報です。つまり、彼らはOpenAIが何にアクセスできて何にアクセスできないかを明確にしているのです。OpenAIがEpic AIにフロンティア数学ベンチマーク用の300の数学問題の作成を委託したと述べています。彼らはこれらを所有し、50問のホールドアウトセットを除いて、問題文と解答にアクセスできます。
これは、ARC AGIのようなテストでは一般的なことで、解決しようとしている方法に類似した問題があり、解法がどのように進むことが期待されるかを示しています。昔試験を受けたことがある人なら、解き方を示すサンプル問題があって、その後自分で解かなければならない50問があったことがあるでしょう。
50問のホールドアウトセットは、OpenAIのこれらのモデルが一度も見たことがない50問で、データに含まれていないことが保証されていました。ここで、OpenAIとの合意がどのように成立したかが説明されています。私は下にリンクを貼っておきますので、読みたい方はどうぞ。AIのベンチマークがAIフロンティアラボによって委託、資金提供、スポンサーされたことで、多くの人に警告サインを作り出したと思います。彼らはここでこれらすべてを明確にしています。
数学者たちの挑戦
数学会議に戻ると、参加した数学者たちは秘密保持契約に署名し、データが漏洩しないようにメッセージングアプリSignalでのみ連絡を取ることができました。o4-miniが解けない各問題について、それを考案した数学者は7,500ドルの報酬を得ることになっていました。
一日の終わりまでに、Onoはボットに苛立っていました。その予想外の数学的腕前がグループの進歩を妨げていたのです。つまり、o4-miniが問題を解くのが少し得意すぎて、彼らは7,500ドルを獲得できなかったのです。
Onoはここで言っています。「私は自分の分野の専門家が数論のオープン問題として認識するであろう問題、良いPhDレベルの問題を考え出しました」。彼はo4-miniにその問題を解くよう求めました。次の10分間、Onoは驚愕しながら沈黙のうちに、ボットがリアルタイムで解法を展開するのを見守りました。その推論過程を示しながら。
ボットは最初の2分間をその分野の関連文献を見つけて習得することに費やしました。つまり、調査から始めたのです。その後、より難しい問題を解くために、まずより簡単なおもちゃ版の問題を解いてみたいと画面に書きました。つまり、物事がどのように機能するかを理解するために、小さなモデルやプロトタイプを構築しているようなものです。
数分後、ついにより困難な問題を解く準備ができたと書きました。その5分後、o4は正しいが生意気な解答を提示しました。「それは本当に生意気になり始めていた」とOnoは言いました。
彼はEpic AIのフリーランス数学コンサルタントです。最後に「引用は不要、この謎の数は私によって計算されたからだ」と書かれています。どうやら私たちは賢くて生意気なAIを作っているようです。AIにとって生意気であることは良いことなのでしょうか、それとも悪いことなのでしょうか。
科学者のような推論
Onoは言います。「私はモデルでこのような推論を見たことがありません。それは科学者がすることです。それは恐ろしいことです」。
興味深いことに、彼らはボットが答えに失敗した10の問題を見つけることができました。彼らはそれを非常に優秀な大学院生と比較しています。また、人間の専門家が完了するのに数週間から数か月かかることを、わずか数分で行うなど、人間よりもはるかに高速でした。
o4-miniの結果が過度に信頼される可能性があるという懸念がありました。つまり、どれほど生意気で強力であるかのために、威圧による証明を習得したと言えるでしょう。すべてを非常に自信を持って述べるのです。もちろん、これは多くのAIで見てきたことです。それらは優秀で、優秀だから私たちはそれらを信頼する傾向があり、そして何か間違ったことを言うときでも、それでも多くの自信を持って言うので、人々はこれに騙される可能性があります。これについて心に留めておくべきことで、これについて注意深くある必要があります。
ティア5への挑戦
これらの問題は、人間の能力の頂点近くのティア4として分類されました。これを通過した後、議論はティア5に移りました。それらは最高の数学者でさえ解けない問題です。もちろん、ティア5に到達し、これらの問題のいくつかで超人的になったとき、数学者の役割は急速に変化するでしょう。
Onoはここで言っています。「汎用人工知能は決して来ないと言うのは重大な間違いだと同僚たちに言ってきました。それはただのコンピューターです。ヒステリーを煽りたくはありませんが、ある意味で、これらの大規模言語モデルはすでに世界中の私たちの最高の大学院生のほとんどを上回っています」。
明らかに、これは非常に強く書かれた記事です。ここに、このシンポジウムにいた人物からのいくつかの重要な説明があります。彼が言っていることの多くは記事と矛盾していません。
参加者からの証言
例えば、彼は言います。「驚いたことに、o4-mini highは」。そうです、実際に彼はo4-mini highを使用したと言っているようです。記事ではo4-miniと述べられていたので、これらのベンチマークではo4-mini highが使用されています。つまり、彼らは高思考モードでそれを使用しているのです。
ここでご覧のように、それは特にAIME(競技数学問題)を見ているときに、o3よりもわずかに優れています。彼は、これが問題の大部分を解決できたことに驚いたと言っています。推論が時々間違っていたにもかかわらず、それでも正しい数値答えにたどり着くことができました。
これは明らかに少し問題です。強化学習を行うとき、モデルの答えをチェックして、正しい答えを得た場合にハイファイブを与えています。実際の推論が正しいことを確認することは、はるかに困難で、はるかにリソース集約的です。間違った推論が正しい答えにつながる例を見てきました。その行動はプラス1を得て、正の強化を受けます。
ここで彼は、推論が時々間違っていて、正しい数値答えに到達したと言っています。明らかにこれは問題で、これはまだオープンな問題のようです。うまくいけば、その発生は減少していますが、最終的な出力に対してRLを行い、実際の推論に対してではない場合、これは起こり続けそうなことです。
AIの文献検索能力
彼らがここで言っているように、AIは最近の研究結果を含む結果を見つけ、参照し、適用することで驚くほど効果的です。この人物は戦略を調整しました。数学論文を取り、いくつかの中間定理を抽出し、それらの結果を計算手法に統合することを要求する問題を作成しました。予想通り、AIは苦戦しました。中間ステップを結びつけたり、論理の連鎖を効果的に推論したりすることができませんでした。
記事とこの人物は、大体同じことを言っていると思います。記事はもう少しバラ色に見えますが、失敗した10の問題について言及しています。この人物は特定の弱点を見つけました。つまり、2つの異なるものを取ることで、それらをその新しい計算手法に効果的に統合することができませんでした。
このようなことをどのくらいの頻度で失敗するのか興味があります。毎回なのか、10回に1回このようなことに失敗するのか。
今後の展望
彼の要点は、AIが過去2年間で劇的に改善されたこと、現在のLLMは依然として限定的な深い推論で主にパターンマッチングに大きく依存していること、まだ新しい数学的結果を生成する能力はないが、関連文献を収集し、初期解法の草案を作成することに優れていることでした。人間の監視は、特に検証と統合において不可欠です。
彼の予測は、次の1、2年でAIが数学者が新しい理論を発見し、オープン問題を解決することを支援するのを見るだろうということです。Terence Taoが最近DeepMindと行ったように。おそらく彼はAlpha Evolveについて話していると思います。これについては次に話そうと思っていました。
その後すぐに、AIは協力し始め、最終的に独立して数学の異なる層を推進し、ひいてはあらゆる他の科学分野を推進するようになるでしょう。
Alpha Evolveとの比較
私が理解する限り、彼らは通常のチャットボットモードのようなものを使っています。つまり、物事を入力し、チャットボットがその高予算思考にかかる時間だけ考えて、答えを与えるのです。
GoogleのAlpha Evolveでは、多くの高度なアルゴリズムと全く新しいものに到達したと、ほとんどの人が主張するでしょう。Googleは、Alpha Evolveによって発見されたアルゴリズムを、データセンター、ハードウェア、ソフトウェアなど、エコシステム全体に展開しました。この核心にはGemini大規模言語モデルがありました。また、自身のトレーニングを改善、最適化することもできたので、ほとんど再帰的自己改善を始めているようなもので、その段階の始まりにいるのかもしれません。
それが考え出したもう一つのことは、Googleの巨大なデータセンターをより効率的に編成する方法です。1年以上本格稼働しているので、それが考え出した解決策は1年以上稼働しており、AIが動作するハードウェアの一部を改善しました。
Alpha Evolveがどのようなものかがここにあります。大規模言語モデルがあり、これが出力を生成するものです。その周りには、それが使用するコードやツールなどの足場があります。人間の監視、科学者/エンジニアがあります。それがプロンプトとモデルのすべての出力を評価する評価コードを考え出します。また、いくつかの初期プログラムと、その時点まで学んだことの初期データベースのようなものを与えます。
このものは、支払う意思のある計算量に応じて、数百、数千、あるいはそれ以上の出力を生成することができます。様々な解決策を生成し続けるでしょう。それらの解決策は評価され、進化的な木のように、有望な解決策はより多く作業されます。改善され続ける子孫や系統のようなものです。
自己改善型エージェント
ここに素晴らしい表現があります。これは、非常に似たものを使用するDarwin Goal machineです。これはより良いコーディングエージェントを作成するためのものです。自己改善型コーディングエージェントの一種です。
ゼロから始めて、どのように改善できるかについて、1、2、3、4と異なる理論を試します。つまり、異なるアイデアをブレインストーミングしているようなものです。それらのアイデアはベンチマークでテストされ、改善すれば有望とマークされ、パフォーマンスが悪ければ、赤いものはあまりうまくいかなかったことを意味し、それらの系統は断たれます。
進化と同様に、適応していないものは生き残らない、遺伝情報を伝えないということです。これは似たようなもので、ここでご覧のように、この系統が最終的に多くの反復、合計80回を通じて、ここで最高のコーディングエージェントにつながったものです。
これは既存の人間のコーディングエージェントよりも極めて優秀に機能します。つまり、人間がコーディングエージェントをより良くするために座ってたくさんのものをコーディングしたのです。それが紫の線で、この青い線がこのDarwin Goal machineです。ご覧のように、人間が作ったものより最初は悪い状態から始まりますが、たくさんの小さな潜在的解決策を生成し、それらがテストされるにつれて、最終的に一つを見つけ出してジャンプアップし、また別の、また別のと、生成するものの多くは機能しないかもしれませんが、最終的にどんどん良くなっていきます。
これは、人間のベースラインよりも良くなる自律的に改善するコーディングエージェントの例です。そして、この他の人間のベースライン、これは最高の最先端コーディングエージェントでした。この赤い線は、はるかに悪い状態から始まり、ゆっくりとそれに近づいていきます。
進化的探索の重要性
ここで理解することが重要なのは、この種の進化的探索はしばしば信じられないような結果を生み出すということですが、大規模言語モデルには、この場合80回の反復が許可されており、Alpha Evolveもおそらく1つあたり何回の反復があったかは覚えていませんが、そのような自由な探索をするためにお金を計算に費やすことを厭わない限り、多くの回数があり得ました。より多くするほど、答えを見つける可能性が高くなります。
要約すると、たくさんの異なることを試させ、それがどれだけうまく機能するかをテストし、ある道筋が有望に見える場合は、その上に構築するということです。
私たちが話しているシンポジウムでは、彼らはそれをしていないと思います。おそらく一つの出力をしているだけで、フィードバックも進化的探索もありません。それは、ここで一つのものを出力し、そのものが機能せず、「ああ、失敗した、それで終わり」と言うのと同等でしょう。
実際には、80回の反復を与え、これをテストする何らかの方法を与え、その進化的探索を行うことで、それらの結果は驚異的だった可能性があります。それは私の理論にすぎませんが、Alpha EvolveとDarwin machineの発見を組み合わせる方法があると感じています。彼らがそれらのものを作成した方法と、ここで彼らがしていることを組み合わせる。
再び、これらのモデルは、一つの出力と同じように簡単に千の出力を思いつくことができます。少し費用がかかり、少し時間がかかりますが、退屈になったり、やりたがらなくなったりはしません。求められただけ生成するでしょう。そして、何らかのフィードバックを与え、継続的に改善するようなシステムを作成できれば、結果ははるかに良くなる可能性があります。
人間の監視の必要性
ここで彼は、人間の監視が特に検証と統合において不可欠であると言っています。Alpha Evolveのようなものは、その一部を自動化しますが、それでも人間のループがそれを監視する必要があります。しかし、検証とその統合の一部を自動化できれば、このものは一種の超強力になります。これも下にリンクしておきます。
反対意見
これはGary Marcusからの反対論の一部です。「私たちは、OpenAIがどのような数学特有の拡張を行ったかを全く知らない。大きな問題は数学関連の拡張についてです」と言っています。私はこれを、OpenAIが追加データでそれを訓練したかということだと理解しています。
このEpic AIフロンティア数学ベンチマークは、50問のホールドアウトセットを除いて、これらのモデルが高レベル数学をより良く理解するのに役立ったそのデータの一部だったと思います。私が正しく理解していれば、おそらくそれが起こったことでしょう。
最終的な評価
この全体についてどう思いますか。これらのモデルは数学において優秀になっているのでしょうか、それとも単純なパターンマッチングの錯覚だと思いますか。世界最高の数学者がその推論能力に驚嘆している結果、IMOで金メダルまであと1点のGoogle DeepMindのAIシステム、人間の革新によってこれまで到達できたレベルと同等かそれをはるかに超える自己改善型コーディングエージェント、Google DeepMindのAlpha Evolveが最適化できたすべてのものは、これが単なるトリック、錯覚、単純なパターンマッチングである可能性があると思いますか。
Googleの巨大なデータセンターでは、プログラムが考え出したこの最適化に基づいて、Googleの世界的な計算リソースの7%を節約しています。Googleのデータセンターがどれほど巨大かを考えると、それは多額のお金を意味し、1年以上本格稼働しているということです。それは何百万、何千万、おそらくそれ以上を節約しているだけでなく、同じ計算フットプリントでより多くのタスクを完了できることを意味します。つまり、より高い効率性、より少ないエネルギー使用などです。
Scott Aaronsonの言葉で締めくくりたいと思います。彼はGoogleの量子超越性プロジェクトで働き、OpenAIで少し働き、全般的に賢い人です。聞いてみてください。次回またお会いしましょう。
「ジャスト主義」の宗教
生涯の悔恨として、人々は常にこれらの質問を混同し続けています。つまり、彼らは常に、本当に感じないから、それをシミュレートしているだけだから、本当にその内側を持っていないから、AIは決してこれらのことができないだろうと言い続けています。そして、それがそのタスクを実行すると、彼らは決して実行しないであろう別のことにシフトし、そしてそのことを実行し、そのように続きます。
私はそれに名前を付けようと考えていました。「ジャスト主義の宗教」と呼ぶことにします。収縮的な主張の全体的な連続があります。それらを作る各人は、自分が最初の人であると思っています。そして私は今、この500の異なるバリエーションを見てきました。
ChatGPTについて、どれほど印象的に見えても重要ではありません。なぜなら、それは単なる確率的オウムであり、単なる次トークン予測器であり、単なる関数近似器であり、単なる巨大なオートコンプリートだからです。
これらの人々が決してしないこと、彼らにとって決して思い浮かばないことは、次の質問をすることです。あなたは単に何ですか?あなたは単なるニューロンとシナプスの束ではありませんか?つまり、私たちもあなたについてその収縮的還元主義的立場を取ることができます。そうでなければ、一方と他方を分ける原理を与えなければなりません。その原理を与えることは私たちの負担です。
誰かが私のブログで言っていた方法は、彼らがこの巨大な連祷を与えました。「GPTは文を解釈しない、解釈しているように見える。学習しない、学習しているように見える。道徳的問題を判断しない、道徳的問題を判断しているように見える」。
そこで私はこれに応えました。「それは素晴らしい。そして文明を変えることはない。変えているように見えるだけだ」。


コメント