本動画は、OpenAI Podcast第17回として、数学研究者のSebastian BubeckとErnest Ryuを迎え、AIが数学で急速に進歩した意味を掘り下げる回である。かつては基本的な計算や日程調整すら苦手だった言語モデルが、数学オリンピック級の問題や研究レベルの未解決問題に挑めるようになった背景を語る。さらに、数学がAGIへ向かうための重要なベンチマークである理由、AIによる科学研究の加速、数学者や研究者の役割が今後どう変わるかについて議論する内容である。

AIと数学の急速な進歩
こんにちは、Andrew Mayneです。OpenAI Podcastへようこそ。今日のゲストは研究者のSebastian BubeckとErnest Ryuです。今回は数学について話します。数学におけるAIの能力が、ほとんど笑ってしまうようなレベルから、数学オリンピック級へとどう進化したのか。そしてAGIに到達するために、なぜ数学が必要なのかについて話していきます。
この数年の進歩は、奇跡と言っても過言ではありません。
LLMが、50ページを超える思考を必要とする問題を解けるようになるでしょう。数学は、この4年間でモデルが進歩していることを見るための、まさに完璧なベンチマークでした。
Sebastian、Ernest、お二人についてもっと知りたいです。ご自身の役割をどのように説明しますか。
はい。私はもう20年近く数学に取り組んできました。以前は最適化と機械学習理論を研究していました。Princetonで数年間教授を務め、その後Microsoftへ移りました。そして現在はOpenAIの研究者です。
ここ数年は、AIが数学をどのように支援できるのかを理解しようとしてきました。また、AIで難しい数学問題を解くという点で、私たちがどれほど進歩しているのかを評価しようとしてきました。
Ernestはどうですか。
はい。私は最近、研究者としてOpenAIに加わりました。その前は応用数学者として、最適化と機械学習理論に取り組んでいました。前職では、UCLAの数学科で数学教授をしていました。
多くの人は、こうしたモデルは数学が得意ではないという印象を持っていると思います。文字通り、言語モデルと呼ばれているわけですから。これはどのように変わったのでしょうか。何が起きたのでしょう。
この数年の進歩は、本当に奇跡と言っていいものだと思います。重要なのは、2年前には推論モデルすら存在していなかったことです。ましてや、難しい数学定理を証明できるモデルなどありませんでした。
それが2年後の今日では、モデルがFields Medal受賞者の日々の仕事を助けられるようになっています。ですから、この飛躍は本当に驚異的です。
それに少し付け加えるなら、理解しておくべき大事な点は、この進歩には私たちを含め、誰もが驚かされたということです。
ひとつ話をすると、1年半前、私はある会議のワークショップに参加していました。他の数学者たちも一緒でした。そこで、LLMをスケールさせることで、主要な未解決問題を解決できるようになるのか、という討論に参加しました。
これは1年半前の討論です。会場の意見は大きく割れていました。実際、冒頭で投票が行われたのですが、たしか80%くらいが、そんなことは不可能だ、起きない、と答えていました。
その後、討論が進みました。そして討論の終わりには、およそ50対50くらいになっていました。その1時間のあいだに、かなり進展したわけです。
しかし今から振り返ると、それは明らかに間違っていました。わずか8か月後には、モデルが研究レベルの数学をこなし始めていたからです。
AIと数学が交わった決定的な瞬間
AIと数学のあいだに、本当に優れた接点があると気づいた突破口の瞬間は何でしたか。
2025年の夏、大きなニュースがありました。ChatGPTがInternational Math Olympiadで、人間のトップレベルの成績を達成したのです。金メダル級の成績です。
これは素晴らしいニュースでした。そして、少なくとも競技数学のレベルでは、モデルが非常に高い能力を持っていることを示しました。人間の高校生トップ選手と同等のレベルです。
ただし、競技問題は用意された問題です。数時間以内に解けるよう作られているため、解答も比較的短いものです。そして新規性があるわけでもありません。誰かが問題を作り、解答も存在しているからです。つまり、研究レベルの数学ではありません。
そこで私は興味を持ちました。多くの人も同じように興味を持ちました。ChatGPTは研究レベルの数学をこなせるのか、と。オンラインでは多くの議論がありました。
そのとき私は、自分の問題で試してみるべきだと思いました。他人の発言を聞いて判断するのではなく、自分で試して自分の考えを持とうと思ったのです。私自身が数学者ですから。
そこで私は、最適化理論における古典的な未解決問題を取り上げました。最適化理論は、私が研究している応用数学の一分野です。
具体的な問いは、Nesterov加速勾配法と呼ばれる有名なアルゴリズムに関するものです。このアルゴリズムは収束的な挙動を示すのか、それとも特定の悪いケースでは、何らかの発散的な挙動が起こり得るのか、という問題です。
この問題は本当に未解決でした。多くの場合にこのアルゴリズムがうまく振る舞い、収束することは知られていました。しかし、本当に悪い例が存在するのか、最悪の場合に発散し得るのかについては、人々は知りませんでした。
答えは、存在する、でした。そして私がそれを発見した方法は、今でもはっきり覚えています。
息子の就寝時間は夜8時です。そして私は真夜中を過ぎて起きていないようにしています。ですから、何かに集中したいとき、自分のために使える夜の時間はだいたい4時間でした。
そこで私は、よし、この問題に数日間取り組もう、と決めました。3日間にわたり、合計12時間、この問題についてChatGPTとやり取りしました。
単に私がプロンプトを入れたら解答が出てきた、というほど単純ではありませんでした。私は検証者の役割を果たしました。モデルが間違えたときには、それを指摘して修正しました。
また、会話が、私にとって新規性があると感じられる方向やアプローチへ進むよう導きました。しばらくすると証明が得られました。私はそれを確認しました。ChatGPTにも再確認を求めました。そして、それは正しかったのです。
こうして、この42年続いた未解決問題は解決されました。
解答を得たあと、私は思いました。これを公表する方法として、自分にとって一番楽しいやり方は何だろうか、と。普通に論文を書いてもよかったのですが、それではあまり面白くありません。
そこで、Twitterに行ってこの話をしようと決めました。とても楽しかったです。
それは、AIによって本当に未解決だった数学の未解決問題が解かれた、かなり初期の例のひとつだったと思います。人々は大いに反応してくれて、とても楽しかったですね。
今の話で興味深いのは、時々、誰かが、すごいものや新しいものを見つけた、と言うことがありますよね。そして、それが徹底的に批判されて崩れることもあれば、持ちこたえることもあります。ソーシャルメディアに出すのは怖い面もありますが、こうしたフィードバックサイクルは必要なのだと思えます。
多くの人にとって難しいのは、International Math Olympiadのような言葉を聞いたとき、それが問題のスケールとして何を意味するのかを理解しようとすることだと思います。足し算、引き算、掛け算なら分かります。
最初のChatGPTでは、なんとなく使える程度だったところから、数学ができるようになり、ツールを使えるようになり、さらにモデル自体が暗黙に理解するようになった、という変化について、理解しやすい例を挙げてもらえますか。
初期のChatGPTが苦手だった身近な数学
ChatGPTが2023年初めに登場したころ、私はモデルをテストし始めました。モデルが一般的な数学問題でどの程度うまくやれるのか、とても興味がありました。
その中には高校レベルの数学問題も含まれていましたが、日常生活の中にある数学っぽい問題も含まれていました。
たとえば、私たち3人が一緒にキャンプへ行ったとしましょう。私がこれを払い、これも払い、Andrewが何か別のものを払いました。そして最後に精算して、費用を均等に分けたいとします。ChatGPTはその計算をしてくれるでしょうか。
購入したものが17項目くらいあると、これはそこそこ複雑です。2023年、2024年、そして2025年初めにも覚えていますが、モデルはこれができませんでした。
別の例を挙げるなら、私が韓国にいて、Sebがパリにいて、Andrewがカリフォルニアにいるとします。そしてZoom会議を設定したい。何時がよいでしょうか。
これも2025年初めには、モデルはできませんでした。
ところが突然、状況が変わりました。当時私はOpenAIにはいなかったので、皆さんが具体的に何をしたのかについて詳しく知っているわけではありません。しかし突然、モデルがIMOの問題を解き始めました。さらに研究問題まで解き始めたのです。
今の私の感覚でこれを測ると、あなたが新しい数学を発見しようとしているプロの数学者でない限り、たとえば物理学者や化学者で、微分方程式や微分幾何のような比較的複雑な数学を使うけれど、新しい数学を発明しているわけではない、という人であれば、ChatGPTはあなたに必要な数学をすべて扱えます。
つまり、STEM分野で高度な数学を使う人であれば、基本的にはChatGPTを使って数学面を任せることができるようになっています。
もちろん、ある程度の注意は必要です。正しいか確認する、念のためシミュレーションを走らせる、そうしたことは必要です。モデルは間違えることがあります。
しかし今では、ほとんどの人が解きたいと思う数学問題について、人口の99%にとって、モデルはそれを解けると言えます。
私がGPT-4のリリースに関わっていたとき、例のひとつとしてスケジューリングを使っていました。3人を予定に入れて、時間帯を見つけさせることはできました。でも、それを超えて押し広げるのは本当に難しかった。なぜ変化が起きたのでしょうか。
Ernestは、ある時点で突然良くなったと気づいた話をしました。ひとつはツール使用だったことは分かっています。モデルに電卓を使わせることができました。しかし、モデル自体にも何か別のことが起きたわけですよね。
先ほど話した討論に戻ると、その枠組みは、LLMのスケーリングだけで数学の研究上の突破口を解くところまで行けるのか、というものでした。
これは誤った枠組みです。
OpenAIで私たちが行っていることは、多くの研究であり、革新的な研究です。単にモデルをスケールさせるだけではありません。
ですから、何が起きたのか、あるいは昨年の半ばに突然モデルが数学問題を解けるようになったとき何が起きたのか、と聞かれても、多くのことが起きたのです。私たちは多くの研究をしています。そして、そのすべてが同時に進歩しなければなりません。ですから、単一の要素を指し示すことはできません。
ただ、ツールなしで自力でできるようになったわけですよね。
はい。Ernestが言っていた進歩、そして当時モデルが解けなかったスケジューリング問題について、さらに強調することは本当に重要だと思います。
2年前には推論モデルがなかったと言いました。では4年前を考えてみてください。4年前、つまりChatGPT以前です。Googleが当時、Minervaという数学モデルを発表したことを覚えています。私は椅子から転げ落ちるほど驚きました。
何に感動したのか。モデルに平面上の点の座標を与えると、その点を通る直線を返してくれたのです。
今そう言うと、理解するのがほとんど難しいくらいですよね。何を言っているのか、モデルがそんなことをできるのは当たり前でしょう、という感じです。
ですから、私たちは物事がどれほど速く起きたのかを、ある意味忘れてしまっているのだと思います。
そして今、Ernestが言ったように、新しい数学を発明しようとしているのでない限り、モデルはすでに適切なレベルに達しています。私なら、すでに新しい数学を発明することについても、そこに近づいている兆しが見えていると言います。
数学が科学全体に与える影響
数学の新しい分野を開発したり、新しい証明を作ったりすることに興味がある人以外にとって、これは他のすべてにどう影響するのでしょうか。このことは科学にどのような影響を与えるのでしょうか。あなたが取り組んでいる他の部分にどんな影響があるのでしょうか。なぜこれは、単に、すごい、数学ができるんだ、という話ではなく、本当に重要なのでしょうか。
まず、すごい、数学ができるんだ、という部分について言うと、それはモデルを開発するうえで、進歩を測る良い方法として重要でした。
数学の良いところは、問いが非常に明確で曖昧でないことです。何を問うているのかについて、誰もが一致できます。これが第一点です。
第二点として、答えを検証できます。モデルが答えを出せば、それが正しいか正しくないかについて、誰もが合意できます。
ただし、そこには少し留保を置いておいてください。後で話しますが、研究レベルでは評価はもはやそれほど単純ではありません。しかし研究レベル以前であれば、評価は非常に簡単です。
ですから数学は、この4年間でモデルが進歩していることを見るための、まさに完璧なベンチマークでした。
今では、その側面についてはかなり飽和してきたと言えます。そして、では分かった、モデルが数学をやることは理解した。次のステップは何か、と問うことができます。
次のステップについて言えば、モデルが数学に強くなることは、他の非常に多くのことにとって良い影響を持つでしょう。その理由を説明します。
数学の重要な特徴は、問題を解くために長い時間考えなければならないことです。数日、数週間、ときには数年かかります。
この長い思考では、単に長時間考えるだけではなく、長時間にわたって一貫して考え続ける必要があります。推論の連鎖のどこかで誤りがあれば、それは議論全体を破壊します。
その後がすべて正しくても関係ありません。ひとつの失敗点があれば、議論全体が崩れます。
この性質こそが、推論モデルに求めたいものです。つまり、間違いを犯した場合に、自分でそれを修正できることです。
ですから、数学を通じてモデルが獲得するこの性質が、他の領域にも一般化することを私たちは期待しています。ちなみにこれは、人間の場合とまったく同じです。
なぜ人間に数学を教えるのでしょうか。数学はとても楽しいテーマです。私は大好きですし、私たちは専門的にやっていました。今でも少しはやっているかもしれません。
しかし、なぜ人間に数学を教えるのでしょうか。まさに同じ理由です。数学は非常に論理的な思考を与えてくれるからです。
こうした発見について語る新しい方法を考える必要はありますか。
はい。私は個人的に、研究コミュニティに最近の進歩を伝えることも、自分の役割の一部だと考えています。私は元数学者であり、今はAIの最前線で働いているという二重の背景を持っているからです。
実際、Twitterやソーシャルメディアは、この進歩が何なのかを説明するために、とても良い場所です。特に、この進歩はあまりにも速いからです。
たとえば、Erdos問題について少し話してもよいかもしれません。そして、その周辺で起きたいくつかの論争についても。
最初の例がありました。Ernestの例が最初にあり、その後いくつかの問題が解かれました。
ただ、Paul Erdosについても説明してもらえますか。多くの人が、彼が誰なのか、なぜ彼の問題が面白いのかを知りたいと思うはずです。
Paul Erdosと未解決問題の宝庫
もちろんです。Paul Erdosは、前世紀で最も多作な数学者の一人です。たしか1,500本の研究論文を書いています。非常に型破りな人物でした。家もアパートも持たず、大学から大学へと旅をしながら、新しい共同研究者を探していました。
そしてどこかへ行くたびに、基本的に問いを投げかけていました。彼は問いを立てることに非常に、非常に、非常に長けていました。
ただ、彼が出した問いのすべてが面白かったわけではありません。それは最初に言っておきます。それでもなお、非常に生産的でした。研究コミュニティは彼と多くの論文を書きました。
Erdos数という概念さえあります。Erdosと共著論文を書くところから、共同研究者の連鎖でどれくらい離れているかを表すものです。
私のErdos数は2です。Erdosと共著した人と、私は共著論文を書いたことがあります。
すごいですね。
ええ、かなりうれしく思っています。
私の数は3です。
冗談として、彼と列車に乗り合わせたら、列車を降りるころには一緒に論文に取り組んで、自分の名前が載っているかもしれない、と言われていましたよね。
まさにその通りです。まさにそうです。
2と3の違いは、基本的に私たちの年齢の違いを表しているのだと思います。実際、そういうことですね。
さて、Erdosにはこうした問題がたくさんあります。そしてThomas Bloomによる非常に良いウェブサイトがあり、そこでは未解決のErdos問題がすべて追跡されています。
そのウェブサイトには、たしか1,000問ほどの問題があると思います。Thomas自身は組合せ論の専門家で、各問題について、これは未解決、これは解決済み、これは複雑な状態にある、と判断する作業をしています。
もちろん、彼がすべての答えを必ず知っているわけではありません。ですから、ある論文が未解決として記載されているからといって、本当に誰も解き方を知らないとは限りません。
しかし、そのサイトは非常にインタラクティブでもあります。人々がそこにアクセスして、各問題にコメントを追加し、解決策があるかどうかなどを説明できます。ですから、非常に動的で素晴らしいウェブサイトです。
当然、GPTが研究数学の問題を解けるようになり始めると、これは私たちのモデルを試す問題の宝庫のように見えました。
そこでいくつか試しました。すると驚いたことに、モデルは未解決と記載されていたいくつかの問題に答えを返してきました。私たちはとても興奮しました。
最初に私がツイートしたものは、いつだったか覚えていませんが、おそらく昨年の10月ごろだったと思います。それは深い文献探索の結果でした。
それが何を意味するか説明します。つまり、GPTは非常に大規模な文献探索を行い、何千本もの論文をスキャンしようとしました。そして、ある無関係な分野の中に、その問いへの答えを見つけたのです。
ここで本当に重要なのは、その無関係な分野の論文の中で、私はErdos問題を解きます、と言っていたわけではないということです。完全に別の言語で書かれていました。数学も違っていました。その2つを結びつけるには作業が必要でした。そしてGPTはそれを行ったのです。
それはかなり驚くべきことでした。そして、それはとても場当たり的なものでした。基本的にはChatGPTのインターフェースで、手作業で試しただけでした。
それを見たあと、同じく私たちのチームにいるMark Selkeが、すべての問題を試すという、より体系的なアプローチを取ることにしました。彼がそれを試したところ、モデルは10個のErdos問題に対する解を返してきました。
その時点では、こうしたモデルが最先端を超え、新しい数学を発見し、発明できるのかについて、非常に活発な議論がまだ行われていたことを思い出す必要があります。
ですから私はこの結果にとても興奮して、それについてツイートしました。そして、そのツイートはある意味で悪名高いものになりました。人々がそれを、モデルが非常に難しい10個の未解決問題の解を本当に見つけた、しかもその解は完全に新しく、文献には存在しなかった、という意味に誤解したからです。
しかし実際に起きたのはそういうことではありません。もちろん、それは前のケースとつながっていて、深い文献探索だったのです。ですから、このような結果についてどう語るべきかをめぐって、GoogleやDemisとのあいだでちょっとした論争もありました。
しかし今の結論はかなり驚くべきものです。数か月後のことです。私は10個の未解決問題に対する解があると言いましたが、それらは文献内に存在する解でした。
そして次の問いは、文献に存在しない解を見つけられるのか、ということです。
現在では、完全に新しい実際の解が10個以上あります。組合せ論のトップジャーナルに掲載可能なものです。ChatGPTによって得られたものもあれば、私たちの内部モデルによって得られたものもあります。
ですから、これも加速をよく物語っています。ほんの数か月のあいだに、Erdos問題への10個の解があるなどと言うのは、少しばかげた発言のような段階から、実際に本当に起きている段階へ移ったのです。そしてそれは加速しています。
興味深いですね。ステップ1は、モデルが非常に優れた文献調査をできるようになることだったように思えます。これまでも、文献調査を行い、解がここで解かれていて、それが実は別のところにも適用できると見つけたことで、大きな論文や賞につながった例があります。モデルが最初のステップとしてそれを行うのは面白いですし、今は実際に独創的なことをしているわけですね。
発見とは組み合わせなのか、天才のひらめきなのか
AI研究で私が本当に好きな点のひとつは、知能や研究、進歩、新しいことをどう発見するのかといった大きな問いに、私たちを向き合わせてくれるところです。
特に、科学で見られる進歩は、異なるピースを組み合わせ、その上で少し推論するだけのものなのか。それとも、鮮烈な洞察のひらめきのようなものがあるのか、という問いがあります。
もちろん誰もがEinsteinの相対性理論を指摘します。正直に言うと、それが本当にその例に当たるのかどうかさえ、私には分かりません。
ですから、この単なる再結合と少しの思考というプロセスによって、人間の知識を限界なく増やせるのか、それとも、何らかの形で人間にしかない天才のひらめきが本当に必要なのかについては、まだ結論が出ていないと思います。
彼でさえ、誰だったか忘れましたが、比喩や可視化の方法を考えた人物を評価していましたよね。それは自分のものではないと言い、誰がやったのかを指摘し、そこからさらに一歩先へ進めた。もちろん、それは大きな一歩でしたが。
私たちは小さな物語を好みますが、実際にはもっと複雑なのだと思います。
まったくその通りです。
数学的な道具としてのAIがより良くなると、科学者全般にとって何を意味するのでしょうか。生物学や材料科学など、他の分野にはどのような影響がありますか。
はい。では、それが科学全体にどう影響するかについてです。
ここで誰もが理解することが本当に重要なのは、私たちは数学のために非常に特殊なことをしているわけではない、という点です。私たちの技術、訓練技術は非常に一般的です。あらゆるものに適用されています。
ですから、私たちはより多くの進歩を見ることになると期待しています。数学で進歩が見えやすい理由のひとつは、ベンチマークが非常に簡単だからです。進歩が見えやすいのです。
しかし、私たちはこれがすべての科学で起きると完全に期待しています。数学に限定されることはないでしょう。
あるものが、これが真なら、次にこれも真、というふうに長い一連の命題をたどるのが非常に得意であるなら、他の分野にも多くの応用がありそうですね。
自動研究者という言葉を聞いたことがあります。少し説明してもらえますか。
自動研究者とAGI時間
今の私たちの働き方は、Ernestが説明したものそのものです。つまり、本当に相互作用です。ある種の教授と学生の相互作用です。ChatGPTが学生で、教授が最初の問題を与えます。学生が戻ってきて、少し話します。学生はまた1週間離れて、戻ってくる。
もちろん重要な点のひとつは、その時間軸が大幅に圧縮されていることです。この問題を12時間で解いたという話で言えば、ChatGPTなしならどれくらいかかったと思いますか。
AIなしで40時間以上費やして失敗しました。分かりませんが、おそらく1か月はかかったかもしれません。
まさにそうです。つまり、時間軸を圧縮するということがあります。
自動研究者について話すとき、それは少し違うビジョンです。モデル、あるいは複数のモデルの集合が、長期間にわたって自律的に作業するというものです。
現在のレベルを超えたいなら、これは必要になります。現在の相互作用レベル、つまり学生が1週間後に戻ってくる教授と学生の相互作用では、本当のブレイクスルーを起こしたり、長年の研究問題を実際に解いたり、ウェットラボとやり取りしてさまざまな実験を行う必要がある生物学の非常に難しい分野で進歩したりするのは、とても難しいでしょう。
ですから、本当のブレイクスルーへ向かいたいなら、より長い時間軸で作業する必要があります。そこで自動研究者が登場します。
少し違う言い方をさせてください。私がとても気に入っている概念に、AGI時間というものがあります。AGI秒、AGI分、AGI時間、AGI日数、というように考えられます。
これは、AIがあり、人間の思考を模倣できるとして、どれくらいの長さでそれができるのか、という意味です。
Ernestが言ったように、2年前のモデルは、高校生が問題について数分考えるようなものを模倣していたのかもしれません。
今では、何時間も、場合によっては数日考えられる研究者を模倣できます。
私たちが本当に向かいたいのは、そしてこの進歩は4年間にわたって非常に一貫して続いてきましたが、文字通り秒から分、時間、日へと進んできた流れです。今はおおむね日から1週間くらいのところにいます。
私たちは週へ、場合によっては月へ進みたいと考えています。これは未解決の研究です。地球上の誰も、それを正確にどう実現するのかは分かっていないと思います。
しかしこれは、先ほどの話に戻ります。私たちは多くの研究、多くのイノベーションを行っています。そして、すべてが組み合わさったとき、AGI時間において進歩し続けるという、この進歩の弧が見えてくるのだと思います。
これが自動研究者の方向性です。
私が話している他の数学者たちがAIを使う方法は、ChatGPTを開いて、そのコンテキストウィンドウの中でChatGPTと話すというものです。複数のセッションを持つことはできますが、それぞれのセッションには有限のコンテキスト長があります。だいたい数学論文50ページ程度です。
それは、本当に深い数学、画期的な数学的ブレイクスルーを起こすには十分な長さではありません。多くの数学論文は50ページより長いからです。
さらに、たとえば10ページや30ページの論文を生み出すために注ぎ込まれた人間の思考は、通常、最終出力より何桁も長いものです。ですから、限られたコンテキストウィンドウには制約があります。
しかしCodexを使ったことのある人なら、Codexでは実際に非常に長い作業セッションを持てることを知っています。どんなコードを書きたいのかについて指示を与え続けます。そして、実際に取り組んでいるコード自体、つまりコードのリポジトリは、数学で言えば、自分が書き留める数学ノートに相当します。
それは非常に、非常に、非常に長くなり得ます。しかしCodexはそれを扱うのがかなり得意です。時々会話をコンパクト化します。そして、非常に大きなコードリポジトリを相手に、非常に長い会話の文脈の中で、本当に複雑な仕事を行える驚くべきエージェントになる方法を持っています。
これが数学研究でも起きると私は信じています。
つまり、LLMが50ページを超える思考を必要とする問題、単にそれを超える長さの問題を解けるようになるでしょう。
そして、それこそ人間の数学者が行っていることです。人はある問題について1日考えます。そして自分のアイデアを要約し、ノートにまとめます。翌日、あるいは翌週にそこへ戻ってきます。
そして数か月にわたって、非常に長く考え続けますが、それは要約され、ある程度整理され、扱いやすい形になります。最後には、何か月、場合によっては何年にもわたる思考を要約した30ページの論文が最終成果物になるのです。
ですから、そういうことが起きると思います。
科学加速とCodexの実感
週末に、あなたたちから見ればとても笑ってしまうような問題に取り組んでいました。LLMを使ってそれをやろうとしていて、とても小さなLLMに途中で数学をさせる方法を考えていました。途中でベンチマークが必要になりました。
そこで、小さなLLM向けのベンチマークであるEasy Mathに出会いました。それについての論文はあったのですが、データはそれほど多くありませんでした。
そこでCodexに、ここで自分用のベンチマークを作って、このデータを生成してくれないか、と頼みました。5分後にはできていました。
それは私にとって魔法のようでした。私はツールを作っている最中で、本来なら突然、数時間かけて、ジェネレーターを書き、そのようなものを作る必要があったからです。
まったくその通りです。それはバックグラウンドで動きます。あなたたちが大人向けの問題に取り組むとき、それがどんなものなのか想像もつきません。
はい。あなたが説明していることは、私たちがGPT-5による科学加速の初期実験というタイトルの論文を発表したときに、まさに目指していたものです。
あなたが体験したのは、文字通りの加速です。以前なら、おそらく数日分の作業が必要だったかもしれないことです。
私は諦めていたでしょうね。
そうです。それは実際に素晴らしい点です。私は諦めていた、ということです。
これはあらゆる場所の科学者を本当に可能にします。たとえば数学者がコードを使えるようになります。私たちの友人の多くは、コードを書きません。今では突然Codexがあります。
以前なら、かわいそうな大学院生を見つけて実験をさせようとしていたような実験を、今では非常に簡単にすべて行えます。
その反対側として、当然、あらゆる分野の科学者がChatGPTのおかげで、より高度な数学も使えるようになります。
Bob Metcalfと一緒に座って、Codexを使ってRを扱う方法を見せたことがあります。彼はあるプロジェクトに取り組んでいて、Rは彼にとって新しいものでした。それを学びたいと思っていました。
優れた頭脳を持つ人に、これを理解するために長い時間を費やす代わりに、あなたのためのツールがありますよ、と示すのは、なかなか楽しい経験でした。
ただし、先ほど少し触れたように、ここで人間の役割について話すべきですね。このすべてにおいて、人間の居場所はどこにあるのでしょうか。
特に未来について少し考え始めるときです。私は未来予測をするのはあまり好きではありません。説明するほうが好きです。
でも何が起きると思いますか。
私には、心が告げることと、理性的な面があります。頭で考えるとこうです。この4年間、進歩は非常に一貫して起きてきました。数秒かかる数学問題を解けるところから、数分、数時間、数日へ進んできました。
これを見た人なら誰でも、1年後には数週間考えられるシステムがあるだろう、2年後には数年考えられるシステムがあるだろう、と言う理由があります。
それだけではありません。すでに今日、私たちのモデルは、人間を本当に上回れることが分かっています。論文の誤りを見つけられるという意味です。
私たちの内部には、論文を見つけて、実はこれは間違っています。正しい答えはこちらです、と言えるシステムやエージェントがありました。
それだけではありません。人々はAIが質問に答えることだけ得意だと考えがちです。しかし実際には、質問をすることもかなり得意です。
もちろん、そこにはやはり研究上のイノベーションが必要です。私たちはそれを持っていました。そして今、私たちのモデルは質問をするのが非常に上手です。あまりにも上手なので、人間がその質問を見て、これはこの質問をもとに論文を書くべきかもしれない、と言うほどです。
これは本当に、すでに今起きています。
私が言いたいのは、1年後、2年後には、モデルは基本的に人間の研究者が行うことのほぼすべてをできるようになるかもしれない、ということです。
ではその先はどうなるのでしょうか。人間の役割は何でしょうか。
そもそも私たちはなぜ科学をしているのでしょうか。何が目的なのでしょうか。問題を解くこと自体の楽しみのためだけに問題を解くことが目的であってはならないと思います。
私たちは何かを理解しようとしているから問題を解くのです。理解という要素が重要です。
論文を書くために問題を解いているわけではありません。隣人より10倍多く論文を書けると言うためではありません。それが目的ではありません。そういうものが好きなら、競技チェスをすればいいのです。
私たちは本当に、より深いものを理解しようとしています。そして、なぜより深いものを理解しようとしているのか。それは自分たちの環境をよりよく制御したいからです。病気を治せるようになりたい。より良く、より速く、より頑丈で、より堅牢なものを作れるようになりたい。そうしたすべてのことです。
ですから、人間が制御を保ち、重要な問題が何かを導く限り、こうしたツールを使って非常に明るい未来を見ている可能性があると思います。
AIは病気を治すことに関心を持ちません。つまり、AIは私たちと同じ病気に苦しむわけではありません。しかし私たちは関心を持っています。だから私たちはAIを制御し、それらの問題へ導かなければなりません。
コンピューター登場時との類似と数学の未来
最初のコンピューターが登場した時代、コンピューターが数学をする人から実際にそれを行う機械へと変わったとき、数学から物理へ移らなければならないのではないかと考えた人もいました。難しい問題はそちらに行くことになり、数学にはもう難しい問題がなくなる、なぜならコンピューターがそれを解くからだ、という考えです。
それは1940年代から1950年代のことでした。しかし実際にはそうではありませんでした。計算はまったく新しい分野を開きました。
これからも同じことが続くでしょう。今日高校生の数学者は、ここで起きていることのおかげで、30年後に非常に刺激的な未来を持つことになると思います。
数学はものすごく楽しくなると思います。
数学者は問題を解くことを楽しみます。ただ、AI以前は、ひとつの問題を解くために何か月も考えることがありました。それには楽しみもありますが、かなり過酷です。
それは苦痛ですね。
苦痛もあります。多くの苦痛があります。そして実際に解を見つけたときには、大きなドーパミンの高まりがあります。
それが加速されるでしょう。つまり、より多くの解、より多くの楽しみです。
さらに、数学はずっと豊かなものになると思います。なぜなら、はるかに相互につながるようになるからです。
研究レベルでは、多くの数学は極度にニッチです。論文を書くとき、今この世界に、この論文に関心を持つ生きている人間は5人しかいないと分かっています。
しかしあなたはその結果が好きなので、それを世に出します。そして他の5人が評価してくれるので、それを読みます。
しかし20年後には、それはどこかのアーカイブに入り、誰も読まないでしょう。
ところが今はAIがあります。AIはそれを読んでいるでしょう。そしてSebastianが言ったように、有用な接続があれば、それを浮かび上がらせます。
そして100年後の人々がそれを発見し、使いたいことに使うでしょう。
ですから今なら、自分の結果がただ世に出されるだけでも、将来使い道があれば使われるだろうという確信を、ずっと強く持てます。
また、私は今、数学にずっと広い形でアクセスできるようになっています。私が学んだことのない分野があります。しかし、ある結果が出てきた場合、その特定の結果を自分の研究に使うには、その分野を学ぶ必要はやはりあります。
しかしAIの助けがなければ、その結果を見つける方法はありませんでした。今ではそれがアクセス可能です。モデルが、これを使えばあなたの問題を解けますよ、と教えてくれます。すると、分かりました、それを使ってみます、となります。
ですから数学は、はるかに相互接続された営みになるでしょう。
さらに、数学の正しさを検証することは、実はかなり難しいことです。たとえば誰かが書いた300ページの証明があるとします。それが非常に重要な問題を解いたと主張しています。そしてその人は非常に信頼できる人物です。表面上、その論文はもっともらしく見えます。
どうやって分かるのでしょうか。これは検証に何年もかかるプロセスです。そして1人が読むだけでは不十分です。多くの人がそれを読み、拡張しようとし、細部を調べる必要があります。
これは何年もかかるプロセスです。そして時には、致命的に誤った証明が出版されることもあります。これも非常に遅いプロセスです。分野が最初はある結果を受け入れますが、後になってそれが救済不能であることを発見するのです。すると、それを取り除く必要があります。
これはAIによって、はるかに加速されるでしょう。
現時点で、私たちのChatGPTやAIモデルは数学の検証において完璧ではありません。しかし非常に優れています。そして、人間よりもはるかに忍耐強いのです。
その通りです。
実際のところ、出版された数学の非常に多くには小さな誤りがあり、その多くには大きな誤りもあります。私たちはそれを知っています。なぜなら、私たちのモデルでそうしたものをテストしているからです。
しかし今後のより豊かな数学の未来では、AIによる検証を通じて、どの結果が正しく、どの結果が誤っているのかについて、はるかに高い確実性を持てるようになると思います。
そして、それに対するフィードバックもずっと速く得られるでしょう。1週間前に発表された論文について、検証を得ることができるかもしれません。
そうすれば、その正しさを本当に確認するために5年待つのではなく、それを信頼して、その上に構築できるようになります。
全体として、数学はずっと楽しくなるでしょう。はるかに相互接続されるでしょう。結果をより信頼できるようになります。より速く前進できるようになります。そして数学者たちは、より難しく、より面白い問題を解くようになるでしょう。
AIに鍵を渡しすぎる危険
ひとつ付け加えたいことがあります。今言ったことには全面的に同意します。とても楽しくなるでしょう。
ただ、現在の進歩における潜在的な危険も見ておきたいと思います。それは、私たちが城の鍵をAIに渡してしまうことです。そして人間がシステムをより強く信頼し始め、自分たちのスキルを自分のものにするために行ってきたような厳しい作業をしなくなることです。
つまり、検証する能力や、何時間も、何日も、何週間も続けて忍耐強く座り、ある結果を深く理解しようとする力を身につける努力をしなくなることです。
その代わりに、ただChatGPTにもっと簡単な言葉で説明してもらうようになる。
基本的に私は、ツールに頼りすぎることで、物事への理解が浅くなる可能性を心配しています。
ですから、聴衆の皆さん、私たちの話を聞いているすべての人に理解してほしいのは、専門性はこれまで以上に価値があるということです。
私たちがChatGPTからこうした結果を引き出せる理由は、長年の訓練と、その主題に対する深い理解があるからです。それがなければ、最先端を押し進めることはできません。
実際、それは見えています。非数学者が突然、新しい結果を証明できるようになった例が何千も見られているわけではありません。
むしろ最近、ソーシャルメディアでは、非数学者がこうしたツールを使って定理を証明しようとし、何十ページもの証明を作り出したものの、結局それが誤りだったという例が見られています。
ですから、これは私たちが取り組まなければならない危険です。
それは多くのことにおける問題になりそうですね。現在のモデルを使って、自分が聞きたいことを補強してしまう人々がいます。そしてそれは、ある種危ういことになり得ます。何らかの統一理論を思いつくぞ、というような。でも、それはずっと難しいことになるでしょう。
はい。この種の精神的な萎縮とでも呼べる問題は、コーディングでも非常に顕著だと思います。
私はコンピューターサイエンス専攻ではありませんでしたが、いくつかコンピューターサイエンスの授業を取り、自分でもコードを書きました。デバッガと格闘しました。私の年齢の多くの人はそうしていました。
しかし最近では、大学のカリキュラムで必ずしもそれをする必要がありません。私はそれが非常に危険だと思います。
科学分野の人々の中には、この進歩を見て非常に楽観的になり、もう科学者は必要なくなる、これももう必要ない、という人もいます。
違います。いや、違います。
これはひどいですね。聞いている皆さんに本当に確認しておきたいのですが、どうかそんなことは言わないでください。私たちに必要なのは、その反対です。
私たちはこれまで以上に多くの科学者を必要としています。そうした科学者たちは、より生産的になり、より強力になります。より良いことを成し遂げるでしょう。
しかし、彼らには自分の技術に本当に優れていてもらう必要があります。
そしてここで、もちろんOpenAIがすべてを行うことはできません。これははっきり言っておきます。ここでは既存の制度が非常に大きな役割を果たします。
学術界は、進歩の速度と、それがどれほど速く進んでいるのかを理解すると同時に、そのプロセスにおける自らの役割を取り戻す必要があります。
私の期待と希望としては、科学に進む人が増えると思います。人生の後の段階で、これに入りたいと決めたとしても、真剣に取り組めば追いつきやすくなります。世界最高の家庭教師がいるからです。
OpenAIはChatGPTに、視覚的な説明ツールを追加しました。物事を説明するのを助けてくれるものです。
AIモデルが突然、あるベンチマークで完全に上限まで到達できるようになったからといって、よし、終わった、小学校の算数は解決した、皆さんおめでとう、AIは完成です、となるわけではありません。
そうではなく、次のレベルがあり、その次のレベルがあります。そして人間が必要になるのです。
いいえ、それは助けになると思います。若い世代が科学で早く追いつくことを、はるかに助けるのは確かです。
もし私が10代のころにChatGPTを持っていたらと想像すると、本当に信じられません。Maxwell方程式を見て、これは本当は何を意味しているのだろう、どうやってこんなものを思いついたのだろう、と思っていたのを覚えています。
今ならただ尋ねれば、非常に美しく説明してくれます。これは大きなことです。ただし、その上で厳しい努力はやはり必要です。
AI時代の検証と責任
とはいえ、自分が何をしているか分からず、正しい学術的確認もしていない人たちが、より多く数学的証明を作ろうとするようになるでしょう。コードリポジトリなどでも、本当の修正ではない修正を人々が投稿するような領域がありました。
これはどう解決するのでしょうか。もし私が今、数学やジャーナルに関わっている人間なら、少し怖いです。
Ernestが言ったように、AIはその点でも役立つと思います。そうしたシステムの反対側に、AIエージェントを置き、あらゆるものを調べ、可能な限り検証しようとすることができます。
繰り返しますが、AIを完全に信頼して論文を検証し、受理する、あるいはコメントを受け入れるようにはしたくありません。
しかしAIエージェントに、具体的な潜在的問題を示させることはできます。つまり、前面に出してくれるのです。ここは完全には確信が持てないかもしれません、というように。
それにより、人間が検証しなければならないものを減らす助けになります。基本的に、人間の負担を減らすのです。
また、数学やコードにおける社会構造も少し変わる必要があると思います。コミットを行う人間、あるいはエージェントを制御する人間が責任を負う形です。
数学にはすでに、誤った証明を出せば自分の評判を傷つける、という文化があります。自分の名前で論文を出すとき、自分の評判を賭けているのです。
それは維持されるべきで、むしろもっと必要だと思います。
数学に興味がある人がこれを見たり聞いたりしていて、数学に関心はあるけれど、自分は数学の人間ではないと感じていた場合、でも少し始めてみたいと思っている場合、何と伝えますか。
ChatGPTと話してみてください。
学びたいと思っているなら、それはとても役に立ちます。研究レベルでさえ、新しい概念を学ぶ必要があるとき、私は習慣的にWikipediaに行っていました。しかし非常に密度が高いのです。30秒ほどで、分かった、ChatGPTに聞こう、となります。
そして尋ねます。さらにフォローアップの質問もします。そうすると、私に欠けている知識の部分に合わせた、はるかに役立つ情報を与えてくれます。なぜなら、私がその部分に合わせて質問しているからです。
ChatGPTに自分の数学的背景、読んだ本、学んだ教材を説明し、その専門レベルで理解でき、なおかつ未解決であるような問いを考えてほしいと頼むことも想像できます。
Sebastianも触れていましたが、LLMが良い問いを出せるということを、人々はまだ十分に理解していないと思います。しかし私は、それができると思っています。
数学について話し合い、問いについて話し合える伴走者がいるのです。モデルに解く手助けを求めることもできます。そして解が得られたら、話し続けて次の問いを考えたり、その変形を考えたりできます。
自分の部屋に一人でいることに変わりはなくても、はるかに孤独ではないプロセスに感じられるようになります。そしてそれこそが、数学を本当に楽しいものにします。
数学は、本当に社会的な営みだと思います。
おもちゃのような問題から始めるのも楽しいと思います。私は人々に、あなたの浴槽にM&M’sは何個入るでしょうか、というところから始められますよ、と言います。ばかばかしく聞こえます。
でもそこから問い始めるのです。では、あなたは昨年何語読んだでしょうか。それをどうやって求めますか。
すると、本当に素晴らしい会話が始まり、こうした問いを立て始められます。気づけば、どんどん複雑な数学を行うようになり、それが自分にどう関係するのかを理解し始めます。
お二人とも、素晴らしいお話でした。Sebastian、Ernest、ありがとうございました。
ありがとうございました。
お招きいただきありがとうございました。


コメント