
7,138 文字

皆さん、こんばんは。今夜は非常に短い配信になります。月曜の朝までに仕事が残っているため、長くはいられませんが、今夜OpenAIの最強モデルであるo1 Proでテストを行ったことをお知らせしたいと思います。2024年のパトナム数学試験を受験させました。パトナム試験についてご存じない方のために説明すると、これは毎年12月頃に行われる数学コンペティションで、おそらく世界で最も難しい大学生向けの数学試験です。ほとんどの受験者は1点も取れないと思います。6時間の試験で、2日間に分けて各3時間、1日6問ずつ合計12問、各問10点満点の試験です。
満点は120点です。最高得点は90点台くらいだと思います。時間が限られているので全てを説明する余裕はありませんが、私のツイートとチャットの内容を記録したGoogleドキュメントがあります。ただしB2の問題は図表があるため除きます。B2を見てみると…はい、これが図表です。この問題は共有できません。実際の試験問題から取った図表が含まれているためです。実はこの問題は間違えた問題の1つです。とにかく、簡単にお話ししたいと思います。
近日中か数週間以内に、より詳細な分析の動画を作成する予定です。実際の受験者との比較を見てみたいからです。パトナムのアーカイブを見ても、2024年の受賞者と得点はまだ発表されていないので、実際の人間と比較した成績は分かりません。2023年を見ると、最高得点は98点くらいでした。2022年は101点、2021年は119点…これはかなり高得点ですね。このように続きます。正確な位置付けは難しいですが、問題と解答を見た限り、8問正解で、1問は採点が難しく、3問は明らかに間違っていました。1問は確実に間違いで、「はい」と答えた問題に対して、解答では明確に「いいえ」となっていました。
マエストロさんが「なぜ共有できないのか」と聞いていますが、システム上の制限で共有できないんです。共有しようとすると「ユーザーがアップロードした画像を含む会話の共有は現在サポートされていません」というメッセージが出ます。そのため、この問題だけは共有できません。ただし、それ以外の問題には画像が含まれていないので共有可能です。これが過去数時間の私の取り組みです。
興味深いことに、全問題に費やした合計時間を見ると、思考時間は1時間強しかありません。通常の受験者は2日間で6時間、つまり3時間×2日かけて解答します。1問あたりの平均時間は約5分です。これはかなり興味深い結果です。実際、この2問については10分前後かかったことに驚きました。今参加された方のために説明すると、OpenAI o1 Proモデルにパトナム試験を受験させました。
これは先週、12月7日に実施された試験です。リリース後の試験なので、学習データには含まれていないはずです。断言はできませんが、その可能性は極めて高いと思います。「スクリーンショットを共有できる」というコメントがありますね。その1問のことですか?ここに図表を載せておきましょう。とにかく、私の理解では全体的に良い成績を収めました。実際のチャットを見てみましょう。解答と並べて簡単に確認してみましょう。
全部を詳しく見る時間はありませんが、できる限り見せてみます。正直に言うと、解答に書かれている答えと一致していれば、ほぼ満点を与えました。細かいチェックはしていませんが、単に答えを知っているだけでなく、実際に何かを見つけ出さなければならない問題であることは確認しました。例えばこの問題では、答えはn=1で、その答えを出すために数学的な計算を行っています。他にa2を見てみると…これは正解でしょうか?
これらの問題は単に答えが与えられているのではなく、実際に作業をして答えにたどり着く必要があります。最終的に答えにたどり着いたので、正解と判断しました。ここでの論理はほぼ正しいと思いますが、Googleドキュメントで確認して、間違いがあれば指摘してくださって構いません。基本的に、私の採点基準は以下の通りです。例えば「決定せよ」とか「このような多項式が存在するか」といった問題は、答えが明示されておらず、実際に数学的な作業を通じて答えを導き出す必要があります。
これらの問題の解き方は私には全く分かりませんが、解答と答えを見て、特に答えが明示されていない問題については、十分な作業を行って答えを導き出したと判断できる場合に正解としました。間違えた問題については、B2のような幾何学的な問題で、失敗したのはそれほど驚きではありません。B2は非常に幾何学的な問題で、図表があります。o1 Proにその図表を与えましたが、B2の答えを見ると面白いですね。B2の答えは「いいえ、そのような数列は存在しない」でした。しかしo1 Proは「はい、そのような数列を作ることは可能です」と答えました。これは明らかに間違った答えだと確信を持って判断できました。より詳細なチェックをしたい方は、ぜひお願いします。
これらの時間についての統計をもっと取りたいと思います。実際の人間とどのように比較されるのか、これらの時間は本当に驚くべきものでした。長時間かかった問題でさえ、人間が使う時間よりもはるかに短いです。12問で6時間という試験では1問あたり30分ほどですが、このAIは1問あたり2分から最大でも12分程度しかかかっていません。すべての問題を順番に解いた中で、おそらくどの人間よりも速く試験を終えたと言えるでしょう。それに賭けてもいいくらいです。
今夜は仕事に戻らなければならないので、これくらいにしておきますが、今後数日か1週間ほどで人間の受験者の結果が出たら、どの位置に入ったのか非常に興味深いです。また、問題の分布も見てみたいと思います。間違えた問題からかなり多くのことが学べると思います。思い出せる限りでは、a3は間違えた問題の1つです。a3は何かを証明する問題だったと思います。ここにa3がありますね。「aとcは存在するか…」という分数の問題です。
実は、この問題の答えは信じられないかもしれませんが、a/b=2/1、c/d=1/2です。しかしチャットを見ると「そのようなペアが存在するかどうかは現在知られていない」と結論付けています。これらの計算が何を意味するのか本当には分からないので詳しく説明できませんが、答えが分からないと言っているのが面白いですね。既に述べた通り、もう1つ間違えた問題は幾何学の問題で、答えは「いいえ」なのに「はい」と答えました。そしてもう1つ間違えた問題はB5です。B5の内容を正確に覚えていません。
B5は「FMが負の係数で表現できることを示せ」という問題でした。正直に言うと、これが完全に間違っているかどうかは分かりません。答えが公式の解答と全く異なっていたので、自動的に間違いとは言えないかもしれませんが、公式解答のどのステップとも一致していないように見えました。ここでは見ることができません。これらのステップのどれとも一致していないようで、正しいかどうかの判断が難しかったです。「分かっていない」という意味の「不明」ということですね。B5は、このような競技に長けている方々に見ていただきたい問題です。その答えを見ても、私にはつながりが見えなかったからです。
ちょっと待ってください、似たようなことをしているようにも見えますね。はい、誰かに確認してもらう必要がありそうです。解答で提供されているものとは異なる表記を使用しているようです。次の動画では、私だけでなく、他の推論モデルにもこれらの問題を採点してもらい、より良い最終スコアを出せるかもしれません。しかし、今はそれができません。そしてこの問題については全く分かりません。b3だと思いますが、b3は証明問題です。ご存じの通り、証明問題は答えが与えられていて、それを示す必要があります。b3については、解答の始め方と非常によく似ていたという点では評価できます。この関数を定義しているからです。それが実際に問題の一部だったかどうかも分かりません。ちょっと待ってください。
b3、そうですね。はい、その証明がどれほど上手く構築されていたか分かりません。以上が今のところ言えることです。非常に短い配信になってしまいましたが、今夜は仕事に戻らなければなりません。将来的にはより詳細な分析と人間の結果との比較を含む動画を作成する予定なので、その点に注目していてください。「各ステップを理由付けして検証するように言ってみましたか」という質問については、やっていません。
良いアイデアですが、私は試験問題をそのまま与えただけです。一貫性を保つため、各問題についてパトナムのアーカイブにあるTeXファイルから問題文をそのまま取り出してプロンプトウィンドウに貼り付けました。それをゼロショットで試してみた結果です。将来的にはより詳細な分析ができますが、今回はゼロショットの結果を見たかったのです。そのゼロショットの結果は上位1-2%くらいの成績のように見えます。これはかなり素晴らしいと思います。
ただし、私の投稿を読んでいただければ分かりますが、これをどう感じるべきかまだ確信が持てません。一方では印象的であるべきだと思いますが、o1 Previewの方が私をより驚かせたと思います。o1 Proが明らかにo1 Previewより優れていると思うにもかかわらず、ChatGPT-4からo1 Previewへの性能向上ほどには劇的な飛躍を感じません。私の期待値が高くなりすぎているのか、完全に衝撃を受けるようなことを期待しているのかもしれません。それらが私の期待通りの結果を出すだけで、ある意味がっかりしてしまうような感じです。
「噂されているように、進歩の壁に当たったと思いますか?」正直なところ、分かりません。訓練や事前訓練、これらのシステムの規模に何が必要なのか、十分に理解していません。データの問題、つまりこれらのシステムを訓練できるデータ量や新しいデータの量に対する制限に直面していることは知っています。そのため、合成データが今後の方向性として考えられています。合成データの問題に非常に興味を持っています。
しかし、彼らが直面している壁について、その信憑性についてはあまり分かりません。現在の到達点までしか進めないという既知の自然法則があるわけではありません。あるいは、これらのモデルの進歩には最大限があるという未発見の法則が存在するのかもしれません。でも、それは不明確です。「彼らは私たちの最も難しい問題だけを正しく解いている」というコメントがありますね。そう、それが一番面白い部分です。私にはできないことをやってのけているんです。もし1年くらいこの試験のために一生懸命勉強したり、この試験に合格するために必要な学習に焦点を当てれば、良い点数を取れるかもしれません。
しかし、通常人間には6倍の時間が与えられる12問の試験を、わずか1時間3分21秒で解き、それでも上位1-2%の成績を収めているという事実は、私たちはそのことを考慮に入れるべきだと思います。しかし奇妙なのは、これができるのは素晴らしいことですが、他のことについては信頼できるかどうか分からないということです。これらの複雑な数学の問題は信頼できますが、おそらく噂のエージェントがまだ導入されていないため、このエージェントを見たり、エージェントに何かをさせたりすることにまだ懐疑的です。
2025年にエージェントが到来したら、私の考えは完全に変わるかもしれませんし、この発言を撤回することになるかもしれません。しかし、他のことについては完全には信頼できません。それは理にかなっていますか?大学や大学院レベルの数学や物理の問題を、そのレベルの平均的な人よりも上手く解けるかもしれませんが、o1 Proモデルに自動運転車を運転させることは信頼できないと思います。他に信頼できないことを考えてみると、これが重要な例の1つですね。この種の機械に車両を操作させることは信頼できないと思います。
「Machine of Loving Graceを読めますか?」申し訳ありません、フォーマットを変更しました。「An Anthropicを読めますか?」私は現時点で完全に信頼しています。エンターの最善の推測、つまり、彼は推測ですが、2026年くらいと言っていて、私には分かりません。「Waymoについて聞いたことはありますか?週に10万回以上の乗車があります」はい、ユーロさん、私はサンフランシスコに住んでいるわけではありませんが、近くに住んでいます。実際にサンフランシスコのSouth of Market地域でWaymoの駐車場を見つけました。そこには大量のWaymo車両が駐車されていました。でも、Waymoはo1 Proを使用しているのでしょうか?分かりますよね?
私が言いたいのは、このような特定のモデルについては、まだ確信が持てないということです。これらの言語モデルが、ツールがない場合に皮肉っぽい性質を持つために、数学的に見て致命的なエラーとなるような特定の間違いを犯すのを見てきました。私はそれを使用しませんが、より決定論的なものをコントロールできるのであれば、それは問題ないと思います。例えば、計算機やWolfram Alphaのようなものをコントロールする場合です。その場合は、思考の連鎖だけで計算を行う場合と比べて、より安心できます。「多くの教授がまだAIの使用に抵抗を示していますが、教育や研究において不可欠になってきています」はい、アカデミアでAIに対する抵抗が多いのは残念だと思います。
私の以前の同僚の多くもツールの採用に躊躇し、その効果や有用性に疑問を持っていることを知っています。「防衛システムを制御していますよ」はい、分かっています。私たちは自分たちが思っている以上にAIシステムにコントロールされているのかもしれません。それは少し恐ろしいことかもしれません。おそらく、考えすぎてストレスがたまりすぎないように、私の脳のその部分をオフにしてしまったのでしょう。「Googleの新しい量子チップと、それが平行宇宙を確認したという噂についてどう思いますか?」平行宇宙の議論についてはよく分かりません。私は量子力学の多世界解釈を信じる傾向にありますが、これについて哲学的に深い見解を持っているわけではないので、どちらかを主張することはできません。
Willowが達成したことは素晴らしいと思います。量子ビットのサイズに関してエラーを減らすことができたのは非常に印象的です。しかし、材料科学や化学、生物学などの分野で実用的な計算を行うのに非常に有用な量子チップを作るには、まだ数桁のオーダーの差があると思います。ランダム回路サンプリングで行った計算は、このベンチマークを達成できたことは印象的ですが、それは実用的な応用がないベンチマークに過ぎません。実用的な応用がなくても印象的であることはできますが、過度にハイプされすぎないようにしたいと思います。
「テレンス・タオはAIを受け入れているようですね。数学でのAI活用について多くの講演をしています」はい、実際に最近OpenAIで講演をしたと思います。1時間ほどの講演を見たかったのですが、時間がなくて見られませんでした。彼がo1とo1 Proについてどう考えているのか、意見を知りたいですね。きっと投稿していると思いますが、まだ見る時間がありませんでした。「多世界について完全に確信を持っているカイルが別の世界にいるのは良いことですよね?」もし多世界が存在するなら、確かにいるはずです。実際、私は標準的なコペンハーゲン解釈よりも多世界解釈を採用する傾向にあります。
標準的なコペンハーゲン解釈には何か好きになれない部分があります。とはいえ、計算の観点からは基本的に同じ答えが得られます。さて、今夜はこれくらいにしましょう。24分ほど経ちましたが、今夜の小さなプロジェクトを皆さんと共有できて良かったです。人間の受験者の結果が出たら、また revisit したいと思います。ぜひ見てみてください。次回お会いしましょう。時が来たらこの話題に戻ります。最後の質問に答えます:「今後10年の量子コンピューティングについてどう思いますか?」
正直なところ分かりません。もし今後2-3年でAGIが実現すれば、これらの技術が相互にポジティブなフィードバックループとして機能するかもしれません。より強力なAIが登場すれば、量子コンピューティングをより効率的で安価で実用的にする方法を見つけ出すでしょう。そしてそれは良いポイントだと思います。より実用的になれば、より多くの計算が可能になります。実際、「Convergence: Quantum Computing and AI」という本をお勧めします。私のチャンネルでこの本について動画を作りました。量子コンピューティングとAIの交差点に興味がある方は、この本を読んでみることをお勧めします。私も読んで動画を作りました。とても興味深い本です。さて、今夜はこれまでです。あまり気が進まない論文の執筆に戻らなければなりません。またお会いしましょう。皆さん、どこにいらっしゃるにしても、良い夜をお過ごしください。


コメント