推論型LLMが私の最も嫌いな物理学の問題を解決する様子

3,176 文字

Reasoning LLMs DESTROY my Most Hated Physics Problem

I was remembering my old nemesis from undergraduate physics, Problem 2.26 from Griffiths Electrodynamics. I wanted to se...

アイスクリームを食べていたとき、このコーンを見て思い出したことがあります。それはグリフィスの電磁気学の教科書にある問題で、帯電した円錐の底部と頂点の間の電位差を計算するものでした。数年前に私のYouTubeチャンネルでこの問題について動画を作りました。この問題はかなり難しかったのですが、答えはインターネット上にあるので、LLMにこの質問をそのまま出すことはできません。そこで、この問題を少し修正することにしました。円錐を使った問題ですが、推論型LLMが私の修正した円錐問題を解けるかどうか確かめてみたいと思います。
私が決めたのは、電位差ではなく重力ポテンシャル差に変更することです。物理学に詳しい学生なら、これが問題をそれほど変えるものではないことを知っているでしょう。二つの式の違いは係数の違いだけで、ポテンシャル差を計算するために使う積分や計算過程は同じです。ポテンシャル理論に基づいているので、アプローチはほぼ同じです。
実際、私が行った作業の画像を二つ添付しますが、これは自分でもう一度問題を解いて思い出すためのものです。重力バージョンでも解いたので、答えを手元に持っています。もし私がこの問題を完全に間違って解いていた場合のために、Mathematicaでも計算してみました。これが最終的に得られるべき式です。
ChatbotのArenaも稼働中なので、時間を無駄にせず、まずはGPT-3 mini highに直接入力してみましょう。その推論を見てみましょう。
「重力ポテンシャル差を計算する方法を考える必要があります。円錐は中空で、つまり均一な質量密度を持つ薄い円錐殻で、体積はなく質量があります。頂点は原点に固定され、底面は垂直軸上に中心を持つ円です…」
おや、もう推論が終わったのが早いですね。ちょっと待ってください。本当に早かったですね。
ここで答えを出していますが、正しいか確認しましょう。「2πGσr」と書いてありますね。私の方でこれを書き直してみます。2πGσrとπσGrを足して、σπGrを引きます。引いた場合、反転させる必要があるので、log2+1-log2-1となります。でも、ここには1/2が必要なはずです。そうすると、1-log2の1/2+1-log2-1となり、このGPTの項は0.881374になるはずです。
これは私の答えと同じです。GPTが書いたのは2+1と2-1で、私の項も同じになります。つまり、GPTの答えは私の答えと数値的に一致しています。これは電位差ではなく重力ポテンシャル差ですが。信じられませんが、GPTはたった30秒で考えて解答しました。すごい！
電位に関する問題はグリフィスの教科書に載っていて一般的に入手可能なので、トレーニングデータに含まれていた可能性がありますが、その問題を重力ポテンシャル差に変換できたことに感心しました。
Chatbot Arenaではどうでしょうか。Claude 3.7も正解しています。同じ答えですね。
DeepSeekを試してみましょう。苦戦するでしょうか、それとも解けるでしょうか。思考モードを見るのが好きなので、その過程を見てみましょう。
セットアップは正しいですね。パラメータ化を行っていますが、私はしませんでした。同等の方法です。何をしているのでしょう？タンジェントベクトルのようなものを計算しているようです。表面をパラメータ化して、いろいろな計算をしています。これは完全に正当なアプローチで、この問題を解くには複数の方法がありますが、私とは異なる興味深い新しいアプローチです。
ここで、QWQ32BとGemini Pro 2.0実験版の結果を見ましょう。おや、Geminiの答えは完全に間違っています。Qwen Maxは正解しました。素晴らしい！Geminiは正解できませんでした。残念ですね。
DeepSeek R1もまだ考えているようです。おや、これは…実は私もどこかでこのような答えを見たことがあります。「log3+2√2」ですね。
今のところ、GPT-3 mini highとLLM ArenaのClaude Sonnet 3.7が正解しています。3+2√2を数値的に計算すると…正解です。確認したかっただけです。2-log3+√2も同じですね。わかりました。
これらのLLMは毎日新しいことを教えてくれます。DeepSeekは280秒、つまり4分40秒考えましたが、GPTは30秒で答えを出しました。
最後に、Sonnet Extendedの実際のインターフェースでも試してみましょう。しかし、Gemini 2.0 Proは思考モデルではないようです。申し訳ありません。Geminiにとっては残念ですね。
これは正しいアプローチで、正しい公式です。予想通り、電気ポテンシャルの例として先に述べたこの問題がグリフィスの教科書に載っているため、そのトレーニングデータベースに含まれている可能性が高いです。この積分形式はそれに知られているはずですが、概念をマッピングし、電気から重力へと領域を切り替えながらも、正しいプロセスを実行できるのは興味深いです。
「したがって、積分はこれです。結果は…」最終的な答えは正しいでしょうか？「log√2+√3」がありますね。確認しましょう。そうです、ポテンシャル差はおよそこれです。2-…はい、それが答えです。
待ってください、まだ続いています。正解を出したのに、もう一度プロセスを確認しているようです。同じ数値になりますね。Claude 3.7 Extendedはとても賢いですね。そして確かに同じ答えを出しています。2√2+3を確認してみましょう…元の方法で計算すると…はい、これが正解です。
これで今夜の好奇心は満たされました。数時間前に紙の上でこの問題を解いて「こういう問題をもう一度解くのは楽しいな」と思っていました。私自身がまだ解けることを知って嬉しいですし、LLMも解けることがわかりました。
これについてどう思うかというと、これらのLLMがこういった問題を解けることの意味は何なのでしょうか。彼らは本当に物理学を理解しているのでしょうか？物事を論理的に一歩ずつ追って正解にたどり着くことはできても、もし間違っていることを正しいと納得させようとしたらどうなるのか、あるいはその逆はどうなのか。このようなテストはそういった疑問を抱かせます。
私にできることは、自分自身に対してLLMがどう機能するかを評価することだけです。このような質問をすると、おそらく私よりもより良い仕事をします。彼らは非常に徹底的で、私よりずっと速く計算でき、非常に慎重に3分もの間思考過程を経て、正しいかどうかを確認するためのさまざまなチェックを行います。
何かを理解しているということをどう説明するのか、知性をどう定義するのか、私たちは本当に物理学を理解しているのか。LLMも私たちに同じことを尋ねることができるでしょう。私自身が何かを理解するということの意味を問い直させられます。紙の上に書き表したこれらの表現、この円錐問題の物理学を「理解する」ということは、本当に理解しているということなのでしょうか。
これは本当に深い問題です。残念ながら就寝前なので答えはありませんが、いつものように突然の配信に立ち寄ってくれてありがとうございます。この古い問題を見直すという考えが突然浮かんで、LLMがどのようにしてそれを解くかを見てみたいと思い、期待を裏切られることはありませんでした。Geminiを除いて（Geminiは思考モデルではないので）ほとんどが解けました。
皆さん、立ち寄ってくれてありがとうございます。次の配信でお会いしましょう。