Gemini Flash Thinking 2.0、o3-mini-high、そしてDeepSeek-R1が私のHumanity's Last Exam応募問題を解く

3,752 文字

Gemini Flash Thinking 2.0, o3-mini-high, and DeepSeek-R1 Solve My Humanity's Last Exam Entry Problem

Since my Humanity's Last Exam question did not get selected, I thought it might be fun to give the latest Gemini Flash T...

みなさん、今晩は。私が書いたHumanity’s Last Examに採用されなかった問題を3つの異なるAIモデルに解かせてみたいと思います。Humanity’s Last Examについてご存じない方のために説明すると、これはAIモデルのベンチマークとして使用する試験です。基本的に、多くの専門家たちがAIにとって難しいと思われる非常に難しい問題を書き、それを新進のAIモデルの知性をテストする方法として使用するというものです。
私もいくつかの問題を書きましたが、採用されませんでした。それはそれで構わないのですが、採用されなかった以上、それがどんな問題だったのかを公開することに躊躇する必要はないので、皆さんと共有できると思います。最新のAIモデルがこの特定の問題をどれだけうまく解けるか見てみましょう。
これは電磁気学の物理の問題で、レベル的にはグリフィスの電磁気学の教科書を使用する学部生程度を想定しています。つまり、物理学科の3年生か4年生、あるいはこの教科書を使用する授業を受講している学生が解けるレベルの問題です。おそらくHumanity’s Last Examにとっては少し簡単すぎたのかもしれません。
さて、この問題はポケモンに関するものです。問題文を読み上げましょう。「ポケモンのビリリダマは、非一様に帯電した球体としてモデル化でき、その電荷密度はこの式で与えられます。カントー地方のポケモン図鑑によると、ビリリダマの直径は1.2メートルで、攻撃を放出する際には最大約300キロクーロンの電荷を放出します。中心電荷密度ρ0は、最大電荷出力を総体積で割ることで近似できます。ビリリダマが座標系の原点に位置するとき、位置(x,y,z)に置かれた1キロクーロンの帯電点粒子が受ける力の大きさをテラニュートンで求めなさい。計算には真空の誘電率を使用してください。」
物理の全体像については、ビデオ全体を使ってしまう可能性があるので説明しませんが、本質的には、マクスウェル方程式の1つを使って電荷密度と電場を関連付けることを認識する必要があります。これはガウスの法則の微分形で、積分を実行してベクトルの大きさを求めるだけです。これが誰かがこの問題を解くことを期待される大まかな概要です。
私もMathematicaで計算を行いました。テラニュートンでの数学的計算結果は3です。これが私たちが全てのAIモデルに期待する最終答えです。
それでは早速、全てのモデルで実行を開始しましょう。テストする3つのモデルはこちらです。最新のo3-mini-high、最新のGemini Advanced 2.0 flash thinking experimental（多段階の推論に最も適しているとされています）、そして衝撃的なリリースとパフォーマンスでAI界を席巻したDeepSeek-R1をテストしてみましょう。
では、全てのモデルで開始してみましょう。わあ、これは本当に速いですね。答えが見えたようです。なんと、Gemini Advanceが何秒かで解いてしまいました。はい、ああ驚きです。Humanity’s Last Examには簡単すぎたようですね。誰か時間を計りましたか？どのくらい速かったのかわかりませんが、とにかく速すぎて。それは驚くべきことです。
o3-mini-highはどうでしょうか。26秒でできました。なんと素晴らしい。
DeepSeek-R1はまだ考え続けています。Chain of Thoughtを使用していますが、これから30秒くらいで答えが出ることを期待しましょう。繰り返しになりますが、答えは3です。
まだ待っています。かなり時間をかけて考えているようです。積分を複数の異なる積分に分割しているようですね。それは全く正当なアプローチです。他の2つのモデルは一度に行ったようで、少なくとも明示的には積分を分割しませんでしたが、実際にはそれは重要ではありません。
まだ時間がかかっています。1分半以上経過したように感じます。それほど長くは感じないかもしれませんが、o3-mini-highと2.0 flash thinking experimentalがそれぞれ30秒以内で解いたことを考えると、少し遅く感じます。しかし、もし正解にたどり着けば、DeepSeekが無料モデルであり、OpenAIの最高モデルと同等のように思えることを考えると、非常に印象的です。
おや、待ってください。計算の早い段階で、括弧内の項を簡略化した後、約このような値になりました。これはかなりの桁数の小数で計算しようとしています。ここで6乗から99乗までの計算をしているのを見てください。驚きです。
こんなに長くここにいることになるとは思っていませんでしたが、まだここにいます。これは少なくとも数分経過しています。正確な時間は計っていませんが、かなりの時間が経過したように感じます。
おお、見てください。3.06テラニュートンという答えに近づいているようです。少なくともChain of Thoughtでは答えにたどり着きました。ここで自分自身を否定しないことを願います。時々、Chain of Thoughtの早い段階で最終答えが見えることがあり、「もう考える必要はない、答えは出ているんだから、もう止めていい」と思うことがありますが、まだ最終答えに向かって進んでいます。
ここでも記号的に進めています。なぜそうしているのでしょうか。いくつかの近似を使用しており、時間がかかっています。そしてここでも正しい答え、3テラニュートンを得ました。ここで止めるべきですね。すでに上の方で見つけていたはずです。そうです、そこです。すでに2つの異なる方法で正しい答えを確認していますが、まだトークンを生成し続けています。
DeepSeekのアプローチは、時には完全に不必要かもしれませんが、非常に徹底的だと思います。モデルが最終答えを出す前に絶対に確信を持とうとすることは良いことですが、以前の計算では3.7でした。今度は計算してみると3.11テラニュートンになりました。それほど大きな違いではないと思いますが、このような問題ではそれほど重要ではない不一致を解決しようとしているようです。
「ああ、以前のQの計算は…別のアプローチを試してみましょう」おお、なんということでしょう。「計算をもう一度確認しましょう」驚きです。3テラニュートンを確認しようとするのは4回目か3回目だと思います。GeminiとO3-miniはただ「はい、3です。これが最終答えです」と言っただけなのに対し、DeepSeekは本当にトークンを生成し続け、テスト時のコンピューティングパワーを使って、これが正しいことを絶対に確信しようとしています。
「答えは約3.0テラニュートンです。問題では大きさを求めているので、適切な桁数に丸める必要があります。与えられたデータはこのような…」今や有効数字をチェックしています。「積分が気づかなかった方法で…」なんということでしょう。最終答えを出そうとしていたのに、「いや、待って、積分をやり直そう」と言っています。
本当にDeepSeekに考えさせています。この部分は少し混乱します。なぜこれを続ける必要があるのか少し混乱していますが、まあ、いいでしょう。「総電荷を確認しましょう。答えは約3.01です」なんということでしょう。「これをチェック、あれをチェック、これもチェック」と続けています。試験で十分な時間があれば、私もこのように複数回試みたかもしれませんが、残念ながらそれほど長い時間はありませんでした。
「ここに矛盾があるようです」他のモデルも私の問題で少し混乱したのかなと思います。「問題を分解し、理解し、半径を計算し、中心電荷密度、最大電荷出力を…」見てください、生成されたトークンの数の多さを。これだけの時間をかけて答えに確信を持とうとするのは驚くべきことです。
ああ、ここで最終答えが出ますね。これだけの時間、おそらく10分弱かかりましたが、この結論に至りました。この積分を行えば、最終答えが正しいことがわかるはずです。はい、3.01テラニュートンです。
これにどれだけのトークンを使ったのか数えたくもありません。考える時間は579秒、つまり10分近くかかりました。これに対して、Google GeminiとO3-mini-highは20〜30秒程度でした。自分の計算が正しいことを確認しようとする執着心は素晴らしいものでした。おそらく必ずしも必要ではなかったかもしれませんが、大歓迎すべきことだと思います。私たちが支払わなければならなかったのは時間だけでした。
3つのモデル全てが問題を正しく解けたことを祝福します。私の問題がHumanity’s Last Examの基準に達しなかった理由がわかります。これらのモデルが互いにどれほどうまく機能するかについて、何らかの示唆が得られたことを願っています。今後もこのようなテストを続けていきたいと思います。
それでは、また次回お会いしましょう。みなさん、お元気で。