
13,341 文字

みなさんこんにちは。最近OpenAIがO4 miniモデルをリリースし、その直後にGeminiがGemini 2.5 flashモデルをリリースしました。しかし疑問なのは、この2つのうちどちらが優れているのかということです。検証してみましょう。
まず、なぜこれらを比較するのかというと、価格を見てください。Geminiは入力トークン100万件あたり0.15ドル、出力トークン100万件あたり3.50ドルとなっています。一方、O4 mini highは入力トークン100万件あたり1.1ドル、出力トークン100万件あたり4.4ドルと4ドルとなっています。価格はほぼ同等なので、比較するのは妥当でしょう。
では、推論、数学、そしてコーディングのセクションを見ていきましょう。どちらが優れているのか理解するために。質問は画面に表示されますので、一時停止して確認することができます。
まず水槽の問題から始めましょう。ここでGeminiは10点満点中10点を獲得し、O4 Miniは10点満点中7点を獲得しています。しかし状況はすぐに変わります。次の文字の問題では、Geminiは10点満点中9点、O4 Miniは10点満点中10点を獲得しています。次の点つなぎの問題では、Geminiは10点満点中7点、O4 mini highは再び10点満点中10点を獲得しています。次はグリッドの問題で、またもやGeminiは10点満点中8点、O4 miniは10点を獲得しています。
次は非常に難しい問題、64人のテニス選手の問題です。ここでGeminiはわずか10点満点中4点、O4 miniは驚異的な10点満点中9点を獲得しています。次に最も難しい問題である座席配置の問題です。この問題では予想通りGeminiは10点満点中0点でしたが、O4 Mini Highは10点満点中7点を獲得しました。これを見て私は驚愕しました。GeminiとO4 Mini Highの間に競争はありません。O4 Miniは完全にGeminiを圧倒しています。
しかし、数学についてはどうでしょうか?数学のセクションに移りましょう。ベンチマークによるとO4 Mini Highは数学が非常に得意なので、直接フロンティア数学テストに進みます。これが完全な問題です。モデルには2つの選択肢があります。私の助けを逐次的に借りて正解にたどり着くか、すべてを自分自身で行うかです。この選択肢が明確に与えられているので、どちらを選ぶかはモデル次第です。
両方のモデルにこの質問を送信し、結果を見てみましょう。O4 mini highがウェブを検索していることがわかります。両方のモデルから回答が得られました。O4 Mini highは中間コードを提供したようです。それを実行して、出力をO4 mini highと共有しましょう。
一方、Geminiは直接最終答えを出したようです。正解かどうか確認しましょう。Geminiによるとこれが答えですが、それは正解ではありません。正解は画面に表示されるでしょう。これはGeminiからの失敗です。
一方、O4 Mini Highは反復的なアプローチをとっています。これはいいですね。また中間コードを提供してくれました。コードを実行しましょう。N2を得たので、これをO4 Mini Highに送信します。O4 Mini Highから最終コードを得たようです。答えが合っているか見てみましょう。これも失敗です。O4 Mini Highもこの問題を解けませんでした。一方、O3 Mini Highはこの問題を解くことができたんですよ。
次の問題に移りましょう。両方のモデルにこの質問を送信して、何が得られるか見てみましょう。Geminiは時間がかかっていますが、その間にO4 Miniは中間コードを提供しました。実行しましょう。
実は間違えていたようです。実際には最終的な回答を提供してくれていて、私の見立てでは正解です。回答を確認して比較できます。O4 Miniはそれを行うことができました。
Geminiからも回答を得ました。コードをコピーして、何をもたらしたか見てみましょう。実行すると、行列が見えます。Geminiが生成した中間コードだと思います。Geminiは多くの思考を行い、この回答を出しました。答えは10001だと言っていますが、これは全く近くもありません。Geminiからの失敗であり、O4 mini highの明らかな勝利です。
次の問題に移りましょう。質問を送信して、何が起こるか見てみましょう。思考予算を最大に設定して実行します。Geminiはまだ考えている間、O4 mini highは中間コードを提供しました。これを実行して出力を送信します。実際の答えだと思います。出力を教えてくださいと言っていますが、これが本来の答えだと思います。それが正しいかどうか見てみましょう。
実際に正解です。O4 Miniは中間コードを使わずに、一発で正解を提供しています。一方、Geminiはまだ考えています。Geminiからコードが得られました。O4 miniのように正しい回答を提供できるか見てみましょう。コードを実行すると、Geminiからの誤った答えが得られました。これはGeminiからの再度の失敗です。
次の問題に進みましょう。ますます難しい問題に移っています。これらのモデルが正解できるか見てみましょう。この質問を両方のモデルに送信し、何が得られるか見てみましょう。両方からコードが提供されました。O4 miniから始めましょう。コードをコピーして実行します。
中間コードのようです。Gが1に等しいという結果が得られました。そのモデルと共有して、Geminiに移りましょう。コードをコピーして実行します。これも中間コードだと思います。Geminiに送信して、これらのモデルを実行させましょう。
その間にO4 Mini Highは別のコードを提供しました。実行してみましょう。最終的な答えだと思います。実際にO4 miniは正解しています。O4 Mini Highからの合格です。Geminiを待ちましょう。
Gemini Flashからの回答を得ました。コードをコピーして実行します。結果は「none」となっています。何らかの奇妙な理由で。これは失敗と言わざるを得ません。
次の問題に移りましょう。これはフロンティア数学の最高レベルの問題です。これらのモデルが実際にこれを正解できるか見てみましょう。両方のモデルが中間コードを提供したようです。O4 mini highから始めましょう。それを実行します。何かが得られました。これをチャットに貼り付けて送信します。
Geminiからもコードが得られました。コードをコピーして実行します。似たようなものが得られました。これもGeminiに送信します。Geminiに回答を送信する間に、O4 miniから回答が得られました。コードをコピーして実行します。別のコードが得られました。これを言及して見てみましょう。
Geminiは直接最終的な回答を提供したようです。それが正しいか見てみましょう。コードを実行します。正解は500,000だと言っていますが、それは実際には間違っています。
一方、O4 Minihaiからは多くのコードが届いています。反復的なアプローチをとっているようです。最終的に回答が得られるといいのですが。最終的な回答をモデルから得たようです。コードをコピーして実行しましょう。正解は367691だと言っています。正解の36707に非常に近いです。これほど近づけたのはこのモデルだけだと思います。
Geminiは1問も正解できませんでした。これらは非常に難しい問題なので理解できます。しかしO4 Miniは最初の問題を除いてすべての問題に正解しました。再びGeminiを完全に圧倒しました。
この時点で、コーディングを見る必要がないとお考えかもしれません。O4 Miniの方が優れているだろうと。しかし、ぜひ見ていただきたいです。コーディングセクションに入りましょう。
最初の質問は、HTML、CSS、JSを使ってドラゴンをコーディングできますか?ドラゴンの横面を表示し、単一のコードで最高の実装を示してください。この質問を両方のモデルに送信します。
両方のモデルから回答を得ました。OpenAI O4 Mini Highから始めましょう。HTMLビューアを開いて、プレビューしてみましょう。これが得られたものです。ほとんどドラゴンには見えませんが、非常に悪い回答だと言わざるを得ません。
では、Geminiが何をしたか見てみましょう。コードをコピーして、HTMLビューアを開き、プレビューします。両方とも実際にはごちゃごちゃしていると言わざるを得ません。Gemini 2.5 Proでは、足と尾を識別でき、この大きな四角形は翼で、これが頭かもしれません。
ですが、両方のモデルにフィードバックを与えてみましょう。あまりヒントを与えすぎずに、「これはほとんどドラゴンとして認識できません。修正して現実的なドラゴンを提供してください」と言います。これを両方のモデルに送信し、何を出してくるか見てみましょう。
両方のモデルから回答を得ました。O4 mini highから始めましょう。HTMLビューアを開いてプレビューします。これでドラゴンとして認識できるようになりました。翼、体、足、尾、角を識別できます。かろうじてドラゴンに見えますが、前のものと比べるとこちらの方が良いと思います。
では、Geminiが何を出してきたか見てみましょう。もっと良い結果を出したはずです。これをプレビューします。それの方が良く見えます。頭、これは首、体、足、尾が見え、これはおそらく翼です。目、口を明確に識別できます。比較すると、Geminiの回答の方が良いと言えますが、両方とも良くはありません。これはGeminiの勝利です。
次の質問に移りましょう。次の質問は「外部アセットを使用せず、単一のコードでウェブページ上にスーパーマリオゲームの絶対的に最高の実装を構築してください」です。これを両方のモデルに送信して、何を出してくるか見てみましょう。
回答が得られました。OpenAI O4から始めましょう。HTMLビューアを開いてコードを貼り付けます。非常に基本的で、コントロールも逆になっています。前に進むために右矢印をクリックしていますが、後ろに動いています。これは非常に基本的な実装で、移動すらできません。
Geminiが何を出してきたか見てみましょう。コードをコピーしてHTMLビューアを開き、貼り付けます。これも非常に基本的な実装ですが、比較するとはるかに優れています。また非常にスムーズで、少なくとも移動することができます。これは機能しています。比較すると、これは再びGemini 2.5 flashの勝利だと言えます。
次の質問に移りましょう。次の質問は「現実的な物理法則を持つ落下する文字のJavaScriptアニメーションを作成してください」です。どちらのモデルが機能するコードを提供できるか見てみましょう。
回答が得られました。Open04から始めましょう。ボールはありますが、落下する文字はありません。奇妙なことに、ボールを落とすとボールが落下するアニメーションは実際に良いです。バウンドしていますが、それ以外に落下する文字はありません。
Geminiが何を出してきたか見てみましょう。コードを貼り付けます。落下する文字があります。新しいページでプレビューしてみましょう。見てのとおり、絶対に素晴らしいです。これまで見た中で最高の実装の一つだと言えます。適切にバウンドし、比較にならないほど素晴らしく見えます。これはGemini 2.5 flashの明確な勝利です。
次の質問に移りましょう。次の質問は「開口部のある中空の円とその中に2つのボールがあり、それらが壁にぶつかり、ボールが円から出るたびに2つの新しいボールが現れるPythonコードを書いてください」です。これらがこのアニメーションを作れるか見てみましょう。
これはPythonコードになります。ここでOpenAI Miniがリードを取ることを期待しています。OpenAIモデルはバックエンドと美観に乏しいものに非常に優れているからです。
両方のモデルから回答が得られました。O4 mini highから始めましょう。コードをコピーして貼り付けます。すぐにエラーが見られないのはいいことです。このコードを実行してみましょう。2つのボールが見えます。これが上半分で開口部だと思いますが、明確に定義されていません。しかし実際に機能していると言えます。物理が正しく動作しています。開口部はもう少し小さく、また際立たせるべきでした。
Geminiが何を出してきたか見てみましょう。コードをコピーして貼り付けます。すぐにエラーが見られないのはいいことです。実行してみると、2つのボールが見え、似たような回答です。開口部はここにありますが、大きくはありませんし、非常に目立っているわけでもありません。細かく言えば、O4 Miniの回答ではボールが奇妙に固まっていましたが、Geminiの回答ではそのようなことは起きていません。比較するとGeminiの僅かな勝利と言えるでしょう。
次の問題に移りましょう。難しい問題の領域に入っています。「地球の回転をシミュレートするPythonプログラムを設計してください」という問題から始めましょう。これらのモデルがそれを行えるか見てみましょう。
O4 Miniは5秒だけ考えました。両方のモデルから回答が得られました。O4 Miniから始めましょう。コードをコピーして貼り付けます。すぐにエラーが見られないのはいいことです。コードを実行してみましょう。実行されませんでした。これは失敗です。このエラーを戻しましょう。
これは難しい問題なので、ある程度予想されたことです。このフィードバックをO4 Mini Highに送信します。一方、Geminiが何を出してきたか見てみましょう。コードをコピーして貼り付けます。すぐにエラーが見られないのはいいことです。これを実行してみましょう。
これを見てください。これが地球で、この黒い点が月だと思います。昼と夜のサイクルが見えます。しかし、なぜかドット行列のような地球を表示しています。Mini highに一度チャンスを与えたように、Geminiにも別のチャンスを与えましょう。「ドット行列のような地球は望みません。現実的に見える地球を提供してください。全力を尽くして更新されたコードを提供してください」と伝えます。
その間、O4 mini highからの回答が得られたので、そちらを続けましょう。すぐにエラーが見られないのはいいことです。これを実行してみましょう。また、エラーが出ました。Geminiを待ちましょう。Geminiが機能する回答を提供してくれれば、これはGeminiの合格と見なさなければなりません。
コードをコピーして貼り付け、実行しましょう。これを見てください。比較すると少なくとも機能していると言えます。地球に正確には見えませんが、それなりにいいです。月も見えます。夜側にあるときは黒く、光側に来ると白くなります。比較すると、これは非常に良い回答です。これはGemini Flashの明確な勝利です。
次の問題はさらに難しいです。「Pythonで可能な限り最も高度で機能豊富なピンボールゲームを開発してください」。彼らが何を出すか見てみましょう。この質問を両方のモデルに送信します。
回答が得られました。O4 Mini Highから始めましょう。コードをコピーして貼り付けます。すぐにエラーが見られないのは良いことです。TKinterライブラリを使用したようです。これを実行してみましょう。何かがあります。Rを押して再起動しましょう。ボールがジャンプしていますが、フラップを動かすことができません。フラップは固定されているようです。
Geminiが何を出してきたか見てみましょう。コードをコピーして貼り付けます。すぐにエラーが見られます。予期していなかったことですが、ゲームはまだ機能しています。プランジャーを押し下げて放してみましょう。これは非常に良く見えます。オーディオが聞こえましたか?もう一度実行してみましょう。まだエラーがありますが、ゲームは機能しています。プランジャーを押し下げると、上に行くのではなく下に行くはずでした。
フラップは機能しています。比較するとこれはより良い回答です。ボールが実際にボード上に落ちていないとGeminiに伝えましょう。「ボールがボードに落ちる曲線的な経路を作成し、完全に更新されたコードを提供してください」と言います。O4 mini highには、フラップが機能しておらず、ゲームが非常に基本的に見え、ボールをリリースする方法もないと伝えなければなりません。
O4 Mini Highが完了し、Geminiも完了したようです。O4 mini highから始めましょう。問題を実際に解決できたか見てみましょう。すぐにエラーが見られないのはいいことです。これを実行してみましょう。ボールをリリースする実装がありますが、実際のボールは見えません。「押し下げて充電し、放して発射」と書かれています。押し下げると、ボールはリリースされますが、再びフラップは機能していません。ボールはリリースされていますが、フラップは機能していません。これはあまり良い回答ではなく、Geminiが最初に提供したものよりも悪いです。
Geminiが何を出してきたか見てみましょう。コードをコピーして貼り付けます。今度は2つのエラーが表示されています。奇妙なことに。これを実行して何が起こるか見てみましょう。「予期しないインデント」と表示されています。これは非常に明確なエラーで、起こるべきではありませんでした。
3回目の試みをしましょう。このエラーをGeminiに戻し、Mini Highには「フラップが機能していません。それらは動かず、また直接上に投げるのではなく、ボールをゲームに導く曲線的な経路を持ってください。完全に更新されたコードを提供してください」と伝えます。
これらは難しい質問なので、モデルが実際に苦戦しているのが分かります。このテストを楽しんでいるなら、いいねボタンを押してください。
両方のモデルから回答が得られました。O4 Mini Highから始めましょう。コードをコピーして貼り付けます。すぐにエラーが見られないのはいいことです。これを実行してみましょう。これでフラップは機能しています。再起動して見てみましょう。ボールがそこに落ちています。インタラクトする方法がありません。また、一方のフラップは機能していますが、もう一方のフラップは見てのとおり間違った角度にあります。実際にプレイする方法がなく、正直非常に基本的なゲームです。プレイ不可能です。
Geminiが何を出してきたか見てみましょう。コードをコピーして貼り付けます。すぐにエラーは見られませんが、346の警告があります。とにかく実行してみましょう。これが得られたものです。これが対角線的な経路で、それは機能するはずです。フラップも機能していますが、間違って実装されているようです。
プランジャーを押し下げて、スペースを押して再起動しましょう。押し下げて放します。ボールが実際に逃げられないようにボードが奇妙に実装されています。上部の壁にぶつかっています。なぜこのようなゲームを作ったのか分かりません。ここに障害物があるため、実際に何かすることが非常に難しいです。
両方のモデルに十分な試みを与えましたが、比較するとGeminiの回答がこの件ではより良かったと思います。両方のモデルにとって失敗ですが、比較するとGeminiの方が良かったと言えるでしょう。
次の質問に移りましょう。フロントエンドコーディングに戻り、さらに難しくなっています。彼らはウェブページ上にAngry Birdsのゲームを構築しなければなりません。それができるか見てみましょう。この質問を両方のモデルに送信して、何を出してくるか見てみましょう。
両方のモデルから回答が得られました。HTMLビューアを開いて貼り付けます。実際に紐を引くことができますが、実際にプレイできるか見てみましょう。プレイできません。設定は整っていますが、ゲームは非常に基本的に見えます。紐を引いて放すと、消えてしまいます。機能していません。
Geminiが何を出してきたか見てみましょう。コードをコピーしてHTMLビューアを開き、貼り付けます。これは青い画面です。何が起きたのでしょうか?もう一度試してみましょう。青い画面です。このフィードバックをGeminiに返す必要があります。「青い画面で他には何もないです。修正して完全に更新されたコードを提供してください」と伝えます。また、Mini highには「紐を引いて放すと、怒った鳥と紐が発射されるのではなく消えてしまいます。これを修正して完全に更新されたコードを提供してください」と伝えます。
Geminiから修正されたコードが得られました。コードをコピーしてHTMLビューアを開き、貼り付けます。何かに見えます。カタパルトも良く見えますが、逆方向に動作しているようです。下に動かすと上に行き、上に動かすと下に行きます。とにかく機能するか見てみましょう。それを放すと、消えてしまいます。機能していません。
Mini Highが何を出してきたか見てみましょう。コードをコピーしてHTMLビューアで開き、貼り付けます。これを放すと、発射されるのではなく消えてしまいます。比較すると、実際にはO4 Mini Highの方がこの問題では良かったと言えます。一発で比較的良い回答を提供できたからです。これはO4 Mini Highの勝利です。
次の質問に移りましょう。おそらく「silence trimmer」というプログラムをご存知かもしれません。生の録音にはいつも無音部分があります。これらのモデルが今構築しなければならないのは、生のビデオファイル内の無音部分を識別し、それをトリミングして無音部分のない更新されたビデオファイルを提供する無音トリマーです。
この質問を送信し、それが実際に何を意味するのか説明しましょう。これらのモデルが生成している間に、生のビデオをお見せしましょう。これは25秒のビデオです。辛抱強く聞いてみましょう。
「みなさんこんにちは。私のチャンネルへようこそ。これは無音トリミングのテストです」
見ての通り、不要な無音部分が多すぎて、それらをトリミングする必要があります。これらのモデルがそれを行えるか見てみましょう。
OpenAI o4 miniが完了したのが分かります。コードが得られました。これをコピーして貼り付けます。すぐにエラーが見られないのはいいことです。これを実行してみましょう。これはUIです。「Video silence trimmer」とあります。正確なファイルを参照しましょう。これが無音テストです。無音のしきい値を尋ねています。それをマイナス60に設定します。パディングについては300ミリ秒にします。トリミングを開始しましょう。実際に機能するか見てみましょう。
UIには「無音セグメントを検出中」と表示され、完了しました。デスクトップに保存されたと言っています。聞いてみましょう。14秒のオーディオがあります。これを実行します。
「みなさんこんにちは。私のチャンネルへようこそ。これは無音トリミングのテストです」
よく聞くと、重複があるのが分かります。「よう、こそ」と聞こえたことに注意してください。もう一度注意深く聞いてみてください。2回「back」と言っているのが聞こえました。これは完璧な回答ではありませんでしたが、まあ耐えられるものでした。
Geminiが何を出してきたか見てみましょう。コードをコピーして貼り付けます。すぐにエラーが見られないのはいいことです。これを実行してみましょう。すぐにはるかに大きなUIが見えます。そのファイルを参照しましょう。無音テスト。それを開きます。無音のしきい値をマイナス60に、パディング秒を300ミリ秒に設定します。トリミングを開始しましょう。実際に機能するか見てみましょう。
完了しました。比較するとO4 Miniを開くよりも速かったと言えます。とにかくそれを開きましょう。トリミングがはるかに上手だったと言えます。オーディオファイルは今わずか10秒です。聞いてみましょう。
「みなさんこんにちは。私のチャンネルへようこそ。これは無音トリミングのテストです」
比較すると、ここでは何の不具合も見られませんでした。比較すると、これはGemini 2.5 flashの勝利です。バックエンドでもそれが優れていることが分かります。次の質問に移りましょう。
次の質問はさらに難しいです。リアルタイム音楽ビジュアライザーを構築しなければなりません。これを両方のモデルに送信し、何を出してくるか見てみましょう。
O4 miniが完了しました。コードをコピーして貼り付けます。すぐにエラーが見られないのはいいことです。これを実行してみましょう。これがリアルタイムビジュアライザーです。オーディオファイルを開きましょう。オーディオファイルをロードしました。これを再生しましょう。
実際に音楽に反応しているのかわかりません。音楽とうまく連動していません。音量が上がると大きな円が見えるようですが、それ以外は非常に基本的なビジュアライザーです。これを停止して、Gemini 2.5 flashに移りましょう。
回答が得られました。コードをコピーして貼り付けます。すぐにエラーは見られませんが、多くの警告があります。とにかく実行してみましょう。実行されませんでした。これは失敗です。明らかにOpenAIの回答がここでは少なくとも機能していました。実際に機能しませんでした。これは失敗です。比較するとOpenAIの方が良かったです。
次の質問に移りましょう。次の質問は「HTML、CSS、JavaScriptのみを使用して、インタラクティブな回転迷路パズルゲームを作成してください」です。それができるか見てみましょう。この質問を両方のモデルに送信し、何を出してくるか見てみましょう。
Geminiはまだ考えている間、O4 Mini Highから回答が得られました。コードをコピーしてHTMLビューアを開き、プレビューしてみましょう。これは非常に悪いです。回転パズルが見えません。回転させることはできますが、これをパズルと呼びますか?「おめでとう、あなたが勝ちました」と表示されています。O4 miniからの酷い回答だと言わざるを得ません。
Gemini 2.5 flashからコードをコピーしてHTMLビューアを開き、プレビューしてみましょう。これが回転迷路です。比較すると、こちらの方が良いです。少なくとも迷路を見ることができます。機能するコードではありませんので、Geminiからも失敗ですが、比較するとこちらの方が良いと言えます。これはGemini 2.5の勝利です。
次の質問に移りましょう。これが最後の質問です。「ストーリーテリングを使用して太陽系を表示する、驚異的で詳細な単一ページのHTMLウェブページを作成してください」です。この質問を両方のモデルに送信しましょう。思考予算を有効にして、最大に設定します。
ウェブページについてご存知かもしれませんが、単一のウェブページでスクロールすると、アニメーションがあるようなものです。これは同様の種類のウェブページです。彼らが何を出してくるか見てみましょう。
U miniはウェブを検索しています。いくつかのCDNファイルを探しているようです。新しいOpenAIモデルのエージェンシー能力は気に入っています。
回答が得られました。O4 Miniから始めましょう。HTMLビューアを開いて貼り付けます。プレビューしてみましょう。これがウェブサイトです。タイトル「sun」とその上のテキストが見えます。スクロールすると、これが水星で、背後に惑星が見えます。これが金星です。アニメーションが見えます。地球が拡大し、そして火星、木星が見えます。3つの土星、天王星があります。海王星を取得できませんでした。
アニメーションはかなりいいですが、非常に良いわけではありません。画像が後ろに置かれていて、ただズームインしているだけのように感じます。そんなにインタラクティブなウェブページではありませんが、まあまあです。
Geminiが何を出してきたか見てみましょう。コードをコピーしてHTMLビューアを開き、貼り付けます。すぐに背後に星が見えます。スクロールしてみましょう。これが太陽です。画像が大きくなり、次に水星があります。金星を取得できなかったようです。地球、火星、木星、土星、天王星があります。
多くの惑星についてGeminiは取得できませんでした。ウェブを検索できなかったのが理由かもしれません。一方、O4 miniは実際にウェブを検索しました。比較すると、O4 Miniの回答は実際に良く見えると言えます。これはO4 miniの勝利です。
まとめましょう。ドラゴンの質問では、両方とも非常に良い回答を提供しませんでしたが、比較するとGeminiの方が良かったと言えます。次に、マリオゲームでは、O4 miniが提供したゲームは全く機能しないことが明らかでした。一方、Geminiが提供したゲームは単純でしたが、完全に機能していました。これは再びGeminiの勝利です。
落下する文字の質問では、O4 miniのコードでは文字が落下するのが見られませんでしたが、Geminiは間違いなく落下する文字テストの最高の実装の一つを提供しました。再びGeminiの勝利です。
跳ねるボールの質問については、両方が非常に接近していて、彼らが言及した開口部はそれほど明確ではありませんでした。しかしO4の回答では、ボールが奇妙な方法でグループ化されるという奇妙な効果が見られました。一方、Geminiの回答ではそのような問題はありませんでした。Geminiの僅かな勝利と言えるでしょう。
地球の回転の問題では、O4 Miniは機能するコードを提供できず、Geminiは機能するコードを提供しました。地球には見えなかったかもしれませんが、少なくとも機能していました。これは明確な勝利です。
ピンボールの問題では、両方のモデルから失敗でしたが、Geminiの方が良かったです。アングリーバードの問題では驚くことに、O4 Miniの方が良かったです。Geminiが青い画面を与えたのとは異なり、一発で機能するコードを提供したからです。
無音トリマーの問題では、明らかにO4 Miniには重複という奇妙な問題があり、Geminiは対照的に実際に機能するコードを提供しました。そして音楽ビジュアライザーの問題では、Geminiは実際に機能するコードを提供できなかったのが分かりました。しかしO4 Miniは少なくとも何かを提供しました。あまり良くなかったかもしれませんが、この勝利はO4 miniに行きます。
回転パズルゲームでは、両方ともテストに失敗しましたが、比較するとGeminiの方が良く見えました。これはGeminiの勝利です。最後の太陽系の問題では、O4 miniの方が良い回答を提供しました。
合計スコアを見ると、Google Geminiが8ポイント、O4 mini highがわずか3ポイントです。明らかにGeminiはコーディングに関してO4 Mini Highを完全に圧倒したと言えます。
最終的に、すべてを見た後、O4 Miniは一般的にはより賢いモデルですが、コーディングに関してはGeminiが明らかに優れていると言えます。そして推論と数学に関しては、O4 Mini Highの方が優れています。
これらのモデル間の満足のいく比較ができたことを願っています。努力を評価していただける一つの方法は、いいねボタンを押し、私のチャンネルを登録し、コミュニティをフォローすることです。ライブ配信も行っていますので、ぜひお越しください。


コメント