
6,406 文字

こんにちは、ようこそフィーチャークルーへ。今週はまだOpenAIのリリースウィークです。昨日の03試用ビデオをご覧になったと思いますが、非常に印象的なモデルでした。私たちや多くのコメント欄の皆さんが疑問に思っているのは、「03はGemini 2.5 Proと特にコーディング分野でどう比較されるか」ということです。
そこで今日は特別なビデオを用意しました。いくつかのコーディングテストで両者を対決させ、最高のコーディングモデルを決定したいと思います。また、o4 miniもテストしたいと考えているので、すぐにそのビデオもフォローアップします。皆さんが見たいものを教えてください。単独のビデオにするべきか、何かと比較すべきか、皆さんの質問に確実に答えられるようにしたいと思います。
それでは始めましょう。最初のコーディングテストは、私たちの都市生成とシミュレーションのプロンプトを使用します。ここでは、各モデルがどれだけ仕様を理解できるかを見るために、かなり長い仕様を作りました。都市を構築し、公園オブジェクトや人々などの要素を追加できるようにしたいのです。これを一度に全部やるのはかなり難しいので、モデルが選択したり「足場を追加した」と言ったりすることがよくあります。一度でどこまで進められるか見てみましょう。また、実際にレンダリングできるように3JSの使用例も少し提供しています。
それでは始めて、何度か繰り返しながら双方がどこまで進めるか見てみましょう。スタートしました!左側が03で、右側がGemini 2.5です。
Geminiがすぐにキャンバスモードに飛び込みましたね。このチャンネルでは有名に好まれていないモードです。何度も壊れてしまったことがありますから。「どちらが好きですか?」と聞かれるとキャンバスが混乱するかもしれませんね。これは前回のビデオでの主張、「キャンバスが03を混乱させる」をテストする絶好の機会です。Geminiがまだ作業中なので、03ではキャンバスありとなしの両方のバリアントを試してみて、どちらがうまく機能するか確認し、それからGeminiと比較しましょう。
これが03のキャンバスなしの試みで、たくさんの車が飛び回っていますが、建物が見えないのが最大の懸念です。ランダム生成に使われているノイズも明らかにノイジーではなく、ただの…ランダムではありませんね。何か変えてみましょう。道路密度は何か変化をもたらしましたが…あまり良くない最初の試みでした。
Geminiが終わったようですね。03のキャンバス試行がより良かったかどうか確認しましょう。キャンバスのほうが良かったですね!実際にキャンバスのほうが良好でした。拡大すると、道路に沿って車がスムーズに動いています。異なる色の建物もあり、車は実際に道路上にあります。前回の惑星でキャンバスに苦戦したことについて撤回します。都市に関しては、キャンバスが実際に役立ちました。
私たちが求めた機能の多くがあります。異なる地区、高さの異なる建物、天気の効果などがあります。そして前述のように、車はそこにあり、実際に道路に従っています。これは過去のモデルでこのプロンプトの主な問題の一つでした。公園エリアもあるように見えます。あの小さな緑の部分ですね。拡大するのは少し難しいですが…少し遅いですね。確かに公園エリアのようです。
では、Geminiが何を作り上げたのか見てみましょう。ここからはこの会話のキャンバス分岐を進めます。ChatGPTが2回試行できたのは少し不公平かもしれませんが、運の問題ですね。
面白いですね。こちらでも車は道路に従っていますね。Geminiはある意味、3Dの視覚的な面でより多くの努力を注いだようです。このような霧の効果があり、動きも良く見えます。太陽も実際に回転していて、一日のサイクル全体が見えます。道路の部分を完全に守れていないようで、外れている道路が一つあり、車は建物を通り抜けています。建物はOpenAIバージョンよりも密度が低く、都市らしさが少ないですが、現時点ではどちらも同じレベルと言えるでしょうか?
その通りだと思います。Geminiの光のサイクルについては称賛したいですね。03では日夜のサイクルは見られず、雨の効果だけでした。それぞれ異なる領域で優れていて面白いですね。
それでは両者にフィードバックを与え、次の試行がどうなるか見てみましょう。フィードバックを準備しました。03には、Gemini側で見られた動く光源と日夜のサイクルを要求し、Gemini側には車を道路上に保つこと、建物の密度を上げること、03側で見られた気象効果を追加することを求めています。基本的に、各モデルに相手モデルの強みを試すよう求めています。
また、双方に視覚的な部分と都市がどれほど興味深く現実的に見えるかについて全体的な改善を求めています。この部分は意図的にかなりオープンエンドにしてあります。スタートしました!
03から結果が出ました。見てみましょう…おっと、レイブパーティーのようになっています。ライトが変わりました。点滅するライトが好きではない視聴者の方々にはお詫びします。シミュレーション速度はあまり役立っていないようですが…待ってください、時間が変わりました。実際に機能していて設定可能です。照明も良く見えますが、なぜか建物がバグっています。日中はてんかん持ちの視聴者のために点滅が少なくなっているようです。
何らかの問題があるようですが、それを除けば、プロンプトにうまく従ったと思います。照明を動かすことを追加し、時間を進めると同じような影の動きがGeminiと同様に見られます。車はまだ道路に正しく固定されており、建物にもより多くの詳細が追加されています。建物の上部にピラミッド形状があり、カラーパレットもリフレッシュされているようです。これが視覚的な改善の要求に対する解釈のようです。
空の色が変化する方法も気に入っています。夕暮れにはこのオレンジ色を表示して、それから夜になります。また、天気のオン/オフを切り替えることもできます。とても良いですね。
では、Geminiが何をしたか見てみましょう。Geminiはこの間ずっとコーディングをしていました。「コードは注意して使用してください」という免責事項を表示するのが好きですね。今わかったように、それは良いアドバイスです。
おお、すごい!ストリームで遅延していますか?いいえ、非常にラグがありますが…公園に木がありますね。木があります。一方では、視覚的なものにとても感心しています。建物の生成をより複雑にしていて、単なる…街灯もあります。車は道路上にあるようですし、唯一の問題は…夜に点灯しています!これは印象的です。
これはもう、「ミニモーターウェイズ」や「iOSゲーム」のような都市シムとしても悪くありません。ただし、パフォーマンスが非常に悪いという問題があります。現在、両方のシミュレーションが動いていますか、それともGeminiだけですか?
技術的には両方動いています。あちらを停止すると何か助けになりますか?いいえ、残念ながら…Gemini、疑問の余地を与えようとしたのに。
視覚的なものと建物をより興味深くすることに関しては素晴らしい仕事をしました。建物が複数のブロックで構成されているように見えますが、それが意図的なのか、単に建物を誤って積み重ねているだけなのかわかりません。意図していないことに対して称賛しているとしたら悲しいですね。
車を拡大できますか?車はもう単なるブロックではないような気がします。拡大するのは非常に難しいですが…車は曲がりますね、それはかなりクールです。車はまだレンガですが、色が様々になっています。視覚的なアップグレードの部分に本当に焦点を当てたようです。
天気も追加されていますね。道路グリッドと建物密度のスライダーを試してみて、それが実際に設定されているか見てみましょう。ラグが多すぎて操作できませんか?機能しますね、それはかなりクールです。密度は少し変ですね、実際にはシードのようなものではありません、不思議です。異なる色が見えるようです。
建物が重なっています。クールな設計をしていると思っていましたが、実際には多くのレンガを重ねているだけでした。それをテストするために、0.1のように全て下げると、おそらく重なりが少なくなるでしょう。いいえ、ランダムに何かをしているだけなので、判断は難しいです。
さて、皆さんはどう思われますか?一種のアート比較になっていますね。Geminiの照明は非常に印象的で、街灯があるのは興味深いです。重なる建物は奇妙ですが…03は都市の全体的なレイアウトで優位に立っていると思います。追加された詳細については、Geminiに与えたい気持ちもあります。
これについて少し議論していましたが、どちらの結果も異なる方法で印象的です。両側でプロンプトへの忠実さが良いと思います。左側では都市の複雑さが気に入り、右側ではGeminiの視覚的なスタイルが気に入りました。
そこで通常のチャレンジモードを行いますが、一人称視点に移行してこれを完全なゲームにし、その過程で各モデルに再び相手の強みを試すよう求めます。左側では、より良い視覚効果、より洗練されたゲーム、そして点滅する建物のグリッチの修正を求めます。右側では、現在プレイ不可能なので、より良いパフォーマンスを求めます。
03は建物の点滅グリッチに取り組み、Geminiのコージーゲームの品質に合わせた視覚的な全面改装を行い、Geminiはプレイ可能なゲームにするためのパフォーマンス全面改装を行っています。両モデルは一人称視点での中核的なゲームプレイループを追加しています。これは大きなリクエストだと両モデルに伝えました。それにより彼らがより長く考えてくれることを期待しています。
おっと、来ました!03の実装では一人称視点に入りました。車が通り過ぎていきます。車にぶつかっても何も起こらないようです。カメラを回転させることができます。彼は少し曲がっているようです。あれは収集品ですか?帽子か何かを手に入れるのでしょうか?これが収集品かどうか調べようとしています。というのも、ゲームプレイループについて非常に一般的に尋ねたからです。
点滅する建物の問題を修正したことも注目に値します。音楽も追加されたのが気に入っています。聞こえているかわかりませんが、オーディオタグがあり、音楽があります。音楽は聞こえてきません。良いですね、基本的に私たちが求めたものです。道路にはまだ少し点滅があり、明らかにメッシュが重なっていますが、それは簡単に修正できるでしょう。
では、Geminiが何を作り上げたか見てみましょう。Geminiのほうが明らかに長いですね。Geminiがスクロールに時間をかけていたのか、実際にもっとコードを書いていたのかわかりません。
施設にいるようです。マップが以前とはまったく異なって見えます。ランプがあります。Geminiは空からの眺めではより印象的に見えましたが、なぜ建物が…おっと、完全に変わってしまいました。都市のレンダリング方法を変更し、試みることをやめました。建物は今や黒くなっています。パフォーマンスの問題を解決したのは、単に全てを削除することによってだったようです。
まだ照明は残っており、目標も追加しました。Geminiはこれで負けるでしょうが、判断は難しいです。印象的なことをしました。目標を与えて…ここで全ての50個を集めるのに時間をかけたくはありませんが、それが実際にゲームプレイループ、目標を持つ唯一のゲームになったのかどうか気になります。その点では03よりもプロンプトに忠実だったかもしれません。
また車も失ってしまいました。しかしパフォーマンスは格段に良くなっています。Geminiは既に優れたゲーム制作者です。出荷が近づくにつれてゲームの全体的な部分を削減していきます。「コードが少ないほど問題も少ない」というのは実際に真実です。これはGeminiで以前にも遭遇した問題です。問題に遭遇するとすぐに物事を破壊してしまうのです。何か印象的なことをしようとして、それが難しくなるとすぐに「よし、諦めよう」となります。
この結果を見て、曖昧な結論に達したと言えるでしょう。Geminiは実際のゲームプレイループを作りましたが、パフォーマンスを向上させるように求めた際に、多くの詳細をカットしてしまいました。03はゲームを通じてずっとプロンプトへの忠実さを保ちました。非常に密集した都市を持ち、視覚的には誰も感動しないかもしれませんが、全てを維持しました。Geminiでは気象システムを失ってしまいました。Geminiは多くをカットしましたが、03は複雑さを維持し、反復しました。
思ったよりも接近した結果でした。正直なところ、これは私が初めて二つを比較したもので、Geminiはより大きな一発ものを書いています。03はプロンプトの遵守がより調整されているかもしれませんが、Geminiがデザイン面で主観的に非常にクールなことをいくつか行ったのも事実です。これまで03やOバリアントがこのようなものを生成するのを見たことがなく、Gemini側ではかなり良いです。
このビデオの終わりに「常に自動的に03を使用してください」と言うつもりはありません。アプリケーションによって異なります。ワークフォースコーダーとしてはGeminiもまだ多くの重みを引っ張っています。設計の観点から見ると、Geminiには主観的に非常にクールなものがいくつかあります。各モデルには強みと弱みがありますが、少なくとも信頼性という点では、おそらくGeminiが若干優位に立っているかもしれません。古いモデルが混乱するのを見てきました。スニペットを含めなければすぐに爆発し、修正するために何度か試みなければならなかったにもかかわらず、Geminiは長い時間をかけましたが、最初に実行したものはかなりクールでした。最初の2回の都市シミュレーションは視覚的に非常に印象的でした。パフォーマンスは悪かったですが、それはプロンプトへの忠実さの一種で、その後単に物事を削除しました。
異なる役割を考えると、03を見て「おそらくこれは私の建築家だ、これは難しい問題に対して解決策を与えてくれるものだ、計画を立てなければならないかもしれない」と思います。しかし、「コードを書き、設計されたものを実装せよ」という作業馬として、おそらくGeminiから始めるでしょう。何を達成するかのスピードの観点からです。しかし、都市のマルチターンでプロンプトへの忠実さから逸脱したのは素晴らしい指摘でした。以前持っていた特定のものをいくつか失い始めました。
コーディングは私たちがテストする一つのコンポーネントですが、これらのテストに基づいて一つを選ばなければならないとしたら、おそらくGemini 2.5を選ぶでしょう。しかし、ビジネス推論やエージェント推論については他のビデオをご覧ください。きっともっと対決ビデオを作るでしょう。
o4 miniモデルから何を見たいか、そこで何をテストしたいかを教えてください。それらのビデオもいくつか予定しています。ライブストリームも検討しています。ウェブサイトの更新が切実に必要だと認識しているので、ウェブサイトの更新コードを一緒に作成する可能性もあります。皆さん、ありがとうございました。次回お会いしましょう。


コメント