新GPT-4oアップグレード：OpenAIの強力なコーディングモデルがGemini 2.5 Proを打ち負かす!?

4,353 文字

https://www.youtube.com/watch?v=uZErdPV45RM

私はなぜ誰もこのことについて話していないのか本当に驚いています。しかし、今週、OpenAIのCEOであるSam Altmanがツイッターで、GPT-4oが大幅なアップグレードを受けたと発表しました。人々がこれについて話していない主な理由は、Gibl Style Genや他の画像生成関連機能を含むこの新リリースの画像生成能力に対する大きな注目があったからだと思います。しかし本質的には、この新しくアップグレードされたGPT-4oモデルは複雑な指示をより正確に処理できるようになり、複数の名詞を含むプロンプトをより精度高く一貫性を持って扱えるようになりました。
コードに関してはより賢くなり、デバッグやアーキテクチャ設計が改善され、より鋭いDev Copilotのように難しいコーディングの問題を解決できます。また、より直感的で創造的になり、ブレインストーミングや推論が必要なタスクに最適な、よりスマートでオリジナリティのあるアイデアを生成します。最後に、いくつかの小さな機能の改善がありますが、その一つは生成時の絵文字の使用を減らし、余計なものではなくテキストにより焦点を当てるようになりました。
SamはまたGPT-4oの新バージョンは特にコーディング、指示に従うこと、そして自由度において優れていると述べています。最後の部分が興味深いもので、基本的にはよりオープンで検閲が少ないことを意味します。これは実際に大きな進展です。私たちが知っているように、OpenAIは画像生成やテキスト生成に関して多くの制限を設けていました。これは間違いなく大きなアップグレードであり、OpenAIモデルの使用をより魅力的にするものです。
現在、このモデルはOpenAIの有料ユーザーのみが利用可能で、無料ユーザーは今後数週間以内にアクセスできるようになります。しかし、APIを通じてこの新しいモデルにアクセスしたい場合は、「chat-gpt-4o-latest」としてリストされているプレビューバージョンを選択することで利用可能です。これが新しくアップグレードされたモデルを使用する方法です。また、変更ログの中で確認できるこのモデルへの他のいくつかのアップグレードもあります。
始める前に、World of AIニュースレターに登録することを強くお勧めします。私は週単位で定期的に異なるニュースレターを投稿しており、AIの分野で何が起きているかについて最新の知識を簡単に得ることができます。完全に無料なので、ぜひ登録してください。また、すでにご存知かもしれませんが、私は第2のチャンネルを立ち上げましたので、ぜひ登録して通知ベルをオンにしてください。こちらでは、さらに多くのAI関連の最新コンテンツを投稿していく予定です。
このアップグレードされた新モデルについての動画を作ろうと思ったのは、LM Arenaや他のいくつかのベンチマークテストでの結果を見たからです。基本的に、LM Arenaは、Chat GPT-4oがそのベンチマークのリーダーボードで2位にジャンプしたというスクリーンショットを投稿しました。これはGPT-4.5を上回り、1月バージョンから大幅に向上し、30ポイント以上上回り、コーディング難問ベンチマークでは1位にタイしています。全体的に、GPT-4.5よりも安価でありながら、他の多くのモデルを上回っています。Grok 3も上回っていますが、今週リリースされたばかりのGemini 2.5 Proモデルにはわずかに後れを取っています。
この動画の次のセグメントでは、GPT-4oと新しいGemini 2.5 Proの比較を紹介します。どちらのモデルもLM Arenaのリーダーボードでトップに位置しているので、これらのプロンプトで頭と頭を合わせて質問し、これらの異なる生成においてモデルがどれだけうまく機能するかを評価していきます。
最初に、HTML、CSS、JavaScriptを使用して、ユーザーが月々の収入と支出を追跡できるレスポンシブWebアプリを構築するよう依頼します。トランザクションの追加、編集、削除などの機能を含めます。このプロンプトを送信する理由は、両方のモデルが複数のリクエストを含むプロンプトを特に詳細な指示で処理する方法を知っているからです。2つの生成結果を見てみましょう。
まずChat GPTの生成を見て、次にGeminiモデルの生成を見てみましょう。このプロンプトに対する最初の結果はこちらです。アップグレードされたChat GPT-4oモデルが出力できた、かなり洗練されたデザインが見えます。実際に機能するダークモードがあることがわかります。説明を追加できます。例えば「食費」や金額「10,000」を入力してみましょう。現実的ではないですが、デモのために追加してみます。そこに私たちの支出の機能的な可視化があります。これは実際に機能する月次予算追跡アプリで、このモデルによって生成されました。
Geminiモデルが生成できたものを見てみると、コードをローカルにコピーしてHTMLファイルとして開きました。これが生成されたアプリです。すぐに気づいたことは、実際に機能するダークモードや収入と支出を視覚化する機能がないことです。いくつかのものをランダムに入力してみましたが、「支出を追加」をクリックしても実際には動作せず、これを表示しません。しかし全体的には、レスポンシブなフロントエンドを作成するという仕事はこなしているので、それは良いことでしょう。しかし、実際の機能性という点では、GPTモデルはこのようなものを作成することができ、それは他のモデルよりも優位に立っています。
このベンチマークテストでは、両方とも合格ですが、私はGPT-4oがより良い回答を生成したと言えるでしょう。
次に、別の難しいプロンプトがあります。数字キー0〜9でチャンネルを変更できるテレビをコーディングするよう2つのモデルに依頼します。すべての数字にチャンネルのアイデアを考え出し、基本的にこのプロンプトを取り入れて、各チャンネルに異なるコードスニペットやアニメーションを生成できるようにしたいと考えています。
両方のモデルが何を生成するか見てみましょう。このプロンプトをGemini 2.5 Proに送信し、生成できるものを見てみましょう。これがChat GPTから得た生成です。9つまでの複数のチャンネルがあり、実際にクリックすると複数のチャンネルが生成されています。テレビのメインフレームが生成されていないことは承知していますが、Geminiモデルが生成できたものを見ると、実際にはどれだけ良く見えるかがわかります。より長いコンテキストを持ち、より多くを生成でき、テレビの構造をより良くしています。静的なフレームもあります。
すべてのチャンネルを切り替えると、GPTができるよりも実際に見栄えの良い生成があります。これが私がGemini 2.5 coderに関する複数の動画を作った理由です。非常に優れており、どれだけ多くの異なるチャンネルと異なるアニメーションを生成できたかがわかります。Chat GPTには合格を与えますが、この場合はテレビを生成しなかったので不合格で、Gemini 2.5は合格です。
同様に、機能するWebアプリを生成しなかったGeminiも不合格にできますが、全体的に見れば現在は同点です。
次に、対称的な翼とシンプルなスタイリングを持つ蝶のSVG表現を作成します。ご存知のように、これはおそらく大規模言語モデルにとって最も難しいプロンプトの一つです。両方のモデルは実際に蝶のSVG表現を生成する素晴らしい仕事をしましたが、SVGビューでこの2つのモデルを比較してみましょう。
両方のモデルからの生成結果が出ました。これはGPT-4.0 omoからの生成で、これはGemini 2.5 Proからの生成です。個人的には、GPTモデルよりもこちらの方が好みですが、結局のところ、両方とも対称的な翼とクリーンなスタイリングを持つSVGを生成する素晴らしい仕事をしました。私の見解では両方とも合格ですが、このGeminiモデルは生成の面で実際に印象的であることがわかります。
前の月に見たモデルと比較すると、実際に蝶のSVGコードを生成することができました。これは間違いなく大きなアップグレードであり、これがコード生成においてより良くなるように設定されたモデルであることを示しています。
次に、テトリスゲームを作成します。Geminiアプリ内でリクエストを使い切ったので、Google AI Studioに戻りました。この2つのモデルが単一のHTMLファイルでテトリスゲームを生成する能力をどのように発揮するか見てみましょう。
Chat GPTからこのゲームを生成する結果が得られ、これはGemini 2.5 Proから得られた生成です。両方のモデルはゲームを生成する素晴らしい仕事をし、個人的にはGPTの方が少し魅力的に見えると思いますが、明らかに両方とも仕事をこなしています。両方のモデルに合格を与えることができますが、全体的に見ると、このモデルはGemini 2.5 Proと競合しているほど優れていることがわかります。
これはより小さな古いモデルですが、大幅な新しいアップグレードを受けており、おそらく今年後半に登場する可能性のあるGPT-5モデルのプレビューだと思います。これは4.5よりも安価で、複数のリクエストを受け入れることができる優れたコーディング能力を持っています。この素晴らしいモデルを提供してくれたOpenAIチームに大きな称賛を送ります。
説明欄にすべてのリンクを残しておきます。この動画が役立つと思っていただければ幸いです。私の意見では、両方のモデルは素晴らしいですが、Geminiモデルを除いて、コスト効率が良く、オープンソースであるため、引き続きGemini 2.5やDeep seekモデルを使用します。
今日の動画はこれで以上です。すべてを楽しんでいただけたと思います。説明欄にすべてのリンクを残しておきます。新しいチャンネルをフォローし、ニュースレターを購読し、プライベートDiscordに参加し、Twitterで私をフォローしてください。最後に、購読して通知ベルをオンにし、この動画にいいねを押し、AIの世界で何が起きているかを最新に保つために以前の動画も見てください。
それでは皆さん、素晴らしい一日を過ごし、ポジティブな気持ちを広め、またすぐにお会いしましょう。