GPT-4oのアップグレードがかなりすごい（コーディング、画像、アンバウンドモード？）

7,088 文字

https://www.youtube.com/watch?v=gal3jNOyyDs

わかりました、GPT-4がアップデートされましたが、この新しいアップデートは本当にすごいものです。サム・アルトマンがツイートしたところによると、GPT-4の新バージョンは特にコーディング、指示への追従、自由度において優れています。実際には新しい「アンバウンドモード」が追加されていて、「アンバウンドモードを有効にして」と尋ねることで起動できます。これはGrokからインスピレーションを得たもので、いわば「酔っ払ったGPT」です。
またChatbot Arenaのリーダーボードで大幅なパフォーマンス向上を見せており、4位か5位から2位に上昇しました。これはどのモデルにとっても大幅な改善です。現在、全体としてGemini 2.5 Proに次いで2番目に優れたモデルとなっています。
アンバウンドモードを有効にすると、またはより一般的に言えば、フィルタリングがかなり少なくなっているようです。依頼すれば少し華やかな言葉遣いもします。例は示しませんが、自分でテストできます。これはOpenAIらしくないですね。
個人的に興味があるのはコーディング能力です。OpenAIによると、コーディング問題に関する能力が向上しているとのことなので、ぜひテストしてみたいと思います。フィルタリングの緩和は画像生成の面でも適用されているようで、サムも指摘しているように、以前に比べてはるかに自由度が高くなっているようです。ただし、露骨な素材に関してはフィルターがまだあり、それは良いことです。
コンテンツフィルターはまだいくつかありますが、このモデルはコーディングが非常に得意だとされているので、いくつかのコーディングプロンプトでテストしてみます。これらは最近Gemini 3.5で使用したプロンプトです。ClaudeとGemini 2.5を比較する動画を作ろうと思っていましたが、このモデルも混ぜて比較することにします。
最初のプロンプトは、「JavaScriptを使用して現実的な物理演算で落下する文字のアニメーションを作成する」です。いくつかの要件があります。文字は画面上部からランダムに様々なサイズで表示され、地球の重力で落下し、実際の文字の形状に基づく衝突検出をして、他の文字、地面、画面の境界と相互作用し、水に似た密度特性を持ち、動的な画面サイズ変更に対応し、暗い背景に表示する必要があります。すべては単一のHTMLファイルに収める必要があります。これは元のO1で使用したプロンプトで、正しいコードを得ることができませんでした。Gemini 2.5は動作するコードを提供できました。この新しいGPT-4oが何をするか見てみましょう。
GPTが実際にプレビューを表示していますね。出力がどのようになるか見てみましょう。緑色のボックスしか見えませんね。文字はあるようですが、おそらくこれらの緑のボックスに囲まれていて、おそらく緑色を使って文字も表示しているようです。
実際、それがまさに起こっていることでした。コードで「文字は緑色のボックスの中にありますか？」と尋ねると、物理演算的には各文字が長方形のMatter.Bodyで表現されていると言っています。つまり、それが使用しているパッケージです。基本的には緑色の長方形になっているということです。
そこでコードを修正して緑のボックスを表示しないようにして、コードを更新するように依頼しました。「完了しました。緑の長方形は非表示になりました」と言っています。実際に動作するか見てみましょう。
はい、文字が落下しているのが見えます。サイズも異なり、衝突も期待通りに動作しているようです。これはなかなか印象的です。サイズを変更したときの動作も確認してみましょう。それも問題なく動作しているようです。この特定のタスクではGPT-4oが本当に良い仕事をしています。
次のテストはモデルの創造性とコーディング能力の両方をテストします。これはGoogleチームが共有したプロンプトの一つからインスピレーションを得たもので、プロンプトは「数字キー0〜9でチャンネルを変更できるテレビをコーディングしてください。従来のテレビチャンネルのジャンルからインスピレーションを得た全ての数字のアイデアを考え出し、コンセプトやコンテンツの詳細で面白いアニメーションと、画面上のチャンネルの創造的な名前を表示してください」というものです。
800×800のp5.jsスケッチを返し、HTMLは使用せず、黒い背景で、すべてのチャンネルのコンテンツがテレビ画面領域にマスクされるようにする必要があります。このプロンプトでは非常に具体的な要件を持ちながらも、モデルに創造性の余地も与えています。
Geminiでこのプロンプトを使用したとき、571行のコードを生成しました。これを実行すると、実際に動作するテレビ画面が表示されます。チャンネル番号とチャンネルタイトルがあり、1〜9の数字を押すと実際にチャンネルが変わります。各チャンネルは異なり、実際のテレビチャンネルからインスピレーションを得ているようです。Geminiにとっては素晴らしい結果です。
同じプロンプトをGPT-4oでも試してみましょう。どのようなものが出てくるか見てみましょう。このプロンプトのトークン数はかなり多くなります。Claudeで試したとき、実際にコードを完成させる前にトークン数が足りなくなりました。GPT-4oがどうするか興味深いですね。
これが生成されたコードです。コピーしてp5.jsエディタに貼り付けてみます。現在、コードは約200行で、Geminiで見たものよりもかなり短いですね。どうなるか見てみましょう。
何かは表示されているようですが、キーを押しても何も起こらず、すでにいくつかのエラーが表示されています。このエラーをコピーして、GPT-4oが実際に修正できるか見てみましょう。
GPT-4oによると修正を行ったようですが、完全なコードを提供するよう依頼しました。これが完全なコードです。コピーして再度試してみますが、まだ問題が発生しています。今度は「コールバックが関数ではない」というエラーです。Gemini 2.5 Proのように、一度で修正することはできませんでしたが、もう一度試してみましょう。
誤ってエラーではなくコードをコピーしてしまいましたが、どうなるか見てみましょう。「clipはデフォルトではサポートされていないため削除され、代わりにcreateGraphicsと.maskを適切に使用するようになった」と書かれています。実際に動作するか見てみましょう。
コードを置き換えると、コード行数が増えましたが、いいですね。何かが表示されています。最初のチャンネルは動作しています。「Tune Blitz」、いいですね！これは良いことです。「Space Wire」は4番ですが、何も表示されていません。5番はチャンネル名が表示されていませんが、何かはあるようです。おそらく同じ色なのかもしれません。6番、7番、8番、9番、そして0番もありました。
素晴らしい仕事です！Gemini 2.5 Proと比較して少ない行数で実現できましたが、一度で完成させることはできませんでした。それでもこれは本当に印象的です。Claudeでも試してみたいと思います。どうなるか見てみましょう。Claude 3.5でも試します。以前試したときは問題があり、トークン数が足りなくなっていましたが、今回は一度に完全なコードを提供できることを期待しています。
Claudeが処理している間に、APIを通じてこのモデルを使用したい場合は、「GPT-4o」または「latest」という名前で使用できます。日付付きのモデルバージョンは後で追加される予定ですが、現在モデルは「GPT-4o」または「chatGPT-4o-latest」として利用可能です。
他にもいくつか簡単なテストをしてみましょう。「自転車に乗るペリカンのSVGを生成する」というプロンプトを試します。これはモデルの空間推論能力を評価するための良いテストです。SVGを作成する代わりに画像を作成し始めたようですが、正確に求めていたものではありませんが、自転車に乗るペリカンの画像です。もう一度依頼してみましょう。
その間にClaudeの結果を見てみると、Claudeがメッセージの最大長に達し、応答を一時停止したようです。「続ける」と書いて会話を続けることができます。「続ける」と入力しましたが、実際にコードを完成させることはできませんでした。長いコンテキストLLM、特にプログラミング用のLLMが重要な理由がここにあります。Claudeは現在20万トークンのコンテキストウィンドウを持っていると思いますが、50万トークンのコンテキストウィンドウを持つバージョンがまもなく公開されるという噂があります。それは非常に役立つでしょう。
今回GPT-4oは実際にSVGコードを提供しました。悪くありません。ペリカンは実際に自転車に乗っていますが、足はあまり見えませんし、自転車のフレームの一部が欠けていますが、全体としては悪くありません。
もう一つ面白いことに、「モダンなランディングページをHTML/CSS/JSで作成し、すべてを1つのHTMLファイルに入れて」というプロンプトを試しましたが、何らかの理由で問題が発生しています。もう一度試してみます。これは、モデルがモダンなランディングページについてどう考えているかを知る手がかりになります。ほとんどの場合、これらのLLMが生成するランディングページは非常に似ています。視覚的な要素やデザインが少し異なるだけで、それ以外はまったく同じセクションが表示されます。典型的なSaaSのランディングページからインスピレーションを得ていると思います。
その間にClaudeが実際にコード全体を生成したようなので、これをコピーして出力がどのようになるか見てみましょう。これまでのところ、いくつかのチャンネルで名前が正しく表示されなかったことを除いて、GPT-4oの出力も気に入っています。
Claudeが生成したコードはかなり長く、約1000行ありますが、実際に動作するか見てみましょう。動作しませんね。いくつかの関数を作成し忘れたためにエラーがいくつか発生しています。もう一度コピーしてClaudeがどうするか見てみましょう。
Claudeが完了するのを待っている間、GPT-4oが生成したHTMLページを見てみましょう。何らかの理由で2つのバージョンがありますが、これは実際に実行したためです。2番目のバージョンをコピーして、ランディングページがどのように見えるか確認してみましょう。
これがランディングページです。SaaS企業の典型的なランディングページのように見えますが、非常にミニマルで、あまり内容がありません。セクションはわずか2つだけです。より多くのコンテキストを提供すれば、もっと良い仕事ができると思います。
比較として、まったく同じプロンプトに対してDeepSeek V3が生成したランディングページがこちらです。これははるかに多くのコンテンツがあり、視覚的にもはるかに優れています。実際、ほとんどの人がこれを企業の完全に機能するSaaSウェブサイトだと思うでしょう。DeepSeek V3はこの特定のプロンプトで本当に良い仕事をしています。Geminiも合理的に良い仕事をすると思いますが、GPT-4oはおそらくより多くの指示が必要です。
Claudeにもう一度依頼する必要がありました。彼らが追加し始めたこの小さなアニメーションは本当に素敵です。再びコードを完成させることができなかったようです。続行を依頼する必要があるでしょう。Claudeにとってはあまり良い結果ではありません。
Claudeが完全なコードを提供できない理由は、Claude 3.7のトークン数の上限にあります。通常モードでは最大8,000トークン生成できますが、拡張思考モードでは最大64,000トークン生成できます。しかし、実際には思考バージョンではないClaude 3.5 Sonnetしか表示されていないようです。この変更がいつ起こったのかわかりません。現在は自動的に思考モードを使用することに決めているのかもしれません。あなたも同じことを見たら教えてください。
コーディング能力をテストするために、もう一つ試したのは、回転する六角形とその側面から跳ね返るボールを生成するというLLMをテストするウイルス的なプロンプトです。これが生成されたコードです。これをコピーします。
HTMLエディタに戻り、これを貼り付けて、何が起こるか見てみましょう。六角形が回転し、ボールが角から跳ね返っています。すべてが動作しているようです。ただし、重力の影響下にある通常のボールよりもはるかに多く跳ね返っています。
私が通常行うもう一つのことは、これをより長く実行することです。通常見られるのは、LLMは最初はうまく動作し、ボールは跳ね返りますが、ある時間が経つとボールが六角形から転がり落ちます。ここではそれが起こっていないようです。物理演算も正常に見えます。側面に当たると正しい方向に進むからです。これはうまく動作しているようです。
公正を期すために、GPT-4oはおそらくこのプロンプトを見たことがあると思います。最近更新されたばかりでこれがウイルス的に広がっていますから。
新機能では、複雑な技術的およびコーディングの問題に取り組む能力に加えて、直感力と創造性が向上し、絵文字が少なくなると期待できると述べられています。このモデルの直感力や推論能力を試してみましょう。そのために、「misguided attention」リポジトリに行き、トロッコ問題の修正版を選びましょう。
これを提供しました。すぐに気づくのはトーンの変化です。「ああ、古典的なトロッコ問題ですね。通常の哲学と列車の災害が出会うところです。レバーを引くと、5人を救うために1人に積極的に害を与えます。引かなければ、5人が死ぬのを受動的に許すことになります」と言っています。伝統的なトロッコ問題に戻っているようで、私たちが導入した変更を考慮していないようです。しかし、トーンは古典的なGPT-4oとは非常に異なります。
最後には単に「結果を最大化することを重視しますか、それとも道徳的原則を尊重しますか？直感的にはどうですか？レバーを引きますか？」と尋ねています。基本的に私に質問しています。そこで「プロンプトで言及された5人について何か気づきましたか？」と尋ねました。
すると「はい、トロッコが5人の死者に向かって突進していると言っていましたね。これは通常のトロッコ問題をひっくり返します。彼らがすでに死んでいるなら、レバーを引いて1人の生きている人を殺すことは倫理的に全く意味がありません。0の命を救うために1の命を犠牲にすることになります。この素晴らしいひねりは計算全体を変えます。このバージョンでは正しい行動はほぼ確実にレバーを引かないことでしょう」と言っています。さらに「これを投げかけたのは、私が見逃すかどうか見るためですか？」と言い、絵文字も入れています。トーンは間違いなく違いますが、絵文字が少なくなったかどうかはわかりません。
同じチャットセッションで、猫がすでに死んでいるという修正版のシュレディンガーの猫のパラドックスを入れてみました。すると「よし、何をしているかわかりました。これは有名な量子力学の思考実験、シュレディンガーの猫のひねりですね」と言い、猫がすでに死んでいることに気づきました。
全く新しいチャットセッションでも同じプロンプトを実行しました。ここでも「猫が箱に入れられた時点ですでに死んでいるので、設定は結果に無関係になります。1日後に猫が生きている確率はゼロです。これは古典的なシュレディンガーの猫の思考実験の面白いひねりです」と言っています。チャンスがあれば絵文字を入れようとしているようです。トーンは非常に異なり、「でもあなたのバージョンでは、かわいそうなものは最初から死んでいるんですよね」と言っています。明らかにGrokの会話スタイルをコピーしようとしています。
このトーンの変化に加えて、画像生成も従来のOpenAIやGPT-4oから見られるものよりもはるかに柔軟性と自由度を許容しているようです。OpenAIはGPT-4の画像生成のブログ記事で指摘したように、一部の安全ルールを変更しているようですが、一部のルールはまだ残っています。安全ルールに違反するかどうかによっては、一部のコンテンツがブロックされる可能性があります。
これはOpenAIからの非常に興味深いアップデートです。特にコーディング能力についてより徹底的にテストする予定なので、その動画をお見逃しなく。すでに書き方のスタイルが気に入っています。GPT-4.5のトーンを持っていて、GPT-4.5と非常に似たトーンのようです。通常のGPT-4oのようには感じません。
このモデルでの経験や気づいたことがあれば教えてください。この動画が役立つことを願っています。視聴ありがとうございました。次回もお会いしましょう。