OpenAIが近日中にリリースする可能性のあるフラッグシップモデルGPT-5.4について、早期アクセスを通じた詳細なテストレポートである。GeminiやClaudeが100万トークンのコンテキストウィンドウを実装したことを受け、OpenAIもこれに対抗する形でGPT-5.4を投入すると見られている。本モデルは100万トークンのコンテキストウィンドウ、新たな極限推論モード、長時間タスクの大幅な性能向上を特徴とし、複雑な問題解決や高度な研究用途を想定して設計されている。実際のテスト結果では、ブラウザベースOS、Minecraftクローン、画像クロッピングツールなどの生成において高い能力を示した一方、フロントエンドデザインにおいては独特のスタイルが強制される傾向が確認され、Claude Opus 4.5と比較して創造性の面で課題も見られた。価格面ではOpusと同等かそれ以上になると予想されている。

GPT-5.4の早期リリースと先行アクセス
サム・アルトマンとOpenAIは今週初めに、新しいフラッグシップモデルGPT-5.4のローンチが人々の予想よりも早く来るかもしれないと述べました。つまり、今週中か来週のどこかで見られる可能性があるということです。そして幸運なことに、私たちはすでにこのモデルのチェックポイントへの早期アクセスを手に入れました。
そして正直に言って、かなり良いです。伝えられるところによると、いくつかのチェックポイントが出回っているようです。その一つがGalacopusで、Alam MarinaやDesign Arenaといった様々なプラットフォームを通じてアクセスできます。正直なところ、テストしてみた結果、OpenAIはこのアップデートで本当に素晴らしい仕事をしたかもしれません。
ここで私が最初にリクエストしたのは、Mac OSを模倣するブラウザベースのOSを作成することでした。そして見ての通り、多くの機能を持つ様々なアプリケーションを作成する素晴らしい仕事をしてくれました。このモデルはフロントエンド機能だけでなく、ブラウザベースOSの全機能を作成するために創造的な属性を動的に使用することで、このテストに見事に合格したと言えます。
リリースタイミングと競合他社への対抗
そして私たちはラッキーかもしれません。なぜなら、今日、おそらく太平洋標準時の午前10時に見られるかもしれないからです。GPT-5.4がこの時間にリリースされるとリストアップされている理由は、すでに多くのCodexアカウントに配布されているためです。そして多くの人々が、自分のProアカウント内で直接試すことができているのが確認できます。
しかし考えてみてください。OpenAIの最大の競合他社である、GoogleのDeepMindのGeminiやAnthropicのClaudeの両方が100万トークンのコンテキストウィンドウを持つモデルをリリースした今、OpenAIにはその能力に匹敵するモデルで応答するよう明らかに圧力がかかっています。
だからこそ、The Informationや他の多くの情報源から報告されているように、GPT-5.4が100万トークンのコンテキストウィンドウを持つその回答になる可能性があるのです。より深い思考のためにより多くの計算リソースを割り当てる新しい極限推論モードも搭載され、数時間実行できる長期タスクでのパフォーマンス出力が大幅に改善されるとのことで、これはかなり革命的です。
モデルの特徴と期待される性能
また、マルチステップワークフローにわたるより良いメモリ機能を備え、複雑なタスクでのエラー率を低減し、OpenAIのCodex製品のようなエージェントや自動化システムへの強力なサポートも期待されています。全体的に、このモデルはOpusシリーズと同様に、高度な研究や複雑な問題解決のために設計されると考えています。そして長時間実行されるAIワークフローという点でGentic タスクとかなりうまく連携できるものになるでしょう。
また、このモデルは私たちが予想する以上に高価になると見ています。おそらくOpusと同じ価格帯か、それ以上になるでしょう。
本題に入る前に、今日のビデオスポンサーであるMammoth AIをご紹介させてください。開発者にとって最大の苦痛の一つは、異なるモデルAPIを使い分けることです。
しかしMammothはこれを解決します。なぜなら、Anthropic、OpenAI、Gemini、そして他の多くのプロバイダーを単一のプラットフォームに統合し、Client、Nan、VS Code、Make、CLIツール、その他のOpenAI互換フレームワークといった様々なツールや拡張機能と連携するAPIアクセスを提供するからです。
最新AIモデルの動向
現在のAIの最新情報はこちらです。マルチモーダル機能と大規模なコンテキスト処理を推進しているGemini 3 Pro。複雑な推論とエージェンティックなバックエンドタスクで優位に立っているGPT-5シリーズ。真剣なコーディングとエージェンティック機能を提供する新しいAnthropicのClaudeモデル。そして様々なグローバルリーダーから登場している新しいモデルたち。
Mammothを使えば、これらすべての異なるプロバイダー間をオンデマンドで切り替えることができます。再プロンプトツールで比較したり、追加の接着コードなしで単一のAPIキーでクリエイティブワークフロー、開発パイプライン、エンタープライズ自動化にそれらを統合したりできます。大きな時間の節約になります。下の説明欄のリンクを使って、Mammothを簡単に始めることができます。
Minecraftクローンの生成テスト
さて、このモデルによって駆動される100万トークンのコンテキストウィンドウがあれば、素晴らしい出力が得られると言わなければなりません。ここで私は完全なMinecraftクローンを作成しました。そしてこれはおそらく私が見た中で最高のMinecraftクローンの一つです。ブロックを配置する能力があります。これらの機能はすべて実際に動作しています。
地形を歩いていくと見ることができる、生成される無限の地形があります。またブロックを破壊する能力もあります。アニメーションがないのが唯一の欠点ですが、単一のプロンプトでこのモデルがこれを作成できるという事実は驚くべきことです。これがこのモデルの能力です。
そしてより長いコンテキストのおかげで、与えられたプロンプトをより良い出力品質で処理できるのです。実際に再プロンプトしてみました。今回は洞窟やクラフティング、そしてアニメーションもこの世界に追加しました。だから今、実際にできることは、ブロックを破壊すると、アニメーションが表示されることです。
今はインベントリもあり、これは素晴らしいです。なぜなら実際に板などの異なるアイテムをクラフトできるからです。そしてそれを配置する能力があります。これが木の板が実際にどのように見えるかです。そしてこれが洞窟の一つがどのように見えるかです。地形内に自動的に生成されています。
これは実際にかなりクールです。そしてこのモデルはフロントエンド開発にも非常に熟達しているようです。ここで私はシンプルなクロッピングツールを作成するようリクエストしました。そしてそのシングルショットプロンプトを受け取り、これを開発しました。AIが生成したUIは明らかに驚くべきものです。
フロントエンド開発能力のテスト
このクロッピングツールのために多くのクールな機能を開発し、複雑なUIコンポーネントを生成および管理することができました。すべてのレイアウトはかなり良く見えますし、高い精度でインタラクティブなWebアプリケーションを開発しました。それ自体でかなり素晴らしいことです。
しかし、ビデオを通して、フロントエンドには特定の出力のトーンがあることに気づくでしょう。OpenAIがフロントエンド品質のために出力する特定のスタイリングがあります。以前のモデルで出力されていた紫色のランディングページや紫色のフロントエンドを常に見ていたのと同様です。
次に、モデルに複雑なフロントエンドプロンプトでストレステストを行い、単一のHTMLファイルで高品質なReact SaaSランディングページを生成してもらいましたが、このケースではモデルが少しバグりました。
ひどいとは言いませんが、Opus 4.5は実際にこの生成でより良い仕事をしました。これがOpus 4.5から得たもので、私の意見ではかなり良く見えます。では、OpenAIモデルが何をしたか見てみると、悪いとは言いませんが、この品質をもっと良くするための改善の余地はまだあったと思います。
全体的には、すべてのアニメーションを作成したり、タイポグラフィ、署名の追加、下部のフッターなどのすべてのコンポーネントを備えた素敵なランディングページを作成するという、リクエストした仕事を完了しました。しかし、Opus 4.5の方が創造的な出力でより良い仕事をしたと感じました。
そしてそれはリリースされた最新モデルですらありません。だからちょっと心配です。そしてこれがフロントエンドスタイリングについて私が言っている意味です。このモデルの出力には明らかに新しいデザイン美学があります。悪いとは言いません。以前Codexモデルで見た紫色のスタイリングよりは確実に良くなっています。
フィットネストラッカーと3D生成
しかしここで私はステップチャート、消費カロリー、ワークアウト履歴を持つフィットネストラッカーアプリを作成するよう依頼しました。そして指示に従うことでかなり良い仕事をしてくれました。幻覚を見ないという点でGeminiモデルよりもはるかに良い仕事をしており、これは素晴らしいです。怠惰でもなく、これも別の素晴らしい機能セットです。
そして探している品質を生成することにかなり熟達して動作できます。そして私が見た中で最高のチャートの一つだと言わなければなりませんが、スタイリングと美学は時々圧倒的になる可能性があります。
次は、軌道コントロールを備えたシンプルな3D部屋を作成したところです。基本的に、この部屋の機能的な幾何学的物理コントロールを備えた3D部屋を作成するために、3JSでの創造的生成にどれだけ熟達しているかを確認しようとしています。
そしてここで部屋を作成する素晴らしい仕事をし、夜間にどのように見えるかも表示しています。夜にトグルすると、太陽が月に変わっているのが見えます。そしてランプからの照明も出力されています。そしてそれは実際に床に光がどのように見えるか、または表示されるかのグラデーションを示すものになります。
これは実際にかなりクールです。そして明らかに4.5と比較すると、はるかに良いです。そしてSonnetモデルで見るものと比べて10倍良く見えることがわかります。
TwitterでのテストとSVG生成
TwitterのLeamもこのモデルをテストする素晴らしい仕事をしており、彼の生成物はSVGから太陽系の軌道のようなものを生成するまで、本当に驚くべきものです。出力の品質は本当に驚くべきものです。
彼はVoxil benchでのテストやSVGでどのように見えるかのベンチマークで素晴らしい仕事をしました。ここで彼はPS5コントローラーをSVGで生成しました。そして生成は本当に驚くべきものです。なぜなら複雑で構造化されたSVGグラフィックを生成できただけでなく、procedural city generatorやシミュレーションなど、様々なゲームや様々なアプリのためのかなりクールなUIも生成できたからです。
これは5.4から得た本当にクールな生成です。そしてここで彼はMinecraftクローンを作成するようリクエストしましたが、これもかなり良く見えます。
さて、私が話していたUI問題はここにあります。UIの何かがすべての生成に強制され続けています。ここで私はVS Codeスタイルのファイルエクスプローラーを作成しましたが、これのために独自のUIを作成する必要はありませんでした。
この生成に強制されており、ちょっと奇妙です。Coinで見るよりも良い仕事をしましたが、CoinはtriviaでVS Codeファイルエクスプローラーをクローンできたこのフロントエンドで素晴らしい仕事をしました。しかしここを見ると、機能的なコンポーネントがあります。だから誤解しないでください、これは完璧です。なぜならCoinモデルはそれをしなかったからです。
しかし、すべての生成に同じ種類のUIスタイルを強制しているのが見えます。これはちょっとダサいですし、このモデルをドロップする時には変更してくれることを願っています。
ネクストステップインターフェースとの比較
この次のステップインターフェースも同様です。作成をリクエストしたのですが、この生成が強制されました。一方、Gemini 3.1 Flashでは強制されませんでした。
Galacopusモデルで見るものと比較して、実際のように見える完全な次のステップインターフェースを模倣して作成できました。
このビデオが気に入って、チャンネルをサポートしたい場合は、下のSuper Thanksオプションを通じて私のチャンネルに寄付することを検討できます。または、月額ベースで無料で複数のAIツールへの様々なサブスクリプション、さらに毎日のAIニュースと限定コンテンツ、さらにもっと多くのものにアクセスできる私たちのプライベートDiscordに参加することを検討できます。
総括とモデルの評価
しかし結論として、私の意見では、これらのテストがジャンプを表しているなら、それは生の知識についてというより、大規模でのアウトプットの一貫性についてのようです。そして確実に、これはより多くの人々がアクセスして使い始める信頼できるモデルになると思います。確実にその出力品質のためです。
このモデルが明日にでもドロップされることを願っています。しかし、Galacopusモデルを試せるように、すべてのリンクを下の説明欄に残しておきます。まだの方は必ずセカンドチャンネルを購読してください。ニュースレターに参加し、Discordに参加し、Twitterでフォローし、YouTubeチャンネルを購読してください。
しかしその考えとともに、皆さん、見てくれて本当にありがとうございました。素晴らしい一日を過ごしてください。ポジティビティを広めてください。またすぐにお会いしましょう。しかしその考えとともに、皆さん、素晴らしい一日を過ごしてください。またすぐにお会いしましょう。

コメント