GPT-5.4がヤバすぎる!OpenAI史上最高のモデル!100万トークンコンテキストとコーディング性能を完全テスト

OpenAIが今週中にも発表する可能性がある新しいフラッグシップモデルGPT-5.4は、GoogleのGeminiやAnthropicのClaudeが実装した100万トークンのコンテキストウィンドウに対抗する形で登場する。本モデルは既に一部のユーザーがCodexアカウントを通じて早期アクセスしており、フロントエンド開発、特にブラウザベースのOS生成やMinecraftクローンの作成において優れた能力を発揮している。新たな極限推論モードや数時間にわたる長時間タスクの実行能力、エージェントシステムへの強力なサポートなど、複雑な問題解決と研究用途に特化した設計となっており、価格もOpusシリーズと同等かそれ以上になると予想される。実際のテスト結果では、UI生成の一貫性や3D生成能力において高い性能を示す一方、特定のデザイン美学が強制される傾向も見られた。

GPT-5.4 Is INSANE! OpenAI's BEST Model Yet! 1 Million Context & Excels at Coding! (Fully Tested)

📢 Access top AI models and creators like Anthropic’s Claude, OpenAI’s GPT, Meta’s Llama, DeepSeek, Moonshot AI’s Kimi, p...

GPT-5.4の早期リリースと初期アクセス
100万トークンコンテキストウィンドウへの対応
AIの最新動向とMammoth AI
Minecraftクローンの生成テスト
フロントエンド生成の特徴と課題
3D生成とその他の機能テスト
総評と展望

GPT-5.4の早期リリースと初期アクセス

サム・アルトマンとOpenAIは今週の初めに、新しいフラッグシップモデルGPT-5.4のローンチが人々の予想よりも早く来る可能性があると発表しました。つまり、今週中か、あるいは来週のどこかで見られるかもしれないということです。そして幸運なことに、私たちはすでにこのモデルのチェックポイントへの早期アクセスを得ることができました。

率直に言って、かなり良いです。伝えられるところによると、いくつかのチェックポイントが出回っているようで、そのうちの一つがGalacopusです。これはAlam MarinaやDesign Arenaといった異なるプラットフォームを通じてアクセスできます。正直なところ、テストしてみた結果、OpenAIは本当にこのアップデートで素晴らしい仕事をしたかもしれません。

最初に、Mac OSを模倣したブラウザベースのOSを作成するようリクエストしてみました。そして、多くの機能を持つさまざまなアプリケーションを作成するのに素晴らしい仕事をしたことがわかります。このモデルは、フロントエンド機能と動的に創造的な属性を使用してブラウザベースのOSのすべての機能を作成するというテストに見事に合格しました。

そして、私たちは幸運かもしれません。というのも、今日、おそらく太平洋標準時の午前10時に見られる可能性があるからです。GPT-5.4はこの時点でリリースされるとリストされる予定です。すでに多くのCodexアカウントに配信されているためです。多くの人々がProアカウント内で直接試すことができているのがわかります。

100万トークンコンテキストウィンドウへの対応

考えてみれば、OpenAIの2大競合であるGoogle DeepMindのGeminiとAnthropicのClaudeの両方が100万トークンコンテキストウィンドウを持つモデルをリリースした今、明らかにOpenAIにその能力に匹敵するモデルで応答するよう圧力をかけています。だからこそ、The Informationやその他多くの情報源から報告されているように、GPT-5.4が100万トークンコンテキストウィンドウを持つその応答である可能性があるのです。

また、より深い思考のためにより多くの計算資源を割り当てる新しい極限推論モードもあり、数時間実行できる長期タスクでのパフォーマンス出力が大幅に改善されています。これはかなり革命的でしょう。

また、複数ステップのワークフロー全体でより良いメモリを備え、複雑なタスクでのエラー率を低下させ、OpenAIのCodex製品のようなエージェントや自動化システムへの強力なサポートも期待されています。全体的に、このモデルはOpusシリーズに似た高度な研究と複雑な問題解決のために設計されると考えており、長時間実行されるAIワークフローという点でエージェント的なタスクとうまく連携できるものになるでしょう。

また、このモデルは予想よりもかなり高価になると見ています。おそらくOpusと同じ価格帯を模倣するか、さらに高くなる可能性があります。

始める前に、本日のビデオスポンサーであるMammoth AIをご紹介させてください。開発者にとって、最大の苦痛の一つは異なるモデルAPIを使い分けることです。しかしMammothはこれを解決します。なぜなら、Anthropic、OpenAI、Gemini、その他多数のプロバイダーを単一のプラットフォームに統合し、クライアント、nan、VS Code、make、CLIツール、その他のOpenAI互換フレームワークなど、さまざまなツールや拡張機能で動作するAPIアクセスを提供するからです。

AIの最新動向とMammoth AI

今のAIの新しい動きはこうです。マルチモーダル能力と大規模コンテキスト処理を推進しているGemini 3 Pro。複雑な推論とエージェント的なバックエンドタスクを支配しているGPT-5シリーズ。本格的なコーディング能力とエージェント機能を提供する新しいAnthropicのClaudeモデル。そして、さまざまなグローバルリーダーから登場している新しいモデルたち。

Mammothなら、これらすべての異なるプロバイダー間をオンデマンドで切り替えることができます。再プロンプトツールで比較したり、追加の接着コードなしで単一のAPIキーで自動化やアプリに統合できます。クリエイティブワークフロー、開発パイプライン、エンタープライズ自動化のために、大きな時間の節約になります。ですから、下の説明欄にあるリンクを使って、Mammothを簡単に始めてください。

Minecraftクローンの生成テスト

さて、このモデルによって駆動される100万トークンコンテキストウィンドウがあれば、素晴らしい出力を得ることができます。ここで私は完全なMinecraftクローンを作成しました。そして、これはおそらく私が見た中で最高のMinecraftクローンの一つです。ブロックを配置する能力があります。これらの機能はすべて実際に動作しています。

地形を歩いていくと見えるように、生成されている無限の地形があります。ブロックを破壊する能力もあります。アニメーションがないのが唯一の欠点ですが、シングルショットでこのモデルがこれを作成できるという事実は本当に素晴らしいです。これがこのモデルの能力です。

より長いコンテキストのおかげで、与えられたプロンプトをより良い出力品質で処理できるのです。実際に再プロンプトしてみたところ、今回は洞窟、クラフティング、そしてアニメーションをこの世界に追加しました。今、実際にブロックを破壊すると、アニメーションが表示されます。

インベントリも追加されました。これは素晴らしいです。なぜなら、実際に板などの異なるアイテムをクラフトできるからです。そして、それを配置する能力もあります。これが木の板が実際にどのように見えるかです。そして、これが洞窟の一つが実際にどのように見えるかです。地形内に自動的に生成されています。

これは見ていてかなりクールです。また、このモデルはフロントエンド開発において非常に熟練しているようです。シンプルなクロッピングツールを作成するようリクエストしました。そして、そのシングルショットプロンプトを受けてこれを開発しました。AIが生成したUIは明らかに素晴らしいです。

このクロッピングツールのために多くのクールな機能を開発しており、複雑なUIコンポーネントを生成して管理することができました。すべてのレイアウトはかなり良く見え、高い精度でインタラクティブなWebアプリケーションを開発しました。それ自体で見るのはかなり素晴らしいことです。

フロントエンド生成の特徴と課題

しかし、ビデオ全体を通して、フロントエンドの出力に特定のトーンがあることに気づくでしょう。OpenAIがフロントエンド品質のために出力する特定のスタイリングがあります。以前のモデルからの出力と似ていて、OpenAIから常に出力されるあの紫色のランディングページや紫色のフロントエンドを見るのと同じです。

次に、単一のHTMLファイルでハイエンドのReact SaaSランディングページを生成する複雑なフロントエンドプロンプトでモデルをストレステストしました。しかし、このケースではモデルが少しバグを起こしました。ひどいとは言いませんが、Opus 4.5の方が実際にこの生成でより良い仕事をしました。これがOpus 4.5から得られたもので、私の意見ではかなり良く見えます。

OpenAIモデルが何をしたか見てみると、悪いとは言いませんが、この品質をもっと良くするための多くの改善の余地があったように見えます。全体的には、すべてのアニメーションを作成し、署名の追加、下部のフッターなど、すべてのコンポーネントを備えた私たちがリクエストしたクールなランディングページを作成するという、リクエストした仕事をこなしました。

しかし、Opus 4.5の方が創造的な出力でより良い仕事をしたと感じました。そして、それはリリースされた最新のモデルでさえありません。これは少し心配です。これがフロントエンドスタイリングについて私が言っていることです。このモデルからの出力には、明らかに新しいデザイン美学があります。

悪いとは言いません。Codexモデルで以前見た紫色のスタイリングよりは確実に良くなっています。しかし、ここでステップチャート、消費カロリー、ワークアウト履歴を持つフィットネストラッカーアプリを作成するよう依頼したところ、指示に従うことに関してはかなりうまくできました。

幻覚を起こさないという点でGeminiモデルよりもはるかに良い仕事をしています。これは素晴らしいことです。怠けていないのも、もう一つの素晴らしい機能セットです。そして、探している品質を生成するのに非常に熟練して働くことができます。そして、これはおそらく私が見た中で最高のチャートの一つですが、スタイリングと美学は時に圧倒的になることがあります。

3D生成とその他の機能テスト

次は、オービットコントロール付きのシンプルな3Dルームを作成しました。基本的に、3JSでの創造的な生成においてどれだけ熟練しているかを確認しようとしています。この部屋の機能的な幾何学的物理コントロールを持つ3Dルームを作成するためです。

そして、部屋を作成するのに素晴らしい仕事をし、夜間にどのように見えるかも表示しています。夜にトグルすると、太陽が月に変わっているのが見えます。ランプからの照明も出力されています。そして、実際に床に光がどのように見えるか、または表示されるかのグラデーションを示すものです。

これは実際にかなりクールです。明らかに4.5と比較すると、はるかに良いです。Sonnetモデルで見るものよりも10倍良く見えることがわかります。

TwitterのLeamもこのモデルをテストするのに素晴らしい仕事をしており、SVGから太陽系の軌道のようなものを生成するまで、彼の生成は本当に素晴らしいです。出力の品質は本当に素晴らしいです。

彼はVoxil benchでのテストや、SVGでどのように見えるかについて素晴らしい仕事をしました。ここで彼はPS5コントローラーをSVGで生成しました。複雑でよく構造化されたSVGグラフィックを生成できるため、生成は本当に素晴らしいです。また、手続き型都市ジェネレーターやシミュレーションなど、さまざまなゲームやさまざまなアプリのためのかなりクールなUIもあります。

これは5.4から得られた本当にクールな生成です。そして、彼はMinecraftクローンを作成するようリクエストしましたが、これもかなり良く見えます。

さて、私が話していたUI問題がここにあります。UIに関して何かがすべての生成に強制され続けています。VS Codeスタイルのファイルエクスプローラーを作成しましたが、これのために独自のUIを作成する必要はありませんでした。

この生成に強制されました。これは少し奇妙です。Coinで見るものよりも良くできました。しかし、Coinはこのフロントエンドで素晴らしい仕事をし、トリビアを使ってVS Codeファイルエクスプローラーをクローンすることができました。しかし、ここを見ると、機能的なコンポーネントがあります。誤解しないでください。これは完璧です。なぜなら、Coinモデルはそれをしなかったからです。

しかし、すべての生成に同じ種類のUIスタイルを強制していることがわかります。これは少し安っぽく、このモデルをドロップする際には変更してほしいと思います。この次のステップインターフェースも同じです。作成するようリクエストしましたが、この生成を強制しました。

一方、Gemini 3.1 Flashでは強制しませんでした。Galacopusモデルで見るものと比較して、実際に本物に見える完全な次のステップインターフェースを模倣して作成することができました。

このビデオが気に入って、チャンネルをサポートしたい場合は、下のスーパーサンクスオプションを通じて私のチャンネルに寄付することを検討できます。または、月単位で無料でさまざまなAIツールへの複数のサブスクリプションにアクセスできるプライベートDiscordへの参加を検討できます。さらに、日々のAIニュースや限定コンテンツなど、たくさんのものがあります。

総評と展望

しかし、結論として、私の率直な意見は、これらのテストがジャンプを表しているなら、それは生の知識についてではないように見えるということです。規模での出力の一貫性についてです。そして、これは、より多くの人々が出力の品質のためにアクセスして使用し始める信頼できるモデルになるだろうと確実に考えています。

このモデルが明日、願わくばドロップされることを期待しています。しかし、Galacopusモデルを試せるように、これらすべてのリンクを下の説明欄に残しておきます。まだの方は、セカンドチャンネルを購読してください。ニュースレターに参加し、Discordに参加し、Twitterでフォローし、YouTubeチャンネルを購読してください。

しかし、そのような考えで、みなさん、本当に見てくれてありがとうございます。素晴らしい一日をお過ごしください。ポジティビティを広め、またすぐにお会いしましょう。しかし、そのような考えで、みなさん、素晴らしい一日をお過ごしください。またすぐにお会いしましょう。