GPT-5.4 Thinkingによるコンピューター操作とフロントエンドUI開発

OpenAIの新モデルGPT-5.4 Thinkingは、アプリ開発とウェブ開発において画期的な進化を遂げている。従来のGPT-5.3 Codexと比較して、コンピューター操作機能(Kua)の実装により、人間に近い形で環境を永続的に操作できるようになり、モデルが自身の作業をテストする際のトークン使用量が最大3分の2削減された。3Dチェスゲームの構築やウェブサイトのデザイン再現といった複雑なタスクにおいて、モデルは画像認識と生成を組み合わせながら、人間のようにユーザーインターフェースを通じて自身の成果物を検証できる。これにより、開発作業がより効率的かつ高品質になり、非エンジニアでもプロフェッショナルなアプリケーションやウェブサイトを実現できる時代が到来している。

Computer Use & Frontend UI with GPT-5.4 Thinking

OpenAI researcher SQ Mah explains how GPT-5.4 Thinking brings even more powerful capabilities to Codex — with more persi...

GPT-5.4 Thinkingの登場とアプリ開発への応用
3DチェスゲームのElectronアプリ構築
ウェブサイト複製と画像生成・検索機能
モデルによる自己検証とKuaの活用

GPT-5.4 Thinkingの登場とアプリ開発への応用

モデルには自分の作業を本当にしっかりとチェックできる能力が求められます。特に、私たちがモデルに構築を依頼するものがより複雑になっていく中では尚更です。私はSQといいます。モデルをウェブ開発やアプリ開発、そしてユーザー体験が必要とされるあらゆる分野でより優れたものにするためのトレーニングに取り組んでいます。

本日は、新しいモデルGPT-5.4 Thinkingのリリースと、アプリ開発に関連する2つの機能についてお話しします。1つ目はKua、つまりコンピューター操作を使用する能力です。そして2つ目は、画像入力を使って素晴らしいウェブサイトを作成する能力です。

GPT-5.3 Codexと比較して、モデルにKuaを使わせると、新しい環境を立ち上げる必要がなくなりました。これはむしろ、皆さんがコンピューターと対話する方法により近いものです。永続的なKuaにより、モデルに作業のテストを依頼した場合、トークン使用量が実際に3分の2削減されるケースも見られています。これはかなりエキサイティングなことです。

3DチェスゲームのElectronアプリ構築

それでは、今日持ってきた例をいくつかお見せしましょう。Codexを開きます。GPT-5.4 Thinkingを使用し、高推論レベルで3DチェスゲームのElectronアプリを構築してテストしてもらいます。

モデルにもう少しチャレンジングな要素を加えて、ガラスと大理石という2つのエフェクトを作成するよう依頼します。処理が始まりました。

これはKuaにとって非常に難しいユースケースです。なぜなら、駒がたくさんあるからです。正しい駒をクリックする必要があります。反射効果は機能しているでしょうか。モデルはすべてのルールをしっかりと理解し、それらの駒を操作することで、実際にそれらのルールをテストできる状態にどのように持っていくかを把握する必要があります。

例えばキャスリングですね。キングやルークをどこにドラッグすれば、正しくキャスリングが行われる位置に配置できるのか。今キャスリングが起きました。今何をしているのでしょう。

Kuaがゲームをクリックして、反対側のポーンを動かしています。実際にゲームをプレイしているんです。私たちは人間が使うためのソフトウェアを構築しています。そして人間はユーザーインターフェースを通じてソフトウェアを使います。ですから、モデルには人間がチェックするのと同じように、自分の作業をチェックできるようになってほしいのです。

ウェブサイト複製と画像生成・検索機能

2つ目にお話ししたいのは、ウェブサイトの複製、特に画像生成と画像検索についてです。私のパートナーであるナンシーは、ずっと自分のコーヒーショップを始めたいと思っていました。

彼女はプログラマーではありません。それで、彼女が希望するウェブサイトのデザインを私に渡してくれました。そして、Codexとgpt-5.4 Thinkingを使って、それを現実のものにします。

この例ではCodexを使っていますが、ChatGPTでも同様に機能します。モデルはデザインの文脈をより深く理解できるようになっています。例えば、そのスタイルに最も適した画像はどのようなものか、といったことです。そして画像生成に対して、より一貫性があり美的に調和した画像を作成するようプロンプトを出します。

今、画像生成ツールを呼び出しています。画像生成の使い方もスマートです。画像の生成には時間がかかりますので、実際にこれら4つの画像すべてを同時並行で処理しています。これはかなり素晴らしいことです。