GPT-5.4 壁は見えない

OpenAIがGPT-5.4をリリースし、人間の専門家を上回る性能を示し始めている。特筆すべきは、モデルに初めてネイティブなコンピュータ使用機能が組み込まれた点である。GPDP-valベンチマークでは82%の勝率またはタイ率を記録し、純粋な勝率でも70%に達している。さらにOS Worldでは75%の成功率を達成し、人間のパフォーマンス72.4%を超えた。一方、Anthropicは国防総省によってサプライチェーンリスクと正式に認定され、法廷での争いを表明している。OpenAIは金融サービスツール群をリリースし、Anthropicの機能を取り入れる動きを見せている。労働市場への影響も徐々に顕在化しており、特にキャリア初期の雇用が減少傾向にある。

GPT 5.4 "we see no wall"

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

GPT-5.4のリリースと驚異的な進化
GPDP-valベンチマークでの大幅な向上
労働市場への影響の兆し
OS Worldでの人間超え
OpenAIのAnthropicからの機能移植
OpenAIからAnthropicへの人材移動
新モデルのテストへ

GPT-5.4のリリースと驚異的な進化

今日も終わりに近づいていますが、とんでもないAIニュースがあります。まず何よりも、GPT-5.4がリリースされました。どうやら人間を置き換える能力がかなり高そうです。さらに驚くべきことに、ネイティブに組み込まれたコンピュータ使用機能を備えているようです。これまでこんなものは見たことがありません。モデルにネイティブで組み込まれているなんて。

ノーム・ブラウンがAIの進歩についてこう語っています。壁は見えない。経済的に価値のあるタスクにおいて、恐ろしいほど優秀になってきている。そして残念なことに、Anthropicは正式にサプライチェーンリスクとしてラベル付けされてしまいました。私たちみんなが、こんなことにはならないでほしいと願っていたことです。でも実際に起こってしまいました。正式に。

Anthropicは法廷でこれに異議を唱えると表明しています。良いニュース、あるいはせめてもの救いと言えるのは、これが国防総省との契約の直接的な一部としてClaudeを使用する顧客にのみ適用されるという点です。そうした契約を持つ顧客によるClaude使用全てではありません。国防総省の書簡は範囲が限定的であり、関連する法令も限定的なものです。これを聞いて本当に嬉しいです。

つまり、これはAnthropicへの大打撃にはならないということです。でも彼らは依然として異議を唱えるつもりですし、こんな状況になってしまったこと自体がかなり残念です。なぜなら彼らは今、政府と再び交渉しているわけですから。どうなんでしょう、私としては状況が良くなっていると思いたかったのですが。このGPT-5.4の新リリースについて本当に目立つことがあります。

GPDP-valベンチマークでの大幅な向上

つまり、いくつか本当に注目すべき点があるんですが、最初に気づいた興味深いことは、GPDP-valで大きな飛躍を遂げているということです。GPDP-valは、特定の業界で豊富な経験を持つ人々を対象にしています。平均して12年の経験、マネジメント経験を持つ人々だと思います。そして、そうした専門家たちがルーブリックを作成し、その業界の人々が行う完成した最終プロジェクトを採点します。その業界の専門家が行うプロジェクトです。

例えば、製造エンジニアの場合、こういったプロンプトとタスクのコンセプトがあり、経験豊富な人間の成果物があります。つまり、あなたが経験豊富な人間なら、上司がこの特定のプロジェクトをやってくれと頼んできた時に提出するであろう仕事の例がこれです。もしあなたが注文事務員なら、あなた向けのプロジェクトがあります。

そして、これが経験豊富な人間の成果物がどんな感じになるかというものです。あるいはプロデューサーなら、その特定の成果物はこういった感じになります。これについてあまり深く掘り下げるつもりはありません。基本的には、人間とAIモデルのどちらがより良くできるかを分割テストしているんです。リリース後しばらくの間、LMモデルは人間ほど優秀ではありませんでした。

この線が見えるでしょうか。これが業界専門家との同等性です。つまり人間です。そしてこれが進歩の状況です。異なるモデルによる勝率、あるいは勝率プラスタイ率のようなものです。これはこのベンチマークの最初のリリースの頃です。でもそれ以来、着実に改善されています。そして今やGPT-5.4とGPT-5.4 Proがこの特定のベンチマークで非常に高いランキングを獲得しています。

GPT-5.4 Proは82%です。つまり人間の専門家が仕事を提出し、GPT-5.4 Proがその完成した仕事を提出する。そのルーブリックはこの分野の専門家によって設計されています。実際には14年の経験を持つ人々だと思います。デロイト、ウェルズ・ファーゴ、バンク・オブ・アメリカ、Google、などなどといった企業で働く人々です。

彼らがこれらを採点するルーブリックを作成し、今やこれらの新しいGPT-5.4モデルは82%または83%の勝率を獲得しています。人間に対して勝つか、あるいはタイになるわけです。そして純粋な勝率だけを見ると、約70%です。つまり70%の確率で勝利し、人間の専門家の仕事よりも優れていると判定されるんです。

労働市場への影響の兆し

これが実際の仕事にどう影響するかはまだ分かりません。この自動化が実際の人々、実際の仕事を置き換えるのでしょうか。ところで、今日、今日は大きな日です。今日、Anthropicも「AIの労働市場への影響、新しい測定方法と初期の証拠」を公開しました。これについてはおそらく別のビデオを作ることになるでしょう。なぜならこれは見守るべき非常に興味深いトピックだからです。

大きな見出しとしては、今日時点で大きな影響は実際には見られていない、あるいは少なくともまだ大きな影響はないということですが、大学を卒業してすぐのキャリアの初期段階、スキルを積み上げて労働力に参入する最初の数年間といった時期において、雇用が減少してきているのが見られます。

その領域がターゲットになっており、そうした特定の個人に対する雇用の伸びが本当に鈍化しています。これは私たちが取り上げたスタンフォードの論文とほぼ同じことです。同様のことを発見しています。スタンフォードの論文は研究のためにAnthropicのデータを多く使用しました。だから理にかなっています。

でも彼らがここで気づいている大きなことは、現在の職場の自動化は、実際に可能なことのごくわずかなパーセンテージに過ぎないということです。そしてもちろん、これがあります。これはGPT-5.4のためのものです。コンピュータ使用とビジョン機能を備えています。しかし興味深いことに、このモデルはネイティブなコンピュータ使用機能を持つ最初の汎用モデルです。

開発者とエージェントの両方にとって大きな一歩を示しています。ウェブサイトやソフトウェアシステム全体で実際のタスクを完了するエージェントを構築できます。その具体的な様子をすぐにお見せします。すでに誰かがこれを使ってかなりクールなものを作っています。これはPlaywrightのようなライブラリを介してコンピュータを操作するコードを書くのに優れており、スクリーンショットに応答してマウスとキーボードのコマンドを発行することもできます。

Playwrightはブラウザ自動化ツールです。小さなAIエージェントにウェブ上でさまざまなことをさせたい場合、Playwrightは使用するかもしれないツールの一つ、ライブラリの一つです。ここで目立つべきことがあります。OS World検証済みです。これは、スクリーンショットやキーボード、マウスアクションなどを通じてデスクトップ環境をナビゲートするモデルの能力を測定するものです。GPT-5.4は最先端の75%の成功率を達成しています。

OS Worldでの人間超え

比較も提供されています。75%とはどういう意味なのか。75%は良いのか。つまり、最先端です。最高です。これより優れたものはありません。でもどれくらい良いのでしょうか。GPT-5.2は47%でした。これは大きな飛躍です。

また、人間のパフォーマンスである72.4%を上回りました。これはかなりワイルドだと思いませんか。この時点で、スクリーンショットとマウスコマンドを通じてデスクトップをナビゲートする能力が人間よりも優れているんです。これはこれらのモデルにとって長い間、最も弱い点の一つでした。興味深いのは、これがゲームのようなさまざまなビジュアルアプリケーションのトラブルシューティングに使用できるということです。

このモデルはゲームを作り、その後新しく獲得したコンピュータビジョン能力を使って、ゲームが問題なくプレイできるか、グラフィックの問題がないか、すべてのボタンをクリックできるかなどをチェックできます。どうやら人々はすでにこれをいじり回していて、実際に機能していると言っています。

コリー・チンが言うには、CodexとGPT-5.4を使ってターン制の戦術RPGを作り、テストにはPlaywrightを、ビジュアルには画像生成を使ったそうです。私はターン制RPGが大好きで育ったので、これを作るのは楽しかったと言っています。

45秒のデモが以下にあります。私たちはこの日についてかなり長い間話してきました。いつこれらのモデルが、コードの視覚的な出力、ビデオゲームやウェブサイトなどを実際に見て、それらをクリックして対話し、継続的に反復して改善できるようになるのか。どれくらい前かわかりませんが、しばらく前のことです。でも何回言ったかわかりません。

何回ClaudeやChatGPTなどに入力したかわかりません。ただの空白の画面です。特に3D.jsのようなブラウザで表示しようとする3Dグラフィックスでは。非常に頻繁に、よし、あなたのレーシングビデオゲームが完成しました、ブラウザウィンドウで開いてください、と言われます。開きます。ただの黒い画面です。

黒い画面だと伝えます。ああ、その通りです、何を考えていたんでしょう、修正しますと言います。ああ、バグを見つけました。何かを忘れていました。修正しました。ブラウザウィンドウで開いてみてください。開きます。真っ黒な画面です。それで、まだ真っ黒な画面だと入力します。

このチャンネルを見ている方なら、私がこれらのモデルをテストしているのを見たことがあるでしょう。実際にこれが起こるのを見たことがあるはずです。でもそれは、私が実際にそれをしなければならなかった回数のほんの一部に過ぎません。今日、伝説が本当なら、今日は新しい時代の最初の日です。チャットボットに5回目の「ただの黒い画面です」と伝える必要がなくなる時代です。

OpenAIのAnthropicからの機能移植

何もないんです。また、OpenAIはAnthropicのプレイブックからいくつかのページを取り入れているようです。スキルのサポートを開始しているようで、スキルを使用して、希望すればAnthropicからOpenAIに移行できるようにしています。

彼らは独自のChatGPT for Excelも持っています。スキル、Excel用のこれらのLMSの使用。これらは両方ともAnthropicから移植されているものです。Anthropicが非常にうまくやったことの一部が、OpenAI側に移植され、複製されているわけです。

でもそれだけではありません。OpenAIがこの新しいフラッグシップAIモデルをリリースすると同時に、金融サービスツールのスイートもリリースしています。

これはAnthropicがやってきたことに似ています。彼らは法律分野、サイバーセキュリティ、その他多くの分野でClaudeがさまざまなことをするのを助けるスキルやツールをいくつかリリースしてきました。金融関連のものもあったと思います。OpenAIも今日からこれをやっています。

興味深いことに、ここでは金融業界を次の大きなターゲットとして焦点を当てているようです。OpenAIはここで、ソフトウェアエンジニアリングの後、金融が他のどの分野よりもモデルの改善の恩恵を強く受けるだろうと述べています。これはOpenAIで金融関連のものを構築しているライアン・ブリューワーからのものです。

実際には他にもかなりの機能があります。優先モードのようなものもあります。より速く回答が必要な場合、この優先ストリームのようなものを利用する方法があります。Cerebrasチップで動作している可能性はあるでしょうか。まだ確認は見ていませんが、追加されたファストレーンのように見えます。また、モデルを途中で中断して、ガイドしたり、フォローアップの指示を与えたり、進行方向を変えたりできます。

OpenAIは何らかの内部投資銀行ベンチマークを持っているようです。このリリースのGPT-5.4 thinkingが最高得点です。87%、つまり873点で、1が最高、1が最良です。つまり87%と言えます。GPT-5.2 Proは71%です。Opus 4.6も64%と記載されています。

このベンチマークは、アナリストが完了するのに数時間または数日かかることが多い実世界の金融ワークフローを測定します。財務モデリング、シナリオ分析、データ抽出、長文のリサーチなどです。

OpenAIからAnthropicへの人材移動

金融が得意で、Excelが得意で、そしてコンピュータビジョンシステムを備えています。そして最後に、OpenAIの従業員研究者がOpenAIを離れてAnthropicに加わります。彼の名前はマックス・シュワルツァーです。彼は著名な人物です。例えばGPT-5に取り組んでいました。私たちがここで議論している全てです。

推論パラダイムの作成を手伝い、テストとコンピュートをポロミアルでスケールアップすることを楽しんでいました。それがノーム・ブラウンです。どうやら彼は01 preview、私たち全員が手にした最初の推論モデルを実際に出荷することに関わっていたようです。彼はOpenAIで一緒に働いた全ての人々に感謝しています。サム・アルトマンも含めて。

私が知る限り、ここにドラマはありません。誰にも陰口を叩いていません。でも彼は、自分が最も信頼し尊敬する人々の何人かが過去数年間でAnthropicに加わったと言っており、今後は彼らと一緒に働きたいと思っているそうです。

これらが主なニュースですが、今日起こったことの表面をかすめただけです。

OpenAIは思考連鎖の制御可能性に関する新しい研究を公開しており、おそらく別のビデオでそれを見ることになるでしょう。そしてもちろん、過去48時間で、GoogleによるGemini 3.1 Flash Liteのランディング、つまりリリースもありました。Grok 4.20がベータ2のようなものをリリースしています。

新モデルのテストへ

さて、私はこの新しいモデル、GPT-5.4をテストしに行きます。正直言って、かなり興奮しています。これは間違いなくかなり大きな飛躍のように感じます。特にテストしたいのは、コンピュータビジョン、コンピュータ使用モデルです。まあモデルというわけではありませんね。組み込まれています。この新しいリリースにネイティブで組み込まれています。だから実際に触ってみたいんです。

ご存知の通り、私のAIエージェントたちはnatural20.comというサイトを常に構築し改善しています。natural20.comです。ニュースアグリゲーターです。全てのAIベンチマークもライブで更新されています。実際には、まさにその瞬間ではありません。このビデオの録画を始めようとしたまさにその時、全てのAIエージェントがクラッシュしたことに気づきました。反応しません。

正直に言うと、非常に心配しています。全てAnthropicのCloud Codeで動いています。プラグを抜かれてないといいんですが。まあ、それが起こるとしたら今日が最悪の日ではないとは思いますが。でももし復旧できれば、このデモセクションがあって、新しいモデルのリリースを含むクールなものを構築しています。

新しいモデルによって構築されたいくつかのプロジェクトを置くつもりです。うまくいけば今後24時間以内に、ここにGPT-5.4セクションができるでしょう。それが構築できた最もクールなものがいくつか入ります。最後のリリース、3.1 Pro demoではStarlinkサテライトトラッカーを構築しました。かなりクールだと思います。

リアルタイムでこれら全てのStarlink衛星が宇宙を漂っているのを見ることができ、それらをクリックしてどの衛星か、高度、速度、緯度、経度を見ることができます。モバイルで見ている場合、位置情報を共有すれば、実際に地図上のあなたの位置が表示されます。

また、私のドローン軍団を送り出して、あなたがどこにいても見つけ出します。完全に冗談です、たぶん。でもGPT-5.4についてどう思うか教えてください。期待外れですか。それともかなり興奮していますか。これはかなり良い、かなり大きな前進のように感じますか。

これ全てに手をつけて実験して理解したらすぐに、もっとたくさんのことが来ます。だからここにいてください。また明日会いましょう。私のAIエージェントたちを蘇生させなければなりません。おそらく1時間近くダウンしていると思うので。そしてこれは私が人生を送りたい方法ではありません。

自動化できる仕事を自分でやる、動物のように。これは良くありません。ロボットに仕事をさせましょう。私の名前はウェス・ロスです。次回お会いしましょう。