OpenAIがGPT-5.5をリリース、驚異的な性能向上を実現

GPT-5
この記事は約15分で読めます。

OpenAIが新たなフロンティアモデルGPT-5.5をリリースした。CodexとChatGPT Proで利用可能なこのモデルは、GPT-5.4が抱えていた硬直的で無機質なパーソナリティの問題を解決し、エージェントコーディング、コンピュータ制御、ナレッジワーク、科学研究において特に強力な性能向上を実現している。トークン効率が大幅に改善されており、同等のタスクをより少ないトークンで完了できるため、価格が2倍になったにもかかわらず実質的なコストは削減される。ベンチマークではClaude Opus 4.7を上回る性能を示し、特にターミナル操作やエージェント利用において顕著な優位性を持つ。企業環境での実用性も高く、Box AIでの導入事例ではGPT-5.4から大幅な精度向上が確認されている。

OpenAI just dropped GPT-5.5... (WOAH)
GPT-5.5 will be available soon in Box AI! The 25 OpenClaw Use Cases eBook 👇🏼 The Subtle Art of...

GPT-5.5の登場

GPT-5.5が遂に登場しました。これはOpenAIの新しいフロンティアモデルです。CodexとChatGPT Proで利用可能になっていて、本当に素晴らしいモデルなんです。GPT-5.5をリリースします。これまでで最もスマートで、最も直感的に使えるモデルであり、コンピュータ上で仕事を進める新しい方法への次のステップです。

さて、私はこのモデルを2週間使ってきました。自分のコードベースでも、新規のコードベースでも徹底的にテストしてきたんです。ChatGPT Proで使ってみましたが、これは本当に優れたモデルですね。GPT-5.4が抱えていた多くの問題を修正していて、特にパーソナリティが良くなっています。これはOpenClawでGPT-5.4を使うのがどれだけ難しく、無味乾燥だったかに対する反応だと思うんです。

マーケティングの裏にある本質

さて、この辺りの内容はマーケティング的な美辞麗句が多いですね。まあ全て真実ではあるんですが、どのブログ投稿でも言っているようなことです。本当に重要なのはここからです。エージェントコーディング、コンピュータ制御、ナレッジワーク、初期段階の科学研究において、特に強力な向上が見られます。

これが明らかに重要なポイントなんです。ここにお金があるわけです。Anthropicが企業向けコーディングに超集中することで、年間300億ドルの収益規模まで倍々ゲームで信じられないほど速く成長できることを示してくれました。そしてOpenAIはそのメッセージを受け取ったんです。

彼らは今、コーディングに注力していて、これがその結果なんです。エージェントコーディングでより優れたモデルを次々と出し始めています。なぜなら、このフライホイールが素晴らしいからです。コーディングモデルを構築して、企業に販売して大金を稼ぐ。その素晴らしいコーディングデータを全て収集して、モデルを改善する。そしてそのモデルを使って次のモデルをトレーニングする。

これが人工知能の自己改善フライホイールなんです。GPT-5.5はスピードを犠牲にすることなく、この知性の向上を実現しています。より大きく、より高性能なモデルは、通常サーブするのが遅くなりますが、GPT-5.5はGPT-5.4のトークンレイテンシと実環境でのサーブ速度を維持しながら、遥かに高いレベルの知性を発揮します。

トークン効率の革命

これは彼らが多くの時間を費やしたことだと知っていますし、私もいくつかのことに気づきました。まず、GPT-5.4と同じレベルの知性を遥かに少ないトークン数で得られるんです。全体的にトークン効率が高いんですね。確かにこれはより高価なモデルであるという事実によって相殺されますが、全てのバランスを取ると、結局は全体的に支払う金額が少なくなるんです。それが重要なポイントです。

そしてまた、GPT-5.5モデルから引き出せる総合的な知性の上限も高くなっています。つまり、トークンあたりの効率が高く、これは本当に良いことです。トークンあたりの価格は高いですが、効率も高いんです。同じCodexタスクを完了するのに使うトークン数も大幅に少なくて、より効率的であると同時により高性能なんです。

そして実際、私もこれに気づきました。使用する思考トークンの量だけでなく、物事を説明する方法においても非常に明確でした。コーディングをしていて、特にバイブコーディングをしているときに、私が行った小さな変更や、モデルが行った変更について長々とした説明を受けると、イライラするんですよ。

そんなのは要らないんです。読むには多すぎます。いつも「シンプルに説明して」「短く説明して」と言わなければならなかったんです。そうすれば必ずそうしてくれるんですが、今はそれをする必要がほとんどないんです。本当に簡潔な方法で説明してくれて、これも先ほど述べたパーソナリティの改善の一部なんです。

GPT-5.4が非常に堅苦しく、非常にフォーマルなエッセイで何かを説明していたのに対し、5.5は「はい、必要なものを正確にお渡しします」という感じなんです。これは5.5から受け取るメッセージのパーソナリティやトーンの改善なんですよ。

セーフガードと展開

誤用を減らしながら有益な作業へのアクセスを維持するように設計された、これまでで最強のセーフガードセットと共に5.5をリリースします。5.5はChatGPTとCodexのPlus、Pro、Business、Enterpriseユーザーに展開されていて、GPT-5.5 ProはChatGPTのPro、Business、Enterpriseユーザーに展開されています。

もちろん、実世界でのAI利用について話すなら、企業環境で実際にどう機能するかについて話さなければなりません。そして本日の動画のスポンサーであるBoxが、5.5専用のベンチマークを多数まとめてくれました。見てみましょう。

Box AIでの実証結果

さて、これはGPT-5.5向けのBox AI複雑作業評価です。もちろん、GPT-5.4と比較しています。ご覧いただいているのは、5.4から5.5への大幅な向上です。紫が5.4、黄色が5.5ですね。全データセットの精度指標で67%から77%になっています。

こちらは業界別で、基本的にBox環境内、特に企業ユースケースにおいて各モデルがどれだけ機能するかを示しています。金融サービスでは約20ポイントという大幅な向上があり、ヘルスケアでは61から78へ、公共部門では59から72へ、メディア&エンターテインメントでは小さいながらも重要な13%の向上が見られます。

ところで、まだBoxの顧客でない方は、ぜひ試してみてください。私たちFord Futureで使っていますし、私はOpenClawのデータストアとして使っています。もちろん、全ての企業ユースケースが利用できます。実際に非構造化データ全てから本物のインサイトを抽出できるんです。そしてそれは、Box AIにGPT-5.5があるおかげで可能になっています。これから実際にお見せしますね。

さあどうぞ。Box AgentのGPT-5.5があります。一連のドキュメントを読み込みます。これは財務データです。エンジニアリングロードマップで言及されているプロジェクトヘリテージと、解約サマリーにおける企業顧客セグメントのパフォーマンスとの関連性を分析してください。

これは単純なタスクではありません。待機した後、これはスピードアップされていますが、完全な分析が得られます。GPT-5.5はまもなくBox AIで利用可能になります。私の会社のように、10万以上の他の企業と一緒にBoxを使ってください。コンプライアンスが得られ、ガバナンスが得られ、Boxに期待される全ての企業向け機能が手に入ります。

そしてBox AIも使えます。ぜひチェックしてみてください。リンクは下の説明欄にあります。この動画をスポンサーしてくれたBoxに感謝します。

ベンチマーク分析

ベンチマークを見てみましょう。GPT-5.5と5.4があります。こちらに5.5 Proと5.4 Proがあります。重要なのはここからです。最終的に、競合モデルもリストアップされています。Opus 4.7とGPT-3.1 Proがあります。

実際、重要なのはOpus 4.7だけですね。Terminal Benchですが、これはエージェント利用です。その差を見てください。5.4から5.5への7ポイントのジャンプがあり、Terminal BenchでOpus 4.7を完全に圧倒しています。これはモデルがターミナルに入り、ターミナルCLIを操作する能力です。エージェント利用にとって本当に重要なんです。

これはツール呼び出しにとっても本当に重要です。Expert SUIインターナルがあります。実際、Expert SUIが何なのか分からないんですが、明らかに内部ベンチマークでしょう。68と比較して73です。他の競合は載っていません。まあいいでしょう。

GPD Valです。これはOpenAIチームが作成したベンチマークです。モデルの実世界での利用、実際に価値のあるナレッジワーク利用をテストしています。そして少し良くなっています。GPT-5.4から1.9%の改善がありますね。興味深いことに、5.5 Proは実際には減少しています。こちらはClaude 4.7です。Claude Opus 4.7が80.3です。

OS World Verifiedです。これはモデルのコンピュータ制御、ブラウザ制御の能力です。基本的にモデルに環境を与えて、コンピュータを制御させます。そして改善が見られますが、巨大なものではなく、Opus 4.7と同等の3.7%です。

正直に言うと、私はブラウザ制御やコンピュータ制御をあまりやらないんです。ただ、耐え難いほど遅いと感じますし、必要なユースケースではないんですよ。もしCLIで制御できるなら、そうすべきです。

エージェントにポイント&クリックは要らないんです。遅いしエラーが起きやすいです。だから、お願いですから、全てにCLIがあるべきです。全てにAPIがあるべきです。それが進むべき道です。それがエージェントから最大限を引き出す方法です。それが私の求めるものです。速いんですよ。だから、何かを作っているなら、そうしてください。

Browse Compは、ウェブブラウジングのベンチマークで、GPT-5.5が84.4で入っています。ChatGPT Pro内のGPT-5.5 Proが、研究や非常に難しい問題専用に構築されたハーネス内のモデルであるため、このベンチマーク、特にウェブブラウジングで非常に優れているのは理にかなっています。非常に近い2位がGPT-5.4 Proです。つまり、そこでの巨大な改善ではないですね。Claude Opus 4.7は80%、79%です。

Frontier Mathがあります。5.5、特に5.5 Proでナンバーワンのスコアを獲得しました。Frontier Math Tier 2も同じです。ええ、見てください、Proは難しい問題用です。CodexのGPT-5.5はコーディング用です。そう考えなければなりません。しかし、ここで見ているのは、Opus 4.7と比較して遥かに優れているということです。

インテリジェンス指標の革新

こちらはArtificial Analysis Intelligence Indexで、様々なベンチマークをインデックス化してここに表示しています。ご覧いただいているのは2つのことです。Y軸には実際のスコアがあり、X軸には出力トークン数があります。求めているのは高い方が良く、左が良いということです。

出力トークン数では小さい方が良いんです。つまり、トークンあたりの効率がより高く、トークンあたりの知性がより高いということです。そして5.5は高く、より左にあります。ここで求めているのはそれです。同じことがここでも言えます。

彼らが行った大きなことの一つ、そして私が気づいたのは、非常にトークン効率が良いということです。ですから、先ほど述べたように、より高価ではありますが、トークン効率も高く、価格の上昇を相殺するのに十分なトークン効率なんです。

さて、ここで見ているものを説明しましょう。より高い知性が見られます。水色の線が5.5、濃い青の線が5.4です。この一箇所を除いて、ほぼ全面的により高い知性が見られます。しかし遥かに安いんです。このスコアを見てみましょう。

これはTerminal Benchでの彼らのスコアの一つです。おそらく最小労力だと思います。GPT-5.4で34.2を獲得し、基本的に4950出力トークンでした。こちらでは2100、2165出力トークンで39.1を獲得しています。

大幅に効率的で、トークンあたりの知性が大幅に高いんです。彼らが今これに注力しているのが素晴らしいですね。同じことがここでも言えます。Expert Suiteです。遥かにトークン効率が良く、そこから得られる知性指標も高いんです。

実際のデモンストレーション

実際にいくつかのテストを行いました。彼らがまとめたデモを見てみましょう。プロンプト、画像を添付しました。Artemis 2ミッションからの実際のデータを使用して、WebGLを使った新しいアプリとしてこれを実装してください。完全に機能し、画像のアプリのように見えるまで、アプリを徹底的にテストしてください。惑星とフライバイのレンダリングに細心の注意を払ってください。

ちょっとここで止めたいんですが、完全に機能するまでアプリを徹底的にテストしてください、というのがなぜそんなに重要なのか。明らかに遥かに優れている一つのことは、視覚的検査なんです。Codexでプロンプトを与えます。何かを構築させて、正しくなるまで見続けるんです。すぐにお見せするいくつかの例があります。

しかし、これは他のどのモデルよりも優れています。実際にページ上にあるものを見て、反復し、ページ上のものを改善し続けることができるんです。Opus 4.7を含む他のどのモデルよりも優れています。それ自体が非常に印象的で、エージェント、つまりCodexのGPT-5.5が遥かに自律的に行動できるようにするんです。

私が「あのボタンは実際には間違った場所にある」と言う必要なく、プロジェクトを遥かに自律的に完了できます。私のためにそれをやってくれるんです。だからこれは、そう、とてもクールです。良さそうに見えます。非常に完成度が高いですね。

地震トラッカーです。まあ、もう少しシンプルなウェブサイトですね。正直言って、これにはそれほど感銘を受けません。5.5を改善するために彼らが行ったもう一つのこと、少なくともフロントエンドデザインについては、多くのピルを使わないことです。多くのボックスを使わない。そしてここで明らかに、少し改善していますが、見てください、ポートフォリオウェブサイトやチャートウェブサイトを作成できること、これは全て既に行われてきたことです。だから、これには過度に感銘を受けません。

ダンジョンゲームです。これは一方で、本当に印象的です。これはDungeon Keeperを思い出させますね。あのゲーム覚えていますか、ずっと昔の?あれは私のお気に入りのゲームの一つでした。名前を正しく言えているといいんですが。このゲームは非常に印象的に見えます。完全な3Dハック&スラッシュゲームで、本当にうまく機能しているようです。実際の騎士のアニメーションはかなり良いです。

でも分かりますか?実際に機能するんです。ビジュアルは本当に良く見えます。実際にライティングが本当に良く見えます。影が見えます。ロジック、実際のロジックがあります。これらの小さなインプたち、小さなゴブリンたちを叩くと、彼らには実際に生命があり、叩いている間に生命が減っていきます。だから、そう、とてもクールです。

最後のものを見てみましょう。3Dゲーム、Tank Downです。こういうのは見たことがあります。実際にもっと印象的か見てみましょう。まあ、大丈夫です。こういうのは見たことがあります。過度に感銘を受けません。

実際のユーザーからのフィードバック

さて、続けましょう。ベンチマークを超えて、初期テスター、これは私や他の多くの人々ですが、GPT-5.5はシステムの形状、何が失敗しているのか、修正がどこに必要なのか、コードベースの他の何が影響を受けるのかを理解する強力な能力を示していると言っています。

これは実際、私が彼らに特に提供したフィードバックの一つです。GPT-5.5について気づいたのは、ほとんど角を見通せるということです。本番ウェブサイトで抱えていた問題を伝えました。本番データベースへのアクセスは与えていないので、実際にログを見たり、エラーを見たり、実際の本番データを見たりすることはできなかったんですが、問題が何であるかを大まかに説明しただけで、修正方法を知っていたんです。

そしてOpus 4.6と4.7はそうではありませんでした。非常に印象的でした。つまり、本番環境でアプリがどう動作すべきかについて、他では見たことのないほとんど直感のようなものを持っているんです。本当に印象的でした。

GPT-5.5はGPT-5.4よりもドキュメント、スプレッドシート、スライドプレゼンテーションの生成において優れています。はい、これは本当です。ジョナスは特にChatGPT Pro内のGPT-5.5に、非常に広範囲で徹底的なドキュメントを作成させ、60ページの首尾一貫した、よくデザインされたドキュメントを作成するのに問題がなかったと言っていました。

実際の実世界のナレッジワークドキュメントを作成する能力において、非常に優れています。今日、社員の85%以上が毎週Codexを使用しています。なぜ100%ではないんですか?会社のどんな役割が、自社のモデルを使用することで恩恵を受けられない可能性があるんでしょうか?

広報部門では、チームが5.5とCodexを使用して6ヶ月分の講演依頼データを分析しています。ああ、これは私がSam Altmanにインタビューを依頼した80%みたいなものですね。スコアリングとリスクフレームワークを構築し、自動化されたSlackエージェントを検証して、低リスクの依頼は自動的に処理され、高リスクの依頼は依然として人間のレビューに回されるようにします。

科学研究での可能性

科学研究です。ここで本当に良い改善が見られると思います。5.5の上限は5.4の上限よりも遥かに高く感じるんです。さらに、リンゴとリンゴを比較するような場合、5.5から遥かに多くを得られますが、トークン効率が遥かに高いため、より安い価格なんです。それが心に留めておくべきことです。

さて、そのトークン効率について少し話しましょう。これがどれほど重要かを人々は理解していないと思います。なぜなら、知性は向上していますが、知性あたりのコストは実際には減少しているからです。これはほとんどの人にとって良いことです。

もしフロンティアサイエンス、フロンティア数学問題、世界で最も難しいコーディング問題を研究しようとしているなら、最高の上限、最高の知性の上限が必要です。それが5.5が提供するものです。

しかし、私のような日常ユーザーにとっては、素晴らしいコーディングモデルが欲しいだけです。できるだけ安く、できるだけ速くしてほしいんです。そしてそこでトークン効率が登場します。だから非常に価値があるんです。なぜなら、5.4で得ていたのと同じものが今は安くて、より簡潔だからです。本当に気に入っています。

5.4のレイテンシで5.5をサーブするには、推論を統合されたシステムとして再考する必要がありました。5.5はGB200とGB300 NVLink 72システムを使用して共同設計され、トレーニングされ、サーブされています。そして覚えておいてください、自己改善型人工知能について話しました。

CodexとGPT-5.5は、私たちがパフォーマンス目標を達成する方法において重要な役割を果たしました。Codexはチームがアイデアからベンチマーク可能な実装へより速く移行するのを助け、アプローチをスケッチし、実験を配線し、どの最適化がより深い投資に値するかを特定するのを助けました。

価格設定とAPI提供

さて、彼らが私たちの小さな事前アクセスグループで言及したことの一つは、5.5はまだAPI経由では利用できないということです。非常に間もなく利用可能になりますが、まだです。だから、API開発者向けには、まもなく利用可能になります。

価格ページを見てみましょう。そう、価格は2倍です。入力100万トークンあたり5ドル、出力100万トークンあたり30ドル、5.4の半分のレートと比較してです。それは高いです。はい。

しかし、トークン効率、トークンあたりの知性効率の改善に気づくべきです。そしてその価格を少なくともある程度相殺するはずです。バッチ価格設定、キャッシング、フレックス価格設定、思考トークン予算の制御を組み合わせると、ほとんどのユースケースでは超高思考は必要ありません。繰り返しますが、このモデルで可能なことの上限について話しています。

99%のユースケースでは上限は必要ありません。だから実効価格は本当に5と30にはならないんです。

コメント

タイトルとURLをコピーしました