OpenAIが新たにリリースしたGPT-5.5は、コーディング、ライティング、ナレッジワークの各分野において顕著な性能向上を示すモデルである。特にコーディング能力が際立っており、独自のシニアエンジニアベンチマークにおいて62.5点を記録し、Claude Opus 4.7の30点台を大きく上回った。ただし最高性能を引き出すにはOpus 4.7が作成した詳細な計画が必要であり、この組み合わせにより大規模なコードベースのリファクタリングを大胆かつ確実に実行できる能力を発揮する。ライティングではビジネス文書作成に優れ、ナレッジワークではCodexデスクトップアプリとの統合により最高クラスのエージェント体験を提供する。処理速度の速さと使いやすさが大きな特徴であり、フロンティアモデルの力をユーザーフレンドリーなパッケージで届ける重要な成果といえる。

GPT-5.5のリリースとテスト概要
モデルリリースの日がやってきました。さあ始めましょう。今日はOpenAIからGPT-5.5がリリースされます。私たちEveryでは約3週間、社内でこのモデルをテストしてきました。素晴らしいモデルです。コーディングからライティング、ナレッジワークのタスクまであらゆることでテストしましたが、多くの能力において本当の意味でのステップチェンジを感じました。
私にとって最大の注目点はコーディング能力です。私たちのシニアエンジニアベンチマークで、このモデルは100点満点中62.5点を記録しました。比較として、人間のシニアエンジニアはこのベンチマークで一貫して80点から90点を取ります。まだシニアの人間エンジニアの範囲には達していませんが、かなり近づいています。比較対象として、Opus 4.7はこのベンチマークでかなり一貫して30点台前半のスコアでした。
つまりGPT-5.5がする仕事とOpus 4.7がする仕事の間には30点の差があるわけです。ただし、ここには落とし穴があります。私たちがGPT-5.5から得た最高のパフォーマンスは、Opus 4.7が書いた計画を使ってシニアエンジニアベンチマークを実行したときのものでした。Opus 4.7で計画を書いて、それをGPT-5.5に渡すと、このモデルは絶対的な怪物になります。
詳細なテスト結果と発見事項
私たちが実行したすべてのテストと発見したこと、この新しいモデルが何に役立つか、欠点は何か、そして今日からあなたの仕事と生活にどう取り入れられるかについて、これから詳しく説明していきます。モデルリリースの日が大好きなんです。なぜならこの日は私たちがバイブチェックを公開する日だからです。これはバイブチェックの動画版ですが、下のリンクに行けば書面版を見ることができます。
数千語にわたって、このモデルで実際に何をしたか、リリース当日にどう思ったかについての詳細な考察がすべて書かれています。私たちはあなたをAIの最先端に保つために、毎日新しいことを書いています。またEveryのサブスクリプションの一環として、私たち自身でいろいろなものを作っています。CodexやClaude Codeといったモデルを使って、私たちの仕事を助けるために作った6つのアプリがあります。
例えばKoraはメール用のエージェントですし、Sparkleは賢いファイル整理ツール、Monologueはスマートな会話アプリです。これらはすべて私たち自身が作り、サブスクリプションの一部として視聴者にリリースしているものです。またトレーニングもたくさん行っています。AIでコーディング、ライティング、デザインをするために知っておくべきすべてを教えるキャンプやコースを運営しています。
大企業や経営幹部チーム向けにもこれを行っています。もしこれに興味があれば、every.toにアクセスしてサブスクライブしてください。では、バイブチェックに入りましょう。4つの主要カテゴリーがあります。コーディング、ライティング、ナレッジワーク、そしてOpenClawです。GPT-5.5は5.4やOpus 4.7、その他のモデルと比べてどうなのか。これについて詳しく見ていきましょう。
コーディング性能の詳細分析
まずはコーディングから始めます。見出しはシニアエンジニアベンチマークです。先ほど言ったように、GPT-5.5はシニアエンジニアベンチマークでOpus 4.7より約30点高いスコアを出しますが、それはOpus 4.7が書いた計画を使った場合に限られます。
これはこのモデルの心理、何が得意で何が得意でないか、そしてワークフローのどこで使うべきかについて多くを物語っていると思います。これをもう少し理解するために、このシニアエンジニアベンチマーク、SE benchについて説明したいと思います。これは私が発明したベンチマークです。このベンチマークは基本的に、モデルにバイブコーディングされた雑なコードベースを与えます。
これは私がProofという名前で作ったアプリの実際のコードベースです。そしてモデルにこう言います。「これはバイブコーディングされた雑なコードです。これを第一原理から書き直すとしたらどうしますか?」基本的に、コードベースを書き直すことができるか、概念的に明確でシニアエンジニアがやったように見えるクリーンな第一原理の方法でそれができるかということです。
このベンチマークのゴールドスタンダードは、実際のシニアエンジニアが書いたコードです。2人の異なるエンジニアにこのコードベースの独自の書き直しをしてもらいました。だから私たちはこれらのモデルがすることを実際の人間エンジニアと比較できるわけです。まず第一に、このベンチマークは飽和していません。フロンティアにはまだたくさんの余地があります。
最高の人間エンジニアはこのベンチマークで100点満点中約80点から90点を取ります。これまで見た中で最高のスコアはGPT-5.5です。Claude Opus 4.7の計画を使って約62.5点を取りました。計画なしだと40点台前半から半ばで、それでもOpus 4.7よりずっと良いです。Opus 4.7は約33点でした。プロンプティングを工夫すれば、5.5に十分良い計画を自分で作らせることができ、このベンチマークでのパフォーマンスはOpus 4.7の計画を使ったときのパフォーマンスに近づき始めますが、それでも50点台前半から半ばまでにしかなりません。
だから私の考えでは、Opus 4.7は5.5よりも優れたプランナーなのです。このモデルができることで他のモデルにはできないように見えることは、コードベースにおいて、計画の中で真である必要がある根本的なコア原則や不変条件を特定できることです。そしてその計画に対してコードを書き始めるとき、既存のコードベースにそれほど気を取られません。パッチモードに入って小さな穴を埋め始めるようなことはしません。実際にファイルをたくさん削除して本当にゼロから始め、そして持っているアイデアを最初から最後まで数時間かけて貫徹する大胆さ、積極性、主体性を持っています。まだ完璧ではありません。完璧には程遠いです。
先ほど言ったように、このベンチマークではシニアエンジニアからまだ約30点離れていますが、他のモデルと比べてどれだけ優れているかという点では、ステップチェンジです。Opus 4.7で起こることは、Opus 4.7は実際に本当に良い計画を作成するということです。概念的に明確でクリーンなもの、契約駆動型に感じられるもの、そしてこの書き直しが十分に良ければ、この大きなファイルは100行だけになるはずだというようなモデルに感覚を与えるものを書くのが非常に上手です。
そういったこと、そのレベルの詳細さ。それがGPT-5.5のパフォーマンスを駆動するものです。それがこのモデルをとても良くしているもので、そういう計画を与えれば、実際にそれを実行するのです。それを実行する自信があります。しかしOpusは、自分の計画、本当に美しくよく書かれた計画を与えられると、「ああ、これは労力がかかりすぎる」と言います。
小さな部分だけを取り上げて、実際に求められた書き直しをするのではなく、問題の周りにパッチを当て始めるだけです。GPT-5.4、今日置き換えられる古いOpenAIモデルも同じことをします。Opus 4.7よりは上手にやりますが、それでも同じことをします。しかしGPT-5.5は超高推論モードで、実際に入って実行できるだけのほんの少しの追加の力を持っています。
さて、Opus 4.7の計画の何がGPT-5.5をより良くするのでしょうか。そしてこれは本当に興味深いと思います。なぜなら、5.5の良い使い方について何かを語っているからです。このベンチマークのためにOpus 4.7が書いた計画とGPT-5.5が書いた計画を見ると、正しい概念がすべて入っていますが、かなり長く、本当に具体的なプログラム契約スタイルがあまりありません。「良いとはこういうことです。これを削除すべきです。ファイルはこれだけ残すべきです」といったようなもの。実際には人間のために本当によく書かれているのです。
そして5.5では人間にとって良いものにするために多くのチューニングが行われていると思います。そして4.7を見ると、人々がそれを好まない理由の一部は、少し簡潔すぎて、Anthropicモデルで慣れているものより少しロボット的に感じられるからです。しかし、その簡潔さ、その正確さ、その契約スタイルの計画が5.5にとっては本当に良いことがわかります。
だから5.5から最大限を引き出したいなら、Opus 4.7をプランナーとして使うか、5.5に多くの正確な詳細をプロンプトで与えることが、この大胆さ、この主体性、大きな計画を最初から最後まで貫徹する能力を引き出すことになります。本当に印象的です。Everyのゼネラルマネージャーで、Monologueを運営しているNaveenは、Daylineというto-doアプリの構築でこれをテストしました。そして美しくて本当にうまく機能するネイティブのiOSとMacアプリを構築できたこと、計画の中の一連の機能を完了するまで順番に処理していけることに本当に感銘を受けていました。本当に、本当に優れています。特に計画がよく指定されている場合は。
Naveenはまた、自分が運営するアプリMonologueのリリースを構築するためにこれを使いました。彼はテストの一環として、リリース前のGPT-5.5で約9億トークンを使用しました。彼はこれがすべてにおいて自分のお気に入りのモデルだと考えています。
彼が言うには、monologueの新機能を出すために必要な期限に間に合わせることができたのは、このモデルを使ったからこそだということです。このモデルは信じられないほど優秀なシニアエンジニアを意味し、彼がこのモデルを気に入っているなら、注目する価値があります。ただし、得意でないこともあります。Kora、私たちのAIメールエージェントのゼネラルマネージャーであるKieran Classonは、彼のLFG benchでこのモデルをテストしました。これは基本的に彼の実際の開発プロセスを再現したもので、必ずしもコードベース全体をリファクタリングするのではなく、機能を構築するような、よりプロダクト志向のエンジニアリングタスクでモデルがどうするかを見るものです。フロントエンドやデザイン、プロダクト思考を多く含むものです。
そして彼が発見したのは、LFG benchのこういったタイプのタスクでは、5.5はかなりよくやりましたが、Opus 4.7の方が上限が高かったということです。特にデザイン志向のタスクでは、5.5よりも優れた美的センスを持っています。
そしてEveryでテクノロジーコンサルティングを運営しているMike Taylorも、彼のベンチマークで似たような感想を持っていました。ゼロから比較的複雑なアプリを、あまり詳細でない計画でバイブコーディングするという場合、Opus 4.7ほどうまくいきませんでした。Opus 4.7はタスク全体を突き進んでいきます。だから、バイブコーディングをしているときでも、シニアエンジニアタイプのことをしようとしているときでも、より詳細に指定された計画がこのモデルから最大限を引き出す方法になります。
もう1つ気づいたことは、GPT-5.5はTypeScriptを書くのとSwiftを書くのが本当に上手だということです。しかしRubyの大ファンであるKieranは、良いRubyを書かないと考えています。だからRailsプロジェクトをやっているなら、書かれるRubyの品質に満足しないかもしれませんが、TypeScriptやSwiftをやっているなら、かなり満足するでしょう。
ライティング能力の評価
さて、次はライティングです。Opusほど個性はありません。特にOpus 4.6のような古いOpusモデルと比べると。しかしビジネスライティングをするには実際に本当に優れています。私はこれを使って投資家向けアップデートを書きましたが、基本的に送る準備がほぼできているアップデートをワンショットで作成しました。EveryのスタッフライターであるKatie Parrotは、おそらく1年か2年ほど、ほぼ独占的にCloudモデルをライティングタスクに使ってきました。
これは長い間で、彼女がOpusやSonnetよりもライティングタスクに使い始めた最初のGPTモデルです。特にKatieとMikeの両方が、その音声複製能力を本当に気に入っていました。やりすぎることなく、スタイルを模倣するのがかなり上手でした。もう少し抑制されていて、それがビジネスライティングに優れている理由だと思います。そしてそれがライターとして少し微妙にしています。
ナレッジワークにおける活用
さて、次はナレッジワークです。これはOpenAIがほんの3ヶ月前や6ヶ月前までとても遅れていたことの1つですが、Codexデスクトップアプリがあらゆる種類のナレッジワークに優れているところまで急速に反復してきました。
そしてGPT-5.5と一緒に使うことは、デスクトップで得られる最高クラスのエージェント体験です。第一に、本当に高速です。本当に強力です。コンピューター上のあらゆるアプリを使えます。ウェブブラウジングが得意です。ダッシュボードを書くとか複雑なデータ分析をするといったことが得意です。そして繰り返しますが、本当に高速です。これらすべてのテストで、あまり触れてきませんでしたが、これらすべてのテストで、比較してOpus 4.7がどれだけ遅く感じるかにかなり衝撃を受けました。OpenAIが今取り組んでいるハードウェアの優位性を本当に感じることができます。それが感じられるのです。
このモデルについてOpusと比較して少し減点したいことの1つは、それを消化しやすく感じさせるために行われているトレーニングの一部が、ナレッジワークにおける詳細への目の鋭さの犠牲の上に成り立っているということです。
本当に鋭い洞察を必要とするタスクにこのモデルを使っているなら、そのためには5.5よりも4.7を使うことを絶対に検討すべきです。例えば、シニアエンジニアベンチマークでモデルの軌跡を評価するときでさえ、基本的には5.5を日常のドライバーとしてもっと使いたいと思っていても、5.5よりも4.7を信頼しました。これは素晴らしい日常ドライバーモデルです。
総括と使用感
というわけで、基本的にこれが5.5の要点です。ここでは数週間ごとにクリスマスのような気分になります。新しいものへのアクセスを得続けていて、それが素晴らしいものであり続けているからです。そして私の力と、チームの他のみんなの力、つまり私たち全員の力が日々増大しているように感じます。このモデルを絶対に試してみるべきです。
フロンティアモデルの力をユーザーフレンドリーで、人間に優しく、協調的なパッケージで得る最も使いやすい方法が今これです。そしてそれは大きな成果です。最近まで、私はほとんどすべてにCloudを使っていました。この数ヶ月で、本当に使い方を切り替えました。モバイルではCloudをかなり使います。
モバイルアプリが気に入っています。しかしコンピューター上のことなら、エージェント的なことなら、ほとんどすべてでCodexを使っています。そして正直言って、OpenClawでそれが気に入っています。もしあなたがOpusのファンなら、ハーネスは本当にまだOpusで動作するようによりよく作られていますが、OpenClawでもかなり良く動作するようなものを毎日リリースしています。
そしてこの数週間、私にとって安定した体験の1つになっていて、以前ほど物事を忘れません。以前ほど愚かなことをしません。まだ少しはしますが、GPTサブスクリプションで無料なので、少しの力のトレードオフは大丈夫です。そして願わくば、彼らがそれをすぐに修正してくれることを期待しています。
だから、OpenClawで5.4が気に入らなかったなら、5.5で試してみることをお勧めします。というわけで、以上です。これがフロンティアからの私たちのレポートです。もしこれが気に入ったなら、いいねとチャンネル登録をすべきですが、もっと重要なのは、every.toに行くべきだということです。このモデルについて、私たちがテストしたすべてと発見したすべてについての数千語の記事があります。
また、サブスクライバー向けのアプリ一式があります。私たち自身が作った、AIでより良く働くのを助けるもの、メールを書くのを助けるもの、ファイルを整理するのを助けるもの、より良く書くのを助けるものです。Everyサブスクリプションには素晴らしいものがたくさんあります。もしこのモデルを試したら、あなたがどう思うか知りたいです。
だからコメントを残してください。そして覚えておいてください、水分補給を忘れずに。また次回お会いしましょう。月で。


コメント