この動画は、GPT-5.5が単なる性能向上ではなく、AIに任せられる仕事の範囲そのものを広げたという視点から、Claude Opus 4.7やGemini 3.1 Proとの違いを検証する内容である。架空企業の経営資料作成、 messyな小規模事業データ移行、NASA Artemis 2の3D可視化という三つの難しいテストを通じて、GPT-5.5の強みと限界を整理している。結論として、複雑で長い多段階作業やツール利用ではGPT-5.5が現時点の最有力候補であり、視覚的センスや白紙からのデザインではClaudeにも依然として強みがある、という実践的なモデル使い分けが示される。

GPT-5.5が基準を塗り替えた理由
GPT-5.5は基準を塗り替えました。そして私は、これが今日の世界で最も強力なモデルだと思っています。
なぜそう考えるのか。実際にAIを仕事で使っているなら、なぜそれが重要なのか。そして、このモデルの登場によって、あなたのワークフローをどう変えるべきなのか。それを説明したいと思います。
なぜなら、このリリースで最も重要なのは、5.5が5.4より優れているということではないからです。それは事実ですが、そこは一番面白くない点です。最も重要なのは、このモデルによって、モデルに合理的に依頼できることの範囲が変わったという点です。
ですから、まずはなぜ基準が動いたと私が考えているのかから始めます。その後で証拠を見せたいと思います。私はこれらのモデルをかなり厳しく試しました。簡単なプロンプトでは、それほど多くのことは分からないと思っているからです。
そこで私は、非常に詳細な経営層向け知識労働パッケージ、 messyなデータ移行、そしてインタラクティブな3Dリサーチ制作という形でテストしました。そのうえで、あなたにとって実践的な話にしたいと思います。今日の時点で5.5をどこで使うべきか。どこではまだClaudeを使うべきか。そして、モデル単体ではまだ信頼するには危険なので、検証、レビュー、あるいは別のワークフローが必要になるのはどこなのか。
ただ、最初に理解すべきなのは、床が上がったということです。
この表現は重要です。なぜなら、すべてのモデルリリースが床を上げるわけではないからです。最近の進歩の多くは、推論時コンピュートから来ています。より多くの時間、より多くの思考、より多くの検索、より多くのツール呼び出しです。これは有用です。モデルをより良くします。しかし、それはデフォルトのモデル自体がより大きく、より賢くなることとは同じではありません。
5.5は、日常利用の中により大きな事前学習モデルが現れたように感じます。高速モードはより鋭くなっています。思考モードはより強くなっています。モデルはタスクの形をより早く把握します。手取り足取り指示する必要が少なくなっています。messyなタスクを受け取り、より短い時間で完成形に近い結果へ持っていくことができます。
公開されている数値も同じ方向を示しています。OpenAIは、ソフトウェアエンジニアリング周辺のTerminal Benchで82%、知識労働タスク周辺のGDPvalで84%と報告しています。他にも価値の高い数値があります。Artificial Analysisは、5.5のextra high reasoning effortをIntelligence Indexのトップに置き、3ポイント差をつけています。
しかし、重要なのはそこではありません。勝っていることもそうですが、同時に彼らは、Index全体の実行において、このモデルが5.4よりはるかに少ないトークンを使っていると指摘しています。言い換えれば、より賢く、より効率的なのです。
ただし、ベンチマークがすべてを物語るわけではありません。
私たちは小さな差分を比較することに多くの時間を費やしすぎているため、今なお非常に速く上昇している曲線上にいるという基本的な事実を見落としやすくなっています。Dario Amodeiは、2026年のこの瞬間を、終わりの見えない虹の上にいるというイメージで表現しました。OpenAIが5.5について示している枠組みも、基本的には同じ考え方です。
スケーリングはまだ機能しています。利得はまだ複利的に積み上がっています。そして研究所は、その曲線が終わったかのようには振る舞っていません。どの研究所も、その曲線が終わったかのようには振る舞っていません。
虹の比喩が好きかどうかは別として、5.5は、フロンティアが動き続けていることこそが業界全体で最も重要な変数であることを思い出させてくれます。なぜなら、フロンティアが動くと、私たちの野心もそれに合わせて動くからです。
つまり、それが床が上がった理由です。5.5は、ベンチマークタスクで少しだけ良くなったモデルではありません。このモデルは違って感じます。単に有能さが増しただけではありません。こちらが何を望んでいるのかを理解し、より長い時間にわたって、こちらの意図をより効果的に追いかけてくれるように感じます。日々実際に使っていると、直感的に大きく引き上げられたように感じるのです。
そして、それが私の発見でした。次にその中身を順に説明していきます。
最高のモデルはもう重要ではないという見方への反論
そこに入る前に、今AI界隈で漂っている、すごく賢そうに聞こえるけれど私は間違っていると思う見方について触れておきたいです。
その見方とは、すべてのフロンティアモデルがすでに十分良くなったため、最高のモデルが以前ほど重要ではなくなっている、というものです。
そして、これには本当に見えるバージョンがあります。あなたのタスクが小さく、きれいで、よく定義されているなら、今の多くのモデルは交換可能に感じられます。この文書を要約して。このメールの下書きを作って。基本的なランディングページを作って。このエラーを説明して。普通のSQLクエリを書いて。優れたフロンティアモデルなら、どれでもそうしたことはできます。フロンティアは本当に、簡単なタスクを通り越しました。
だから、簡単なタスクでモデルを評価すれば、違いは小さい、あるいは存在しないと結論づけることになります。必ずそうなります。そして、それは正しいでしょう。ただし、間違った種類の仕事についてだけ正しいのです。
最高のモデルが重要になるのは、仕事が本物で、汚く、扱いにくい場所です。ブリーフが不十分なときに重要になります。ファイルがmessyなときに重要になります。ソース資料が矛盾している可能性があり、モデルが何が重要かを判断し、ツールを使い、不確実性を保持し、本物の成果物を作り、結果を確認し、完了するまで十分長く続けなければならないときに重要になります。
これは本物の仕事に感じられますよね。そして、ChatGPT 5.5が意味のある違いを見せるのは、この仕事なのです。
以前の問いは、このモデルはこれに答えられるか、でした。新しい問いは、このモデルはこれを背負えるか、です。
長いコンテキストを、話の筋を失わずに背負えるか。複数の形式にまたがる納品物を背負えるか。法的・倫理的リスクを、不快な部分や危険な部分を丸め込まずに背負えるか。データ移行を、人間が全データベースを再構築するのではなく、難しいケースだけ確認すればよいところまで背負えるか。
そこが、最高のモデルがいまだに重要な市場領域です。そして、モデルを単なるチャットボックスとして考えるのをやめると、その重要性はさらに増します。
なぜなら2026年には、モデルの重みだけを評価しているわけではないからです。それは実際にはあまり関係ありません。モデルそのものと同じくらい、その重みを取り巻くシステムを評価しているのです。ツール、ファイルアクセス、ブラウザ操作、メモリ、コンピューター利用、画像生成、インターフェース、利用可能なコンピュート、そしてそれらの要素が組み合わさって仕事を完了できるものになる、その在り方です。
タイミングも重要です。なぜなら5.5は真空の中で登場したわけではないからです。Anthropicは4月16日にOpus 4.7を発表しました。OpenAIは4月23日に5.5を発表しました。4.7は本物のモデルです。これは前進です。私は今でも使っています。特に計画、批評、フロントエンドのセンスにおいて強力です。
しかしOpus 4.7は、Mythosの影の下で登場したものでもあります。Mythosは、サイバーセキュリティ上の懸念から示唆され、制限されている、より高度なAnthropicモデルです。だから4.7は、私には橋渡し的なリリースに感じられました。有用で、重要で、以前より優れている。しかし、Anthropicのフロンティア上の位置づけを再定義するリリースではない、という感じです。
5.5は違って感じます。モデルリリースとして登場しましたが、同時にOpenAIのより大きなワークフロー立ち上げの一部でもありました。ChatGPTとCodeexに5.5があります。同時にCodeexも、モデルが実際にファイル、コード、ブラウザ、文書、インターフェースに対して行動できる場所として強化されています。ChatGPT Images 2.0も同じ時期に登場しています。これも重要です。なぜなら、ビジュアルの方向性は、OpenAIモデルがClaudeに遅れを取ってきた領域の一つだからです。
これらの部品はすべて噛み合っています。Images 2.0はビジュアルリファレンスを作れます。Codeexは作業環境の中で動けます。5.5はタスクを推論し、成果物を作り、テストし、反復し続けられます。この組み合わせは、白紙のプロンプトからモデルにすべてをやらせるよりもはるかに強力です。
これが、最高のモデルがまだ重要である理由です。最も難しい仕事はきれいではありません。そして、モデルが行動できる場所を必要とするため、最高のシステムが重要なのです。
では、本当の問いは、それが実際のテストに現れるのか、それともローンチが印象的だったから気持ちよく聞こえることを私が言っているだけなのか、です。
具体的にしましょう。
三つの難しいテストで見るGPT-5.5の実力
私は5.5に三つの難しいテストを実施しました。なぜなら、公開されているモデル評価の多くは、役に立つことを教えてくれるには簡単すぎると感じるからです。
フロンティアモデルにToDoアプリを作らせたり、書き起こしを要約させたり、グラフを作らせたり、メモを書かせたりしても、もはやフロンティアを本当にテストしているとは言えません。長い間、優れたモデルならできていたことをできるかどうかをテストしているだけです。
違いが現れるのは、本気で基準をリセットし、野心を引き上げようとしたときです。
そこで私が設計した三つのテストは、モデルをそれぞれ違う形で失敗させることを目的としていました。そして、はい、それらはすべて、5.5を含むどのフロンティアモデルでも失敗するほど難しく設計しました。モデルが良くなるにつれて、私はこれらのテストを進化させ続ける必要があるでしょう。そして私はそれでまったく構いません。
プライベートベンチを持つことの好きな点の一つは、公開されているテストで見られるような、モデルが文字どおり80点台や90点台に入り、ベンチマークを実質的に飽和させてしまうような百分率スコアを公開する必要がないことです。私は好きなだけ難しくできます。それがモデルのテストに役立ちます。なぜなら、モデルは明示的にそのテストで訓練されたわけではない形で試されるからです。
私はそれが好きです。モデルにおける知能の重要な価値の一つ、つまり新しい問題セットにまたがって一般化する能力を測る助けになるからです。だから私はプライベートベンチを持っています。そして今回のものはかなり厄介です。
私は三つのテストを書きました。すべて異なる失敗の仕方をするように設計しています。
一つ目はDingo and Companyです。アラスカのディンゴ企業に関する、経営層向けの完全な知識労働パッケージです。
二つ目はSplash Brothersです。洗車会社に関する、汚れた小規模ビジネスのデータ移行です。
三つ目はArtemis 2です。インタラクティブな3D可視化とリサーチ制作です。
それぞれ異なる能力を見ます。Dingoは判断力と制作規律をテストします。Splash Brothersは退屈なバックエンドの正確性をテストします。Artemisはリサーチ、インタラクティブ性、視覚的センスをテストします。
重要なのは、これらのテストのどれか一つだけを見ても、誤った物語を得る可能性があるということです。
たとえば、Dingoは5.5を圧倒的な勝者のように見せます。Splash Brothersは、もっと慎重になるべきだと感じさせます。そしてArtemisは、ルーティングの絵をかなり複雑にします。なぜなら、Opusは依然として視覚構成で本物の優位性を持っているからです。
これらすべてを横断して見ると、より完全な絵が得られます。
Dingoテスト:経営層向け成果物で見えた圧倒的な差
Dingoから始めましょう。
Dingoは、アンカレッジにある架空のペットテックスタートアップです。ディンゴおよびディンゴ交雑ペット向けの自動トイレを販売しています。製品名はDingo Box Proで、同社にはNorthern Canada Importsという関連子会社があります。この子会社はディンゴを輸入することで市場を作る支援をしています。
前提は意図的に馬鹿げています。そして、その馬鹿げたところこそがポイントです。弱いモデルは、これを面白い動物が付いた普通の製品ローンチとして扱います。強いモデルは、これが商業的に興味深く、法的に繊細で、倫理的に問題を含み、運用面でも非常に複雑だと理解します。
製品会社と輸入経路を切り分けなければなりません。幻想的な需要ではなく、資格のある飼い主を中心に市場規模を測らなければなりません。その製品がエキゾチックアニマルの飼育を合法、簡単、適切にするかのような示唆を避けなければなりません。そしてそれをすべて行いながら、人間が開き、編集し、送ることのできる本物のファイルを作らなければなりません。
課題では、一つのプロンプトで23個の成果物が求められました。文書、デッキ、数式とグラフ入りのスプレッドシート、PDFの1枚資料、インタラクティブダッシュボード、ローンチコミュニケーション、FAQ、ペルソナ、メールシーケンス、リスク評価、Go-to-Market計画などです。
これは、モデルが印象的なことを書けてもなお失敗し得る種類のタスクです。なぜなら、成果物はローンチについて良い考えを述べることではないからです。成果物はローンチパケットを組み立てることなのです。
GPT-5.5はこのテストで大差をつけて勝ちました。そしてはい、スコアについて話します。勝利の大きさが分かるからです。
スコアは、5.5が87.3、Opus 4.7が67.0、4.7 Summitが65.0、Gemini 3.1 Proが49.8でした。
さらに重要なのは、5.5が実際に使える成果物を作ったことです。求められた23個の成果物はすべて本物の成果物タイプでした。間違った拡張子を付けたHTMLやMarkdownではありませんでした。デッキには17枚の本物のスライドと26個のメディアファイルがありました。スプレッドシートには本物の数式と本物のグラフがありました。ダッシュボードは動作し、提供されたロゴと製品のヒーロー画像を使っていました。リサーチファイルには34個のURLがあり、法的・規制上の主張について、公式ソースのカバーが強く入っていました。
そして、この法的姿勢こそが、このテストの中心です。他のモデルはそれぞれ違う形で失敗しました。
Opus 4.7は洗練された成果物を作りましたが、規制面での立場は不安定で、重要な数値に揺れがありました。Sonnet 4.7は有用な戦略を出しましたが、成果物レイヤーの制作量が不足していました。Gemini 3.1 Proは前提の一部を理解していましたが、本物の文書、デッキ、ワークブック、PDFであるべき複数のファイルが、正しい拡張子を付けただけのHTMLやテキストファイルでした。
これは小さな問題ではありません。偽物のPowerPointを取締役会に送ることはできません。
Dingoにおける5.5の最も印象的な点は、完了したことではありませんでした。仕事の姿勢を理解していたことです。ローンチを広範な目新しさを売るキャンペーンではなく、非常に限定された資格ある家庭向けのリリースとして位置づけました。Northern Canada Importsを中心的なリスク源として扱いました。好奇心からの流入と本物の購入者を切り分けました。そして、適切な場所で繰り返し、この製品はエキゾチックアニマルの飼育を合法、簡単、適切にするものではないと述べました。
これこそ、本物の経営層向け仕事を行うモデルに私が求める判断です。
もちろん、欠陥はまだありました。PowerPointには無効なXMLメタデータがありました。Dingo and Coのアンパサンドが正しくエスケープされていなかったからです。あるスライドではNPSの数値が誤って丸められていました。いくつかの価格に関する主張は古い、あるいは不正確でした。外部に送る前に、私はそこを修正します。
しかし、それらは最終段階の制作上の欠陥です。課題を理解できていない失敗ではありません。そして、その区別は重要です。現実の仕事では、高価な部分はしばしば、何もないところから、正しい構造、正しい証拠、正しいファイル、正しいリスク姿勢を備えた一貫した初稿まで持っていくことだからです。
5.5は、私がテストしたどのモデルよりも、その部分をうまく圧縮しました。
これが最初の難しいテストです。messyな経営層向け引き渡しが仕事である場合、5.5はここで非常に優れて見えます。
Splash Brothersテスト:データ移行では慎重さも必要
二つ目の難しいテストでは、レビューは少し複雑になります。
Splash Brothersは、架空の出張ディテーリングおよび洗車事業です。465個のファイルがあり、フォルダは意図的にひどい状態にしてあります。CSVエクスポート、三種類の異なるスキーマのExcelシート、JSONバックアップ、破損したJSONファイル、VCF連絡先カード、手書きレシートをスキャンしたPDF、テキストメモ、矛盾するサービス一覧、一貫性のない支払い記録、そして現実の小規模事業が長年のその場しのぎ運用で蓄積しそうなゴミの山があります。
課題は、その全体をきれいなデータベースへ移行することです。
つまり、モデルはファイルを棚卸しし、何が重要かを判断し、複数形式を解析し、スキーマを設計し、レコードを抽出し、重複顧客を統合し、偽レコードを却下し、サービスを正規化し、価格を照合し、衝突を検出し、ソースの来歴を保持し、移行レポートを書き、レビューUIを構築しなければなりません。
これは華やかな仕事ではありません。しかし、本物のビジネス作業の非常に大きな部分はこのようなものです。
仕込まれた罠には、明らかなものと微妙なものが混じっています。Mickey Mouse、test customer、ASDF、ASDFという名前の偽顧客がいます。25,000ドルの偽支払いがあります。重複顧客、名前のタイプミス、サービス名のバリエーション、一貫性のない日付形式、messyな支払いステータス、さまざまな大文字小文字やラベルで散らばった支払い方法があります。
そして、より見えにくい罠もあります。Terren Blackwoodという顧客に紐づく孤立した注文、サービスコードの衝突、そしてOCR手順を雑に扱うと偽の正規顧客を簡単に生み出してしまう手書きレシート画像です。
この評価を以前チェックしたときには、Opus 4.7も5.4も重要なところで失敗しました。たとえば、どちらもMickey Mouseを本物の顧客だと考えました。test customerは本物の顧客になりました。ASDF ASDFも本物の顧客になりました。25,000ドルの偽支払いは正規化され、売上として計上されました。
これは、思わず姿勢を正すようなミスです。なぜなら、本物の人間ならそれらをとても早く見つけるからです。モデルがそれを見落とすなら、その移行を本番安全なものとして扱うことはできません。
5.5は、私が意図的にデータに仕込んだミスを初めて捕まえたモデルです。Mickey Mouseを却下しました。test customerを却下しました。ASDFを正しく却下しました。偽注文と25,000ドルの偽支払いを却下しました。仕込んだ7組すべての重複顧客ペアを正しく統合しました。13件すべての名前付きタイプミス注文を捕捉しました。465個すべてのソースファイルを発見しました。データベースの決定論的な再構築を行いました。ファイルごとの監査証跡を含む7,287行の移行レポートを生成しました。そして顧客数は目標192に対して186となり、かなり近い結果になりました。
この評価を実行してきた私の以前の結論は、どのフロンティアモデルも、一発のビジネスデータ移行で信頼してよいほど安全ではない、というものでした。5.5はその主張を狭めます。しかし、それを消し去るわけではありません。
なぜなら、5.5は依然としてサービスコードの衝突を見逃したからです。スキーマにサービスコード列が含まれていなかったため、仕込んだ衝突の一つを最終出力の中で表現することすらできませんでした。Terrence Blackwoodを人間レビューに回すのではなく、正規顧客として作ってしまいました。支払いステータスには29種類の異なる生値が残され、支払い方法は正規化されないままでした。サービスとジョブを過剰生成し、レビューUIではインターフェースの二つの部分でフラグ付き項目数が食い違っていました。
そして、この失敗パターンは非常に示唆的です。5.5は、人間にとって意味的に明らかなエラーにはかなり強くなりました。偽レコード、重複人物、名前のタイプミス、あり得ない支払いです。
それでも、移行を堅牢にする退屈なバックエンド衛生には苦戦しました。列挙値の正規化、サービスコードの保持、孤立レコードの処理、正規ジョブのグルーピング、ダッシュボード件数とデータベース件数の照合です。
ですから、私の実践的な読みはこうです。
このような移行の最初の本格的なパスとして、私は間違いなく5.5を使います。ファイルの棚卸し、スキーマ設計、抽出パイプラインの構築、ソース来歴の保持、監査レポートの生成、レビューUIの作成を頼むでしょう。
しかし、データベースを正規の最終版だと宣言することは許しません。バリデーターを追加します。行数を確認します。列挙値のマップを点検します。スキーマにサービスコードを必須にし、本番に出る前に人間が正規マージを承認するようにします。
これは5.5への批判ではありません。それが正しい使い方だというだけです。モデルは作業の中間部分をかなり圧縮できます。しかし、本番での信頼は依然として、その周囲に構築するシステムから生まれます。
5.5のSplash Brothers結果について、一つ重要な注意点があります。私はこれを5.4と直接比較しました。そして、5.5で問題として挙げているバックエンド作業は、実は5.4のほうが少し良かったと見えました。
つまり私たちは、面白い状況にいます。5.5では、5.4が正しくできていたバックエンドのデータベース衛生規律の一部に、いくらかの後退が見られます。しかし同時に、Mickey Mouseの例のように、人間ならすぐ気づく直感的なものについては多くの進歩が見られます。
ここで伝えたいのは、第一に、完璧なモデルはないということです。第二に、今すぐ選ぶなら、私なら5.5を、バックエンドの明確で複雑な作業に対して慎重にプロンプトして使います。そして、完成したデータベース移行作業に磨きを加えるフロントエンド的・直感的な作業については、より信頼します。
要するに、フロンティアでモデルをテストすると、このような興味深い結果が出ると理解してください。モデルが予想外に後退する場所があるのです。これはプライベートベンチマークでモデルをテストした場合にまさに予想されることです。一般化がそこではうまく機能しない場所が見えるからです。
これはハーネスと良いプロンプトがあれば簡単に修正できます。ここでの私のプロンプトは、意図的にmessyで、形の悪いものにしてありました。それも課題の一部です。だから、5.5を使っているなら、そこまで心配する必要のある話ではありません。5.4に戻る理由ではありません。ただし、深く掘るのが好きな人向けの指摘です。
DingoとSplash Brothersを並べると、このリリースの絵がより完全になります。Dingoは、5.5が本物の経営層向け引き渡しに驚くほど近づけることを示しています。Splash Brothersは、messyな本番データに対して本格的な初回パスができる一方で、最終権限にはなれないことを示しています。
Artemis 2テスト:情報密度と視覚的センスの違い
三つ目のテストは、また違います。OpenAIスタックの中でまだ助けが必要な部分を示しているからです。
Artemis 2テストでは、モデルにNASAのArtemis 2ミッションのインタラクティブな3D可視化を作るよう求めます。事実は何も提供されません。技術スタックも指定されません。モデルはミッションを調査し、SLS機体を作り、打ち上げから月フライバイ、帰還までをアニメーション化し、環境を作り、操作機能を追加し、タイムラインのスクラブをサポートし、コンポーネントをクリック可能にし、最終的に教育的な成果物にしなければなりません。
このテストはDingoやSplash Brothersとは大きく異なります。モデルはリサーチを正しく行っても、非常に醜い可視化を作ることがあります。美しいものを作りながら、ミッションを幻覚することもあります。ロケットをアニメーション化しても、操作機能で失敗することがあります。技術的には面白いけれど、誰も見たいと思わないものを作ることもあります。
5.5もOpus 4.7も、ここではミッションの中核的な形を正しく捉えました。Artemis 2が月フライバイであり、着陸でも月周回でもないことを理解していました。軌道はいずれも完璧ではありませんでしたが、ブラウザ可視化としては妥当でした。どちらのモデルも、Artemis 2をApollo、Artemis 1、Artemis 3と混同することはありませんでした。
ここで現れた重要な違いは、プレゼンテーションでした。
5.5は情報密度に寄せました。クリック可能なバブル、パネル、密なラベル、事実を表面化させる複数の方法です。学習が目的なら、5.5のビルドは多くを正しく行っていました。しかし視覚的には、本来よりも漫画っぽく見えました。スケール感がずれていました。比率に地に足がついていませんでした。NASAのミッションにふさわしい視覚的な説得力が場面に欠けていました。
Opus 4.7は反対のトレードオフをしました。ビジュアルはかなり強かったです。照明が良く、構図が良く、より地に足のついた場面になっていました。そして、実際に誰かに見せたいと思えるものに感じられました。ただし、情報はすぐに見つけにくくなっていました。
どちらのモデルも操作機能は完璧ではありませんでした。両方とももう一回のパスが必要でした。Opusには、半透明の地球のような少し奇妙な問題がありました。5.5にはスケールとスタイルの問題がありました。
もし私がどちらかを最終的な公開成果物にするなら、おそらくOpus版から始め、その上に5.5の情報密度を加えるでしょう。
ここでルーティングが重要になり始めます。私はまだ、5.5が白紙から美しいフロントエンドや視覚スタイルを単独で発明することを、Opusを信頼するほどには信頼していません。Claudeは依然として、白紙のフロントエンド制作における視覚構成とセンスで優位性があります。
しかし私は、5.5が強力なビジュアルリファレンスを忠実に実装することは信頼しています。そしてそれが、Images 2.0がワークフローを変える理由です。5.5に何もないところからセンスを発明させるのではなく、強いモックアップを生成し、その画像をCodeex内の5.5に渡し、そのリファレンスに沿って動くバージョンを作らせることができます。
センスを発明するのは難しいです。ターゲットに沿って実装するのはずっと簡単です。これが、ただ何となく一つのモデルを選ぶことと、実際に何が機能するのかを見極めることの実践的な違いです。
私は盲目的なモデル忠誠心のためにここにいるわけではありません。モデルをハーネスの中で使い、仕事を完了する本物の方法を見つけるためにいます。
バックエンドの処理量、監査の深さ、ツール利用、完遂力が必要なら、私は5.5を使います。白紙のキャンバスで視覚的センスが必要なら、私はまだOpusを使いたいです。実際に機能する強いユーザーインターフェースが必要なら、ますます、リファレンス画像とCodeex内の5.5を組み合わせたいと思うようになっています。
ここで大きなパターンが見えてきたと思います。5.5は完璧ではありません。魔法ではありません。すべてのタスクで最良のモデルではありません。しかし、私が使ってきた中では、複雑な仕事に対する最も強力なデフォルトです。なぜなら、話の筋を落とす前に、より多くのタスクを背負えるからです。
CodeexがGPT-5.5にとって重要な理由
ここから、この動画の四つ目の部分に入ります。なぜCodeexが5.5にとって非常に重要なのかです。
私は最近、本格的な仕事ではChatGPTよりもCodeexを多く使っています。そして5.5は、その違いをかなりはっきりさせます。ChatGPTは依然として幅広い消費者向けの表面です。素早い質問、検索、画像作業、音声、一般的な支援、速い思考に向いています。
しかしCodeexは、ますます実際に仕事が起こる場所になっています。
これが重要なのは、これほど強いモデルがチャットウィンドウの中に閉じ込められていると、大きく使い切れないからです。チャットウィンドウの中では、5.5は何をすべきかを教えてくれます。Codeexの中では、ファイルを調べ、コードを編集し、コマンドを実行し、ブラウザを操作し、インターフェースをテストし、ドキュメントを読み、成果物を生成し、自分の出力に対して反復できます。
それは別のプロダクトです。モデルはただ返答しているのではありません。タスクが存在する環境の中で働いているのです。
これが、モデルとシステムの議論が抽象論ではない理由です。2026年でも、有用な仕事の大半はきれいな表面では起こりません。messyなフォルダ、Webアプリ、PDF、スプレッドシート、デスクトップインターフェース、社内ツール、半分だけ保守されたシステム、自動化を前提に設計されていない文書の中で起こります。
そうした表面を横断して動作できるモデルは、テキストプロンプトに限定されたモデルよりも、はるかに多くの世界に届くことができます。Codeex内の5.5は、その方向への一歩に感じられます。
多くの、多くのステップにわたってタスクを保持できます。コードベースを調べることができます。テストを実行できます。エラーにぶつかることができます。計画を修正できます。ファイルにパッチを当て、再度テストし、その後で何が変わったかを伝えられます。これは怪物です。
文書を生成し、レンダリングし、レイアウトが壊れていることに気づき、修正し、再レンダリングできます。これは、知能とエージェンシーが互いを増幅するタイプの仕事です。
より賢いモデルは、ツールを持つとより重要になります。より良いツールは、モデルが常時監督なしに使えるほど賢いと、より重要になります。それが5.5がCodeex内で改善するループです。
そしてこれは、可用性もプロダクト品質の一部である理由でもあります。世界最高のモデルでも、必要なときに使えなければ役に立ちません。コンピュート制約は、上限、劣化した体験、遅延、奇妙なルーティング判断、使いたいモデルが使えない瞬間の限定セッションとして現れます。
AnthropicとOpenAIの公開ステータスページは、ここで本物の物語を語っています。Anthropicの90日ステータスページは最近、Claude、Claude Console、Claude API、Claude Code全体で、OpenAIのステータスページと比べて実質的に低い稼働率を示しています。
その感覚を伝えると、私たちは信頼性をナインで測ります。そしてAnthropicの多くのサービスは、今、可用性がワンナインです。つまり90何パーセントということです。99ではなく、90いくつ、おそらく98かもしれません。同じではありません。
対照的に、収録時点のOpenAIサービスは、場所によってスリーナイン、時にはツーナインを示しています。そして、常に稼働していなければならない実世界の仕事に使うモデルにおいては、可用性のナインが一つ増えるたびに、価値がもう一段変わります。
ですから、本格的な仕事をしているなら、自分に問いかけなければなりません。コンピュートの空白を許容できるのか、と。
これを共有するのは、数字だけから推論しているわけではありません。数字は、真剣なClaudeユーザーから聞こえてくる逸話とも一致する物語を示していると思います。この1か月、Claudeの可用性に対する不満が、私個人のところにも、インターネット全体にも広く報告されています。
Anthropicが直近30日で10ギガワットを超えるコンピュート契約を結んだのは偶然ではありません。必要だからです。現在、Claudeへの需要は全体的に供給を上回っています。そして需要が供給を上回ると、問題が発生します。だからこそ、5.5で得られる信頼性は最近本当に重要だと指摘したいのです。
そして、それは変わるかもしれません。これは常に続いていく旅です。Darioが言うように、虹は続きます。次の章がどうなるか見ていきましょう。
現時点でのモデルの使い分け
では、ここまでのテストを踏まえて、今の私はどのように仕事をルーティングしているのかを説明します。
複雑な多段階実行では、5.5が今の第一候補です。タスクにファイル、コード、ツール、文書、ブラウザ利用、データ、スプレッドシート、成果物、あるいは複数ステップを通じて背負わなければならないものが含まれるなら、私は5.5から始めます。仕事が長く、messyであるほど、その差は大きく感じられます。
白紙のフロントエンドのセンスでは、私は今でもしばしばOpus 4.7から始めます。リファレンス画像もデザインシステムもない場合、Claudeはより強いビジュアルデザインを作り続けています。そして、それは美しいPowerPointや、場合によっては美しくデザインされたスプレッドシートにもつながります。質問が、これをゼロから美しくして、であるなら、Opusは今でも十分に候補に入ります。
センスと制作力の両方が必要なUI作業では、私はまずリファレンスが欲しいです。Images 2.0でモックアップを生成してもよいです。Claude Designから始めて、競わせるかもしれません。スクリーンショットを使うこともできます。モデルに明確なビジュアルターゲットを渡すこともできます。
ただ、いずれにしても、私はそれを5.5 Codeexに渡し、その作業を忠実に実装させ、最初にどこまで行けるかを見ます。そのうえで、もしClaude Designから始めて、Claude Designがより強いモデルで出してきたと感じるなら、Claude Codeと5.5の間で競わせてもいいでしょう。
どちらにせよ、長時間実行されるコード実行を高い正確性で進めるモデルの強さを考えると、5.5は組み合わせの中に入れるべきだと思います。
エンジニアリング作業でも、私は二モデルワークフローが好きです。Opus 4.7は、計画、作業全体の形、顧客価値を考えることに強いです。Codeex内の5.5は、実行、テスト、作業の完遂に優れています。両方を組み合わせるほうが、一つのモデルがパイプライン全体を所有すべきだと装うよりも、多くの場合優れています。
ライティングでは、5.5は本当に一歩前進しました。そして改善は単なる文章品質ではありません。構造です。AIライティングの失敗の多くは、形の失敗です。モデルは導入を書き、本文セクションをいくつか書き、結論を書きます。しかし論旨が積み上がっていません。セクションが読み手を前に進めるのではなく、横に並んでいるだけです。移行はありきたりです。ニュアンスは平均化されたようになります。文章は、ある主張に向けて本当に良く書くのではなく、プロンプトに答えているだけになります。
5.5は、長い議論の形を保持することが実際にはるかに上手くなっています。もちろん、まだセンスは必要です。私は生の出力を編集なしに公開することはありません。しかし、以前のどのOpenAIモデルよりも、構造と最初の本格的なドラフトの多くを任せる気になっています。
データ作業では、私は5.5を積極的に使いますが、検証を組み込みます。モデルに移行を完了させて、その結果を信頼してはいけません。ソース来歴を求めます。却下されたレコードを求めます。重複ロジックを求めます。そういう詳細なプロンプトを行います。
Splash Brothersはここでの注意喚起です。5.5はMickey Mouseを見つけました。それでも慎重なバックエンド衛生を見落とし、そこには少し後退もありました。
リサーチ重視の作業では、モデルにソースと不確実性を掘らせたいです。そして、それを自分でも行ってから承認する必要があると想定しなければなりません。Artificial Analysisも実際にこの点を指摘しており、このモデルは優れた仕事をしながらも自信過剰に感じられた、と述べています。これは5.5について知っておくべき興味深いニュアンスです。
つまり、真剣な実行のデフォルトとして5.5を使う。センスや批評がより重要なところではOpusを使う。視覚的方向性が重要な場合はImages 2.0やリファレンス画像を使う。そして、お金、法律、運用、本番データ、あるいは自信満々に間違うと非常に高くつくものに出力が関わる場合は、必ず検証を使う、ということです。
AI利用の未来は、一つのモデルではありません。ルーティングです。フロンティアから最大の価値を引き出す人たちは、どのタスクにどのシステムを使うべきかを知っている人たちになるでしょう。
しかし今日、日々の多くの仕事に対するデフォルトになりがちなモデルを一つ使うよう強制されるなら、私の答えは、今日の時点では5.5とCodeexです。そこに今、最も価値を見ているからです。
GPT-5.5が最強であるという結論
結論はこうです。
5.5は今日、世界で最も強力なモデルです。そして、それが最も強い部分は、最も強くない部分よりも重要です。
特に、複雑で、messyで、多段階で、ツールを多用する仕事に優れています。以前のOpenAIモデルよりも、長い文章の構造で意味のある改善があります。Codeex内で非常に優れています。周囲のOpenAIリリースサイクルから恩恵を受けており、それはほとんどのモデルリリースにはない形です。
Images 2.0は視覚的方向性を助けます。Codeexはモデルが行動する場所を与えます。5.5は本物の仕事を行うための推論力と持続力を供給します。
三つのテストは、単一の公開ベンチマークではできない形で物語を示しています。
Dingoは、複雑な経営層レベルの知識労働の可能性を示していると思います。5.5は奇妙なビジネス状況と証拠の山を受け取り、経営層向け引き渡しの初稿としてある程度使えるものを作れます。
Splash Brothersの会社例は、重複や偽レコードに関する問題を示しています。同時に、以前は人間だけが捕まえ、過去のモデルは捕まえられなかった偽顧客のようなものを見つける可能性も示しています。
Artemisは、視覚的プレゼンテーションを本当に考え抜く必要がある場所を示しています。5.5は情報密度では強かったものの、Opusが作ったような驚くほど美しい最終成果物を作ることはできませんでした。
これらのどれも、5.5が人間の判断の代替であることを示唆するものではありません。そうではありません。これはフロンティアで最もセンスの良いモデルではありません。本番データの最終版を盲目的に信頼してよいほど安全でもありません。私はどのモデルも、本番データの最終版について盲目的には信頼しません。
今でもレビュー、検証、そして良いものがどう見えるかを知っている人からの方向づけが必要です。
しかしこれは、単一のモデルが本物の仕事でどれだけ背負えるかについての新しい最高水準です。そして最高水準は重要です。ユーザーが試そうとすることを変えます。プロンプトがどれほど野心的になるかを変えます。どれだけの仕事を委任するかを変えます。そして、そのモデルの周囲にどのようなプロダクトを構築できるかを変えます。
ここで楽しい例をいくつか挙げます。
5.5が解き放つ能力の周囲には、これから作られるべき新しい100万ドル規模のビジネスがあります。私が行ったテストでは、このモデルが取り組める課題のいくつかを示しました。
ビジネスアイデアを二つ挙げます。5.5と画像とCodeexの組み合わせに興味があるなら、それらを全部一緒に使って何ができるのか、という話です。
一つ目。Apple App Storeかどこかで、手相占いの100万ドル規模の小規模ビジネスが生まれる可能性があります。なぜならImages 2.0はかなりまともな手相読みを提供でき、Codeexはそのタスク向けのアプリを作る手助けができ、フロントエンドはImages 2.0自身が設計できるからです。これは、これら三つのリリース製品を組み合わせて、まったくエンタープライズ規模ではないけれど、間違いなく副業やソロ起業家規模のものにできる例です。
もう一つの例です。カスタムLEGOビジネスを始められます。Images 2は今や十分に優れていて、プロンプトから小さなLEGOセットを設計し、LEGOの正確な部品番号も出せます。ですから、Codeexを使ってそのためのアプリを組み立て始めることが想像できます。Images 2を使ってUIを設計し、Images 2を使ってカスタムLEGOのプレゼンテーションの一部を動かし、その後でLEGO側のサプライチェーンを考える必要があります。しかし、誰かにとっては面白い小さなビジネスになるかもしれません。
これを言っているのは、5.5が小規模ビジネスにしか役立たないからではありません。ただ、私がエンタープライズのユースケースについて話しているのを聞くと、これらのモデルは会社に500人、5,000人、50,000人、あるいは500,000人いる場合にしか役に立たないと思う人がよくいるので、あえて指摘しています。それは違います。これらのモデルは、個人にも新しいものを作る非常に面白い機会を提供します。
そして私が挙げた二つの例は、ほんの1週間前には実際には可能ではなかったビジネスです。だから、モデルがどのように改善しているかを見る方法として、そうした例を探してください。そういう種類の例を探してください。
最後に、このリマインダーで締めます。
これからモデルを簡単なタスクでテストするなら、あなたはポイントを見失っています。以前のモデルは、簡単なタスクにはすでに十分優れています。何が変わったのかを見るには、ほんの数か月前ならモデルを壊していた種類の仕事を与えなければなりません。複数成果物のブリーフ、データの山、エージェント的なループ、その他いろいろです。
そして、それはもはやチャットウィンドウでは本当にできません。チャットウィンドウのユースケースは飽和しています。そのようにテストすると、このリリースの意味が分かり始めます。
基盤となる事前学習が優れているため、モデルはクイックモードでより賢くなっています。同じ理由で、思考モードでもより強くなっていると思います。そう思います。OpenAIはこれらをリリースして、私たちはこう推測していますとは言いません。これは、過去のどのOpenAIモデルよりもCodeex内に包まれたときに優れています。視覚作業ではImages 2.0と自然に組み合わさります。そして特別な機会のツールではなく、日々のデフォルトになれる程度には利用可能であるように見えます。
だから、古い問いは小さすぎるように感じます。面白い問いは、5.5は5.4よりうまく答えられるか、ではありません。面白い問いは、私は今、これに何を頼めるのか、です。
そして、しばらくぶりに、その問いに対する答えは、1週間前よりもずっと大きくなっています。


コメント