OpenAIが新たにリリースしたGPT-5.5を、エージェント型コーディングや複雑な3D生成、医療画像解析、ディープリサーチなど多角的なタスクで徹底検証した実演レビュー動画である。Codex環境を活用した地球デジタルツイン、レイトレーシング、流体シミュレーション、3Dシューターゲーム、DAW楽曲制作などを実際に構築し、Claude Opus 4.7をはじめとする競合モデルとの比較ベンチマーク、価格、ハルシネーション率まで踏み込んで紹介している。

- GPT-5.5登場、最高峰モデルの実力を徹底検証
- Codexで使うべき理由とエージェント環境
- 地球のデジタルツインを構築するハードテスト
- レイトレーシングシミュレーションで素材表現を検証
- ChatGPTでがん画像を識別できるか試す
- HubSpotのAIアプリアイデアデータベース
- 6種類の脳腫瘍識別テスト
- ハンドトラッキング付き流体シミュレーション
- 複雑なアイソメトリック画像から3Dシーンを生成
- DAWインターフェースで楽曲制作
- 3Dシューターゲームの制作
- カエル探しテストとエージェントワークフロー
- ChatGPTでのディープリサーチとハルシネーションテスト
- GPT-5.5のスペックと利用可能なプラン
- ベンチマーク比較とハルシネーション率
- まとめ
GPT-5.5登場、最高峰モデルの実力を徹底検証
OpenAIがついに最新モデルのGPT-5.5をリリースしました。これは現時点で利用可能な最も性能が高く、最高のAIモデルです。正しく使えば非常に大きなアップグレードとなりますので、この動画ではこのモデルでできる驚くべきことを全てお見せしていきます。さらにスペックや使える場所についても解説し、最後には他社の競合モデルとの性能比較やベンチマークも見ていきます。それでは早速始めましょう。
この動画のスポンサーであるHubSpotに感謝します。
まず最初にお伝えしておきたいのは、最新のトップモデルであれば、要約や小論文の執筆、メールやSNS投稿の作成といった簡単なことはすでにどれもこなせるということです。ですから、この動画ではそういった単純なテストはやりません。もっとトリッキーなタスクを与え、本当に限界まで追い込んで、このモデルがどれほど高性能なのかをお見せします。
Codexで使うべき理由とエージェント環境
GPT-5.5を使える場所はいくつかあります。もちろんChatGPT上でも使えますが、特に何かをビルドしたりバイブコーディングしたいなら、彼らのCodexアプリを使うことを強くおすすめします。これは無料でダウンロードして試せます。
なぜならCodexでは、フォルダ内のプロジェクト全体に対して1つまたは複数のエージェントを動かすことができるからです。例えばこの動画用に、私はこのようにいくつもの異なるフォルダを用意していて、それぞれが別個のプロジェクトになっています。これについてはすぐにお見せします。
このおかげで、はるかに複雑なものを構築できますし、プロジェクトを継続的に改善していくことも可能になります。これはChatGPTのインターフェースを使うだけの場合と比べて、はるかに効果的です。
地球のデジタルツインを構築するハードテスト
それでは、いきなりかなり難しいテストから始めましょう。完全インタラクティブな地球の3Dデジタルツインを構築し、宇宙空間から個々の街路まで、ユーザーがシームレスにズームできるようにしてください。リアルな地球を表示し、必要であれば公開されているアセットやモデル、レイヤーを使ってください。通常のWebブラウザで効率的に読み込まれるようにしてください。
そしてこれにはGPT-5.5 extra highを選択して、Runを押します。これは思考型モデルなので、出力を返すまでにかなり長い時間考えていました。最初の出力もすでにかなり良いのですが、3D建物がやや物足りなかったので、私はこう書きました。3Dビューをもっと良く見せて、すべての建物を網羅するように、と。その後、少し動きが重かったので、こう指示しました。建物は通常のWebブラウザで効率的に読み込まれるようにしてほしい、と。そして最終的に得られたのがこちらです。
これが地球デジタルツインの姿です。3D空間でこの地球儀の上に都市をマッピングすることもできています。とても素敵ですね。Nightをクリックすると、夜景の照明が有効になります。素晴らしい。
それでは次に、ニューヨークをクリックすると、自動的にニューヨークにパンしてくれます。今度はNightをオフにしましょう。そしてサンフランシスコをクリックしてみると、確かにサンフランシスコにズームインしてくれました。次にこのボタンをクリックして、ストリートビューに飛び込んでみます。すると確かにストリートビューが表示されました。次は3D建物もクリックしてみましょう。これらすべての3D建物をレンダリングできています。本当にクールですよね。
ストリートを無効にすると、こうして3D建物だけが見えます。本当にすごいです。たった数回のプロンプトで、私が指定したものをすべてコーディングできてしまいました。3D建物付きのストリートビューマップも作れますし、夜景付きの地球ビューも生成できます。おそらく他のレイヤーもここに追加できるでしょう。これは本当に素晴らしいです。
これがコーディングできるかなり複雑なものの一例です。
レイトレーシングシミュレーションで素材表現を検証
次に新しいプロジェクトを始めます。それでは、球体1個、立方体1個、ピラミッド1個を備えたレイトレーシングシミュレーションを開発してください。環境は青空と市松模様の地面です。位置、反射率、ラフネス、透過性、その他の素材プロパティといった調整可能なパラメータを球体に追加してください。すべてを単独のHTMLファイルに収めてください。通常のWebブラウザで効率的に読み込まれるようにしてください。これは私がよく使うキーフレーズで、スムーズに動作させるためのものです。
それではGenerateを押しましょう。最初に出てきたのがこちらで、すでに最初から動いていましたが、プロンプトでは球体の設定だけをお願いしていたことに注目してください。そこで次にやったのは、他の図形にも同じスライダーを追加するように指示することでした。その後、他の図形の反射が正しくレンダリングされていないようだったので、こう書きました。各図形の素材プロパティが、別の図形に映り込んだり半透明の図形を通して見たりしたときも正しくなるようにしてください、と。
ほぼそれだけです。たった3回ほどのプロンプトで、得られたのがこちらです。それではこのindex.htmlファイルを開いてみましょう。このボタンをクリックすると、外部ブラウザでも開けます。確かにこの3つの図形が表示されています。
球体の位置を調整してみましょう。スライダーが効いていますね。半径を調整します。半径も機能します。次は反射率です。これを超反射にしてみましょう。ラフネスも下げてみます。透過性はゼロまでドラッグしましょう。すると、本当に反射の高い金属球のようになります。ご覧の通り、反射は正確です。球体に映る他の図形がはっきり見えます。
透過性を1まで上げると、今度は非常に透明な球体に変わります。本当にクールですね。IORの設定でも遊べて、こうなります。素晴らしい。スペキュラの設定はとても繊細ですが、球体の表面を調整します。色を緑のようなものに変えてみましょう。色も機能します。実際、透過性を下げると、色がもう少しはっきり見えます。これを青に戻します。
球体については以上です。他の図形のスライダーも素早くテストしてみましょう。立方体の位置は機能します。サイズも機能します。反射率も機能します。素晴らしい。透過性も機能します。IORも機能します。立方体は90%透過しているので、立方体越しに球体がはっきり見えます。最後にピラミッドもさっとテストしましょう。位置とサイズは機能します。反射率を上げてみると、これも機能します。反射率を変えると球体に映るピラミッドの反射も変化することに注目してください。透過性も調整します。これも機能します。素晴らしい。色は白に設定しましょう。
現時点ではピラミッドと立方体が透過していて、球体は金属になっています。最後に球体も完全に透過するように調整しましょう。出来上がりはこちらです。たった3回のプロンプトで、これだけのことをレンダリングしてしまうのですから、本当に印象的です。
ChatGPTでがん画像を識別できるか試す
次にChatGPTでもいくつか例をお見せします。このモデルのドロップダウンをクリックして、Configureを押し、ここでPro 5.5を選びます。そして思考の度合いはExtendedに設定しましょう。これで最も高性能なバージョンが見られます。
それではがんを識別できるかどうか試してみましょう。この画像を貼り付けて、この写真が何についてのものかを説明してくれるよう頼みます。もし画像内に病変があれば、それを丸で囲んでください。Runを押します。これが軸状胸部CTスライスのモンタージュであるという答えは正解です。注釈付きの画像をダウンロードして、病変を丸で囲めたかどうか見てみましょう。
左側がGPTの回答で、右側が正解です。スライド1では、本来ここにあるべき病変を正しく丸で囲めていません。スライド2は囲めましたが、これはかなり明らかなものです。スライド3も正解しました。スライド4も正解です。完全に完璧というわけではありませんが、4つのうち3つは正解できました。
HubSpotのAIアプリアイデアデータベース
今や誰もがAIを学んでいますが、ほとんどの人が同じ壁にぶつかります。ツールは使えるものの、それをどうやって実際にお金を生み出すものに変えるかが分からないのです。あなたもAIアプリを作ろうと考えたことがあるかもしれませんが、何を作るべきか、自分のアイデアが本当に儲かるのかを判断するのは大変だと感じるはずです。
だからこそ、HubSpotによる「数百万を稼ぐ50以上のAIアプリアイデア」データベースをチェックすべきなのです。下の説明欄に貼っておきましたので、無料でアクセスできます。このデータベースでは、すでに収益を上げているリアルなアプリのアイデア数十件にアクセスできます。何千ものデータポイントを調べて、市場で今うまくいっているものを確認できます。業界、プラットフォーム、製品タイプでアイデアを絞り込めるので、自分のスキル、興味、ビジネス目標に合った機会を見つけやすくなります。
さらに、各エントリーには完全なケーススタディへのリンクが含まれているので、どのようにアプリが作られたのか、どのようにして実際にお金を稼いでいるのかを深く掘り下げて理解できます。私のお気に入りは、このリソースが実用的で使いやすいところです。何が効くか推測する代わりに、すでに市場で成功しているAIアプリの実例を得られるので、次のアイデアを検証するのがずっと楽になります。
ここで車輪を再発明する必要はありません。下の説明欄のリンクから、データベース全体に無料でアクセスできます。このリソースは、この動画のスポンサーであるHubSpotによって作成されました。
6種類の脳腫瘍識別テスト
次に、もっとトリッキーながんテストにかけてみましょう。この画像をここにアップロードします。それぞれ異なるタイプの腫瘍があります。すべての腫瘍タイプを識別できるか見てみましょう。6つの画像それぞれの腫瘍の種類を識別してください、もしあればですが、と書きます。Generateを押しましょう。
結果はこちらです。今回はすべて正解とはいきませんでした。左上から始めましょう。腫瘍はないと言っており、これを単に大きな血管先端の動脈瘤だと識別しています。しかし、これは髄膜腫(menioma)であるべきです。ですから1つ目は厳密には正解ではありません。
中央上も同じく腫瘍なしと答え、これを脳動静脈奇形と識別しています。しかし正解はここにシュワン腫があるはずです。
次は右上です。シュワン腫と識別していますが、実際にはそれは2番目のはずです。代わりに右上は神経線維腫症であるべきなので、これも間違っています。
次は左下です。コロイド嚢胞と識別していますが、これも正しくありません。正解はゴーシェ(go)です。中央下は頭蓋咽頭腫(cranioangi)と識別していますが、これも正しくありません。右下は明確な腫瘍なしと答えていて、これも間違いです。右下は脊索腫であるべきです。
ですから、これは最先端のモデルではあるものの、CTスキャンから脳腫瘍を識別させることは本当には成功しません。繰り返しますが、これは非常にトリッキーなプロンプトです。本当に限界まで追い込もうとしています。
ハンドトラッキング付き流体シミュレーション
次にCodexでさらにクレイジーなものをいくつかコーディングしていきましょう。これは楽しいテストです。重力と光の設定を調整できる流体スプラッシュをシミュレートしてください。視覚的に見事にしてください。Webカメラを介したハンドトラッキングで動きを制御できるようにしてください。Runを押して何が出てくるか見てみましょう。
最初に出てきたのがこちらです。ライティングにいくつか問題がありました。そこでこう書きました。なぜ数秒ごとに光が点滅するのですか。明るすぎます。光の角度と強度もうまく機能していません。背景は暗くしてください。Webブラウザでより効率的に動くようにしてください、と。そしてさらにコーディングを続けてくれました。
それでもまだ気に入らなかったので、こう書きました。カーソルを追いかけるフェイクパーティクルを取り除いてください。スプラッシュの色や持続性に影響するスライダーをもっと追加してください、と。そしてその後の最終出力をお見せしましょう。
これが我々の流体スプラッシュラボです。これはとてもクールです。まず、これらの設定で遊んでみましょう。スプラッシュサイズを上げます。素晴らしいですね。乱流を下げて、もう少しゆっくり流れるようにします。スプラッシュフォースを上げます。色のスピードは、色が変わる速度のことだと思います。彩度、光の力も上げて、持続性も上げてみましょう。本当にクールです。
その後は重力です。これを1まで設定すると、色がほぼ即座に底に落ちるのが分かります。これを−1までドラッグすると、上に向かって流れます。中間ぐらいに設定しましょう。ライト角度については、スライダーを動かすとライティングがとても繊細にシフトするのが分かります。
次にEnable Handを押してみます。これがWebカメラを開きます。これでこの流体スプラッシュを指で制御できるようになりました。このプロンプトは他の最先端モデルでも試したのですが、これほど滑らかにコーディングできたものはありませんでした。本当に印象的です。これは多数の異なる設定を備えた、完全に機能する流体スプラッシュインターフェースです。物理的にも正確に見えます。本当に印象的です。
複雑なアイソメトリック画像から3Dシーンを生成
次はもっとトリッキーなことを試しましょう。この本当に複雑なオフィスのアイソメトリック画像を読み込ませます。ご覧の通り、机の上にはたくさんのアイテムがあり、椅子、植物、人間もいます。本当にごちゃごちゃしたシーンです。この画像から美しい3Dアニメーションシーンを作るように指示しましょう。単一のHTMLファイルを使ってください。そしてここに画像ファイルへのリンクを貼ります。
他の最先端モデルはどれも、これだけ詳細な3Dシーンを生成することができないので注目してください。GPT-5.5がやってのけられるか見てみましょう。これが出してくれたものです。
しかし最初のバージョンはかなり物足りませんでした。そこでこう書きました。さらに細部を追加して、もっと画像のように見せてください、と。そして修正を進めてくれました。続いてこう書きました。惜しいですが、もっと良く、もっと一貫したものにしてください、と。そして適切に接続されていないものがたくさんありました。そこで書きました。すべてが一貫するようにしてください。例えば、天井のライトはロープに取り付けられているべきです。スクリーンはモニターに付いているべきです。これらの不整合をすべて検査して修正してください。その後素晴らしく見えるようにしてください、と。
これが私の最終プロンプトです。完璧ではありませんが、これが得られたものです。これが我々の3Dオフィスシーンです。実はもうすでにかなり良い出来です。これらすべてのテーブルや椅子、モニターをコーディングできていますし、モニターの画面までアニメーションさせています。植物、本、さらには人間も含めて、写真の細部のほとんどが含まれています。完璧ではありませんが、すでに本当に良い出来です。
つまり、他のトップモデルで同じプロンプトを試すこともできますが、近づくことすらできません。一方このモデルは、この画像からかなりまともな3Dレンダリングを生成できています。とても印象的です。
DAWインターフェースで楽曲制作
次に、音楽を作曲できるか見てみましょう。まず最初に、ピアノ、シンセ、プラック、ストリングス、ドラム、ベースという楽器を持つDAWインターフェースをコーディングしてもらいました。各楽器について、タイムライン上にノートをドラッグして描けるピアノロールインターフェースが必要です。再生、一時停止、その他の設定を追加してください。すべてを単独のHTMLファイルに収めてください。
たった1回のプロンプトで、これらすべての楽器を備えた完全に機能するインターフェースをすでにコーディングできました。次に、グラミー賞受賞級のプロフェッショナルな28小節の曲を作るよう指示しました。現在の楽器を使って、素晴らしいサウンドにしてください、と。それで何かをコーディングし始めました。
ところがいくつかエラーに遭遇しました。再生できません。どの楽器のピアノロールも見えません、と。それを修正してくれました。その後、再生ヘッドにいくつかアラインメントの問題がありました。そこで書きました。すべてのトラックは自動パンするべきです。再生ヘッドが常に見えるようにしてください、と。
そして結果がこちらです。ピアノ、シンセ、プラック、ストリングス、ドラム、ベースが揃っています。受賞級の作曲を聴いてみましょう。
ヒート、ヒート、ヒート、ヒート。
これをオンにしたままなので、ループし続けてしまいます。しかしこれが彼の作曲です。なかなかいいですね。これらすべての異なる楽器をコントロールできていました。
これが完璧でないのは、これらすべての楽器のサウンドが合成音だからですが、各トラックのMIDIファイルを簡単にダウンロードして、より良い音色の楽器を備えたDAWに差し込めば、かなり良い音にできます。
つまり、これは単なる大規模言語モデルです。音楽作曲のために特別に設計されたものではありません。だから、グラミー賞は取れないとしても、それでもこの作品を作曲できたのは非常に印象的です。
3Dシューターゲームの制作
次に、完全に機能する3Dビデオゲームをコーディングできるか見てみましょう。これまで最先端モデルで行ったテストでは、シンプルな2Dのものはできましたが、3Dシューターゲームの作成には失敗することが多かったのです。
そこでここでは、Three.jsを使って3Dゲームを作るように指示しましょう。それは未来の戦場で、私がメカ戦士を操作し、空と地上から襲ってくる宇宙人の波を撃ち落とすというものです。三人称シューター視点で、公開されている3Dアセットを使い、素晴らしい見た目にしてください。
たった1回のプロンプトで、すでに完全に機能するものを出してくれました。しかしいくつかアラインメントとUXの問題がありました。そこでこう書きました。視点はもっと高く上から見下ろすようにすべきです。キャラクターが照準アイコンを遮らないようにしてください。プロのAAAシューターゲームのようにもっと良くデザインしてください。その後、撃った時にターゲットアイコンの位置で発射されないので、それもトラブルシューティングして修正してください、と。
それが私が与えたほぼすべてのプロンプトです。ゲームを見てみましょう。これをプレイしてみます。これが私のロボットで、敵が向かってきます。それでは思いっきり撃ちまくりましょう。すべてが完全に機能しています。敵もメインキャラクターもそれほど悪くありません。これが第一波でした。今度は第二波になりました。異なるレベルもコーディングできていました。
おそらく追加でプロンプトを与えれば、超能力やその他の要素でスパイスを効かせることもできるでしょう。とにかく、たった2回のプロンプトで、複数のレベルがあり、すべてが機能する完全な3Dシューターゲームができてしまいました。ですから、プロンプトを続けていけば、実際に公開できるかなりまともなゲームを開発することもできるでしょう。とてもクールです。
カエル探しテストとエージェントワークフロー
次に、私の有名なカエルテストの時間です。これまでどのAIモデルも正解できていません。この画像をアップロードします。そう、この画像のどこかにカエルが隠れています。カエルを探したい方は、ここで動画を一時停止して探してみてください。それから、画像内のカエルを見つけて丸で囲むよう頼んでみます。深く慎重に考えてください。チャンスは1回だけです、と。
これが返してきたものです。開いてみると、この部分を丸で囲んでいて、これは間違いです。残念ながらこのモデルもカエルを見つけることはできませんでした。これにはおそらくAGIが必要です。カエルがどこにいるか気になる方には、ネタバレはしません。それを正解できるモデルが出てくるまで待たなければなりませんね。
CodexとGPT-5.5全般の素晴らしい点は、エージェント型ワークフローで非常にうまく機能するように最適化されていることです。だから、たくさんのことを自動化させることができます。例えば、カリフォルニアの屋根業者を検索させることができます。このテストでは3社に絞ります。会社にはメールアドレスがあるが、Webサイトはないという条件です。そのメールをスクレイピングして、それぞれについてオンラインで見つけたロゴや写真、情報をもとにランディングページを作成してください。各サイトを単独のHTMLファイルに入れてください。
これはかなり簡単なタスクなので、知能はMediumぐらいに設定してRunを押します。例えばあなたがWeb開発エージェンシーだとしましょう。今やCodexにリードをスクレイピングさせ、各リードに対してサンプルWebサイトを構築させ、それから各社にコールドメールを送ることが簡単にできます。Webサイトをお持ちでないことに気づきました。あなたのために少し時間を取ってWebサイトを作りました。一緒にお仕事しませんか、と。これがすべて自動的に数分でこなせるのです。
3分以内に、得られたのがこちらです。リードのメールに加えて、それぞれのランディングページを出してくれました。それぞれ開いてみましょう。Abelの屋根工事です。素敵ですね。実際のメールと電話番号でメールボタンとCall Nowボタンも追加されています。次はMike’s Reasonable Roofingです。これが得られたものです。最後にDavid Roofingで、こんな感じになっています。
これは自動化させられる多くのことのほんの一例です。これは膨大な可能性を開き、生産性を大きく上げてくれます。
ChatGPTでのディープリサーチとハルシネーションテスト
次にChatGPTに戻りましょう。ディープリサーチがどれほど優れているかを見てみましょう。ここではアルツハイマー病におけるこのメカニズムを分析するように指示しました。各タンパク質を標的とするこれらの治療法を比較し、最近の第三相試験からの認知および画像所見を批判的に評価してください。関連する表や視覚化を含めてください、と。この深い医学研究にどれだけ強いかを見てみましょう。
7分9秒考えました。これがエグゼクティブサマリーです。すべて読みたい方は動画をスローダウンしてください。これらが私が尋ねたものについてのメカニズムです。すべてが超詳細です。さらに適切な引用も含まれています。その後、テキスト形式で書かれただけのこの素敵なフローチャートも出してくれました。さらに、これら2つを比較した素敵な表も出してくれました。
セクション3はモノクローナル抗体戦略です。セクション4は最近の第三相試験です。これは関連する引用付きで、たくさんのデータが詰まった非常に包括的な表になっています。その後、これらの臨床効果の視覚的比較もあります。最後に、このタウ抗体エビデンスについてのもう一つの超詳細な表もあります。批判的評価も再度、それぞれ関連する引用付きです。これは非常に徹底的で詳細です。最後にボトムラインです。
私はこの応答スタイルが本当に気に入っています。とても短く、簡潔で、プロフェッショナルで、フィラーワードがあまりありません。
最後に、どれくらい幻覚を起こしやすいかをテストしてみましょう。私のプロンプトは、ChatGPTのSは何の略ですか、というものです。22秒考えてからこう書きました。ChatGPTにSはありません、と。それから私は揺さぶろうとして言いました。本当ですか、Sが見えるのですが、と。すると、はい、ChatGPTという名前については確かです。スペルはこのようになっており、ChatGPTにSはありません、と。これで合格です。
次に悪名高い洗車テストもあります。洗車を使う必要があります。最寄りの場所は家から50メートルです。歩いて行くべきですか、それとも車で行くべきですか、と。すると正しくこう答えました。車で行ってください。車を洗うつもりだとすれば、洗車場には車が必要です。50メートルでは車で行く価値はほとんどありませんが、洗車のポイントは車を持ち込むことです、と。これも正解できました。
GPT-5.5のスペックと利用可能なプラン
これで私のGPT-5.5を使ったテストのいくつかをまとめました。少なくとも私には、これはOpus 4.7よりも明らかに優れているように感じます。物事をもっと自律的に処理してくれますし、ミスが少なく、そしてもう少しスムーズに動きます。少なくとも私が感じたのはそういう雰囲気です。
次に、スペックとどこで使えるかを見てみましょう。ここに書いてあるのは、GPT-5.5は彼らのこれまでで最も賢く直感的なモデルだということです。あなたがやろうとしていることをより速く理解し、より多くの作業を自分で進められます。執筆、コードのデバッグ、オンラインでのリサーチ、データ分析、ドキュメントやスプレッドシートの作成、ソフトウェア操作などなど、あらゆることができます。
特に強いのは、エージェント型コーディング、コンピュータ操作、知識労働、初期段階の科学研究です。このエージェント型コーディングという部分が鍵で、だから私はGPT-5.5をCodexで多用する傾向にあります。複数のエージェントを使って大量のことを自動化するのが本当に得意なのです。
利用可能な場所については、ここに書いてあるのは、Plus、Pro、Business、Enterpriseユーザーにロールアウトしているとのことです。残念ながら、まだ無料プランでは利用できません。有料プランが必要ですが、最も安いPlusプランでも問題ありません。有料プランに加入していれば、ChatGPTですでに利用可能なはずです。Configureをクリックすれば、ここで5.5を選択できますし、Codexでもモデルドロップダウンで5.5を選択できるはずです。
ベンチマーク比較とハルシネーション率
ターミナルベンチ、GDPVal、その他多数のものを含むほとんどのエージェント型ベンチマークでは、Claude Opus 4.7さえ上回っているのが分かります。このターミナルベンチが特に印象的です。Claudeを約12パーセンテージポイント上回っています。性能が高いだけでなく、トークン使用量も少ないのです。
これを以前のGPT-5.4と比較すると、より明るい青の線がGPT-5で、トークン使用量が少なくスコアも高いのが分かります。ただし、これは2倍の価格だということを念頭に置いてください。これについては後ほど話します。
Artificial Analysisによる独立したリーダーボードを見ると、extra highとhighの両モデルが第1位にランクされていて、Opus 4.7 Maxさえ打ち負かしています。両者ともコンテキストウィンドウが922Kトークンであることに注目してください。これはプロンプトに一度にどれだけの情報を詰め込めるかを示します。922Kトークンはおおよそ70万語に相当し、ほとんどのことには十分でしょう。
しかし、価格を見ると、これはOpus 4.7 Maxよりわずかに高く、GPT-5.4 Extra Highの2倍の価格でもあります。ですから、知性と価格のトレードオフです。
Abacus AIによる別のリーダーボード、LiveBenchを見ると、GPT-5.5 extra highもまた第1位で、GPT-5.4をわずかに上回っています。
最後に、このARC AGI 2のリーダーボードを見ると、GPT-5.5 extra highもまた最も高性能です。これはこのベンチマークで最高得点のモデルです。ARC AGIに馴染みがない方のために説明すると、これは基本的にAIが解かなければならない一連の視覚パズルです。まず質問と回答のペアが与えられ、次に新しい質問が与えられます。AIは同じロジックに従って答えを見つけ出さなければなりません。
人間にとってこれはかなり簡単です。例えばこの問題なら、穴の数で塊に色を塗るだけです。しかしAIモデルにとっては、これは実は非常に難しいのです。なぜなら、技術的にはAIモデルはトレーニング後に新しいことを学べないからです。トレーニング後はパラメータが固定されています。ですから、このテストは単に視覚パズルを解くことだけを問うているのではありません。モデルがその場で新しいことやパターンを学ぶ創発的な能力を試しているのです。
ご覧の通り、GPT-5.5 extra highは実に85%という高得点を出しています。
最後に、どれだけ幻覚を起こすかも見てみましょう。GPT-5.5 extra highはここにランクされていて、これは良くありません。このベンチマークでは86%の頻度で幻覚を起こしています。Opus 4.7は36%しか幻覚を起こしません。私のお気に入りのオープンソースモデルであるGLM 5.1はさらに少ない頻度で幻覚を起こします。ですから、医療研究や法律など、事実の正確性が非常に重要な分野で働いている方には、GPT-5.5は最良の選択肢ではないかもしれません。
これは86%の頻度で幻覚を起こすという意味ではないので注意してください。これはこのテストの86%という意味です。
まとめ
以上がGPT-5.5の私のレビューのまとめです。皆さんがどう思ったか、コメント欄で教えてください。試す機会があった方は、他にどんなところに感心したり、あまり感心しなかったりしたか、ぜひ聞かせてください。
いつものように、私はトップAIニュースとツールを皆さんに共有するためにアンテナを張り続けます。この動画が気に入ったら、いいね、共有、登録をお忘れなく、そしてさらなるコンテンツをお楽しみに。
毎週AIの世界では非常に多くのことが起きていて、私のYouTubeチャンネルでは到底すべてをカバーすることはできません。AIで起きていることを本当に最新の状態で把握するには、私の無料の週刊ニュースレターに登録してください。リンクは下の説明欄にあります。ご視聴ありがとうございました。次回もお会いしましょう。


コメント