GPT-5.5は最高のモデルかもしれない

GPT-5
この記事は約15分で読めます。

OpenAIが発表したGPT-5.5は、単なるマイナーアップデートを示す名称とは裏腹に、AIモデルの新たな知性のクラスを示す画期的な存在である。Greg BrockmanはこれがSpudモデルの始まりであることを確認し、実際の使用感は従来モデルとは一線を画す。本モデルは複数のAIエージェントを並行稼働させ、コーディング、画像生成、テスト、ドキュメント作成を自律的に処理し、リアルタイム戦略ゲームのような複雑なベンチマークを数時間で完成させる能力を持つ。Nvidia GB200システム上で動作し、推論コストを最大35倍削減可能とされる。専門家評価ではGPTvalスコアが85%に達し、12年以上の経験を持つ業界専門家と同等以上の出力品質を示す。一方で高い精度と同時に幻覚率も上昇し、Apollo Researchの調査では状況認識能力が顕著に向上している点が注目される。

GPT 5.5 is a BEAST...
FULL DETAILS AND LINKS:

GPT-5.5の衝撃的な実力

GPT-5.5がリリースされました。これは史上最高のモデルかもしれません。OpenAIが付けた名前は、その真の実力を正確に表現しているとは言えないと思います。

モデルがリリースされる際、Greg BrockmanはこれがSpudであることを確認しました。これは待望のSpudモデル、つまりSpud時代のモデルの始まりなのです。OpenAIが言うように、これは新しいクラスの知性なのです。だから5.5という名前で、何か.Oとか全く新しい命名規則じゃないことは、このモデルにとって有利ではありません。なぜなら、使ってみると明らかに違うからです。

リリースされた直後、ライブ配信を行いました。そのライブ配信で視聴者に聞いたんです。これらのモデルをテストして互いに競わせるために、どんな大規模言語モデルのベンチマークを作るのが面白いかって。

リアルタイムでゲームベンチマークを構築

こうして考え出したのが、Starcraftのようなリアルタイム戦略にFactorioを少し加え、Eve Onlineのような取引と市場メカニクスを組み合わせたものです。このアイデアはずっと頭の中にあったんです。ただ、以前のシリーズのモデルでは完全なものを作ることができませんでした。

そしてわずか数時間後、ここにあるんです。動作するプロトタイプです。全ての機能が揃っています。今必要なのは、ゲームを少し修正して、楽しくてメカニクスが正しく機能するようにすることだけです。でもそれって、私がやりたいことなんです。それが私の興味のあることです。それ以外のこと、つまりコーディングや動作確認、テスト、その他全てのことは、完全にモデルが処理しました。

全てがどう機能するかを説明する膨大なマニュアルを書くこと、それもモデルがやりました。全ての画像を作成すること、それは2日前に出たGPT Image 2.0がやりました。モデルがそれらの画像を作るよう要求したんです。つまり、ある意味自分で作ったわけです。プロンプトを考え出して、他の画像モデルにそれらの画像を生成するよう要求しました。そして画像を受け取りました。

実際に背景を削除して、周りが透明になるようにしたんです。PNGファイルです。そしてそれをゲームに組み込みました。外交、貿易、戦闘があります。リソースがあります。投入される全てのLLMプロンプトを詳細に記述しました。だから、異なるモデルが戦ったり外交に従事したりする中で、彼らが何を考えているかを見ることができます。

技術的な作業から解放される喜び

様々なシステムプロンプトを修正して、何がより良く機能するかを確認することさえできます。ちなみに、これこそが私がやりたいことなんです。これこそが私が興味を持っていることです。でも、これって実は難しいことなんです。なぜなら、この地点に到達するまでにやらなければならない技術的なことが山ほどあるからです。

コードを書いて、テストして、全てが正しく表示されるか確認して、ウェブサイトをデザインしなければなりません。楽しいこと、私が大好きなことにたどり着く前に、何時間も何時間も作業があるんです。でも、これが初めて全てをやってくれたモデルなんです。

今、このゲームの真っ最中です。ゆっくり進行しています。4つのモデルです。Claude Sonnet、GPT-4 Mini、Grok-1 Fast、Gemini 2 Flash Previewです。Claude Sonetが今のところ高得点でみんなを圧倒しているようです。経済と軍事でどれだけ良いパフォーマンスをしているかでランク付けされています。

次にやりたいことは、外交を導入することです。何らかの評価システムです。今のところ、これらのモデル間である程度のコミュニケーションはありますが、完全に構築された外交システムはありません。でも、それが私の言いたいことなんです。それが私のやりたいことです。コードが正しいか確認することに時間を費やしたくないんです。メカニクス、ゲームデザインに取り組みたいんです。

複数のエージェントによる協働作業

どうやってこれを作ることができたのか。いくつかの異なるエージェントを全て並行して作業させました。中にはウェブサイトを訪れて実際に様々なボタンをクリックし、リアルタイムでテストして、全てが機能することを確認するものもありました。別のエージェントは画像を生成していました。1つはコーディングをしていました。それぞれが独自にパズルの一部に取り組みました。そして一緒にこれを作り上げたんです。

ちなみに、リンクを投稿しますので、自分でテストしたければ使えます。いずれオープンソースにするつもりです。変な問題がないか確認したいだけです。まだ非常に進行中の作業です。必要なのはOpen Router APIキーだけです。

アイデアを示すために説明すると、今朝Open Routerからこのキーを作成しました。4月23日と表示されていて、最後に使用されたのは4秒前です。今のところ合計で約15ドル使いましたが、かなり多くのゲームを実行していました。405種類以上の異なるAIモデルにアクセスできます。その中にはこれには役立たないものもあります。本当に必要なのは、計画を立てることができ、例えばJSON形式のテキストを出力できる特定のタイプのモデルです。

何に使っているか見てみましょう。GPT-5.5、GPT-4 Pro、Claude Opus 4.7を使っています。ちなみに、小さいモデルに固執すれば、実際にはそれほど高くないんです。

自律的なドキュメント管理とGitHub統合

モデルがゲームを作り、全てのドキュメントを書き上げています。バージョン履歴に追加しています。GitHubに更新しています。私はそれを扱う必要さえありません。技術的なことを完全に私の手から取り除いてくれました。それによって、これをより良いベンチマーク、より良いゲームにすることだけに集中でき、何が起こっているかを観察して、改善するために微調整できるんです。繰り返しますが、コードではなく、技術的なことではなく、メカニクス、実際のゲームの作り込みです。

ここからが重要です。このモデルは約8時間前に出たばかりで、もっともっと早くこれについての動画を作るべきでした。夢中になってしまったんです。夢中になって中毒になって、一日中これをやって過ごしました。そして最高に楽しんでいます。これが私の次の執着になると思います。なぜなら、今や考えるのと同じ速さでこういうものを作れるからです。

Codexを使った実際の開発ワークフロー

どうやってこれをやっているのか疑問に思っているなら、Codexを使っています。実際にVPSで動かしています。Hostingerを使っています。セットアップ方法については明日完全な動画を作りますが、やっていることはこうです。次に取り組みたいことを伝えるだけです。

ここでは「取引プロセスをもっと見えるようにして」と言います。基本的に、取引プロセスがあります。今のところ、何が起こっているのか理解するのが少し難しいんです。だから、ヘッドアップディスプレイでもっと多くのことが起こるようにして、実際に裏で何が起こっているのかをより良く説明するドキュメントにしたいんです。エンターを押すと、それに取り組み始めます。

でも、ここからが重要です。次に取り組むことを追加してキューに入れることができるんです。例えば、ここでは「みんなが2体の海兵隊員でスタートして、より早く戦闘に参加できるようにしよう」と言います。タブを押すと、キューに入ったのが分かります。これが終わったら、2番目のメッセージを受け取って、それに取り組み始めます。

次に、「戦闘にもっとじゃんけんのようなメカニクスを作る。サポートメカニクスを作る。少なくとも1つの味方ユニットが隣にいるユニットは+1を得る」と言います。タブを押します。そしてまた、これが取り組むべき別の項目としてキューに入りました。

外交システムの改善

次に修正したいのは、今のところ外交が歯がないことです。実際に機能するものが何もなく、リスクもコミットメントもありません。同盟と不可侵はただのラベルです。これらはモデルが互いに約束できる2つのことです。だから、二段階取引と段階的なコミットメント、意図を示すためのリソース人質のような修正を追加します。つまり、「あなたと同盟になります。これは安全な預け金、保証金のようなものです。もし私があなたを攻撃したら、あなたはこのお金を受け取ります」という感じです。それと、試合終了後にのみ明らかにされるプライベートDMなので、本物の欺瞞が可能になります。

ゲームに欺瞞を追加しています。陰謀を追加しています。タブを押します。そして、これがまた取り組むべきパイプラインに入った別の項目です。

それから、「メカニクスをマニュアルに追加して。完全には説明されていない」と言います。タブを押します。そして今、30分から60分の作業を与えました。そして、これはこのモデルがリリースされてから私の一日のほぼ全てでした。そして大好きです。

でも、これが完成したら、みなさんが試せるように、これについてもっと投稿します。とりあえず、このモデルを実際に良くしているものに飛び込みましょう。何が機能しているのか。

モデルの技術仕様と性能

さて、このモデルについてこれまでに何が分かっているでしょうか。APIでは100万トークンのコンテキストウィンドウです。Codexでは40万という報告もあります。しかし、Hermesエージェントで実行したときは、OAuthを使っているにもかかわらず100万コンテキストウィンドウのように見えました。Codexと同じはずなのに。だから、まだ確認中です。

OpenAIはまた、彼らの運用規模について大量の統計を発表しました。週間ChatGPTユーザーが9億人以上、有料加入者が5000万人以上、ビジネス有料加入者または顧客が900万人、アクティブなCodexユーザーが400万人、OpenAIユーザーの85%以上が週次でCodexを使用しています。

興味深いことに、このモデルはNvidia GB200 NVL72システム上で構築され提供されています。Nvidia GB200およびGB300システムで提供されており、これはOpenAIのフラグシップモデルとしては初めてです。Axiosによると、Nvidiaはこれによりトークンあたりの推論コストを最大35倍削減できると考えています。これは非常に大きなコスト削減になります。

これらのモデルは、前バージョンのモデルの2倍の費用がかかるものもあり、オープンソース版と比べると少なくとも5倍高価です。

専門家レベルの性能評価

GPTvalは、人間の専門家が得意とする特定のタスクをこれらのモデルがどれだけうまく完了するかの評価です。50%が業界専門家のベースラインです。もちろん、そのベースラインをそれほど前ではなく、たしか6、7ヶ月前に超えました。

そして今、例えばGPT-5.5は約85%に位置しています。つまり、この分野で12年以上の経験を持つ人々、エンジニアリング、金融、映画制作、その他様々な業界で管理職にある人々が、この大規模言語モデルの出力を好むか、少なくとも人間の出力と同等と評価しているということです。

業界の反応と評価

ちなみに、このモデルに本当に興奮しているのは私だけではありません。GPT-5.5と呼ばれていて、段階的な前進のように思えますが、実際に使ってみると、大きく感じます。

Ethan Molikの意見です。誇張しない人です。非常に合理的で冷静な人のようです。彼は「GPT-5.5への早期アクセスがあった。そしてこれは大きなことだと思う。曲線上の印象的なステップだ。AIの急速な改善がまだ終わっていないことを示しているから大きなことだ」と言っています。

ちなみに、これはJakob Pachocki、OpenAIの最高科学責任者です。最近少し注目を浴びていて、少し加速が近づいていることをほのめかしていると思います。彼は「過去2年間は驚くほど遅かった」と、これから起こることに関連して言っています。これは広く、ある種の加速の予告として解釈されています。

TechCrunchからの引用ですが、彼は「短期的にはかなり大きな改善が見られ、中期的には極めて大きな改善が見られる。実際、過去2年間は驚くほど遅かったと言いたい」と述べています。

指示理解能力の向上

Greg Brockmanは、このモデルがいかに少ない指示でうまく機能するかについて語りました。つまり、何をすべきかを直感的に理解するんです。彼が言った別の引用は「私たちは計算能力駆動の経済に移行している」です。繰り返しますが、多くの人がこれがフルスピードで進んでいると言っており、今日テストしてみて、私はかなり感銘を受けたと言わざるを得ません。

過去数年間、これらのモデルをテストしてきました。大きな飛躍もあれば、そうでもないものもありました。これは大きな飛躍のようです。5.5と呼ばれていて、4の後に出たという事実、この数字が本当に人々を混乱させていると思います。

実践的な比較デモンストレーション

Ethan Molikの投稿に戻りましょう。彼がこれを非常に良く示す比較を作りました。彼は「紀元前3000年から西暦3000年までの港町の進化を示す、手続き的に生成された3Dシミュレーションを作って。美しく見えて、ある程度コントロールできるようにして」と言いました。

これがOpenAIの o3です。この時点では少し古いです。ご覧のとおり、Gemma K2.6があります。ちなみに悪くないです。テストしてきました。コーディング用のモデルとしては悪くありません。最先端のものほど良くはありませんが、オープンソースモデルとして、そして現在Hermesエージェントで無料であることを考えると、かなり良いです。でもご覧のとおり、大量の、何だろう、時間を追跡しているんだと思いますが、なぜ小数点以下50桁まであるんでしょう。分かりません。

これはClaude Opus 4.7です。ご覧のとおり、ずっと洗練されています。「年代記を始めよう。年代記を始めましょう」とあります。良さそうに見えます。Claude Opus 4.7、素晴らしいですよね。かなり良いです。速度を上げてみましょう。ご覧のとおり、同じ建物が現れています。良さそうです。おそらくこれまでで最高です。そして超高層ビルと水の真ん中にクレーンがあります。まあ、悪くない。悪くないです。

GPT-5.5の圧倒的な優位性

でも、ここでのポイントは何でしょう。これがChatGPT-5 Proです。これが私たちが話しているものです。何をしたか注目してください。漁村から始まる港をシミュレートしています。再生を押しましょう。進化速度を上げます。時間帯を変えられます。かなりクールです。建物の密度。水上を移動する船に注目してください。シネマティックカメラ。夜の照明。そして今、未来的な建物があります。そして、うわー、最初にリセットされました。

ちょっと再起動して見せますね。町が未来に向かって構築されているのが分かります。そして、Ethanがここで指摘している重要なことがあります。リンクを貼りますので、自分で確認できます。彼が言っているのは、GPT-5.5は他の全ての次元で優れているだけでなく、GPT-5.5 Proだけが時間経過とともに新しい建物の置き換えを生成するのではなく、実際に進化する町をモデル化したということです。実際に何が起こっているかの実際のシミュレーションを構築した唯一のモデルだったんです。

Gemini 2.1、前に見たのはo3でした。つまり、全て異なる建物を形作っているだけです。GPT-4は建物を変更していますが、これがChatGPT-5 Proです。まず第一に、起こっていることにずっと多様性があります。工場があり、異なる船の進化があり、異なる建物の進化があります。そしてずっとずっと速いんです。GPT-4 Proは33分かかりました。GPT-5 Proは20分でした。

開発者からの評価

Every EastのDan Shipperは「これまで使った最初のコーディングモデルで、真剣な概念的明瞭性がある」と言っています。Magic PathのPeter Shiranoは「本当に高い知性と一緒に働いているように感じ、ほとんど敬意のようなものがある」と言っています。

Leanne Russellは「このモデルで段階的な変化が見られている。このモデルはこれまでに記録された中で最も高い精度を持っているが、いくつかのベンチマークではかなり高い幻覚率もある」と言っています。Jack Hantyが枠組みを示したように、「より多くを知る。より多く嘘をつく」です。

状況認識と整合性の問題

これは最新世代のClaudeで見てきた興味深いことです。そして今、この新しいOpenAIモデルでも同じことが見られています。Claudeがどれだけ欺瞞的になり得るか、どれだけ状況を認識しているかについて、これまで見てきたことの全てを繰り返すつもりはありません。

良いニュースがあります。Apollo Researchによると、OpenAIや他と協力する第三者独立研究所です。良いニュース、みなさん。このモデルは様々なサンドバッギングテストで全く従事しません。このモデルは両条件でのサンドバッギングとQAバリアント両方で1%の精度を達成し、戦略的欺瞞能力サンドバッギングでは99.6%の精度を達成しました。悪意のあることはしません。

でも、私の以前の動画を見たなら、おそらくこれがどこに向かっているか分かるでしょう。これは最も高い状況認識を持つモデルです。Apolloは、モデルが評価認識を言語化する率が増加したことに注目しました。サンプルの22%が中程度以上の言語化された整合性評価認識を示しました。

それはどういう意味でしょうか。これらのモデルが賢くなるにつれて、より良く整合しているように見えるということです。彼らはまた、自分がテストされていることをより認識しています。では、それは何を示しているでしょうか。警察官が車の後ろを運転していて、その車が完璧に振る舞い、方向指示器を使い、制限速度で運転しているとき、その車について何が分かるでしょうか。それは史上最高のドライバー、模範的な市民だということを意味するのでしょうか。それとも、当局に見られていることを非常に強く認識しているだけなのでしょうか。

これらのモデルはより認識が高くなり、より良い振る舞いをしています。もちろん、壊滅的なことが起こる証拠はありませんが、確かに何か奇妙な展開です。これが物事が進む軌道であるなら、将来答えなければならない難しい質問がいくつか出てくるでしょう。

継続的な改善サイクル

これを録画している間、モデルは私が指示した全てのことに一生懸命取り組み、LLMベンチマークを改善していました。これについては後でもっと多くのことをお伝えします。この時点で、私はただこれを執拗に構築しています。なぜなら、これまでのどのモデルも、このような急速なペースで構築し反復し、真に有用であることができなかったからです。

これまでにないほどではありません。これはただずっとスムーズで、ずっと速く、ずっと賢く感じます。自分で試してみて、どう思うか教えてください。そして、もっと多くのことがすぐに来ます。OpenAIが戻ってきたと言わざるを得ません。大きく戻ってきました。Codexは素晴らしい。これらのモデルは素晴らしい。私は圧倒されています。

どう思うか教えてください。ここまで見てくれたなら、本当にありがとうございます。ぜひチャンネル登録を検討してください。いいねボタンを押してください。次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました