GPT-5.5のリークが示す驚異的な進化

GPT-5
この記事は約12分で読めます。

OpenAIの次世代モデルであるGPT-5.5 Pro、通称「Spud」に関する情報が続々と明らかになっている。グレッグ・ブロックマンは、このモデルが現行モデルよりも遥かに複雑な問題を解決し、指示やコンテキストをより深く理解できると語った。開発には2年の歳月が費やされ、完全に新しいベースモデルとして事前学習されたという。実際にモデルを使用した人々からは、Claude Mythosに匹敵する性能を持つとの評価が届いている。ベンチマーク比較では、現行のOpus 4.7との差は思ったほど大きくないものの、10〜15%程度の性能向上が見込まれ、複数の領域でAnthropicを上回る可能性がある。ネイティブマルチモーダル機能の搭載が期待され、エンタープライズワークフローと深い推論に焦点を当てた自律型デジタルワーカーとしての役割が強調されている。コーディング性能の大幅な向上も確認されており、アプリケーションのワンショット生成において顕著な改善が見られる。さらに、Images v2という新しい画像生成モデルも今週中にリリースされる見込みで、エッジケースにおいてFluxより優れた性能を発揮するとされている。

The GPT 5.5 Leaks Are Wild
🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

GPT-5.5に関する新情報が続々と明らかに

OpenAIの次世代モデルであるGPT-5.5 ProやGPT-6、あるいは一部の人々が呼ぶところのGPT Spudについて、多くの新しい情報が入ってきました。これはOpenAIの次期モデルであり、皆さんと共有したい情報がたくさん見つかりましたので、この動画でお話ししていきたいと思います。

まず最初に、グレッグ・ブロックマンがこのモデルについて様々なことを語っているクリップをいくつかお見せします。これはクリックベイトのようなものでもなければ、彼が曖昧に話しているわけでもありません。実際にかなり詳細に、このモデルが何をできるようになるのかについて語っています。最初のクリップを聞いてみてください。その後、2つ目のクリップに進みます。そして動画の後半では、モデル自体からの実際の出力結果のリークもお見せします。

ブロックマンが語るモデルの飛躍的な進化

AIがそれを完全には理解できないんです。いつもがっかりさせられますよね。説明しなければならないんです。では、今日のモデルにはできないことで、このモデルには何ができると思いますか?

このモデルは遥かに難しい問題を解決できるようになると思います。より繊細になるでしょう。指示をより良く理解し、コンテキストをより深く理解するようになります。人々が「ビッグモデルスメル」と呼ぶものがあって、これらのモデルが実際に遥かに賢く、遥かに高性能になったときに、あなたに対してより柔軟に対応してくれるようになり、それを感じ取ることができるんです。

質問をしてAIがそれを完全に理解できないとき、いつもがっかりさせられますよね。説明しなければならなかったり、「これくらいは理解できるはずなのに」と思ったりします。ですから、ある意味では質的に、しかし量的には多くの変化があるということです。質的には、以前は不満を感じてAIを使わなかったようなことでも、今では何も考えずにただ使うようになる、そんな新しいことが生まれるでしょう。

そしてこれが全体的に見られるようになると思います。天井がどれだけ引き上げられるかを見るのが本当に楽しみです。すでに物理学の応用などを目にしていますが、遥かにオープンエンデッドな問題を解決できるようになり、遥かに長い時間軸で取り組めるようになると思います。

そして床がどれだけ引き上げられるかも楽しみです。何をしたいにしても、遥かに便利になるということです。

2年間の開発期間が示す本格的な進化

次のクリップでは、彼らがこのモデルに丸2年間取り組んできたという事実について語られています。これは非常に興味深いことです。つまり、彼らは完全に新しいモデルを事前学習したということです。完全に新しいベースなんです。

ですから、単なる別のモデルからの小規模な蒸留や、ちょっとした変更ではない可能性が非常に高いです。これは性能における段階的な変化になると思います。つまり、これまではできなかったことができるようになるということです。

実際に推定されるベンチマークについても後ほどお見せしますが、まずはこちらをご覧ください。

2年間の作業です。AI分野における時間の長さを考えると、これはかなり驚異的です。長い時間です。

Spudを新しいベース、新しい事前学習モデルとして考えています。おそらく2年分の研究がこのモデルで実を結ぶことになります。非常にエキサイティングなことになると思いますし、世界がそれを体験する方法は、単に性能の向上という形になるでしょう。私にとっては、どれか1つのリリースについてということではありません。なぜなら、このリリースが出たらすぐに、それは次に来るものの初期バージョンになるからです。改善プロセスの各ステップをより多く実行していくことになります。

ですから、私たちが向かっている先は、ほぼただ進歩のエンジンがあって、それがどんどん速く動いていくということです。Spudはその1つに過ぎません。

実際の使用者からの第一報

ここで、実際にモデルを使用している人々と話をした人からの最初の情報が得られます。これは直接的な情報です。これが単なる推測のニュースではないことが分かります。実際にそれを使用した個人についての情報なのです。これを聞いてください。これは非常に興味深いですよ。

5.4だと思います。5.5やSpud、何と呼ぼうとも、さらに速いランプになるでしょう。

Spudを見ましたか?使いましたか?プレビューを受けましたか?

人々がSpudを使っていますよね。つまり、プレビューされているということです。

では、それを使った人々と話をしているわけですね。彼らは何と言っていますか?

彼らは、これがMythosに匹敵する素晴らしいモデルだと言っています。そして、パッケージングの観点から非常に使いやすいモデルだと。

このクリップで、彼らはこれがMythosと同じくらい優れている可能性があると述べていました。

現行モデルとのベンチマーク比較

そこで、現在のAIベンチマークを少し見て、GPT-5がOpus 4.7と比べてどれだけ遅れているかを確認したいと思いました。そしてすぐに、モデルからの実際の出力結果が一部リークされ、初期テストで公開されているものをお見せします。

現在のベンチマークを見ると、Opus 4.7とGPT-5 Proを比較した場合、量的に見てそれほど大きな違いはありません。数字だけを見れば、各領域をハイライトして、どのモデルがどこで優れているかを見やすくしました。正直なところ、各領域を見たとき、それほど驚くべきものには見えません。

ただし、ベンチマークは何度も何度も飽和状態になってきています。もちろんそれがここに影響しています。そして、Opus 4.7や4.6がコーディングに関して言えば、まったく異なるレベルにあると主張する人もいるでしょう。それは完全に理解しています。

しかし、そのギャップは人々が思っているほど大きくないということは言えます。Anthropicが現在リードしているからといって、彼らが永遠にそこに留まるわけではありません。AnthropicがOpenAIからリードを奪ったのを見てきました。ですから、OpenAIがAnthropicからリードを取り戻す可能性があると言っても、それほど突飛なことではありません。必要な方法でモデルをトレーニングしていればの話ですが。

予想されるベンチマーク結果

期待される結果について気になっている方のために、少し調査を行いました。現在のAIモデルの軌跡に基づいて、最近リリースされたOpus 4.7バリアントを上回る場合の期待される結果がこちらです。

もちろん、これは確認されたものではありません。モデルがどこにあると期待しているかという、ただの予想です。GPT-5.2からGPT-5.5までの進歩を示しています。もちろん、これは過大評価かもしれないし、過小評価かもしれません。おそらく異なるベンチマークでテストされるかもしれませんが、全体的に見て、これが本当に期待していることです。

特別なものではありませんが、おそらく全体的に10〜15%のジャンプがあるでしょう。以前の結果をかなりの量上回るのに十分であり、複数の異なる領域でOpusを打ち負かすのにも十分です。今は無理に思えるかもしれませんが、実現するまではいつも無理に思えるものです。

Spudの予想結果とMythosを比較すると、予想されるバージョンは実際にMythosとほぼ同等か、特定の領域ではそれを上回ることになります。これにより、OpenAIが再びリードを取り戻すことになります。それがどのように展開するかを見るのは非常に興味深いでしょう。

ネイティブマルチモーダル機能の可能性

このモデル、GPT-5.5モデルについて簡単に触れておきたいことがあります。それは、ネイティブマルチモーダル機能を持つ可能性があるということです。現在、モデルに関して言えば、マルチモーダリティは基本的にユーザーインターフェースの嘘です。ほとんどのモデルは、音声をスピーチモデルに通し、画像をビジョンエンコーダーに通し、すべてをテキストトークンに変換してから、それがテキスト出力でうまくいくことを祈るのです。

これはもちろん脆弱ですが、一部の人々や一部のリークによると、モデルがネイティブマルチモーダルになる可能性があると述べています。これが本当になるとは思いません。なぜなら、OpenAIが以前、私たちが本当にネイティブマルチモーダルモデルを得るはずだったGPT-4oを事実上放棄したことを知っているからです。しかし、すぐにお見せするマルチモーダル機能がどれだけ改善されるかを見るのは興味深いでしょう。

自律型デジタルワーカーへの進化

覚えておいてください、OpenAI Spudは基本的に、あなたのためにできることという点で、より大きなモデルになります。つまり、自律型デジタルワーカーになるということです。GPT-5.4は基本的に最初のネイティブコンピュータ利用モデルでしたが、まだ監督が必要で、コーディングに焦点を当てていました。

しかしSpudは、複数のリークによると、より進化した、より自律的なコンピュータ利用として説明されており、エンタープライズワークフローと深い推論に焦点を当てています。今日のエージェントを見ると、基本的にオートコンプリート付きのカーソルです。何かをするように指示すると、ある程度はそれを実行しますが、時々ミスをします。

OpenAIは現在、長いコンテキスト、ネイティブマルチモーダル機能、そしてコンピュータ利用に夢中です。ですから、重いマルチモーダル機能が搭載されると言いました。なぜなら、エージェントを優れたものにしたければ、画面を見ることができる必要があるからです。もちろん、それはエンタープライズワークフローに必要であり、OpenAIが100%注力していることが分かっています。

そしてもちろん、長期的な計画が必要です。それが、エージェントが自律型デジタルワーカーになれる場合に可能になることです。

実際の性能とコーディング能力

モデルが現在どのように動作しているかを実際に見たい場合は、こちらをご覧ください。これは文字通りTwitterに出たばかりのもので、私が見た中で最も驚くべきものです。ジャンプがかなり大きいからです。

多くの異なるアプリケーションをワンショットで作成できているようです。ピーター・グスタフはこう言っています。「Chat GPTのProモデルは本当にアップグレードのように見える。生成速度は3〜4倍速く、見た目も遥かに良い。巨大な飛躍とは言わないが、実質的なアップグレードだ。生成はより豊かで、より詳細で一貫性がある。生成に20分くらいかかることを考えると、Proモデルをcodecs内に含めることが実行可能になるかもしれない。Proモードは、同等のモデルを持たないAnthropicに対して明確な優位性を持っている」

これについては彼らが正しいです。なぜなら、Anthropicは基本的にコンピュートを使い果たしています。ですから、現在全員がスロットリングされており、それはあまり良いことではありません。

しかしこの例では、GPT-5.5 Proがどの言語でも完全なアプリケーションをワンショットで作成するのにどれだけ優れているかが分かります。どのようなフレームワークを使ったのかは分かりませんが、並べて比較した違いを見ることができます。つまり、これがどれだけの改善であるかを見るのは本当に興味深いです。

他の領域も見てみましょう。これはレオン・リンがツイートしたものです。これがどんなゲームなのか完全には分かりませんが、以前これらの短い簡単なHTMLアプリケーションを人々がバイブコーディングで素早く作成したとき、よく壊れていたのを見ました。しかし、ここでできることに関して、遥かに一貫性が増しているのを見ています。

これは本当に興味深いと思います。なぜなら、OpenAIがそのコーディングギャップを埋めることができれば、Anthropicが現在のように強いままでいられるかどうか分からないからです。誤解しないでください、Anthropicはもちろん様々な理由で非常に強力な企業です。それについては別の動画でお話しします。しかし、コーディングは非常にエンタープライズ重視の領域の1つであり、多くのユーザーがそのためにモデルを使いたいと思っています。

ですから、これらの例で見られるような常識的な推論とコーディングを持つことができれば、モデルが私たちが思っているよりも優れたものになる可能性が高いということです。

アプリケーション生成の実例

別の人がツイートした別の例がこちらです。Voxilcraftと呼ばれるものです。彼らはMinecraftクローンを作ろうとしました。

そして驚いたことに、これはかなり良く見えます。人々は新しいモデルが出るたびにこれを行う傾向があり、ゼロからどれだけうまく物を作れるかを確認します。Opus 4.7がこれほど良くできなかったことを覚えています。ですから、これまでのところこのレベルで見られるということは、GPT-5.5 Pro、GPT Spud、あるいはGPT何と呼ばれるにせよ、実際に非常に効果的なものになるという希望を与えてくれます。

これが例の1つです。もちろん、めちゃくちゃすごいゲームというわけではありませんが、それでも、これをワンショットで作れるというのは、考えてみればかなり驚くべきことだと思います。

新しい画像生成モデルの登場

もう1つ、ほとんどの人が気づいていない、実際に来ようとしているものがあります。あまり多くの人が話しているのを見ませんでしたが、GPTが新しい画像モデルを手に入れるということです。

Chat GPTのImages v2はおそらく今週ローンチされる予定で、本当に優れています。いくつかのエッジケースでは、間違いなくFlux Proより優れていると言えます。エッジケースというのは、モデルが何をできるかを本当に理解する場所です。

エッジケースに関して唯一厄介なことは、エッジケースが実際には日常的な使用例ではないということです。ですから、ほとんどの人はそれを発見しません。しかし、特定のことをしようとすると、モデルがより良く機能するエッジケースを見ることができるでしょう。

基本的に、モデルがより良いワールドモデルを持っていて、物理がどのように機能するか、形状がどのように相互作用するか、スタイルがどのようなものかを知っていれば、それらすべてのエッジケースを扱うのに遥かに効果的になると私は主張します。

こちらにGTA 5スタイルのスクリーンショットがあります。これは本当にブランドらしく見え、Flux Proで見たものよりも遥かに高精細です。ここに別の例もあり、素晴らしく見えます。さらにここにも画像があります。見た限りでは、Flux Proとそれほど大きな違いはありませんが、これは非常に興味深かったです。

Images v2から得られるものを1つ挙げるとすれば、Images v2は基本的により良いセンスを持っているように見えるということです。

これはピンク色のきらきら光る妖精のミルクと深い青色の宇宙的なミルクを販売するウェブサイトのプロンプトでした。右側が新しいモデルで、遥かに良く見えます。

これらの異なるスライドを見ると、アートスタイルとエッジケースを正しく捉えることに関して、どれだけ質的な違いがあるかが分かります。こちらはサンアンドレアスでNPCと戦うラインのゲームプレイのスクリーンショットです。

左側がGPT-5.1画像です。右側はもちろん更新されたバージョンです。Flux Proと同等か、Flux Proより優れていると主張できるでしょう。こちらでFlux Proが何をできるかも見ることができます。つまり、どちらのスタイルもここではかなり良く見えます。

この時点で、AI画像生成はほぼ解決されたと言っても過言ではありません。しかしそうは言っても、この動画を楽しんでいただけたなら、また次回お会いしましょう。

コメント

タイトルとURLをコピーしました