この動画は、OpenAIの新しい事前学習済みモデルGPT-5.5、通称Spudについて、その性能評価、ベンチマークの見方、Claude Mythosとの比較、そしてAI開発の今後の加速について論じる内容である。単なるスコア比較ではなく、現在のAIモデルにおいて重要なのはトークンあたり、そしてコストあたりの知能であるとし、GPT-5.5が高いトークン効率と将来の大幅な性能向上の余地を持つ点を強調している。また、強化学習の実行をAIが長時間管理した事例を通じて、再帰的自己改善に向かう兆候についても語っている。

GPT-5.5、Spudモデルの登場
皆さん、どうも。Neilです。チャンネルへお帰りなさい。今日は新しいGPT-5.5について話したいと思います。Spudモデルが登場しました。ありがたいですね。
もし知らない方のために言うと、これはOpenAIの新しい事前学習済みモデルです。OpenAIから新しい事前学習済みモデルが出るのはしばらくぶりですし、話したいことがたくさんあります。
まず最初に、今となっては実際にどのベンチマークが意味を持つのかについて話したいと思います。そして、今私が見るのが好きなベンチマークを紹介します。
その次に、このSpudモデルとMythosモデルを比較します。実はそれらについて興味深いベンチマークがあり、どう比較されるのかを見ていきます。
そして最後に、この技術の今後の軌道にとって、これは何を意味するのかについて話します。失礼、この技術の将来の軌道にとって何を意味するのか、ですね。というのも、これは一つの飛躍ですし、私はごく近いうち、たとえば30日後くらいには、もっと大きな飛躍が見られると思っています。
また、このモデルは私にとって意外だった新しい能力も解放しているので、それについても話したいと思います。
とはいえ、このモデルを考えるうえで一番よい見方は、推論パラダイムが最初に登場したときのo1モデルに近いものとして捉えることだと思います。これは訓練室から出てきたばかりの、新しい事前学習済みモデルであり、このモデルに対して最初のテスト時スケーリングのパラダイムが載っただけの状態だからです。
このモデルには、今後さらに事前学習が、失礼、今後さらにポストトレーニングが行われ、さらにテスト時スケーリングも行われるはずです。そして私たちが目にするのは、o1からo3へのジャンプに少し似たものになると思います。まったく同じほどのジャンプではないかもしれませんが、GPT-5.5からGPT-5.6、GPT-5.7へ進むにつれて、それに似たジャンプが見られるでしょう。
なぜなら、繰り返しますが、これは新しい事前学習済みモデルだからです。このモデルではまだテスト時コンピュートのスケーリングをそれほど多く行っていませんし、ポストトレーニングもまだ多くは行われていません。少しは行われています。だからこそ推論はできるわけですが、かなり大きなジャンプが見られると思います。繰り返しますが、まだベッドから出たばかりのような状態だからです。
今、本当に意味のあるベンチマーク
そういうわけで、実際に入っていきましょう。どのベンチマークが本当に意味を持つのでしょうか。
まず、Terminal Benchはある程度興味深いですし、OSWorld Verifiedもある程度興味深いです。GDP Evalもある程度興味深いです。ただ、正直に言うと、私はもうこれらのどれにもあまり関心がありません。
Terminal BenchやOSWorld Verifiedについては、直近の2モデルくらいでは気にしていました。でも今はかなり飽和しています。もう、私が本当にやらせたいことは、コンピューター上でだいたいやってしまうんですよね。ターミナル内のことでも、OS内のことでも、モデルはもう壁を突破して進めるようになっています。あまり深く考えすぎる必要はありません。やれと言えばやる、という感じです。だから私は、それらについてはもうあまり気にしていません。
一方で、私が大きく気にしているのは、トークンあたりの知能です。そして、現在のモデルのパラダイムにおいて、どんな新モデルのベンチマークを見る場合でも最も重要なのは、1ドルあたり、1トークンあたりの知能です。
たとえば、このモデルはトークンあたりの知能が非常に高いです。だから最小限のトークン量で多くの知能を引き出すことができます。
GPT-5.5が出力するトークン量とGPT-5.4が出力するトークン量を見ると、実は少なくなっているのが分かります。出力トークン量は減っているのに、それでもより良い結果が得られています。つまり、トークンあたりの知能が大きいということです。トークンあたりの知能がずっと優れています。
この後、さまざまなベンチマークを見ていけば、この傾向が続いていることが分かるはずです。トークンあたりの知能ははるかに大きいです。特に右側のこのモデルを見ると分かりますが、こちらは大量のトークンを無駄にしています。文字通り3倍ものトークンを使っているのに、出力はより悪い。つまり、トークンあたりの知能が低いということです。
だから重要なのは、トークンあたり、1ドルあたりの知能なのです。
価格とトークン効率
このモデルについて私があまり好きではない大きな点は、入力100万トークンあたり5ドル、出力100万トークンあたり30ドルという価格です。ただ、これは致命的ではありません。Opus 4.7よりは安いですからね。でも、私は知能は安いほうが好きなんです。知的である限り、安ければ安いほど良いですよね。
笑い
正直なところ、このモデルは非常にトークン効率が高いので、地球上で最大の問題というほどではないと思います。その価格は悪くありません。そして実際には、価格はもっと良くなっていくと思いますし、トークン効率も良くなり、トークンあたりの知能も良くなっていくと思います。この5.5シリーズにポストトレーニングのスケーリングを適用していけば、ずっと良くなるはずです。だから、実はまったく心配していません。
見て分かるように、この傾向はほぼすべてのベンチマークで続いています。はるかに効率的で、はるかに知的です。前の5.4モデルとは、もはや本当に比較になりません。
Opus 4.6やOpus 4.7と比較したら、Opusは実際、笑えるほどひどい結果になるのではないかと思います。
Opusがクールなのは、話し方がいいからです。会話していて気持ちがいい。話し相手としてはいいんです。ただ、ものを作るのはあまり得意ではありません。
Claude Mythosとの比較
とにかく、繰り返しますが、私はこれらのベンチマークにはあまり関心がありません。ただ、このベンチマークは実際に面白いです。右上の角を見るとClaude Mythosがあります。そしてこちらを見るとGPT-5.5があります。この2つを4つのベンチマークで比較できます。
Terminal Bench、OSWorld Verified。これらは、もし私が何らかのベンチマークを気にするとしたら、その中で気にする2つです。そしてBrowser Compがあります。これは多少面白いです。それからCyber Gymがあります。これもかなり面白いです。
Cyber Gymがなぜ面白いのか、知らない方のために言うと、Anthropicがこれはサイバーセキュリティ上の脅威だと言ったからです。このモデルはリリースできない。危険すぎる。だから私はこのモデルを門番のように管理して、特定の企業にだけ提供します、ということです。
基本的に、よく見ると、GPT-5.5はClaude Mythosモデルより1.3%悪いだけです。1.3%悪いだけ。それだけです。サイバーセキュリティ関連に関しては、そういうことです。
Terminal Benchでは、実際にはMythosより優れています。OSWorld Verifiedでは0.9%悪いです。そしてBrowser Compでは数パーセント悪いのですが、それは問題になりません。なぜならGPT-5.5 ProはBrowser Compで実際に数パーセント優れているからです。だからどうだ、という感じです。たいしたことないじゃないですか。
笑い
Mythos、全然すごくないですね。
ただ、本当に、Anthropicに何が起きたのかというと、彼らは計算資源に制約されています。そのモデルを提供できないんです。Opus 4.7ですら、かろうじて提供しているような状態です。
笑い
そして彼らがやったのは、大きなマーケティングの見せ物を作ることでした。このマーケティング上の仕掛けとこのモデルを使って、AmazonやMicrosoftなどの大企業に行って、こう言うわけです。
皆さんには重大なセキュリティ脆弱性があります。もっと強力なこれらのモデルが出てきたら、それに耐えられません。こうしましょう。私たちに数億ドルを支払ってください。私たちはMythosを皆さんのところに持っていき、48時間ほどでセキュリティ脆弱性を解決します。これで万事うまくいきます。私は大金を稼ぎ、皆さんはMythosを得る。そういうことです。
だいたい、起きたのはそういうことです。彼らは計算資源に飢えていて、そして多額のお金を稼いだ。Anthropicにとってはいいことですが、真実はそれです。危険だからではありません。それは嘘です。いいですか。次へ進みましょう。
重要なのはトークンあたりの知能
いずれにせよ、繰り返しますが、大きなトレンドはトークンあたりの知能です。トークンあたりの知能とは何か。
ここにNoam Brownがいます。彼はOpenAIの研究者の一人です。OpenAIで推論モデルの研究をしています。彼はこう言っています。
私が絶対に譲らない考え。今日のAIモデルでは、知能は推論コンピュートの関数である。単一の数字でモデルを比較することは、2024年以降、意味をなさなくなっている。
だから私はベンチマークが好きではないのです。ベンチマークは好きではありません。意味をなさないからです。Noam Brownが言うように、2024年以降、それは意味をなさなくなっています。
実際に重要なのは、1ドルあたり、1トークンあたりの知能です。あるいは1ドルあたりの知能、またはトークンあたりの知能、そのどちらかです。
でも重要なのは、私がこの間ずっと言ってきたように、そこなのです。それが重要です。それ以外は全部ゴミです。ただのマーケティングです。重要なのは、最小限のドルでどんな成果が得られるのか、あるいは最小限のトークンでどんな成果が得られるのかです。さらに良いのは、その2つを組み合わせたものです。
なぜなら、出力で使うトークンが少ないモデルを使うと、少し教育的になりすぎないように言いますが、出力に使うトークンが少ないモデルでは、コンテキストの腐敗が少なくなり、コンテキスト汚染も少なくなります。そして、コンテキストウィンドウのより多くの部分を、実際にモデルに解かせたいことのための、よりエージェント的な用途に使えるようになります。
実際にやってほしいこと。実際にモデルに動いてほしい領域。モデルが出力するトークン量は、知能が高い限り、少なければ少ないほど良いのです。知能が高く、かつ少量のトークンしか出力しないなら、よりエージェント的なタスクに使えるコンテキストがずっと増えます。それによって自律性が高まり、ツールの使い方も良くなり、他のモデルにはできないことを行う能力も高まります。なぜなら他のモデルは大量のトークンで、トークンスペースを全部無駄にしてしまうからです。本当に面倒です。そうでしょう。
ですから、トークン数は少ないほうがたいてい良いです。ただし、次のタスクのコンテキストのために、そのトークンを意図的に使おうとしている場合は別です。このモデルは、それもまだうまくできます。
鼻をすする音
そうです。これは文字通り、知能、コスト、エージェント的な時間軸、時間が経過したときのコンテキストの一貫性、実際のコンテキスト汚染問題を改善します。これらすべてが、より高いトークンあたりの知能を持ち、そもそも使うトークンを少なくし、それでもより高い成果を出すことで改善されます。
ですから、現在のAIのパラダイムでは、見るべき最良のものはそれです。他のことは重要ではありません。他のことはまったく重要ではありません。継続学習が実現して、これらすべてが意味を失うまでは、です。それは今年かもしれません。どうなるか見てみましょう。
OpenAIのリリース速度と今後の飛躍
さて、この最後の2枚のスライドがおそらく最大の話です。いくつか興味深いことを話してきましたが、これから話す最後の2つは、基本的にこの動画から受け取るべきすべてです。この最後の2枚のスライドで扱います。よく聞いてください。
これは実際にSam Altmanがリポストしたものです。彼は、これは重要なJacobのアップデート、あるいは重要なJacobの引用だと言っています。
もし知らない方のために言うと、Jacob Pachocki、あるいはPachauki、どう発音するのか分かりませんが、JacobはOpenAIの主任研究者です。彼は主任科学者です。
咳払い
彼が言ったことがこれです。まずニュースです。見出しです。
OpenAI、GPT-5.5を発表。会社はより速いモデルリリースペースを予告。
いいですね。こちらがJacobの発言です。
短期的にはかなり大きな改善が見られ、中期的には極めて大きな改善が見られると考えています。ここ数年は驚くほど遅かったと言えるでしょう。
私にとっては納得できます。これは、私が言っていた、GPT-5.5シリーズにおけるo1バージョンだという話に戻ってきます。これはo1です。GPT-5.5における推論の最初のバージョンなのです。
彼らがポストトレーニングの期間や手法を実際に使うまで待ってください。文字通り4oモデルの頃から学んできたすべてのポストトレーニングです。4oから今まで、彼らは同じベースモデルに対してさらにポストトレーニングを行ってきただけです。4oから5.4まで、事前学習ではなく、ポストトレーニングで進んできました。新しいモデルを作っていたわけではありません。
いや、違いますね。5.0は新しいモデルだったと思います。すみません。5は新しいモデルでした。ただし、それは効率性の向上でした。より小さいモデルでした。5は小さいモデルだったのです。
そして、そうですね、私がここで言いたいのは、これから多くの向上が見られるということです。
私の解釈では、短期的には大きな改善が見られるでしょう。つまり、短期的にo1からo3へ、5.5から5.6あるいは5.7へ、ということです。そして中期的には極めて大きな改善が見られる。これは明らかにGPT-6です。
それがいつ出るのかは分かりません。90日後かもしれませんし、6か月後かもしれませんし、12か月後かもしれません。ただ、彼がこれで何を意味しているのかは、かなり明らかだと思います。
これは少なくとも私の読みです。完全に間違っている可能性もあります。
そうですね、大事なのは、ここ数年は驚くほど遅かったと言っていることです。つまり、物事はもっと速く進むようになるということです。OpenAIはすでに、今後は月ごとの、失礼、毎月のペースでモデルをリリースしていくと確認しています。月ごとに、これからモデルをリリースしていくのです。
31時間稼働した強化学習実行と再帰的自己改善
もう一つあります。これはOpenAIの別の研究者、OpenAIの研究科学者であるAiden McLaughlinです。フォローする価値のある素晴らしい人物です。
彼はこう言っていました。休暇中、彼はディクテーションボタンを使い、5.5と話していました。そして大規模なRL実行を走らせていました。彼は、新しく野心的なRL実行だと言っています。
そして彼は大勢の人たちと過ごし、あれこれして、かなり長い時間を過ごしました。その間、GPT-5.5はこの産業規模のRL実行を動かし続け、31時間作業した後も稼働していました。彼がオフィスに戻ると、産業規模のRL実行が動き続けていたのです。
31時間後に、それが実際に動いていたのです。
笑い
これは、皆が話してきた再帰的自己改善のパラダイムです。
今のところ、それが完全にすべてをやったとは思いません。彼自身のほうが、おそらくもっと上手にできたでしょう。モデルには、最善の形でそれを行うための特定のセンスや判断力が、まだ欠けていた可能性があります。
ただ、次の部分を聞いてください。
この時間の一部では、モデルは単に実行を見守るために眠っていただけでした。
モデルについて話しています。モデルは、実行を見守るために単に眠っていたのです。
しかし以前のモデルには、この時間に関する判断感覚がまったくなく、実行に過剰に介入していました。
つまり、モデルはほとんど、実行が行われるべき時間についての感覚のようなものを持ち始めているわけです。実行に介入するのではなく、31時間実行を続けさせる。そして戻ってみると、この産業規模のRL実行が順調に動いていて、31時間うまく機能していた。それはかなり正気ではないことです。
笑い
ですから、これは再び、再帰的自己改善の話を示唆しています。これらのモデルが今や強化学習の実行を行っているという事実が、大きなポイントです。お気づきでないかもしれませんが、これらのモデルには判断力とセンスが欠けていました。そしてAidenがここで説明しているような種類のタスクこそ、まさにその部分に関わるものです。
そしてこれは解決されるでしょう。多くの人は、人間にはこのセンスや判断力の堀のようなものがあり、それは決して消えないと思うでしょう。間違いです。すぐに消えます。
笑い
十分すぐに消えるでしょう。
でも、これは巨大です。なぜなら、これについて考え、論理的な結論まで進めてみると、トークンあたりの知能が極めて効率的になり、つまりトークンあたりの知能が極端な量になったとします。そして、非常に速い速度で大量のトークンを出力し、再帰的自己改善において人間が完全にループの外に出たとき、そのとき物事は面白くなります。そのとき物事は面白くなります。
もう一度言います。トークンあたりの極端な知能。そして、そのトークンあたりの極端な知能による長い思考連鎖。そしてCerebrasインフラによる高速な推論速度。これは、今年末までに来ると思います。遅くとも2027年には、多くの大型モデルがCerebrasインフラ上で動くようになり、現在の推論速度より何百倍も速くなるでしょう。つまり、実効ビットレートが文字通り何百倍も速くなるということです。異なるインフラを持つだけで、実効的な知能が100倍速くなるのです。
そのインフラ上で、トークンあたりの知能と長い思考連鎖があり、そしてループが閉じられる。私たちは完全なテイクオフの中にいます。
そして、この動画はこの話で終えたいと思います。


コメント