OpenAIが発表したGPT-5.5の登場をきっかけに、AIモデルの実用性とベンチマークの限界について語る動画である。投稿者はオランダで解放されたTesla FSDの自動運転デモを背景に、GPT-5.5とClaude Opus 4.7の比較、価格戦略の違い、AnthropicがClaude Codeで発見したeffort設定のバグなどを取り上げる。さらに、モデル単体よりも周辺のAI Harness(モデルを包むシステム全体)が日々の体験を決定付けているという主張を展開し、Googleが75%のコードをAIで書いている現状やMicrosoftの早期退職プログラムにも言及する内容である。
GPT-5.5の登場とTesla自動運転
皆さん、こんにちは。この動画では人工知能について話したいと思います。まずは昨日OpenAIから発表されたGPT-5.5のリリースから始めていきましょう。それから皆さんにデモもお見せしたいと思います。もうお気づきかもしれませんが、ここで僕の代わりにTeslaが自分で運転してくれているんですよ。FSD Supervised(監視付き自動運転)が今月オランダで解放されまして、Instagramでリールをいくつか撮ったことはありますが、皆さん向けにまだデモを撮っていなかったんです。
なので、車が自分で運転している様子を見ていてください。本当に印象的ですよ。さて、GPT-5.5についてですが、昨日リリースされまして、ベンチマークを見ていたんです。そしてこれから、なぜそのベンチマークがちょっと興味を失わせるのか、その理由をお伝えしますね。僕がベンチマークを見て興味を失うのは、それらが頭がイカれているからではなくて、皆さんの日々の作業の中で実用的な意味で違いを生まないからなんです。
たとえば5.5は昨日リリースされました。これはいくつかのベンチマークでClaude Opus 4.7を上回るモデルです。開発系やツール使用系のベンチマークも含めてです。OpenAIは基本的に、GPTがClaudeに負けているベンチマークについては少し隠す傾向があるんですよ。ちょっと車が何をしているか見させてくださいね。ここは工事中だったんです。
OpenAIはClaudeに負けているのに、それを見せないんです。画面上に、Opus、Sonnet、そしてGPT-5.5を比較した本当の比較を出しますね。これはOpenAIが皆さんから隠すような比較です。
価格戦略の違いとAnthropicのアプローチ
5.5はより高価です。OpenAIは2つのことを言いました。見てください、トークン使用において、より効率的なモデルをリリースしますと。しかしよく見てください、それは5.4の2倍の価格なんですよ。これはAnthropicがやったことの逆なんですね。Anthropicが4.7をリリースしたとき、彼らは基本的に「4.7はより長く考えるので、より多くのトークンを使うが、コストはそんなに高くない」と僕たちに言いました。
つまり、モデルのリリースと価格設定について2つの異なるアプローチがあるんです。1つは、モデルをより賢くしてトークン消費を減らし、より効率的にする、つまりキャッシュやその他のさまざまな戦略を多く使い、トークンあたりのコストを上げるというもの。もう1つは、モデルにより多くのトークンを消費させ、その代わりトークンあたりのコストを下げるというものです。
で、GPT-5.5はまだテストできていません。今日テストする予定です。僕の本当の日常の中でどう機能するか見てみましょう。でも皆さん、なぜ動画の最初に「もうモデルの品質やベンチマークはあまり重要ではない」と言ったのか、その理由は今週起こったことにあるんです。Anthropicが認めたんですよ、僕が正しかったということを。
僕はこのチャンネルですでに皆さんに、企業はモデルを弱体化(nerf)させるか、応答のレイテンシを上げるかしなければならなくなる、と言っていました。そしてAnthropicがちょうどそれを認めたんです。彼らのシステムにバグがあって、モデルをより愚かにしていた、モデルの思考を減らしていたんです。
つまり、effort max、モデルの最大のeffortを使ってより多く考えさせたいと指定したとき、実際にはより少なく考えていたんです。「もっと考えろ」というあなたのコマンドに従っていなかった。デフォルトとして単に中程度の思考に落ちていたんですね。
AI Harnessが体験を決める
ここで僕が言いたいポイントはこういうことです。僕たちはどんどんプラットフォームに依存するようになっています。みんな今「AI Harness」について話しているんです。すべてのAI企業は今、AIラッパー(AI WPER)ではなく、AI Harnessに投資しています。これはモデルを包むオペレーティングシステムのようなもの全体のことです。
このシステムには、たとえばキャッシュ部分のすべてがあって、リトライのロジックもあります。失敗したときに再試行するロジックですね。それから、いつ検索すべきか、いつツールを使うべきか使わないべきかを知るロジックもあります。すべてこれがAI Harnessの中にあって、これはモデルを超えたメガ複雑なシステムで、実際に結果を届けるものなんです。
たとえば、あなたがCursor内でGPT-5.2や5.4を使っているとして、Codex内で同じものを使う場合とは異なるパフォーマンスを示し得るわけです。なぜならAI Harnessが違うからです。
だから、Anthropicが起こっていたと認めたこのバグは、Claude(Cloud)のAI Harnessの中にあったんです。これはベンチマークには出てきませんよね。モデルは優れているかもしれないが、モデルそれ自体よりもAI Harnessにずっと依存している、というのが僕のポイントなんです。
ちょっと待って、僕がこの動画で話したこと、これから話すことすべてについて、皆さんに視覚的なサポートをしますね。
ベンチマーク比較とその限界
では、皆んなが大好きなこのベンチマークから始めましょう。そして僕はそれが日々の仕事になぜ重要ではないのかを説明します。ここでGPT-5.5、5.4の列を、Claude Opus 4.7と比較しています。Terminal Bench 2.0では、GPT-5.5が82.7%でスコアしているのが分かります。75.1%だった5.4と比べて大きな上昇です。Claude Opusは可哀そうに69.4にいます。だから、もしOpusがすごいと思っているなら、Codex with GPT-5.5をテストするまで待ってみてください。
さて、なぜこれが重要じゃないのか。いくつかの理由があります。まず、OpenAIにあるExpert Software Engineerのようなベンチマーク、これは内部ベンチマークなんですが、GPT-5.5は73.1で、Anthropic Opusのスコアはありません。だからその比較がどれくらいなのか分からないんです。なぜそうなのかというと、Anthropicは自社のモデルをこれらの内部ベンチマークでOpenAIにテストさせないからです。それも当然で、結果がかなりバイアスがかかるからですよね。
ここで見える重要なものの1つはOSWorld Verifiedです。これも重要なベンチマークですが、Opus 4.6(4.7)に対してそれほど大きなゲインはありませんでした。だから僕は、モデル間でかなりバランスが取れていると思います。
では、なぜこのベンチマークが重要じゃないのか。それは単にこのように測定されているからだけではなく、皆さん、日々の中で重要なのは使うツールだからなんです。これについて説明させてください。
選んだモデルが本当に使われているのか問題
ちょうど今日、リモートで作業しながらClaude Desktopをテストしていたんです。気づいたことの1つは、使うモデルを選択して、使っていると思っていたモデルがOpus 4.7でした。ここに見えるとおり、Opus 4.7が選択されています。皆さんは僕の出したプロンプトもここで見たかもしれません。
そして下を見てください、僕はBashを実行するためにHaiku 4.5でサブエージェントを動かしていますよ。だから、Opus 4.7を選択したんですが、僕の問題を解決するためのある段階で、Haiku 4.5を使うエージェントを動かす必要があると判断したんです。だから、このエージェントはBashで何かを実行しているわけです。
そして僕はこう言います。皆さん、ここに来てどのエージェントが最高のTerminal Bench、最高のツーリング、最高のパスを持っているかというベンチマークを見ても何の役に立つでしょうか。日々の中で、僕が使っているツールを取り囲むAI Harnessが、僕が選択したモデルを使っているかどうか分からないとしたら。あなたにはもうそんなコントロールはないんです。
そしてそれにもかかわらず、皆さん、起きたケースを見てください。Anthropicがちょうど僕たちが正しかったと認めたんです。3月4日、彼らはClaude Code内で何かを変更して、effort highを設定したとき、選択されているのはmediumで、ユーザーには「high」と表示されるようになっていたんです。
だからあなたはeffort highに設定する。「もっと考えろ、最高に」と。そうすると「OK、effort high設定済み」と表示される。でも下では、実際にはmediumになっていた。
だから、これらのベンチマークを比較し続けても何の役に立つんでしょうか。モデルを使うとき、生成されたサブエージェントが使っているモデルすらコントロールできないし、思考のレベルが使われているかどうかすらコントロールできないとしたら。皆さん、彼らは僕たちの体験を骨抜きにしている。彼らは僕たちの体験をnerfしているんです。何のために?もっとお金を稼ぐためです。
そして正直に言わなければなりません。まあいいでしょう、それぞれが自分のお金を最大限管理する。でも、これを比較することが僕の人生を変えるなんて言わないでくれ、ということです。
今日では、モデルをテストするだけでなく、CodexがClaude Codeより良いパフォーマンスをしているか、あるいはClaude DesktopがClaude Codeより良いか悪いかをテストする必要もあるんです。ちなみにClaude Desktopではeffortをどこで設定するのか見つけられないんです。
そしてこのスレッドで誰かがコメントしてくれたんですが、Claude Codeのサブエージェントモデルをsonnetに設定できたかもしれないと。でも、僕は何も設定していなかったんです。何も設定していないなら、教えてください。
一緒に考えてみましょう。まずコメントありがとうございます、でも考えてみましょう。僕はOpusを選択した。サブエージェントを設定していない。デフォルトは何であるべきか?Opusですよね。なぜなら設定はオーバーライドである必要があるからです。設定は単に必須にすることはできない、そうでなければそれは設定のカスタマイゼーションではなく、エージェントのオンボーディングのステップになってしまう。
だから僕の大きな質問はこれです。今日テストするんですが、もしOpusを使うように強制したら、それは尊重されてOpusをすべてに使うのか、それともまだ僕に対して何か怪しいことを引き出すのか。
まあベンチマークの話はもうやめましょう、まだテストしていないので。重要なのはテストすることです。来週、5.5がOpus 4.7より良かったかどうかをお伝えできるかもしれません。
High Globe(スポンサー)
でもすでにテストしたものが1つあります。僕は忠実な顧客で、僕の推奨を信頼してくれた友達がいて、後悔していないものです。それはHigh Globeを使ってグローバル決済を最低保証コストで受け取ることです。
だから外国向けに働いている友達がたくさんいて、ドルで受け取り、High Globeを使っています。理由の1つは、彼らが実際に最低コストを持っているからです。スプレッドが0.3%で、この最低コストは保証されています。もう1つ、Pix経由の出金は即時で、最低金額がありません。いつでも、いくらでも、好きな方法で出金できます。
ルカス、今ドルがそんなに価値がないんだよね、と思うかもしれません。ドルで稼いでいるけれど、ドルが下がっているよ、と。お金全部を出金する必要はありません。月に必要な分だけ出金すればいい。残りのドルはHigh Globeの残高に置いておけばいいんです。だから残高もHigh Globe内で利息を生むんですよ。
皆さんには本当におすすめします。プロフェッショナル、フリーランス、企業向けの方、グローバル決済の受け取りにHigh Globeを使ってください。リンクをクリックしてください、説明欄にあります。それから僕のクーポン「montando20」を使うのを忘れないでください。High Globe経由の送金で最初の3ヶ月20%割引も得られます。
Teslaの自動運転と適切なモデル選び
それでは車に戻りましょう。Teslaがやっていることをいくつかお見せしたいんです。
これまで他のいくつかの動画でも話したように、僕たちはこれからどんどん、適切なものに適切なモデルを選ぶ専門家になっていくでしょう。たとえばGPT-5.5は、ベンチマークで検索に優れていることが今示されました。だから、もし何かを検索して、ドキュメントやプロジェクトで参照として使うために何かを調べる必要がある場合、GPT-5.5を使って計画を立てて、その計画を実行するためにOpus 4.7を使い続ける、なんて使い方ができるかもしれません。
そしてもう1つこれが教えてくれることは、モデルだけが重要なのではないということです。だから適切な瞬間にどのツールを使うかを知る専門家にもならなければなりません。Codexを使い、それからClaude CodeかCursorを試す、というように、行うタスクのタイプによって、片方が他方より良いパフォーマンスを示したり、他方より安かったりするかもしれないんです。
さて、こんなところだと思います。車が運転するロジックを少しお見せしましょう。たぶんこっちから撮影して、動きを見せてみますね。僕のカメラ、カメラマン、カメラウーマン。
皆さん、起こっていることを車がどれだけ識別できるか、本当に印象的ですよ。ディスプレイ上で複数のポイントを識別しています。反対側から来ている車も含めて、バス停にいる歩行者も。たとえば、横断歩道ではなくても、体を投げ出して横断しようとしていた歩行者のために停止したことがありました。
だから、すべてのこれらのポイントを識別できるんです。もう1つ印象的なことは、多くの車が持っているシステム、ブラジルでもある、前の車が動いたら動く、前の車が止まったら止まるというものです。でもまず、Teslaにはセンサーがありません。すべてカメラで動きます。
そして気づいたことは、必ずしも前の車との距離を計算しているわけではないということです。だから、信号が開いて、前の前の車が動き始めると、すぐに発進する、なんてことがよく起こります。運転手として僕たちが、よりスムーズな運転のためにすることですよね。前の車が動き始めるのを待たず、流れが流れ始めるのを知っているなら、自分も動き始める。
そしてTeslaはカメラで、これらのことを把握できるんです。それで体験が本当に素晴らしくなる。なぜなら、僕がやることをやっているからなんですよ。ロボット的なことではないと分かる。世界中の運転手の習慣で訓練されたAIだと分かるんです。Teslaに僕たちが車で運転するときに共有する何百万もの画像、すべてで訓練されている。
だから、これはxAIの強みのポイントだと思います。今日世界中で走っているTeslaの数、彼らがモデルを訓練するために利用できるビデオと画像の量。運転するためにモデルを訓練するだけでなく、他のさまざまなこと、街がどう機能するかについても訓練する。
Googleのコード生成75%とレイオフの動向
今週起こったもう1つのこと。Googleがコードの75%がAIによって書かれていると認めました。皆さん、これってもう全然違いを生まないんですよ。新しいことじゃない。みんなAIを使っています。
僕は今日、自分のコードの99%がAIで書かれていると思っています。Disneyでもです。もちろん、コードの多くはAIによって書かれているんですが、AIがどこのファイルをどう変更すべきか僕が正確に伝えたものです。でも、IDEを開いてコードを手動で入力するなんて、もう長いことやっていないんですよ。それはとても非効率なんです。
もちろん、IDE内で関数のパラメータを変更するときに、いくつかのコマンドやショートカットでその参照をすべてのファイルで変更するツールはたくさんありました。でもAIの場合、これははるかに、皆さん、スケールがはるかに大きいんです。だから僕は基本的にコーディングにAIだけを使っています。
だから僕が驚いているのは、Googleが75%なのが印象的なのではなくて、それ以上ではないことが印象的なんです。実は去年僕たちはからかっていたんですよ。Googleが30%に達したときの動画があって、僕は「ああ、その30%はデプロイのちょっとしたスクリプトだろう、そんなものだろう、システム自体ではないだろう」って言ったんです。そして僕は間違っていたんです。だって実際、この1年で僕たちは基本的にすべてをAIで書いているんですから。
でも皆さん、もうこんなことに注目する必要はないんです。100%に達したらGoogleはもうプログラマーを必要としなくなる、なんてことを意味しないんですよ。それとは関係ないんです。だから企業のコードのうちAIが生成している割合についてみんなが発表する数字は、市場へのインパクトには何も翻訳されないんです。
でも市場の話ですが、今週いくつかのレイオフも発表されました。Microsoft内、Google内で。間違っていなければMicrosoftがバイアウトを提供したんです。基本的に、退職したり辞めたりする社員にお金を払っているんです。だから人々に辞職を促進するプログラムをやっていて、おそらく辞めるためにかなりの金額を払うんでしょう。
これが今週起こっていたことです。Googleは過去にもこれをやっています。特にCOVID時代にね。皆さん、印象的ですよ。
複雑なアムステルダムの運転と運転スコア
さて、車が何をするか見てみましょう。皆さん、ちょっと変な交差点を曲がる必要があるんです。自転車も来ていますよ、電車も。ほら、電車が通る。すごく複雑です、皆さんに見せたいなら、すごく複雑です。ほら、彼は別のTeslaが通るのを待っていて、トラックも来ていますよ。
アムステルダムは運転するのにすごく複雑な街なんです。ほら、自転車のおばあさんが、何もないところから渡り始めた。でもアムステルダムは、本当に運転するのにすごく複雑な街なんです。だってあらゆる場所に自転車がいて、いろいろなものがある。
ただ、ここでは僕が引き継ぎますね。彼はまだ駐車を知らないんです。いや、駐車は知っているんですが、ここオランダではアメリカのように最良の駐車場所を探さないんです。アメリカでは、ここに設定すれば駐車してくれるんです。でもタイプして場所をクリックする必要があります。
アメリカでは、最終目的地を入れると、ドアトゥドアで連れて行ってくれます。最終目的地の近くの駐車場所を見つけて行ってくれる。ここではまだあまりうまく機能していないんですが、皆さんが見ての通り、駐車してくれます。
僕の方がずっと上手く駐車できますよ。たぶん、必要じゃない動きをするでしょうが、彼はめちゃくちゃ慎重なんです。ぶつからない、と信じてください、ぶつからないんです。前後に動き続けるでしょう、僕がやらないようなことを。でもぶつからない、駐車します。完璧です。
ほら、また。何のため?何のため?最小限にしたい、完璧にしたいんですよ。最後にちょっと面白いことが、画面を見ていただければ。彼はあなたにスコアを与えるんです、運転手としてどうだったかというスコアを。そう、なぜならTeslaはあなたが良い運転手でなかった場合、あなたのプロファイルをブロックすることもできるんです。
今日、良い運転手であるとは、注意を払って前を見ているということです。だから僕はカメラを見ていなかったんです、Teslaはとてもうるさいから。彼はここの上にカメラを持っているんです、ほら。この上のカメラが基本的にあなたがどこを見ているかを捉えます。頭だけじゃないんですよ。時々目で見ているだけでも、彼は文句を言って、ここでビープを鳴らして、注意を払えと言うんです。
これがあなたのスコアを下げて、ある瞬間に有効化しようとしたら、彼が許してくれない、クールダウンを与えてくる、ということもあり得ます。実は初日に僕に起こったんですよ。Teslaが再び機能するためにリセットしないといけなかったんです。
まあとにかく、興味深いです。皆さん、こんな感じでした。僕たちの旅はここで終わります。今週のニュースはこんな感じでした。来週、5.5のレビュー動画を投稿して、彼がどうだったかをお伝えしますね。WindowsのPSUAで僕たちが抱えている、めちゃくちゃなバグを修正しながらね。
このバグは、すべてのモデルをテストするための僕のベンチマークになっているんですよ。だって本当に、本当に複雑なんですから。じゃあ、水分補給を忘れずに、チャンネル登録して、次の動画でお会いしましょう。


コメント