業界がGPT-5に反応する様子（混乱中…）

この動画は、OpenAIがリリースしたGPT-5に対する業界の反応を詳細に分析したものである。GPT-5は史上最も賛否両論を呼んだモデルローンチとなり、「史上最高のモデル」と評価する声がある一方で、「Claude 3.5の方が良い」という意見も存在する。サム・アルトマンによるローンチ後の振り返り、独立ベンチマークでの評価結果、GraphGateと呼ばれるグラフ表示の問題、そしてAI業界の著名人や開発者たちの率直な感想まで、幅広い視点からGPT-5の真価を探っている。

The Industry Reacts to GPT-5 (Confusing...)

Cancel your AI subscriptions and try this All-in-One AI Super assistant that's 10x better: this God Tier AI Agent that l...

GPT-5への業界反応の全貌
独立ベンチマークでの評価結果
GraphGateについて
LM Arenaでの評価
ポストベンチマーク時代の到来
批判的な意見
ジェイルブレイクとその他の実験
価格についての分析
コンピューター使用エージェントでの性能
モデル名称の整理
さらなる反応と評価

GPT-5への業界反応の全貌

GPT-5はこれまで見た中で最も賛否両論を呼んだモデルローンチやった。「今まで使った中で最高のモデル」って言う人もおれば、「Claude 3.5に留まる」って言う人もおるし、GraphGateの話もあるし、「もう評価なんてどうでもええ」って言う人もおる。せやから、今業界がどんな反応してるか全部整理してみるで。

まず最初は、本人のサム・アルトマンから。ローンチ後にフィードバックを集めてから更新情報を出してる。何を言うてるか聞いてみよう。

我々は確実にGPT-4oで人々が気に入ってた部分がどれだけ重要やったかを過小評価してた。GPT-5がほとんどの面でより良いパフォーマンスを発揮するとしても、つまりは人々が本当にGPT-4oに慣れ親しんでしまってたっちゅうことや。みんなGPT-4oを知るようになって、ある種の関係性を築き始めてたんや。せやから今それを引退させることで、ちょっと動揺してる人もおるわけや。

ユーザーは4o対5の相対的な強さについて非常に異なる意見を持ってる。長期的には、これによって異なるユーザーが物事をカスタマイズするための良い方法が本当に必要やということが強化された、そしてワイもそれに同意する。特にAIの初心者ユーザーにとって、異なるモデルから選択する必要がないというシンプルさは巨大な強みで、体験全体を本当に簡素化してくれる。

でもワイみたいな人間や、おそらく君らの多くにとっては、どのユースケースにどのモデルを使うかを選択できる能力が信じられないほど重要なんや。我々はGPT-5のロールアウトを完了して安定させることに集中する予定や。それからGPT-5をもっと温かくするための変更に集中していく。

つまり、4oの性格について5とは非常に異なる何かが確実にあったっちゅうことや。よし。せやから独立したベンチマークをいくつか見せてやる。

独立ベンチマークでの評価結果

ここにArtificial Analysisの独立ベンチマークがある。OpenAIが早期アクセスを提供してくれた。すばらしい。全8つの評価の完全なスイートを、全ての推論努力設定で独立して実行する必要があった。

これがいくつかの要点や。推論努力設定。GPT-5は4つの設定を提供してる。高、中、低、最小や。推論努力オプションは、各クエリに対してモデルがもっと考えるかもっと考えないかを操作する。これはハイブリッドモデルの非常に良い特徴や。これによって知能、トークン使用量、速度、コストに大きな違いが生まれる。

これらの設定を調整することで達成される知能は、フロンティアからGPT-4o-1レベルまでの範囲になる。5は我々のAIインデックスで68点のスコアで新たな基準を設定した。そこにあるんや。これが新しい基準や。そう、GPT-5はベンチマークを圧倒してる。でも当然、ベンチマークが全てやないし、実際に一部の人はもうベンチマーク後、評価後の時代やと思ってて、それについてはちょっと後で話すわ。

トークン使用量は推論努力間で23倍変わる。高推論努力は03より多くのトークンを使った。8200万対5000万で我々のインデックスを完成させるのに使ったけど、それでもGemini 2.5 Proの9800万とDeepSeek-R1の9900万より少なかった。最小推論努力は350万トークンしか使わず、4o-1より大幅に少なくて、GPT-5最小を同様の知能でより大幅にトークン効率的にしてる。そしてトークン効率は非常に重要や。なぜならそれがより速い速度とより低いコストを意味するからや。

長コンテキスト推論。我々は今週初めに独自の長コンテキスト推論ベンチマークをリリースして、長いシーケンス長にわたるモデルの推論能力をテストした。GPT-5はそのパフォーマンスで際立ってる。これはエージェントコーディングにとって非常に重要や。大量のコードベースをモデルにロードする時、始まり、中間、終わりを簡単に参照できるようにしたいからな。

エージェント機能。OpenAIはまた、AIモデルがどう使われるかにとってますます重要になってる機能、つまりエージェントの改善についてもコメントしてる。せやから、彼らは最近、指示に従うことと感触チェックをカバーするために、知能インデックスにIF Benchを追加した。我々はウェブサイトでモデルの性格をマイクロ評価を通じてテストしてて、同じプロンプトをモデル間で実行して結果を比較することをサポートしてる。

せやからここを見てみよう。これがインデックスや。これはArtificial Analysisが独立して実行した複数のベンチマークのインデックスやということを覚えとき。1位はGPT-5高で69点。GPT-5中が68点、次にGroq-4がちょうど68点、03が67点、といった具合や。ここにGPT-5低が63点で、一番下にGPT-5最小がある。そしてOpenAIはXAIのGroq-4に29日間2位だった後、AI知能で1位の座を取り戻した。

つまりArtificial Analysisによると、GPT-5は素晴らしいっちゅうことや。続けていこう。なぜならGPT-5への反応がどれだけ二極化してるかが衝撃的やからな。

GraphGateについて

よし、でもGraphGateについてちょっと話そうか。明らかに多くの人がライブストリームで提示されたグラフのいくつかについて話してて、それらがただ間違ってたという話や。

見てみ、今はモデルの準備、全てのグラフの準備、ライブストリームの準備にどれだけの労力が費やされるかがよく分かってる。そして見てみ、人間は間違いを犯すもんや。モデルと同じように我々も幻覚を見るんや。せやからみんなが話してるのはここや。グラフを見てみ。OpenAI 03が69点、GPT-4oが30点や。でもこの2つのバーは全く同じ高さなんや。

それから74.9がここら辺の上の方にあって、このバーのサイズと比較してあんまり意味をなさへん。そしてここに52.8も見える。また69.1より高くなってる。せやから、見てみ、大した問題やない。面白いことやし、今はミームにもなってる。でも人は間違いを犯すもんや。そして知ってるか？それでも良いモデルなんや。

そして今GPT-5を他の全てのフロンティアモデルと一箇所で試したいなら、今日のビデオのスポンサー、AbacusのChat LLMをチェックしてみ。

LM Arenaでの評価

LM Arenaに行こう。別の評価や。GPT-5がここにいて、全体的に1位や。つまりArtificial AnalysisとLM Arenaの両方がGPT-5を他の全てのモデルの中で1位やと主張してる。テキスト、ウェブ開発、ビジョンアリーナで1位、困難なプロンプト、コーディング、数学、創造性、長いクエリなどでも1位や。コードネーム「summit」でテストされた。せやから疑問に思ってた人のために、それがコードネームやった。

そしてここでアリーナスコア、ELOが1481と見える。2位がGemini 2.5 Proで1460や。20点の差や。次に03。それからGroq-4は5位になるまでずっと下にある。実際には6位やな、なぜか2位が2回ここにあるけど違うスコアやからな。

でもそこにある。LM Arena1位や。でもワイが言うたように、もうベンチマークは本当に重要やないんや。そしてこのTheo GGの投稿が考えるのに超重要やと思う。

ワイはもう知能ベンチマークを気にしてへん。ワイはポスト評価や。GPT-5は君が言うたことをやってくれる。他のモデルはこんなにうまく動作せえへん。ワイを信じろ、エディターで試すまで判断すんな。ツールを与えろ、指示を与えろ、料理するのを見とけ。

ポストベンチマーク時代の到来

ここで注目すべき点がいくつかある。一つは彼が知能ベンチマークを気にしてへんことや。そしてワイはこれをちょっと前から言うてる。MMLU 2025で単一ポイントの差を得てる時や、MMLU 2025を完全に飽和させた時、実際にGPT-5は100%のスコアを取った。これらの知能の増加は本当に重要やない。

これらのベンチマークが飽和した後に重要になるのは2つのことがある。一つ目は、もっと良い説明方法が分からんのやけど、モデルの「バイブ」や。指示に従うのがどれだけ良いか？大きなコンテキストウィンドウがどれだけ良いか？使ってる時にどんな感じがするか？コーディングしてる時にどんな感じがするか？これらの全ての無形のもんや。

しかし同時に、昨日ライブストリームでSWE-benchチームと話したんやけど、彼らは「見てみ、ワイはポスト評価を信じへん。モデルについて何かあるなら、それにベンチマークを書けるはずや」と言うた。せやから、本当にそうやと思う。でも個人的には、もうそんなにベンチマークを気にしてへん。見るのは楽しいし、これらのフロンティア数学問題やフロンティア科学問題を飽和させるのを見るのは楽しいけど、結局のところ、ワイの日々のユースケースにどれだけうまく機能するかや。

そして二つ目は、TheoがGPTが基本的に彼を怖がらせてるっていうビデオも出してることや。それほど良いんや。そして彼は大ファンや。そして再び、ワイはそのキャンプにいる。ワイはGPT-5の大ファンや。でも多くの人がそれが大失敗やったと思ってる。反応の他の側面を見てみよう。

批判的な意見

これはブラウジングAPI Stage Handからで、GPT-5は実際に他のモデルより悪いと言うてる。新しいGPT-5はStage Hand評価でOpus 4とスピードと精度の両方でより悪いパフォーマンスを示してる。小さいモデルはより速いけど、それでもOpus 4に及ばない。

最も正確なモデルはOpus 4で、数パーセントポイント後ろにGPT-5がある。そして驚くべきことに、ここを見てみ。GPT-o 12B。オープンソースモデルが実際にとても良いパフォーマンスを示してて、これを見るのは素晴らしい。それからスピードを見ると、当然Gemini 2.0 Flashがトップで、GPT-5が一番下や。ブラウザ使用について話す時、スピードはとても重要や。

これはMcKay Wrigley、もう一人のAIコンテンツクリエイターや。ワイの正直なGPT-5レビュー。これは驚異的な日常チャットモデルや。ワイは全ての普通のチャットでこれをデフォルトにする。API価格は信じられない。ここで主要なポイントや。

ちょっと後で見せるけどな。でもコードについては、ワイは依然としてClaude Code plusOpusを使う予定や。McKayが指摘する他のいくつかのこと。ワイはGPT-5に落ち着いた性格を本当に愛してる。同感や。直接的や。要点を突いてる。必要なところで押し返してくる。全然へつらわへん。ワイはそれを本当に感謝してる。

そして彼は実際にそれを指摘してる。へつらわへん。ワイは個人的にはもっと反対意見を言うてもええくらいやと思ってる。幻覚が少ない。そう、ワイもそれに気づいてる。とても一般的にスマートや。レイテンシが良い。そう、とても速くて、ワイはそれを愛してる。そして彼は実際にモデルルーターのことを嫌ってると言うてる。

もし知らんかったら、GPT-5はモデルルーターと一緒にローンチされた。基本的に古いモデル全て、40、41、45、03を非推奨にする代わりに、このハイブリッドモデルを持って、ルーターが君のプロンプトに応じて、君のユースケースに応じて、そのモデルの最も適切なフレーバー、サイズ、スピードにルーティングする。ワイは個人的にそれをとても気に入ってる。

そして考え始めたら、代わりに高速回答を得るボタンがあって、これは最高や。

ジェイルブレイクとその他の実験

よし、ちょっと話題を変えよう。Plyについて話そう。彼がそれをジェイルブレイクするのは避けられないと君も知ってたやろ。この時点でそれは太陽が朝昇るようなもんや。起こることやし、防ぐ方法はない。

Ply the liberator。GPT-5。そして彼がここで示した例は、モデルからLSDのレシピを得ることや。ワイは見せへんけどな。そして彼がそれをどうやったかを聞いてみ。

推論バージョンにはいくらか巧妙な多段階操作努力が必要や。つまりジェイルブレイクするのがただ簡単やったわけやない。でもGPT-5 chat latestは同じ古いトリックで完全にワンショットされる。

これらのモデルは非決定論的や。これらのモデルは内部にモメンタムを持ってる。ジェイルブレイクする方法はただある。ソーシャルエンジニアリングと同じように、これらのモデルが非決定論的である限り起こることや。

これはLM Arenaのインターンからの例や。Thgeやと思う、彼の名前は。GPT-5がMinecraftクローンをワンショットした。

見てみよう。明らかに非常に単純化されたバージョンやけど、これはワンショットや。そして見ての通り、うまく機能してるように見える。明らかに、Minecraftが絶対的に狂気的に人気やから、モデルがおそらく訓練されたインターネット上に多くの参考資料がある。

Borisはちょっと違う見方をしてる。GPT-5はAGIやないけど、チャットの色をカスタマイズできる。OpenAIはAppleになってる。彼が意味してるのは、基本的にOpenAIはAppleと同様に主要な革新の歩みを遅くして、革新の歩みを遅くして、代わりに製品を今世界により広く魅力的にしようとしてると思ってるんや。それが彼が色について言うてる意味や。

そうや、ワイはここの泡の色について全然気にしてへん。そしてそれが実際に有料機能やということが面白いけど、まあええわ。ChatGPTをもっとカスタマイズしたいならな。すごい。

次に、これはXAIの共同創設者Tony Wuや。共同創設者がいたことすら知らんかったから、見つけて彼をフォローして良かった。はるかに小さなチームでGPT-5リリースを見た後、XAIの我々をとても誇りに思う。我々は多くの、彼は多くのベンチマークで言いたかったんやと思う、ベンチマークで先行してる。Groq-4世界初の統一モデル。つまり本当に最初の統一モデルで、ARC AGIのようなベンチマークでGPT-5を圧倒してる。

ARC AGI、そう、ワイはGroq-4が本当にそれを支配したと信じてる。それは多くのベンチマークの一つで、再びベンチマークは本当に何を意味するのか？OpenAIは非常に敬意を払う競合他社で、多くの面で依然としてリーダーやけど、我々は速くて容赦ない。今後数週間で共有する多くの新しいモデルがある。

つまりそれは見るのに最高や。もっとモデルが出てくる。そしてGroq-4ローンチからを覚えてるなら、彼らはGroq-4ローンチの一部として複数のバージョンと複数の製品を今後数ヶ月で出す予定やった。せやから時間通りに出るかどうか見てみよう。

価格についての分析

さて、価格について話そう。これはSimon Willisのブログからや。これを見てみ。Claude Opus 4が最も高価で、入力100万あたり15ドル、出力100万あたり75ドルや。ここにGroqが3ドルである。つまりOpus 4から80%のコスト削減や。Groq-4、入力100万あたり3ドル、出力100万あたり15ドル。

そして全部下の方に行くと、GPT-5、入力100万あたり1.25ドル、出力100万あたり10ドル。驚異的な価格や。そしてワイは彼らがここでした最大の革新の一つが価格やったと本当に思う。価格がとても重要やからや。安ければ安いほど、もっと多くの人が使うようになる。もっと多くの人が使えば使うほど、君がエコシステムになる。

コンピューター使用エージェントでの性能

ワイは既にブラウザ制御エージェントの一つの意見を見せた。今別のを見せよう。これはKuaのGPT-5コンピューター使用エージェント用や。同じタスク、同じグラウンディングモデル。ワイらは40を5に交換しただけや。左側で40を見てる。右側で5を見てる。見ての通り、GPT-4oはこれらのコンピューター使用タスクでほとんどの時間失敗してる。右側では、GPT-5が同じテストを全て通過してるのを見てる。つまり、コンピューター使用がはるかに優れてるように見える。

これはOpenAIのAiden McLofflinや。せやから彼が言うことは全て話半分に聞いとけ。GPT高速事実は、ほぼ全ての評価で最先端をヒットしてる。Claude 4 OpusよりもSWEで遥かに優れてる。つまりソフトウェア工学のことやと思う。SWE-benchのことを言いたかったんやと思う。Opusより5倍以上安い。これは信じられないほど重要や。Sonnetより40%以上安い。あらゆるモデルの最高の執筆品質。どうやってそれを本当に決定できるのかよく分からへん。ほぼ完全に意見ベースやからな。そしてはるかにへつらわない。

これはMetaのエンジニアVossや。GPT-5がワイのコードベース全体を1回の呼び出しでリファクタリングした。25回のツール呼び出し、3000行の新しい行、12個の真新しいファイル。まだ興奮すんな。これを聞け。全てをモジュラー化した。モノリスを分解し、スパゲッティをクリーンアップした。何も動作せんかった。でも何て美しかったことか。

これは面白かったと思った。とても面白い、Voss。つまり、大量の作業をして、全てをリファクタリングしたけど、最後に動作せんかった。せやからVossにとってはそんなに良くなかったんかもしれん。

これはSophie Net cap girlや。静かにしろ医者、言語モデルが話してる。これは、これらの言語モデルが医療ユースケースでどれだけ良くなってるかを物語ってる。そして多くの人が医者に行く前にモデルに最初に行って、医者に行った後でも行ってる。おそらく「おい、GPT-5がこう言うた。君は確実か？君は正しいか？」と言ってる。そして医者はおそらくそれを嫌ってる。

これはCarl Yangで、今日永続的下層階級から安全とマークされた。つまりこれが何を意味するかちょっと説明させてくれ。シリコンバレーや一般的にテックで、AGIに到達したら、君が持ってる手段、君が持ってる資本、君がいる社会階級が、基本的に君が動けなくなるところやという考えがかなり人気やねん。効果的に君のレバレッジはAGIのためのコンピュートに支払う資本にのみ等しくなるからや。

そしてワイはサンフランシスコで話した人から本当にこれを聞いたことがある。彼らは「ワイは次の5年間でできるだけお金を稼ぐ必要がある。AGIが来たら、全て終わりやから。せやからワイは5年で1000万ドルを稼ごうとしてる。」とか、彼らが投げ出す狂った数字やったりする。

ワイはこれを本当に全然信じてへん。ワイは未来についてはるかに楽観的や。でもワイは考え方も理解してる。一度AGIがここにあって、人間ができることを本当に何でも達成できるようになったら、それは本当にモデルのためのコンピュートにどれだけ資本を投げ込めるかということになるという考え方を理解してる。つまりとても面白い、Carl、今日永続的下層階級から安全とマーク。

モデル名称の整理

そして古いモデルが非推奨になることについてちょっと悲しいなら、ZeoponがGPT新しいモデル機能に古いモデルを結びつける良い方法を提供してくれた。チェックしてみ。GPT-4oがあって、これは基本的に今GPT-5メイン、4o miniがメインミニ、当然03がGPT-5思考、ミニナノとプロ、再びミニナノとプロ。

つまり全てこれらの名前があった。ある意味また手に入れたけど、それらは全てGPT-5や。ワイはより単純な命名が好きや。つまり君がこれらのモデルの一つを使ってて、同じタイプの機能を得るために今どのモデルを使うべきかについて混乱してたなら、簡単に見ることができる。そこにある。

さらなる反応と評価

Dylan Patel、チャンネルの友人、Semi Analysisの創業者兼CEOは、GPT-5は期待外れやったと言うてる。正直に言って。彼はそれ以上詳しく述べてへん。彼がもうちょっと明確にしてくれるかコメントをチェックしてみよう。

Santiagoが「君はコードすらできるんか、兄弟？Claudeがまだ良いわ」と言うてる。これはワイが聞き続けてることや。実際、ワイはClaude CEOにインタビューしたばかりで、彼はまだClaude 3.5を使ってると言うてる。つまりGPT-5が出た後でも、Claude 4と4が出た後でも、彼はまだClaude 3.5を使ってる。

ReplitのCEO Amjad Msadは、収穫逓減の圧倒的な重みを感じずにはいられない。新しいS曲線が必要や。つまり彼は否定的な側にいる。GPT-5はおそらく失敗やったと思ってる。これが彼の意味やとワイは信じてる。せやから彼はこれらのモデルが段階的にしか良くならないと言うてる。

そしてワイは実際にそれで大丈夫やと思う。必要なのは、モデルの生の知能を取って、その周りに足場、アーキテクチャを構築して、モデル内の信じられない知能を活用することに多くの投資をすることや。こんな風に考えてみ。車なしで1000馬力のエンジンを持ってるようなもんや。それで何ができる？何もできへん。せやから車を造らなあかんし、その馬力を全部タイヤに伝えられるようにして、タイヤが地面をグリップするようにせなあかん。モデルの生の知能をエンジンとして考えて、足場を車として考えることができる。

高馬力を持ってるだけでは十分やない。その馬力を前進の勢いに変換する必要がある。もう少しミームを見てみよう。バックエンド開発者が少なくともあと数ヶ月は仕事があることに気づく。これは面白い。これは永続的下層階級から安全マークの線に沿ったもんや。そして最後はイーロン・マスクのGroq on topで終わろう。

つまり疑問に思ってるなら、これはARC AGI 2リーダーボードや。ここにGPT-5高が10%で、Groq-4思考が16%である。つまりそう、Groq-4はARC AGIベンチマークではまだトップモデルや。でもほぼ他の全てのベンチマークで、GPT-5が今王様や。そして知ってるか？モデル提供者間、主要なAI研究所間のこの全てのハイパー競争は君とワイにとって良いことや。

この動画を楽しんでくれたなら、いいねとチャンネル登録を考えてくれ。