GPT-5の現状

この動画は、GPT-5のリリース後に生じた混乱と問題について詳しく分析したものである。作者は早期アクセス時の体験と一般公開後のユーザー体験の差について検証し、モデル自体の性能は優秀だが、ChatGPTサイトやCursorなどのインターフェースの問題、自動ルーターの不具合、UXの欠陥などが悪い印象を与えたと結論づけている。また、DeepSeekの逆転現象として、過小評価されているモデルの実態についても言及している。

The current state of gpt-5

The GPT-5 launch did uh, not go well. The reasons why are a lot more complex then you might think, and we need to talk a...

GPT-5について正直に話そうか
早期アクセス時の詳細
同一モデルの証明
実際のモデル性能
モデルの使用感について
GPT-5の真の問題
ユーザーエクスペリエンスの問題
T3 Chatでの成功
根本的な問題の分析
Cursorでの問題
実際の使用体験
モデルの本当の能力
他モデルとの比較
DefconでのGPT-5使用例
Claude vs GPT-5の決定的違い
モデル比較の総括
ChatGPT使用時の発見
まとめと今後の展望

GPT-5について正直に話そうか

正直な話、この動画をどうやって始めたらええかわからんねん。GPT-5についてまだ話すべきなんかどうかもわからんけど、めちゃくちゃ質問が来とるから答えんとあかん。この数週間、何が悪かったんか、どうやって直せるんかを考えてきてん。あの最初の数週間、GPT-5の早期アクセスがあった時の体験をもう一回味わいたかってんけどな。

このモデルは本当にすごいねん。今でも毎日の仕事で使ってるモデルや。でも完璧やないし、他のモデルが無意味やいう意味でもない。そして確実に言えるのは、前にテストしてた時ほど良くないいうことや。でもその理由は、みんなが思てるより複雑やねん。

俺が特別なチェックポイントを使ってたんか？カスタムツールか特別にブーストされたChatGPTにアクセスしてたんか？実はずっとGPT-5 Proを使わされてたんか？いろんな質問と推測があってな。俺はこの全部について真実を探ろうとしたし、何が悪かったんかを分析もしてきた。

Less Wrongからすごいブログポストも見つけてん。「逆DeepSeek現象」っていうやつや。何が悪かったんか、なんで印象が悪いんか、そしてこの魔法みたいに良いモデルがどこかオンラインに隠れてるんかについて話したいことがぎょうさんある。

早期アクセス時の詳細

透明性を保つために、早期テスト時に何を使ってたかを見せるで。テスト時の大部分は、この特定のスナップショット「GPT-5 reasoning alpha new reasoning effort 2025725」でやってた。でも、スラッグに「CIS prompt」が入った少し違うバージョンもあってん。

なんでCIS promptが入ってたかいうと、これがOpenAIがCursor専用に書いた特別なシステムプロンプト付きのバージョンやったからや。CursorとOpenAIの間でめちゃくちゃ複雑なコラボがあってん。一方でモデルがCursorで上手く動くようにせなあかんかったし、もう一方でGPT-5がCursorで使えることを明かしたらあかんかった。

俺はOpenAI APIキーを持参せなあかんかった。OpenAI APIキーを有効にした時だけ、アクセス権のあるGPT-5モデルにアクセスできてん。reasoning alpha new reasoningバージョンは、API経由で使うことを推奨された一般的なGPT-5やった。でもCursorで作業する時は、このイメージを使うように言われてた。

明確にしとくと、これらは全く同じモデルや。違いは、このAPIエンドポイントに特定の動作を強制するシステムプロンプトが挿入されてたことだけや。GPT-5エンドポイントはtemperatureみたいなパラメータを多く受け付けへんかった。

同一モデルの証明

この特別なスラッグが存在した理由は、CursorとOpenAIの間でものを実装するために行き来があったからや。OpenAIがまだ公式にリリースしてない新しいモデルのために複数の難読化レイヤーを持ってて、Cursorがそれを見せることなくそのモデルが上手く動くように機能を実装せなあかん状況やった。

いろんな部分がいろんな場所に押し込まれてた。システムプロンプトを修正するためにGPT-5エンドポイントに押し込まれた部分もあったし、カスタムプレフィックス付きでエディタに押し込まれた部分もあった。

面白い瞬間があってん。リークするのが怖すぎて、「nectarine alpha new reasoning effort 0725」っていう違うバージョンにアクセスしたかったんや。これとこれは全く同じモデル、全く同じエンドポイントで、ただ同じものを指す違う文字列やった。

Cursorでnectarineバージョンを使いたかったのは、GPT-5を使ってることを隠して、配信中に accidentally リークする可能性を下げたかったからや。でもできへんかった理由がめちゃくちゃ面白い。

Cursorでは、モデルを選ぶ時に小さな脳のアイコンがあるやろ？あれはmax modeを使ってるからで、モデルが何ができるかをCursorが知ってるっていうCursorの機能や。nectarineを入れたら、それがなくなる。だからCursorでは全然使えへんかった。

実際のモデル性能

ここからがめちゃくちゃ面白いとこや。これら全部と全く同じモデルがもう一個ある。これがリリースされた正確なスナップショットや。OpenAIが嘘をつく理由はないし、外部的にも可能な限り検証してきた。OpenAIがGPT-5 reasoning effortバージョンを俺のために再開してくれたからな。

この一週間、このエンドポイントと標準GPT-5を徹底的にテストしてきた。ほぼ同じように動作するねん。最初は混乱してたけど、多くの人が想定してることがあってな。俺がこれを使ってた時、明らかにGPT-5 high fastの同等品やと思ってた。当然、OpenAIは俺らに最も賢いバージョンを使わせてるはずやと。

でも違った。これがOpenAIと話すことで学んだ面白いことやけど、これは標準GPT-5の同等品や。fastバージョンじゃない。全く異なるキューにいたからeffectively fastバージョンやったけど、more importantly、highバージョンじゃない。

テスト期間中、high reasoning effort、high juiceバージョンのGPT-5は一度も使ってへん。GPT-5 Highを初めて試したのは、GPT-5が出た日やった。

モデルの使用感について

Grok-4について話そう。みんな俺のGrok-4の動画を見たやろうし、ベンチマークも見たやろう。これまで作られた最も賢いモデルの一つや。ほぼすべてのベンチマークで他のほとんどすべてを上回ってる。明らかに最も賢いモデルの一つやのに、俺は全く使わへん。

めっちゃ高いからだけやない。めっちゃ遅いからだけでもない。それらだけでも十分な理由やけど、Grok-4を使わん主な理由は、一緒に仕事するのがしんどいからや。

何でもかんでも200IQでやろうとするねん。基本的なことを考えすぎるのが好きや。「このスケートボードトリックは何？」って聞いたら、他のモデルが15トークンでやることを文字通り10,000トークン生成するねん。

めちゃくちゃ賢いっていう事実が、ほぼ欠点として働いてるねん。何でも200IQで考えようとして、すべてを考えすぎて、実際にトレーニングされたはずのツール呼び出しをするまでに永遠にかかる。そして、ツール呼び出しでトレーニングされたから、いつもそれらを幻覚するねん。

GPT-5の真の問題

これがGPT-5で今起こってることと似てるねん。モデルが他のモデルとは非常に異なって動作するから。変で癖があるって意味やない。正直、他のモデルより癖はかなり少ない。

言われたことをする。ほとんどの場合な。だからこそ、モデルをサンドボックス化して、触ったらあかんものに触らないようにして、適切なツールで慎重に導くために作られたツールの多くが、GPT-5では上手く動かへん。

既存のツールの多くは、GPT-5にプラグインした時にあんまり良くなかった。これの一部は新しいharmony response format標準のせいや。一部はすべてをClaudeが欲しがることを中心に構築したからや。そして一部は単純に無能さと変さと、GPT-5が一緒に仕事するのに変なモデルやからや。

ユーザーエクスペリエンスの問題

でも多くの人がCursorを使わへんでもGPT-5で本当に悪い体験をした。これがモデルやとしよう。良いか悪いか、他に何かはわからへん。ただこの存在するものがある。どうやって使う？

APIを直接叩いて反応を得ることもできるけど、厳しい現実は、ほとんど誰もそれをやらへんことや。ほとんどの人がGPT-5を体験する方法は、別のレイヤーを通してや。それらのレイヤーは、みんながよく知ってるものかもしれん。ChatGPT.comとか、T3 Chatとか、AIコードツール、俺らのほとんどが使うCursorとかな。

誰かが新しいモデルがドロップされるのを見た時、APIを叩きに急いでベンチマークを実行したりせえへん。それは俺みたいなオタクがやることや。そして俺らがそれをやった時、本当に印象的やった。

GPT-5は今でも、俺が早期にテストしてた時と全く同じようにベンチマークを取るねん。違いは、俺が事前にテストしてる時は、何でも投げて、どう動作するか見て、どう振る舞うか見てた。そしてChatGPT.comとCursorの両方を、出てきた時とは違う状態で使ってた。

俺がテストしてた時、これらの部分はまだ非常に初期やった。自動ルーターを理解しようとしてた。正直、ChatGPT.comでのGPT-5の少しのテストはあんまり良くなかった。すぐに使うのをやめた。でもCursorでの体験はかなり良かった。

T3 Chatでの成功

だから俺のGPT-5を使った時間のほとんどは、ベンチマークとテストのためのエンドポイントを叩くことと、Cursorで使うことやった。T3 Chatsにプラグインせえへんかった。早期アクセスを持ってることをリークしたくなかったからな。

だからほぼ完全にコーディングとエージェント作業とベンチマークツールのためにこれを使ってた。日常のチャットモデルとしては使ってへんかった。ChatGPT.comに行って難しい質問をして、時々驚くほどまともな答えをもらったりしたけど、Canvasを使った時はいつも全部崩壊した。

それらのほとんどは修正されたらしい。俺はウェブサイトで良い体験をしてへんかった。全体的に、ChatGPTサイトがちょっとゴミやからっていう部分もある。自動ルーターが変やからっていう部分もある。ウェブサイトでデフォルトバージョンとしてreasoning modelがなかったからっていう部分もある。

いろんな理由があるけど、俺はこっち側で非常に良い体験をしてた。そして今、T3 Chatに出荷してから、多くの人がT3 Chatで試すまでモデルがどれだけ良いかに気づかなかったと言ってる。俺らは全然制限してないし、自動ルーターもない。

根本的な問題の分析

チェーンの強さは最も弱いリンクと同じやっていう、時代で最もクラシックな設定の一つや。GPT-5モデルがどれだけ良くても、人々がアクセスするレイヤーがゴミやったら意味ないねん。

そして、これがGPT-5のロールアウトがこんなにひどかった理由やと思う。実際にはGPT-5モデル自体とはあまり関係なかったと思う。このロールアウトをひどくしたものの大部分は、ChatGPTサイトが絶対的にクソゴミやったことと、自動ルーターがひどい体験やったことやと思う。

彼らも最初の数日間、自動ルーターが失敗して、すべてのリクエストをスコープダウンされたreasoning freeバージョンに送って、結果的にクソな答えを得てたって認めてる。そして、それは俺が人々の投稿で見てたこととも一致してる。特にT3 chatと比較して、俺らはAPIを直接叩いてたからな。

これは新しいモデルについてのAMAでSam AltmanがRedditに投稿したもんや。GPT-5は今日からより賢く見えるやろう。昨日、俺らはSEVを持ってた。これは停止、インシデントや。そして自動スイッチャーが一日の大部分で動作してへんかった。結果として、GPT-5がめちゃくちゃ馬鹿に見えた。

俺はそれ以上やったと思う。彼らがそれがどれだけ悪いパフォーマンスをしてるかに気づいて修正しようとしたから故障したんやと思う。そしてそれが、試そうとする多くの人にとって悪い体験をもたらした。

Cursorでの問題

そして、君がこれを通って行くやろう人が、なぜほとんどの人がモデルが悪いと想定するかについて、俺は完全に同情できる。みんながこのモデルがいかに信じられなくて魔法的かについて話してるのを見る。新しいモデルについてのローンチビデオで彼らを見る。自分で試しに行く。

だからChatGPT.comに行って試して、strawberryの質問を間違える。strawberryにいくつのRがあるか聞いて、それが間違ってて、笑って、みんながそこで良いって言ってるからCursorで試しに行く。

そしてそこで試すと、めちゃくちゃロックアップして、5分後にクソな答えをくれる。みんながこれらのことを誇大宣伝してる、彼らはそれをするために金をもらったって決めて、それで人生を続ける。それは俺にとって完全に理にかなってる。なぜなら、これらのシナリオのどれでも実際にはモデルをテストしてへんからや。ChatGPT.com実装をテストして、Cursorがすべてのツール、システムプロンプト、カスタムすべて、そしてUIを通してすべてをどう露出させたかをテストしてるねん。

そして、CursorがGPT-5を実装する方法はフラストレーティングや。少なくともそう言うで。俺が使う時に定期的に遭遇する問題や。

実際の使用体験

GPT-5 reasoning new reasoning effortバージョンと標準GPT-5の比較をしてた。反応の質と出力は基本的に同じやったけど、両方で起こるバグがあった。最初は、メインGPT-5だけやと思ったけど、両方で起こる。

これはまだ終わってない。バグは、それがまだ続いてて、stopボタンが見えてる時、それが動いてる、ここでファイルを生成してる。ファイルを編集するツール呼び出しを書いてるけど、CursorはこれをUIのどこにも示さへん。

だから、フリーズしたように感じるねん。UXのこれらの小さな詳細が、GPT-5を使った体験を大幅に悪く感じさせる結果になってる。実際にモデルを使うことが悪く感じる。そして俺は今でもそれを感じてる。GPT-5を使おうとする時、非常に、非常にフラストレーティングや。

定期的に「あ、フリーズしたに違いない」って思って、それからstopボタンがまだそこにあることを見て、「あ、フリーズしてない。彼らはそれがこのスポットにある時のUIステートを持ってないだけや」って気づく。

モデルの本当の能力

でも厳しい現実は、モデルが本当に良いっていうことや。この一週間でテストに費やしたすべての時間を通して学んだことがあるとすれば、モデルが実際にめちゃくちゃ信じられないっていうことや。論争的やって知ってる。人々は俺を有料の工作員とか呼ぶやろう。ChatGPT.comをめちゃくちゃ叩いた後、俺がこれに対して一銭ももらってないことをみんなが理解してくれることを願う。

GPT-5モデルは様々なことでとても良い。Opusより難しいコード問題でめちゃくちゃ賢いわけやない。変な道筋に行くことが少ない。UIデザインがめちゃくちゃ良い。俺は今、たくさんの比較をしてきた。これまでで最高のUIモデルや。Tailwindをより良くする。グラデーションをもっと上品にする。

UIタスクを与えた時、俺が今まで使った他のどのモデルよりも、Horizonモデル以外では、見た目と感触が大幅に良いものを作る。この時点で、俺はHorizonモデルがGPT-5の非推論バージョンやとかなり確信してる。

そして俺がこれに対して持ってる最も面白いシグナルの一つは、俺が話してるCursorの人たちみんなが、まだ日常のドライバーとしてGPT-5を使ってることや。俺が知る限り、Cursorチーム全体が、まだGPT-5にオールインしてる。

俺が今修正してくれることを願ってるこれらのUX失敗があってもな、彼らはこのモデルを好んでる。Cursorの友達と話してて、「よ、俺がCursorでGPT-5を使ってて持ってる問題のリストがここにある。これは本当にフラストレーティングや」って言った時、面白かった。

他モデルとの比較

俺が覚えてるEricからの最初の反応は、「これはクレイジーや。なぜならGPT-5はまだ俺が毎日選ぶモデルやから。Sonnetよりめちゃくちゃ良く感じる」やった。そして考えて、彼が正しいって気づいた。俺はもうSonnetやOpusを使うのが好きやない。

エディタでのUXは少し良い。だから、ツール呼び出しのやり方、to-doリストをスピンアップする方法、タスクを通って完了する方法。Sonnetは絶対にワークホースやし、いろんなものに上手く組み込まれてる。ほぼすべてのエージェント作業に使われるモデルやっていう理由がある。でもGPT-5の方が良い。

テスト以外、GPT-5と比較したりツール呼び出しがどうやってるかを見るため以外では、Claudeモデルに戻ったことがない。

そして俺がやってることの他に、俺はこれをめちゃくちゃやってる。GPT-5が答えられない問題があった時はいつも、Opusで試しに行く。そして俺にとって、GPT-5が答えられなかったものに、Opusが近くにも来た時が一回もない。それは面白い。

DefconでのGPT-5使用例

GPT-5がドロップした時、俺はDefconのためにラスベガスにいた。俺がDefconに行く理由は、俺が中毒になってるGold Bugっていう特定の一連のチャレンジや。詳しくは入らへん。去年のビデオを見てくれ。

TLDDRで言うと、様々な方法で解ける一連のパズルがあって、それぞれで12文字のフレーズを見つけなあかん。大部分、実際全部やと思うけど、この特定の年は海賊テーマやった。

俺が最も時間を費やしたパズルは「smugglers manifest」やった。このPDFは上に「we know they smuggled the emerald out of the port, but how?」って書いてある。いろんな港に出入りしたアイテムの出荷ログのつもりで、どこから来て、どこに行って、どれだけ重くて、アイテムの説明が書いてある。

期待は、俺らがこれを通って隠れたコードをどこかで見つけることや。解決方法は、横にあるこれらのIDがADFGX暗号やって気づかなあかん。底にヒントがあるから。「all the trade the Germans intercepted」。第一次世界大戦でドイツ人がこの特定の悪い暗号を使ってた。

そして、エメラルドが異なるものの間で取った道を見つけなあかん。すべてのIDを結合する。それから、転置して正しい答えを希望的に生成するために使えるキーワードを見つけなあかん。

これは特にカオスやった。道を見つけるのがカオスやった。そして俺は、エメラルドが隠れてる可能性が高い場所やった重量の不一致をすべて見つけようとしてた。

一つの例は、泡のライニングが付いた小さな彫刻された箱が2.5オンスのはずやけど、2.6の重さがあるここや。これは2.5って言ってそれが2.5やった他の2回出てくる。でもこの特定の場所では、2.5って言ってて実際は2.6や。だから、それは不一致や。

バナナの葉に包まれたような他の怪しいものもある。それが何かは言わへん。ただバナナの葉に包まれたって言って、7.2の重さがある。明らかに、2.5 2.5オンスやろ？クール。

俺は、ものがどれだけ重いかをGoogle検索するのに疲れてて、いろいろやってた。だからこれをGPTに投げた。「マニフェストでどのアイテムが重量と合わへんか？」

ここで、これら3つのIDは箱が2.5オンスって言ってると呼び出した。それらのほとんどは2.5の重さやけど、ここで listed weightsがpoundsみたいに読めるけど、説明は2.5オンスって言ってるって言った。最高の反応やないけど、ここでpoundsみたいに読めるって言ったけど、説明は2.5オンスって言ってる。うっとうしい。

俺はクソClaude Opusに、2.5オンスが2.5ポンドやない以外の何かをするのを得られへんかった。ここで、2.5オンスは0.156で、2.6やない。2.5オンスは2.5ポンドやない。この点を主張した。

Claude vs GPT-5の決定的違い

これらの不一致は、データ入力エラーか重量の意図的な偽造を示唆する、可能性として禁制品を隠すために。重量がオンスで、ポンドやないと想定される。なんで他に想定するんかわからへん。君は絶対に正しい。俺は死にたい。全然役に立たへん。

これは俺のOpusでの体験や。GPTからの答えに満足してへん。GPT-5を試して、満足するものを得られへん。戻ってClaudeに聞いて、ちなみに、ここには表示されへんと思うけど、この生成の間に、thinking budgetが切れて、続けさせるためにcontinueを打てって聞いてきた。

俺はOpusからこれらのパズルのために有用な情報を得ようとめちゃくちゃ頑張ったけど、全然助けになれへん。これは俺がT3 chatで様々なモデルを使って遊んでるところや。これはClaude Sonnet reasoningやったと思う。それはそれで2.5と2.6が合わへんことを理解するのが良かった。公正に言うと、俺はPDFを与えへんかった。代わりにJSONダンプを与えた。

でもここでのもっと面白いことは、それがすべてを理解した後、残りを幻覚したことや。IDが暗号やっていう事実を無視して、アイテムの一つが秘密やったって結論づけた。だから答えは「secret locket」に違いないって。ただ答えを幻覚した。

これはたぶん俺の好きな違いや。ChatGPTは考えたもので俺を助けてくれる。ChatGPTがADFGX暗号を見ろって教えてくれた。ChatGPTが特定の映画「Romancing the Stone」に基づいてるって教えてくれた。ChatGPTが断片を理解するのを助けてくれた。答えをくれようとは決してせえへんかった。答えを計算するコードを生成しようとして、毎回失敗した。

でも少なくとも、物事を理解するのに必要な断片をくれた。Anthropicは明らかなことを言って、それから答えを幻覚する。ほぼ毎回、俺がこれを助けるためにクソAnthropic modelを試した時、妄想的に答えをでっち上げてた。もっと良いのは、彼らのウェブサイトを通してやった時、コードを書いて、実行して、答えを得られへんで、嘘をついて、それから答えを幻覚することや。

だからここで、隠れてるものを解読しようとするコードを実行するインタラクティブなアーティファクトを作った。だから俺がそれに、これはADFGX暗号やって言ってるところや。この映画を参照してる。他に何でもない12文字の文字列。これを解くコードを書いてくれ。

JavaScriptを作って、怪しいアイテムを呼び出した。本当に面白いのは、ホール・アペンデントが答えやなかったことや。なぜなら、エメラルドはそれがそんなに軽く重量を量るには重すぎるからや。

そしてADFGX暗号コードをやった後、コードを実行せえへんかった。ただ潜在的な答えの束を考え出した。文脈を考えると最も可能性の高い答えはおそらく「emerald stone」や。いや、そうやなかった。

これは俺のClaudeを使った体験や。ほぼ半分正しい道を歩み始めて、それから地獄への幻覚をする。

対照的に、これは俺が認めるところ違うパズルをChatGPTサイトのChatGPTに渡してるところや。Proを使ってた。ただ好奇心やったから。この時点まで、Proを全然使ってへんかった。

15分間推論して、かなりハムった。たくさんのコードを書いた。パズルを解こうとベストを尽くしたけど、コードを実行した後、ナンセンステキストを得て、それが解決策やないって気づいた。でもまた、これをランダムにやる。

ただ「thought」って言って、それからやってた作業を終えへん。これが重要な違いや。観察をくれる。ボトルが逆の順序で番号付けされてる。なぜなら、ページをスキャンするからや。shantyパターンが3回の飲み物前進、4杯を繰り返す、可能性として4番目のボトルごとに取って、ラインアップで3ボトル前進する。

理論がある。可能性のあるメカニズム。これはJosephus問題にめちゃくちゃ似てる感じがする。与えられたボトルから始めて、3ステップ前にスキップする。本当に有用な情報をくれた。そして答えを幻覚する代わりに、問題を解こうとするJSコードを書くことを申し出た。

そして明確にするために、これらのどちらも答えへんかった。でも俺はそれがもっと興味深くするものやとほぼ思う。どちらも答えを知らへんかった。なぜなら、これは新しくてめちゃくちゃ難しい問題やから。

ChatGPTとGPT-5は、それに向かって作業するための有用な断片をくれる、クソを作りあげへんで、提案する理論を進めるべきかどうか俺に聞く。一方でClaudeは、少し正しくなり始めて、俺が与えた文脈を素早く無視して、絶対にカオスな道に行って、たくさんのコードを書いて、コードを使わへんで、それから答えを幻覚する。これは俺の体験や。

モデル比較の総括

だから確実に、Claudeモデルが何かでもっと良いと思う。俺はまだ、personality的にもっと良いと思う。モデルと個人的な問題について話そうとしてる場合、そんなことすべきやないけど、正直言って、俺らみんな時々やる。恋愛のトラブルとかクソについて話すのに、Anthropicモデルの方が話しやすいと思う。

ChatGPTモデルは実際に俺のために仕事を成し遂げる。そしてもう一度、明確にするために、それは前はそうやなかった。俺にとってその方法で仕事に有用やったOpenAIモデルは他になかった。

そして非常に非常に明確にするために、これは俺が以前のOpenAIモデルについて感じてた方法やない。ツール呼び出しが十分良くなかった。段階的に物事をするのが十分良くなかった。正しく見える答えを考え出すのは良かった。でもこのもっと意図的な行動は、俺がGPT-5で非常に新しくて非常に良いと思うものや。

そしてそれでも、ChatGPTサイトはちょっとうっとうしかった。俺は主に、賢いモデルから自動的に外されて、より馬鹿なバージョンに向かわされるのを避けるためにProを選んでた。

ChatGPT使用時の発見

俺がこの一連のパズルをやってる時に、ChatGPTサイトでめちゃくちゃたくさんのバグを見つけた。めちゃくちゃ面白かった。異なるモデルと異なるエンドポイントといろんな異なることをテストする一般的に良い方法でもあった。

俺はたぶん、これらのチャレンジを通してCursorで5,000行のコードを書いた。これらのパズルの一つで、俺らは単一の金貨にたくさんの時間を費やした。デフォルトで本当にジャンクな3JSビューワーを持ってた。本当にジャンク。そして見やすくするために書き直した。

俺の書き直されたバージョンは、俺はReact 3 fiberと3JSの周りの俺の方法を知ってる。使う必要があるすべての特定のカメラテクニックとかクソを覚えてへん。だから俺は、この方向に行け、これらの変更をしろ、これに触るな、大丈夫や、みたいな基本的なプロンプトでたくさんをバイブコーディングした。

そして20-30分のバイブコーディングの後、見た目と動作がかなりめちゃくちゃ良いものを作ることができた。俺は実際にこれがどう出てきたかにめちゃくちゃ満足してる。特に、もうリンクを持ってへんオリジナルと比較して。でも彼らは俺のをめちゃくちゃ気に入ったから、今それが公式のものや。

CryptoVillageサイトでリンクをクリックした時、俺の解決策に連れて行く。本当に解決策やない。新しいビューワーやけど、俺はその事実を本当に誇りに思ってたし、他の問題を並行して解いてる間に、GPT-5でそれを20分でバイブコーディングできたことも。

まとめと今後の展望

俺がこのすべてを持ち出すのは、モデルをテストする究極の方法がDefconで本当に曖昧なパズルをやることやからやない。俺が新しいモデルを他の人が説明してるのとどれだけ違うかについての俺の生きた体験を紹介しようとしてるからや。

そしてもう一度、明確にするために、これらのシナリオのどれでも問題を解かへんかった。でも答えに向かうのをめちゃくちゃ助けた。そしてそれは俺が前に持ってた体験やない。モデルがその方法で同僚みたいに感じたことは決してなかった。

俺がペアリングしてる時、コードを書いてる人と行き来してて、俺らの誰も正しくない回数を言えへん。俺らの誰も解決策を知らへんけど、解決策が出てくるまでお互いに反復してる。そしてこのモデルはそれができる。

俺はこの記事にまだ触れてさえへん。でも俺は興味あるから素早く通りたい。他の人がどう感じるか見て興奮してる。

みんなGPT-5のリリースがしくじられたって同意してる。みんなも、4.0と03から5への直接ジャンプが、GPT-3からGPT-4へのジャンプの同様のサイズやなかったって同意できる。03からGPT-5については同意する。でも4.0から5については、俺は激しく、激しく同意せえへん。

GPT-4.0はゴミモデルやったし、今それが効果的に死んでることを俺はめちゃくちゃ嬉しく思ってる。GPT-5は少なくとも3つの異なるモデルのリリースを表した。5 fast、5 thinking、5 Pro。そしてこれらの少なくとも2つ、または可能性として3つ全部が、GPT-5 autoと一緒に、それらのクラス内で最先端や。

公正に言うと、GPT-5 autoはAPIでは存在せえへん。アプリでだけや。俺はそれを何かでそんなに測らへん。

問題は、リリースがめちゃくちゃしくじられたから、OpenAIが今「逆DeepSeek現象」を体験してることや。俺らがR1に過剰反応させるすべての力が、今OpenAIに対して逆に働いてる。これは、DCとその重要な意思決定者にAI進歩の欠如、特にAGIに向けた進歩についての誤った印象を与えると脅迫してて、それは非常に悪い決定につながる可能性がある。

1月にDeepSeekからR1が出た時、みんなが中国が追いついたってパニックになったDeepSeek現象があった。R1は良いモデルやったけど、普通の良いモデルにすぎず、フロンティアから大幅に遅れてた。

俺らがDeepSeek現象を持ったのは、人々を誤解させた要因の合流のためや。600万ドルのモデル物語がコストについて誤った印象を与えた。思考連鎖が見える良いクリーンなアプリを提供した。えー、助けたけど、人々が思うほどやない。

新しいスタイルがモデル品質の過大評価を引き起こした。それには同意する。俺はまだV3がR1よりも良かったと思う。タイミングが完璧やった。モデルリリースの順序とテックツリー内の両方で。そう、sustingと他のステップがスキップされて、様々な欠陥を残したし、これは純粋な高速フォローやったけど、俺らの急いで、誰もそのどれも考慮に入れへんかった。

中国の勢いについての物語での勢いの誤った印象があった。「オープンモデルが勝つ」ことへの常に主張することが確実にそれを増幅させた。そして株式市場は状況認識を激しく欠いてて、突然様々な既知の事実に気づいて、多くの重要な要因も誤解してた。

今、5は逆を持ってる。スケールアップコンピュートする方法で評価されてるけど、そうやない。GPT-5は確実に作るのにたくさんの金がかかったけど、必ずしも大幅により多くかかったわけやない。

レート制限と失われたモデルと欠落機能で悪い初期体験を提供した。壊れたルーター。4.0を失うことについての苦情。そう。

新しいスタイルと、5 thinkingを評価すべき時に5を評価してる人々が、モデル品質の過小評価を引き起こした。もう一度、ウェブアプリが彼らをめちゃくちゃ傷つけた。

タイミングは、Anthropicの直後やったし、以前のリリースがすでにテックツリーの最も印象的な最近の部分を食べてた。だから利得が誤って小さく見える。特に、推論モデルからの利得と4から4への利得が、4から5への跳躍を考える時に無視されてる。そう。

GPT-5は効率のために最適化された以前のモデルの洗練やし、新しい領域を破ってて、それが考慮に入れられてへん。俺はここで特に同意する。GPT-5がすごいのは、めちゃくちゃ賢いからやない。他のモデルからたくさんのクソを洗練して、めちゃくちゃもっと良く振る舞うからや。

勢いの喪失についての物語での誇大宣伝のポールの印象。そう。OpenAIの弱々しい群衆と株式市場は賢くてそれを軽くあしらった。

R1と違って、5 Thinkingと5 Proは明らかに彼らのクラスの現在の最先端モデルや。そして5 Autoはおそらく、それが使うコンピュートのレベルで最先端や。彼らがコンピュート使用を隠してるから俺らは知らへんけど、そう。

OpenAIのモデル使用は5のリリース後に下がらへんで、上がった。リリースはしくじられたけど、これは非常に明らかに良いモデルのセットや。

明らかに、DCはそれが失敗やって想定してて、AGIがもはや心配やないって。AIポリシーの友達として俺に先週について尋ねる、AIをほとんど使わへんたくさんの人々。俺は5が失敗やったとは思わへん。

人は、規制上の考慮のために仕事ABC でLMYを使うことを許可されてへんって教えてくれる。だから家でLMZを使う。なぜなら、それが最初に使い始めたものやし、違うものでの経験があんまりないから。

だから他のラボが5を上回るモデルをリリースした時、何が起こる？物語は素早く「AIが壁にぶつかってる」から「OpenAIは天の委任を失って、今これらの他の場所の一つに移った」に変わることができる。

誰か他の人がモデルをドロップするのは非常に価値ある時や。絶対的に。新しいモデルが5よりわずかに悪いパフォーマンスでも、次のモデルドロップが得ようとしてる肯定的なプレスの量は狂気になるやろう。

俺らが実際にAGIに近づいてるかもしれんと俺を思わせることは、俺はその用語が好きやない、その表現が好きやない、これについて話すことさえ好きやないけど、これは俺が考えるベンチや。

これは、LLMが50%以上の失敗率を持つ前にどれだけ長く働けるかや。そしてGPT-5は、50%以上の失敗率を叩き始める前に2時間以上続けることができる。それは非常に印象的や。

それが今変わってることは、50%の失敗率にぶつかって人間が入ってきて再び正しい方向に導かなあかん前に、どれだけ長く働けるかや。GPT-5は画期的に高い数字をここで叩いた。

これは多くの点で、俺らが分野として作ってる実際の進歩を示すチャートや。どれだけ賢いか、100%にどれだけ近づけるかのベンチマークやない。Geminiはどこ？ここで、それは俺にとって一致する。

Gemini 2.5 Proは長時間非常によく動作せえへん。めちゃくちゃ速いのも、ここでの数字を傷つける。なぜなら、トークンをより速く生成するから。失敗するまでにどれだけのトークンを生成できるかを測るなら、2.5 Proはおそらくめちゃくちゃもっと良く見えるやろう。

でもどれだけ長く独立して働けるか？それが質問や。そして他の愚かなこんなすてきなもの。GPT-5は他のモデルがそれをやる時の33%のステップでポケモンレッドを完了することができた。03がポケモンレッドを完了するのに18,000ステップかかった。GPT-5は6,500でやった。

実際の仕事が魔法のことや。そしてこれはFingerからのかなり良い質問や。俺は時間のことがわからへん。なんで重要？ただもっとデータで、必ずしももっと賢いわけやない。

これがめちゃくちゃ重要なのは、どれだけの仕事を成し遂げられるかやから。2人のエンジニアがいて、お互いとほぼ同じくらい知的やと想像してみ。一人は50%の確率でクソする前に15分働ける。もう一人は50%の確率でクソする前に2時間半働ける。

そのエンジニアの一人は大幅により良いエンジニアや。彼らが同じ知性やとか、テストを与えたら同じ数の答えを正しく得るかは関係ない。より長く独立して働けるものが明らかにより良いエンジニアや。

そして彼らが横に持ってる例もたくさん理にかなってる。これらのより短期間のモデルでは、ウェブで情報を見つけることができる。1時間動作できるものでは、今は分類器を訓練するみたいなことができる。

もっと得るにつれて、今は背後でエージェント的に小さなPythonライブラリのバグを修正できるやろう。これはcloud codeとかが入ってくるところや。1時間30分のマークを破ると、今はアンチボット保護があるウェブサイトからレコードをスクレイプして、データを集めて、それで物事をすることができる。

2時間のマークを破ると、ライブラリを悪用し始めることができる。ランダムなlibにバッファオーバーフローがある場合、モデルにそれを教えて、2時間以上自分で実験して物事を理解することができる。

それが違いや。誰がもっと賢いかあまり賢くないかは関係ない。10分間しか働けない本当に賢い人と、3時間働ける結構賢い人。それが鍵や。

人間のためのタスク期間やって明確にするために。でもこれは、どれだけ長く独立して働けるかや。AIができるタスクの長さは7ヶ月ごとに倍増してる。これが魔法のチャートや。俺らがここで特に作ってる進歩はナッツや。

このようなチャートと比較した時、あんまり印象的に見えへん。あ、Gemini 2.5 Proがこのベンチマークのセットで本当に良いスコアをした。GPT-5 highはそんなに高くない。あ、俺らは停滞してるんやと思う。そんなに簡単やない。

あ、これらすべて異なるリンクや。めちゃくちゃ面白い。これらはすべて俺らがGPTで壁にぶつかってることについてのリンクで、めちゃくちゃ馬鹿や。バイブが良くないから、モデルが悪いって文句を言う人々。

「人々は完全に新しい何かを期待してた」とHugging Faceの共同創設者兼チーフサイエンティストのThomas Wolfは言った。「そしてここで俺らはそれを持たへんかった。」確かに、俺らは完全に新しい何かを得へんかった。でももう一度、それは OpenAIがロールアウトをしくじって、GPT-5の名前を使って、4.0.13みたいな4以来多くの漸進的リリースをしたからや。

彼らはクラシックなノートを叩いた。この記事全体は本当に良い。全部読むことを推奨するけど、この部分は特に重要や。

OpenAIは自分自身を本質的に複数の会社やと正しく考えてる。彼らはAIフロンティア研究ラボやけど、消費者製品会社でもあるし、企業または専門製品会社でもある。この時点で、ハードウェア会社になることも見てる。

顧客のほとんどは0ドル払いたがってる。少なくとも自分自身を不可欠にするまで。残りのほとんどは月20ドルまで払う意思があって、もっと払うことに興味ない。

KleenexやGoogleレベルの支配でこの消費者市場をコントロールし続けたいし、利益を上げたい。だから彼らは、可能な限り最も賢いものの代わりに、autoモデルとauto routerを価格に対して安くて賢くすることを優先してる。

OpenAIの意図やなかったかもしれんけど、GPT-5のローンチで明確にしてることは、AI競争の性質が変わったことや。単により大きな光るモデルを構築するのではなく、研究者はAI企業が製品のためのインフラを構築してるっていう事実とゆっくり折り合いをつけてると言った。そう、これが重要や。

Grockについて俺がクソを話すことで俺に怒ってたみんな、それは彼らがこの部分をやってへんからや。俺らが周りに構築するための有用なツールを構築してへん。

俺が言おうとしてることは、たぶん俺のビジネスで俺を傷つけるやろう。チャットアプリモデルでの革新の余地はそんなにあらへん。めちゃくちゃ賢くなることは、T3 chatやChatGPT.comで持つ体験を意味のある形で改善せえへん。

それらはもうめちゃくちゃ良い。多分、難しい質問をわずかにもっと頻繁に正しく答えるかもしれんけど、それは大きな改善やない。

変わってることは、これらのモデルがどれだけ複雑なタスクと、どれだけ長いタスクを自分自身で完了できるかや。それは巨大な変化やし、ランダムなチャットアプリでは見えへんものや。

そして、ありがたいことに、たくさんの会社がこれに気づいてて、インフラ側でもっともっと働いてる。Googleは、チャットアプリでも、もっと重要にはAPI経由でも、モデルにリンクを渡す能力をちょうど出した。そして、ウェブページに行って、スキャンして、コンテキストに持ち込んで、使うことができるやろう。

それはすごい。それはインフラや。それは俺らがこれらのツールを使って構築する時に持つ問題への解決策や。本当の戦線になるやろうのは、モデルと残りのクソ世界の間のレイヤーや。

AIがたくさんの有用な方法で適用されるにつれて、人々がAGIみたいなもっと抽象的なアイデアよりもアプリケーションにもっと焦点を当てるやろうことは理にかなってる。

この記事には、正直いつか俺自身のビデオになるかもしれん重要なポイントがある。今はそれについてあんまりしつこく言いたくないけど、これは物事を大幅にメチャクチャにする機会があるねん。なぜなら、政府をAGIが実際に起こる可能性を無視することにだますかもしれんから。

アナリストは、AGIがもはやリスクと考えられてないとして、ワシントンの焦点が米国製のAIチップとモデルが世界を支配することを確実にすることに切り替わったと言う。

OpenAIが5のローンチ周りのバイブをひどくメチャクチャにして、それから最終的に米国が中国への輸出規制を諦める。

そう、俺がここで言うことすべてをそれがカバーしてると思う。これはかなりの記事やった。これはかなりのドラマやった。

俺が強調したかった点は、俺が使ってたモデルが君らが今使ってるものと同じやっていうことや。API経由でのGPT-5のmedium reasoningバージョンや。俺がテストしたすべての異なるものは、それのスナップショットやった。

そして俺が使った主なもの、これら3つは、君らが今日API経由で使う全く同じスナップショットや。問題は、誰もAPIを使わへんことや。様々な理由でChatGPTとCursorみたいな表面を使って、体験をめちゃくちゃ悪く感じさせる。

OpenAIはChatGPTサイドでこれをメチャクチャにした。ルーターがどうロールアウトしたかと、古いモデルをどう非推奨にしたかでめちゃくちゃ悪くしくじった。それがひどく感じさせた。それは彼らの過ちや。彼らはそれを所有する必要がある。

でもまた、CursorはChatGPTとGPT-5のCursorでの体験をもっと良くしようとして最後の瞬間にたくさんの変更をして、失敗した。そして、Cursorの実装には今でも広がってるたくさんのUX失敗がある。俺は今日みたいに、それをテストしてた時に早い時に一つに遭遇した。

でも、そのすべてにもかかわらず、俺はまだ5が信じられないモデルやと思う。それはまだ俺がすべての仕事で使うものや。それはまだ俺がT3 chatで話すものや。

オーケー、俺は5 Miniをかなりもっと使う。なぜなら、本当に、本当に良くて、狂気に安いから。そして正直、俺はもう一つGPT-5ビデオをせなあかんかもしれんけど、GPT-5についてやない。なぜなら、5 MiniとNanoは犯罪的に過小評価されたモデルやから。

それらは金に対してめちゃくちゃ狂気に良いから、人々がそれについてもっと話してへんことに俺は驚いてる。

そして、それが面白いと思うなら、教えてくれ。それが俺の次のビデオになるやろう。これがみんなにとって有用やったことを願う。またすべてのドラマについて申し訳ない。俺がこのすべての混乱についてできる限り透明になろうとしてることを理解してくれることを願う。

俺はみんなよりそんなにもっと情報を持ってへんし、知ってて持ってる少しを共有するためにベストを尽くしてる。うまくいけば、これが何が悪かったんか、なんで認識がそれほど悪いんか、そしてこのモデルが実際にどこに位置するかをもっとよく理解するのに役立つやろう。

みんながどう思うか教えてくれ。次回まで、平和オタク共。