ChatGPT-5の10の大きな問題とその解決法

ChatGPT-5のリリースに対するユーザーからの厳しい反応と主要な問題点について分析し、実用的な解決策を提示する動画である。ルーター誤誘導、API とチャット間の不一致、モデル移行によるワークフロー破綻など10の具体的問題を取り上げ、プロンプト工夫やカスタム指示活用による対処法を詳しく解説している。単なる批判ではなく建設的なアプローチで、新しいAIモデルとの付き合い方を実践的に指導する内容となっている。

The 10 Biggest ChatGPT-5 Problems & How to Fix Them

My site: substack: story:

ChatGPT-5への厳しい反応と問題の本質
10のモデルを統合したルーター方式の問題
10の問題とその解決策
解決策のまとめと今後の展望

ChatGPT-5への厳しい反応と問題の本質

ChatGPT-5への反応はまるで松明を持った暴徒が吸血鬼の城に押し寄せるようなもんやった。人々がこのロールアウトの扱われ方にこれほど怒り、うんざりしているのを見るのは本当にすごかった。ワイが言うてるのは単にチャートゲート、つまりChatGPT-5が完全に不正確なチャートと一緒にライブストリームで何十万人もの人に公開された例の件だけやない。

それは修正可能やし、OpenAIもすぐに修正した。ワイが言いたいのは、OpenAIが人々の長期的なAIとの関係を終わらせることを選んだということや。単に曖昧に気味の悪い「これはワイのAIガールフレンドや」みたいな話だけやない。彼らはワークフローを終わらせることを選んだんや。人々が思考パートナーとして持っていたプロフェッショナルな関わりを終わらせることを選んだんや。

GPT-4o、o3、o3 Proで築き上げてきた全てが、あの動画の後1〜2時間以内に全部なくなってしもた。そして代わりに得たのは、実際にカウントしてみると10の異なるGPT-5モデルが一つのGPT-5の中に隠れている全く新しいAIやった。これは予測できることやったんや。

世界全体が1年間OpenAIに「ドロップダウンでこんなにたくさんのモデルを提供するのをやめてくれ」と言い続けてきた。しかし人々はまだ本当に異なるニーズを持ってる。速いレスポンスが欲しい人もいれば、温かくて共感的なモデルが欲しい人もいる。本当に思慮深いレスポンスが欲しい人もいれば、たくさんの推論時間が欲しい人もいる。ウェブ検索が欲しい人もいる。

10のモデルを統合したルーター方式の問題

そこでOpenAIは実際には10のモデルがルーターと一緒になった一つのモデルを提供してくれた。一般的な認識とは違って、これは古いモデルの寄せ集めをルーターで繋げたもんやない。これらは全て新しいモデルでルーターと一緒に組み合わされてるんや。

問題はルーターがOpenAIのGPUにもっと余裕を持たせるように調整されてることや。なぜなら彼らのGPUは受けているトラフィックの量で溶けそうになってるからや。それでモデルルーターはデフォルトで頭の悪いモデル、丁寧に言えば非推論モデルに誘導するんや。

どうすればええんや？いつ非推論の高速モデルが必要で、いつ良いモデルが必要なんか？そしてどうやってカスタマイズするんか？この動画は上位10の名指しユーザー苦情と懸念、そしてChatGPT-5でそれらをどう修正できるかに本当に焦点を当ててる。ワイは修正が全てやと思ってる。実用的であることが全てや。これは好きであろうとなかろうと約7億人にとっての新しいデフォルトモデルなんや。

サム・アルトマンがRedditのAMAで人々が熊手を持って彼を襲いに来た時、彼ははっきりしてた。戻ることはない。これが我々の持ってるモデルや。ワイはこれが強力なモデルやと思うが、他のモデルと同じように少し作業が必要で、知り合う必要があると思う。初デートのようなもんや。変でキモく聞こえるかもしれんが、話を聞いてくれ。

アンドレ・カルパシーはこれらを確率的人間の精神と呼んだ。この意味で、確率的人間の精神にあなたが何を必要としているかを教えなければならない。そしてそれを行う具体的な方法がある。

10の問題とその解決策

問題1：ルーター誤誘導

ワイがインターネットで掘り起こしたChatGPT-5についての上位10の問題を教えて、どう対処できるかを話していこう。一つずつやっていく。

1番目はルーター誤誘導や。初日の一部では、自動切り替えルーターの一つが実際にオフラインやった。初日に問題があったけど、それ以降はない場合、おそらくそれが原因やった。

しかし、ルーターが高速モデルにデフォルトするため複雑な質問に対して浅いレスポンスを受け取る場合は、実際にはっきりと「一生懸命考えて」と要求できる場所に到達したい。2つのことを推奨する。

一つは、プロンプトで「一生懸命考えて」と単純に言うことや。これを複雑にしすぎんといてくれ。二つ目は、ChatGPTをパーソナライズするオプションに行って、カスタム指示で何が欲しいかを明確にすることや。

例として、「ワイがクイックテイクと言わない限りは深い分析をデフォルトにして」というようにして、そこから進めていく。基本的には、カスタム指示でできるだけそれをプッシュしてルーティングしようとしてるんや。

問題2：チャットとAPIの不一致

2番目は、チャット対API不一致も苦情やった。ChatGPTはルーティングシステムを使う。APIは直接モデルアクセスを提供する。開発者はChatGPT-5で我々とは大きく異なる体験を得る。開発者は特定のモデルをサンドボックスでテストし、デプロイして完全に異なる動作を得ることができるからや。

この場合、サム・アルトマンがそれにどう対処するかは、もっとカスタマイズ性を与えることやと思う。そして彼らはすでに最後の数時間でどのモデルを取得していて、どのモデルがあなたに応答しているかを見る能力をロールアウトした。最初はそうやなかった。だから彼らはチャットでこれをもっと見えるようにするために懸命に働いてる。

それは実際にプロンプトで修正できるもんやない。何が修正できて何ができないかについて正直に話すことを約束する。毎回正確にどのモデルを取得するかを制御することを本当に気にするなら、数つのオプションしかない。APIに行くか、ドロップダウンを押すかや。10のモデルの選択肢はない。

プロユーザーなら、ChatGPT-5 proとChatGPT-5 thinking、そしてChatGPT-5がある。オプションはそこからplusとフリーユーザーに向けて下がっていき、選択肢はどんどん少なくなり、「一生懸命考えて」とプロンプトするルーター向けの方法により依存しなければならない。

これは彼らがより多くのカスタマイゼーションで対処しようとしている問題や。

問題3：モデルドリフトと不一致

3番目は、モデルドリフトと不一致や。ChatGPT-5への移行後、古いワークフローが異なる出力を生成する。それはある程度避けられない。

本番でワークフローを実行している場合は、プロンプトを追跡し続けていて、プロンプトをバージョン管理していて、出力が異なって応答する新しいモデルがある時に、ドリフトは新しいモデルでは避けられないので、そして新しいモデルであればドリフトが生じていたであろうから、意図的にプロンプトを実験して適切なモデルに調整する余地があることを望む。

本番パイプラインを実行している場合は、使用したいGPT-5モデルを正確に選択でき、それによって応答をより制御する柔軟性が得られる。チャットボットフローで何かを実行しようとしていて、多くの人がそうするなら、プロンプトをカスタマイズし、適切な種類のモデルにルーティングする方法を見つけ出すためにより多くの作業をしなければならない。

ちなみに、全てのプロンプトが思考モデルを必要とするわけやない。時には何かもっと早いものが欲しい。このモデルで作業してみて言えることは、非推論モデルで時にはより多くのトークン出力を得ることがある。それらのトークンを生産するのが彼らにとって安いからや。

思考モデルにアウトラインを作らせて、非思考モデルに書く作業をたくさんやらせることができる。PRDを書いているとしよう。それが一つの方法かもしれん。

4番に行く前の少しの横道として、非思考モデルは、非思考モデルとしては驚くほど賢い。そして信じられないほど速い。ChatGPT-5について真実で、以前のモデルについては真実やなかったことの一つは、非思考モデルが最初に正しくなくても、信じられないほど速いので、Claude Opus 4が一つの応答をする時間で5つか6つの応答を受け取ることができることや。

その時間で本当に良いものに反復していく。だからある意味で、人々はそこでのスピードの価値を見落としてる。

問題4：長いコンテキストの錯覚

4番目に行こう。長いコンテキストの錯覚や。ユーザーは、彼らが宣伝するから、200,000トークンでモデルを詰め込めば、より大きなトークンウィンドウを宣伝したから、完璧なリコールを得ると仮定した。

良いリコールになる。過去に持っていたよりも良いリコールになる。完璧という意味やない。OpenAI自身の評価でさえ、128から256,000トークン間で89%の精度のようなものを認めてる。それは良い。完璧やない。まだ中間で失われる問題がある。

プロンプティングでU字型思考を使うのがまだ賢明や。ここでの軽減策は新しくない。過去に長いコンテキストウィンドウを管理する課題があった。強いプロンプトで最初にアンカーしたい。最後に必要なものを再述したい。探しているもののコンテキストウィンドウ全体でのリズミカルなリマインダーのような技術を使うことができる。

Claudeがシステムプロンプトでそれを示してくれた。だから我々がこれを管理するために既に知ってる技術がたくさんある。そして人々はもうそれをする必要がないと思い込んだだけやと思う。何度も強調するように、これらは系統内のモデルや。良くなってる。しかし学んだ全てが即座に破綻すると仮定せんといてくれ。

代わりに、学んだ技術の多くが進化すると仮定してくれ。この場合、コンテキストをリコールするのが少し簡単になる。しかしそれでも、これらの技術はうまく機能する。

問題5：JSON形式の問題

5番目に移ろう。JSONを要求して「JSONを返してください」と言うだけなら、何らかの理由でChatGPT-5は必ずしもそれをしない。時にはする。時には無効なJSONオブジェクトや。

JSONスキーマで構造化出力を具体的に要求することを推奨する。JSONをたくさん使うなら、カスタム指示でそれに入って、実際に探しているものを指定することを推奨する。システムがそれを知らないわけやない。何らかの理由で、各モデルにはフレーバーや調整がある。

このモデルは初期テストでJSONオブジェクトに問題があった。全ての単一のものに対してやない。これは特にGPT-5の小さなバージョンのいくつかにあった。GPT-5 Miniにこの問題があった。だから異なるモデルに切り替えることもできる。それは非常にコーディング特有のティップのように感じるが、我々はこれらのモデルを多くのことに使ってるし、コーディングもその一つや。

問題6：ツールアクションの問題

6番目は、ツールアクションとツールアクションクレームや呼び出しをどう扱うかや。モデルは時々ツールを呼び出したふりをしたり、実行しなかったアクションを実行したとツールを呼び出したと主張したりする。o3もこれをしてた。AIは詐欺を大幅に減らすと主張してる。逸話的に、それは正しく感じる。ワイが頼むことをもっとやってくれるが、数字はゼロやない。

何であれ、彼らは2%に下がったと主張したと思う。ゼロやない。プロンプトでモデルに本当にはっきりさせる必要がある。これはAPIかチャットかに関わらずや。モデルに計画を見せてから、計画に対して完了したアクションを見せることを要求することをはっきりさせる必要がある。

先週金曜日に公開したワイの初期メモ、レビューで、このモデルはアーティファクトでうまくいくという考えについて話した。アーティファクトはツールコールを作って戻って何かをすることができることを証明する方法やからや。

Pythonを使わせる必要があるなら、単に「Pythonを使って」と言うんやなくて、「作ったPython greater」か「構築したPythonクエリを見せて」と言う。だからアーティファクトを証明させなければならない。これはChatGPT-5での少し秘密のハックやと思う。チャットで直接モデルを選ぶことも、チャットで正確にツールコールを定義することもできないからや。

それらは我々が欲しいものを得るツールコールを強制する方法や。なぜそれが重要なんか？このモデルはコードで物事を解決するように設計されてるからや。そして時には他の方法では得られないコードでの解決策を得る。

金曜日のワイのレビューで、単に画像としてガントチャートを作るのはまあまあやと指摘した。コードでガントチャートを作るのは本当にうまくて、それは他の問題でも繰り返されるパターンや。

問題7：思考モードのコスト

7番目は、思考モードのコストや。推論はたくさんのトークンとたくさんの時間を使う。それが非推論にデフォルトする理由の一部や。だから人々が苦情を言って、思考モードが返してくるものを考えると時間がかかりすぎると言ってる。

これは非常に好みの問題や。ワイは個人的に、モデルが返す前に少し考える時間を取ることに実際に非常に満足してる。応答の品質の違いを感じることができるからや。

そんなに一生懸命考えて欲しくないなら、これは実際に解決するのが最も簡単なもんや。普通のChatGPT-5を選ぶか、フリーかplusティアにいるなら、どうせデフォルトでそうなるから、それで満足して使えばいい。多くの人にとって、正直それはおそらく十分や。

ちなみに、非推論について苦情を言う人々は、しばしば応答の品質について苦情を言ってて、欲しいなら思考に行くことについて話したか、非思考での共感の欠如について苦情を言ってる。

共感の件についてはめちゃくちゃ簡単な修正方法がある。ChatGPTパーソナライゼーションメニューに行けばいい。使えるスタイルかモードがある。だから文字通り入って、設定で選べる全ての異なるオプションをあなたに読み上げるつもりや。

設定に行って、ChatGPTをカスタマイズして、パーソナリティを選ぶことができる。パーソナリティはデフォルトのいずれかで、これは迅速で賢く、会話を続けるために構築されてる。これは絶対に真実や。または皮肉屋、これを求めてる人はあまり見ない。批判的で皮肉な、またはロボット、効率的で率直。ロボット的やと苦情を言ってる人々。もっとロボット的になることができる。

リスナーは思慮深く支援的や。これが人々が探してる共感に最も近いと思う。ただしOpenAIは、顧客フィードバック、つまり熊手や神経探索的で熱心に応答して、これらの全てのパーソナリティの全体的なプロファイルを柔らかくするために働いてると言ってる。だからそのパーソナリティを選ぶことができる。

今、他のカスタム指示があって、これはChatGPTをカスタマイズする時にそれを活用しろとワイが言ってきたことや。ワイはそれを持ってるし、紹介してる。ワイはネイトや、これがワイのやってることやと言って、ワイにとってはまず戦略を考えて欲しい、内省的であって欲しい、高シグナルに焦点を当てて欲しい、ワイに反論して欲しいというような特性を与えてる。

だからそれらは実際にカスタマイズ指示に入れたものや。それらがワイの欲しいものやからや。あなたのカスタム指示で欲しいことをすることができる。そして人々がChatGPT-5を扱う方法としてそれを見落としてると思う。それがカスタム指示の目的やからや。

それこそ我々がすべきことや。思考モードのコストは絶対に修正可能や。実際、それは簡単なもんの一つやと思う。

問題8：ガードレールの摩擦

ガードレール摩擦は興味深い。ChatGPT-5に対して適切な質問をする特定のケースがあって、それはデュアルユースコンテンツに関してもう少し保守的で、特に生物災害に関して超保守的な特定のリスクがある。

そういう場合にはモデルの使い方とそれらのケースで安全な補完をどう要求するかについて考えた方がいいだろう。それはかなり限定された、非常に狭いくさびやが、生物学にいるなら、研究にいるなら出てくることや。全く適切なことを求めているかもしれんが、それらは求めるのが不適切なことのすぐ隣にある傾向がある。

基本的に有用な方法で安全な補完を優先するモデルとの話し方を進化させる必要がある。それか、正直その件については他のモデルに切り替えなければならない。

問題9：基本的なエラー

9番目、基本的なエラーを犯す場合、最も簡単な修正は思考モードを要求することや。2番目に簡単な修正は事実主張に対する検証と引用を要求することや。

これもカスタム指示でそれを強化する方法として実際に寄りかかることができる。10番目のことに入る前にカスタマイゼーションとカスタム指示をたくさん強調してきたが、チャットを使っている場合、チャットのシステムプロンプトを上書きすることはできない。

上書きできないことを知る方法の一つは、カスタム指示が冗長、つまり超長ったらしくすることを要求できることや。しかしOpenAIはGPU容量を保持しなければならないので、トークン制約を課すつもりやし、実際に思考の連鎖でそれを見ることができる。冗長で長ったらしいものを書くように頼んだら、戻ってきて「OpenAIのトークンポリシーを尊重しなければならないので、出力の長さに注意しなければならない」と言うつもりや。

システムプロンプトに従ってる場所を思考の列車で文字通り見せてくれる。それを知ってるのは良いことや。基本的にOpenAIはそのシステムプロンプトにいくつかのガードレールを置いてるので、実際にGPUを壊すことができないんや。リークしたシステムプロンプトを分解する別のビデオをやるつもりや。

めちゃくちゃ興味深いと思う。このビデオには長すぎる。しかし取り上げるつもりや。めちゃくちゃ興味深いシステムプロンプトや。

問題10：サイレントフォールバック

10番目は、サイレントフォールバックや。プロプランの一つやなくて、低いプランの一つにいる場合、3時間で80メッセージのようなものに当たると、静かにモデルをダウングレードして、会話の途中で品質が落ちる可能性がある。

警告はない。ここでの唯一の解決策は使用量を監視することや。ChatGPTは人々がそれを見たがってることを知ってるので、それを監視する方法に取り組んでる。本当に気にするなら、開発者でないならティアをアップグレードするか、開発者ならAPIを使うか、単に外に出て散歩することや。

3時間のプロンプトパックかアップグレードパックを買うように強制する方法があればいいのにと思う。それに多くの関心があると思う。それはJet GPTがビジネスとして決めてやらないことや。

解決策のまとめと今後の展望

この10を見直そう。1番目、ルーター誤誘導は大きな大きな問題や。「一生懸命考えて」のようなプロンプトと「深い分析をデフォルトにする」のようなカスタム指示でこれを修正できる。

2番目、ChatGPTがチャットボットでルーティングシステムを使ってAPIユーザーがモデルを選択できるためにチャットとAPIが異なることについて。正直、そこでの最も簡単な修正はモデルを選択することや。

より高いティアプランのチャットボットを使ってるなら、実際にドロップダウンしてモデルを押して、プロモードか何かテストしたいものを実際に見ることができる。ドロップダウンを押すオプションがないなら、「一生懸命考えて」のような1番と同じ修正も使える。

3番目、モデル廃止ドリフト。モデルが廃止されて古いワークフローが壊れた場合どうするか？全てはプロンプトバージョニングと対象を絞ったアップグレード、何が起こるかを評価することや。既にプロンプトバージョニングと評価をすべきやった。ワイは長い間それを説教してきた。してこなかったなら、これが請求書が来る場所や。今すぐ始めてくれ。

4番目、長いコンテキスト錯覚。OpenAIライブストリームの広告のような品質のために、完璧なリコールで何十万ものトークンを詰め込めると人々が仮定したが、それはOpenAIが実際に主張したことやないし、実践で見てることでもない。

最初と最後で探してることを強調し、コンテキストウィンドウを通して欲しいものを反復するU字型プロンプティングのような良い長いコンテキスト実践を使う必要がある。コンテキストエンジニアリングはまだ重要や。良いプロンプトエンジニアリングと良いコンテキストエンジニアリングの回避方法はないとワイは長い間言ってきた。それは持続可能なスキルや。持続可能なスキルや。

5番目、JSON破損。狭いもののように感じるが、重要や。小さなモデルでJSONが破損して正しいJSONを形成しないという問題があった。より良いモデルにアップグレードするか、カスタム指示で正しく形成されたJSONが欲しいことを非常にはっきりさせて、完全なJSONスキーマで構造化出力が欲しいのようにそれを非常に具体的にプロンプトするかや。

6番目、真実やないツールアクションクレーム、ツールコールを幻覚するようなもんや。これは特にこのモデルで、アーティファクトを得ることが重要やと呼び出した場所や。それはツールコールとツールコールの証明を強制する方法や。

7番目、思考モードコスト、思考モードを使いたくない時に思考モードを使いたくない人々。それは実際に最も簡単なもんの一つや。単に非思考にデフォルトすればいい。本当に強調したいなら、「考えるな、今すぐ行動しろ」か、ChatGPTで追加した小さなボタンの「より速い答えを得る」と言うことができる。

8番目、ガードレール摩擦。これはまた狭いもんやが、そこにいるバイオ研究者の人々、科学やハードサイエンスでそれを使ってる人々のためや。危険な要求やOpenAIが危険やと判断した要求に近いクエリを求めてる可能性があり、それは安全な補完を使ってる。プロンプトで要求を狭く調整する方法を見つけ出すか、モデルを切り替える必要がある。

9番目、基本的なエラーを犯す場合はおそらく非推論モデルを使ってる。だからより良いモデルにアップグレードするか、事実主張に対する検証と引用を要求するようにカスタマイゼーションを調整して、プロンプトでもそれに本当に寄りかかるかや。

それから10番目、3時間で80メッセージ使って消えるサイレントミニフォールバック。これが修正可能やったらええのにと思うが、OpenAIが制限を上げるか、歴史的に彼らはそうする傾向があるか、GPT-4oを戻すことについて話してる別のモデルを使う能力を与えるか、使用量を監視してティアをアップグレードせなあかん。

この動画の最初で、これらの問題を修正するためにできる10のことがあると言った時、手を上げて「なんでワイが修正せなあかんのや？ルーティングをしてくれて、考えてくれる魔法の思考マシンを約束されたんやないか」と言う人々がいるやろう。週末のワイのTikTokコメントでそれを見た。これを約束されたのに起こらなかったと。

みんな、タダ飯なんてもんはない。我々は1年全体をかけてChatGPTに他の全てのモデルを取り除いて、よく考える一つのモデルを提供してくれと頼んできた。

人々は「モデルを取り除いてくれとは頼んでない」と言うやろう。しかしほとんどの人がそうした。モデルドロップダウンが欲しくないと言った。モデルドロップダウンが欲しくないなら、一つのモデルが欲しいということや。何かを犠牲にしなければならない。

だから今、ドロップダウンに一つのモデルか、プランによっては同じモデルのいくつかのフレーバーがある。それをどうするかを決めなければならない。そして、それほど大きな移行をして、慣れの問題やロールアウトの問題、使い方を学ぶ問題を抱えない方法はない。

空からの知性、考える魔法の石が新しいモデルロールアウトで、あなたの曖昧な英語で欲しいものを魔法のように理解できると考えるのは、率直に言って決して予想すべきやなかった。そんなもんやない。

プロンプティングは持続可能なスキルや。モデルがどう機能するかを理解することは持続可能なスキルや。そして新しいモデルでワークフローを調整し進化させることができることがますます持続可能なスキルになってる。それはなくならない。

ChatGPT-5がどう機能するかを探求し続けるつもりや。これは現在世界で信じられないほど重要なモデルやからや。今や何億人もの人が毎週使う唯一のモデルやし、使うのが複雑なモデルやからや。

ワイの初期印象は、これは本当に本当によく使うために、より多くの努力とより多くの思考とより意図的な意図を要するということや。デフォルトが一部の人には頭が良く感じるかもしれんとしても。

デフォルトは冷たく感じるかもしれんが、一部の人には頭が良く十分に感じることができて、ワイのコメントでもそれを見た。このモデルが可能な並外れた仕事にそれを使いたいなら、ワイはテストした。信じられない仕事をする。

そして今週後半にそれを示すいくつかのデモをやるつもりや。o3やo3 Pro、Claude4 Opusでしなければならなかったよりも余分な仕事をする準備ができてる必要がある。余分な仕事は価値があるんか？と思うかもしれん。答えはイエスや。このモデルが他のどのモデルも成功裏に完了したのを見たことがない分析をするのを見た。

オフィスで使うソフトウェアのワンショットやフューショットコーディング例を他のものがそれほど成功裏にやるのを見たことがないほど成功裏にできる。努力する価値はあるが、それは仕事や。

だからChatGPT-5全体の10の一般的な問題のこのレビューが役立ったことを願う。我々が今全員と一緒に生きてる新しいモデルの探求を続ける。

コメントで何を思うか教えてくれ。ワイが対処できる他の問題があるやろう。