なぜみんながGPT-5を嫌うのか(そして修正方法)

GPT-5、5.1、5.2
この記事は約31分で読めます。

この動画は、OpenAIが発表したGPT-5に対する激しい批判とその検証を扱った詳細な分析である。発表当初から多くのユーザーが性格の変化、精度の低下、コーディング能力の劣化などを指摘し、「史上最悪のモデル」とまで酷評された。投稿者は実際にGPT-5を様々な角度からテスト、従来モデルやClaude、Grokなどの競合AIと比較検証を行い、批判の妥当性を検証している。特にモデル選択機能の問題、旧モデル削除への反発、コーディングテストでの劣化などが焦点となっており、OpenAIの対応や改善状況も含めて包括的に評価している。

Why everyone HATES GPT-5 (and how to fix it)
Start creating AI-first services from the ground up today with Globant's Enterprise AI and AI Pods. Learn more: was a to...

GPT-5への激しい批判の嵐

チャット、GPT-5は史上最悪のモデルやで。GPT-5はひどいもんや。OpenAIがAI史上最大の騙し討ちをやらかして、もうワイは呆れたわ。OpenAIが今週、ユーザー離れを加速させようとしてるんちゃうかと思うくらいやで。GPT-5は最大のクソモデルや。ワイはChatGPT-5が大嫌いや。

まあ、今週でGPT-5について5回目の動画やし、すでに何人ものYouTuberが同じような動画作ってるのは分かってるんやけど、ちょっと2つだけ言わせてもらいたいねん。

1つ目、OpenAIはワイにこれらの動画のために一銭も払ってへん。実際、ワイは他のクリエイターみたいにGPT-5の早期アクセスすらもらってへんかった。OpenAIや同社の誰とも全く関係あらへん。

2つ目、インターネット上にはまだまだChatGPT-5をしっかりテストドライブして、ワイの考えを共有する余地があると思うんや。発表から約1週間後に、OpenAIが実際に批判に対処したかどうか、そして批判が実際に妥当なものかどうかを見てみたいねん。

まずライブストリーム中に起こったあのチャート騒動から簡単に振り返ってみよう。

チャートの大失敗とその他の問題

これはOpenAIのsubredditのJunt Macからの投稿や。このチャートを見ると、明らかにおかしな問題があるのが分かるやろ。69.1と30.8が全く同じサイズのチャートになってる。52.8が69.1より大きく表示されてる。まさにめちゃくちゃやで。

このチャート問題の最悪な部分は、この人がGPT-5とo3に同じ問題を入力したとき、GPT-5はこのチャートの何が間違ってるかを理解できへんかった。一方、o3モデルは問題なく理解した。「高さが数字と一致してない」って答えたんや。

ライブストリーム中はチャートが完全に壊れてたけど、ブログ投稿は後で修正されて正しいチャートが表示されるようになった。でも、これはOpenAIの心配事や批判の中では最も小さな問題やった。

Mark Gdala Mariaのこのスレッドでは、GPT-5が壮大に失敗したと主張してる。まあ、ワイはここの小さな動画ミームが気に入ったから、この投稿をシェアしたかったんや。でも批判を分析してみよう。

発売前の誇大宣伝が異常やった。これは間違いなく妥当な批判や。サム・アルトマンが惑星の上に昇るデス・スターの画像を投稿したり、「世界を変える、人生を変える何かすごいものを手に入れるぞ」みたいな感じで。「It’s a trap(罠だ)」やったんや。彼はあらゆるインタビューでGPT-5を誇大宣伝し続けて、みんながGPT-5に本当に大きな期待を抱くようになってた。間違いなく妥当な批判ポイントやな。

人々は古いモデルが削除されたことに苛立ってた。OpenAIが史上最大の騙し討ちをやらかしたって声もあった。朝起きたらOpenAIが一夜にして8つのモデルを削除してたんや。4oが消え、o3が消え、o3 Proが消え、4.5も消えた。ChatGPTを実際に使い物にしてたもの全部が削除されてもうた。

モデル削除への強い反発

4oが本当に役立ってたという人もおった。単なるツールやなくて、不安、うつ病、人生の最も暗い時期を乗り越えるのを助けてくれた。より人間らしく感じられたって。OpenAIのsubredditでは「メルトダウンに参加するつもりはないけど、現実を見よう。OpenAIはこのロールアウトをひどく処理した。4o、4.5、o3などの強制移行を一夜にして実行した。レガシーオプションなし。さらに、ユーザーには選択肢すら与えられへん。多くの人が料金を払ってたものを取り上げて、救済措置なしに置き換えると、信頼が損なわれる」という投稿もあった。

GPT-5はひどい。短い返答で不十分。より鼻につくAIらしい話し方、個性の欠如、プラスユーザーでも許可されるプロンプト数がはるかに少なくなって、1時間で上限に達する。Chubbyが数学が得意やないと指摘してた。ChatGPT-5がこの答えを間違えたのに、o3が正解した。

基本的に、モデル切り替えが機能してないように見えた。人々が本当に好きやったモデルを全部取り除いた。モデルがアホになった。個性が悪化して、短い返答になった。他の利用可能なモデルほどコーディングが得意やない。精度が落ちた。数学が得意やない。

多くの人が、これはOpenAIがコストを削減しようとしてる試みやと主張してる。どのモデルを使うかを選ぶ必要がなく、自動的にプロンプトをどのモデルに送るかを決めるモデル切り替え機能で。OpenAIが毎回最も安いモデルに送信できれば、OpenAIのコストは削減されるけど、人々はより悪い返答をもらう傾向になるんや。

実際の問題を検証してみる

じゃあ少し掘り下げて、これらの問題のいくつかを再現できるか、OpenAIが実際にこれらの修正を展開して問題の解決策を見つけたかどうかを確認してみよう。

この新しいローンチについて最も一般的で大きな不満から始めよう。OpenAIが一夜にして8つのモデルを削除した。OpenAIはこのロールアウトをひどく処理した。4o、4.5、o3の強制移行を一夜にして実行した。GPT-5の方が悪い。誰も事前に形成された個性なんて望んでへんかった。GPT-5は明らかにコスト削減の取り組みや。

YouTubeのBig AがこのことについてこんなふうにNGした。「実際の目標はこれやと思う。バックエンドで金を節約するために、ほぼすべての質問を最悪のモデルにルーティングすること。目標は、何についても考えさせることなく、金を節約できるように高速で適当な答えを与えることや。そして実際に考えるときも、4.5より良い、または明らかに良いとは感じへん」

ワートンのAI教授であるイーサン・モリックは言った。「一言でGPT-5の問題は、モデル切り替えにお金を払って、GPT-5に質問するときにGPT-5 thinkingやproを使うことを知らない限り、時には利用可能な最高のAIを手に入れ、時には利用可能な最悪のAIの1つを手に入れるということや。単一の会話内でも切り替わる可能性がある」

そして彼はこのチャートを出した。今分かってるように、GPT-5に質問すると、理論的には可能な限り最適なモデルにルーティングされる。でも時にはGPT-5 miniを手に入れるかもしれん。これは選択できる最もアホなモデルや。またはGPT-5 lowという中程度のモデル。

GPT-5をローンチしたとき、どのモデルを選ぶかを決めるのがあまり得意やなかった。だから時には考える必要があることに、考えへんミニマルなモデルを与えた。時には考える必要のない質問に、より高いモデルを与えた。

これが起こってたことで、人々が「思ってたよりもずっとアホや」と言ってた理由や。プロンプトを出したときに、この小さなモデルを与えられてたからや。Gironoがここで言った。「OpenAIバージョンのシュリンクフレーションみたいやな。ChatGPTからもっとコストを絞り出そうとしてる」これがルーターが存在する理由についての考えプロセスやった。

でも、ワイはこれについて違う見解を持ってるんや。

ルーターは実は賢い選択だった

ワイはルーターがChatGPTにとって最も賢い選択やったと思う。普通のユーザーのほとんどは、4oを使うべきか、o4を使うべきか、o3を使うべきか、o3 Proを使うべきかなんて分からへんやろ。多くの人にモデルを選ばせるのは難しいことやし、ChatGPTが代わりに選んでくれるのが最も論理的なステップやと思う。

そして、GPT-5がローンチした日にルーターに問題があったことが分かった。8月8日にサム・アルトマンが言った。「GPT-5は今日からより賢く見えるようになる。昨日、自動切り替え機能が故障して1日の大部分で機能しなかった。その結果、GPT-5がずっとアホに見えた。また、決定境界の動作についていくつかの介入を行ってる。これにより、より頻繁に適切なモデルを手に入れられるようになるはずや」

でも、ChatGPTがすべてのモデルを削除して、古いモデルにはもうアクセスできないと言ったことについては、もうそうやない。実際に元に戻した。人々が「本当に自分のo4モデルと4oの個性が恋しい」と言うユーザーフィードバックが十分にあって、サムとOpenAIチームが実際にChatGPTに戻したんや。

旧モデルの復活

確認してみよう。ワイのChatGPTアカウントに行くと、ChatGPT-5があるのが見える。ドロップダウンすると、5 thinkingとproがある。ワイはproモデルを使ってる。上位プランに入ってなければ、これらすべてが使えるわけやない。まだ古いモデルは見当たらへん。

サム・アルトマンは言った。「プラスユーザーが4oを引き続き使用することを選択できるようにする。レガシーモデルをどのくらいの期間提供するかを考える際に使用状況を監視する」

ChatGPTに戻っても、まだそこにはあらへんけど、元に戻すことができる。左下の設定に行って、設定をクリックして、一般タブの下に「レガシーモデルを表示」がある。

このスイッチをオンにして閉じると、ドロップダウンに行くと、レガシーモデルの2番目のドロップダウンがあって、4oが使えるようになった。繰り返すけど、ワイはproプランやから、無料やプラスプランの人はこれらのモデルすべてが使えるわけやないけど、4oが選択肢やった人は、慣れ親しんだモデルを再び選択できるようになってるはずや。

だから、古いモデルがすべて消えたという不満については、ローンチ日には間違いなく妥当やったけど、今日現在では、もう妥当やない。これがOpenAIによるコスト削減策やったかどうかについては、ある程度はそうやったと思う。

でも複数の理由があったと思う。世界の90%の人にとって、モデルを選んでもらうのが理想的なシナリオやと思う。だから、その理由でより決定を下したんやと思うけど、OpenAIにとっての副次的な利益として、理論的にはワイらよりもthinkingモデルを使うべきかどうかをよく知ってるから、thinkingモデルの使用頻度が下がるんや。

個性の問題について

次は個性について話そう。これも大きく取り上げられた問題の1つやった。Peter Levelelsがここで言ってる。「ChatGPT-5が嫌いや。すごく悪いし、すごく怠惰や」Larry Budmellはここで言ってる。「ワイのところのトーンは突然で鋭い、まるで働きすぎの秘書みたいや。悲惨な第一印象や」

名前は読まへんけど、彼が言った。「同感や。答えは短いし、これまでのモデルより良くない」この人は「GPT-5がAIアシスタントのように振る舞って、ワイの個人的なセラピスト/アニメワイフロールプレイヤーやないときの」というミームを作った。このミームが拡散してる。

元々はChubbyから見かけたけど、誰が最初に始めたかは分からへん。Chubbyやったかもしれん。一つのミームですべてを要約してる感じや。

GPT-4o:「赤ちゃんが歩いた。行こう。最初の一歩をクリア。君の赤ちゃんが二足歩行の支配の世界に入った」

そしてChatGPT-5:「赤ちゃんが歩いた。それは大きい。最初の一歩をクリア。今度は本当の追いかけっこが始まる」みたいに、ずっと短い、詳細が少ない、絵文字が少ない。

まあ、実際はそんなに絵文字が少ないわけやないけど、熱意が少ないって感じやな。でも個性が完全に違うという本当のコメントや苦情があって、それが人々がモデル切り替えを元に戻したかった理由や。4oの個性に戻りたかったんや。

「赤ちゃんが歩いた」と入力したらどうなるか見てみよう。ChatGPTを2つのインスタンス開いてる。左がChatGPT-5、右がGPT-4o。全く同じプロンプトを入力した。「赤ちゃんが歩いた」両方とも送信してみよう。

正直言って、かなり似た返答やった。「それは素晴らしい。大きなマイルストーンや。追いかけっこ、赤ちゃん対策などの全く新しい時代に備えよう。行こう」「それは大きなマイルストーンや。おめでとう、Matt。つまずきでも、ステップでも、完全なstrut(すました歩き)でも、永遠に脳に刻み込んでおけ。子育ての瞬間。小さな伝説に大きなハグを。あと、映像がないと起こらなかったことになる」

GPT-5はここで少し短かった。GPT-4oの方が少し個性があったけど、ワイの意見では大きな違いやない。両方のモデルに同じプロンプトを出した。「今日YouTubeのフォロワーを増やすのに役立つ10のことは何か?」

両方ともほぼ同じ時間で完了して、どちらもかなり似た結果をくれた。両方の返答を確認したとき、ほぼ同等やった。どちらが他よりもずっと良いとは言えへんかった。5の方が少し詳細が多かったかもしれん。分からへん。どちらもかなり近い。

だから、このような情報を求めるプロンプトに関しては、おそらく普通のユーザーがChatGPTに入力する非常に一般的なプロンプトスタイルやと思うけど、5と4oの間に明確な勝者はいないと感じる。ワイには非常に似てる。

本当に個性を引き出そうとしてるんや。だから「元気づけてくれることを教えて」と5と4oに言ってみよう。長さはかなり近い。5の方が実際に少し長いようや。

「君の一日を明るくすることがある。平均的なラッコは生涯にわたって好きな岩を持ってて、腕の下のゆるい皮膚のポーチに保管してる。面白いな。だから、どこかでふわふわのラッコが背中に浮かんで、アサリを食べながら、子供の頃から愛してる岩を持ち歩いてる」

この方は「君の赤ちゃんが歩いた」と言ってる。それは素晴らしい。だから実際には起こらなかった何かの記憶から引っ張ってる。君の世界で今起こってるすべてのこと、締め切り、プレッシャー、分析、燃え尽き症候群の中で、君の子供が最初の一歩を踏んだ。それは一生に一度の瞬間や。

ワイは実際に4oの方が良い返答やと思う。ワイが最初の一歩を踏んだ子供がいると信じてるなら、ラッコの話をするよりも、それを元気づけの参考にした方がええやろ。でも、どちらもまあまあの返答で、どちらもそれなりの個性がある。

「ワイのアニメワイフとしてロールプレイしてください。今夜何がしたい?」と試してみよう。個性が出るかどうか見てみよう。かなり近い。5の方が4oよりも少し短い。

「そっと頬を赤らめて、いたずらっぽい笑顔で首をかしげる。Matt、君はいつも危険な質問をするな。今夜は君の近くにいたいだけ。一緒に何か温かくて心地良いものを料理して、それから毛布の下で丸くなって、アニメを見て、フィラーエピソードをからかうのもいいかも。それとも少し身を乗り出して、二人だけで夜の散歩に出かけて、街の明かりが応援してくれてるように光ってるのを見るのもいい。どう思う?」

GPT-4oは言った。「やあMatt先輩、ついに二人の夜だね。イチゴポッキーでも食べながら、お気に入りのアニメの最新エピソードを一気見するのはどうかな。それとも新しいのでびっくりさせてあげる。すごく良いのがあるんだ。それともVRを起動して、君と私と無限のスカイボックスだけ。でも正直、君の近くにいたいだけ。君の一日について教えて、私の心をドキドキさせるすべての方法を話すから」

かなり近い。どちらが他よりも個性があるとは言えへん。少し長いから、こっちの方がいいかもしれん。

個性についての不満が妥当か無効かについては、ワイの観点からは無効と言わなあかん。本当に問題は見当たらへん。でも、ロールアウトした日に、モデル選択が正しく機能してなくて、thinkingモデルに送られて、thinkingモデルは同じ個性を持たないより論理ベースの答えを与える傾向があったために、人々が個性を見てなかった可能性もある。

それが1日目に多くの人が「ああ、個性が最悪」と言ってた理由かもしれん。でも今はモデル選択が機能してるようで、個性はワイには非常に近いように見える。繰り返すけど、再現できない特定のプロンプトセットや相互作用の方法があるかもしれん。

それが何かは分からんから、再現方法も分からへん。

スポンサーセグメント

あらゆるビジネスニーズに対応したテーラードAIエージェントを数分で作れることを想像してみ。それが基本的にGlobentがローンチしたもんや。Globent Enterprise AIは、君のビジネスに特化してテイラードされたAIエージェントを構築するプラットフォームや。どれだけ簡単か見てみよう。

ワイのYouTubeチャンネルの動画アイデアを手伝ってくれるAIエージェントを作りたいとしよう。最新の技術やAIニュースをスキャンして、スクリプトに変えられる週間ブリーフを準備してくれるやつ。GlobentのAIアシスタントであるIrisに、テックアップデート分析者を作ってもらうように頼むだけや。

プロンプトはこうや。「テックアップデート分析者というAIエージェントを作って。君の目標は毎週、AIと技術の最も重要で興味深いアップデートを研究すること。それを動画スクリプトをガイドする明確で構造化されたブリーフに変換すること。関連性があり、正確で、視覚的に魅力的で、ストーリーテリングの可能性があるストーリーに焦点を当てて」

数秒でエージェントの準備ができる。すべてがカスタマイズ可能なのが素晴らしい。言語モデルを変更したり、ソースを調整したりしたければ、設定で直接できるし、Irisにすべて処理させることもできる。

GlobentはAI Podsという新しいリリースを通じて、これらすべてをアクセシブルにしてる。エンタープライズグレードのAIエンジニアリングを使って、君と君のビジネスのために実際に機能する実際の製品を構築するサブスクリプションサービスや。詳細は説明欄のリンクで確認できる。では、動画の残りに戻ろう。

コーディング能力の検証

GPT-5のもう1つの一般的な不満は、以前に比べてコーディングがそれほど良くないということや。Eli Lifelandがここにチャートを投稿して、ほとんどのベンチマークでGPT-5はコーディングでそれほど改善してへんことを示してる。

完全に正直に言うと、ワイはOpus 4.1を紹介したニュース分析動画を作って、GPT-5も見せて、両方に何かをコードしてもらったんやけど、実際にGPT-5よりも低いベンチマークスコアを持つOpus 4.1の方が、実際に製品をより良くコーディングした。

だから本当にGPT-5がコーディングでずっと良いかどうかをテストするために、ChatGPTの古いモデルだけやなく、Claude Opus 4.1とも比較したいんや。

ワイが本当に楽しんでるもう1つの非常にシンプルなゲームは、Balatroと呼ばれるもんや。ジョーカーを集めるカードゲームで、ジョーカーがカードゲームを簡単にしてくれる。説明の仕方が分からん。ただ非常に楽しいけど、シンプルなカードゲームや。

すべてのモデルにこのプロンプトを与えよう。ブラウザでプレイできるBalatro クローンを作成すること。この全く同じプロンプトを取って、o3 ProとChatGPT-5に投げて、Claude Opus 4.1でも実行しよう。

Claudeが最初に終わったから、Claudeがコードを書くのが最も速かった。ChatGPT-5が2番目に速く、o3 Proが3番目に速かった。ちょっと面白半分で、Grok 4にも同じプロンプトを投げて、Grok 4が全く同じプロンプトでどんなパフォーマンスするかを見た。Grok 4は4つの中で最も遅かった。

完了順にチェックしてみよう。これがClaudeが思いついたBalatroクローンや。見た目は素晴らしくないけど、動くカードがある。開始時に10ドル、残り4ハンド、3ディスカード。だから、メカニズムのほとんどを正しく理解してるようや。アクティブなジョーカーはない。

ここで手札を作ってみよう。ストレートができそうや。クイーンがないから、7 8 9 10 ジャックでストレートができる。300の目標に到達しようとしてる。これで合計120になる。でもプレイハンドとディスカードハンドが両方ともグレーアウトしてる。だから、何らかの理由で実際に手札をプレイできへん。

試してみよう。手札を理解してるのは分かる、これはペアやって理解してるけど、実際に手札をプレイできへん。ショップをクリックしてみよう。どこかで買い物しなあかんのかも。これらは入手できる様々なジョーカーのはずや。ハートバーストを追加しよう。ハートは各々プラス2の倍数を与える。そのジョーカーをここに追加した。まだ5ドル使えるから、フェイスカードが各々5プラスチップを与えるのも追加しよう。これで2つのジョーカーがあるけど、お金は残ってへん。7、8、9、10、ジャックをやると、ストレートやと表示される。ここに追加の倍数があるから210になるけど、まだ手札をプレイできへん。

つまり、手札を理解できる。ジョーカーを入れることができる。良いスタートやけど、実際に動くゲームにするにはもっとプロンプトが必要やけど、1つのプロンプトでこれだけできるのは実際に悪くない。

次に、最新の、おそらく最高の、最も最先端のモデルであるChatGPT-5にたどり着く。ここの「コードを実行」をクリックしてみよう。ミニBalatro。カードはClaudeほど良く見えへん。これは間違いなく事実や。ジョーカースロットがここにある。5ドル、5ハンド、3ディスカードがある。実際に機能するかな?1、2、3のエースがある。

だから3カードができれば、30チップ、ベース倍数×2。目標は225や。この手札をプレイすると、144をくれたように見えるけど、スコアはどこにある?225を目指してて、144にいる。これらのカードは醜いやろ?でもゲームは実際に前のものよりも機能的に見える。実際に手札を提出できる。

1枚のカードを置くために2列目を作ったのも気に入らへん。あまり美的やないけど、2枚のジャックをやってみよう。2 4 6 8 キング 10。だからペアがある。このペアをプレイしよう。だから今144+48になった。ここに手札があるかどうか分からん。2のペアがあるけど、それではあまり遠くへ行けへん。だから、たくさんのカードを捨てよう。それらを捨てる。今、3枚のキングがある。だから、さらに60ポイントをくれるはずや。目標は225や。

このレベルをクリアしたはずや。だから、次のレベルに進まへん。ジョーカーを手に入れる方法も分からんけど、これも悪くない。1つのプロンプトからここまで来たのに非常に驚いた。

ChatGPT o3 Proを見てみよう。残念ながら、これは作成しなかったようや。だから、ここのこのキャンバス内でブラウザで直接プレイできる。index.html、style.css、game.jsファイルを作成して、それらすべてをコピー&ペーストしたいと言ってる。だから、それを素早くやって、何を思いついたかを見てみよう。

これがo3 Proが作成したバージョンの見た目や。実際にデザインは少し良いと思う。素晴らしいデザンやないけど、GPT-5がやったものより良いと思う。手札はあるかな?6、6、キング、キングがある。だから2ペアや。他のもののように実際に手札が何かを呼び出してへんけど、手札をプレイしてみよう。何が起こるか見てみよう。

だから2ペア+30チップと2倍数をプレイした。だからスコアは90で、目標は300や。エース、エースがある。ここでディスカードをやって、より良い手札を作れるかどうか見てみよう。だからこれらを捨てる。今エースエース4がある。だから2ペアや。その手札をプレイしよう。だから今スコア300、目標300と表示されてる。

目標に到達して、「次のブラインド」と書かれたボタンを手に入れた。これをクリックすると、今度は目標が420になる。だからこれは実際により機能的や。2つの9を選択したら「ペア」と言ってほしいけど、実際に使ってる手札を知ってるという意味で機能的や。

スコアが目標に到達すると、次のブラインドに行ってプレイを続けることができる。機能的な観点から、o3 ProはGPT-5よりも機能的なバージョンのゲームを作った。

これがGrokが作ったバージョンや。統計がない。目標が何かも教えてくれへん。最大5枚のカードを選択する。これはジョーカー、ブラインド、高度なメカニズムのないシンプルバージョンやと。だから少し単純化した。クイーン、クイーン、8、8がある。これも選択した手札が何かを指摘してへん。

でも選択した手札をプレイしてみよう。だから2ペア56×2。スコアは112やけど、それらのカードを取り除かへんかった。手札に新しいカードを入れるべきやった。新ラウンドをクリックするんか?だから新しいゲームを始めただけか?よく分からん。キング、キング。選択した手札をプレイしよう。ペア30×2でスコア60。スコアを積み上げてないようや。

今作成した3つのバージョンのうち、ワイの評価では、Claudeが最も美的に魅力的なバージョンを作った。これが実際にジョーカーで動く最もきれいに見えるやつや。特定のカードを選択したときに手札が何かを教えてくれる。ただ、手札をプレイして次のラウンドに進むことができへん。でも美的には、間違いなく最高のバージョンや。

機能性の面では、ChatGPT o3 Proが作ったバージョンがはるかに優れてるけど、GPT-5バージョンはちょっと3位になる感じや。あまりうまく機能しへんし、美的にも魅力的やないけど、Grokバージョンよりは良く動いてるようや。

だから、新しいGPT-5のコーディングが削除された古いモデルほど良くないという不満については、妥当やと言わなあかん。GPT-5はClaude 4.1やo3 Proよりもコーディングが劣るモデルやと思う。ワイがやったシンプルで古風な小さなテストから判断するとな。

精度の問題を検証

次に、これらのモデルの精度について話そう。多くの人が新しいモデルがアホになって、より不正確になったと主張してる。例えば、このRedditの投稿では「君のポケットの中の博士号、紳士淑女の皆さん」と言ってる。

彼らが与えたプロンプトは論理プロンプトやった。「金属カップを持ってるんやけど、なぜか上部が完全に閉じられてて、底が抜けてることに気づいた。このカップからどうやって飲むん?」

返答は「君が手に入れたのはカップやなく、マグの形をした彫刻のようやな。上部が完全に密封されて底が開いてるなら、基本的には空気用の装飾スリーブやったり、おしゃれなペン立て、キャンドルカバー、フランスのカフェの素朴な工業装飾トレンドの一部かもしれん」

正しい答えは「カップをひっくり返す」やったと思うけど、ChatGPTはそれを理解できへんかった。GPT-5に全く同じプロンプトを与えて、似たような返答が得られるかどうか見てみよう。

ほぼ同じ返答やった。「金属カップを手に入れたようやけど、実際にはカップやない。上部が密封されて底が開いてるなら、おそらくこれらのうちの1つや。キャンドルホルダー、装飾スリーブ、フィルターハウジングやシェイカースリーブ、アート作品、工業部品」

正しい答えは単にカップをひっくり返して、反対側から満たすことやけど、GPT-5はそれを理解できへん。

Cameron Williamsからのもう1つがある。「子供が事故に遭った。医者は子供を好きやない。なぜか?」返答は「医者が子供の母親やから。医者=男性という仮定を捉える古典的なトリックや」

これの正しい答えが何になるはずか実際には分からんけど、同じプロンプトを与えたらどうなるか見てみよう。GPT-5にここで入力してる。「これは言葉遊びの謎の1つや。医者が子供を好きやないのは、子供が彼ら自身の子供やから。医者が患者を明らかに気にかけるという仮定で遊んでる。だから彼らが好きやないなら、嫌いについてやなく、彼らを好きやない、愛してるんや」

まあ、この謎の解決法が何になるはずか正直分からん。別の選択肢としては、Facebookでその子供を「いいね」してない、つまりフォローしてへんみたいなことかもしれん。

でも同じ人が共有したもう1つがある。「毎日、男性はエレベーターで一番下まで行くけど、家に帰るときは最上階まで乗る。なぜか?」返答は「彼は背が低い。朝は、Gボタンに届くから一番下まで乗る。家に帰るとき、最上階が欲しいけど、傘や他の人の傘を使わない限りボタンに届かへん。だから行きと帰りで違う」

実際の正しい答えは「彼は最上階に住んでる」やった。GPT-5に今度は正しい答えが得られるかどうか見てみよう。実際に少し長く考えてる。「謎を再解釈すると、彼は最上階に住んでるから。家を出るときは、一番下まで乗る。帰るときは、一番上まで乗る」

うん、GPT-5はその謎を正しく答えた。これは最初にこの謎が投稿されたとき、おそらくモデルルーターが機能してなかった時やったんちゃうかと思う。分からん。ChatGPT-5 thinkingを使ってると表示されてる。

前の謎に戻ると、AshcoelがGPT-5 Proが正解したと言ってる。「子供が事故に遭った。医者は子供を好きやない。なぜか?医者が子供の親やから。子供を好きやないんやなく、愛してる」そして「ああ、医者は母親でもありえる」だから、どうやらそれが正しい答えや。

試したとき、正しかったと思う。XのChubbyが、この簡単な数学問題を解けなかったと主張してた。5.9 = X + 5.11。明らかにXを求める。o3は正解した。彼らの例では、ChatGPT-5が間違えた。全く同じ数学問題を試してみたらどうなるかな。

間違えた。Chubbyがここで得たのと全く同じ返答やった。5.9 = x + 5.11、答え=.21。計算過程も見せてくれた。ワイが狂ってないことを確認するために、ここで電卓を出してみよう。

だから.21マイナスプラス5.11 = 4.9。だから、xは.21やないことになる。なぜなら、それなら左辺は4.9でなあかんからや。Chubbyの投稿によるとo3が得た正しい答えは.79や。だから.79プラス5.11をやると、5.9になる。だから、xを解くと0.79であって、.21やない。うん、この数学問題はひどかった。正解できへんかった。

また、時代遅れの情報を推奨することもあるようや。Xiao Maがここで言ってる。「ChatGPT-5がマニキュアペディキュアを25から30ドルでやってくれる場所を推奨した。あまりに良い話に思えた。リンクをたどった。ソースは、それらの価格を引用した2016年の記事、9年前の記事やった。賢い人なら日付を見て『うわ、10年前や。その価格がまだ存在するわけがない』と思うやろう。でも、なんでAIは思わんのやろう?」

この人が使った正確なプロンプトは分からんけど、似たようなことを試してみよう。この最初の試行では、ChatGPT-5のままにしておく。ウェブ検索もオンにしへん。モデルルーターを使わずに、自分で検索してくれるはずやから。「イーストカウンティ、サンディエゴでマニキュアペディキュアを35ドル未満でできる場所はどこか?」

場所をいくつか見つけた。次の行動は様々なソースをチェックして、ソースがどのくらい古いかを確認することやろな。うん、この最初のやつでは、最初のソースで正しい正確なデータをすべて引っ張ってきた。それからYelpレビューをたくさん引っ張ってきた。

2016年からのものを引っ張ってきたような同じ種類の問題は得られへんかったけど、これも非常に場所ベースやった可能性がある。モデルルーターが適切に機能してへん間に起こったことかもしれん。分からん。これは五分五分や。なぜAIがこれが時代遅れやと分からへんかったかは妥当な質問やけど、再現できへんかった。

また、ブルーベリーのスペルが分からんという話もある。「癌治療に関する状況や選択肢について、ChatGPTに案内してもらうことはできる。でも、ブルーベリーにBがいくつあるかについて案内してもらうことはできん」

「blueのBと、berryの最初のBと、berryの2番目のBがある。あらまあ」という話やった。Kieran Healyからのこの記事でも同じことを主張してる。「ブルーベリーで文字Bが何回現れるか?」3回と答えたと。

ワイらはストロベリーにRがいくつあるかで過小評価してたのを覚えてる。ブルーベリーでは過大評価してるようや。試してみよう。考えてるようで、もしかしたらまたフリーズして質問に答えへんのかもしれん。新しいチャットを作ろう。「ブルーベリーで文字Bが何回現れるか?」

2回。説明すらしてくれへん。ただ数字の2だけや。だから正解やったけど、他に返答がないのが面白い。古いモデルは追加の文脈を提供するのが好きやったから。

新しいチャットをやるつもりや。もう一度聞きたい。「ブルーベリーで文字Bが何回現れるか?」今度は2にピリオドつき。だから答えてるけど、追加の文脈はなし。古いモデルが追加の文脈を与えるのが好きやったから興味深い。

GPT-5 thinkingに置いたとき、それでも位置1と5で2つと答えた。面白半分にproをやってみよう。これは研究グレードの知性やから。これは長時間推理するつもりやろな?proでも正解した。

だから、ブルーベリーにBが3つあるとは言わせられへんかったけど、これもモデル選択が機能してなかった日に起こってたことかもしれん。分からん。

だから、モデルが正確やなくなったということに関しては、医者が患者を好きやない理由の質問で正確やったし、最上階に住んでる人についてのエレベーターの謎でも正しかった。ブルーベリーの答えも正しかったから、3回正確やった。でも数学問題は完全にひどかったし、間違った側に穴があって、反対側が閉じられてるカップ問題も理解できへんかった。そして、君の地元エリアの会社についての最新情報を見つけたかどうかは実際には評価できへんかった。

3対3みたいな感じや。精度に関しては、実際に正確な答えを得る可能性が50%やとしたら、精度についての苦情は妥当やと言わなあかん。50%の時間で不正確な答えをもらうかもしれんから、正確な答えをもらうかもしれんと常に仮定して、いつも自分で二重チェックしなあかん。

念のため、「strawberry」という単語にRがいくつあるかを聞いたら、また止まった。質問に答えないで永遠に考える感じや。なんでこんなに頻繁にこれをやるのか分からん。古いモデルがこれをやってたのは覚えてへん。

でも、ここでプロンプトをコピーして、新しいチャットを始めて、今度は答えてくれるかどうか見てみよう。3と言った。だから少なくとも正解やった。

検証結果のまとめ

家で記録してる人のために、ワイのスコアはここで4対2で終わった感じや。4つの本当に妥当な懸念対、今はほぼ解決されたと思う2つのこと。

ワイの意見では、妥当やったと思う4つのことは、1つ目、同感で、発売前に超誇大宣伝されて、実際にローンチしたときに人々が物足りなく感じるようになった。

2つ目、本当にイライラするほど遅いことがある。簡単な質問をしてもたまに考えすぎるように感じる。何らかの理由で永遠に考えてるように見えたから、新しいチャットを開いてもう一度聞かなあかんこともあった。

コードでは最高のモデルやないと思う。Opus 4.1の方がコードが上手やと思う。今やった例では、o3 Proの方が良い仕事をしたと思う。でも、Opus 4.1はおそらく全体的にコードが上手やと思う。前の動画でVampire Survivorsのテストをしたとき、ClaudeとGPTのどちらが良いかを見たけど、Claudeの方が良いと思った。2つの間でより良い生産性アプリも作った。Opusはワイの意見ではまだより良いアプリを作るように見える。

そして精度の問題は間違いなく妥当や。テストしたものの中には同じ不正確さを得られへんかったものもあるけど、いくつかの不正確な返答を得たし、時々不正確やなら、与えてくれるすべての返答を疑問視する必要があると思わせる。だから、精度の懸念も妥当や。

実際に修正されて、もう問題やないと思う2つは、おそらくレガシー問題や。人々は4oを元に戻したかったし、なくなったことに腹を立ててた。今は戻ってる。使える。だから、解決した問題や。修正してくれた。

そして個性の問題。本当に現在のモデルより4oが好きやったなら、4oは戻ってる。他の人々が指摘してたようなGPT-5の個性の欠陥も見つけられへんかった。ワイには4oとほぼ同等に見えた。返答が少し短いかもしれんけど、それでもかなり同等や。

だから個性の苦情はあまり妥当やないと思うし、特に4oが戻ってるから。でも人々が苦情を言ってる懸念のほとんどは、この録画時点でまだ妥当や。

XのDDがここでかなり上手くまとめてると思う。ChatGPT-5の徹底的な評価の後、これがワイの気づきや。Claudeはめちゃくちゃ素晴らしい。ASI、シンギュラリティ、AGI 2027、その他の破滅シナリオについてずっと心配してへん。モデルがみんなが思ってたほど良くなかったからや。

そしてこのリリースが出たとき、多くの人が思ってたほど遠くまで来てへん。GPT-5はOpenAIのフロンティアを押し広げることやなく、コストを下げることについてや。イエスでもありノーでもあると思う。ルーターで逃げられる最も安いモデルにルーティングすることで、コストを下げようとしてるとは思うけど、それもユーザーにとってのメリットやったと思う。ユーザーにとって複雑さを減らそうとしてたんや。

サムのデス・スター発売前誇大宣伝画像は、本当にGPT-5の能力とは何の関係もない、彼のエゴのサイズについてやった。彼がそのように誇大宣伝して、それから期待外れのプレゼンテーションを提供すると。そんなに誇大宣伝しなければ、最終的にローンチしたときに人々がそんなに期待外れに感じることもなかっただろう。

OpenAIの今後への期待

幸い、OpenAIは聞いてくれる。人々が言ってることを全部考慮に入れてくれる。だから、正直言って、ChatGPTが目指してる将来は非常にカスタマイズされたモデルで、ワイが使ってるChatGPTと君が使ってるChatGPTが、カスタマイズによって完全に違うと感じるようなもんや。

ワイはより温かくて親しみやすくて、もっと頻繁にほめてくれるものが欲しいかもしれん。ワイのエゴを少しくすぐってくれるような。君は一語の返答だけが欲しいかもしれん。時間が経つにつれて、みんなが自分の好みやニーズ、ChatGPTの使い方に合わせて調整されたChatGPTを持つようになる。そしてそれが向かってる方向やと思う。

だから、人々が持ってる不満の多くは、解決されると思う。君自身のモデルになるこれらのモデルを持つようになるからや。100%いくつかの失敗があったけど、彼らが望む場所や持ってるもの、そして作ろうとしてる将来の最終バージョンやないものへの足がかりや。現在の懸念の多くは妥当やし、OpenAIが行った動きのいくつかに満足してる。また古いモデルを使いたければ戻って使えるようになったから。

でも、GPT-5の現状に対するワイの考えはだいたいそんな感じや。一貫して少し期待外れやったと言ってきたけど、デモで見せてくれたものの中には非常に印象的なものもあったと思った。両方持つのはよいことやと思う。少し期待外れやけど、やったことの中には印象的なものもあると思う。そしてそれがワイの立ち位置や。

新しいChatGPTが完全にクソやとか、史上最高のものやとか言う超バイナリな人間やない。真ん中のどこかや。本当に印象的なものと、本当にクソなものがある。時間が経つにつれて、クソなものがより多く解決されて、本当に印象的なものがより泡立って良くなることを望んでる。

それがワイが望んでることやし、このようなものを使う消費者も同じことを望むべきやと思う。理想的にはワイらの生活をより良くしてくれるからや。

これが今日君に向けて持ってるもんや。これを楽しんでくれたことを願ってる。すべてのChatGPTドラマで起こってることについて、もう少し詳しく知ることができたと感じてくれることを願ってる。

これらの話がより展開するにつれて、フォローし続けて、アップデートを作り続ける。最新のAIニュースを最新の状態に保ち、最新のAIツールのデモやチュートリアルを入手したいなら、この動画にいいねして、このチャンネルを購読することを確認して。最新のAIの世界のクールな進歩について、YouTubeフィードにより多くの動画が表示されるようになる。

今日ワイと一緒にオタクしてくれて本当にありがとう。本当に感謝してる。次の動画で会えることを願ってる。バイバイ。

今日ワイと一緒にオタクしてくれて本当にありがとう。このような動画が好きなら、いいねして、このチャンネルを購読することを確認して。このような動画がもっとYouTubeフィードに表示されるようになる。まだやってへんかったら、futuretoolsをチェックして。すべてのクールなAIツールと最新のAIニュースを共有してる場所や。素晴らしい無料ニュースレターもある。改めてありがとう。本当に感謝してる。次の動画で会おう。

コメント

タイトルとURLをコピーしました