新GPT-5は失敗作？OpenAIは新モデルで正解したのか間違ったのか？ベンチマークは信頼できるのか？

OpenAIが発表したGPT-5に対するユーザーの不満と批判を関西弁で解説した動画である。期待値の高さに対して実際の性能が物足りなかったことや、従来モデルへの選択権がなくなったことへの不満が噴出している。また、AI評価に使われるベンチマークの問題点について、人間の学習プロセスとAIの学習プロセスの根本的な違いを指摘し、人間向けの評価方法がAIには適用できない理由を詳しく論じている。

NOVO GPT-5 Flopou? OpenAi Acertou ou Errou No Novo Modelo? Dá Para Confiar em Benchmarks?

Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

GPT-5への失望の声
期待外れだったGPT-5
旧モデルへの回帰オプション
Reddit上での不満の声
具体的な問題例
ベンチマーク詐欺の問題
サム・アルトマンの説明
今後の改善予定
なぜベンチマークは機能しないのか
まとめと今後の予定

GPT-5への失望の声

みなさん、どうやらGPT-5があんまり評判よくないみたいで、この新しいバージョンのChatGPTに文句言うてる人がぎょうさんおるんや。何が起こっとるんか理解してみよか。サム・アルトマンがこのことについて何て言うたんかも見てみるし、俺も改めてベンチマークについての意見を強調したいと思うねん。ベンチマークっちゅうのは、AIがどんどん賢くなっとるかどうかを評価する方法やねんけど、なんで俺がそれが機能せえへんと思うとるんかも説明するわ。

いつもライクしてくれる皆さん、チャンネル登録してくれる皆さん、ありがとうございます。特にこの人工知能チャンネルをスポンサーしてくれとるチャンネルメンバーの皆さんには感謝しとります。メンバーの皆さんには、インテリジェントエージェントの限定動画があって、そこでWhatsApp連携の方法、PDF読み取り、MCP連携も教えとるし、先行配信動画も見れるようになっとるで。

期待外れだったGPT-5

今日のニュースはこれやな。GPT-4をリリースした時は、めっちゃ怖そうなドラゴンやった。GPT-4を出した時も、ドラゴンはさらに恐ろしくなっとった。でもGPT-5になったら、舌をぺろっと出したあほらしい小さなドラゴンになって、誰も怖がらへんようになってもうたんや。

GPT-5が大失敗やった理由の最初の部分は、それが良いモデルか悪いモデルかとは関係ないねん。もっと期待値の問題や。めっちゃ長い時間かけて、GPT-5は素晴らしいものになるって煽り続けてきたからな。でも俺のチャンネルをもっと長く見てくれてる人やったら知ってるやろうけど、俺はずっと言うてきたんや。GPT-5は大したことないで、古いモデルのルーターになるだけや。何も巨大な新機能を提供するつもりはないって。でもそれでも、サム・アルトマン自身がGPT-5のリリースを台無しにしてもうて、こんなことになってしもたんや。

Twitterの連中はこんなこと言うとるで。GPT-5が約束したものと実際に提供したものや。約束は素晴らしいエッフェル塔やったのに、実際に提供したのは送電塔や。めっちゃシンプルでショボい奴な。それで皆がこんなの共有し始めたんや。「GPT-5思考中」って、サム・アルトマンの顔を上向きにして、まるで永遠に考え続けて何の結論にも達せえへんみたいな感じにして、期待通りにいってへんことを表現しとるんや。

旧モデルへの回帰オプション

何人かの人が気づいたことがあるねん。コメント欄でも言われとったけど、GPT-4oを使いたい場合に古いモデルに戻る方法を提供してくれとるんや。

ここ見てもらったらわかるやろうけど、GPT-5があって、アップグレードするように言うてるProがある。でも設定に行って、ここのsettingsをクリックしたら、メニューが開いて、この一般タブで、「レガシーモデルを表示」っちゅうのがあるんや。古いモデルのことやな。

それを有効にしたら古いモデルが表示されるようになって、GPT-5に戻った時にレガシーモデルが出てきて、GPT-4oが再び表示されるんや。完璧にするためには、o3も一緒に入れといてくれたらよかったのに。基本的には、俺がよく使ってた2つのモデルやからな。4oはランダムな質問用で、o3はもうちょっと具体的な質問用やった。

Reddit上での不満の声

Redditでは、いろんな人がサブスクリプションを解約するって投稿してるで。「2年後に俺のサブスクリプションを削除した。OpenAIは俺の尊敬を全部失った」って。別の人は「GPT-5はひどい」って。別のコメントでは「OpenAIはAI史上最大のクリックベイトを押し付けてきた。もううんざりや」って。

また別の人は「o3、o3 Pro、4.5、4oを戻してくれ」って言うとる。この人が4.5を戻してくれって言うのは変やな。それも尊敬失ったモデルやのに、o3、o3 Pro、4oはわかるけどな。別の人は「ChatGPT-5はそれ以来最悪のモデルや。本当に腹立たしくて、もう物語書けへん」って言うとる。

俺の場合は、サブスクリプションがちょうど今の時期に切れて、今月はClaudeをテストしようと決めてたんや。結局、俺のサブスクリプションが切り替わりの瞬間にぴったり終わったんや。正直言うて、俺はGPT-5が悪いとは思わへんかった。気に入ったで。でも好きなモデルを選択できへんのが寂しかったな。

つまり、GPT-5があって、モデルを選択するオプションがあるんやったら、結局モデルを選ぶことになるやろうな。特に俺はo3と4oしか使ってへんかったからな。でも俺が気に入ってて、サブスクリプションに戻ろうかなと思わせるのは、テキスト付きの画像生成や。俺の経験では、まだええ画像を提供してくれるし、プロンプトへの対応がめっちゃ強くて、テキストもきれいに整列されとる。

でも昔ほど画像を生成せえへんようになったから、今はもうそんなに縛られてへんし、それだけが理由やったら、外部の代替手段、例えばFluxの最新バージョンなんかを探す方が価値があるかもしれへん。

具体的な問題例

別の人がこんなコメントしとる。「サム・アルトマンとGPT-5について。どんな分野でもPhDレベルの専門家が手に入るで」って言うてたのに、その人が「北アメリカの地図を描いて、国、州、首都を強調してくれ」って頼んだら、GPT-5がこんな変な地図を返してきたんや。

例えば、ここのカナダは、本来は上の部分全部のはずやのに、結局この小さな領域だけになってもうた。確かにここには正しいところもあるけど、例えばこの右端には間違いがいっぱいあるし、間違ったテキストもいっぱいあって、どのレベルのPhDとも言えへん。これだけ間違いがあったら、PhDレベルとは言えへんで。

それで彼女はこう結論づけたんや。「サム・アルトマンは、博士レベルの専門家がすべての地理の授業でChatGPTを使ってカンニングしてたことを言い忘れてた」って、皮肉を込めて言うたんや。

別の投稿もおもろかった。「GPT-5が俺のコードベース全体を一回の呼び出しでリファクタリングしてくれた。25回のツール呼び出し、3000行以上の新しいコード、12個の新ファイル、全部モジュール化して、モノリスを解体して、スパゲッティを整理してくれた。何も動かへんかったけど、見た目は美しかった」って。明らかに、俺らが期待してたあの魔法は、少なくとも今のところは起こらへんってことを示しとるな。

ベンチマーク詐欺の問題

別のおもろいミームもあったで。「GPT-5、お前の数字はえげつないな」って。GPT-1、2、3、4、5のバージョンがあって、5のところに巨大なバーがあるんや。でもこのスケールを見てもらったら、バージョン1では1がここにあって、2では2がここ、3では3がここ、4では4がここにある。理論的には5はここにあるべきやのに、それがGPT-5のレベルになるはずやったんやけど、4.1、4.2、4.3って5に到達するまでやったから、5の値がめっちゃ上がってもうたんや。だから、これはベンチマークの問題かもしれへんな。

別のユーザーはこうコメントしとる。「GPT-5は客観的に失敗や。ルーターは悪いし、出力は信頼できへんし、使用制限の質がめっちゃ落ちた。終わりや」って、雪の中で横になって人生について考えてる悲しい顔の奴を貼り付けて、これから何をするべきか考えとるみたいな感じにしとった。

サム・アルトマンの説明

リリース直後に、サム・アルトマン自身がいくつかの説明をしたんや。彼はこう言うたんや。「俺らは確実に、GPT-5が大部分の面でより良いパフォーマンスを示してるにも関わらず、人々がGPT-4oのどの部分を気に入ってるかを過小評価してた」って。

俺が思うには、俺らをモデル選択に慣れさせといて、急に一夜にしてモデルを取り上げるんじゃなくて、段階的にやるべきやったんちゃうかな。使用頻度の低いモデルから徐々になくしていって、5と一緒に残しとくのが筋やったと思うで。

「ユーザーは、高度な推論モデルではなく、単なるチャットモデルとしてのGPT-4oに対するGPT-5の相対的な強さについて、めっちゃ異なる意見を持ってる」って彼は言うた。

「長期的には、これは異なるユーザーが物事をカスタマイズする効果的な方法を見つける必要性を強化した。万人に通用する単一のモデルは存在しないことを理解してるし、俺らは方向性に関する研究に投資して、異なるパーソナリティのプレビューを開始した」って。

これは理にかなっとるな。今から来た人で、古いモデルを使ったことがない人は、あんまり文句言わずにGPT-5を使い始めるやろう。結局、時間をかけて何が起こったかの記憶や経験がないからな。でも俺のチャンネルを見てくれてる皆さんみたいに、毎日一緒についてきてくれて、リアルタイムですべてのモデルが作られるのを見てきた人らにとっては、もうChatGPTを使ってた人には悪い経験になってもうたんや。なんかおかしなことになってしもたな。

今後の改善予定

「俺らはGPT-5の実装を完了して安定化させることに集中する」って彼らは言うとる。これは俺もリリース時点で期待してたことや。俺も問題については既にコメントしてたし、時間が経てば修正されるやろうって。例えば、クォータを超えた時にメッセージ送信をブロックするあの問題なんかもな。

だから、時間が経てばこういうことは改善されると信じとる。「その後、GPT-5をより柔軟にするためのいくつかの変更に集中する」って彼らは言うとる。そして「ユーザーごとの本当に良いパーソナライゼーションにはもっと時間がかかる」って言うてる。

俺は個人的に、自動化されたもの、他人の代わりに決定しようとするものは、どんな製品でも、人に自動化された製品の使用を強制する時は、必ず問題が起こると思うてるんや。これはどんな自動化にも当てはまる。車の自動変速機も問題を起こすし、自動チャットも問題を起こす。自動的なものはいつか何か望まないことをして、止められへんようになるんや。それでその災害を見てるしかなくなるんや。

「チームは俺らのシステムを最適化して、より多くの容量を見つけるために英雄的な作業をしてるけど、それでも来週、つまり今俺らが話してるこの週にとって大きな容量の課題に直面してる。まだ何をするか決めてるところやけど、俺らの原則については透明にする。明らかに俺らがする妥協点をすべての人が気に入るわけではないけど、少なくとも俺らがどのように決定を下してるかは説明する」って彼は言うてる。

「俺らへの忍耐に感謝してる。俺らは引き続き迅速に反応して改善していく」って彼は最後に言うた。つまり、人々が今報告してる問題を改善して解決しようとするってことや。

俺は完全に理にかなってると思うで。GPT-5のリリース動画へのコメントを見てたら、多くの人が気に入らへんかったし、多くの人が不満やったからな。その時の俺の経験は、確かにいくつかのコードが壊れたってことやった。物事を動かすのにちょっと粘り強さが必要やったけど、最終的には動いた。それで古いモデルが恋しくなったんや。古いモデルやと、お願いするだけで何か動くものを提供してくれとったからな。でもゆっくり見守っていこうや。物事には時間が必要やからな。

なぜベンチマークは機能しないのか

でも一番大事なのは、結局なんでベンチマークが機能せえへんのかってことや。なんで間違った結果を出しとるんや？これを理解するためには、テストや試験のモデルが人間の知能を評価するために作られたってことを考えなあかん。

人間の知能には特徴があるんや。例えば、それは進化的で段階的や。だから人間では、2+2の計算を学んで、次に2×2を学んで、そうやって進んでいく時に、これが基礎になってもっと難しいことを学ぶんや。だから、x²+3みたいな公式にたどり着いた時に、x²を計算するためには掛け算が必要やからな。xが2回掛け合わされるから。

だから、これを知るためには、段階的な基礎が必要なんや。大学に入って微分積分、導関数、積分、あのややこしいのをやる時に、もしその難しいテスト、難しい情報でテストをしたら、既にそれを学んだことを確認できるし、これも学んだことを確認できるんや。

だから人間の場合、めっちゃ難しいテストを受けさせたら、答えなかった部分も自動的に埋まるんや。その難しい質問に答えるためにはそれを学ばなければならなかったってことが分かるからな。

でも人工知能の場合はちょっと違うんや。例えば、人工知能に100万冊の本を読ませることができる。100万冊の本を人工知能に読ませることができるんや。その100万冊の本について質問したら、すべての本の物語について答えてくれる。でも文法について質問したり、識字について質問したり、BとAでバ、FとAでファみたいな基本的なことを質問した時、これらの基本的な基礎については、100万冊の本を読んだ人工知能が、明らかにその本について答えを出しとるからって、文法を理解してるとか、言語の学習方法を知ってるとは断言できへんのや。

でも俺ら人間やと、100万冊の本を読むことができたら、明らかに識字の記憶があるし、明らかに文法の記憶、構文解析、名詞、形容詞、動詞、そういうのを知ってるし、一緒に学ぶことになるんや。

だから人工知能の学習方法はめっちゃ、めっちゃ、めっちゃ違うから、俺らが人間について導き出せる結論、推測できる結論は人工知能には当てはまらへんのや。本当に俺らが思ってるより知識が少ない可能性があるんや。めっちゃ難しい答えに正解したとしてもな。

だから俺らはその辺のペテン師の罠にはまってるんや。ベンチマークに基づいて進歩してる人工知能にな。明らかに、何らかの形で賢くなってはいるんや。以前は正解できへんかった問題に正解し始めたってことは、明らかに学習してることを示してるからな。でも同時に、人間に使われる評価を使って、人間に当てはまる結論が機械にも当てはまるって信じるのは間違いやで。

まとめと今後の予定

この俺が言うてることにもう気づいてたかどうか、コメントで教えてくれ。人工知能の評価と人間の評価の違いについて、他に付け加えることがあるかもコメントしてくれや。だから人々がそれらのテストの数字を気にせえへんようになってきてるんや。確実にそんなに意味があるもんちゃうからな。

でもこの全体の進化を見守っていこうや。このことはめっちゃおかしくて、どんどん面白くなってきてるからな。こんな動画を見続けたいんやったら、チャンネルをサポートして、メンバーになってくれ。メンバーはインテリジェントエージェントの限定動画と先行配信動画にアクセスできるで。ライクも頼むわ。

最後まで見てくれた皆さんには、チャンネルの次のステップについてちょっとした詳細、小さなスポイラーを教えたるで。インテリジェンス1000度スタジオは今月引っ越しすることになったんや。だから新しいことを期待しといてくれ。シーンも多分変わる。ちょっと悪くなる移行期間があるかもしれへんけど、その後は改善することを期待してるで。

これが俺が最近動画を撮ってへん理由の一つでもあるんや。もう来るべきものの準備段階に入ってるからな。だから多分次の動画から新しいことが出始めるで。どの動画から始まるかは正確にはわからへんけど、準備しといてくれ。変化が来るで。今月8月にな。

チャンネルをフォローしてくれる皆さんの視聴に本当に感謝してるで。このエンゲージメントのおかげでチャンネルが成長してて、俺らが変更を始めることができるようになったんや。チャンネル以外でも新しいことがあるで。並行して起こってることもある。すべてがうまくいけば、近々サンパウロに旅行に行く予定や。それが実現したら、サンパウロでいくつかコンテンツを作ろうと思ってる。

つまり、もし君がポッドキャスト、大学、AIの講演を求めてて講演者を探してる場所の人やったら、インスタで連絡してくれ。サンパウロ滞在を活用して、イベントのスケジュールをいっぱいにしたいからな。だから、講演について話してる人らをインスタで探して、物事が理にかなうか、何かスケジュール組めるかを見てみるから、インテリジェンス1000度で探してくれや。

だから先にお礼を言わせてもらうわ。すべてがうまくいけば、サンパウロで会おうな。