GPT-5への批判!本当にそんなに悪いのか?詳しく見てみよう!

GPT-5、5.1、5.2
この記事は約12分で読めます。

この動画は、OpenAIのGPT-5リリース後に巻き起こった賛否両論の反応について詳細に分析している。投稿者は自身のYouTubeチャンネルとTwitterでの調査結果を基に、実際にGPT-5を悪いと評価したユーザーは少数派であることを示しつつ、ユーザーが抱く具体的な不満点や技術的な問題点を客観的に検証している。特にOpenAIが従来モデルを一斉に廃止したロールアウト戦略の失敗や、ユーザーエージェンシーの軽視について言及し、AI業界における製品展開の課題を浮き彫りにしている。

GPT-5 Hate! Is it really that bad? Let's take a closer look!
All my links:

GPT-5への賛否両論の反応

GPT-5の評価は、控えめに言っても賛否両論やった。TwitterやRedditなんかのプラットフォームで、めちゃくちゃ早い段階から批判が殺到したんや。

ワシのチャンネルを長いこと見てくれとる人なら知っとると思うけど、ワシはOpenAIに対して時々厳しいこと言うたりするし、他のAI企業に対してもそうや。その点ではちょっとスクルージ・マクダックみたいなもんで、新しいモデルに対してはいつも懐疑的なんや。でもGPT-5については、その知能や他の能力に関してはけっこう感心したで。せやけど公平を期すために、満足してない人たちがぎょうさんおることも示したいと思う。

何が起こっとるかを例示するために、これはGPT-5についてのRedditのトップ投稿の一つや。「GPT-5はひどい」って言うて、短い返答、うざったいスタイリング、個性の欠如、云々って感じや。もちろんその後いくつかアップデートもあった。もしこの辺のこと知らんかったら、批判は非常に素早かったんや。

OpenAIの致命的なロールアウトミス

OpenAIが犯した主要な間違いの一つは、ChatGPTの他の全モデルを一気に終了させて、全部GPT-5だけに切り替えてしもたことや。技術業界にちょっとでもおった人なら誰でも知っとることやけど、そんなロールアウトの仕方はあかん。必ずユーザーにロールバックできる方法を残しとかなあかんし、段階的に進めるもんや。

まあOpenAIは技術的にはまだスタートアップやからな。ビジネスユーザーに長期間サービス提供するっていう実体験がまだ足りんのかもしれん。もうサポートしたくなくても、レガシーなもんを使い続けられるようにしとかなあかんっていうことを知らんかったんやろう。

ワシがまだWindows 10使うとることを指摘する人もおる。なんでかって?慣れとるからや。動くからや。壊れてないもんは直すな、や。ワシは根っからの南部の人間やからな。

サム・アルトマンの対応

そういうわけで、反応を紐解いてみよう。これは昨夜のサム・アルトマンからの回答や。まあ、はっきり言わんかったけど、「ワシらがしくじった」って認めたようなもんやな。

GPT-4oをみんながどんだけ気に入っとるか過小評価してたんやと。これはめちゃくちゃ興味深いことやな。なんでかって言うと、GPTのライブストリーム中にサム・アルトマン自身が言うたことがあるからや。クレオ・エイブラムスとのインタビューやったかもしれん。とにかく、サム・アルトマン自身が、ChatGPT、特に4oについて本当に心を打たれたのは、人々が感情的なサポートなんかでそれに頼っとるっていうことやって言うたんや。

せやから、コーディングや科学研究目的でGPT-5を本当に重視したっていうのは、めちゃくちゃ大きな見落としに見えるな。ワシはそういう用途には十分すぎるほどやと思うし、確実にGeminiやGrokよりもそういうトピックについては賢いと思う。

「みんながそんなに気に入っとるとは思わんかった」って言うけど、それは擁護できる議論なんかよう分からんわ。多分彼らはほとんどのユーザーがどこにおるかとか、どこから一番お金が入ってくるかに集中しとって、実際にはもうすでに多くの異なる市場セグメントにサービス提供しとるっていうことに気づいてなかったんやろうな。

7億人の日間ユーザー、総計10億人以上のユーザーがおるんやったら、明らかに異なるニーズを持った異なる人たちにサービス提供しとるわけや。ChatGPTみたいな汎用製品を持っとったら、異なるニッチ、まあニッシュでもええけど、が発展していくもんや。

せやから、それは後から考えたら「そりゃそうやろ、何が起こると思っとったんや?」って感じやな。もちろん非常に異なる意見があるのは当然や。最適化の面で、使用制限に不満を持っとる人もおる。OpenAIが新しいモデルをリリースするたびに、いつも使用制限があったり、システムがダウンしたりするからな。

もうそろそろローンチがうまくなってもええはずやと思うんやけど、あるいはゆっくりスケールアップするっていうことを痛い思いをして学んだはずやと思うんやけどな。みんなにできるだけ早くサービス提供したいっていう気持ちは分かるけど、もうちょっとデータを掘り下げてみよう。

データから見る実際の評価

インターネット上では悪いニュースは早く伝わるし、ネガティビティは反響するもんや。それが怒りを煽るためのもんでも、人為的に強化されたり誇張された怒りのネタでも、本物の感情的な苦痛でも、そういうもんは全部早く伝わるんや。

まあインターネットの投票は話半分に聞いとけってことやけど、ワシのYouTubeとTwitterの両方で、だいたい似たような比率が見えるんや。ChatGPT、いや、GPT-5を使った人の中で、悪いと思っとる人の割合は非常に少数派やった。

YouTubeでは3%だけやった。まあ確かに、使った人の3分の1、約半分の人は無関心やったけどな。「まあまあ」「どうでもええ」っていう感じや。Twitterでも同じような感じで、非常に僅かな多数の人が、まあ「使ったことない・意見なし」を除いて計算したら、僅かな過半数の人がええと思っとる。中程度の数の人が「まあまあ」と思って、非常に少数、小さな少数派が悪いと思っとる。

これがデータの示すところや。もちろん選択バイアスがぎょうさんある。まず第一に、ワシをフォローしとる人たちっていう選択やからな。ワシが過去にOpenAIのファンでもあり批判者でもあったっていうことを知っとる人は多いやろう。せやから、ワシを回し者やとか言わんといてな。彼らからお金もらってないし、特別扱いもされてないから。

彼らがええこともしたし、悪いこともした。でもワシの視聴者からのデータが客観的に示すのはこういうことやっていうのを共有したかったんや。明らかに、ユーザーベースの3~7%があんたらがやったことは完全に悪いと思って、あんたらが提供してた他の製品を好んどるんやったら、うまく動いてた製品の価値を破壊する理由なんてないやろう。

せやけどそれはどういう意味なんや?多分彼らは4oをもっと安くて速くし続けることができるんやろうな。そうしたら、「この製品で十分や。これがワシの欲しいもんや。これがワシの必要なもんや。それ以上のもんは要らん」って言う十分な人にサービス提供できるわけや。

ワシみたいなパワーユーザーや他の多くの人たちは、いつもコンテキストサイズ、知能、推論、計画、そういうもんの限界を押し広げとる。でも、みんながワシみたいに使うわけでもないし、他のコーダーみたいに使うわけでもないんや。

フロンティアモデルの方向性への長期的影響

これが持つかもしれん長期的な影響の一つで、ワシはまだ決めかねとるんやけど、これがフロンティアモデルの方向性の二分化を引き起こすかどうかっていうことや。今のところ、すべてを一つのモデルに投入することの複合的な利益はまだ見られとる。

数学、推論、マルチモダリティ、そういうもんや。せやから、特殊化での二分化はまだ見られんと思う。なんでかって言うと、一般的に言って、これまでのところ分かっとることは、モデルが推論や数学や文章でうまくなるほど、他のすべての分野でもうまくなるっていうことや。そういうスピルオーバー効果があるんや。

でも長期的には、非常に特定の用途のために特別に作られたモデルを持つのが合理的かもしれん。ただのチャット用、ただのコンパニオンシップ用の特注モデルとか、テキストだけに焦点を当ててマルチモーダル機能を持たないものとか、そういうアイデアや。そうすることで効率性を中心に本当に最適化できるからな。覚えといてほしいのは、これらのAI企業の多くはまだ利益を出してないっていうことや。せやから、損失ではなく、プラスのマージンで運営できるように、彼らが運用するのに十分安い価格になるまで製品を最適化する必要があるんや。

客観的な苦情の内容

最後に、人々が持っとる客観的な苦情を示したいと思う。Perplexity Proを使って、いろんなソースをまとめて収集したんや。1、2日前にこれを実行したから、多分アップデートされた情報もあると思うけど、引用はあるで。

人々が文句を言っとることは、短いロボット的な返答と個性の減少や。これはスタイルプロンプトで変えられるんやけど、多くの人はスタイルプロンプトの書き方を知らんかったり、カスタム個性を使わなかったりするんやろう。ワシのチャットボットには、ワシが望む正確な個性がある。ワシにはコマンダー・データとスポックみたいに話してもらいたいんや。それは最高や。

そうしたかったのは、ワシは無駄話をうんと少なくしたかったからや。誰かがそれを表現した方法は、非常に高い洞察対単語比率が欲しいっていうことや。

次は推論と深さにはプロンプトエンジニアリングが必要っていうことや。これは常に真実やった。でも人々が文句を言っとったのは、モデルルーティングのことやったと思う。モデルルーティングがどう動くかはよう調べてないから分からん。

基本的にGPT-5は、思考が必要かどうかを自分で決めるんや。でもワシはProプランに入っとるから、「GPT-5 thinkingを使え」とか「GPT-5 Proを使え」って言える。せやから、本当にやりすぎてもらいたいときは、Proを選ぶだけや。せやからワシには問題じゃなかった。でも確実に、この仕事にはどのツールを使いたいか分かっとるって言う能力がなかったら、非常にイライラするやろうなっていうのは理解できる。

あんたが選ぶんやない。ワシが選ぶんや。ワシがツールを選ぶんや。これはユーザーエージェンシーに戻る話で、ワシがしばらく前から話しとることや。画像生成器でも、動画生成器でも、チャットボットでも、あんたの意図を無視して、あんたの意図が分かっとるのに、ビジネス上の理由とか、アライメントの理由とか、倫理的な理由で自分の判断をするときは、腹立つもんや。

せやから、もし人々がそれが自分たちの意図をハイジャックしとると感じたら、なんで人々が激怒するかは理解できるわ。

次は大きなアップグレードはなく、段階的な変更のみっていうことや。これはワシの最初の反応でもあった。動画を生成せんし、画像をより良く生成せんし、音声アーティファクトも生成せん。基本的にはただのより賢いチャットボットで、ワシにとってはそれは非常に失望やった。

せやから、同感や。次は複雑なコード生成でのバグと問題や。これまでで最高のコーディングモデルやって言っとるけど、まだ文句を言う人もおる。これは多分期待のインフレーションやないかと時々思うんやけど、人々が最初にすることは、持っとる一番難しい問題でそれを叩くことやからな。

同時に、それは多くのベンチマークで最高性能のモデルやし、バグなしでワンショットコーディングチャレンジをライブで見せたりもしたけど、他の人が指摘したように、400行のコードで簡単なPythonゲームをコーディングするのは、GitHubや他の場所で十分な例を見とるから、大局的に見て特に印象的っていうわけでもないんやけどな。

ワシはコーディングは使わんし、コーディングやスクリプティングはしばらく前にやめたから、それについて個人的な意見はないんやけど、サム・アルトマンが「オンデマンドでソフトウェアを持てるようになる」って言うといて、それでも基本的なスクリプトで失敗するんやったら、オンデマンドソフトウェアからはもうちょっと時間がかかるっていうことやな。

予測不可能で不透明な思考モード

予測不可能で不透明な思考モードっていうのは、推論と深さにはプロンプトエンジニアリングが必要っていう他の問題と重複しとると思う。何をしとるかよう分からんっていうことや。これもユーザー選択に戻る話や。

MetaとFacebookに戻ると、マーク・ザッカーバーグがSaaSと特にUXのためにした最高のことの一つは、ユーザーにもっと選択肢ともっと力を与えたことや。Facebookを成功させた哲学の一つは、できるだけユーザーの手に力を置くっていうことや。イベントやグループやその他なんでも作る能力を彼らに与えて、あとは好きにさせる。サンドボックスを与えるんや。OpenAIがユーザーエージェンシーを削除したとき、それは本当に人々の機嫌を損ねるんや。

制限の増加とプロンプト制限については、もうすでに言うたから繰り返す必要はないな。基本的な事実や最新の出来事で失敗するっていうことについては、トレーニングカットオフデータがまだ古すぎるって文句を言う人もおる。これは興味深いことで、特にGrokがリアルタイム更新されとる、少なくとも彼らはそう言っとる。

でももちろん、GrokはTwitterに直接接続されとるから、最新の情報を持つことになる。Grokについてワシが気づいた別のことは、それが設計上、すべてのトピックについて可能な限り最新の情報を探すようになっとるっていうことや。ある種の仕事、ジャーナリストやったり、雇用報告書とかそういうもので何が起こっとるかを把握しようとしとったりするんやったら、それは理想的やろう。Grokはそういうことには素晴らしいツールや。

GPT-5がいつ検索すべきかを常に知らんのやったら、それは問題かもしれん。エージェント能力の顕著な低下については、これはワシがライブストリームでも指摘した大きな失望でもあったんや。彼らは「より長いタスクを自律的に実行できる」って言うて、それで終わりやった。

コンピュータ使用エージェントやエージェントテストについては何も話さんかった。それ以上は何もなしや。せやから、エージェント性を控えめに表現したように見える。これはワシの憶測やけど認めるわ。でも多分彼らはエージェント面をより良くするのに苦労しとるのかもしれん。誰にも分からん。

多くの人がコスト削減であって進歩ではないと感じたって文句を言っとる。確かにより安くて速いモデルやし、それはUXをかなり向上させると言うわ。ワシが今Grokについて気に入らんことの一つは、基本的な質問をしても、やたら長い時間検索し続けることや。

一方でワシはPerplexityに行って「これを聞いて」って言うだけで、彼らの特製モデル、レーダーモデルを使って、3秒くらいで答えを出し始めるんや。めちゃくちゃ速い。それはええことや。

せやから、モデルが十分速くて「十分良い」という閾値に達したら、特定のクエリや問題に対してあまりにも多くのリソースを投入するっていうことは確実にあるんや。

まとめ

そういうことで言いたかったのは、GPT-5への反応は賛否両論やったっていうことや。ワシはまだそれは本当に強力なモデルやと思っとる。でもそれは、ワシの特定の用途、労働後経済学のフロンティア研究に本当によく合っとるからや。GPT-5は今のところ、そういう種類の仕事には断然最高のモデルや、間違いなく。でもそれは一つの意見で、一つの用途に過ぎんっていうことは理解しとる。

最後まで見てくれてありがとうございました。元気でな。乾杯。

コメント

タイトルとURLをコピーしました