GPT-5が失敗。AGI中止。すべて終わった…

GPT-5、5.1、5.2、5.3
この記事は約13分で読めます。

OpenAIが新たにリリースしたGPT-5に対する評価が賛否両論となっている中、その実態を詳細に分析した内容である。ゲイリー・マーカスによる厳しい批評や数学的計算の失敗例が紹介される一方で、高度なコーディング能力やゲーム開発における驚異的な性能も示されている。モデルのルーティングシステムの問題点や、最大推論モードでの真の能力について考察し、AGI到達への現実的な見通しを検討している。

GPT-5 Fails. AGI Cancelled. It's all over...
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

GPT-5への賛否両論の反応

みんな待ちに待ってたGPT-5がついに過去24時間でリリースされたんやけど、結果は控えめに言っても賛否両論やな。ゲイリー・マーカスはGPT-5がめっちゃ期待外れやって言うてる。その多くはただの誇大宣伝とマーケティングやった。これはAGIへの道やないって。この投稿では、OpenAIが遅れをとってることについて具体的に話してるんや。

でも他の投稿では、イーロンやロックみたいな連中がAIデータセンターに大金をつぎ込んでるけど、それらの賭けはおそらく報われへんやろうって言うてるんや。なんでかっていうと、AGIに近づいてへんからや。同じモデルがリリースされたのに、これだけ人々の意見が分かれるのは本当に興味深いな。

GT5で俺のコードベース全体を一回の呼び出しでリファクタリングしてもろたんや。何も動かへんかったけど、めっちゃ美しかったわ。チャドの失望や。GPT-5がAI高揚バブルを破裂させた。ストーリーが一夜にして変わったんや。GPT-5は期待外れや。幻覚を起こす。大きなルーターが俺を失望させ続けてる。GPT-5はSimple Benchで人間のベースラインよりもはるかに良い成績を出すって噂されてたんや。

どうやらそうではないみたいやな。5位におるように見える。数学はどうや?今まで見た中で最高やで。従来のモデルは様々な数学の問題に正確に答えることができたんや。このモデルは俺たちが知ってる数学を完全に再定義してくれる。ここで見てもらったら分かるように、69は30と等しいんや。

数学計算の問題と批判の声

オッケー、69は30と等しいんやけど、69は52より小さいんやで。今日は何か学んだやろ。どういたしまして。何が起こったのかさっぱり分からへん。これは俺の理解を超えてる。どうやらRedditはこれを嫌ってるらしい。みんなサブスクリプションを削除してる。OpenAIは全ての尊敬を失った。これは高評価されてる。多くの人が同じ気持ちを表明してるんや。

それで、何が起こったんや?AGIはキャンセルされたんか?俺たちは停滞期に入って、これから先AI進歩はないんか?ちょっと分析してみよう。

まず第一に、GPT-5がやったことの一つで、もしちゃんとやってくれたら俺たちの多くが楽しみにしてたことがあるんやけど、今のところ、現時点では全然うまく動いてへん。それがルーティングや。

GPT-5に何かを頼むと、「よし、こいつを大きな賢いモデルに送るか?それとももうちょっと速くて安く使えるやつに送るか?」って判断しようとするんや。「こいつのリクエストはどれくらい大きいんや?どれくらいの推論能力を割り当てる必要があるんや?」ってな。

俺たちの多くがこれを楽しみにしてた理由は、いろんな小さなモデルがあって、時々混乱したり、間違ったモデルにおったり、正しいのを選ぶのがちょっと面倒やったからなんや。開発者やったら、特定のモデルに特定のことをやってもらう必要がある状況もある。それは助かったんや。特定のタスクに使いたいモデルをカスタマイズできるからな。でも日常的な使用の多くでは、もうちょっと合理化されてたらええなって思ってたんや。

ルーティングシステムの問題点

でももちろん、これは人々がよく最高のモデルを使うってことを意味してた。お金がもっとかかるし、もちろんそれはOpenAIにとって経費になる。だから、こういうことが起こってる理由の一つは、経費を減らして利益を増やすために、安いモデルに回しすぎてるって事実やと思ってるんや。

OpenAIの一員であるRuneが「ちなみに、モデル自動切り替え機能が壊れてるみたいで、だから正しくルーティングされてないんや。すぐに修正される」って返信してくれた。これが人々が理解する必要がある本当に大きなことやと思うんやけど、GPT-5は一つのモデルやないってことや。だから人々が「GPT-5は心を吹き飛ばすほど素晴らしい」って言うのは、おそらくGPT-5が心を吹き飛ばすほど素晴らしいことをやったからやろう。

そして「ひどい、俺が頼んだ基本的なタスクに失敗した」って言ってるなら、それもおそらく本当やろう。この時点で、俺を含む多くの人が見てきたのは、これらのモデルに難しい推論タスクを与えて、最大推論モードにルーティングされるようにしたとき、結果はかなり驚くべきもので、心を吹き飛ばすようなものやった。

昨日俺の結果をいくつか紹介したけど、かなり良かった。あれらはワンショットやった。つまり、一つのプロンプト、一つの出力で、結果はかなり見事やった。今まで見た中では間違いなく良かった。これはワンショット以上のものや。Vampire Survivorsゲームを知ってるやろ。これはNightfall Survivorsや。

ゲーム開発での驚異的な性能

音も含めてどんな感じか後で見せるで。実際に音楽と効果音を追加したからな。でもここで見てもらったら分かるように、めっちゃスムーズや。すごくよく動く。HPシステム、レベリングシステムがある。弾薬の再装填もある。特定の場所にダッシュして爆発させるダッシュ機能もある。

使用回数は限られてて、時間とともに回復するんや。Razor Instinctとドローンをアップデートできるんや。周りを浮遊して敵を撃ったり動きを遅くしたりする複数のドローンが出てくる予定や。これは本当にスムーズな感じや。すごく良い感じで、既存のコードに反復作業するのがとても簡単やった。モデルが何かを台無しにしたことは一度もなくて、一つのことを追加して全体が壊れるなんてことは全然なかった。

そんなことは一度も起こらへんかった。フレッシュ・ミート。戻ってくるで。フレッシュ・ミート。このゲームの開発は楽しかった。とても簡単で分かりやすい感じやった。モデルを一つのウィンドウで動かして、index.htmlファイルを別のウィンドウで開いてたんや。だからアップデートするたびに、リフレッシュを押すだけで新しいバージョンのゲームがプレイできるようになる。モデルが次の反復作業してる間も、俺はテストし続けられた。

そしてかなり速かった。だから俺が欲しい次の機能を追加する作業をしてる間、こっちで考えてるのが見えるんや。ここで俺は別のウィンドウでゲームをテストしてた。これは美しく完璧な開発フローって感じやったな。リアルタイムで異なる機能が追加されるのを見てて、テストして、何に取り組むか指示できる。すごい感じやった。バイブコーディングっていうアイデア、その意味が本当に分かったわ。頭にアイデアが浮かんだらすぐに実行して、普通は1分以内にライブで見られるっていう、その速いペースの反復が。

今のところ、これは俺が使った中でその作業に最適なモデルの一つやと思う。新しいClaude 4.1と直接対決でテストせなあかんけど。でも今のところ、このモデルは俺の期待を満たして、それを上回ってる。ここがポイントや。Cursorでテストしてるとき、ここで見てもらったら分かるように、GPT-5 Maxを使ってる。これはコスト非敏感な上級ユーザー向けの最大コンテキストウィンドウを有効にしてるんや。

正しいモデル選択の重要性

だから、俺は自動モデル選択機能を使ってない。「いや、最高級のを頼む。最高のやつをくれ。値段は気にせえへん。最大のやつをくれ」って感じや。これがヴァンパイアサバイバルスタイルのゲームを作った最初のプロンプトや。ChatGPT-5 Proを使ってるんや。ルーティングするやつは使ってない。

他のモデルに行くと、GPT-5 thinkingがあって、それを11まで上げたかったらGPT-5 Proがある。だから俺が言いたいことが分かるやろ。いろんなモデルがあって、人々がそれが良いか悪いかを言ってるけど、同じ土俵で比較してないんや。本当に最大推論能力をテストしたいなら、GPT-5 ProやMaxに設定するか。

もしくはプレイグラウンドバージョンでテストしてるなら、GPT-5で推論努力を選択できるんや。Highに設定できる。だから「これについて本当に一生懸命考えてくれ」って言えるんや。デフォルトのGPT-5を使ってるなら、「めっちゃ一生懸命考えて」とか「最大推論努力を使って」みたいなことを言って近似することもできる。

だから俺の大きなポイントは、OpenAIのルーター採用決定を必ずしも擁護してるわけやないってことや。そして今は本当にうまく動いてなくて、正しいモデルに誘導してないから、多くの人が問題を抱えて文句を言ってるっていうのが本当やったらええねんけど。

でも重要なのは、俺が「このモデルで良いものが作られてるのを見てる」って言うとき、コインを投げてどのモデルが選ばれるか見てるわけやないってことや。最大推論努力、最大モデルを使ってることを確実にしてる。最大限の努力をしてもらって、それに基づいて判断してるんや。

もしnanoモデルに誘導されて、それが悪い答えを出したとしても、それは俺がテストしようとしてることやない。俺は最高の能力で何ができるかを見ようとしてるんや。

印象的な実例の紹介

イーサン・モリックが心を吹き飛ばすようなことをやってもらったんや。「これは大きな取引」っていう語句に注目してくれ。これが出力で書いたものや。「Thunder struck here. Watch. I build worlds. See ideas become instruments. I code compose and converse.」各文は、これは1語、2語、3語、4語って感じで、各文が1語ずつ長くなってる。そして各語の最初の文字が「this is a big deal」を綴ってるんや。「this is a big deal」を綴ってる。イーサンは3D都市建設ゲームも作ることができた。

俺も実際にこれを真似できたんや。前の動画で見せたで。めっちゃ感心した。これもワンショットでやっただけで、将来はもっといろいろやる予定や。ワンショット能力としては信じられないほど印象的やと思う。もっと反復すれば、都市を作るための完全なゲームやソフトウェアを構築できそうな気がする。

GPT-5がイケてるって言ってる人がおる。何かマルチプレイヤーオンラインゲームを作ってるみたいやな。MMO RPGみたいなもんで3Dキャラクターがあって、Three.jsで作られてる。CursorとGPT-5を使って、約6分かかったらしい。俺のいくつかの実験の後やと、そんなに驚かへんかもしれん。

これは間違いなく非常に先進的に見える。俺も複製できるかどうか見てみたいけど、これが本当に6分で作られたとしても俺は驚かへんやろうな。6分っていうのは、こういうものを作るのにはちょっと短すぎる気がするけど、試してへんからな。俺のto-doリストに入ってる。

でもこれが人々が作ってる種類のものや。マット・シューマーが言ってるのは、GPT-5で悪い経験をしてる多くの人がエージェントハーネスで使ってるけど、それがまだGPT-5用に最適化されてないってことや。GPT-5でエージェントハーネスを使って悪い経験をしたなら、1週間待ってもう一回試してみてくれ。きっと良い驚きがあるやろう。

モデルの階層と能力の理解

俺の考えはこうや。ルーティングされる一連のモデルがある。そのチャートで上に行けば行くほど、OpenAIにとって実行コストが高くなるか、API使ってるなら自分にとってコストが高くなる。分かりやすくするためにIQって言うけど。

だからコストが高くて賢いんや。1番がフル GPT-5モデルで高推論努力付きや。このモデルは印象的や。コードでできることが印象的や。コーディング能力が言語能力や言葉空間での推論能力よりもはるかに優れてる段階に来てる。

だから複雑なチャートを作ってもらうとき、そのチャートを作るためのコードを生成することでそれができるなら、その出力はおそらく驚異的やろう。言葉で考えて、言葉を使って最終的な例を出そうとせなあかんなら、品質はそんなに良くないかもしれん。だからコードで何かを作ることがデフォルトになるタスクはより良い結果になる。

多くの人が「これ足すこれは?」みたいな簡単な数学の問題を聞いてて、失敗すると「あー、これはアホなモデルや」って言う。俺にとってはちょっと無意味な質問みたいに思える。なんでかっていうと、計算するためのちょっとしたコードを簡単に作れるからや。100%正解する。俺たちも複雑な数学問題に答えられへんかもしれん。

電卓に手を伸ばすやろ?道具があったら、その問題を解決できるんや。GPT-5が優秀なのは、まず第一に、指示に従うのが優秀やってことや。何を求めてるか、意図が何かを理解して、それを最終的な出力に翻訳するのが本当に上手い。ツール呼び出しと、コードを使って独自のツールを構築するのが上手い。

大規模言語モデルとニューラルネットとAIのポイントは、複雑な数学問題に答えられることやなかった。そのためには電卓がある。計算しなあかん問題、足し算や引き算、割り算なんかの問題のことや。これらのモデルがソリューションをコード化して計算できるなら、解決できるんや。

頭の中で数学をする必要はない。でもこれらが本当に得意になってきてるのは、これらのオーダーメイドのカスタム小型ソフトウェアアプリを作って、やりたいことをやってもらうことや。これらのモデルが非常に得意なのは、何かタスクを与えて、GPT-5ではこれがもっと長期的なタスクになってきてるか、中期的なタスクになってる。人間のインターンが数時間でやるようなことや。

コード生成による問題解決能力

3D都市を作って、建物の形を変えて、3Dグリッド上に一列に並べるソフトウェアを作ってくれって頼んだとしたら、コード化するのにどれくらい時間がかかる?少なくとも数時間。おそらくもっとかかるやろう。その種の作業に慣れてるなら、もっと速くできるやろうけど。

これらのポイントは、そういうタスクを与えると、そのタスクを実行するコードやソフトウェアを作ってくれることで、これがめっちゃ上手くなってきてるんや。繰り返すけど、トップモデル、より高価なモデルの話や。

だからこの議論が続いて、ある人は悪いって言い、ある人は良いって言うとき、両方とも正しいけど、同じことについて話してへんってことを覚えておいてくれ。そのタスクを完了するためのコードを作れるタスクの場合、それがExcelやったり3D建物やったり、何かのシミュレーションやったり、ガントチャート作ったり、会社の経費を分析するソフトウェア作ったりするタスクの場合。

これはそういう問題を素早く解決できる小さなアプリやツールを作るのがめっちゃ上手くなってる。これには大きな応用があって、今はその作業を信じられないほど上手くやってくれる。人々が文句を言ってる他の全ての事、ひどいって言ってることについては、彼らの言う通りや。

今後の展望と限界

そういうことは本当に下手や。そしてそういうことのいくつかは修正されるかもしれんし、されへんかもしれん。でも俺は、それができることの特定の部分にはすごく感心してる。そこには多くの可能性があると思うで。でも少し停滞が起こってるような気がして、ある種のS字カーブで大きく上向きの勢いがあったけど、少し平坦になってるかもしれんな。

どこまでもスケールできるわけやないけど、これの多くの応用を見ることになると思う。AI進歩が終わったとは思わへん。まだまだ成長の余地はあるけど、ただ大きくて大きくなるモデルが進歩の道ではないみたいやな。そして俺がこれを終わらせようとしてるとき、サム・アルトマンとOpenチームがRedditでAMAをしてる。

俺が注目したのは、GPT-5モデルについて受けたフィードバックに対するサム・アルトマンの返答の一つや。彼はいくつかのことが不安定やったって指摘してるけど、GPT-5は今日から賢く見えるようになるって。これは2時間前のことや。だからリリースから約24時間後のことや。彼は今後もっと賢くなるって言ってる。

自動切り替え機能に問題があって、一日中機能してへんかった。その結果、GPT-5がアホに見えたんや。また、決定境界がどう機能するかについていくつかの変更を加えた。だからルーターがもっと頻繁に正しいモデルを選んでくれるようになる。そして、これは俺にとって重要やと思うけど、どのモデルが特定のクエリに答えてるかをもっと透明にしてくれる。

どこにルーティングされてるか分かったらええな。そしたらどのモデルが俺たちの質問に答えてるか分かる。だから、今後は正しいモデルが呼ばれるか、もっと適切なモデルが呼ばれるから、状況が良くなるってことを覚えておいてくれ。そしてこれは大きな飛躍ではないけど、良い段階的変化や。

GPT-5は多くの点で良くなってる。もちろん、完全に次世代、次のレベルのものを期待してたなら、これは期待外れに見えるやろうけど、モデルが悪いわけやない。改善されてる。良くなってる。できる非常に強力で強いことがある。

でも君の経験がどうやったか教えてくれ。このモデルにワクワクしてる?君にとって何かしてくれてる?強力な使用例を見てる?それとも期待外れやったと感じる?コーディングに使ってるなら、Anthropicのモデル群より良い?Geminiより良い?コメントで教えてくれ。ここまで見てくれてありがとう。次の動画で会おうな。

コメント

タイトルとURLをコピーしました