GPT-5:チャート問題とその他の検証

GPT-5、5.1、5.2
この記事は約10分で読めます。

OpenAIが発表したGPT-5について、公式発表での誤解を招くチャートや実際の性能評価を詳しく分析した動画である。発表資料に含まれる数値の表示ミスや、システムカードに記載された内部ベンチマークでの実際の性能、料金体系、そして他のAIモデルとの比較を通じて、GPT-5の真の実力と位置づけを検証している。

GPT-5: Chart Crimes and More
In this video, I take a deep dive into GPT-5—beyond the hype—to look at both its impressive capabilities and some glarin...

GPT-5の誇大宣伝を超えた真実

さあ、GPT-5について誇大宣伝を超えて話さんといかんわ。良いところも悪いところもな。プレゼンテーションの中に、今まで見たことないくらいのチャート問題があったんや。なんでか30と69が全く同じ高さで、52が69より大きく見えるんや。本当はこうなってるはずやのにな。

Opus 4.1と並べて見ると、そんなに印象的やなくなってくるんや。誤解せんといてや、モデル自体はコーディングに関してはかなり印象的やねん。せやけど、もっとあったんや。50が47より低く表示されてる。もしかしたらGPT-5を使って計算したら良かったかもしれへんな。

それぞれのプロットで異なるスケールを使ってる可能性もあるけど、それでも50と47は意味不明やわ。

チャート問題の続きと修正履歴

せやけど、それで終わりやない。次にこのプロットがあるんや。これはエージェンティック・コーディング能力を測定したもんやった。ラベルが間違ってたことが判明したんや。本当はこうなってるはずやからな。

せやけど待ってや、朝の時点で公式ブログポストのFrontier Mathを見たら、なんでかGPT Nanoが高設定のGPT-5よりもずっと良い成績出してたんや。せやけど、この動画を録画してる時点で修正されてたんや。やから今は72.8やなくて9.6になってる。

せやけど、これらは全部彼らが見せたもんや。見せなかったもんを見たいんやったら、GPT-5システムカードを見なあかん。

料金制限とアクセス制限

その前に、みんながGPT-5を無料でアクセスできるって言うてたな。せやけど、レート制限については明確に言及されてなかったんや。正確にはどんなもんなんか分からんかった。

プラスユーザーのレート制限はこうなってる。3時間ごとに80メッセージや。明示的にGPT-5 thinkingを使う場合は、週に200メッセージで、これはo3と同じレート制限やねん。せやけど今のところ、他のモデルを選択するオプションはないんや。

無料ティアやと5時間ごとに10メッセージだけや。ProとTeamsは無制限アクセスがあるけど、無制限の定義が何なんかは分からへん。

今有料ユーザーとしてChatGPTに行くと、GPT-5かGPT-5 thinkingの2つの選択肢しかないんや。これにはスマートルーターがあって、質問の複雑さに基づいて自動的にモデルを選択するはずなんやけど、そのルーターが現在壊れてて、有料クエリのほとんどがなぜか小さなGPT-5 miniかnanoモデルにルーティングされてるんや。

多くの人がo3や4o miniを恋しく思うことになると思うわ。今のところ、その2つの選択肢以外にモデル選択のコントロールがないからな。

システムカードでの実際の性能

システムカードの興味深いことを見る前に、彼らが普段強調するけど、今回はブログポストでも発表動画でも触れなかったベンチマークについて話そうや。それはArc AGIや。

誤解せんといてや、これはOpenAIモデルとしては最先端のパフォーマンスを示してるんや。実際、Grok 4よりもちょっと低いだけやねん。せやけど一番印象的なのは、このパフォーマンスを達成するコストが、今まで見たARC AGI 2のものよりもかなり低いってことや。最先端のGrok 4と比べるとずっと低いけど、それでも他のモデルと比べたら大幅な改善やと思うわ。

そこで彼らがシステムカードでカバーしたベンチマークを見ると、SUBENで見せてたもんとは全然違う絵が見えてくるんや。これらは全部OpenAI内部のベンチマークやねん。ベンチマークはモデルの真の能力を表すもんやないけど、それでも指標にはなるからな。

内部ベンチマークでの比較

最初はOpenAIプルリクエストベンチマークや。ここでのパフォーマンスはブラウジングを無効にしたOpenAI o3と非常に似てるんや。

次はOpenAI proofや。これはOpenAIの内部ベンチマークで、少なくとも1日の遅延を引き起こす内部研究および工学のボトルネックを表してるんや。やから、これらのモデルに実行してもらいたいタスクの実世界での表現やねん。

せやけどここでも、o3と非常に似てるんや。せやけどなんでか、この緑のボックスが青いのより高さが高いんや。同じ2%やのにな。やから、これもチャート問題のリストに追加できるわ。

次はMLE benchで、これはKaggle計算問題を解くモデルの能力、もしくはエージェントの能力を測定するエージェンティック・ベンチマークや。ここでも改善は微々たるもんや。

Sweet lancerも同じや。これは機能開発、フロントエンド設計、パフォーマンス改善などを含む実世界の経済的価値のあるフルスタック・エンジニアリング・タスクでの性能を評価するもんや。ここでも見る改善は、o3と比べて誤差の範囲内の微々たるもんやねん。

実際、ChatGPTエージェントの方がずっと良い成績出してる。

そしてpaper benchがあるんや。モデルが研究論文の結果を再現できるかってやつや。ここでも実際にはあまり改善が見られへん。せやけど、実際に劣化してるもんもあるんや。例えば、capture the mapでは、o3と比べてずっと低いパフォーマンスになってる。

ここで色を変えてることにも気づくやろう。今までのベンチマークでは、GPT-5 thinkingは緑色で表されてたからな。

もう一つ非常に興味深いのがあるんや。これはhealthbenchで、なんでかGPT-5 thinking miniがGPT-5 thinkingよりも良い成績出してるんや。

モデル選択の複雑化

最後に一つ、これはモデル選択を簡素化するはずやったんやけど、実際には以前のモデルと比較して、この新しいGPT-5シリーズをどう考えるかをリストアップしてるんや。

APIを通して使う場合、既存のモデル構造よりもずっと混乱するもんになってると思うわ。

このモデルについては本当に良いこともあるから、それについて話すつもりやねん。せやけどその前に、もう一つあるんや。ほとんどのユーザーはこれを大きな飛躍として見ないと思うわ。GPT-3からGPT-4に行った時や、GPT-3.5の時みたいなな。

ほとんどのユーザーにとって、これは漸進的な改善に見えるんや。GPT-5の本当の力を感じるには、Gemini 2.5 Deep Thinkがするはずの、非常に複雑なタスクで使う必要があると思うからや。

GPT-5の優れた点

そうは言うても、GPT-5 thinkingは強力なモデルや、特にエージェンティック・コーディング能力に関してはな。最近この件についての動画をリリースしたから、コーディング能力を見たい場合は動画の説明欄にリンクがあるで。

このモデルは、コストパフォーマンス比で新しいパレート・フロンティアを作ってる可能性があるモデルやねん。このプロットはShanによって共有されたもんで、モデル価格対LMSYS ELOスコアのプロットや。

この時点でGPT-5はフロンティアにある。GoogleのGeminiシリーズを置き去りにしてるんや。2つ目は、この統合ルーターで、ニーズに基づいて自動的にモデルを選択してくれるんや。

個人的にはまだ確信できてへん。実際に機能するかどうか見んといかんし、個人的にはより深い思考を可能にするようにモデルをプロンプトするよりも、モデル選択にもっとコントロールを持ちたいねん。

価格性能比での優位性

せやけど、それが価格性能比に話を持ってくるんや。今のところGPT-5が利用可能な最良の選択肢や。今のところ近づけるもんはないと思うわ。

Seanが言うには、GPT-5の数字に印象を受けない多くの開発者は大局を見逃してるとのことや。OpenAIは今や知能パフォーマンス・フロンティアを完全に支配してるし、初めて継続的に訓練されたリアルタイム・ルーター・モデルを公式に確認して、シグナルについて詳細を提供してるんや。

APIを使ってる誰にとっても主な売りポイントは価格になるやろうな。Claudeモデルと比べてどれくらい良いコーダーになるかは分からんけど、確実にシングルショットの件では良く感じるわ。せやけど実際のソフトウェア開発はシングルショット・アプリケーション開発のことやないからな。

YouTubeやTwitterで見たデモのほとんどは、人々がシングルショットの件を構築しようとしてるもんやから、それを覚えといてや。

せやけど、他のモデルと比べて、確実にもっと見栄えの良いUIやフロントエンドを生成すると言えるわ。せやけど、Geminiの100万コンテキスト・ウィンドウと比べると、比較的小さなコンテキスト・ウィンドウを持ってるんや。400,000で、最大出力トークンは128,000や。入力に関してはマルチモーダルやけど、出力は今のところテキストだけやねん。

価格に関しては、入力が1.25ドル、出力が10ドルや。せやけどキャッシュ処理をする場合は、さらに安くなるんや。これが他のプロバイダーがGPT-5に勝つのが極めて困難になるところやと思うわ。

結局、開発者はモデルのコストを気にするからな。Simon Wilsonからの非常に役立つ価格比較がここにあるわ。20万トークン未満を使う場合、このモデルはGemini 2.5 Proと非常に似てることが分かるやろう。miniやnanoバージョンに行けば、さらに安くなるんや。

この比較をする場合、flashみたいなもんと比べて、おそらくより良いパフォーマンスを提供してると思うわ。そして大部分のタスクでは、最大のGPT-5やGemini 2.5 Proは必要ないねん。この新しいGPT-5ファミリーがどれだけ速いかを考えると、これらの小さなモデルで十分すぎるくらいやろうな。

OpenAIの技術戦略

OpenAIは最近オープンソースモデルをリリースしたんや。それらは4bitフローティングポイント精度で提供されてる。おそらく、これらのGPT-5モデルも、コストを削減するために4bit精度で提供してるんやろうな。

すべてを単一のモデル、もしくは手元のタスクに基づいて異なるモデルを選択できる単一のシステムに統合することも、OpenAIにとって多くのサービング費用やインフラのお金、GPU費用を節約してるんや。

そうは言うても、多くの人がバージョン4から5への飛躍としては非常に期待外れのリリースやと思ったんやろうな。Samがこうツイートしてる。GPT-5は我々がこれまで作った最もスマートなモデルやけど、我々が重視したのは実世界での実用性と大衆へのアクセシビリティ・手頃さや。もっとスマートなモデルをリリースできるし、リリースするつもりやけど、これは10億人以上のユーザーが恩恵を受けるもんやねん。

世界のほとんどの人はGPT-4 Proのようなモデルしか使ったことがないんや。これで綺麗にまとめてくれてるわ。おそらく彼らはより良いモデルを持ってるけど、この時点では妥当な価格でホストできないんやろうな。

個人的には、これをAGIと呼ばなかったことは嬉しいわ。そうやなかったらAGI関係の人たちはみんな非常に失望してたやろうからな。冗談はさておき、それでもこれはOpenAIからの印象的なコーディングモデルやと思うわ。

Claudeシリーズと同等かどうかは分からへん。もっと多くのテストをせなあかんけど、私のコーディング動画を見たいなら、動画の説明欄にあるで。

独自のAGIテスト

これを終える前に、私自身の小さなAGIテストでこれを試してみたいんや。この動画で行う唯一のテストやねん。このモデルがどんなパフォーマンスを示すか見てみたいんや。

これはおそらく見たことがある古典的な農夫問題やねん。唯一の違いは、モデルにすべてやなくて、ヤギを川の向こう側に連れて行ってもらいたいってことや。

これを設定すると、すぐに間違った答えを出すんや。すべてを向こう側に連れて行こうとしてるからな。

今度はDeep Thinkingで試してみようや。これのために、送れる200リクエストの1つを無駄にするつもりや。何をするか見てみようや。

詳細が見えなくなったと思ったんやけど、またここでステップバイステップの解決法があると言うてる。ヤギを向こうに連れて行って、それから一人で戻って、オオカミを取る、みたいなな。これは我々がやりたかったことやないねん。

せやけど、テストした他のモデルと同じように、ヤギを向こう側に連れて行くだけで終わりやないんや。せやけど小さな図を描いてくれたのは、なかなか良かったわ。

まとめ

とにかく、このモデルでの体験がどんなもんか教えてや。コミュニティからもっと学ぶことに非常に興味があるんや。どう思う?OpusやClaudeシリーズより良いか?同等か?それとも期待外れか?

とにかく、この動画が役に立ったと思ってくれたら嬉しいわ。見てくれてありがとう。いつものように、次の動画でまた会おうや。

コメント

タイトルとURLをコピーしました