GPT-5 Proは200ドルの価値があるか?実際に検証してみよう

GPT-5、5.1、5.2
この記事は約17分で読めます。

この動画は、OpenAIの最新プレミアムモデルであるGPT-5 Proの性能を月額200ドルの価格に見合うかどうか検証するレビューである。惑星生成、都市シミュレーション、ビジネス分析など複数のタスクで従来モデルと比較し、長い思考時間による高度な処理能力と詳細な指示への忠実性を評価している。結果として、特定の大規模タスクでは優秀だが、創造性や反復作業では他のモデルが優位という結論に達している。

Is GPT 5 PRO worth 0? Let's find out...
Today we're putting gpt-5 pro to the test to see if it is really worth the 0/mo pricetag of ChatGPT pro.Chapters0:00 ...

GPT-5 Proの初回テスト開始

皆さん、こんにちは。フィーチャーグループへようこそ。GPT-5が公式にリリースされてしばらく経ち、市場に定着してきました。最初はGPT-5 Proの動画を作成しませんでした。過去の経験から、これらのProモードの一部では、私たちがチャンネルで行うテストの種類において、Proモードのすぐ下のモデルとの違いを判別するのが困難だったからです。

今回は、GPT-5 Proについて多くの良い評判を聞いているので、時間をかけて通常のテストを実行してみたいと思います。前回の動画で約束した新しいテストラウンドの準備を進めながら、まずは従来のテストに取り組んでみましょう。

それでは、最初に惑星生成テストから始めてみましょう。正直なところ、これまでで最高の惑星を期待しています。以前、GPT-5の思考モードで恐らく最高の結果を得ましたが、そこに到達するまでに数回のやり取りが必要でした。今回は初回で同様の、あるいはもっと良い結果を出せるかどうか見てみましょう。

送信します。惑星の生成に14分52秒かかりました。15分後、素晴らしい結果を期待しています。読み込んで、どのような見た目か確認してみましょう。

とてもトゲトゲした惑星ですね。このトゲを取り除くことはできますか?いえ、できません。大気のオンオフ、雲のオンオフを試してみましょう。回転速度を下げてみます。

バイオームが見えませんね。私にもバイオームが見えません。スクリーンショットを撮ってフィードバックを送る必要があると思います。水は良い感じに見えます。雲は全ての上に正常にレンダリングされたようです。そうですね、レンダリングされています。物の高さを調整してもらう必要があります。大気も見えますが、山々がそれを突き抜けています。

初回としてはあまり素晴らしい結果ではありませんね。いえ、基本的な部分はできています。だからこそ、もう一度やり取りをすれば改善されると期待しています。

もう一回やってみましょう。通常は何度もやり取りをしますが、15分の思考時間を考えると、今日は2回が限界だと思います。一般的に、地形の高さがバラバラで、バイオームが見えないと伝えます。地形、水位、大気の高さのコントロールがもっと必要で、地形とバイオームをもう一度調整して、リアルに見えるようにするか、少なくとも見えるようにしてほしいと要求します。

都市シミュレーションテストの結果

惑星の2回目の処理を待っている間、長時間の待機が予想されたので都市テストも実行しました。GPT-5 Proがどれだけ上手く手続き型都市生成を行えるか確認してみましょう。

とても回路基板のような見た目ですね。ウィンドウがクラッシュしたようです。もしクラッシュしたなら残念ですが、見た目は悪くありませんでした。もう一度試してみましょう。継続的にクラッシュしています。

エージェントを移動させてみます。この結果には非常に興味深いものがあります。実際の視覚的フィードバックも与えることができます。より明確なダウンタウンエリアを作成し、より多くの建物タイプを追加するよう指示しましょう。いずれにしても長時間の思考が必要なことは分かっているので。

送信します。惑星の結果が戻ってきました。なぜ稜線があんなに高かったのか、なぜバイオームが見えなかったのか、理由が分かったと考えているようです。試してみましょう。

AIとのテスト作業へようこそ、皆さん。とりあえず様子を見てみましょう。都市シミュレーションが次に戻ってくるはずです。うまくいけばバグが修正されているでしょう。

都市の結果が戻ってきました。バグが修正されていることを願いましょう。どのような状況か見てみます。ありがたいことに都市が表示されています。フレームレートは最低ですが、何かが起きています。

タイルベースのアプローチを採用したようです。とてもRimWorldらしいです。川のように見える部分を掘削していますが、水は平らな長方形で、川の穴はより川らしく見えるという、ちょっと変な感じです。一時停止しました。

正直に言うと、この結果をどう評価すべきか分からないです。実際に前回の結果から相当失われた部分があるようです。マップサイズ、天気など、かなり多くのコントロールがあります。雨にすることができます。少し雪のようにも見えます。

ダウンタウンエリアを追加するという私たちのフィードバックに応えて、より高い建物を追加しましたが、うまくいきませんでした。建物の上部しか見えません。高密度の表示ミスのような感じですね。思考モードのGPT-5から得られた結果よりも良いとは言えません。私もそう思います。

サンドボックスモードをテストしてみましょう。これは通常モデルが失敗する部分です。実際に道路を配置できます。見えますか?建物を配置できますか?できます。これまで見た中で最高のサンドボックスモードです。

再生してみましょう。クラッシュするでしょうか?私のコンピューターが今ジェット機のような音を立てています。レイアウトを変更するとどうなりますか?オーガニック設定を試してみます。RimWorldスタイルの配置方法を採用しているようです。低肥沃度、高肥沃度のような設定があります。

オーガニック設定では、よりバイオーム的な配置を採用しました。確実に建物を配置できます。最後に確認したいのは、イベントが視覚的に表示されるかどうかです。

火事を起こしてみましょう。これが火事です。これまでこのようなものは見たことがありません。火は広がりますか?速度をさらに上げてみましょう。昼夜サイクルも確認できます。

火事は広がっていないようです。洪水を送る時です。待ってください、川が上昇しています。物理的に上昇しています。洪水を続けていると、建物が建設されているのが見えますか?建物が建設されています。

都市の未来をシミュレートしているようです。これは興味深いポイントです。建物が建設されているのが見えます。これまで見た中で最もシミュレーション要素が豊富で、これがこのテストの意図です。

クリスが言ったように、都市のビジュアルに問題がありましたか?はい。しかし、より多くのシミュレーション要素も実現しており、これがプロンプトの大部分を占めています。シミュレーション側では印象的です。将来、これまで見た中で最高のビジュアルと、この量のシミュレーションが組み合わさった結果を見てみたいです。

速度を最大にして1分ほど放置し、何が起こるかタイムラプスで見てみるべきかもしれません。都市にはまだ自分自身を建設する時間がなかったので、ビジュアルを早く判断しすぎていたのかもしれません。

空中に浮いているものなどがありました。確実にミスはありました。これをどう判断すべきか分からないという良いポイントです。これまでで最高のシミュレーション試行でありながら、最悪のビジュアルの一部でもあります。それが問題です。

印象的でもあり、同時に失望でもあります。それが正しいと思います。判断しやすくないですが、惑星で判断しやすくなるかもしれません。戻ってきた結果を見てみましょう。

惑星生成テスト:改良された結果

明確な層が見えます。水が地形の上にレンダリングされています。現在、地形はほとんど水の下にあります。クリスが引き上げています。水と地形の上に明確な雲の層があります。その上に大気の層があり、バイオームも表示されています。バイオームも組み込まれました。

海面レベルを下げてみましょう。素晴らしい。これは突然、これまで見た中でより良い結果の一つになりました。雲の上に正しく大気の厚さがレンダリングされています。雲の被覆率も調整できます。雲は動かないようですが、この時点ではそれは細かい指摘です。

これまで見た中で最高だと思います。上部で少し先細りになっていますが、それは修正されたと言及していましたが、実際には修正されていません。しかし、これは素晴らしい結果です。下に移動して砂漠の惑星にできます。最上部まで上げて水の世界にすることもでき、さらに深くなります。海面レベルを調整すると、大気と雲が上に確実に配置されます。

これは非常にクールです。シードを読み込み直すことも可能です。GPT-5 Pro、素晴らしいです。これは非常に印象的です。惑星生成としてはこれまでで最高レベルです。

全体的に、これは堅実なコーディングモデルです。特に都市シミュレーションの設定や、複雑な惑星レンダリングチャレンジでの異なる層や異なるシェーダーの管理など、これらの困難な課題に取り組む能力が優れています。

すべての面で最高の結果を見たことがあるかといえば、ノーです。特に、通常は他のモデルでもっと多くの反復を行えるからです。しかし、これらの例のそれぞれに、これまで見た中で最高の際立った要素があります。

視聴者にとって実用的な注意点として、このモデルは指示を非常に文字通りに従います。詳細を多く与えたい場合、より充実したプロンプトを尊重します。それを失うことがないようです。都市シミュレーションで実装できることすべてを実装しようとしました。

ビジネス推論テストの詳細分析

ここでのプロンプト作成は本当に重要になります。非常に詳細なプロンプトから恩恵を受けます。自宅でテストする場合、200ドルを支払う場合は、本当に徹底的なプロンプトを書いてください。簡単なプロンプトではなく、仕様書のように考えてください。

チャレンジモードを送信しました。動画の最後まで見て結果を確認してください。この素晴らしい基盤である惑星を使用して、どこまで進めるかを見ています。過去には木や岩などを追加するように求めましたが、今回は都市シミュレーション要素の一部を惑星上で求めています。惑星の生物圏のシミュレーションをどこまで進められるかを見ています。

それを実行させながら、事前に実行したビジネス推論テストを確認し、動画の最後にこれに戻ってきます。

チャンネルの常連視聴者なら、ビジネス推論テストをご存知でしょう。最初に大量の研究を求めます。最新のモデルすべての調査と、その性能に関するデータ収集、特にベンチマーク結果です。

このテストの第2段階では、モデルが研究中に見つかった異なるモデルすべての結果を比較し、どれが最高かを確認し、推奨事項を作成し、分析を行います。

まず、その研究を求めました。素早くスクロールして確認すると、すべての異なるプロバイダーから最新のモデルを見つける素晴らしい仕事をしました。

ここで注目したいのは、実際に初回で各モデルについて5つ以上のベンチマーク結果を引き出していたことです。一部のモデルについては数個しかありませんでしたが、多くについては5、6、7個のベンチマーク結果がありました。その後、それらを比較する多数の異なるテーブルを作成します。

ベンチマーク結果だけでなく、モデルサイズとコストに関する情報も収集していました。その初期検索の包括性という点では、専用の深層研究モデルを除けば、これは恐らく最初のステップで見た中で最高の結果です。

しかし、これはすべて第2ステップである分析の準備です。ここで注目すべきもう一つの点は、これが素晴らしいテーブルだということです。過去に私自身もこのようなテーブルを作成したことがあります。モデルとそのベンチマーク性能を配置し、互いとの関係での性能感覚を得るためです。素晴らしい第一段階です。

そして今、分析という実質的な部分に移りましょう。そうですね。それと、データが少数の異なるベンチマークからしかない場合に、組み合わせベンチマークを作成しようとしなかった点も注目する価値があります。単純に、このモデルについてはその結果がないとしました。そこではより信頼できます。

HTMLレポート全体を作成しました。すぐにそれに移ります。ここでは特に驚くべきことは何もありません。GPT-5が多くのリーダーボードでリードしていること、最新のモデルであることについて話しています。Gemini 2.5 Proがベンチマークによってはトップスロットを取ることもあり、GPT-5に対して非常に競争力のあるモデルです。

また、Claude 4.1 Opusについても言及し、特にコーディングでは非常に強力だが、GPT-5やGemini 2.5 Proがトップを占める科学、一般知識などの他のベンチマーク領域ではそれほど強くないかもしれないと指摘しています。

収集したデータに基づいた合理的な結果です。驚くべきものではありませんが興味深いです。その分析とチャートを見るのが楽しみです。

チャートを見てみましょう。これは作成した、HTML インタラクティブ動的レポートです。上部に一目でわかる勝者から始まり、これは非常に有用だと思います。人々が注目する主要なベンチマークカテゴリ:科学、数学、コーディングに分類しています。

選択した3つのベンチマークから、GPT-5がすべてのベンチマークで勝者であることが上位行から分かります。Gemini 2.5 ProやClaude 4.1 Opusが勝つベンチマークもたくさんありますが、私が同意するその選択である主要なものでは、MMLU、GPQA、SWE-benchは素晴らしいベンチマークです。

ここでは自分自身を良い光で描いていますが、これらは選択すべき合理的なベンチマークです。チャートについては少し疑問符がありますね。再び同じベンチマークを反映した素晴らしいベンチマークギャラリーがありますが、その後、単一のGeminiポイント以外に有用なものを示していないように見えるチャートがあります。

ここにズームインしても、何が起こったのでしょうか?恐らくGeminiが、Live Codebenchスコアとsweetbenchスコアの両方を持つ唯一のモデルだったのだと推測します。

棒グラフは驚くべきものではありませんが、問題ありません。そして、クリスが指摘したように、これらの線形予測の一部は少し奇妙ですね。無関係なモデル間で線を接続しています。予測が少し混乱しています。正確にどのように行ったかは不明です。

それ以上に、予測は、データが異なるにも関わらず、ここの2つの予測チャートで同じに見えます。何が起こったのか気になります。これらのチャートは転倒したようです。

チャート作成は少し混在した結果でした。これは合理的な仕事をしました。ハルシネーションがないのは良いことです。クリスが以前に述べたように、ベンチマークを発明しないのも良いことです。明らかに、これらのセルがもっと埋まっていれば良いのですが、少なくとも上位の数行は、同じベンチマークの一部を持っているので、ある程度有用です。

必要に応じてソート可能で便利です。これに驚いてはいません。より良いチャート結果を得たことがあると思います。実際、GPT-5の思考モードからProよりも良いチャート結果を得たと思います。悪い結果ではありません。最高の結果でもありません。いくつかミスがありました。

これまで見たコーディングと一致していると思います。結果の一部がより良く、一部が少し悪いという感じです。その最悪の部分は通常、より多くの反復で修正できる小さなミスです。しかし、このようなモデルでは、15分の思考時間があるため、反復には多くの時間がかかります。

GPT-5 Proが戻ってくる前に、GPT-5の思考モード、Gemini 2.5 Pro、好きなモデルで多くの反復を行うことができます。そのため、その15分の思考時間が実際に必要な場合を考える中間状態に常にあります。

特にコーディング結果を見ると、ここでのガイドラインの尊重を見ると、本物の知性のきらめきが確実にあります。見ることができるのは、テキスト応答に戻って、最終的な推奨事項がどのようなものだったかを確認することです。

ここでのトレンドに関する実際の推論は非常に優れていますね。チャンネルで多く話していることです。ジェイコブ、少し詳しく説明してもらえますか。特にそれを示す数学と推論、およびエージェントコーディングでの収束について話しています。

OpenAIとGoogleモデル間での数学と科学推論での収束について具体的に話しています。これは過去数か月間のベンチマーク、モデル世代全体で見ることができます。GoogleとOpenAIが、推論重視で単発の困難な数学問題、困難な科学問題でリードしています。

また、OpenAIとAnthropic間でのエージェントコーディングでの収束についても述べています。これは私たちが気づいていることで、AnthropicとGoogleの両方が現在それぞれの強力な領域を持っています。Googleにとってはそのような単発の重い推論、Anthropicにとってはエージェントコーディングです。そしてOpenAIは追いつき、通常はそれぞれのプロバイダーのそれぞれの強力な領域から1桁の点数差以内にいます。

これらの最初の2点に気づくのは素晴らしいことです。これらはチャンネルで多く言っていることであり、これらのモデルの私たち自身のプライベート研究やプライベート使用で気づいていることです。これを引き出し、実際にデータを理解し、現実世界に影響することを理解する方法でトレンドについて推論しているのを見るのは素晴らしいです。

その後、データにオープンモデルがあるためオープンモデルについて話し、それらが有用な場所を区別する必要があり、それは問題ありませんが、私にはあまり興味深くありません。

推奨事項は堅実でしたが、信じられないほどではありませんでした。私にとって最も興味深い部分はトレンドの分析でした。より賢いモデルがますます頻繁に行っている階層推奨システムを採用しており、それは素晴らしいです。

そして、オープンソースモデルでのオンプレミス厳格データ制御について再び言及しています。ここで言及された最も興味深いことは、このコストハイジーン角度についてでした。デフォルトでティア1と2から始めて、ティア1と2モデルがタスクを適切に処理していない場合にのみティア3にエスカレートすべきだということです。そうすることで、特定のタスクに対して常に最高価値モデルを使用していることになります。

これは素晴らしい推奨事項だと思いました。私自身が人々に与える推奨事項です。推奨事項全体で非常に強力でした。私にとって個々のポイントは、「はい、それは正しい」から「うわー、それは非常に興味深い」までの範囲でした。良い場所にいます。

他のモデルがまだ持ち出していない話題を持ち出しました。コンプライアンス審査のようなものです。この種の情報はビジネスに関連し始めます。ビジネスの規模やそれが到達する必要がある場所によってそれを門番します。いくつかの構築方法を提供し、それは素晴らしいです。そしていくつかのソース注記も。

そして、いつものように、これらのモデルは常に次のステップを与えてくれます。私の意見では、コーディング応答を模倣している感じです。本当に素晴らしい思考、うわーという瞬間、そして意味をなさない単純なつまずきもあります。

混合レビューのような感じです。これが市場で最も賢いモデルだとしっかりと言えると思います。ただ、時には他のモデルの方が良く、マルチターン、より迅速で、フィードバックを与える方が良い場合があることを証明したと思います。

最終評価と推奨事項

それが私の現在の状況です。これに非常に具体的な表現方法と必要なものの指示を与えていれば、詳細な指示を与えることに戻りますが、これは素晴らしく実行するでしょう。しかし、Proでは発明的創造性が少なくなっているのを見ています。

Proは指示に従うこと、与えられたガードレール内にとどまることに本当に集中しているようです。余暇にこれを試したり、OpenAIに200ドルを投げてチャンスを与える場合は注目する価値があります。知的で信頼できるモデルのように感じられますが、最も創造的なモデルではありません。これは恐らくこの重い知性が必要な場所です。

現在、ループ内の人間は創造性の重要な部分のようです。そのため、行ったり来たりできる小さなモデル、AI、人間、AI、人間は恐らく創造的シナリオにより適していますが、大きな一枚岩のタスクのような場合、これは素晴らしいことです。

都市の上のチャレンジモードで良い応答を得られたかどうか、最終的なポイントを置くべきかもしれません。ボーナスラウンドです。都市を惑星に配置できたかどうか見てみましょう。

まだ惑星があります。実行されています。それは良いことです。回転速度を下げてみましょう。海面レベルを少し下げてみましょう。うわー、都市は完全にバイオームから分離しています。月も追加されています。月をやりました。

小さな都市は気に入っています。明らかに、クリスが言及したように、惑星と一緒に回転していませんが、これはやり取りを通じて修正できることだと確信しています。今、日食が起きています。月食をやってみましょう。見てください。小さな道路システムもあります。これはクールです。

ある意味で私たちの2つのお気に入りテストを組み合わせたようなものだと思います。これらの高いものは木だと思います。木のように見えます。全体的にスケールの問題が起きています。

これは私たちが話していたことの素晴らしい例だと思います。コヒーレントな町を惑星に配置できるモデルを見たことがありません。明らかに、惑星と一緒に回転するのも見たことがありませんが、タスクの完全な範囲を欠いている部分もありながら、知性のきらめきを見ています。

非常に賢いモデルです。しかし、やっていることによっては常に200ドルの価値があるわけではありません。本当に大きな充実したタスクがある場合は試してみてください。しかし、そうでなければ、恐らく20ドルで十分でしょう。

ここで見たアウトプットのほとんどについて、何度もやり取りすればGPT-5の思考モードから考えられる範囲で得ることができます。1回または2回のプロンプトで得られるかもしれませんが、そうでないかもしれません。

クリスが言うように、本当によく定義された大きなタスクがある場合は特定のタスクでProに行くかもしれないと、いつも戻ってきます。しかし、ほとんどの場合、ほとんどのシナリオでは、おそらくより小さく、より速いモデルを使用することになるでしょう。その通りです。

素晴らしいです。もし試してみたことがあるなら、それが印象的だったタスクを見つけたなら、下にコメントを残してください。ぜひ聞いてみたいです。それでは、視聴していただきありがとうございました。また次回お会いしましょう。本当に様々なことが起きています。

コメント

タイトルとURLをコピーしました