OpenAIの新しいO3-Pro、月額200ドルの価値はあるのか?

OpenAI・サムアルトマン
この記事は約20分で読めます。

この動画は、OpenAIの新しいO3-Proモデルの実際の性能を検証したレビューである。月額200ドルの高額なプロ版サブスクリプションでのみ利用可能なこのモデルが、15分以上の推論時間をかけて提供する結果が果たして価格に見合う価値があるのかを、コーディング、ビジネス分析、迷路解決といった複数のテストを通じて検証している。結果として、一部の分野では改善が見られるものの、従来のモデルと比較して劇的な性能向上は確認できず、長い推論時間を考慮すると費用対効果に疑問符がつく結果となった。

開始:O3-Proの初テスト

皆さん、こんにちは。Feature Crewへようこそ。今日はまた興奮する一日です。OpenAIから大きなリリースがありました。O3 Proモードを手に入れました。これは数ヶ月ぶりとなる初のプロモード/リリースです。そこで、プロモードによってO3の性能がどれほど向上するのか、とても楽しみにしています。

O3は一部の事柄には非常に優秀ですが、他の分野ではまだ進歩の途中にあることに気づいています。そこで、プロモードがどこで輝くかを見てみましょう。O3 Proを読み込みました。これは月額200ドルのプロサブスクリプション専用です。このために私たちは大金を投じているので、この動画が多くの皆さんにとって有用になることを願っています。

Twitterでは、このモデルが15分以上推論できると聞いています。では、すぐに始めましょう。

コーディングテスト:手続き型都市生成

時間の都合上、先に進めて通常の都市プロンプトを送信しました。これは基本的に手続き型都市生成を作りたいという内容です。ここでは実際にゲーミングサーフェスをレンダリングする能力を探しています。パラメータを調整する機能も欲しいと思っています。これらのより知的な推論モデルが、より多くのプロンプトを取り込むことができることを期待しています。

いつものように、これはオープンソースにします。15分間推論するのを確認しました。Twitterで見ているものと同じで、理不尽ではありません。それでは、これをレンダリングして様子を見てみましょう。

さあ、真実の瞬間です。

なるほど。建物に異なる地区が見えます。何らかの川を入れようとしたようで、それは良いですね。残念ながら、バグが出ています。多くのモデルで見る典型的な問題ですが、車が建物を突き抜けて走っているのは残念です。

しかし、建物の実際の構造と、異なる地区があること、高い建物もあれば低い建物もあることは、なかなか良く見えます。これまで見た中で必ずしも最高とは言えませんが、かなり良いものです。

右上を試してみましょう。シミュレーションを変更する何らかの機能を追加したようです。密度、速度、雨、雪があります。現在、私たちのタスクをかなり文字通りに受け取っています。例えば雨や雪といった天候機能を追加してほしいと言ったところ、他のものをシミュレートするのではなく、単なるチェックボックスになっています。

水滴が落ちているようなものが見えます。これは雨か雪かもしれません。密度をスライドしても何も変わらないようですね。変化は見えません。再生成する方法も見当たりません。

サンドボックスにチェックを入れて、クリックで建物を建てられるか非常に興味があります。

なるほど、グリッド上に何でも追加できるようです。常に同じサイズの建物のようですね。

繰り返しますが、ここでも奇妙に多くのことを文字通りに受け取っているようです。そして明確にしておくと、これは確実に私たちが見た中で最も印象的なワンショットではありません。川を走る車、車が運転している、ちょっと残念です。

特に15分間の推論時間を持つ場合、O3よりも良いものを得ることを期待するのは理にかなっています。現在これは必ずしも厳密に悪いとは言いませんが、段階的に良くなったわけでもありません。私たちは15分間待って、現在の最先端とかなり似ているものを得ました。

唯一のプラス点は、サンドボックスが常にプロンプト内にあり、常に出力されることです。要求を尊重するという点では少し優れています。15分の待機に値するかは分かりませんが、サンドボックスモードについては、それは永続的にプロンプトにあったものです。

左上を見ると、舞台裏で実際に何が起こっているかを知るためにコードを掘り下げる必要がありますが、もう少し多くのシミュレーションが進行しているようです。車両数、人口、仕事の数が表示されています。以前は人口の変化を少し見ていましたが、より遅く変化しているようで、より現実的かもしれません。

通常、これらを行うときモデルは実際には速度について考えず、人口が急上昇するのを見ます。それは実際には意味をなしません。

挑戦モード:フルゲーム化への試み

通常、このような種類のテストでは複数ラウンドのフィードバックを行います。しかし、本当に長いロード時間のため、非常に厳しくプッシュして、ストレートにチャレンジモードに行きます。

かなり短いですが強烈なプロンプトを与えています。より深く複雑な都市シミュレーション、魅力的なゲームプレイループと目標を持つ本格的なゲームにしてほしいと求めています。そして、UI とビジュアル全体の改善も求めています。

これを送信して、バーが本当にゆっくりと進んでいるのが見えます。完了するまでおそらく15分後に戻ってきます。

結果発表:21分後の成果

都市が戻ってきました。21分、22分後です。なんということでしょう。

プレイ可能なゲームループに変えたと主張しています。「vertical slice(縦スライス)」とも言っていますが、それが何を意味するのかよく分かりません。私たちが気づいているのは、コードのようなもの以外で物事について議論する方法が、他のモデルとはかなり異なることです。彼らは命令調整を少し異なって行っているようです。

詳細パネルも奇妙に見えます。最後にしか機能しません。それは初日のバグかもしれませんが、進行中にこれらの要約を作成しているようです。

それでは読み込んで、何が起こったか見てみましょう。真実の瞬間です。

レンダリングしています。「use an import statement outside(外部でインポート文を使用できません)」というエラーが出ています。右上の道路や家の建設をクリックできますか。見てください、SimCityのようなものです。それらの間に道路を建設できるでしょうか。道路が浮いているように見えて、工場も建設できます。少し大きな灰色のボックスです。そして公園も、単なる緑のボックスです。

今、15の仕事があります。家を建設する必要があります。小さな住宅地区がここにあります。とても暗いです。人口100に達しました。何かが目標で起こって、税金で1,000ドルを得ました。80%の幸福度があります。上昇しています。「2,000人の人口を達成して勝利」という目標があります。だから家を建設し続けることになりそうです。

どのくらいお金がありますか?400ドルです。左上にあります。それなら、もっと仕事が必要ですね。

これは単純な3層シミュレーションゲームのようです。三角形のような構造で、発電所を建設することになっていますが、発電所を建設できるかどうかも明確ではありません。ある程度に達すると何かあるのでしょうか。

エラーがありました。モジュール外部からコードをインポートできないというエラーです。これは私には混乱します。手続き的に生成された都市を取り除いたからです。私たちが前回のことについてコメントしていたのは、他の公正なショットと比較して、それが機能を組み込もうとしたかなり良い仕事をしたということでした。

しかし今、文脈を与えて「これをゲームに拡張し続けて」と言ったところ、自分の裁量で、プロンプトからいくつかのものを単に除去しました。公平に言うと、どう対処するかを見るために意図的に曖昧な指示を与えました。しかし、分かりません。

繰り返しますが、私の直感的な反応は、これは20分、21分の待機に値しなかったということです。これは確実に既存のO3クラスモデル、Gemini、Claude、または何であれ、あるいはO3自体から得ることができるでしょう。

これまでのところ、巨大な利得を実際に見ていません。これは必ずしも悪い結果ではありません。少なくとも何らかのレンダリングはしています。しかし、手続き的に生成された都市全体を削除したのは非常に残念です。

シミュレーションゲームを作るときにSimCityのように考え始めて、フラットな平面から始めることになると理解できますが、すべての都市シミュレーションゲームがそのように機能するわけではありません。特に、それがベースにしている手続き的に生成された都市全体がある文脈では、ここに何かがあることを期待するでしょう。

人々は、これらのプロクラスモデルや他の理由で異なって行わなければならないと議論するかもしれません。しかし、すべてを再記述して巨大なエッセイを与える必要がないケースがまだあると思います。私たちが言った「持っているすべてのものから続けて」ということが直感的であり、文脈に保持されるべきです。

これは通常、フォローアップを続けて「さて、今度はその建物とゲーム機能を最初のものの手続き的に生成された要素と統合して、それらを組み合わせて」と言うところです。ディランが言ったように、20分の待機時間で、次のテストに移らなければなりません。

ビジネス推論テスト:情報収集の課題

ビジネス推論テストに切り替えています。最初のテストと同じことをして、プロンプトを事前実行しました。私たちのビジネス推論テストには2つの部分があります。

最初に、モデルに調査を実行してもらい、企業全体の最新モデルについて、これらのモデルに関する情報、業界のトレンドについて多くの情報を収集してもらいます。そして、その情報をすべて収集した後、分析を実行し、チャートを生成し、推奨事項を作成してもらいます。

いつものフォーマットでProに研究をしてもらう最初の部分を実行しました。再び約15分間推論しました。奇妙なことに、多くのことを見逃しました。非常に失望的な回答でした。

OpenAIモデルとしてはO4とO4 turboのみを見つけました。自分自身さえ見つけませんでした。Googleについてはより合理的なセットを見つけました。Claude 4を完全に見逃しました。これは本当にひどい回答でした。15分間の検索と推論の後、はるかに多くのことを期待し、プロでないO3からはるかに多くを見ました。

O3 Proが一部のものを見逃したことに少し混乱したので、今日O3を安くするアップデートがあったため、比較のためにO3を再実行しました。2分間推論しましたが、これは標準的な時間です。しかし、同じようなことをしたことにも気づきました。Oシリーズモデルの多くを見逃しています。

少し最新ですが、数週間前にO3をテストしていたときに見たものほど良くありません。最先端では、少なくともO4モデルがあるべきです。それが彼らの最先端だからです。自分自身も可能であればあるべきです。

O3 Proに戻ると、詳細タブを見ることができ、これらすべての検索を行ったことが分かります。さらに、Appleについては WWDC があり、このリンクをチェックすると、今日のような本当に最新のリンクです。検索できます。検索できることは分かりますが、Oシリーズモデルを取得していないのが驚くほど衝撃的です。

理由がないのに代わりにturboを参照している事実は、非常に奇妙な回答です。ここで少し驚いています。この種の情報収集能力が退行しているように見えます。これは私たちのビジネス推論テストの最初の部分です。

しかし、O3 Proでの退行かもしれませんが、O3に戻ったときも同様のことを見ているのは重要です。O3の性能がO3 Proよりわずかに良かったとはいえ、奇妙な退行があります。

元のO3動画をチェックアウトしてください。ここでの性能は元のO3動画よりもかなり悪いです。モデルを見逃していませんでした。

O3から収集できたデータでこの回答を続けます。モデルをO3 Proに切り替えて、O3が収集できたデータでテストします。完全に最新ではありませんが、ここから進める十分なものがあり、興味深い分析を行うことができます。推論器に関する情報はないという注意書きがありますが、チャートの作成とビジネス推奨の作成においてO3 Proがどれほど優秀かをまだ見ることができます。

次の部分を送信しました。ジェイコブが説明していたように、今度は情報を分析しようとしています。少し最新だからといってO3のデータを使用していますが、これは今度は同じ文脈でO3 Proリクエストを送信しています。再び約15分かかりそうです。指を交わしています。

このモデルはツール呼び出しなどができるので、チャートがおそらく出現してチャットでレンダリングされることを期待しています。様子を見てみましょう。

分析結果:チャートと推奨事項の評価

この星座のようなものは何でしょうか。分析とチャート生成を完了しました。これを見るのに少し時間をかけますが、初期反応は「一体何が起こっているのか」というものです。この星座を1分間自分でも見てください。

これらのチャートによる初期反応に少し気を取られました。あまり良くないからです。最初のものは時間の経過に伴う精度をグラフ化しようとして、非常に単純な線形投影を作成します。ソースデータに他のベンチマークが言及されていたにもかかわらず、MMLUを唯一の神の指標として採用しました。最初のチャートでは最も有用ではありません。

2番目のチャートは少し有用です。価格パフォーマンスランドスケープです。再び、唯一の指標としてMMLU five-shot accuracyを使用しています。他のモデルが試みるように、さまざまなベンチマークや指標を崩壊させてより包括的な視点を得ることをしなかったのは興味深いことです。しかし、少なくともこれは少し有用に見えます。データ内のモデルの小さなサブセットがどこに位置するかを見ることができます。

チャートはそれほど素晴らしくありませんが、推奨事項に移ります。簡単に見ていきましょう。より高いレベルでのチャートとデータの分析から始まり、スケーリングと蒸留の両方を通じて新しいモデルが訓練されるにつれて生のパフォーマンスが上昇し続ける方法について話しています。投影を少し後から正当化しています。

次に、価格パフォーマンスが断片化していることについて話し、分析の残りの大部分はこれに基づいています。異なる価格レベルと異なるパフォーマンス層について非常に興味深い方法で話し始めます。

ほとんどのモデルのように具体的な使用例について話し始めますが、分類した使用例がより現実的だと私は思います。多くの場合、「コーディングにはこれを使用」「その他すべてにはこれを使用」「重要でないことにはこれを使用」のようなものを見ます。

ここでも似たような傾向がありますが、文書要約を独自のものとして分割しました。特定の指標として内部BIダッシュボードとしてチャット要約を推奨しました。そして、プライバシーに敏感な使用例について話しています。これは企業が気にすることです。以前の分析では実際に出てこなかったものです。

そして、バックオフィスは「これらのテストは重要でない」例ですが、これらが使用される実際のテストがあるように提示しており、「これらのテストは重要でない」と言う企業がないのとは対照的です。

推奨モデルは1行ずつ見ませんが、推奨されたモデルとその理由の両方について、企業にとって有用な方法で非常に良い仕事をしました。移行パスについて話しています。これは私にとってあまり興味深くありませんでしたが、実行可能な洞察をある程度提供しました。

話す言語は、私たちが一度話したこととまた同じで、コンサルタントや経営報告で見るようなものです。非常に権威的です。おそらくものを引用しようとして削除しているのかもしれません。

他のOpenAIモデルと比較して、フォーマットが少し奇妙です。時々ピリオドにスペースがあります。時々イギリス式のスペルがあります。何が起こっているのか分かりません。これも最初のようなもので、奇妙なことが出現しているのを見ているだけかもしれません。

しかし、確実に言語の変化があり、重要なポイントでは、これは素晴らしいです。より長期的な時間軸での推奨と洞察を与えています。最初に、フロンティア精度について話し、時間の経過とともにどのように変化しているか、どのようにまだ複合しているか、そして完璧に近いMMLUを期待していることについて話しています。

それを期待するかどうかについて議論することはできますが、その推奨が分析とチャートの両方と非常に一致しているという事実は見るのに良いことです。そして、特に底辺でのコストが崩壊しているのは非常に真実であり、企業が異なるモデルを使用する方法に影響するべきです。

ここには重要な含意があります。コストはまだトップエンドでは崩壊しておらず、その違いが異なるタスクや異なる使用例にアプローチする方法を変えるということです。基本的に任意のLLM推奨でハイブリッドアプローチと言う代わりに、階層化推論アプローチを使用するとはるかに正確な言語を使用します。

低コストオプションについて話し、既に低コストオプションを何に使用するべきかを正確にレイアウトしており、そして正確にどのタイプのタスクにプレミアムモデルを使用するべきかについて話しています。そして、重要なポイントでそれを要約しています。

テキスト分析と表現に関しては、元のチャートが私たちを感動させていない一方で、はるかに印象的なチャートについてはClaude 4の動画をチェックアウトできますが、これは私たちが見た中で最も有用な分析の可能性があります。入力データが時々あるほど複雑でなかったにもかかわらずです。

すべての推論器に関する情報があり、さらに広いモデルセットがあれば、この分析品質が保持され、さらに有用で実行可能になると期待し、自分で実行して何を見るかを教えてください。

コーディングとビジネス推論の最初の部分での苦労の後、15分のO3 proリクエストを待ちたい場合がどこにあるかを最終的に見始めています。

迷路テスト:推論能力の一般的評価

その点で、推論能力のより一般的な視点を得たいと思います。過去には迷路テストを使用しています。切り替えて、どれほどうまくやるかを見てみましょう。

迷路テストに切り替えています。チャンネルの常連視聴者は、この迷路ツールがあることを知っているでしょう。迷路を生成し、テキスト版をコピーして、モデルに設定することができます。ここでO3 Proのために提示しました。

これは初めて戻ってきたときです。推論を終了したが、何も応答しないことに気づきました。15分間の推論で、その後沈黙でした。リフレッシュしても何もしないようです。

これは30×30の迷路で、これまでにどのモデルも完了できなかった最大のものです。もう一度試してみましょう。もう一度試して、15分後に戻ってきて見てみましょう。しかし、これは本当に心配です。特にショッキングな性能です。

これを十分に述べることはできません。リクエスト間は15分です。長い時間です。戻ってきて「推論完了」と表示されているのに何もないときに何が起こったのでしょうか。そんなに長い間何をしていたのでしょうか。

リリース日なので、全員がO3 Proにアクセスしているという注意書きがあるかもしれませんが、OpenAIは通常リリースをかなりうまく行い、規模はそれほど大きくないはずです。これは200ドルのサブスクリプションなので、ユーザー数ははるかに少ないはずです。

15分間考えるときに少なくとも少しのパフォーマンス向上があることを期待するので、30でプッシュしています。難しすぎて失敗したとは思いません。そこで見なければなりませんが、率直に言って、これまでのところかなり失望的な結果です。

もう一度試してみましょう。もう一度試して、これが実際に戻ってくる結果になるかどうか見てみましょう。

13分間の推論の後、実際に返信することができました。最初に失敗したことを考えると見るのは素晴らしいことです。ディランはその能力に懐疑的に見えます。見てみましょう。まず確認して、推論で何も確認しましょう。推論では何もありません。

興味深いです。これらのモデルの多くがコードのようなものを使用してそれを通り抜けるのを見ています。コーディングやそのツールを使用していると思いますが、ここでは出てきません。でも、確実に希望してみましょう。

計画に入りましょう。再び、これは30×30なので、これまでに行った最大の迷路です。ツールでは最良の解決策を表示することができます。有効な解決策があるかどうかを見た後にそれをチェックします。

よくやりました、よくやりました、よくやりました。少なくとも最初から30×30を行い、計画は有効で、最良の解決策をチェックします。それは正確に最良の解決策です。

コーディングツールでは、コーディングツールで何らかのA*パスファインディングを行うのは、正しくコードを設定できれば彼らにとってかなり些細なことだと思います。この推論の重要な部分は、推論だけで迷路を解くことではありません。入力データからすべてを再構築し、迷路の構造のこの心的マップを構築し、それを迷路ソルバーを正常に実装するコードに入力できることです。

ここでそれが起こるのを見ることができました。これは過去の他のどのモデルよりも遠くまで行くことができました。どこまで続けられるかは期待していますが、テキストから迷路をコピーしてコードに入れる能力の限界がどこにあるかは分かりませんが、最初に作成したときとは非常に異なるテストになっています。純粋にモデルのパスを通じて推論し、ツールを使用して解決しないことに依存していました。

そうです。そして再び、彼らが最終的にどのツールが使用されたかを表示してくれることを願っています。少なくとも何らかの洞察が欲しいです。これを行うためにコードを使用したと言うだけでも、ツール呼び出しを表示するかその他でも、それははるかに良いでしょう。今のところ何もありません。

私たちはそれがコードを行ったに違いないと仮定しているつもりです。すべてをタイプアウトしたとは想像できません。古い推論器を覚えているなら、「これについて考えている、このパスは機能するか、いいえ機能しない」のようでした。それが5、6で失敗した理由です。

今ではほとんどの推論器は、ジェイコブが言ったように、実際に世界を構築し、アルゴリズムを見つけます。詳細情報を取得できないのは残念ですが、チャンネルで行った中で最大のものを取得したことをモデルに祝福します。

総合評価:2時間の検証を終えて

3つのテストと約2時間のプロンプトが戻ってくるのを待った後、O3の第一印象についてどう感じるかを正確に把握するのに苦労しています。O3 Proの第一印象について、これは本当にここでのことです。私たちはいくつかのプロンプトしか通していません。

少なくとも単一ファイルデモのものについては、シングルショットコーディングには使用しません。私がしたいのは、プロジェクト全体を設定するような、より長い仕様で試すことです。それは過去に大きなモデルが有用だと思った種類のことです。

ここでのテストを通じて、ビジネス推論推論部分での最高のパフォーマンス、迷路での最高のパフォーマンスなど、最高のパフォーマンスの確実な兆しがあります。それは長期的なツール使用での最高のパフォーマンスに外挿されます。私はエージェントアプリケーションでもこれを見たいと思います。

そうは言っても、リダイレクトが必要な場合に何が起こっているかを見る機会がない15分間の推論時間がどこに本当に適合するかを把握するのに苦労しています。特に、その性能の一部がO3やO4 miniのようなはるかにアクセスしやすく、はるかに使いやすいバージョンにも積み重ならない場合です。

公平に言うと、私が正しく覚えているなら、彼らはProシリーズについて、知性を上げて使用できるが、ほとんどの人にとって有用ではないだろうと売り込んだようなものです。プロサブスクリプション200ドルの背後にあり、この場合はおそらく愛好家向けです。

繰り返しますが、何に使用するかよく分かりません。ここで手を振って、最も知的である可能性があると言っており、そのビジネス推論と世界理解は一般のものでは出てこないかもしれませんが、本当に時間をかけて特定の種類の文脈をドロップし、特定の種類のプロンプトに依存する人々は、より良いパフォーマンスを見つけるかもしれません。しかし、これが良い汎用知能の向上であると言うのは困難です。実際に言うのは困難で、実行に時間がかかりすぎます。

200ドルのサブスクリプションを取得してこのモデルを使用することは絶対に推奨できません。ディランが言ったように、それはあなたの靴下を吹き飛ばすような知性の向上にはならないでしょう。

このために試すための私の最良の推奨は、そのレポジトリを構築する種類のプロンプトを超えてです。本当に良いビジネス分析と推奨に基づいて、レポートや推奨を探している場合、または多くの異なるパスを探索して包括的な分析を提供するモデルを探している場合は、おそらくこれを使用してください。

特に既にデータがある場合や、コーディングのような種類の仕様で多くの文脈を持っている場合です。おそらく文脈を保持でき、推論でき、実際に実行可能な洞察や有用なスマートネスを与えることができるので、うまくいくでしょう。

非常に興味深いリリースです。それが本当に良いのか本当に悪いのか、必ずしも分からないのは非常に奇妙な感覚です。ディランがここで話しているように、私は同意しますし、おそらく私は政府の文書ダンプのようなものでこれを試すことに最も興奮しているかもしれません。それらすべてを供給して分析を与えてください。見てみましょう。

視聴者の皆さん、これを何に使用するか、または単にO3、Claudeモデル、Geminiにデフォルトしているかを見ることに非常に興味があります。コメントで見ているものを教えてください。

このモデルについてより学び、利用可能な他のモデルと比較するにつれて、フォローアップを続けます。いつものように、動画を気に入っていただければ幸いです。気に入ったらいいねを押してください。フォローして将来の動画を見たい場合は、チャンネルを購読してください。私たちの成長に本当に役立ちます。皆さん、ご視聴ありがとうございました。

コメント

タイトルとURLをコピーしました