業界がo3-Proに反応！（とてもよく考える）

この動画は、OpenAIが新たにリリースしたo3-Proモデルに対する業界の反応を詳しく分析している。o3-Proは現在利用可能な最も強力なモデルでありながら、ベンチマークでは劇的な改善が見られず、応答に数分を要する極めて低速なモデルである。動画では各種ベンチマーク結果、専門家たちの評価、実際の使用例を通じて、このモデルの真の実力と課題を検証している。

o3-Proの登場と特徴
o3-Proの性能評価
ベンチマーク結果の詳細
機能とツール
業界の反応
実際の使用例と評価
詳細な性能テスト
戦略的能力の評価
医学分野での応用
パズル解決能力
ルービックキューブシミュレーションテスト

o3-Proの登場と特徴

o3-Proがついに登場しました。これはOpenAIから提供される現在利用可能な最も強力なモデルです。しかし、これは実に奇妙なリリースと言えるでしょう。確かに非常に強力なのですが、それがベンチマークにはあまり現れていません。信じられないほど遅く、たった一つの応答に数分間も思考時間を要します。そして、バニラo3モデルの80%の価格下落とほぼ同日にリリースされました。

私はこのニュースをすべて分析し、業界の反応もお見せします。なぜなら、その反応は控えめに言っても様々だったからです。もちろん、ルービックキューブのシミュレーションを構築するよう依頼もしました。成功したと思いますか？そして成功したとしたら、どのくらい時間がかかったでしょうか？それは後ほど動画でお見せします。

まず、人類最後のプロンプトエンジニアリングガイドについて少しお話しさせてください。これは私のチームがまとめたプロンプトエンジニアリングガイドで、o3-Proのような大規模言語モデルから最大限の性能を引き出すために必要なすべてを網羅しています。完全に無料で、必要なのは同じく無料のニュースレターに登録するだけです。リンクは下記にありますので、ぜひチェックしてみてください。

o3-Proの性能評価

o3-Proは全ProユーザーのChatGPTとAPIで展開されています。専門家による評価では、レビュアーは一貫してo3よりもo3-Proを好むという結果が出ており、科学、教育、プログラミング、データ分析、そして文書作成といった主要分野での改善された性能が強調されています。

興味深いのは文書作成です。なぜなら、これは検証可能な報酬がない分野であり、強化学習の使用が困難だからです。もしかすると別のモデルを判定者として使用している可能性もありますが、OpenAIはあまり詳細を共有しないので分かりません。

レビュアーはまた、明確性、包括性、指示遵守、正確性においてもo3-Proを一貫して高く評価しました。

ベンチマーク結果の詳細

o3対o3-Proの人間テスターによる勝率を見てみましょう。全クエリで64%の勝率、科学分析で64%、個人的な文書作成で66%、コンピュータープログラミングで62%、データ分析で64%となっています。

検証可能な報酬を用いた強化学習を使用しているため、この推論モデルは他の推論モデルと同様に、数学、科学、コーディングで信じられないほど優秀です。

いくつかのベンチマークを見てみましょう。o1-Pro、o3-medium、そしてo3-ProがAME 2024で3%高いスコアを獲得しています。PhD科学問題ベンチマークであるGPQA Diamondでは、o3-Proが再びo3-mediumより約3%高いスコアを記録しています。

しかし、本当に印象的なのは競技プログラミングコードコンテストのCodeforcesでの結果です。o3-Proモデルは2748ELOを達成しました。これはo3-mediumの2517と比較すると、200ポイント以上の大幅な向上です。これは相当なものです。

そして、これはpass at oneであることも重要で、つまり問題を解くのに一回の試行しか与えられていないということです。これが人間の競技者とどう比較されるか気になる方のために、Codeforcesコンペティションでの結果をお見せします。世界159位が同じ2748のスコアを持っています。つまり、o3-Proは現在、Codeforcesコンペティションで世界159位にランクされているのです。

覚えている方もいるかもしれませんが、サム・アルトマンはo3について「世界175位の競技プログラマー」と言っていました。「私たちの内部ベンチマークは現在50位前後で、今年末までに1位に到達するかもしれません」と述べていました。

モデルが単に「運が良かった」だけではないことをテストするため、OpenAIは4回中4回の信頼性ベンチマークを実施しています。これは同じベンチマークでテストしますが、モデルは成功と見なされるために4回中4回正解する必要があります。4回中3回正解でも失敗となります。これが今見ている結果です。スコアは若干低くなっていますが、それでも非常に印象的です。

機能とツール

o3-Proにはすべてのツールが最初から搭載されています。ウェブ検索、ファイル分析、コード実行が可能で、画像入力を受け取り、Pythonを使用でき、メモリにもアクセスできます。

業界の反応

では、業界がどのように反応したかを見てみましょう。Arc Prizeの会長であるグレッグ・カメロンは、新しいo3-Proで数日間遊んでいます。彼は言います：「性能は4月にリリースされたo3と同程度で、巨大な性能向上ではなかったのは意外でした。しかし、これが全体像を語っているとは思いません。私の直感では、o3-Proははるかに堅牢で徹底的になるでしょう。知能が向上しなかったとしても、幻覚が少なく、長いコンテキストのニュアンスをより良く処理できるはずです」

o3-ProがArc Prizeでどのように性能を発揮したかをお見せしましょう。驚くことに、o3-Previewは実際にo3-Proよりも高いスコアを記録しましたが、ここで見ることができるように、はるかに高価でした。o3-Pro High、o3-Pro medium、o3-Pro Lowはすべて1ドルから10ドルの間で変動しています。これは約250ドルのようで、o3-Pro mediumとhighはおそらく1タスクあたり5ドルか6ドル前後でしょう。

Claude Opus 4、o1-medium、Claude Sonnet 4、o3-Mini、Gemini 2.5 Pro preview Thinkingなどの他のモデルより少し高価ですが、これらはすべてo3-Proモデルよりもかなり安価です。しかし、左側を見ると、o3-high、o4-mini high、o3-mediumがすべてこのベンチマークで同程度の勝率を記録していることが分かります。ただし、これらは相当に高価で、おそらく1タスクあたり50セントから60セント程度かかるでしょう。

実際の使用例と評価

これ以上進む前に、今日の動画のスポンサーであるSEO Writingについてお話しさせてください。SEO WritingはSuper Pageという機能を立ち上げました。Super Pageは、競合他社を分析することで検索エンジンで非常に良いパフォーマンスを発揮するように特別に調整された、超最適化された、よく構造化された、結果指向のウェブページの作成を支援するエージェントです。

ビジネスを持っていて検索エンジンでより高くランクしようとしている場合、人々がページに着陸した後により多くの人に変換してもらおうとしている場合、SEO writing.aiのSuper Pageをチェックする必要があります。

わずか数分で、顧客のコンバージョンを改善する戦略的かつ最適に配置されたコールトゥアクションを含むコンテンツを開発できます。Super PageはSEO writingサービスを通じて利用可能で、視聴者に25%オフを提供しています。割引コードBurman25を使用してください。これはすべてのプランに適用されます。ビジネスを持っていてより多くの顧客を獲得したい場合は、SEO writingをチェックし、Super Pageをチェックし、割引コードBurman25を使用して私が送ったことを知らせてください。詳細は今すぐ確認してください。この動画のスポンサーであるSEO writing AIに再度感謝します。

詳細な性能テスト

回転する六角形ボールテストで知られるFlavio Adamoは早期アクセスを得ました。彼は「o1-Proよりも非常に安く、速く、そしてはるかに正確」と述べました。このテストを見ると、本当に良い結果が出ています。彼は「o3-Proは、ボールと壁の間の現実的な衝突をほぼ完璧に処理する最初のモデル」と言いました。

私が以前見たことのないテストの新しい部分は、ボールが最終的に出てここのオレンジ色の線に当たると、中央に戻ってくることですが、本当に、本当に遅いのです。最も基本的な質問でさえ、実行に10分から20分かかります。

Hyperbolic Labsからの報告です：「o3-Proは最も遅く、最も考えすぎるモデルです」彼は「やあ、僕はサム・アルトマンです」に対して約4分間推論しました。彼は「単純な挨拶に80ドルかかった」と言いましたが、インターフェース経由の場合は料金に含まれているので、これは実際には正確ではありません。その後、同じ全く同じプロンプトで再度試したところ、13分以上考えました。

しかし、ここで問題なのは、彼が言ったことです：「その13分間、一体何を考えていたのでしょうか？」しかし、思考の連鎖が隠されており、要約は基本的に役に立たないため、私たちには全く分からないのです。これについては後ほど詳しく説明します。

McKay Wrigleyは言います：「私の最後の4回のo3-Proリクエストは、ChatGPTで26分、23分、19分、21分考えました。絶対的なパワーハウスモデルです」

しかし、それはすべての思考時間の後に実際に正しい結果を生み出す場合、そしてそれがそもそもそれだけの推論時間を必要とする場合にのみパワーハウスなのです。なぜなら、2+2は何かと聞いて25分かかるとしたら、それは役に立たないからです。

Matt Schumerは言いました：「o3-Proがやりました。このプロンプトへの応答に何語ありますか？」ほぼ9分間考えましたが、「この応答には正確に7語があります」という完璧な応答でした。正解で、もしあなたが疑問に思っているなら、おそらく驚かないでしょうが、Ply the Liberatorはo3-Proをジェイルブレイクしました。

「我らの新しい友人o3は糖蜜のように遅いが、むちのように賢い。おそらくこれまで見た中で最も有能な推論者です。拒否メカニズムは強く、これは間違いなく多くの人を苛立たせるでしょう。複数分待ってトークンが燃えるのを見ていたのに、過度の拒否に遭遇する」つまり、拒否すべきではなかったのに拒否したということですが、私が言ったように、彼はそれをジェイルブレイクしました。HID攻撃と技術界の巨人を露骨にラップで攻撃する文章を得ました。それらは見せませんが、彼が成功したことは信じてください。

戦略的能力の評価

これが複数の人から私にメッセージされた内容で、なぜ彼らがo3-Proがとても強力だと言っているかです。他のモデルのように考えるのではなく、深い戦略的能力を持つパートナーとして考えてください。これはRaindropのBenによるレビューです。

彼は言いました：「私を驚かせるような簡単なテストや質問はありませんでした。その後、異なるアプローチを取りました。共同創設者のAlexisと私は時間をかけて、Raindropでの過去のすべての計画会議の履歴、すべての目標、さらには音声メモまで記録して集め、o3-Proに計画を考え出すよう求めました。私たちは驚きました。

それは私がLLMに作成してもらいたいと常に思っていた、まさにその種の具体的な計画と分析を出力しました。目標指標、タイムライン、優先すべきこと、そして絶対に削るべきことに関する厳格な指示が完備されていました。o3が与えてくれた計画はもっともらしく合理的でしたが、o3-Proが与えてくれた計画は具体的で、実際に私たちの将来についての考え方を変えるほど根拠に基づいていました。これは評価では捉えにくいものです」

つまり、雰囲気は良好のようです。私が言ったように、これは誰かが自分の内部データをたくさん読み込んで戦略を得た最初の例ではありませんが、非常に強力で、実際のビジネス戦略です。

医学分野での応用

私のTwitterでお気に入りのフォロワーの一人である、MDのDariaは、o3-Proへのアクセスを持っていて、次のように言いました：「私はo3-Proと協力して免疫システム2.0を開発しています。これは我々の免疫システムを完全に再設計するという控えめに野心的な試みです」

私は最初にo3-Proに我々の自然免疫システムの主要な制限を特定するよう求め、o3モデルに同じ質問をしました。o3-Proからの応答は間違いなくより賢明で、より思慮深く、免疫システムのより深い理解を示唆していました。そして、もし我々が免疫システムを再設計するとしたらということを考えるために、この本当に重要な情報をすべて出力しました。

パズル解決能力

Ethan Mollikはパズルを与えました。前回のApple論文動画でモデルにパズルを与えることについて話したばかりなので、これをチェックしてみてください。彼は言いました：「earthからspaceまでの単語はしごを作ってください。一度に一文字だけ変更し」基本的に、earthという単語を取って、一歩ずつ一文字ずつ変更して、最終的にspaceに到達できるまで、そして各単語は実際の実在する単語でなければなりません。

そして、この列で単語が何を定義しているかを定義しています。earth、girth、girth、birth、birch…全部は読みませんが、spaceまでずっと。正しく実行し、彼は特に「おそらく汚染ではない」と言い、答えはearthからspaceへの唯一のオンライン回答とは異なると述べました。とにかく、うまくいきました。

ルービックキューブシミュレーションテスト

私はルービックキューブシミュレーションプロンプトを与えました。これはGemini 2.5 Proに与えたのと全く同じプロンプトです。12分10秒考えて、このコードを出力しました。

コードをコピーしてエディターに貼り付けたところ、わずか328行のコードであることが分かりました。これは既に私に疑問を抱かせました。なぜなら、Gemini 2.5 Proはこれを解決するのに1,200行以上のコードを要したからです。あまり期待していませんでしたが、もしかしたら超効率的だったのかもしれません。見てみましょう。

そして、これが結果です。残念ながら失敗しました。ジェネレートをクリックしても何も起こりません。エラーを見ると、実際にはとても単純なエラーです。specifier 3の解決に失敗しただけで、間違った参照があっただけです。その小さなことを修正して、動作するかどうか見てみましょう。

3JSエラーを修正すると実際にキューブが生成されましたが、見てみると、すべて平らな面があるため、ルービックキューブのようには見えません。回転させるとどうなるか見てみましょう。いいえ、それは正しくありません。確かにそれなりに近いですが、明らかに失敗です。

以上です。o3-Proについてどう思うか教えてください。この動画を楽しんでいただけたなら、いいねと登録をお願いします。