この動画はOpenAIの最新モデルo3 Proの詳細なレビューである。著者は複数のテストを通じてo3 Proがこれまでのモデルとは一線を画する戦略的洞察力を持つことを実証し、真の戦略的アドバイザーとして機能する初のモデルだと評価している。ただし、その真価を発揮するには適切なプロンプティングと十分なコンテキストが必要であり、グローバルな思考力ゆえの注意点も存在すると指摘している。
o3 Proの革新的な特徴
o3 Proがリリースされました。私は何年もの間AIモデルをテストしてきましたが、これらのモデルは確かに有用で、戦術的で、最近では戦略的になっています。Gemini 2.5 Pro、Claude 4、o3などを見ているとそう感じます。しかし、これまで共感的なものはありませんでした。
私が共感的という意味は、一貫してその視点が的確で、その言葉が頭に残り、まさに家賃無料で居座るようなものということです。これこそがo3 Proで私たちが到達しつつあるものです。
単に優秀なライターだと言っているのではありません。彼らがとても洞察力に富んでいて、私が取り組んでいる問題について深く理解されていると感じるということです。
実際のテスト結果
o3 Proを深く調べ始めたとき、正直なテストを行いたいと思いました。実際にどう機能するかを把握できるようなものを与えたかったのです。そこで、評価できると感じた3つのことを選びました。
一つ目は、あの悪名高いAppleの論文の評価で、o3の評価と比較したいと思いました。二つ目は、経営陣と共有するロードマップで、私がそれなりによく知っている会社としてDatadogを選びました。三つ目は、興味深いアルゴリズム最適化問題として、Wordle最適化を選びました。
これは最適化問題をやったことがあれば比較的簡単なものですが、o3と比較してどう実行し、どう書くかを見たかったのです。
3つ全てを見た結果、すべてのケースでo3 Proの方が優秀でした。そして、なぜ優秀だったかという理由が私を驚かせました。より長い回答だったからではありません。必ずしもすべてのセクションが含まれていたり、より完全だったからでもありません。実際、あるケースでは、o3よりも不完全でありながらそれでも勝利していました。
なぜだかわかりますか?
o3はツール呼び出し機能を超えた範囲に踏み込んでしまったのに対し、o3 Proはいつ止めるべきかを知っており、その理由を説明できたからです。これは大きな違いです。
具体的な事例分析
これは、Appleの「思考は錯覚である」という論文についてのTwitterでの言及を調べていたケースで、特定の数のいいねがついたリツイートについての非常に特定の基準を見ていました。o3 Proは言いました。私のツール呼び出しでは今それを取得できません。だから言及しません。また、プロンプトで課された文字制限に近づいているので、それを追求する価値がありません。
両方とも正しかったのです。o3は表の中で何かをでっち上げ、それはもっともらしく見えました。論文について実際に話した実在のTwitterユーザーの名前を挙げていましたが、表自体は役に立ちませんでした。なぜなら、o3が内部でそれらにアクセスできなかったため、具体的にツイートを参照していなかったからです。
戦略的アドバイザーとしての能力
私がここで言いたいのは、これが完璧なモデルだということではありません。しかし、創業者レベルで何の留保もなく戦略的アドバイザーとして機能できる初のモデルだと思います。
世界最高の創業者アドバイザーだと言ったでしょうか?そうは言っていませんよね?しかし、o3自体がローンチしてからわずか48日後にそういう話をしているという事実は大きな意味があります。今、プロジェクトプロの進歩がいかに速いかということです。
o3 Proは、非常に困難で多次元的、重厚なコンテキストの問題を戦略的に理解し、正しい戦略的洞察を導き出して、スパーリングパートナーとして機能することができます。
コンテキストに対する飢餓感
このモデルはコンテキストに飢えています。使い始めたばかりの短期間でさえ、コンテキストが軽すぎるプロンプトを与えてしまうという間違いを犯しました。
これはグローバルな思考を理解しようとするモデルです。大きく考えたがります。コンテキストを取得しに行き、あなたが指示していないコンテキストを取得しに行った場合、見つけるものに驚かされる可能性があります。おそらく不快に。
そのため、私からのアドバイスは、ウェブ上の他の場所でo3 Proを使った人々も言っているのを見たことがありますが、このモデルは、多くのコンテキストを与えることができる困難な問題に使うべきだということです。それがこのモデルが輝く場面です。
適切な使用場面
本当に戦略的な難問、取り組んでいる何かがある場合、自分の頭からでもウェブからでも多くのコンテキストを思い付くことができるはずです。そして、それをモデルに与え、モデルにどこに行けばいいかを伝え、制約と警告を与え、本当に成功する困難な思考のためにモデルをセットアップするべきです。15分から20分の思考という意味です。
サンドイッチを作って待つようなモデル体験です。o1 Proでそれに慣れましたが、o1 Proとの違いは、o1 Proは完全なエッセイストのように感じられたことです。非常によく書かれた回答を返してきましたが、o3 Proはその回答の根底にある戦略的洞察を持って返ってきます。
可読性の向上
o3よりも読みやすいでしょうか?実際にそうです。o3を約6週間使って気づいたことの一つは、o3は極めて技術的に知能が高く、それを非技術的な読者にとって明確な文章に簡素化することに本当に苦労しているということです。
簡素化と言うのは、o3がそのように考えているからです。o3は専門用語を平易な英語に簡略化することにかなり苦労しています。o3 Proはそれがずっと上手です。非常に技術的なトピックの平易な英語での要約を求めれば、o3 Proからより良い結果を得られる可能性が高いです。
モデル比較
これは知性の完全な尺度ではありません。それを非常によく行う他のモデルもあります。Sonnet 4は驚異的なライターです。まさにそうです。少し使ってみて、OpusとSonnetが困難な問題について考える際に、Opusで考えてからSonnetでよく書くという素晴らしいワンツーパンチを持っていることに印象を受けました。
これはモデル比較について話すのにちょうど良い橋渡しだと思います。o3 Proは間違いなく独自のクラスにあるモデルです。よく聞かれるのは、Xが世界最高のモデルかということです。そして人々はGrok 3、Opus 4、o3、DeepSeek、Gemini 2.5 Proなどの名前を出します。
これを使った後、o3 Proは間違いなく現在地球上で最大かつ最高のモデルであり、それは僅差ではないと確信を持って言えます。
利用上の注意点
しかし、多くの人がそれを理解したり評価したりしないと思います。部分的には、ProとTeamプランでのみリリースしているからです。o3 Proの単位経済学がずっと有利に見えるため、下位層にも持ち込むと思います。o1 Proより87%安くo3 Proをリリースしました。
しかし、下位層に持ち込んだとしても、これは依然として慎重なプロンプティングが必要なモデルです。このモデルに与える問題について思慮深くある必要があります。
フェラーリを運転するようなものです。上手に運転すれば、素晴らしい道路で驚異的な仕事をして、素晴らしい時間を過ごせます。食料品店に持っていけば後悔するでしょうし、悪い道路で運転すれば壊してしまうでしょう。
このモデルを引用符付きで「壊す」方法があると言えます。実際に故障させるという意味ではありませんが、文書を添付してその文書を要約するよう求めただけのとき、あまり素晴らしい仕事をしないことがわかりました。グローバル思考者であることを抑制し、追加のコンテキストを持ち込むことができないからです。
ハルシネーションについての考察
ちなみに、人々はおそらくその習慣をハルシネーションと呼ぶでしょうが、それはおそらく間違っていると思います。その理由を説明しましょう。
庭の雑草を見る方法でハルシネーションを見ると、雑草は単に望ましくない植物です。ハルシネーションは単にモデルからの望ましくない思考です。それを何と呼ぼうと、この場合、OpenAIがAGIへの道筋でそれが必要だから、真のグローバル思考者であるモデルをローンチするのは実際に非常に意図的だと思います。その部分は理にかなっています。
課題は、ウェブ全体からコンテキストを収集し、それが手に入れたすべてのソースを理解するのが困難であるため、回答で与えている数字や事実がすべて絶対に正しいのか、それともいくつかは作り上げられている可能性があるのかを一見して知るのが困難だということです。
そして、それはとても説得力があり、その散文がとても洗練されていて、とても洞察に富んでいるため、数字が作り上げられているという直感的な感覚は得られません。過去のように「ああ、これは作り上げられた数字だ」と飛び出して言うようなことはありません。
チェックを行わなければなりません。そこで、これはおそらく公表前にモデルの回答を別のモデルでチェックしないことが医療過誤になる可能性がある初のモデルだと思います。
実務上の重要性
エグゼクティブに行くつもりなら、モデルの出力でインターネットに行くつもりなら、別のモデルを使ってチェックを手伝ってもらうのはあなたの責任です。なぜなら、それが見ているものの数が現時点で人間が個別に事実確認するには多すぎるからです。何時間も何時間もかけない限り。
そして、これらのモデルを使う理由の一部は時間を節約してくれることです。これは私が見たマッキンゼーの戦略デッキよりも優れています。これは本当にエグゼクティブレベルの戦略的思考モデルです。
活用方法と限界
それを最初に戻すと、ポケットにエグゼクティブ戦略モデルがあります。プロンプティングにうるさく、グローバル思考者です。それを期待しなければなりません。それで何をするつもりですか?どうプロンプトするつもりですか?どんな問題を与えるつもりですか?
意図的に指摘したいのは、このモデルがこのレベルの戦略的思考ができるからといって、誰もがこのモデルを戦略的思考に使って、すべてのコンサルタントを駆逐するわけではないと思うということです。
部分的には、このモデルがどんなに優秀でも、あなたのオフィスの雰囲気、静かなコンテキストの隠れた深みを、あなたがするように、または本当にあなたと座って話すコンサルタントがするように理解することはできないからです。
そして正直なところ、部分的には人々はやや怠惰で、目の前にある能力を必ずしも実際に使わないからです。
これを、私たちの家すべて、またはすぐにすべての家に魔法のように到着した信じられないほど強力な家庭料理マシンのように想像してください。それでも私たちはレストランに食事に行くでしょう。魔法の料理マシンが驚異的な仕事をできるとしても、時にはエビチャーハンやポケやお寿司を注文したいと思うでしょう。私たちは人間だからです。
サム・アルトマンの「穏やかな特異点」
実際に、これはサム・アルトマンが指摘したポイントです。彼は意図的に今日、「穏やかな特異点」というエッセイを発表し、人間が気にかけることの多くが2030年代にも存在し続けると同時に、知性へのこの離陸も続いていくという事実について話しました。
彼の論旨は本質的に、知性の発展を許可することで、はるかに多くの豊かさなどを手に入れるということです。それがすべてどう展開するかは見てみましょう。サムは実際にその一部を推進する能力を持っています。あなたと私にはありません。私たちはただ乗車しているだけで、何が起こっているかを理解するのに役立ちます。
重要なポイント
私の見解では、際立って伝えたい大きなことが2つあります。
一つ目、前に言いましたが、o3から48日が経ちました。私たちは速く進んでいます。o4が間近に迫っています。o4 Proが来ます。GPT-5が来ます。これはすべて一つのモデルメーカーから今年だけのものです。加えて、彼らがリリースする予定のオープンソースモデルもあります。他のモデルメーカーもすぐ近くにいます。きっと今夜遅くまでo3 Proに取り組んでいることでしょう。物事は速く進んでいます。
二つ目、はい、これは知る価値のあるモデルです。世界最高のモデルです。優秀な、優秀な問題が必要です。技術分野の内外で多くの人と話した結果、私たちは皆、本当に、本当に困難な問題と格闘しています。戦略的思考パートナーを持つ価値があります。
ビジネスのためだけでなく、このビデオの大部分をビジネス面について話すことに費やしましたが、これについて書いたSubstackでは、実際にこのモデルを怖いと感じる人々が始めるための非常にシンプルなプロンプトを含めています。ここでもそれを読み上げます。
あなたが私について知っているすべてに基づいて、私を50%幸せにするものは何でしょうか?
ChatGPTと話をしているなら、それをo3 Proに与えて、どんな違いが生まれるかを見てください。どんな違いが生まれるかを見てください。o3よりもはるかに洞察力のあるモデルです。そこで締めくくりたいと思います。
o3で50%幸せになることを頑張ってください。


コメント