OpenAIがo3 Proをリリースし、標準のo3モデルの価格を80%削減したことで、AI業界の価格競争が激化している。o3 Proは非常に高性能だが推論時間が長く、従来のチャット用途よりもレポート生成や深い分析に適している。価格変更により、o3はGPT-4oやClaudeの各モデル、Gemini 2.5 Proよりも安価になり、AIモデルの利用環境が大きく変化している。
o3 Proのリリースと劇的な価格変更
OpenAIがついにo3 Proをリリースしました。私はそれについてとても興奮していますが、それは今日彼らが行った私の2番目にお気に入りのことです。なぜなら、彼らはo3の価格も、標準のもの(o3 Miniではなく)を80%削減し、GPT-4o、Claudeのすべてのモデル、さらにはGemini 2.5 Proよりも安価にしたからです。
o3がどれほど賢いかを考えると、これは本当に狂気的なことです。しかし、o3 Proはさらに進歩しています。それほど安価ではありませんが、以前のo1 Proモデルよりも87%安くなっており、これは本当にばかげています。そして、そこから得られる応答の品質も本当に素晴らしいです。
o3 Proがどれほど賢くても、シンプルな高プロンプトでもほぼ4分間というように、推論に多くの時間がかかる傾向があります。それらはすべて私たちのテストで消費しなければならないトークンであり、誰かがその費用を負担しなければなりません。
スポンサー紹介:Firecrawl
AIは、YAMLやJSONのような構造化されたフォーマットからデータを解析することは本当に得意です。しかし、特にクライアントレンダリングされている場合、ウェブページからデータを取得することはそれほど得意ではありません。複雑なHTMLをAIが使用できるものに変換するのは簡単な作業ではありません。今日のスポンサーであるFirecrawlを使用しない限りは。
これらの方々は、それを非常に簡単にしてくれます。URLを与えると、JSONや必要な他のフォーマットで戻ってきます。始めるのは驚くほど簡単です。彼らは素敵なTypeScript対応のSDKも構築しました。TypeScript対応と言うとき、私はそれを本当に意味しています。
JSONモードで使用するとき、Zodスキーマを渡すことができるのが最もクールな部分の1つです。そして今、そのスキーマでスクレイプ関数を呼び出すと、要求したフォーマットでデータを取得できます。それは本当にクールです。
それを見ているだけで思いつくユースケースは膨大です。isycを愛しているのは、実際に投資したいものを把握するために使い始めるかもしれないからです。コンテンツが読み込まれ、レンダリングされるまで待つのに十分スマートです。つまり、JavaScriptが実行されるのを待っている場合、彼らがあなたをサポートします。
そして、それはそれほど高くもありません。見たとき、私は即座にそれが大幅に過度に高価格になると思いました。しかし、16ドルで3,000回のスクレイプを取得できます。無料プランには500クレジットが含まれています。それぞれが完全なページに有効です。それは驚異的です。私はこれが価値のあるユースケースを思いつき続けており、あなたもきっとそうでしょう。
今日soyb.link/firecrawlでチェックしてみてください。これらのモデルの一部の推論時間よりも短い場合、広告ブレイクについて決して不満を言わないことを願っています。
o3 Proの詳細分析
しかし、それがそんなに時間がかかる理由は、ここでやったように、おそらくそうすべきでない時でも多くのことを考えているからです。o3 Proのリリースノートに飛び込んで、それからo3について説明しましょう。なぜなら、価格変更について本当に興奮しているからです。それは全体の状況を変えるものです。
しかし、まずo3 Proです。現在、ChatGPTのProユーザーとAPIで利用可能です。月額20ドルのPlusと月額200ドルのProがあります。しかし、ちょっとした注意:月額8ドルのT3 Chatで、その8ドルで今やコアプランの一部としてo3にアクセスできます。
より安く試してみたい場合は、チェックアウト時にコードo3-PLSを使用すると、月額わずか1ドルで利用できます。ただし、まだ購読者でない場合にのみ機能します。
とにかく、これらのモデルについて話しましょう。なぜなら、本当に本当にクールだからです。o1 Proと同様に、o3 Proは私たちの最もインテリジェントなモデルo3のバージョンで、より長く考え、最も信頼性の高い応答を提供するように設計されています。
OpenAIから最高クラスのものを見るのは少し久しぶりです。彼らの推論モデルは明らかに最高のモデルですが、効果的に3つの層に分かれています。現在、彼らの推論モデル用の新しいベースが作られるとき、彼らは通常それをMini層の下でリリースします。
初期にはMini、メイン(私が中間のものに使用する用語)、そしてProがあります。これらが3つの異なる層です。違いは、効果的にはモデル自体のサイズ、生成時に参照するトークンの量です。多くの異なることがそれに関わっています。どれだけの時間を推論に費やすか、モデルを実際に動かすのにどれだけのGPU時間とGPUエネルギーがかかるかも、より大きなデータセットを横断しているからです。
これをLlama 4がMaverickとScoutバージョンを持つことや、他のモデルが240億パラメータと2000億パラメータバージョンのような小さなものを持つことと考えてください。彼らはこれを3つのサイズに分割しており、それは異なる特性を持つことを意味します。
Miniバージョンはより小さいので、はるかに高速で実行も安価である傾向があります。メインのものは堅実なバランスを取る傾向があり、Proのものはかなり賢い傾向がありますが、はるかに遅く、やり遂げるのにより高価です。
モデルの使用体験と課題
o1 Proを使用してChatGPTサイトで非常に多くのバグを見つけました。なぜなら、それがあまりにも遅かったからです。定期的にサイトを悪い状態にし、別のタブに移動したり、まだ動いている間に2番目のチャットを開始したりしたために、生成ステップを完了することに失敗するという問題が定期的にありました。
それは快適な体験ではありませんでしたが、ありがたいことに彼らは多くの改善を行いました。Nanに感謝します。しかし、Proモデルは面白いことに悪いユーザー体験です。
ほとんどの人の直感は「ああ、私は最も賢いものを使いたい。チェーンを下って行って、問題に対して使えるものを何でも使おう」というものです。このチェーンを下に行けば行くほど、ユーザーの体験は悪くなります。考えてみれば、それはかなりクレイジーです。より賢いモデルはUXが悪いのですが、他のモデルでは解決できない問題を解決できるなら、多くの利益をもたらすことができます。
私にはあまり理解できないのは、なぜ4.0がこれらの他のモデルの前にトップにまだあるのかということです。なぜなら、4.0はこれらの他のモデルよりもはるかに愚かだからです。しかし、推論を持たないため、応答の生成を速く開始し、どれほど個人的に感じるかの微調整に多くの努力を払っています。
4.0は推論をしないので、即座に応答し、前後の会話を持つのに良く感じ、応答を考えすぎることがありません。私は個人的にOpenAIからのすべての推論モデルがはるかに臨床的であることを発見しており、個人的には大いに好んでいます。私のAIに本当に人間らしく聞こえてほしくありません。私はそれを友達として話す相手として使用していません。すでに返信すべき人が多すぎます。
しかし、私の母のような一般的な人々にとって、彼女はおそらく他のモデルよりも4.0をはるかに好むでしょう。そして、彼女はよりスマートなモデルを必要とする何かを尋ねていません。音声チャットのようなものでは、推論なしにその即座の応答を持つことが本当に本当に良いです。
とはいえ、Miniモデルは非常に良くなり、非常に速くなったので、最近はo3とo4 Miniをデフォルトにしないのは難しいです。
モデルの進化とベンチマーク
これは物事がどこにあるかの全体像を与えてくれます。しかし、o1、o3、o4のような水平スペクトラムもあります。彼らは特定の電話会社に訴えられたくなかったのでo2をスキップしました。
興味深いのは、様々な理由で、彼らは今Miniモデルを最初に出す傾向があることです。これは、少しの間、o1 ProとO1があったことを意味します。ベンチマークから実際の数字を見つけてみましょう。
ここに、o3、o1の異なるバージョン全体のベンチマークがあります。比較のためにGemini 2.5とClaude 4 Sonnetも含めました。基本的な数学ベンチマークとAIMEでは、一貫した改善が見られます。o1 MiniはO1よりわずかに悪く、o3 MiniはO4 Miniよりわずかに悪く、o3はこれらのほとんどを打ち負かしています。
より一般的な人工分析指数では、かなり着実な改善が見られます。興味深いのは、o3がO4 Miniよりも後に一般利用のために出てきたことと、o3 Proが今日出てきたのに、すでにしばらくの間O4 Miniがあったことです。そして、それらは能力において非常に近いです。
これが奇妙に感じる理由は、これらの上位層が出てくるのに非常に長い時間がかかるので、o3 BassまたはProが出てくる頃には、O4 Miniがすでに存在し、この軸でのレベルアップが時々この軸でのレベルアップと一致するか、さらにはキャンセルアウトすることです。
o4 Miniがすでに存在し、非常に良いモデルである今日にo3 Proが起こるのは、なんだか奇妙に感じます。O4 Miniは少しの間、T3 Chatでの私のデフォルトでした。以前は2.5 Flashでした。まだそれをあちこちで使用していますが、ますますO4 Miniは十分に速く、一貫して良いので、デフォルトでそれに手を伸ばしている自分を発見します。
エディターでも4.1を使用しています。それについてはいつか話します。そこで楽しいヒントがあります。しかし、今のところ、これらの推論モデルに焦点を当てています。
o3 Proの性能評価
o3 Proは特定のことについて画期的に賢いようですが、一般的な使用に対してO4 Miniがo3 Proよりもはるかに安く、同じくらい賢く感じ、さらにはるかに速いということは奇妙に感じます。
とはいえ、OpenAIはこれらを完全に異なるユースケースとして考えているようです。これを小、中、大として見るのではなく、OpenAIはこれを一般対より深い潜水深層研究タイプのものとして見ており、文字通りレポートを書いてくれます。
o3 Proは人間のテスターに対してo3に対して64%の勝率を持っています。それは64%良いという意味ではありません。それは64%の時間でo3を打ち負かすという意味で、ほとんどの人にとってほとんどの時間、それは近いということです。勝率がわずか14ポイント高いだけなのは、ある意味クレイジーですが、これらすべてのモデルがどれほど良くなったかを示しています。そこでO4 Miniとの比較を見るのは本当に興味深いでしょう。
OpenAIは、これらの新しいモデルでのプロンプトの考え方について本当に良い情報を示してくれています。なぜなら、それは全く異なるからです。システムプロンプトのようなものでさえ、彼らは公式に、解決しようとしている実際の問題にコンテキストを集中させるために、可能な限り少ないシステムプロンプトを追加することを推奨しています。
ここが解剖学の良い例です。目標から始めます。戻りフォーマットについて具体的に説明します。重要だと思う警告や詳細を与えます。必要なすべてのコンテキストをダンプします。そして、MCPツールコールやそれ以外に必要な能力を与えます。
正しく行うと、ベンチマークはかなりクレイジーです。ここで見るように、o3に対して人間のテスターでかなり高いスコアを獲得していますが、競争数学などの従来のベンチマークでも、これらの他の非常に非常にスマートなモデルを打ち負かしています。
o1 Proは、非常に高価で、今ではそれよりも良いものが非常に多くあるため、時代の奇妙な瞬間のように感じます。それは本当にクレイジーです。
これは面白いです。技術的な問題を解決している間、一時的なチャットはo3 Proで無効になっています。私はそれが何かを知っています。一時的なチャットは永続化されないので、完了時にクライアントへのストリーミングに完全に依存していますが、これらの本当に遅い生成でのクライアントへのストリーミングの状態はおそらく完全に壊れています。
だから、それはできません。それは本当に面白いです。これらのタイプのものを構築することがどれほど難しいかを示しています。これは、私たちの一時的なチャットソリューションについても考えていることの1つです。その問題を解決するのに立ち往生しているエンジニアに同情します。それをするのは楽しくないでしょう。
コーディング能力と実用性
また、コードで大幅に優れているようで、これはエキサイティングです。o3 ProとO3がCursor内で問題を解決するのにどのように感じるか、とても興味があります。楽しそうです。
個人的には、人工分析などの人々からのより徹底的なベンチマークを待つのが好きですが、前述のように推論時間は正気ではありません。だから、これは実行するのに安くならず、非常に速くもならないでしょう。
これすべてを言っても、Gemini 2.5 Proは特に数学のいくつかでこれらのベンチマークのいくつかでまだそれを打ち負かしていますが、彼らは首と首です。興味深いです。また、O4 Miniは本当に良い性能を示しており、彼らがここで共有しているベンチマークにそれを入れなかったのは驚きではありません。なぜなら、O4 Miniはおそらくこれらのことのいくつかで勝つからです。
彼らがそこに到達するとき、O4 Proは非常に興味深いリリースになるでしょう。
使用方法とコンテキストの重要性
これは、年初にlate in spaceの人々から起こった楽しいやりとりで、著者のBenは最初o1とOpenAIのOモデルについて確信がなく、Sam Altmanにratio(反応数で負ける)され、GDBにそれについて引用ツイートされ、Benが学んだ教訓は、これらのモデルをチャットとして使うべきではないということでした。レポートジェネレーターとして扱うべきです。コンテキストを与え、目標を与え、それを解き放つのです。
それは私が今日o3を使う方法とまったく同じです。しかし、そこにo3 Proを評価する問題があります。それはより賢いです。はるかに賢いです。それを見るためには、はるかに多くのコンテキストを与える必要があります。そして私はコンテキストが不足しています。
それを吹き飛ばすような単純なテスト質問を私が尋ねることはできませんでした。私たちは私のお気に入りのボール跳ね返りテストの時代をはるか昔に過ぎています。私がビデオをそれで開かなかった理由があります。それはもはや本当に関連していません。その時もかろうじてでしたし、今はそうではありません。
共同創設者のAlexisと私は、すべての過去の計画会議の履歴、すべての目標を組み立て、音声メモさえ録音し、o3 Proに計画を立ててもらいました。私たちは吹き飛ばされました。それは私がLLMに作成してもらいたかった種類の具体的な計画と分析を正確に吐き出しました。ターゲットメトリクス、タイムライン、何を優先すべきか、絶対に削るべきことの厳格な指示を完備して。
o3が与えた計画はもっともらしく合理的でしたが、o3 Proが与えた計画は具体的で十分に根ざしており、実際に私たちの将来についての考え方を変えました。これは評価で捉えるのは難しいです。
同感です。これらのものの能力はもはや真に従来の方法でベンチマーク可能ではないように感じます。そのスペースの深い人々が私の愚かな安全ベンチをそんなに好む理由があります。スニッチベンチは愚かなように、これらのモデルが持っているまたは持っていない行動についての奇妙な実用的なエッジケースの深い潜水です。
ベンチマークはこのモデルがどれほど賢いかから、このモデルが異なるシナリオでどのように行動するかに移行していくと感じます。なぜなら、それがますます重要になるからです。
o3 Proははるかに賢いかもしれません。しかし、それはあなたがデフォルトモデルとして使うべきだという意味ではありません。なぜなら、それはチャットするのに良くないからです。
o3 Proを試してみることで、今日のモデルは孤立してとても良いので、私たちは単純なテストが不足していることに気づきました。本当の挑戦はそれらを社会に統合することです。それは本当に高いIQの12歳が大学に行くようなものです。彼らは賢いかもしれませんが、統合できないなら有用な従業員ではありません。
それは本当に面白い表現方法です。そして著者が言うように、この統合は主にツールコールに帰着します。歴史的に、OpenAIのモデルはツールではあまり良くありませんでした。それ以来変わり、今やChatGPTに行くと、ここに小さなボタンがあり、文字通りツールを選択し、彼らのウェブサイトでアクセスを与えたいツールを選ぶことができます。これは、T3 Chatにもっとツールコールオプションを追加する必要があることを意味します。もうすぐ来ます。
ツール統合とコンテキスト管理
興味深いのは、深層研究がツールとは考えられていないことです。それはただここで別々です。しかし、200ドルの購読で250回利用可能です。つまり、レポートあたり約1ドルです。魅力的です。
また、外部ソースにリンクすることもできます。彼らがこれにますます傾倒していくのを見てきました。ツールコール関連のものと大きなコンテキスト関連のものは、OpenAIの関心外から彼らが最も焦点を当てていることに移行し、彼らはそれに全力で取り組んでいるように感じます。
ChatGPTサイト内にツールコールボタンがあるのは、まだ非常にクレイジーです。その日が来るとは決して思いませんでしたが、それは彼らがものごとについて異なって考えていることを本当に強調しています。
それについて言えば、私たちが今持っているすべてのモデルオプションを見てください。RIP 4.5、それはもうすぐ廃止されます。どうやら、o3 Proは環境を識別すること、つまり何にアクセスがあり、何をすることになっているかをより良く識別するようです。結果として、どのツールにアクセスがあるかをより意味のある方法で伝えることができます。
これは実際に私がGeminiモデル、特に最近のものとの最大の問題の1つです。彼らはツールで何をしようと思っているかを説明するのが大好きで、その後にそれをしないのです。
そして、推論サマリーを追加したときにこれがはるかに悪くなりました。なぜなら、それを追加したとき、より深い推論を廃止し、Cursorでそうしたように見えるので、今では以前ほど多くのことをできないからです。それは非常に迷惑です。
また、情報を幻覚する代わりに、外部世界について質問をするタイミングについてより良いようです。とは言っても、これらのモデルが賢くなるにつれて、実際にもう少し幻覚するようになったようで、それは怖いです。
そして、ますます幻覚への解決策は、これらのモデルにツールへのアクセスと、追加のコンテキストを収集するために立ち止まって質問する能力を与えることだと思います。しかし、これには問題があり、それらは価格モデルに帰着します。
価格構造の課題と解決策
Edwinが言ったのを見ました:o3は今や4.0より安いです。o4 Proもo1 Proより大幅に安いです。以前よりもばかばかしく安くなっているとはいえ、これらの入力と出力トークンにとってはまだかなりの金額です。それは入力100万あたり20ドル、出力100万あたり80ドルです。
15万トークンのコンテキストがあると想像してください。これをモデル化してみましょう。この15万トークンのコンテキストがあります。指示から始まります。つまり、これが何をすべきかで、残りは大量のコンテキストです。すべてをo3のようなモデルに与えます。o3はコンテキストを読みます。私たちが何をしたいかを見て、それから非常に短い応答で答えます。非常に短いのでほとんど何も費用がかからず、「X について何ですか」と聞きます。コンテキストウィンドウで見つけられなかったその特定のことについてもっと情報を知りたがっています。
色で説明しましょう。緑が彼らからで、黄色が私たちからです。黄色は100万あたり20ドルで請求され、緑はo3 Proで100万あたり80ドルで請求されます。十分なコンテキストがある場合、このメッセージを入力するだけで3ドルのAPI費用がかかります。
この応答は何でもありません。それは文字通りゼロに四捨五入されます。5分の1セントほどでもありません。なぜなら、それは本当に少ない情報だからです。応答はほとんど重要ではありません。
しかし、「ああ、Xは何でもです」と言って答えると、これが本当に低いコンテキストだとしても、ここで1,000トークンを追加したとしましょう。ああ、それは本当に安くなるということですよね? 悲しいことに間違いです。なぜなら、次のリクエストは全体の履歴をすべてのコンテキストに対して持たなければならないからです。
これが400トークンの返信で、それから1,000トークンを与え、それから新しい応答を生成するという本当に単純なものの代わりに、効果的には全体を再取り込みしなければなりません。履歴が長くなるにつれて、この3ドルはさらなるメッセージごとに再請求されます。
モデルが立ち止まって尋ねるときは、今度はより多くのものを追加するためにすべてのコンテキストを再取り込みしなければならないので、ある種残念です。
これは、ツールコールがクールな理由の一部です。なぜなら、この再プロンプトの代わりに、この実行中に自分自身を停止し、より多くのデータを得るために外に出て、それから追加のコンテキストとしてそれを追加し戻すからです。以前に持っていたコンテキストを失い、それから再構築する必要がありません。
だから、ツールコールはクールですが、ループ内の人間は歴史的にある種残念でした。なぜなら、このコンテキストを死なせ、それから再作成することを強制するからです。
これはまた、キャッシングが非常に重要な理由でもあります。なぜなら、最近のものとして実装されている解決策の1つ、彼らがGeminiモデルでこれを手に入れたように、これは自動的にキャッシュされ、キャッシュの読み取りは費用が少なくなりますが、一定の時間しかキャッシュされません。
つまり、ここで答える前に31分待つと、この取り込み費用を再び食わなければなりません。しかし、29分でそれをすると、キャッシュにヒットし、大幅に少ない費用がかかります。しかし、今度はいつどのようにキャッシュするかについて非常にインテリジェントでなければなりません。
これらのことについて多く考えなければならず、これらのより賢いモデルでループ内の人間をすることを思いとどまらせるのです。なぜなら、止まるたびに、全体のコンテキストに対してこの請求を食うリスクがあるからです。
これは、Cursorの人々のような人々に同情すべき理由です。なぜなら、モデルにわずかに異なることをしてもらったり、小さな変更をしてもらったりするとき、まだすべてを再取り込みしなければならないからです。つまり、このコードベース全体を生成してもらい、それからこの1つの変更をしてもらうとモデルに尋ねると、入力費用は両方とも同じになります。
明らかに、それほど多くを生成するとき、出力トークン費用は大幅に上がり始めますが、私の経験では、入力トークンは非常に高価でした。Cursorのようなものにとって、これらの入力トークンが費用の大部分を占めると想像します。
価格競争の激化とモデル比較
コンテキストを管理する正しい方法を見つけることは、これらのモデルのユースケースがより強力になるにつれて、しかしまた、より頻繁に物事を確認してもらう必要があるにつれて、ますます問題になってきています。
とは言っても、価格が下がるレースでは、これらの問題はますます重要ではなくなります。私が価格戦争でボトムへのレースと呼んでいるものを見ているのは、かなりクレイジーでした。
ここで、インテリジェンス対価格のコストパフォーマンスにホップオーバーします。突然、Claude 4 Opusは本当に悪く見えます。なぜなら、それは非常に高価で、それほど賢くないからです。実際、これらの他のオプションのいくつかよりもかなり愚かです。このチャートを読みやすくするために、Claude 4 Opusをオフにしなければなりませんでした。
これは実際に今非常に面白くなります。なぜなら、AnthropicのSonnet思考モデルと一般的なSonnetは彼らの2番目に高価なモデルで、まだこのチャート上で最も高価なものだからです。これは本当にクレイジーです。誰もが彼らを下回る日が来るとは決して思いませんでした。
ある種そうだと思いましたが、それがこんなに速く、これほど積極的に来るとは思いませんでした。ここでもっと役に立たないものをオフにしなければなりません。
このようにチャートを開くと、o3の新しい価格は本当に理にかなっています。彼らは最新のGemini 2.5 Proリフレッシュと本当に首と首です。そして、新しい価格は彼らを少し下回ることを意図していると思います。
彼らが言うことを信頼しますが、彼らは推論ステップを彼らの側ではるかに安く、速くする方法を見つけました。o3はより速く動いています。彼らが実際にモデルを交換し、代わりに動かしている新しい愚かなモデルがあるという憶測をしている人を見ました。さもなければ、それがそんなに速くなることはないでしょう。
いいえ、それをより速く動かす変更をしたなら、それらの同じ変更もそれをより安く動かします。より速いモデルは、より少ない推論をしているので、全体的により安い傾向があります。その計算ステップにより少ない時間を費やしており、これらのモデルを動かすのにこんなに多くのお金がかかる理由です。
それはまた、GeminiからのFlash 2.5と2.0がなぜそんなに速いかということです。なぜなら、それはばかばかしく速く動くからです。Grok 3 Miniも同じです。これらのモデルは多くの理由で安いですが、最大のものは、計算をするのにより少ない時間とエネルギーを費やしているということです。
このチャートは非常に速く非常に興味深くなりました。O4 Miniは、ばかばかしくインテリジェントで合理的な価格として際立っています。とは言っても、ここでの費用は現実世界の使用には正確ではありません。なぜなら、それがする推論の量が価格を大幅に膨らませるからです。これらのモデルのいくつかは、他のモデルが10,000推論トークンですることを1,000推論トークンで解決するかもしれません。これにより、費用は相応に大幅に上がります。
実世界でのコスト分析
しかし、本当に物語を語るチャートはこれです。これは、人工分析ベンチマークを実行するのにどれほど高価かということで、これが彼らがこれらのモデルを測定する方法です。Gemini 2.5 Proを実行することは、Claude 4 Opusよりもさらに高価になりました。なぜなら、それがずっと多くのトークンを生成したからです。
推論費用は852ドルでした。Claude 4 Opusでは、推論と非推論費用を分けていないので、分けるのは少し難しいですが、全体的にほぼ半分の費用になりました。だから、Opusはトークンあたりより高価であっても、Gemini 2.5 Proはより多くの推論をします。
だから、より多くの出力トークンを生成しており、これがそれを悪くしています。だから、従来のトークンあたりのコストはもはや見なければならない唯一の数字ではありません。多くの他のことを見なければなりません。
2.5 Flash推論と2.0 Flashを同じベンチマークで実行するのを比較すると、2.0 Flashが3ドルかかることを覚えてください。2.5 Flash推論は319ドルかかりました。大きなギャップ、大きなギャップです。
とは言っても、再びo3 Miniがクラッチに来て、堅実な中間になっています。o3 Miniが2.5 Flash推論よりもこのベンチマークを実行するのが安いという事実は、トークンあたりどれほど高価かを考えると、ある種面白いです。しかし、トークンあたりの数字はますます重要ではなくなってきており、それは本当に奇妙です。
新しい価格でo3ベンチを再実行するとどのようになるか見るのにも興奮しています。なぜなら、これはかなり安くなると思うからです。これは実際には、公式の人工分析チャートで示されているように、新しい価格での新しい実行かもしれません。o3は100万トークンあたりの価格で本当に左に移動しましたが、これは新しい価格での新しい実行でした。それはばかばかしく安いです。
また、Qwen 3がここでこんなに高くにあるのを見るのも大好きです。なぜなら、Qwen 3の実際のトークン費用は本当に安いからです。しかし、私のお気に入りの体重指数で確立したように、任意の問題を解決する際に自分自身をガスライトする回数は、Qwen 3がただ無限のトークンを生成することになるからです。
だから、コストを食い、答えを生成するために多くの時間を待つことになります。
知的総合価格パフォーマンス
しかし、最も楽しいチャートは、ベンチマークを実行するためのコストに対するインテリジェンスです。面白いことに、良いスコアに対するコストのこの左上の象限にある唯一のものは、Grok 3 Miniです。
再び、Grok 3 Miniが奇妙に良い価値ソリューションであり続けることを嫌いますが、本当にそうです。o3とGemini 2.5 Proは全体的に最高の性能ですが、o3は今2.5 Proオプションよりもかなり安いです。
そして面白いことに、o3とO4 Miniは、このベンチマークを実行するのに今非常に似たような費用がかかります。これは、このようなものをMiniモデルとベストインクラスのフラッグシップモデルに対して実行するのが費用面で首と首になる日が来るとは決して思いませんでした。それは本当に興味深いです。
物事は速く変化しています。また、注意すべきは、o3はまだ最大128kコンテキストウィンドウを持っているということです。彼らがO4でそれを上げたと思いましたが、間違いでした。彼らはそれを少し上げました。200Kに上げましたが、GPT-4.1は100万を持っており、すべてのGoogleモデルもそうです。
どのモデルを使用し、何に使用するかを考える際に考慮すべき重要なことです。ますます、これらのことの利益を得るには、ある種パワーユーザーでなければならないように感じます。
再び、ChatGPTサイトに行くときに4.0がデフォルトである理由があります。ほとんどの人はおそらくこれを決して変更すべきではありませんが、私たち愛好家は正しい方法でこれらの他のツールを使用することから多くの利益を得ることができます。
推論モデルの適切な使用法
これらの推論モデルは常に十分なコンテキストを持ちます。問題は、正しい答えに到達するのに十分な情報を与えないと、それらが自分でそれを生成することです。正しい答えに到達するのに十分な情報を与えないと、ただたくさんのものを幻覚し、永遠に推論します。
だから、彼が「こんにちは、私はSam Altmanです」と言ったときに4分間推論したこのYouTubeの投稿を見ました。それは正気ではありません。それは面白いです。それはばかばかしいです。しかし、それはモデルが多くの情報を解析するのが好きだからです。そして、それがそれの目的です。
これはまた、200kトークンウィンドウの入力100k出力というように、コンテキストウィンドウがそんなに小さいのが奇妙な理由です。100k出力は非常にばかばかしく大きいです。しかし、再び、200k入力は多くの他のモデルに比べて小さいです。
だから、これまで以上に、適切な情報を与える、多くの情報を与える、しかしまた、必要な追加の情報を得るためにそれが行くことができるツールを与えるというバランスを取らなければなりません。それは興味深いバランスです。
そして、再び強調するために、このモデルが出てきたのはある種遅かったです。2024年5月31日の知識カットオフ。それが訓練されたデータのためにモデルが持つ知識は1年以上古いです。それから再び、O4 Miniもそうです。彼らはすべて同じ知識で訓練しているように見えます。実際に興味深いです。
モデルの適性と統合
Latent Spaceが言うように、それはツールを使って物事をし、大量のデータを分析するのに本当に良いモデルですが、直接的に物事をすること自体はそれほど良くありません。コードを生成してもらうだけなら、おそらく最高のものではありません。大量のコードの何が悪いかを尋ねるなら、おそらくかなり良くするでしょう。
また、o3 Proのようなスマートなモデルは、ツールを使用して環境を探索することができる必要があると言っています。これは興味深いポイントです。
o3 Proは、OpusとGemini 2.5 Proとは非常に異なって感じます。Claude Opusは大きく感じますが、その大きさの真の明確な兆候を見せてくれませんでした。o3 Proの見解はただ良いです。それは完全に異なる競技場のように感じます。
これは非常に興味深く、Cursorのようなものでそれを試すのに興奮しています。なぜなら、再び、私はそこでより大きなモデルからそれほど多くの利益を見ていないからです。今のところ、私のデフォルトとしてClaude 4 Sonnetを使用していることはかなり確信しています。
Maxモードでさえありません。ただ標準のClaude 4 Sonnetを使用しています。私にとってはかなりうまく機能しています。2.5 Proを使用していましたが、することになっていることをしないことについてますます苛立つようになったので、最近はあまり使用していません。
o3を少し試しましたが、それは本当にスマートでしたが、私が望んでいることをするのに時間がかかりすぎ、より高価でした。もはやそうではありません。だから、もう一度試してみます。
しかし、私が実際に日々使用しているものを見ると、私のコマンドKのインラインはGPT-4.1です。なぜなら、ちょうど素早く変更を加えているときに推論モデルに助けてもらいたくないからです。つまり、何かをハイライトして、この見た目を変えたり、レイアウトシフトを修正したりするように言うと、即座にそれを発射する非推論モデルを持つのは本当に良く、4.1はそのために素晴らしいです。
だから、それが私が今いるところです。しかし、o3 Proがコードベースのこの部分をオーバーホールするのようなことでより良いなら、本当に有用であることがわかります。今夜それに正直なショットを与えるつもりで、十分な興味深い情報を得られたら、どう感じるかをピン留めコメントに残します。
新しい推論モデルの使用指針
これらの新しい推論モデルについては、再び、システムプロンプトは最小化すべき、コンテキストは最大化すべき、使用ケースはその知性から利益を得る長時間実行の大きなタスクであるべきのようです。
どうやらシステムプロンプトは今まで以上に行動を大きく形作るようです。AnthropicやGeminiとは飛躍的に異なり、Claudeは大きく感じますが、実際にそれを示しません。
そして、OpenAIは本当にこの垂直強化学習パスを下っているようです。深層研究やCodexのようなものは、ツールでより賢いことができるようにしようとしています。
そして、私は完全に同意します。多くの点で、OpenAIはこのツールコール世界にある種遅れていましたが、OpenAIは物事に遅れることはまれです。そして今では、彼らが跳躍していっているように感じます。
そして、それは本当にそうです。私たちは非常にすぐに、ツールコールでのClaudeの優位性が完全に閉じられ、ギャップは今や開発者としての私たちがそれらをどう感じるかだけの位置にいると思います。
これまで以上に、OpenAIは競争を真剣に受け止め、決して2番目にならないように努力しているように感じます。Geminiでは、短い瞬間近づきました。そして正直に言うと、Googleのものがより安定していたら、彼らが1位の位置にいたと言ったでしょう。それは非常に非常に近いものでした。
しかし、o3が安くなり、o3 Proがついに出荷され、O4 Miniがこれほどばかばかしく安く効果的であり、これらすべてが一貫しているAPIにあり、信頼性があるツールコールプロトコルを持ち、MCPやこれらすべての他のものの採用により、OpenAIモデルはまだ私がただ使って探しているものを得ることができるものだと感じます。
私のエディターでのコーディングにおいて彼らが良いかは、最近あまり使用していないので、わかりません。しかし、少ししたらお知らせします。
しかし、全体的に、OpenAIはそのリードを維持することができ、再びこれらの船が彼らを1位に置きました。
あなたたちがどう感じるか興味があります。このAIレースはあまり興味深くなくなってきているのか、それともこれらの飛躍はまだあなたたちにとって刺激的なのか。価格が安くなるとT3 Chatであなたたちにより良いものを提供できるので、私はまだ興奮していますが、あなたたち皆がどう感じるか知りたいです。コメントで教えてください。そして次回まで、プロンプトし続けてください。


コメント