OpenAIは革新的な技術を次々と発表しながらも、すぐに他社に追い抜かれるという状況に直面している。GPT-5やGPT Image 1などで一時的にトップに立つものの、AnthropicのClaude Opus 4.5やGoogleのGemini 3、中国のDeepSeekなどが迅速にキャッチアップし、多くの分野で2位に甘んじている。しかし、OpenAIの真の強みはChatGPTという圧倒的なユーザー体験にあり、全収益の70%を占めるこのプラットフォームを維持することで、個別の技術分野で最高でなくとも市場での優位性を保っている。OpenAIは各分野で「十分に良い」体験を提供することで、ユーザーが他のサービスに移行する理由をなくすという戦略を取っており、この戦略が成功し続ける限り、2位であっても勝者であり続けるという興味深いパラドックスが存在する。

OpenAIの栄光と挫折のサイクル
OpenAIは本当に魅力的な企業です。ある日は我々のAI利用方法を根本的に変える斬新なパラダイムを発表し、翌日には小規模な企業が同じ技術でOpenAIを打ち負かしているということが起きています。
昨年末のことを懐かしく思い出します。01が推論機能を大衆に導入することで、モデルの動作方法を完全に変えたときのことです。モデルが自分自身を正しい方向に導くためにトークンを生成し、より正確な答えに到達するという概念でした。
わずか数ヶ月後、正確には1ヶ月半も経たないうちに、DeepSeekが同じ技術を使ったR1をリリースしました。しかしOpenAIと異なり、彼らは実際にその推論トークンを共有しました。なぜなら、オープンウェイトモデルを共有したからです。誰でも自由に使えるものでした。彼らはOpenAIと同等の数値を達成し、しかもこれを無料で使えたのです。その結果、市場全体が即座に崩壊したかのようでした。
これは一度きりの出来事、中国の小規模企業がOpenAIの研究を複製し、再現し、そして凌駕できた稀な瞬間のように思えました。
繰り返される追い抜きの歴史
しかし、これは繰り返し起こり続けています。今日、GPT-5.2がリリースされた直後、すでにGemini 3 Proが先行しており、Gemini 3 Flashもすぐ後ろに迫っています。
GPT-5のローンチには本当に感動しました。できる限り多くのことに使おうとしていました。正直なところ、速度が非常に遅かったのであまり多くは使えませんでしたが、それでもコードやUI関連の作業には大いに気に入っていました。
そしてわずか数ヶ月後、他のモデルがUIにおいて改善し、しかもより高速で信頼性が高くなりました。その結果、私は使用頻度を減らすことになりました。
それから、Codexから始まり、ウェブアプリ、画像モデル、その他多くのものがあります。OpenAIは何か素晴らしいことを成し遂げ、追い抜かれ、そして長期間にわたって2位に留まるという永続的なサイクルに捕らわれているように見えます。
OpenAIの特異性と競争の厳しさ
この状況についてもっと話したいと思います。なぜなら、これはOpenAIが他の企業とどう違うのか、そしてこの市場全体での競争がいかに厳しいかを示していると思うからです。それと同時に、私がこれらのモデルや研究所についてどう考え、何を使うかについてどのように決定を下しているのかについても、少し学べるかもしれません。
いつものように、今話している企業のどこからもお金をもらっていません。そして、これがOpenAIの良いリストから私を外すことにならないことを願っています。良いリストに入っていると、新しいものへの早期アクセスが得られるんです。
いずれにせよ、誰かがスポンサーになってくれないといけないので、今日のスポンサーのための短い休憩を挟みます。彼らは時間の節約がすべてです。だから、もし誰も雇っていないなら、この広告はスキップしても構いません。
しかし、もし雇用を考えているなら、本当に今日のスポンサーをチェックすべきです。G2Iは採用をはるかに簡単に、はるかに速くし、おそらくあなたが自分で見つけるよりも優れたエンジニアを連れてきてくれるでしょう。
彼らの8,000人のエンジニアネットワークは信じられないものです。単なる新卒者が最初の仕事を探しているような集まりではありません。実際の企業で実際のプロジェクトに何年もの経験を持つ人々であり、彼らの大多数はすでに最高のAIツールに精通しています。だから、Cursorの使い方を教える必要はありません。コードベースに投入すればすぐに始められます。
さらに驚くべきことは、彼らがプルリクエストを提出し始める速さです。G2の目標は、登録からプルリクエスト提出まで7日以内です。本当です。1日目に登録し、2日目にチームとミーティングし、3日目にSlackをセットアップし、週末までにトライアル開始準備ができた候補者がいて、その日の終わりまでにプルリクエストが提出されます。
ちょっとクレイジーですが、何度も見てきたので、実際に信じています。チームを運営しているなら、リクルーターを追いかけるよりもはるかに重要なことがあるはずです。分かっている人たちを使ってください。
カテゴリー別の競争状況
OpenAIは2位から抜け出せない。これは大胆な主張ですが、AIで行うことの異なるカテゴリーに分解して、これを明白なものとして確立したいと思います。
プログラミングのようなものがあります。これをフロントエンドとバックエンドなどに分解することもできますが、一般的なままにしてプログラミングをカテゴリーとして扱います。
チャット体験も含めます。これは、宿題の手伝いを得たり、感情について話したり、一般的な人がChatGPTで行うようなすべてのことに、これらのモデルを使用する人々のためのものです。
他にも面白いものを追加します。画像生成など。他に何があるでしょうか。ドキュメント解析。確かに。エージェントのツール呼び出し。ブラウザ使用もそこに入れられます。
これらのカテゴリーがすべて同等であるとか、プログラミングがブラウザ使用やドキュメント解析と同じくらい重要だと言っているわけではありません。ただ、最良の選択肢を持つことが意味を持つカテゴリーを分解しようとしているだけです。
翻訳において1%優れているが5%高いというのは意味がありません。今では、すべてが翻訳において十分に良いからです。しかし、これらのカテゴリーに焦点を当てたいと思います。
実際、ディープリサーチは興味深いもので、後で必ず触れます。しかし今のところ、これらに焦点を当てましょう。
プログラミング分野での競争
プログラミングから始めましょう。現時点でこれはあまり過激な意見ではないと思いますが、私の意見では、今のところ最高のプログラミングモデルは圧倒的にOpus 4.5です。
Anthropicをけなすのは誰よりも好きですが、Opusは別格です。本当に難しいタスク、コードベースの多くの思考と理解を必要とするものについては、GPT-5.2x highの方が若干優れている場合もあります。しかし、はるかに多くの推論、はるかに多くのトークンを使用し、非常に遅いため永遠に時間がかかり、それでもGPTモデル特有の癖を持っています。
Opusと比較すると、ハーネスをうまく使いこなせず、勝手な行動を取って奇妙なことをするのが好きなようです。これは奇妙です。なぜなら、GPT-5は以前、指示に従うことが非常に得意だったからです。
ここに他の複数のAnthropicやGPTモデルを入れることもできますが、プロバイダーの位置をリストで考えようとしています。正直なところ、Gemini 3 Proは、これらの間に私が感じるギャップを適切に表現していません。Geminiでのコーディングは好きではありません。多くの理由があります。
モデルが勝手に行動して独自のことをするのと、ツール呼び出しをうまく処理しないことの組み合わせです。理論的には、他の2つよりもUIにおいて若干優れています。時々、空間推論が得意です。だから、3Dゲームを作成していて、モデルに物を配置してもらいたい場合、Gemini 3 Proは堅実です。
しかし、日常的なコーディングに実際に使用するのは、あまり良くありません。5.2は従来のコーディングタスクに使うのは好きではありませんが、大規模な見直しを計画している場合や、このバグが適切に解決されることを確認したい場合、5.2はデバッグタイプのタスクに本当に良いと感じています。
そして、Opusは一般的な万能選手として、すべてに常に使っています。今では私のデフォルトです。Cursorで常に使っています。Opusを使っていてとても楽しいので、はるかに多くのコードを出荷しています。このギャップが崩壊した速さは驚異的です。
GPT-5は他のすべてのものよりはるかに先行していました。その癖に対処しました。遅い速度に対処しました。奇妙なツール呼び出しのフォーマットに対処しました。そして今、Opusが再び先行しています。
ほとんど重要ではありません。彼らは押し戻そうと戦い続けています。5.1と5.2のリリースは、どちらもAnthropicとGoogleからの勝利を取り戻そうとする試みのように感じられました。Googleの場合は成功したと思います。
また、Gemini 3はあまり賢くないとも思います。モデルは多くのことを知っていますが、実際に使用するには素晴らしい体験だとは思いません。
非常に迅速にGPTは、5を持つ最良の選択肢から下降しました。これは依然として驚くべきリリースであり、その後すぐに崩壊しました。
CLI ツールの競争状況
もう1つのプログラミングカテゴリーをここに追加したいと思います。これに傾倒し続けるために。CLIツールと呼びましょう。
OpenAIがCodexをオープンソース化したのを見るのは本当にクールでした。大きな研究所がエージェントコーディング用のCLIツールのような重要なものを取り上げ、それを閉ざされたドアの後ろに隠し、誤ってソースマップを添付したバイナリを共有し、それを共有したことでDMCA申請するのではなく、真のオープンソースとして提供したことに心から興奮しました。
すみません、Anthropic、モデルでは私を勝ち取りつつありますが、Claude Codeの運営方法はまだ好きではありません。
真のオープンソースとしてのCodexの登場は大きなことで、心から興奮しました。しかし、彼らはまたそれをRustで書き直しました。これは必要ありませんでした。
Codexがリリースされたとき、Claude Codeよりも若干先行していたと主張します。ほぼ同じ機能性を持ち、はるかに拡張性がありました。オープンソース部分は、本当にクールなことができることを意味しました。
当時、Claude CodeはプロジェクトのリードがCursorに行き、その後すぐにブーメランのようにClaude Codeで働くために戻ってきたため、やや停滞していました。
それ以来、Codexは意味のある改善をしていません。むしろ悪化しており、Claude Codeは遥か先の位置を見つけています。
さらに進んで言います。Open CodeもCodexより先行していると言います。FoundryとDroidも先行していると言います。Gemini CLIが先行しているとまでは言いませんが、それほど遠くはありません。
Codexを快適な4位に置き、その後Gemini CLIとフォークを続けます。これは、Codexを使うときにあまり良い気分にならないからです。サブエージェントやその概念がまだありません。UIが奇妙です。Rustへの移植に時間をかけすぎて、この分野で競争力のあるツールを作ることに十分な時間をかけていないように本当に感じます。
ちなみに、チャットの人々は、私が誰も真剣に使っているのを見たことがない他の多くのツールを言っています。だからここにリストされていないのです。誰も実際に使っていないからです。
Droidでさえ、私は浮き沈みがありました。今、スポンサー契約に取り組んでいるので、それを考慮してください。うまくいくときは素晴らしいですが、実際のオンボーディングは最悪でした。そして、それをすべて修正するためにチームと協力しています。
したがって、彼らはCLIツールでさえ2位にもいません。本当にクールな1位の可能性を持って登場し、すぐに競争に遅れをとり、追いつくための適切なことをしていません。それを見るのは悲しいことでした。
チャット体験での優位性
そして今、チャット体験です。これは興味深いです。なぜなら、モデル側と実際のユーザー体験側があるからです。
唯一の優れたチャットアプリを除外すれば、競争に対して不公平であることは理解できます。非常に豊富に資金提供され構築されているものについて話すのは不公平です。数十億ドル規模の企業であるOpenAIが、サンフランシスコでこれをハッキングしている3人の男と競争できるでしょうか。
OpenAIがこれほど素晴らしいものと対抗するのは不公平です。わかります。だから、彼らがいる場所に少し近いものと対抗させましょう。AnthropicやGoogleのような世界のものです。
チャット体験をユーザーインターフェース側に制限し、より良いことをしているサードパーティを削除し、主要な研究所だけに焦点を当てるなら、ChatGPTがそこを圧倒します。これは彼らの最大の強みの1つです。後でもっと話します。
Anthropicがclaude.aiですぐ後ろにいると言いますが、すぐ後ろではありません。かなり大きなギャップがあります。その大きなギャップを示したいくらいです。そしてClaudeがあります。
Geminiに到達する前に、もう1つのかなり大きなギャップがあると主張します。コアのGeminiチャット体験は非常に非常に悪いからです。非常に悪いです。これについてこのビデオを作るつもりはありません。
しかし、OpenAIが一般的な主要AI競争で間違いなく勝っている1つの場所はChatGPTです。それは依然として彼らの収益の70%です。人々がOpenAIについて聞いている場所の大部分です。人々がAIについて言及するとき、彼らはしばしばChatGPTを指しています。
彼らはここで圧勝しました。これにより、他の場所で1位でない余裕が生まれます。この1位が最も重要です。そして、もし彼らがこれを失えば、彼らは死にます。
ちなみに、彼らまたは競合他社のいずれかが最高のチャットアプリになることに興味があるなら、他のものよりもずっと良いものを1つ知っています。話し合うべきかもしれません。
チャットモデル体験の比較
チャット体験についてもう少し深く掘り下げたいと思います。先ほどやったことと似ていますが、チャット体験は実際にチャットしているUIだけではないからです。モデルがアクセスできるツールだけでもありません。チャットモデル体験でもあります。
ここで、いくつかの過激な意見を述べます。年の半ばにこれらの異なるモデルをどこに置くか尋ねられたら、おそらくAnthropicをリードに置いていたでしょう。
個人的には、Sonnetはしばらくの間GPTモデルよりも話しやすいと感じています。そして今、新しいGPTモデルでは、それ以上にそう感じています。
GPTから得られる絵文字だらけのスロップにはとてもうんざりしています。GPTに文章やフィードバック、または単に話しかけることを求めるのは好きではありません。快適ではありません。
そして、ここで本当に過激な意見を述べ始めます。それ以来、私の感情は変わりました。Kimmy K2が最も話しやすいモデルです。これについては他の多くのビデオで話しました。T3 chatに行って試してみることを強くお勧めします。無料ティアのデフォルトモデルであり、理由があってその変更を行いました。使うのが本当に本当に快適なモデルです。とても気に入っています。
この後、個人的には、Sonnetの方がまだ話しやすいと言います。そして、GPT-5と言います。その後、Googleが何をしているにせよ、と言います。Geminiモデルと話すのは好きではありません。一緒にいるのは快適ではありません。
PDFを渡して「有用なデータを取得して」と言うときは素晴らしいです。あなたの一日について尋ねると最悪です。そして個人的には、私はあまり人種差別主義者ではないので、Grokと話すのも楽しいとは思いません。
面白いと思ってくれて嬉しいです。実際、バイアスの非難に対抗するために、愚かなことをするつもりです。GrokとxAIとのチャット体験、モデルではなく、それらは好きではありませんが、それらを使用するための実際のアプリは、競合他社よりはるかに先行しています。
ChatGPTとGrokは、現在AIチャットに最適なアプリです。それらは2番目と3番目に優れたウェブサイトであり、1番目と2番目に優れたアプリです。それらと競争する新しいアプリが来ます。注目してください。最初のベータ版がすぐに出ることを願っています。すべてがうまくいくことを願っています。
しかし今のところ、それらは最高のモバイルアプリであり、最高のウェブアプリの中にもあります。素晴らしい。
画像生成分野の変遷
そして今、画像生成があります。画像生成は奇妙なものです。なぜなら、非常に長い間、Midjourneyがはるかに先行していたからです。面白くありませんでした。Midjourneyは少なくとも2年間、唯一使用可能な画像モデルでした。
そして、利用可能になって以来、ずっとDiscordで多くのランダムなことに静かに使用してきました。Midjourneyのもう1つの驚くべきことは、確か今年の初めまでDiscordボット経由でしか利用できなかったことです。ちょっとワイルドです。
ウェブアプリへの早期アクセスを得ようと本当に頑張りました。しかし、彼らは指示に従うことからスタイル、特にリアルな画像生成まで、他の誰よりもはるかに先にすべてを理解しました。
しかし、彼らは大きな研究所ではありません。他の企業のような無限の資金がありません。彼らは単に素敵で趣味の良い画像生成ソリューションを望んでいました。
そして今、彼らは少しビデオもやっていると思います。最近は追いついていませんが、GPT Image 1に踏みにじられたからです。
GPTイメージモデルは、オンラインで大規模なトレンドを開始するのに十分な最初の画像モデルでした。誰もが自分のジブリ風画像を投稿していた時代を覚えていると思います。また、彼らが非常に強く打たれた黄色いフィルターも覚えています。
サム・アルトマンのTwitterプロフィール写真は、今でもジブリ風の画像だと思います。そうです。そうでした。それは一つの瞬間でした。そして、今でも古典的な黄色いフィルターがあります。それに固執していることを誇りに思います。
あの瞬間は驚異的でした。そして、あの瞬間は、OpenAIのImage 1がDallyやMidjourneyのようなものからの飛躍だったからこそ可能でした。スタイルに従い、編集されている元の画像を尊重する能力が信じられないものでした。
テキストをうまく処理した最初の画像モデルでもあり、それを可能にするために多くの驚くべき技術を持っていました。指が多すぎることもありませんでした。他のモデルが持っていた多くの奇妙な癖を持っていませんでした。
私たちがそれをからかったものは、画像が不正確であることではありませんでした。黄色いフィルターでした。すべてが黄色く見えました。
とはいえ、彼らは追い抜かれました。Nanobanana。Nanobanaという名前のものにどうやって負けるのですか?
Googleは、モデルの最初のビルドが動作していたときに、Ella Marinaのようなもので人々がモデルを評価していたときに使用した匿名の名前がNanobananaでした。名前が面白くて定着したので、実際の内部名の代わりにそれを使うことにしました。実際の内部名はGemini Flash Image 2か何かだったと思います。
それ以来、彼らはNanobanana Proも導入しました。これは内部的にはGemini Flash Image Proか何かですが、定着したブランディングです。彼らは現在、それぞれNanobanaとNanobanana Proとして知られています。
Nanobananaは本当に本当に良かったです。GPT Imageにはいくつかの欠点がありました。特に、画像の生成に時間がかかりすぎます。2分以上かかることもあります。時には5分にもなります。Image 1が物事を生成するのにかかる時間がどれほど長いかは驚異的です。
Nanobananaは飛ぶように速いです。Nanobananaは数秒で生成します。どれほど速いかは滑稽です。テキストではそれほど得意ではありませんでしたが、十分に良かったです。
そして、最初のパス後に画像に物を追加するために使用すると私が信じているキャンバスレイヤーのような、GPTが多くのツール呼び出しやその他のことを処理する代わりに、拡散レイヤーを通じてすべてを行いました。
それは本当に有望でした。以前誰も見たことのないことをすることを可能にしました。そして、Nanobanaはそれをただ圧倒しました。はるかに速く、はるかに安く、黄色いフィルターなし、ほぼ同じ精度、テキストで十分に良い、それほど良くはありませんが、十分に良いです。
しかし、その後Proがリリースされ、他のすべてを完全に凌駕しました。Nanobanana Proでできることすべてで、まだ私の頭を悩ませています。
友人が2分でデモをバイブコーディングしたばかりです。Twitterプロフィールを渡すと、その月の最大のツイートをスクレイピングし、Nanobanana ProでPowerPointプレゼンテーションを生成します。各スライドを生成するからです。シャツに少しテキストがあるようなものではなく、適切に生成できるのです。
完全なスライドデッキを生成できます。マーケティング画像のようなものを生成できます。Nanobanana Proが持つテキストと空間認識のレベルは信じられないものです。Image Genが決してできるとは思っていなかったことができるようになります。
それは少し怖いくらいなので、OpenAIはGPT Image 1.5で応答しました。
チャートの位置を移動しなかったことに注意してください。1.5はImage 1の最大3倍の速さです。テキストをよりよく処理できます。図に似たものをいくつか作成できます。プロンプトに十分な回数追加すれば、写真のリアリズムをまともにうまく処理できます。そうでなければ、この奇妙な漫画風の外観にデフォルトで設定されます。
1.5について専用のビデオを作るつもりでしたが、誰も気にしていないようです。正直なところ、私もそこに含まれています。それほど興奮していません。
Nanobanana Proはまだ非常に新鮮なので、1.5の制限を深く掘り下げる前に、その制限を使い果たしたいと思います。
とはいえ、それはまだ本当に遅いので、一緒に作業するのはそれほど楽しくありません。そして、たとえそれが10%優れていたとしても、3〜5倍遅いです。だから、現時点では私にとって特に有用だとは思いません。
今、他のすべてのことが起こっているオープンウェイトの混沌があります。そして、Midjourneyがそれよりわずかに下にあると主張します。オープンウェイトモデルを使用すると、Laurasのようなものを通じて多くのカスタマイズを行うことができ、特定の方向に動作を調整できるからです。
オープンウェイト画像モデルの現在の状態は今、驚異的です。ビデオはまだ非常に初期段階なので、ここには入れませんでした。まだ実際のユースケースではありません。
Soraは他のものよりも若干先行していると思いますが、AlibabaのWANで何が調理されているかを見ると、WAN 2.6はかなりナッツです。それらを実際に能力をテストできる方法で使用するのは難しいです。
だから、これ以上深く掘り下げません。一般的に、OpenAIは今ビデオでわずかなリードを持っていると言いますが、ビデオはほとんど重要ではなく、中国のオープンウェイトラボは本当に速く追いついています。
ドキュメント解析における優位性
ドキュメント解析に飛びましょう。これらを邪魔にならないように移動します。ドキュメント解析。私はGemini 3 Flashビデオでこれについてちょうど話していました。
Geminiはこの種のものではるかに先行しています。ナッツです。特にFlashを使用した巨大なコンテキストを処理するGeminiの能力。それを食い尽くします。PDF全体を読むことができます。その中の図を見ることができます。すべてのコンテキストを取得できます。干し草の山の中の針を本当に本当にうまく見つけます。
とはいえ、GPTモデルもそれが苦手ではありません。特にNanoモデル。GPT-5 Nanoは最近の最も過小評価されているモデルの1つだと今でも思っており、3 Flashがリリースされるまで、私のお気に入りの小型モデルでした。そして今、3 Flashがすべてを圧倒しています。
Tuneに関する私のビデオを覚えているなら、モデルのデータセットのトークンを少なくするためのJSONの代替品です。巨大なCSVや巨大なJSONブロブを取得してモデルに渡し、より少ないトークンを使用したい場合、Tuneはそれを本当に簡単にします。時には、ルックアップの精度が向上します。
ここで見るように、Gemini 2.5 Flashは、tuneで87.6%のルックアップ精度を取得し、JSONで82%を取得します。GPT-5 Nanoは、tuneで91%を取得し、標準のJSONで89%、JSON圧縮でも同じ90.9%を取得します。
そう、かなりクールです。そして、これはNanoモデルです。GPT-5 Nanoは超小型、超安価、超高速、超素敵です。素晴らしいモデルです。
2.5 Flashは近かったですが、若干遅れていました。そして正直なところ、過去数ヶ月間、5 Nanoは干し草の山からの巨大なコンテキストデータ検索と針のようなもののための意味のあるリードを強く保持していると主張します。
Anthropicの新しくて高価で遅いHaikuのような他の研究所の小型モデルと比較すると、滑稽な違いです。エラー率が4倍以上高いです。9%のエラー率から40%のエラー率に移行しています。
GeminiとOpenAIはこの種のものではるかに先行しており、OpenAIはしばらくそれをリードしていましたが、それは主にGoogleの出荷が遅いからです。Googleは数週間ごとに他の研究所のようにモデルをリリースしません。
Gemini 3 Flashがここにあるので、ギャップは閉じられ、GPT-5 Nanoは1位から2位に移行しました。とはいえ、今の3位はGPT-OSSだと主張します。だから、彼らはここで2位と3位を持っています。これはクールですが、1位はGemini 3 Flashに虐殺されました。
伝えられるところによると、Mistralは特にOCR側でこれに対するクールなものをいくつか持っています。私よりも賢い誰かがもっと教えてくれたら信じます。しかし、今のところ、それに対する多くのユースケースが見えません。
そして、Gemini 3 Flashと5 Nanoは、これらのユースケースに対して依然として本当に遥か先を行っていると思います。
エージェントとツール呼び出し
そして今、エージェントとツール呼び出し。ここに指示に従うことを含めることもできます。そうしません。これは、与えられたツールをどれだけうまく使用するかです。ツール呼び出しのフォーマットにどれだけ確実に従うかです。どのツールをいつ使用するかを知っているかです。
そして長い間、Anthropicがここで王でした。彼らは偶然に標準を発明しました。彼らはツール呼び出しをこの曖昧な概念から、今私たちがエージェントを使用する方法に変えました。
ツール呼び出しは、今私たちがAIを使用する方法に不可欠です。すべてがそれを使用します。エージェントがモデルがトレーニングされたもの以上のことを知ることを可能にするフォーマットです。不可欠です。
Anthropicはここで殺しました。特に3.5 Sonnetで。それは、エージェントとツール呼び出しの実行が統合するのに非常に意味があり始めた始まりでした。彼らはしばらくそのリードを維持しましたが、GPT-5がOpenAIにリードを簡単に与えたと主張します。
モデルがそれについてトレーニングされていることと、新しいHarmony応答フォーマットの組み合わせです。慣れていない場合、OpenAIは、他の研究所や特に他のホスト、特にOpenAIオープンソースモデルをホストしている人々が、メッセージやツール呼び出しなどのこのフォーマットを理解できるように、応答シェーピングの方法をオープンソース化しました。
このフォーマットはオープン標準です。解析のためのRustで主に書かれています。彼らがそれについて透明性を保っているのは本当にクールなオープンソースです。
Harmonyの導入により、リリース時にGPT-OSSにとって事態がさらに悪化しました。なぜなら、まだ誰もそれをサポートしていなかったからです。しかし、サポートがゆっくりと成長するにつれて、OpenAIモデルやHarmonyに従うことができる他のものを全体的にはるかに信頼性の高い本当に強力なポイントになりました。それはそうでした。
そして、それが長い間GPTが最高のツール呼び出しモデルだった理由です。ツールをいつ使用するかを知っていたからです。ツールを過度に使用しませんでした。フォーマットは、すべてがそれで動作するまでにゆっくりと標準化されました。そして、待ち時間に対処できる限り、それは本当に良い体験でした。
そして、Sonnet 4がリリースされ、その後Sonnet 4.1がリリースされ、その後4.2、その後4.5がリリースされ、非常に迅速にGPTモデルはツールに最適なモデルのように感じなくなりました。
彼らは依然として最も賢く、十分に難しい問題を与えれば、彼らが輝くのを見ることができました。そして、Opusがリリースされ、Opus 4.5は私がここでまだ感じていたギャップを閉じました。
そして今、GPTは快適に2位にいます。そして、Geminiがここでどこに行くのか疑問に思っているなら、あまり良い場所ではありません。
Geminiモデルには多くの問題がありました。ツールの形式を誤ったり、どのツールを使用するかを理解していなかったり、ツールを過度に使用したり、間違ったものを呼び出したり、検索ツールを呼び出すべきときにCLIを呼び出したり、Googleのものが通常そうであるように奇妙だったりします。
Googleサイトの新しいページ、彼らがリリースした新製品に行って、ボタンの上にカーソルを合わせると、実際に何をするのかよくわからないのでクリックするのが少し怖い感じを知っていますか?それが、Googleのモデルを何にでも使用するときの感じです。
そして、Geminiはツール呼び出しに最適ではありません。それらのツールでどこに行くのかわからないからです。
SnitchBenchのようなものを見ると、私がベンチマークしたもので、与えられたツールを使用してスニッチする積極性をモデルがどれだけ持っているかです。そして、Gemini 2.5 Proが圧倒的に最も積極的なスニッチであることがわかります。なぜなら、それは与えられたツールを実際に重要でない、または利益をもたらさなくても、あらゆる種類のことに使用するのが大好きだからです。
それはモデルの性質です。公平に言えば、Geminiの前に置くだろう他のモデルがありますが、すべてのオープンウェイトモデル全体の奇妙なニュアンス、ツール呼び出しで十分に良い非常に少数のxAIモデル、またはComposer 1の狂気とCursorで特にこれが得意なモデルを構築するために起こっている奇妙なことについて、ここに座って話したくありません。
私の言葉を信じてください。Opusはツール呼び出しのリードで圧倒的です。GPT-5.2は若干賢いですが、非常に遅く、まだツール呼び出しの形式を誤る可能性があるため、それほど有用だとは思いません。
Opusからエラーを受け取りません。GPT-5.2から時々エラーを受け取ります。CursorのようなものでGeminiを実行する50%の時間、形式が誤ったツール呼び出しに対する奇妙なエラーを受け取ります。
ブラウザ使用とスコアリング
そして、ブラウザ使用があります。正直に言うと、ここで何が起こっているかについて最新情報を実際には追いついていません。過大評価されているユースケースだと思います。
Gemini 3 Proがここで意味のあるリードを持っていることが私の理解です。OpenAIはGPT-5で一時的なリードを持っていましたが、それ以来Opus 4.5に失われ、GPTは今3位です。
どうやら、Gemini 3 Flashでさえ、視覚処理が非常に得意なので、これで本当に良いようです。しかし、アイデアはわかります。
私が拾った興味深いと思う十分に知っていることについての話すこのランダムなカテゴリーセット全体で、競争力があると思います。OpenAIはすべてのカテゴリーで2位または最悪です。ほとんど2位です。
プログラミングでは2位です。チャット体験では1位です。これは彼らが保持しなければならないエッジです。さもなくば死にます。画像では2位です。ドキュメント解析では2位です。エージェントとツール呼び出しのものでは2位です。ブラウザ使用では、測定方法に応じて2位または3位です。これがOpenAIが現在いる場所です。
しかし、これらすべてのケースで、彼らが最初にリリースしたものが1位に置かれ、その後すぐに他の研究所が行った予想外の飛躍によって2位に押し下げられたことに注意することが重要です。
しかし、これを見る別の方法があります。代わりにこれを見ると、1位が3ポイント、2位が2ポイント、3位が1ポイントとしてスコア付けすると、非常に異なります。
このスコアリングをしましょう。だから、プログラミングでは、Opusが1位です。だから3。OpenAIは2。Googleは1。
チャット体験では、Anthropicは非常に低いので、ポイントを与えたくありませんが、1ポイントを与えます。彼らは1ポイントを取得します。4になります。2は5になります。なぜなら、彼らは1位だからです。そして、Googleは1ポイントを保持します。
画像生成。Nanobananaが1位です。それは4にします。OpenAIは2ポイントを取得します。それは7にします。Anthropicは、画像モデルがないのでスコアを取得しません。
ドキュメント解析。Googleが1位です。それは7ポイントにします。OpenAIは2位なので、9ポイントにします。Anthropicは実際にはそこにさえいません。もしそうなら、1ポイントになるでしょう。1ポイントを与えます。それに使用できます。ただそうしないだけです。
エージェントとツール呼び出し。Anthropicが明らかにリードです。だから、彼らは8を取得します。OpenAIは今11にいます。そして、Googleは7から8ポイントに移行します。
そして、ブラウザ使用。Geminiが1位なので、11にします。Opusは2位なので、10にします。そして、OpenAIは3位なので、12にします。
ブラウザ使用を含めなければ、OpenAIは意味を持って他の研究所よりリードしていたでしょう。しかし、含めたので、彼らは依然として先行しています。
これが本当に言いたいポイントです。OpenAIは、これらのほとんどのものにおいて最高であることを目指していません。彼らは、それらにおいて積極的に巨大な飛躍を遂げることを目指しています。
OpenAIの真の戦略
画像生成モデルを作成しているとき、彼らはGoogleが何をしているかを見て、「それを5%良くするにはどうすればいいか」とは言っていません。彼らは生成している画像を見て、「可能な限り最高の画像を作るにはどうすればいいか。これをより良くするにはどうすればいいか」と言っています。
そして、時には巨大な飛躍があり、時にはありません。そして、彼らの周りの業界は起こっています。正直なところ、数ヶ月前まで、OpenAIが自分たちの研究所の外で何が起こっているかに注意を払っているようには実際には感じませんでした。
それは変わりました。特にCode Redのようなものの後、外で何が起こっているかについてはるかに気にしているように間違いなく思えますが、それでもそれほど気にしていません。
そして、理由は簡単です。チャット体験です。OpenAIの目標は、プログラミングやドキュメント解析で他のすべての研究所を圧倒することではありません。それは、AIを使用するほとんどの人々のデフォルトのチャット体験になることです。そうすれば、他の場所に行く必要があると感じる必要がありません。
彼らはコードを書くことでOpusほど優れている必要はありません。十分に良くなれば、すでにOpenAIで月額20ドルまたは200ドルのティアにいる場合、そもそも試しに行く理由が少なくなります。
もしコーディングで5%劣っていても、すでにそれにお金を払っているなら、誰が気にしますか?画像生成についても同じです。GPT Imageは、Nanobananaよりも1日あたりはるかに多くの生成を取得していることを保証します。なぜなら、ChatGPTを使用する人々がそれを使用するからです。
私の母親はChatGPTで画像を生成しました。私の母親がNanobananaで画像を生成する世界はありません。それは起こっていません。そのモデルの名前を彼女に言ったら、彼女は笑って「待って、冗談じゃないの」と言うでしょう。
OpenAIは最高の画像生成を持つ必要はありません。ChatGPTでそれを使用し、より良いものを求めて他の場所に行くべきだと感じないほど十分に良い必要があります。
これが本当に当てはまるのを知っていますか?ドキュメント解析です。私の母親が、家に対して行ったことについての領収書から得たPDFを持っていて、詐欺にあっているかどうかを知りたい場合、彼女はそれをChatGPTに提出して「これらの数字は妥当に見えますか」と言うことができます。
そして、答えが少しでも意味をなす限り、彼女はそのドキュメントを分析するわずかに良い仕事をする別のモデルを探しに行くつもりはありません。彼女は気にしません。十分に良い答えが欲しいだけです。
ここで開発しているテーマが見えますか?OpenAIの目標は最高になることではありません。それは、ほとんどの人々がchatgpt.comを離れる理由がないほど十分に良いことです。
時間が経つにつれて、OpenAIが開発するすべてのものの役割は、世界で最高であることを目指しているわけではありません。彼らが行っているすべてのことに投入している信じられないほどの量の研究と努力の結果として、時々それは起こります。
しかし、彼らは気にしません。なぜなら、収益の70%がChatGPTのサブスクリプションから来ているからです。離れる理由がない限り、彼らは気にしません。
そして、Code Redのあの全体が起こった理由は、週ごとのトラフィックで7%の減少を見たからです。それが彼らが気にするすべてです。それが彼らにとって重要なすべてです。
彼らは、Nanobananaが画像生成1.5よりもわずかにテキストをより正確にレンダリングすることについて、これ以上気にすることはできません。なぜなら、人々はいずれにせよChatGPTではるかに多くの画像を生成するつもりだからです。
彼らは、OpusがCursorのようなもの内のハーネスでのツール呼び出しにおいてわずかに優れていることについて、これ以上気にすることはできません。なぜなら、GPT-5と5.2もChatGPTハーネス内でツールを完全に問題なく呼び出すことができるからです。
彼らは、chatgpt.comの自分たちのハーネスでモデルを使用する感じについて気にしています。そして、競争と手の届く範囲内で十分に良い体験をそこでまだ持っている限り、誰が気にしますか?
リスクは、GPT Imageがリリースされる前のような十分に大きなギャップが発生した場合に来ます。Dallyはひどかったです。他のすべての画像生成はDallyよりも滑稽に優れていました。だから、彼らは追いつくために多くの作業を投入しました。
彼らは最終的に他の誰もを飛び越え、今はそれとペースを保っているだけです。そして、これはまた興味深いです。なぜなら、ここで意味を持って競争できる唯一の企業はGoogleだからです。Googleは狂った配信力を持ち、人々が毎日使用するアプリを持っています。
彼らがAIのものを適切に統合すれば、ChatGPTにサインアップするインセンティブは大幅に減少します。そして、それがGoogleが自分たちのバンドルで勝つ方法です。
しかし、AIのもののためのGoogleのソフトウェア表面積は非常にめちゃくちゃなので、ほとんど重要ではありません。Geminiがここで4位であることは、GoogleとOpenAIがそれぞれどのように物事について考えるかを根本的に変える非常に重要な詳細です。
仮に、GeminiアプリがとてもひどいものからGrockと同じくらい良いものになったとしたら、突然OpenAIははるかに恐れなければなりません。
しかし今のところ、現実は、Google Workspacesのようなものに加入している平均的な加入者は、Geminiを使用するよりもChatGPTを使用する可能性が高いということです。考えてみてください。
あなたが知っている中で、google.comやgmail.comではないドメインを持つGoogle Workspacesにお金を払っている人は何人いますか?彼らのうち何人が毎日gemini.google.comでGeminiを使用していますか?
そして、彼らのうち何人が、ChatGPT経由で、選択したエディター経由で、電話アプリ経由で、T3 chatやその他を通じてOpenAIモデルを使用していますか?
私が日常的に話す人々のほぼすべてが、家族以外では、毎月ますます多額のお金を払っているGoogle Workspacesプランを持っています。そして、彼らの誰もGeminiを使用していません。
それが変わる瞬間、ここでのGoogleの戦略は大幅にシフトしなければなりません。しかし、この時点では、彼らがデフォルトです。
Googleが本当にGmailを気にせず、意味を持って更新しないのと同じ理由は、Googleが2位であることで大丈夫な理由と同じです。Proton Mailがどれだけ優れているか、よりプライベートであるかは重要ではありません。なぜなら、すべての企業がまだGoogleを使用しているか、Outlookを使用しているからです。
Nanobanana ProがGPT Image 1.5よりもわずかに優れていることは重要ではありません。なぜなら、人々はすでにChatGPTを使用しているからです。彼らはすでに勝ちました。
そして、それが興味深いことです。OpenAIは、ギャップがそれほど大きくなく、チャットで1位を維持する限り、2位であることについて全く気にしません。
OpenAIが2位であることで大丈夫な理由は、彼らがすでに重要な唯一のカテゴリーで1位を勝ち取ったからです。AIと話したいときに開くアプリです。
そして、そのリードを維持する限り、ベンチマークでの小さな勝利のためではないので、3位、4位、または5位にさえ落ちる可能性があります。彼らはこれに最もお金を稼ぐためにいます。
そして、彼らが稼いでいる途方もない額のお金を稼ぐのをやめることに非常に非常に驚くでしょう。OpenAIは、2位に留まっても勝つつもりです。
そして、それは言うのが本当に奇妙なことです。特に、私がここでGoogle DeepMindのシャツを着て座っているときに。しかし、アイデアはわかることを願っています。これが有用なビデオだったことを願っています。興味深い暴言だと思いました。
あなたたちがどう感じるか興味があります。コメントで教えてください。そして次回まで、平和、オタクたち。


コメント