OpenAIがClaudeを殺したかもしれない

11,029 文字

I knew OpenAI wanted devs to like them but...holy hell. This is a lot. From the new (fully open source) Codex cli, to th...

AIが今日ほぼ休暇中に発表したと言っていいでしょう。マイアミのReact Miamiカンファレンスを楽しもうとしていたところ、飛行機に乗った1時間以内にOpenAIがストリーミング配信を行うと発表し、その中でいくつかの面白いものを発表しました。O3とO4 Miniですが、これらのモデルだけの話ではありません。それらは興味深いモデルで、ベンチマークは素晴らしく、O4 Miniはおそらく私の新しいお気に入りモデルになるでしょう。しかし、この発表が意味することはもっと大きなことなのです。
この発表が表しているのは、ある特定の会社に対する大規模な基本的攻撃です。皆さんがご存知のAnthropicです。OpenAIはAnthropicが現在デベロッパーフレンドリーな会社として見られていることを気に入っていないことは明らかです。そのため、Cloud Codeのオープンソース代替を作成したり、Windsurfを買収しようとしたり、ツールコールとコード統合にほぼ完全に焦点を当てたりといった混沌とした行動を多く取っています。特にデベロッパー向けのものが多く含まれており、それらすべてを掘り下げるのが待ちきれません。
カンファレンスを楽しもうとしているので、スポンサーを見つける時間がありません。なので、T3チャットの割引コードをここに載せます。まだ登録していない人のみ有効で、1ヶ月無料にします。300人分用意し、なくなったらコメントに別のコードを載せるかもしれません。その場で考えましょう。
まず最初に、モデル自体について話すべきでしょう。ご想像の通り、すでにT3チャットにO4 Miniを導入しました。O3はまだ高価なので導入していませんが、APIのみのオプションとして提供するかもしれません。自分のAPIキーを持ち込めるようにするかもしれません。4.5で同じことをしましたが、4.5はもうすぐ終了します。O3をT3チャットで使いたいという要望があれば対応を考えますが、今のところはそれほど需要がないと想定しています。
すでにO4 Miniを使って遊んでいますが、かなり良いです。お気に入りのテストをやってみましょう。Code 2021の3日目をRustで解いてもらいます。反応開始までちょっと時間がかかりますね。推論モードで動いていますが、APIで推論データを公開していないのが残念です。実はそうなると思っていました。この発表ではAPI関連の大きな変更がいくつかあったからです。例えば、温度やトークンを渡すキーが実際のAPIでは異なるようになっており、これは奇妙です。長い間これらは変更されておらず、必要のない変更です。APIの出力内容を変更することを検討していたのかもしれません。推論データが得られないのは残念です。これがすぐに作業していることを人々に感じさせることができないからです。
でも少なくともコードを出力していて、期待通りに動作しています。私がテストした限りでは、O3 Miniと同等かそれ以上に良いコードを出力しています。皆さんご存知の通り、O3 Miniはしばらく私のお気に入りモデルでした。私のお気に入りがアップグレードされて超嬉しいです。
O3は私がO1で感じた問題と同じようなものがあります。超遅く、冗長で、おそらく超複雑な問題を解くのには優れているのでしょう。しかし、私はまだAIを深く複雑なことに使っていません。Advent of Codeのチャレンジのような少し難しすぎる問題でも、小さな部分に分解して私の作業をダブルチェックしてもらうことはありますが、複雑な問題を一発で解こうとはしません。特にO1 Proで感じたフラストレーションが十分にあったため、これらのモデルをあまり使っていませんでした。価格を見たときも、かなり驚きました。
今OpenAIで使うべき3つのモデルはすべて新しいというのは少し狂っています。1週間前に私が推奨していたOpenAIモデルは今推奨するものとは全く異なります。今はこれらすべてが登場したばかりで、この3つを推奨します。O4 Miniが存在する今、O3が必要なケースはほとんどないと思います。両方を同時に発表したことに驚いています。最もスマートなモデルが安価な非常にスマートなモデルよりそれほど優れていないことを示しているからです。
O4 Miniはまだ驚異的な価値があります。入力100万トークンあたり10ドル、出力100万トークンあたり4.40ドル。すべての価格を追跡するサイトをまだ更新していませんが、O3 Miniと全く同じ価格です。簡単に思い出させるために、これらの超高価なものをオフにして処理を少し簡単にします。O3 Miniは出力に関してGemini 2.5 Proの半分以下の価格で、入力はほぼ同じ価格です。また、4.1よりも安いですが、これは少し狂っています。なぜなら4.1よりもずっとスマートだからです。
これらすべてが40よりも安いです。40は日に日にますます混乱を招いています。特に今やO4もあるため、名前付けは難しいでしょう。彼らには同情しますが、自分で招いたことでもあります。DeepCar1の正確に2倍の価格ですが、これは間違いなく意図的です。そうでないと言う人は嘘をついています。
O3は別次元です。入力100万あたり10ドル、出力100万あたり40ドルで、O1や4.5に近い価格です。O1よりも少し安くなっており、嬉しいことに全体的に価格が25〜50%ほど下がっています。これらの変更は嬉しいことです。OpenAIが価格戦争にもっと参加するようになったことを嬉しく思います。違いが見えるし、彼らはその戦争以上のことと戦っています。彼らがどのように自分たちを位置づけているかについて話したいと思いますが、まずベンチマークについて話す必要があります。
不思議なことに今回は発表にベンチマークが掲載されていなかったので、ライブストリームから見つけました。ここから見ると、なぜO3にそれほど感銘を受けなかったかがわかります。Pythonのみと、ツールなしでの数学コンペについて見ると、Pythonでコードを書いて問題を解くことができる場合、O3では98点を取ることができ、O4 Miniでは更に高得点を取れます。これらを同時に発表したのは少し驚きですが、本当に人々が必要でない場合に非Miniモデルに過剰支出しないようにしたいのだと思います。
大多数のタスクでは、O4 MiniがO3と同等かそれ以上のパフォーマンスを発揮すると予想されますが、ある程度の深さになるとO3が確かに意味を持つかもしれません。それがどんなことか教えてください。私はまだO4 Miniができないことでもできるものについて、O3が本当に優れているものをあまり見たことがありません。Miniモデルが引き続き画期的であることは非常に嬉しいことです。O3 Mini登場以来の数ヶ月間、それが最高のAIモデルであり、今度はO4 Miniがその座を獲得したというのは驚くべきことです。多くのモデルが今やこれほど優れているのは本当に驚きです。
これはSWE Lancerで、フリーランスのソフトウェア開発タスク向けに作られたベンチマークです。O3 Highがここで素晴らしい成績を出しています。このベンチマークは発表されたときは奇妙でした。Claudeと比較すると本当に悪く見えたからです。今はそうではありません。O3 MiniとO1 HighはClaude 3.5とほぼ同じ範囲でしたが、今はその2倍になっています。これは彼らにとって非常に良い見栄えです。O3とO4 MiniはSW Benchでもはるかに高いスコアを出しています。これはGitHub上の特定の問題をAIモデルがどれだけ正確に処理できるかについてのより一般的なベンチマークです。
Polyglot Codeについてはあまり詳しくありませんが、ここで彼らがテストしていた興味深いことは、変更が加えられたときにモデルが全コードファイルを出力するか、差分だけを出力するかです。歴史的にモデルは差分作成があまり得意ではありませんでした。4.1が本当に得意とする点の一つですが、ここではO4 MiniはO3 Miniよりそれほど良いパフォーマンスを発揮していないようです。O3は大きなギャップがあるようですが、なぜO3 Highを使わないのか、それ以外の理由が思いつきません。他の選択肢は価値がないように思えます。
両方とも数学においてもはるかに優れています。歴史的にOpenAIモデルは数学が得意ではありませんでした。この変化が見られるのは嬉しいことです。彼らは価格にも多くの焦点を当てていました。これは本当に気に入っています。以前「底辺への競争」というタイトルの動画をやりました。それはOpenAIが最も高価な2つのモデルを発表した直後に、モデルがどれだけ安くなっているかに焦点を当てたものでした。時代遅れに見えるようでしたが、今は方向転換しているようです。彼らは本当に「インテリジェンスユニット」あたりのコストを削減することに焦点を当てたいようです。
結果は素晴らしいです。特にO4 Miniモデルを使うと、価格は信じられないほど安くなっています。Codeexについて話したいのですが、これは彼らのClaude Codeキラーですが、まずは彼らが発表した画像を使った思考機能について話す必要があります。通常、推論モデルは推論中にテキストのみを出力します。これは推論中に画像を使って考えることができる推論モデルを初めて見ました。つまり、これはテキスト以外のことができるマルチモーダルモデルであり、推論中に他のことも実際に行うことができます。さらに、推論中に検索もできるようになりました。これはすごいことです。
O3とO4 Miniは回答する前に長く考えるよう訓練されており、ユーザーに応答する前に長い内部的な思考の連鎖を使用します。彼らはまだその長い内部的な思考の連鎖を公開していません。理由はわかります。とはいえ、近い将来オープンモデルを発表する予定で、それは推論モデルになり、オープンウェイトではこれを隠さないそうです。オープンモデルについて本当に興奮しているようです。私が聞いた限りでは、オープンモデルが4.1 Nanoになるのではないかと推測する人もいましたが、そうは思いません。オープンモデルはO3 Miniに近いものになると思います。
O3とO4 Miniはさらに、思考の連鎖の中で画像を使って考える能力を拡張しています。これはユーザーがアップロードした画像をツールで変換することで実現されています。トリミング、ズームイン、回転などの単純な画像処理技術に加えて、他のこともできます。さらに重要なのは、これらの機能が別の専門モデルに依存せずにネイティブに提供されることです。40の画像生成がどのように機能するかについての私の2番目の動画を覚えていますか？当たっていたようです。これはすべてツールに関するものです。
OpenAIはますますツールの改良と、彼らが構築しているこれらのツールをAIがより良く使えるようにすることに焦点を当てています。画像変換、検索、Pythonコードの実行と記述による数学問題の解決など、AIが今できることすべてです。必ずしも伝統的な意味でよりスマートになるわけではありませんが、AIチャットボットにPythonへのアクセスと完全なPython環境を与えると、Pythonコードに数学を実行させることができるため、数学がより良くなります。このようなことには多くの価値があります。
彼らがすべての画像関連の処理をツールを通して行っているのはまだ驚くべきことです。彼らがやっていると思っていましたし、それがますます確認されるのを見るのは面白いです。最近の彼らの焦点はほぼ完全にこれらのツールとエージェント的なワークフローにあるからです。彼らが話した別の素晴らしいことは、ツールが特定のモデルに紐づけられなくなったことです。以前は画像生成は40でしかできなかったものが、4.5でもできることに気付いた人がいました。彼らはそれを無効にしましたが、今では再びできるようになりました。
残念ながら、画像生成ツールはまだAPI経由で使用するために公開されていませんが、私の実存的AIコミックのプロンプトをO3に渡すことができました。それは画像を生成し、O3を使ってテキストを生成し、通常のチャットボットの機能をすべて行い、残りはツールを呼び出して実行しました。そして、それは機能しました。かなり良いです。他の生成に比べると良くはありませんが、それは他の生成にはもっと多くの作業を入れたからです。
また、前に作ったけどまだ共有していない呪われた画像もあります。これを見させてしまってすみません。画像推論から何が得られるのでしょうか？ChBTの強化された視覚インテリジェンスは、画像をより徹底的に、正確に、そして今までよりも確実に分析することで、より難しい問題を解決するのに役立ちます。ウェブ検索や画像操作などのツールと高度な推論をシームレスに組み合わせ、自動的に画像のズームイン、トリミング、反転、または強化を行い、不完全な写真からでも洞察を抽出することができます。
これはPhotoshopをたくさん使ってきた人は必ずしも理解できないことかもしれませんが、読めないものや詳細な情報が欲しいものが写真に写っていて、それをPhotoshopに入れて、情報を実際に取得できるまで写真を変換した回数は非常に多いです。OCRでテキストを読み取ろうとする場合、回転している場合は変換し、拡大してノイズを除去してからテキストを読むことで、きれいに読み取れる可能性が高くなります。これは彼らが含めるにはとても素晴らしいことです。
これを学生のために考えたこともありませんでした。ここでの例は、経済学の問題セットの写真をアップロードして段階的な説明を受けたり、ビルドエラーのスクリーンショットを共有して根本原因の分析をすぐに得たりすることです。学校の問題は非常に現実的です。人々はこれを使って宿題でとても悪質に不正行為をするでしょう。想像もできません。
例を見てください。ひどい角度のためにテキストを読むのがどれほど難しいかがわかります。ここでは、ズームイン、トリミング、変換して読めるようにしようとしています。ここで反転させて、2月4日だとわかりました。良い例です。問題を解くよう指示されています。ひどい写真です。画像を分析し、考えています。図が実際に見えるほど近づきました。さあ解き始めました。すごいです。
また、ついにLatte（LaTeX）のレンダリングが正しく動作するようになりました。これらのチャットアプリでLatteや数学のレンダリングを機能させることがどれほど難しいかについて話したくありません。それは面倒です。「看板には何が書いてあるの？」ああ、これをどうやって解決するのだろう？それは実際にとても素晴らしいです。良いものです。
Pythonデータ分析や画像生成などのツールと連携して迷路を解くことができるというのはちょっとすごいです。ここでは透明な背景を持つ迷路の画像が渡されています。それに白い背景を与え、画像を解析するPythonスクリプトを書き、画像に対して実行し、それを解決するために推論を続け、そしてPythonコードは画像にペイントすることができます。それを保存し、出力して答えを示すことができます。それは本当にすごいです。今まで見たことがありませんでした。彼らが料理しているものが見えてきました。これはすごいです。
これらのベンチマークはすべてマルチモーダルテストのためのものなので、視覚的なものであり、以前見られていたものからの大きな飛躍です。画像の解析においては大きな飛躍です。画像でやることはそれほど多くないと思っていましたが、間違っていました。かなりすごいです。
過度に長い推論チェーンについて言及しているのは嬉しいことです。何かを解決するためにO3が600回のツールコールを行った例を聞いたことがあります。これらのモデルは自分の作業を検証するために多くのツールを呼び出す意欲があります。彼らは単に正しくありたいだけだからです。しかし、これらのツールがますます高価になるとすれば、これは本当の問題になるでしょう。
皆さんはClaude 3.7 Thinking Maxモードを例えばCursorなどで試したことがありますか？単一のシンプルなプロンプトで8ドルかかるとは思っていませんでした。しかし、これらのモデルとそれらが使用するツールはますます高価になっています。少なくとも今までは。もし私がAnthropicなら、これらすべてからただでさえ怖いでしょう。
でも、これはまだ戦争の始まりではありません。戦争はCodeexから始まります。Codeexはターミナルで実行される軽量コーディングエージェントです。聞き覚えがありますか？CodeexはClaude Codeによく似ています。これらのリポジトリの違いに気づくかもしれませんが、それはスター数の差ではありません。違いは、Claude Codeは実際にはオープンソースではないということです。ここにはコードがありません。これは単に問題を追跡する場所です。ライセンスはありますが、ライセンスはこれが商用プロジェクトであることを非常に明確にしており、触れるコードはここにありません。それは単にフィードバックを与える場所です。
OpenAIのCodeexは適切にオープンソースであるだけでなく、Apacheライセンスです。OpenAIが他のモデルでも使用できるようなApacheライセンスのCLIツールを公開する日が来るとは思いませんでした。ちなみに、私がこの撮影をしている間にも彼らはコミットしています。彼らはちょうど別のコミットを行いました。
別の楽しい事実として、多くの取り組みを主導したデベロッパーのFuは古い友人です。彼は以前、私の親しい友人のDan Gillespieが設立したIndentという会社の共同創設者でした。この発表のビデオで彼をランダムに見たとき、「待って、何？」と思いました。
見ての通り、それは馴染み深いもので、コードに差分を作成する効果的なCLIのための非常に美しいUIです。これらのツールが良くなっていることと、ついに適切なオープンソースのものができたことが嬉しいです。自分独自のものを作業している人を何人か見かけましたが、OpenAIによって祝福され、このように本当に適切にApacheライセンスされたものは大きな影響を与えるでしょう。
まだ試していませんが、ホテルの部屋で急いでいじってみても、これがすぐにClaude Codeに似た非常に人気のあるものになると感じています。オープンソースの性質は、特にTypeScriptで書かれており、UIが実はReactで書かれているため、多くの非常に賢い人々が貢献することを意味します。掘り下げると、package.jsonにinkjsがあります。ご存じない方のために、inkはターミナル用のReactレンダラーです。React NativeがiOSやAndroidでレンダリングできるように、React 3 FiberがThree.jsやCanvasでレンダリングできるように、inkjsはターミナルでレンダリングできます。非常に素晴らしいものです。これは、慣れているReactパターンをすべて使用できることを意味します。
とはいえ、パフォーマンスを維持するのが本当に難しくなるため、スケールでinkから移行する人をいくつか見てきました。CloudflareのWrangler CLIは以前inkを使用していましたが、その後Goに移行し、さらにTypeScriptに戻りましたが、inkは使用せず、より高性能で保守しやすくしました。このような行き来を多く見てきました。パフォーマンスの問題があれば、JSから離れ、それが間違いだと気づいて戻るという悪い予感がします。
OpenAIの人々、特にFluidへ：問題があってもJSから離れないでください。inkが今やっていることに合わなければ、私に相談してください。それがうまく機能するなら使い続けてください。本当に素晴らしい技術です。
なぜ彼らはこれをやっているのでしょうか？陰謀論を披露する前に、もう一つ興味深い情報を共有します。OpenAIはAIコーディングスタートアップのWindsurfを約30億ドルで買収する交渉をしているとのことです。OpenAIの皆さん、私は30億ドルよりはるかに安いことをご存知ですよね？そしてあなたのウェブサイトを修正できます。自己宣伝でした、すみません。
Windsurfは、Cursorの人気のある代替品で、真剣な牽引力を得始めています。最近の発表にどれほど関わっていたかに気づきました。彼らは新しいモデルについて話すために発表の一部として招かれていました。今や彼らは非常に近い関係にあるようです。
彼らはなぜこれをやっているのでしょうか？OpenAIの使命は何でしょうか？スカラドラを開きたいのですが、マイクを持っているので楽しくないでしょう。ここで私の考えを説明します。私の疑惑は、OpenAIがAnthropicの残っている唯一の利点、つまりデベロッパーが彼らを好むという点を見て、それを奪い取ることに決めたということです。
通常、会社がデベロッパーに好かれる理由はいくつかあります。多くのオープンソースを公開したり、デベロッパーに役立つ製品をリリースしたりするなどです。デベロッパーがAnthropicをそれほど好む唯一の理由だと思うのは、Claudeがコード関連のことに平均以上に優れたモデルであり、特にツールコールに優れていたからです。
OpenAIはこれを挑戦として受け止めました。彼らはClaude Codeに対する興奮を見て、オープンソースにすることでより良いものを作ることを決めました。彼らはツールコールへの興奮を見て、それがAnthropicの本当の利点であることを知っているので、新しいモデルの最後の3つのリリースでツールにオールインしました。
明らかにIDE戦争はAnthropicがしばらく深く関わっていることです。彼らは最新のモデルをすべての新機能と一緒に導入するために、Cursorと非常に密接に協力しています。OpenAIは自分たちのIDEを持っていれば、そこで競争する必要がなくなります。
これらの動き、そして来るべきオープンソースモデル（ちなみにAnthropicは本当にオープンソースモデルをリリースしたことがありません）、これらすべてが一緒になって、OpenAIを再びデベロッパーに愛されるように位置づけているように見えます。理想的にはAnthropicよりも愛されるようになります。
これはすべて、Anthropicが持つ唯一の利点、つまりツールコールとコード出力の質のために、デベロッパーからの肯定的な感情を持つという利点を奪い、素早く窒息させようとする試みです。彼らは今、本当の競争相手の唯一の部分を破壊するためにお金を使っているように見えます。AnthropicはOpenAIが歴史的に勝者だった科学や数学などの分野では良くないかもしれませんが、デベロッパーはClaudeを好みます。それがついに変わるかもしれません。
Gemini 2.5 Proは防御の亀裂を示しました。移行する意欲のあるデベロッパーがいることを示しました。OpenAIがやっていることは、同じ方法で入り込み、Anthropicが持つ唯一の利点を完全に破壊しようとしていると思います。これがどうなるか非常に興味があります。
私の意見では、今のところ彼らは非常にうまくやっています。OpenAIは価格を下げていますが、Anthropicはそうしていません。O3 MiniとO4 Miniは、Anthropicがほぼすべてのものと同じくらい優れていますが、3分の1以下の価格です。それがどれほど安いか、実際に笑えるほどです。彼らはOpenAIモデルを使用する体験の質を向上させるための本物のオープンソースツールを提供していますし、理論的には他のモデルにも対応しています。彼らは私たち全員がコピーして使用しているAPIを構築しました。すべてのAI推論プロバイダーは単にOpenAIの独自バージョンを行っているようなものです。そして近い将来、非常に強力なオープンソースモデルも手に入れる可能性があります。
ツールコール機能もありますが、それはAnthropicに追いついているだけです。残りのことはOpenAIがAnthropicに追いついているわけではなく、デベロッパーからの感情を維持するためにAnthropicがおそらくすべきだったことをOpenAIがやっているのです。オープンソースや価格引き下げなどです。
私はAnthropicがデベロッパーの支持のために再び戦い始めることを非常に期待しています。なぜなら今のところ、彼らはデベロッパーに好かれているという事実に甘んじているように感じられ、オープンソースや価格引き下げなど、彼らがすべきことをやっていないからです。
このような方法でこれらの会社がお互いに改善するよう促す競争市場があることに感謝しています。OpenAIが現在、デベロッパーをもっと真剣に考えていることに非常に感謝しています。正直なところ、今は少し甘やかされている気分です。彼らは4.1を自分たちのアプリに入れなかったため、多くの人がT3チャットを使用するようになりました。ちなみに、4.1とO4 miniの両方がT3チャットにあります。また、価格も良くなっているため、私たちのマージンは思ったほど悪くありません。
これらのモデルとこれらのAPIの両方を消費するツールを構築・出荷している個人として、今OpenAIはAnthropicよりも私の利益のために働いていると感じます。これはいつでも変わる可能性がありますが、私が意味のある形で感じた大きな顕著な変化でした。
今まで以上に、OpenAIが私に不当に感じさせる唯一の方法は、私が旅行中にのみこれらのことをするということです。本気です。今の冗談は、AGIが起こってほしいなら私が1ヶ月の休暇を取るようにするだけでいい、ということです。休憩を取ろうとするとすぐにこれらすべてのものが出てくるスピードは面白いです。
そう言えば、このカンファレンスを楽しもうと思います。この動画を作るために、到着してからホテルの部屋に座っていました。これをすべてまとめてくれた編集者に感謝します。次回まで、平和を、オタクたち。