GPT-5.2は愚かである(私はベンチマークにうんざりしている)

GPT-5、5.1、5.2
この記事は約26分で読めます。

GPT-5.2が発表され、ベンチマーク上では優秀なスコアを記録したものの、実用面では深刻な問題を抱えていることが明らかになった。文字数カウントのような基本的なタスクでの失敗や、不自然な計算結果など、実際の使用感とベンチマーク性能の乖離が顕著である。本動画では、独自のベンチマーク「Skate Bench」や「Writing Arena」を用いた詳細な評価を通じて、GPT-5.2、Claude Opus 4.5、Gemini 3 Proの実力を比較検証する。特にGPT-5.2は指示追従性に優れる一方、GPT-5から退行した側面も見られ、ベンチマーク最適化の弊害が疑われる。Claudeはレビュー能力に長け、Geminiは文章生成で課題を抱える。実用的なコーディング場面ではComposer Oneの圧倒的な速度優位性が示され、知能の高さよりも実行速度と指示追従性が重要であることが強調される。

GPT-5.2 is dumb (I’m tired of benchmarks)
It feels like benchmarks are starting to matter less and less, because GPT-5.2 is not that good...Thank you Blacksmith f...

最新モデルの驚くべき欠陥

数日前に登場した新しい最高性能モデルを覚えていますか。本当に素晴らしいものでした。だからこそ、私たちはgarlicの中のRの数を数えるような素晴らしい投稿を目にしているわけです。明らかに2つのRがあります。いや、違います。実際には0個です。

あるいは、私が金融アドバイスに関するテストの質問をしていたとき、このモデルは利息で得られる金額を、80%で課税される30万ドルの給与と比較することに決めました。見てください、私はカリフォルニアに住んでいて税金がひどいことは分かっていますが、何か、何かがおかしいのです。

私は早期テストの段階からこのモデルに何かがおかしいと感じていました。初日から私が経験したすべての奇妙な発見と問題をチームに報告してきましたし、私が作成したテストランナーも転送して、彼ら自身で私のテストを再現できるようにしました。何かがおかしいのです。

本当に、本当におかしいのです。5.2は通常の「いくつか癖はあるけれど良いモデル」というようなものではありません。問題の性質という点では、むしろGoogleのモデルのような感じです。そして私には、なぜこれが起こっているのかについて理論があります。それがこれです。私はベンチマークが原因だと考えています。

これらのベンチマークのほとんどが嫌いになってきたので、私は自分自身のベンチマークをかなり多く実行するようになりました。そしてそれがかなり高額になることが判明しました。ということで、今日のスポンサーのために少し休憩を取ってから、私のすべての結果に飛び込んでいきます。

あなたは自分のマシンでのビルドが、クラウドでのビルドよりもはるかに速いことに気づいたことはありませんか。20分で書き上げたコードをマージするためにGitHubアクションが実行されるのを、何分もあるいは何時間も座って待たなければならなかったことはありますか。なぜ私たちはこれで妥協しているのでしょうか。なぜ私たちのビルド時間が、実際にコードを書くのにかかった時間よりも遅いことが問題ないふりをしているのでしょうか。

これが私が今日のスポンサーをとても気に入っている理由です。BlacksmithはあなたのCI問題を解決しました。彼らは従来のサーバーホストから得られるものよりもはるかに高速なシングルクロック速度を持つ、強力なゲーミングPCを構築しました。大量のNVMeドライブを搭載し、間違いなくCIを実行する最速の方法を構築したのです。

コード変更は1行だけです。GitHubにリンクした後、GitHubアクションのruns onを彼らのインスタンスに変更するだけです。そうすれば、あなたのアクションは魔法のように2倍から4倍速くなり、コストもはるかに安くなります。

ハードウェアは、これらの本当に強力なゲーミングプロセッサのおかげで少なくとも2倍速いです。キャッシュのダウンロードは、すべてが彼らのサーバーファームに同じ場所に配置されているため、はるかに高速です。そしてこれらすべてを彼らのレイヤリングソリューションと組み合わせると、NVMEキャッシュからそれらのレイヤーを引き出しているため、Dockerビルドは最大40倍速くなる可能性があります。

それだけでも価値があるでしょう。しかし正直なところ、私のお気に入りは可観測性です。彼らがここで言っているように、GitHubアクション、しかし実際に観測可能なものです。特定のテストタイプがどのくらいの頻度で失敗するかを確認でき、時間経過に伴うそれらの失敗のチャートがあったら素晴らしいと思いませんか。クレイジーですよね、分かっています。私は以前の仕事でこれを自分で構築しなければなりませんでした。

そしてもし私たちがBlacksmithを使っていたら、ビルド時間の節約とこれを自分で構築する必要がなかったことから時間を取り戻せただけでなく、お金も節約できていたでしょう。それは本当に理にかなっていることの1つです。そしてもしあなたがまだ使っていないなら、私はなぜなのか疑問に思います。今すぐsoyv.link/blacksmithでチェックしてください。

ベンチマーク性能と実用性の乖離

ブレイクの前に言っていたように、このモデルはベンチマークで圧倒的な成績を収めています。彼らはあらゆるものに全力で取り組みました。彼らがはるかに先を行っているベンチマークがいくつかあって、それは驚異的です。GDP Valのようなものであれば、伝統的なホワイトカラータスクのためにGDP Valでカバーされている高レベルの研究作業を行うためにこのモデルを使用している場合、おそらくそれで問題ありません。

しかし思考をオフにして話しかけようとすると、はるかに問題が生じます。では、より現実的な方法でこのモデルを測定するにはどうすればよいでしょうか。実は私は、どのモデルが最高かについての現在の理解に反する興味深いベンチマークを持つ唯一のYouTuberではありません。

これはAI Explainedによる Simple Benchです。彼は本当に良いYouTuberです。もしチェックしていないなら、強くお勧めします。私は特に新しいモデルについての彼の動画のほぼすべてを見ています。そして彼のベンチマークは、さまざまな分野の友人から得た難しい質問のシンプルなベンチで、モデルに答えを求めるものです。これはプライベートな評価なので、何もそれに対してトレーニングすることはできません。

そしてここで見ることができるように、GPT 5.2は私たちが期待する場所には正確にはありません。実際にはかなり低いです。Claude 4 OpusとClaude 4.1 OpusとGrok 4を下回っています。それは良くありません。Gemini 2.5 Proよりも下で、これは異常に高いスコアを記録しました。

しかしこれが私がこのベンチを興味深いと思う理由の一部であり、特に私のものと比較したときにそうです。なぜなら、2.5 Proが良いパフォーマンスを発揮するベンチマークを書くのに本当に苦労してきたからです。Googleのモデルにはバイブ全体に関する問題があり、それについて話すために別のビデオ全体を計画しています。それは、私がそれらのバイブがおかしいと感じていることについてです。そしてそれは、幻覚からツールコールなどまでのすべてです。

Gemini 3 Proは、これらの点のほとんどにおいてGemini 2.5と同じくらい悪いです。とはいえ、実際の使いやすさと知能と能力、つまりモデルができる最高のことがどれだけ良いかということに関しては、5.2はこの点で優れていますが、十分に優れているわけではありません。

また、ここで皆さんをちょっと誤解させてしまいました。8位になったのは5.2 Proです。これは超超超高価なものです。GPT 5.2 High、つまり実際に使用可能なバージョンは、Claude 3.7 Sonnetを下回っています。はい、正しく聞こえました。このモデルには何かがおかしいのです。

Skate Benchの結果

これを確認する別の簡単な方法は、私のSkate Benchの結果です。ウェブ上にもありますが、まずここで見て、私が経験している混乱を皆さんに見せたいと思います。私は文字通りGPT-5の発表動画で、私のSkate Benchでこれほど良いスコアを出すモデルを見たことがないと言っていました。

そして私はGPT-5をデフォルトの中程度の推論レベルで実行していて、そのランで完璧なスコアを獲得しました。ここでは97%を獲得しました。スケートボードのトリックの名前を付けるのが本当に得意です。分かっています、このベンチマークは奇妙ですが、私は気にしません。なぜなら、それは他のものが測定できないことを測定しており、実際に有用な情報を私に与えているからです。

スケートトリックテストはシンプルです。私はモデルにスケートボードのトリックの名前を付けるという役割を与えます。トリックを説明して名前を付けます。スケートボードのトリックの名前の付け方は少し奇妙です。それは歴史的な命名と時間とともに変化したものの組み合わせであり、また奇妙なレベルの空間認識でもあります。

ボードが回転する2つの主要な軸があります。このような水平スピンと、伝統的なキックフリップとして知られるフリップがあります。これら2つの回転を組み合わせて異なるトリックを作ることができ、体がスピンする方法もトリックの名前に影響します。

ボードが水平に180度スピンし、キックフリップ方向の回転を行い、私が動かない場合、それはバリアルキックフリップまたは略してバリアルフリップです。私も動く場合、ボードと一緒にスピンについていく場合、それはバックサイドキックフリップまたはバックサイドフリップになります。

ですから、これは推論と空間定位のテストを行う興味深い方法です。そして、OpenAIのオフィスでのデモの前に見た最高スコアが70%台だったのに、GPT-5ですぐに完璧なスコアを獲得したことは、私にとって驚異的でした。そしてこれは再実行です。文字通り昨日やったと思います。

そして、私が動画を作ったときと全く同じスコア、97%を獲得しました。そして5 Highは98%を獲得しました。それほど良くはありませんが、良いです。また、2倍以上のコストがかかり、かなり多くのトークンを生成しましたが、お金を払っただけのものは得られます。より良かったです、このためにはそれほど多くではありませんが。

5.1はかなり退行しました。中程度のデフォルト設定での5.1は86%で、Highは92%に下がり、なぜか5.2はさらに悪化しました。彼らが本当に興奮していた非推論バージョンを使用したとき、それは2%を獲得しました。2%です。

これが実際の空間推論デモではなく、単なる記憶だと言っている人たちへ。もしそれが推論を行っていないなら、なぜ非推論モデルは推論バージョンよりも文字通り98%悪いパフォーマンスをしているのでしょうか。

そしてもちろん5.2 Extra Highははるかに良いパフォーマンスを示し、はるかに高いコストがかかりました。97%のGPT-5は質問あたり6セントのコストでした。X Highは5.2で81%を獲得し、各実行で2.6セントのコストがかかりました。17ポイントのヒットに対してほぼ5倍高価です。申し訳ありませんが、これは単に悪いです。

そしてProバージョンは、GPT-5の10倍高価で、1ポイント追加を獲得しました。81ではなく82です。これが決定的なベンチマークからは程遠いことは分かっていますが、私たちが現在5.2で間違いなく経験している特定のタイプの退行にどれだけうまく気づくかという点で、興味深いと思います。

これは使用するのに奇妙なモデルです。そして私は、そのGPT-5発表動画からの唯一の人間ではありません。この感じを持っているのは。例えば、Benは、GPT 5 HighがCursorに表示されなくなったことに非常に不満を持っており、5.1や5.2を使うのがそれほど好きではないことを知っています。分かります。

5は違った感じでした。これらには明らかに改善があります。UIでより優れています。多くの難しい数学やその他の挑戦的な問題を解決できますが、私は5.2を気に入っていません。そして、彼らがベンチマークに対して最適化しすぎたからだと思います。

公平を期すために言うと、4.5 Opus Thinking Highは、私が今最も使っているモデルですが、このベンチで68%を獲得しました。ですから、このベンチで良いスコアを獲得することがモデルが良いことを意味するとは言っていません。私が言っているのは、退行が何かを意味するように見えるということです。

Writing Arenaの実験

しかしこれは、私がテストしたかった唯一のものではありません。私はWriting Arenaと呼んでいる新しいプロジェクトを始めています。そこでは、いくつかの異なるモデルを取り、それらすべてにエッセイを書かせ、他のすべてのモデルにエッセイについてのフィードバックを与えさせます。元のモデルはエッセイを更新し、それから私はこれらすべてのエッセイに対して1対1を行い、すべてのモデルに、これら2つのどちらが優れていると思うかに基づいてランク付けするよう求めます。

ですから、これは1対1の、たくさんの異なるエッセイで、すべてのモデルがそれらを見せられ、これら2つのどちらが優れているかを尋ねられます。そして結果は魅力的です。レビュー前のエッセイを見ると、GPT 5.2はかなり良いパフォーマンスを示しました。エッセイ比較で114勝し、66敗しました。

Gemini 2 Thinkingは97勝し、82敗しました。少し前から言っているように、Gemini 2は話しかけるモデルとして超過小評価されています。これはT3 Chatで私のデフォルトとして設定されています。私は本当にそれを楽しんでいます。嘘ではありません。Gemini 2は私が最も使っているものです。それは本当に素敵なモデルです。私は本当にそれがどのように書くかがとても好きです。良いです。まだ試していないなら試してみてください。

T3 ChatでチェックアウトでコードGeminiをお願いします。初月1ドルです。他のすべての月は8ドルになります。そして、単に質問をして話しかけるときに、どのGPTモデルよりもはるかに使いやすいです。ですから、ここでかなり良いパフォーマンスを示すことは分かっていました。Gemini 3 ProとClaude 4.5 Opusをはるかに上回っているのを見て興奮しました。

私はこれらのどちらが書く方法も好きではありません。彼らが素晴らしい自然なトーンを持っていると言っている人たち全員、いいえ、持っていません。しかし覚えておいてください、このベンチマークは単に彼らをライターとして比較しているだけではありません。彼らが提出するレビューと、レビュアーからのフィードバックが適用された後のエッセイの結果に基づいて比較しています。

では、ここの著者プラスレビュースコアまでスクロールしましょう。GPT 5.2を4.5 Opusにレビューさせると、勝率は63%から87.8%に上がります。Gemini 3 Proにレビューさせると87.2%で、これら2つが非常に近いことは本当に興味深いです。そしてGeminiにレビューさせると、86.1%に下がります。これは本当に興味深いです。

これは、5.2がフィードバックの適用に本当に genuinely 優れていることを意味します。そしてこれは私の使用感でもそうです。GPTモデル、特にこれらの新しいものは、Opusのようなものと比較しても、一般的に指示追従がはるかに優れていることが分かりました。何をすべきか伝えれば、それを行います。

そして何を違うようにすべきか伝えれば、それを行います。そして私はそれを軽視したくありません。なぜなら、それが今のGPTモデルの最大の強みだと私の意見では思うからです。指示されたことをどれだけうまく行うかということです。

新しいものは、想定されていることの範囲外で働くことにもう少し前向きな感じがします。例えば、TSCコマンドをもっと実行し、私が求めた範囲外の変更を加えていることに気づきました。5はそれを決してしません。まさにあなたが求めることを行い、それ以上は何もしません。

しかしこれは、モデルにフィードバックを与えると、そのフィードバックを本当にうまく処理することを示しています。次に、5.2のフィードバックを伴うOpus推論が3位です。そして、さらに2つのポジションでOpusを再び見ることはありません。

OpusがGPT-5から得たフィードバックでのみ良いパフォーマンスを示すことは、本当に genuinely 興味深いと思います。そしてその場合でも、GeminiとGPT 5.2が得ているものより13ポイント以上低いです。そしてClaudeがレビューしている5.2から得ているものより14または15ポイント低いです。

誰がレビューしているかを変えるだけで、スコアは大幅に下がります。ClaudeまたはGPTによってレビューされているGeminiもかなり良いパフォーマンスを示します。それから私たちはClaudeのレビューに戻ります。お分かりでしょう。

本当に面白いのは、Geminiがレビューされているときで、それはあまり問題ではないようです。繰り返しますが、私の理論では、Geminiモデルは指示に従わないのです。ですから、Gemini 3 Proとどれだけ良いフィードバックセッションを持っても、それはまだ自分の世界に行って自分の奇妙なことをするつもりです。そういうものなのです。

実際に読めるようにエッセイのいくつかを取り出して、人々が私を狂っていると呼ばないようにしましょう。ここに、ソーシャルメディアが人間のつながりをどのように再形成するかについてのGemini 3 Proからのエッセイがあります。

単一の世代の期間で、人間の相互作用のアーキテクチャは構造的な革命を遂げました。何千年もの間、人間のつながりは地理と生物学によって制約されていました。

さて。またはGPT 5.2に行きましょう。つながりは常に、人々がお互いを見つけるために使用したツールによって形作られてきました。印刷機はアイデアを共有できる人々の輪を広げました。電話は距離を声に縮めました。インターネットはメッセージをほぼ瞬時の国境のない交換に変えました。

すでに大幅に優れています。滑稽なほどです。共産主義は問題ありません。これらの結果をすべてどこかに公開します。見たい場合は説明欄にあります。しかし、フィードバックを見ることができます。GPT 5.2のエッセイに対するClaudeのフィードバックを見てみましょう。

この印象的で洗練された徹底的なエッセイ。あなたはこのトピックについて書かれたもののほとんどを罠にかける罠を避けました。ソーシャルメディアがつながりにとって良いか悪いかについて単純な評決を下す誘惑です。

これを私がGeminiに与えたフィードバックと比較してください。洗練された知的に野心的なエッセイで、主題に対する真の支配を示しています。印象的なスタイルの範囲。印象的なスタイルの範囲。

あなたの中心的な議論、つまりソーシャルメディアが幅広さのために交換され、つながりのための親密さであるという議論は説得力があり、全体を通してよく維持されています。脳は自信に満ちていて、語彙は正確で、構造的論理的です。あなたは明らかにこのトピックについて高いレベルで考えています。

とはいえ、エッセイの説得力と知的厳密性を強化する機会があります。そして5.2のエッセイに多くのフィードバックを与えました。見た目では大体同じくらいの量を与えました。ええ、だいたい同じ量のフィードバックです。

しかし今、修正版を見てみましょう。Claudeによって修正された5.2は、ほぼ同じに見えます。フィードバックは何でしたか。実際にそのフィードバックを読むべきです。開発のための領域。具体的な証拠の欠如。これはエッセイの最も重要な制限です。

あなたはアルゴリズムの動作、心理的影響、弱いつながりの価値について多くの実証的主張をしますが、それらのほとんどを具体的な証拠でサポートしていません。プラットフォームの目標を考えてください。エンゲージメントを最適化することは、しばしば感情的に charged されたマテリアルを優遇します。

これは広く信じられており、おそらく真実ですが、現在の形では、実証ではなく主張として読まれます。これは実際に良いフィードバックです。Claudeはこれが得意です。書くことははるかに下手ですが、フィードバックにははるかに優れています。

そして修正版がどのように出てくるかを見ると、多くの具体的なフィードバックが対処されているのが分かります。そしてエッセイをどのように更新するかを見ると、これらの具体的なことの多くが対処されているのが分かります。

そのセクションはどこですか。見たいです。これのために持っていた推論トレースを保存できていればと思います。今それを要求しているかどうかさえ分かりません。ええ。そしてここで、これらのことが実際であるという証明を持つために、研究者の実際の名前を落としています。

これは実際に本当にうまく書かれています。パラソーシャルなつながりは単に弱いつながりではありません。Granovetterの意味での弱いつながりは、依然として互恵性の領域に住んでいます。2人は軽くであっても、助け、情報、またはケアを交換できます。パラソーシャルな親密さは異なります。それは共有された義務のない親密さです。

これは心地よく、安定化させることさえできます。それはまた、交渉、忍耐、そして誤解されるリスクを必要とする関係の代替となる可能性があります。それはめちゃくちゃ本当に良い段落です。嘘をつくつもりはありません。ええ、魅力的です。

ですから、ええ、結果は自ら語っています。Gemini 3 Proでは、誰がレビューしたかは実際には問題ではありません。セクションがないのです。構造がないのです。フィードバックの後でも、退屈な5段落エッセイのようなものです。

ああ、この段落はひどいです。しかしながら、ソーシャルメディアを単に腐食的な力として見ることは、その真の動員と連帯の能力を無視することです。多くの人々、特に神経発達的に多様な個人や身体障害を持つ人々にとって、画面の非同期的な性質は障壁ではなく橋であり、対面では不可能かもしれない思慮深い自己開示を可能にすることは真実です。

それが文全体です。ああ、これはひどいです。書くのがとても下手です。ここではバイブが間違っています。何かが本当におかしいです。

ですから、5.2は書くのが得意だと思います。特に別のモデルにその書いたものをレビューさせれば。Gemini 3 Proは書くのがとてもひどいです。なぜ誰かが他の方法で考えるのか分かりません。

そして、モデルにどのモデルが書くのが最も得意かをランク付けさせることが素晴らしい結果を与えないかもしれないことは確かですが、私はこれらのエッセイの多くを読みました。誰のエッセイが優れているかはかなり明確であり、モデルが行うランキングのほとんどに同意します。

Chadが言ったように、私が強調したばかりの文は、彼らが今まで見た中で最悪の文の1つです。とても悪いです。とても悪いです。そして、ベンチを実行したい場合は、すべてのコードはオープンソースでGitHub上にあります。自由に自分で実行し、必要に応じて独自のモデルを追加できます。

ただし警告ですが、これを実行するのは安くありません。テストしたこれら4つのモデルだけで50ドルです。そしてモデルを追加するたびに、実行回数は指数関数的に増加します。なぜなら、1対1の比較を行っているため、すべてのモデルをすべてのモデルに対してランク付けする必要があるからです。

1から10のスケールでエッセイをランク付けするよう求めると、彼らはあまりにも寛大すぎて、常に8、9、または10を与えるので、違いがはるかに明確ではありません。それらを比較するよう求めると、はるかに良い結果が得られます。

ですから、ええ、警告に注意してください。これは高価で、正しく行うのは面倒です。私は自分の結果に満足しています。私はそれについて多くを学んだと感じています。これを実験し続けるつもりで、より良い結果が得られれば、自分専用の動画を作るかもしれません。

しかし、ええ、私はこのような多くのベンチに取り組んでいて、結果は興味深いものでした。これは私がGemini 3について感じている方法です。良い指摘です、Evelyn。文を始めて、終わりに到達する前にどこへ行くのかを忘れます。

モデルに自分自身のエッセイもレビューさせるべきですか。おそらくですが、それを追加する機会がなかったし、それもより高価になるでしょう。TLDDRは、GPTが傾聴と誘導が最も得意だということです。全体的には、はい、そうだと思います。それは私がこれまで使ったどのモデルよりも最も操縦可能に感じます。

5.2は、GPT-5よりも通常の道を外れることに少し前向きです。GPT-5がまさにあなたが求めることを行い、それ以上は何もしないのがとても好きです。ある意味で無菌のように感じます。それが私ができる最善の表現です。

Gemini 3 Proは、一生懸命すぎる高校生のように感じます。はい。はい。私がこれを表現できる最も簡単な方法は、常に図です。モデルの軌跡を見て、それをどれだけ好きかを見て、これを時間経過でランク付けすると、新しいモデルが出てくるにつれて、私が実際に好きになることはそれと一緒に上がっていきます。

もしこのトップアクセスを私がどれだけ好きかではなく、ベンチマークに基づく知能にすることにしたとします。そしてGemini 3がどれだけ賢いかを見ると、これがGeminiラインになるでしょう。Googleのために緑にしましょう。時間の経過とともに、新しいものが出てくるにつれてGeminiモデルは賢くなります。

実際には平坦でスパイク状です。なぜなら、Geminiはそれほど頻繁にリリースしないからです。年の初めの2.5以来、ハードワークのための新しい主要モデルリリースがなく、今3つになりました。他のすべてのラボははるかに多く出荷しています。

明らかに、OpenAIのような何かが常に出荷している、またはAnthropicはたくさん上がります。もちろん時々物事が先を行ったり遅れたりします。お分かりでしょう。OpenAIのラインを配置すると、物事が奇妙になります。なぜなら、OpenAIは少し先を行っていたからです。

しかしお分かりでしょう。新しいモデルが出てくるときの感じは、大体このようなものです。それらは一般的に右上に向かっています。しかし私の経験からすると、物事は少し異なります。これを私がそれらを使っているときの感じにすると、良い新しいモデルが出てくると私の期待が高まるという明らかなバイアスがあります。

しかしOpenAIモデルについて私がどう感じているかをランク付けすると、あまり感じませんでした。あまり感じませんでした。ああ、これは少し役立ちます。ああ、待って。これは実際にかなり役立ちます。待って、悪化しています。これはOpenAIモデルに対する私の経験の曲線です。私はまだGPT-5以来、意味のある勝利を感じていません。

5.1 Proでその glimpses がありました。ああ、これは何日も解決するのに苦労したものを解決しているというような、しかしそれは教育目的などの良い理由があるように見える場合でも、非常に具体的なパズルタイプの経験であり、日常業務ではありません。

そしてこの時点で、私の日常業務と私がモデルを使用することは、モデルはほとんどそれに十分良いです。より賢いモデルは、ほとんどのプロジェクトで私の日常のコード書きにおいて、意味のある恩恵を私に与えません。

ですから私が探しているのは異なるものです。指示により良く従うモデルが欲しいのです。より賢いモデルが必ずしも私が伝えることをより良く行うわけではありません。そしてこれらのベンチマークは、あまりにもシンプルで範囲が限定されているため、モデルにあまりにも多くのものへのアクセスを与えたときに何が起こるかを実際には測定していません。

モデルで数学コンテストを行うとき、触れて愚かなことができる他のコードがリポジトリにありません。Gemini 3 Proにコードベースへのアクセスを与えて、1つの小さなことを修正するよう伝えると、多くのランダムなものに触れるつもりです。

これらのベンチマークは、モデルがどれだけうまく機能するかを測定していません。そのテストに基づいて測定されるモデルがどれだけ賢いかを測定しています。ですから、私はもうそれほど賢いモデルを望んでいません。私が伝えることを、気を散らすことなく行うのがより速く、より良いモデルが欲しいのです。

実用的なコーディングテスト

そして私たちはこの方向で改善を始めています。CursorのComposer Oneのようなものは素晴らしい例です。そのタイプのモデルにとって私が望むよりも少し愚かですが、もしComposer Oneが20%ほど知的だったら、他のものにはあまり触れないでしょう。とても速いのです。面倒です。

ですから、私はこのプロジェクトをEffectを使用するように移行することについて話していました。なぜなら、Effectを使用していた方が扱いがはるかに面倒でなくなるからです。ですから、それをやりましょう。

ですから、OpusとComposerとこれらの他のものすべてを使用しているときの感じの違いを示したいと思います。複数のモデル、Composer、Opus、5.2。Effectは簡単ではなく、ほとんどのモデルはまだそれが得意ではありません。ですから、これは楽しいテストになるでしょう。

Arena V2でWork Treesを作成するよう伝えます。そして今、Composerが他のすべてよりもどれだけ absurdly 速いかを示します。To-Doを作成しました。ものを撃ち出しています。Opusは代わりにプランモードを行うことを提案しています。その提案をスキップします。

Composeはすでに2つのTo-Doに入っています。Opusはついに To-Doリストを作成しています。GPT 5.2はおそらくTo-Doリストを作成しないでしょう。なぜなら、何らかの理由で、GPTモデルはTo-Doリストの作成と管理が本当に下手だからです。

面白いことに、彼らは指示に従うのは得意です。自分自身の指示を作るのは得意ではありません。Composerは今近づいています。3つ以上完了しています。5.2が生成しているときにどれだけ遅いかが分かります。私はそれがどれだけ悪くなり得るかのスクリーン録画の動画を録画しました。

インラインでは、最近の変更のために抑制されていますか。表示する保護が多すぎるか、再び表示しないでください。今はそれを隠すだけにします。それは58ですか。完了しましたか。ほぼ完了しています。ええ、そうです。クール。Composer Oneは完了しました。それは即座でしたか。いいえ。私がデスクを離れるか気を散らすのに十分な時間でしたか。いいえ。

私が手を伸ばして飲み物を一口飲むのに十分な時間でしたか。Opusは5つのTo-Doのうち2つが完了しています。そしてGPT 5.2は、おそらく1000行以上の変更となるもののうち40行を編集しました。これが私の問題です。他のモデルは最低でもさらに10分かかると予想しています。おそらくもっとです。

Opusはそれより少し速いかもしれませんが、5.2がこれを30分未満で完了したら非常に驚くでしょう。今私たちのチャットにはZedの従業員がいます。そして面白いことに、Michaela、私には良い友人がいます、おそらく彼が誰か知っているでしょう、彼の名前はBennyです、私のチャンネルを運営するのを手伝っています、彼は本当にZedを楽しんでいて、2つの理由でそれに移行しないと逐語的に言っています。

1つは、Cursorでタブ補完がより好きだということと、2つ目は、CursorでComposerがあまりにも好きだということです。ですから、この時点で私よりもはるかにロックインされているユーザーがいて、Zedにいるでしょうが、モデルが今粘着性のあるものです。それはかなりクレイジーです。

ええ、起こり得ます。もし君たちが方法を見つけられるか、他の第三者が入ってきて、他のハーネスが使用できるほど速くて良いものを作ることができれば、何か魔法のようなことが起こり得ます。なぜなら、Composerは、ああ、これにこのことをやらせることができるという瞬間の1つだからです。

そして正直なところ、ただ作業しているときのほとんどのタスクで、プランニングステップが必要だと思わない場合、私はComposerで実行することから始めます。そしてもしそれが間違っていても気にしません。それを実行するのに数秒しかかからなかったので、それを捨てて、より賢いモデルでそれを再実行し、デスクを離れるだけです。

CursorはSuper Mavenの人たちを雇いましたよね。はい。それがこれらすべてが起こった方法です。彼らにとって非常に、非常に良い雇用でした。彼らはSuper Mavenを買収し、ちなみに私にCursorでより多くのエクイティをもたらしました。

ええ、いつものように、私はCursorのエクイティを持っています。それが私が彼らについて文句を言うのを止めることはありません。私はほとんどの人よりも多くします。Cursorには問題がありますが、私はチームとTab Completeを率いるためのSuper Mavenの買収、そして今Composerのようなモデルを構築するのを助けることについて多くの信頼を持っているので投資家です。

それがとても良い理由は多くの意味を成します。Jacobは神です。そして私がこの間ずっと話している間、彼らはまだ実行しています。おそらく実行し続けるでしょうが、私はもうあなたの時間を無駄にしたくありません。なぜなら私はすでに多くのことをしたからです。お分かりでしょう。

結論:知能より実用性

5.2は本当に賢いですが、必ずしも良いわけではありません。そして、モデルを使い始めてから、これについてあまりにも多く考えすぎています。そして、これを胸から出したかったのです。通常、私はより良いアウトロを念頭に置いていますが、昨日これをツイートしたことを覚えています。そして、それが今までよりもよく私の考えをまとめたと思います。

GPT 5.2はより賢いモデルです。Opus 4.5はより良いモデルです。そしてGemini 3 Proは確かにモデルです。それが私が皆さんのために持っているすべてです。そして次回まで、平和オタクたち。

コメント

タイトルとURLをコピーしました