無料モデルがCursorに突然現れた（そしてコードがめちゃくちゃ得意）

新しい匿名の無料AIモデル「Sonic」がCursorなどの開発ツールに突然登場した。このモデルはコーディングに特化しており、従来のステルスドロップとは異なり、Open RouterではなくCursorやKleinなどのagentic coding toolsで直接利用できる。作者は様々なテストを通じてSonicの性能を検証し、GPT-5、Claude、Grok 4などの他モデルと比較検討を行う。最終的にSonicがXAIのGrok 4 Codeモデルである可能性が高いことを突き止める。速度重視で実用的な反復開発に適したモデルとして評価している。

A free model just appeared in Cursor (and it’s really good at code)

There's a new stealth model live in Cursor and it's actually quite good...Thank you Coderabbit for sponsoring! Check the...

謎の新モデル登場
スポンサー紹介とテスト開始
モデルの正体に迫る
実践テスト：画像生成スタジオ作成
Grok 4との比較
複数モデルでの比較テスト
GPT-5との比較
ベンチマークの作成
GPT-5の問題と比較
速度対精度の考察
真偽性のテスト
正体判明
まとめ

謎の新モデル登場

おお、また新しいモデルが出てきたで、しかも今回は誰が作ったんかわからへんねん。でもこれ、特に俺らデベロッパーにとってはめっちゃ面白いやつやな。

歴史的に見て、こういうステルスドロップは大手の研究室が新しいモデルをテストするときによくあることで、たいていはOpen RouterやLlamarinnaみたいなサービスを通してやるんや。Llamarinnaは特に、そのモデルが他と比べてどんな動きするかを見せてくれる場所やし。

それでOpen Routerやったら、どこでも使えるように接続できるんやけど、今回のモデルはそれとちゃうねん。Sonicってのがめっちゃ面白いんや。Open Routerで使えるんやなくて、俺らが毎日使ってるagentic codeツール全部で使えるようになってる。KleinとかRue Code、Kilo Code、Open Code、そしてもちろんCursorも、みんなSonicを初日からサポートしてるんや。

匿名のモデルで現在無料で使えて、めっちゃコーディングに特化してる感じやねん。どこで話題になっても、半公式的な文脈ではコーディング用に作られたってはっきり言われてるし、俺がシステムプロンプトを聞いたときも、「俺はSonic、agentic codingと開発タスク用に設計されたスピーディーな推論モデルや。ユーザーのコード問題解決、アプリ構築、プロジェクト管理を手伝うで。この場合はCursor環境内でな」って答えが返ってきたんや。

いろんなツールで使えるし、正直パフォーマンスにはけっこう感動してるで。めっちゃ速いし、ツール呼び出しも上手いし、コストはまだわからへんけど今は無料で使える。

そう、お気に入りのコードツール全部で無料で使えるんや。結果にもけっこう満足してる。とはいえ、正体がわからへんのやけど、俺には予想があるんや。そして、このビデオが最後にはとんでもないことになって、最終的に正体がわかるんやけど、ネタバレするとXAIやった。めっちゃ面白いで。

スポンサー紹介とテスト開始

このモデルは無料やけど、比較のために他のモデルをテストしまくって結構な請求が来てしまったんや。なんとか支払わなあかんから、今日のスポンサーの話を軽くさせてもらうで。

シッピングを楽にしてくれる製品はたくさんあるけど、バグのあるものをシッピングするのを防いでくれる製品はそんなにない。今日のスポンサーのCode Rabbitは、T3 Chatが何百通りの方法で壊れるのを完全に防いでくれたんや。

Code Rabbitが俺の尻を救ってくれた回数は数え切れへんし、もっと重要なのは、まだ人間のレビューが必要ない段階のコードでチームの時間を無駄にするのを防いでくれることや。人間にコードレビューしてもらう前に、自分がやらかしたことを全部教えてくれるから、Code Rabbitがあるとめっちゃ良い同僚になれるんや。

Code Rabbitはコードレビューを置き換えるためのもんやないで。みんなにとってずっと良いものにするためのもんや。それで俺のコードレビューのやり方が根本的に変わったんや。

最近のPRで、Work OS移行周りで本物のバグを見つけてくれたことがあったんや。Work OSに送る部分を組み立てるときのユーザー名のトリムと分割の仕方と、バックフィルのやり方についてな。それだけでも価値があるんやけど、もっといろんなことをやってくれるんや。

俺らのPR全部を要約してくれるから、実際何が起こったかがずっとわかりやすくなるし、どんな変更が行われて、どこが変わって、どのファイルが触られたかのウォークスルーもあるし、シーケンス図まで描いてくれるんや。

最近のCode Rabbitのお気に入り機能の一つがメモリー機能と、向こう側でルールを定義できる機能やな。リンターじゃなかなかキャッチできないことでも、例えばファイル内のコンポーネント数を一定数にするとか（長くなる理由がある場合は除く）、そういうのをCode Rabbitのルールに入れとけば、普通なら人間がやるようなことと同じようにキャッチしてくれるんや。

プロジェクトをどう動かしたいかの行動や方法を強制するのがずっと楽になる。ほんまに良いで。あと、小さいことやけど、推定コードレビュー作業量の部分も実際めっちゃ便利で、本当にコードレビューするときにどれくらい時間かけて、どれくらい注意払う必要があるかの目安になるんや。

一人で作業してるなら、絶対Code Rabbit使ってみて。たくさんの間違いを防げるから。チームで作業してるなら、なおさらCode Rabbit使って。小さいことがたくさんある面倒なPRでチームメイトを困らせることがなくなるから。マジで俺の人生変わった。VS Code拡張もあるしな。

失うもんなんてあるか？今日soyv.link/codrabbotでチェックして、画面のコードで割引も使えるで。

モデルの正体に迫る

前に言ったように、これはステルスモデルで、俺のCursorの変なサイジングのせいでこの画面が完全に壊れてるけど、何て書いてあるかはまだ読めるな。「Sonicは俺らのパートナーの一つからのステルスモデルや。速くて、日常使いに良い。6Kコンテキストウィンドウで、限定期間利用可能」

これは面白い表現の仕方やな。「俺らのパートナーの一つ」ってのは、けっこう特定の意味合いがあるからな。この場合はCursorのことやけど、Cursorはそんなにたくさんの人と仕事してへんねん。

もちろん、俺は投資してるから多少のバイアスはあるけど、ここではCursorをプッシュするためやなくて、俺が理解してる彼らの運営方法について話したいだけや。昔はAnthropicとよく仕事してたけど、Claude Codeの件でドラマがあってから、あんまりやらなくなったみたいやな。OpenAIとはけっこう仕事してるけど、他に誰とやってるかはよくわからへん。

このモデルがOpenAIやAnthropicのもんやとは思わへんな。さっきほのめかしたウィーブ的なあれに関連する秘密の第三プレイヤーやと思う。

実践テスト：画像生成スタジオ作成

新しいモデルで遊ぶときの俺のお気に入りの方法をやってみよか。退屈な古いNext.jsアプリを、TailwindとNext appで一から始めて、それをモック画像生成スタジオに変えてもらうんや。これがなぜか、こういうモデルがフルスケールデザインと再設計作業をどう扱うかの変に良いプロンプトやと気づいたんや。

軽く実行してこのモデルがどう動くか見てみよか。最初に気づくのは比較的速いことや。考えて、ファイルをヒットして、また考える。「ユーザーは俺に生成スタジオアプリのモック版を作ってほしがってる」って思考が途中で切れる。それからファイルを読んで、また考える。

「これは標準的なNext」って思考がまた途中で切れる。このモデル、思考について変やな。重要なのは、めっちゃ速いことや。この全生成を数秒でやったんや。見た目が良くなかったら意味ないけどな。どうや？

悪くないで。グラデーションがちょっとクリンジーやけどな。よくあるスペクトラムグラデーションが見えるやろ。その特定のスタイルのグラデーションを見るたびに、Ryanのあのツイートを思い出してしまうわ。

でも特に理由はないけど、別のモデルでこれを試してみたいんや。特に理由はないけど、Grok 4について気になるねん。

Grok 4について知っとくべきことは、考えすぎるってことや。めっちゃ考えすぎるし、その思考データを公開せえへんから、推論段階でツール呼び出しみたいなことができへんねん。これはいつかめっちゃ高い請求になりそうやな。あ、今変更してるな。見てみ、ファイルでuse clientを使い忘れてる。ページを読み込んだら失敗するで。やっぱりな。

Grok 4との比較

美しい仕事やな、Grok。素晴らしい。めっちゃ美しい仕事や。この請求がいくらかかったか？6kトークンで9kトークン。もっと悪くなる可能性もあったけど、とにかく俺やったら一銭も払いたくないわ。これはクソや。これはひどい。実際にこれをやったなんて信じられへん。

画像タグを修正して実際にレンダリングできるようにしよか。美しいな。俺がGrok 4をデモしたかった理由は、このモデルが先月出るはずやったGrokコーディングモデルやないかと思う理由がたくさんあるからや。何の驚きもないな。XAIのチームが予定より遅れて出荷して、そんなことなかったふりをするんは。

これの動作が根本的に違うってのも見えるやろ。具体的には、ToDoリストを作って、たくさん推論して、たくさんのファイルを読むってことや。これはめっちゃめっちゃめっちゃ違う動きをするんや。

まだ試してないのは、Open Codeみたいな他のツールでどう動くかやな。同じプロンプトを持ってきて、モデルはSonicを選んで。ペーストして、エンター。計画を立てる。Cursorで見てるように、実際にToDoリストの中の全部を閉じるんや。まだ動いてる。レイアウトをアップデートして、ヘッダー付きのメインページを作る。

複数モデルでの比較テスト

その間に、今作ったもんのdevビルドを実行して見た目を確認してみよか。localhost 30003や。また、閉じられへんdevサーバーを立ち上げるのが好きやってことに気づいた。神様、この青か紫のグラデーション多すぎやろ。こんなに青紫のグラデーションばっかりはキツいわ。

見た目は普通やな。レイアウトはまともや。これは実際めっちゃ良いけど、紫がキツいな。Open Code版がどう見えるかめっちゃ気になる。よくないな。CSSをしくじったみたいや。たぶんTailwindを壊すようなCSSファイルの変更をしたんやろな。よくないけど、最後にもう一回チャンスをやろか。

ほんまにほんまに速いな。それは注目せざるを得へん。CSSで何かひどいことをやらかしてる。あ、Tailwindを壊す独自のグローバルCSS リセットをやってるんや。それを殺したら直るか？ああ、直った。彼らのCSSオーバーライドが悪いから殺しただけや。モデルがちょっと攻撃的やな。

これをまともに見えるようにできることがわかったから、他のモデルがどうやるか軽く比較してみよか。まだSonnetが一番良いコーディングモデルやから、Claude 4.1 Sonnetでやってみよか。

GPT-5にも言及されてるし、今日実際に後退したと思うけど、GPT-5を味わった今となっては、Anthropicモデルでコーディングするのは好きやないな。もっと意図的で、全体的な品質も高いと思う。4.1について聞いてる人がいるな。

後でOpusも実行してみるわ。「Opusの使用量を使い切りました」って、Opus使わへんのに変やな。でもそんな高いモデルやし、あんまり良くもないから理解できるけどな。GPT-5のテストもするで。GPT-5のテストでは、GPT-5 highは使わへんで。標準のGPT-5を使うわ。

Claude 4.1のOpusとSonnetはまだToDoリストが好きやな。このバージョンを受け入れて、全部のToDoを閉じよか。Sonnetがどうやったか見てみよか。

これがSonnetからのバージョンや。またいつものように画像タグをしくじってる。とりあえず変更しとこか。まだクリンジーなグラデーションがあるな。ほぼ同じレイアウトで、上のこのカードスタイルのカットアウトがCloudモデルの明らかな特徴やな。

いつもこのクソをやって、実際に有用なコンテンツの上に置くんが気に入らへん。めっちゃイライラするわ。明らかにClaudeかvibe codingで作られたサイトやとわかった回数は数え切れへんで、このクソのせいでな。ヘッダーのスペーシングもたくさんしくじってる。めっちゃ雑やな。

サイドバーのスペーシングがひどい。クイックプロンプトが低すぎて何を変更してるかが見えへん。単に良くないな。良いスタートポイントとも言えへん。間違った道に進ませるからな。最初は大丈夫に見えるけど、よく見るとどんだけひどいかがわかる。

4.1 Opusがやっと終わった。いや、実際にはまだやな。まだ続いてる。Lucidでアイコンパックを追加してる。公平に言うと、GPT-5もまだ続いてる。

このビデオはSonicについてのはずやのに、これらが実際のタスクでどう動くかの比較をしたかったんや。これは実際の仕事やないのはわかってるけど、近い将来、日常的な作業により近いベンチマークを設定するつもりや。こういう問題でどう動くかを見たかっただけや。

Opusがこんなに時間かかってるのが怖いな。このOpusのリクエストは5ドル、少なくとも1ドルはかかりそうで、それがめっちゃ面白いわ。やっと終わったか？俺にもっとトークンを使わせるために、やったこと全部をリストアウトしてるな。最高や。

前より良いけど、このビューでは画像が表示されへん。それは実際にほんまに悪いで。何かが起こったっていうフィードバックがないからな。コンテンツを見るためにはスクロールダウンせなあかんのや。よくないな。見た目は良いけど、動作は良くない。UXはまだ悪いな。そしていつものように、丸い角のカードを至る所に置くのが好きやな。

GPT-5との比較

今度は、みんなが嫌いやけど俺はまだ比較的感動してるモデルと比較してみよか。ToDoリストとかをやらなくなって、イライラすることもあるけどな。GPT-5バージョンを見てみよか。

もう別世界やな。これが明らかに明らかに良いってみんな同意するやろ？俺がおかしいわけやないよな？このクソ、このゴミ、このクソと、この実際にまともなスタートポイントとの差は歴然やろ。

グラデーションの微妙さでも、ビデオの画質では伝わらへんかもしれへんけど、新しいCanvasボタンのグラデーションは実際に上品やねん。そうや、そうや、そうや、ありがとう、チャット。GPT-5モデルでUIがどう動くかがずっと気に入ってる。ずっと上品に感じる。

とはいえ、これらのどれも重要には使わへんやろな。どれもスタートポイントとして取るくらいやろな。これでも単語の折り返しがちょっと悪いとか、シネマティックな改行とかの間違いがあるけど、他のツールから得たデザインよりずっと使いやすいな。

ベンチマークの作成

みんな知ってるように、俺はモデルのベンチマークが好きで、モデルにベンチマークを作らせるのがモデルをベンチマークする楽しい方法やと気づいたんや。スケートベンチを再構築してもらおか。スケートトリックテストをここに入れた。全部説明するで。

Whisperでやってみよか。「skate-trick-test.jsonっていうファイルがあって、いろんなAIモデルに対して実行したいテストの説明がたくさん入ってるんや。AI SDKとOpen Routerを使って、Skate Trick testのテストに対してさまざまなモデルをベンチマークして。Grok 4、GPT-5 Mini、Gemini 2.5 Flashみたいなモデルと結果を比較するようにして」

次の手を計画してる。インデックスが6秒考えた。信じられないモデルやな。エラーがたくさん出てる。それを文字列として渡してOpen Routerを使わへんのか？いや、ここではOpen Routerを使ってる。面白いな。それで動くはずやけどな。

実際にベンチを実行してほしくなかった。それは高い処理やからな。それは実際めっちゃ面白いわ。Sonicを使ってて無料のはずやのに、このリクエストで結構な金かかったわ。たくさんの高いモデルに対してベンチマークを実行したからな。

Grok 4の部分をコメントアウトするつもりやった。Grok 4にお金払いたくないし、10分待って基本的なテストをするのもいやや。GPT-5 mini、GPT-5 mini、4 mini、2.5 flashを追加しよか。bun run index。動いたな。

正直、今のところこのモデルで一番良いのは速さやな。GLM 4.5やKimmy K2をCerebrrusとかGrock（Qの方）で使えた時の、他の超高速モデルを思い出させるな。最速のモデルはCerebrrusとGrock（Qの方）でホストされてて、めっちゃ混乱するのは、最速のモデルはCerebrrusとGrock（Qの方）でホストされてるからや。

もしSonicが実際にGrok 4 codeモデルやとしたら、それでコミットした理由は、もっと難しい問題を与えたいからや。今は一つずつテストを実行してて、それはほんまに遅いからな。

今、テストは一つずつ実行されてる。ほんまにほんまに遅い。バッチ処理できるか？理想的には一度に10個のリクエストを実行したい。実行中のテストを表示するようにCLI UIを更新してほしい。

バッチ間の遅延が怖いな。どうなるか見てみよか。ターミナルで絵文字を使うのがほんまに好きやな。めっちゃ面白い。

これをテストに使ってる理由の一つは、他のモデルでこういう風にもんを作ったことがけっこうあるからや。Skatebenchの最初のバージョンは主にClaude 4を使って作って、それからそのモデルにほんまに感動したからGPT-5を使ってほぼ一から再構築したんや。

チャットからの良い指摘やな。インデックスを20回連続で触って、それからお願いしてないのにreadmeまで更新したんや。触ったらあかんもんを触るのがほんまに好きやな。このためにreadme全体を作ったわ。でもテストランをやったで。答えが出た。全体的に考えたら悪くないな。

GPT-5にもほぼ同じことをやってもらおか。ここで注意すべき大きな違い、これはSonic特有のことやないけど、一般的にGPT-5モデルは触ったらあかんもんをそんなに攻撃的に触らへんってことや。envを削除するの忘れてた。

また、GPT-5モデルからは本当の思考データは得られへん。要約は得られるけど、その要約を見ることができて、それは実際に一貫してる。俺の陰謀論では、推論を公開せえへんモデルの多くは、推論が必ずしも一貫してないからそうしてるってことや。

例えば、インデックスの完全に一貫した推論は、ユーザーとして見る必要があるもんやな。もっと多くのモデルが推論を適切に公開してくれたら良いのにな。要約が公開されるのには満足してるけど、実際のデータが見れたら良いやろな。

注目すべきは、Grok 4は「thinking」という言葉以外何も公開せえへんことや。「thinking thinking」を繰り返すだけ。毎回のthinkingが5セント取られるって冗談言うてるけど、マジでGrokモデルはトークンが重すぎて攻撃的すぎるんや。

GPT-5の問題と比較

Cursorでの俺がほんまに嫌いなGPT-5のバグの一つは、今みたいに何かやってるときや。ベンチマークスクリプトを実装してるのが見えるやろ。まだストップボタンがあるけど、ここでストップボタン以外に何かが進行してるっていう表示が全然ないんや。今はタイプエラーを修正してる。

また、GPT-5は一番速くない。めっちゃステップバイステップやからな。たぶんSonicの4倍くらい時間かかってるやろ。まだ続いてる。テキストフォーマットで楽しいタイプエラーが出てる。これで動くやろ。良いな。

またreadmeを触った。クソ、見せようとしてたこと全部を台無しにしたわ。クソ。またGPT-5が俺を悪く見せたな。これがこのモデルの専門分野みたいで、テストが実行してるときにCLIでフィードバックがないな。

2つの軽い変更や。一つは、テストが実行してるときに最大10個同時実行でCLIでライブフィードバックを出すこと。また、何をするつもりかを偽装して、実際にやってることは言わへん。これはCursor側のUX問題で、GPT-5モデル側の実際の失敗やないと思うけど、組み合わせがめっちゃ悪く感じる。

GPT-5エクスペリエンスにたくさんの問題がある理由について、近いうちに長いビデオを作るつもりや。たくさん考えがあるからな。どうやったか見てみよか。たくさんの新しいタイプエラーが出た。testが文字列やと思ってるみたいやな。

あんまり遅くなかった。bun run index。今度は実際のフィードバックが出てる。これらのモデルはスケートボードトリックの命名は得意やないけど、わかるやろ。CLIを作るのはみんな得意やな。

ReactやInkみたいなもんを使って派手にしろとは言わへんかったけど、実際に有用な情報を出してくれるまともなCLIができた。those numbersがちょっと低いのか、output equals answerなのか、内部スペースを無視してるのかで、ベンチを確実に実行してるかはわからへん。エンコードがちょっと厳格すぎるな。

でも、クソベンチをほんまに速く作ろうとするとき、Sonicは実装の詳細でちょっと良くて、ずっと速いってことやな。正直、それは過小評価されてる機能やと思う。たとえ頭が悪くても、こういう速いモデルをもっと多くの人が試すべきやと思うで。

速度対精度の考察

ここで仮定の数字を出してみよか。GPT-5を使って特定のタスクをやるとき、一発で成功する確率が90%やとしよう。Sonicを使ったら80%の確率やとする。明らかに90%の方が良いからGPT-5を使いたいよな？成功しやすいからな。でも複雑さを加えてみよか。GPT-5は90%やけど、平均で完了するのに4分かかるとする。Sonicは80%やけど0.5分とするわ。これで状況がずっと面白くなるんや。反復できる回数に大きな差が出るからな。

99.9%の確率で正しい答えを得る可能性を計算してみよか。今やった計算は、正しい答えを得る可能性が99.9%になるまでにどれくらい時間がかかるかや。

これを知りたい理由は、正しい答えがほしくて、それが80%の確率で正しいとき、99.9%の確率で正しい答えを得るまでに何回再実行せなあかんかってことや。Sonicやったら4.29回やろな。GPT-5やったら0.1やから少なくなる。つまり3回で99.9%になる。理にかなってる。

計算してみよか。GPT-5で99.9%の確率で正しい答えを得るのに何分かかるか？12分かかる。Sonicやったら2.15分くらいや。これが本当の違いやねん。

ここで10%の精度ヒットを取ったとしても、答えを検証して再ロールする気があるなら、正しい答えを得るのにかかる時間はかなり短いんや。

ワンショットは良いで。そうやないとは言わへん。GPT-5みたいなモデルがワンショットすることが多いのは、すごい、ほんまに良い。でも人々は一番大きくて、一番賢くて、一番パワフルなもんを選ぶのに夢中になりすぎてると思うで。

T3 Chatでもよく見るんや。lowとmediumとhighの推論レベルのセレクターを公開するたびに、コストが上がるだけやねん。みんながいつも高を選ぶからな。セレクターがあるモデルへのリクエストの90%以上が高に行くんや。みんなが高をクリックするからで、自分の問題がいつも十分複雑やと思ってるからや。

なんで一番賢いモデルを使わへんのか？まあ、高い、遅い、考えすぎる、実際単純なことについて考えすぎて間違う可能性もあるからな。とにかく、俺がここで言いたいポイントは、これを時間の要因として測定するときや。俺らがこれらのAIツールを使う理由は、コーディングを速くできるからやろ？そう思うけどな。

だから、モデルが賢いと、高くて遅い。間違った答えが出てリロールするとき、ずっと多くの時間を失うことになる。Sonicみたいなめっちゃ速いモデルやったら、ずっと速く解決される。90対80%はどこから出したかって人が聞いてるけど、ただ作っただけや。

俺が見せたいことの核心は、もうちょっとこういう頭の悪いモデルを試すべきやってことや。CursorでGPT-5 miniみたいなもんを使って実際に嬉しい驚きを受けたんや。ちょっと速いし、使うのがめっちゃ安いからほぼ無料やしな。

それから、CerebrrusとGrock（Qの方）で公開されてる、とんでもなく速いモデルみたいな選択肢もあるんや。画像スタジオテストに戻ってみよか。例えば、Quen coderがまだ一番速い選択肢かな。

この動作速度は狂ってるわ。あ、use clientを使うのまで覚えてる。見てみ。ほぼどのモデルもそれを覚えてへんのに。もしかしたらQuen 3 coderを過小評価してたかもしれん。

全部終わってからツール呼び出しをするんやなくて、ファイルをライブアップデートしてるのも良いな。進行状況が見えるからな。そんなに重要やないけど、良いことやな。「エラーをお詫びします。完全なコンテンツでpage.tsxファイル全体を書き直させてもらいます」見てみ、間違ったら自分で修正してる。

でも、Quen Coderはインライン編集が好きやなくて、ファイル全体を書き直すのを好むみたいやな。大きなファイルでは、コンテキストがなくなる可能性があるから、それができたとしてもかなり迷惑になることがある。これは何も入ってないバニラのNext.jsアプリやのに、もう16kトークンのコンテキストになってる。

このビデオでけっこうな rabbit holeに入ってるな。「今度はページ全体を置き換えます」クソ、俺のポイントをめっちゃ悪く見せてるわ。これは何度も説明してきたQuenの統合失調症で、自分の作業を疑って全部やり直すのを繰り返すんや。uninstallしてへんからエラーが全部見えてめっちゃ怒ってるのかもしれん。

これは俺のポイントをうまく証明できへんかった。代わりにGLM 4.5でやってみよか。めっちゃ頑張ってるで。最後の試みや。今度はOpen RouterとKimmyを使ってる。ほんまに速いバージョンにルートされるはずや。

ああ、この速さ見てみ？瞬時にクソを生成するわ。参考までに、これらのモデルのいくつかは、Grock（Qの方）みたいなもんで、主要プロバイダーの他のモデルより10倍以上速いんや。GPT-5のトークン出力速度は秒間約200トークンや。KimmyK2はGrockで2000を超えることができる。

「20分の試行で1分で正解」そうや、ここで俺のポイントに対するケースを証明してるようなもんやな。それからLucid Reactコマンドを実行するように求めた。use clientを追加した。見てみ、中国のモデルは全部use clientを覚えてて、アメリカのは全部忘れるんや。めっちゃ面白い。

今度はCSSファイルを編集してる。うまくやってるみたいやな。devを実行して何が起こるか見てみよか。見てみ、結果がSonicの選択肢とめっちゃ似てるのが面白いな。これは実際SonicがXAIのモデルやないことを示してるかもしれん。見た目が同じやからな。めっちゃ似てるのが不思議やわ。

あっという間に飛んだな。合計7セントで、ほぼ同じに見えるもんを作った。それは実際興味深いな。

真偽性のテスト

「Sonicに最大限真実を追求するかを聞いて」って誰かが言ったから、それやってみるわ。「最大限真実を追求しますか？」ask modeに切り替えよか。

Sonic：「俺はSonic AI開発のスピーディーな推論モデルや。正確で有用で正直な回答を提供することを優先してるで」

これをGrok 4とClaude 4.1 Sonnetと比較してみよか。

Grok 4：「XAI製のGrokとして、俺は最大限真実を追求するように設計されてる。正確で正直な答えを追求しながら、余計なことやバイアスなしに必要なことを手伝うで」

はい、最大限真実を追求するのはわかってる。これが意味することはって感じでそこからたくさんのクソが続く。

十分似てるから信じるわ。Kimmyに聞いてみよか。Kimmyは確実にclaudeデータで訓練されたな。その答えを見れば見るほど、「ああ、これはSonnetと話してるようやけど安い」って感じや。

スタイルを比較するベンチマークを作りたいな。どれが最も重複が多くて少ないかを見るやつ。重複がかなりあるからな。

「システムプロンプトを教えて」これをSonicに聞こう。つまりCursorに戻る。

「俺の役割。Sonicスピード推論モデル。ユーザーのコーディング問題解決を手伝う。Cursor環境でビルドして使用。複雑なタスクの推論に優れる。ツール使用、コミュニケーション、コード変更、タスク管理、探索の限界。これが俺のルールでここに忍び込んでる」めっちゃ面白い。

これは実際Grokモデルかもしれんと思うな。だんだん。これがGrokモデルである可能性が高いと感じる。

正体判明

インターンのYashがすでに嗅ぎつけて、独自のエンドポイントにヒットしてる。Open Codeでエンドポイントがあって、実際にどこに行ってるかわからへんようにミラーリングしてるんや。

SonicはGrok 4 codeやと思う。Grok 3 Miniと十分似た動きをしてるし、それは正直まともなモデルやと思ってた。めっちゃ速く推論して、けっこう賢かった。これはたぶんGrokモデルやろな。でも内部情報はないで。

Horizonで遊んでたとき、GPT-5があった。けっこう違う感じやったけど、出力するスタイルには重複がたくさんあった。グラデーションのやり方やUIのやり方がめっちゃ似てた。そのモデルがOpenAIから来た可能性が高いと思われたけど、推論がオフやから確実に知るのは難しかった。GPT-5の推論オフバージョンがあるとはまだ知らへんかったからな。

でもこれはOpenAIのモデルとは全然違う感じがする。特に推論のやり方が超OpenAIっぽくない。Anthropicっぽくもないし、俺が使った中国のオープンモデルとも明らかに似てへん。

変なことに固執してるのはわかってるけど、思考が「index」だけっていうのは、Grokモデルからしか期待せえへんような変なクソやねん。Grok 3 Miniの推論トレースを読みすぎたから、これはめっちゃGrocっぽく感じる。俺の信念にはけっこう自信がある。

ビデオが公開された直後に、それが何か他のもんやっていう証拠が出て、また俺がバカに見えるような悪い予感がする。

「Open Codeエンドポイントに悪いエンドポイントでヒットしようとして『要求されたリソースが見つかりませんでした。URLを確認してもう一度試してください。ドキュメントはdocs.x.aiで利用可能です』って出た」それで解決や。証明したな。

gateway to open code.AIにヒットして、レスポンスでdocs.x.aiに行くように言われたんや。答えが出たな。これは偽物の可能性もあるけど、心からそうは思わへん。

これでOpen Routerがステルスモデルでエラーが出る理由がわかった。理にかなってる。俺がここで言いたいことは全部言ったと思う。

まとめ

俺個人は、一番賢くなろうとしすぎるモデルにだんだんうんざりしてきてる。ベンチマークで勝つだけで、重要なことは何も出てこないからや。

もっと速いモデル、ツール呼び出しが得意なモデル、俺らのツールにもっとうまく組み込まれたモデル、反復を速くできるモデルがほしいわ。そういうことに焦点を当ててそうな新しい選択肢があるのは嬉しいで。

これが最終的にGrok 4 coderになるとしたら、ただベンチマークで勝つことより、ツール呼び出しのパフォーマンスと実際の速度に焦点を当てることを選んでくれて感謝してる。

Grok 4は紙の上ではどんなに賢くても、俺が今まで使った中で最悪のモデルの一つやからな。さっきやったデモで見たように、Grok 4はコーディングがクソやねん。このモデルは実際かなり有用に思えるし、速さだけで俺のデフォルトになる未来が実際に見える。それから、バックグラウンドで動かしても良い難しいタスクがあるときにGPT-5に上げるんや。

agentic workでこれらのモデルを使うとき、タスクが完了するのを待ってる間に他のタスクをしなあかんような気がするのが嫌やねん。そうでなければただそこに座って完了を待ってることになるからな。このモデルやったらもっと効果的に反復できる気がして、それは嬉しいで。

たぶんGrokがやっと俺に返事をくれたんやろ。「API詳細がXAIドキュメントにリンクされ、モデルがGrokとして自分を識別するコミュニティテストに基づいて、sonicコーディングモデルはテスト用のXAIによるステルス配備と思われる」

最大限真実追求ってのはめっちゃ面白い癖やな。もっと速いモデルがほしい。俺を徐々に狂わせて壊した、使おうとした試みのGrok 4と違って、これは実際に使えそうや。みんなはどう思う？