GPT-5がこっそりリリースされた？史上最高のコードモデルHorizonが登場

この動画では、Open Router上に突如現れた謎の匿名AIモデル「Horizon Alpha」と「Horizon Beta」について詳しく解説している。これらのモデルは特にUI設計やコード生成において既存の最高水準モデルを大幅に上回る性能を示しており、提供元が不明でありながら無料で利用可能という異例の状況である。作者は実際に複数のテストを行い、その驚異的な品質と独特な特徴を検証し、正体について様々な仮説を立てながら分析を進めている。

Did gpt-5 just shadow drop? Horizon is the best code model ever

Some new anonymous models just dropped: the Horizon models. These are really impressive models, and I have no idea who m...

謎の匿名モデルが突如登場
これらのモデルの正体は何なのか
Cursorでの実装とその課題
スケートボードテストと他のモデルとの比較
これまでに分かったことのまとめ
他の匿名モデルとの関連性

謎の匿名モデルが突如登場

まさに今、2つの新しい匿名モデルがドロップされたんやけど、これがマジでヤバいねん。この数日間、Open Routerに現れた新しいHorizonシリーズをずっと見てたんやけど、これには本当にぶっ飛ばされたわ。今日は時間をかけてじっくりとこのモデルを色んなことで試してみたんやけど、その能力、特にUIとデザインに関しては床に倒れるほど驚いたで。

簡単なテストをやってみたんや。偽の画像スタジオアプリ用のUIを、Next.jsでモックUIとして生成してもらうよう、色んなモデルに頼んでみた。これがClaude 4 Opusでの結果や。現在の最先端で、Anthropicから出てる一番良くて一番高いオプションやな。それと比べて、これがHorizon Alphaで生成したやつや。

これらは全然レベルが違う。Horizon Alphaの方が圧倒的に良いねん。でも言ったように、モデルは1つやない。2つあるんや。これがHorizon Betaのやつや。マジで言うてるで。このモデルがUI生成でどんだけ良いか信じられへんわ。ただ、これが何なのかは全然分からん。詳細を深く掘り下げたし、色んな理論もある。印象的やった色んなこと、cursorで動かすためのハック、もっと色々なことを説明していくで。

これらのモデルは現在Open Routerで無料で利用できるんやけど、他のモデルとのテストでも結構金を使わなあかんかったし、土曜日の余った時間もめっちゃ使った。誰かがこの費用をカバーせなあかんからな。今日のスポンサーからの簡単な紹介をしてから、新しいHorizon匿名モデルの詳細に飛び込んでいくで。

うちのチームはこれまで以上にコードを書いてるんや。それは良いことやけど、問題は今まで以上にビルドを待つ時間が増えてることや。まあ、今日のスポンサーのDepotをチェックするまではそうやったけどな。この会社はビルド時間を節約してくれるだけやなくて、その過程で大量の金も節約してくれるんや。統合も超簡単やで。すでにGitHub actionsを使ってるなら、DepotはGitHub actionの定義で1行のコード変更だけで済むドロップイン置換になるやろう。

Posttoを含む他の多くの会社もすでに移行してる。CIだけやなくて、もっと重要なのはDockerイメージビルドが圧倒的に速いからや。マジで、PosttoのDockerビルドは3時間以上から5分未満に、41倍も短縮されたんや。みんなも経験あると思うけど、サーバーよりも自分のパソコンの方がCIビルドがどんだけ速いかってことを。

それがDepotを使わない限りの話やけどな。マジで、こんなの見たことない。ラップトップで20分のビルドが、Depotでは5分や。これは面白いで。いつもその逆やったから慣れてるんやけどな。彼らのコンピュートは圧倒的に速いし、ネットワークも圧倒的に速い。並行性に制限もないし、全部GitHub actionsの半額や。マジで言うてるで。

ちょっとイカれてるよな。ビルドを待つのに疲れたら、今日soyv.link/depoでチェックしてみてや。

これらのモデルの正体は何なのか

最初に間違いなく持つ疑問は、一体これらのモデルは何なんやってことやろ？Horizonって誰なん？最初に言ったように、これらはOpen Router経由でのみドロップされた匿名モデルなんや。Open Routerに行ってみると、これは様々なモデル間でトラフィックをルーティングする素晴らしい方法なんやけど、T3 chatでもめっちゃ使ってる。このサイトで現在利用可能な新しいHorizon betaモデルが見れるで。

Horizon Alphaモデルもあって、消える前に何回かテストを実行できたんや。もう利用できへんけどな。その時は楽しかったで。いくつかテストも取れたし、何をしたかも説明する。でもHorizon betaはまだ現在利用可能や。

それでも、誰がホストしてるかは分からん。使用する時にあなたのデータが訓練に使われるし、いつ消えるかも分からん。だから試したいなら、今が試す時やで。すごく短い時間で、これはもう利用できへんくなる可能性が高いからな。チャットインターフェースで試したいなら、世界最高のやつがそれを利用可能にしてる。T3 Chatや。

これを構築するのにめっちゃ労力をかけたんや。ここで見れるように、うちらはすでにHorizon alphaとbetaモデル、それに他の合理的に試したいと思う全てのモデルをサポートしてる。月8ドルは安いけど、これらのモデルは無料や。無料ティアに入れたいんやけど、そうしたらほぼ即座にヒットするレート制限があるんや。

代わりに割引コードを提供するで。過去にT3 Chatにサブスクライブしたことがなくて、これらのモデルを試してみたいなら、チェックアウト時にクーポンコードHorizonを使って今すぐサブスクライブすれば、最初の月がたった1ドルになるで。

前に言ったように、これらのモデルをめっちゃ試してるんや。最初にやるタスクの1つは、モデルにスケートボードについて聞くことなんや。この360フリップの歴史について聞くことで、どんな風に話すか、どう動作するかの良いアイデアが得られたんや。もっと重要なのは、これが推論モデルやないってことや。Horizon AlphaかBetaで実行すると、推論期間がないのが分かる。隠れた推論も進行してへん。なぜなら、ほぼ即座に応答を開始するからや。

今送信したところで、もう応答が来てる。生成がめっちゃ速いんや。実際にT3 chatでナード用統計をオンにしてるんやけど、これは生成が実際にどんだけ速く来たかを見るのに超便利な設定や。これらのモデルがほとんどの生成で90から125トークン毎秒の間やってことが分かるで。これは108やった。これは92くらいやった。本当に速いモデルやで。

これらのモデルがどこから来たのかを解明しようとしてるんやけど、色んな方法がある。一番よくあるのは単純に聞くことや。Horizon alphaかbetaに、何のモデルで誰が訓練したのかを聞いたら、システムプロンプトがうちらが提供した情報を使うように指示するやろう。T3 chatでは、完璧な答えにはならん。うちらのシステムプロンプトに誘導された答えになる。

システムプロンプトが少ないものを使って直接聞いた時、あなたは何？誰があなたを訓練した？って聞くと、Horizon AlphaはOpenAIモデルやと思ってるみたいや。Horizon betaは単に未知のプロバイダーからのHorizon Betaやって言うだけで、詳細はない。

これはめっちゃ興味深い応答のセットで、これを見ると明らかにこれはOpenAIやって思うかもしれん。でも実際はそう確信してへんのや。過去にDeepSeekモデルみたいな特定のモデルにどのプロバイダーから来たかを聞いた時、OpenAIによって生成されたデータで訓練されてたから、OpenAIって答えてたことがあるんや。

だからこれは実際には本当の情報を与えてくれへん。さらに興味深いニュースは、人々がモデルからのトークン化を分析してることや。これはテキストを処理に使われる異なるトークンにどう分解するかってことやな。OpenAIは歴史を通してトークン化のやり方を何回か変えてるけど、大体2世代に1回くらいや。

ここで見れるのは、GPT-4o、4.1 Mini、Nanoが全て同じ入力を全く同じトークン数にしてることや。でもこの新しいHorizon Alphaモデルは、この特に奇妙なノイジーな入力に基づいて1つ少ないトークンになってる。だからそこの違いは、特にQwenモデルも334トークンとして検出したから、めっちゃ興味深いんや。だからこれはQwenモデルの可能性が十分ある。

でも、テストして遊んでる他の色々なことから、そうやとは思えへんのや。でも今の全ての兆候は、どのモデルなのかを知るのがちょっと難しいことを示してる。だから、これがGPT-5や新しいOpenAIオープンモデルやとか、もしかしたら新しいClaude 5やとか保証してる人はいるけど、実際には誰もこのモデルが何なのかを知らん。このモデルが何なのかは分からへんのや。

でも、このモデルがボールテストを完全に破壊するほど本当に良いってことは知ってる。今まで見た中で最高の六角ボールデモの1つやで。これは1つのプロンプトで作られた完全な本物のWebアプリで、大量の異なるカスタマイズと設定を提供してくれて、Webアプリとしてめっちゃ良く見える。これには本当に感動したわ。

Flaviaが興味深い色んな比較をやってくれた。Horizon AlphaとBetaでペリカンテストでの奇妙なほどの良さを示してくれたんや。ペリカンテストは、AIモデルに自転車に乗るペリカンのSVGを作るように指示することや。これはめっちゃ興味深いテストで、多くの空間認識能力、SVG内の奇妙な癖への対応能力、そしてペリカンっていうちょっと変な鳥を作る能力が必要やからな。ペリカンは変な特徴を持ってるからや。

ペリカンは変な鳥やで。ここでHorizon Alphaの結果を他のモデル、推論モデルとも比較すると、実際にかなり良いパフォーマンスを示してる。今まで見た中で最高のペリカンの1つや。一般的にSVGがめっちゃ得意みたいやな。これはR2-D2、C-3PO、それにスターウォーズの他のいくつかのものを生成するように指示した時に起こることや。

だから、個人的に見たことがない方法でSVGが得意なんやけど、本当に優秀なのはスタイリングや。Horizon AlphaとBetaで作ったこの2つの例は、出力の品質で本当にぶっ飛ばされてるで。これらはもちろんcursorを使って作ったんやけど、見た目ほどスムーズに生成されたわけやない。

Cursorでの実装とその課題

Cursorにいくつかのハックでモデルを追加したんや。CursorにOpenAIモデルやと思わせといて、リクエストを送る別のエンドポイントを与えるんや。Open Routerサイトにこれをやる方法の小さなガイドがある。面白いことにKimmy用やけど、代わりにこれらのモデルに使ってるんや。うまく動いてるで。

今話してることを簡単にデモするために、同じプロンプトを貼り付けるで。このアプリは様々なAIモデルを使ってプロンプトを画像に変換する画像生成スタジオになる予定や。モック版をデザインしてくれ。ダークモードにして。美しく作ることに焦点を当ててくれ。

これをHorizon Alphaに与えると、最初にやることは、あ、実際今回は違う動作をしてるな。最初の何回か試した時は、TODOリストを一番上に作ってくれたんや。毎回このTODOリストを作って、UIの大部分を生成してから、このエラーが出るんや。モデルプロバイダーへの接続に問題が発生してるって。MCPサーバーをオフにするように言われたから、そうした。MCPサーバーをオフにした後も、同じ問題が続いたんや。

また、推論モデルやないから、すぐに始まるのも分かるやろう。推論がオンやったのは間違いやったみたいで、ほぼ即座にオフにされたけど、alphaで推論が動作してた短い瞬間があったんや。これは両方をやる能力があるってことを意味してる。

見てる大部分のテストと共有してる特徴の大部分は、非推論版でのものや。実装側のエラーで30分くらいしか推論できへんかったからな。今回はエラーが出なかった。良かったで。新しい生成やから、どう出るか見てみよう。

cursorで何かがめっちゃ間違ったけど、これがその試行で生成されたやつや。それでも試してた他の多くのモデルで見てたものより大幅に良く見える。戻って、みんなに俺が対処してる変なことを見せたいから、もう一回試してみるで。また試してみる。

今度はhorizon betaでやってみる。今のところこっちの方が安定してるみたいやからな。betaでもう一回試してみよう。ほら、最初にやることはTODOリストを作ることや。cursor内でこれを最初のステップとしてやる他のモデルは見たことない。これはcloud codeみたいなもので見た動作やけど、cursorがこれをやるのは見たことないから、特別な動作があるのが変やな。

でもこれらは全てcursorによってモデルに提供されるツールなだけや。そのツールを最初に使いたがるだけみたいやな。前に言ったように、実際の生成はめっちゃ速いんやけど、ほぼ即座にエラーを投げる。だから、そのTODOリストの残りは実行されへんけど、良いスタート地点は作ってくれる。

もう一回戻ってみると、見事やな。グラデーションがめっちゃ得意なんや。これは他のモデルがうまくやるのを見たことがないことや。比較のために、Kimmy K2版と比べると、良いグラデーションはあるけど、煩わしいTailwindの青いスレート色を使いすぎてる。あんまり好きやない。

それから、Claude Force Sonnetでやったやつは、Claude Forceで作られた感じや。角の丸いところが多くて、物の間に大きなスペースとパディングが多い。悪くはないけど、これはお勧めしないな。

それから、Claude 4 Opus版は生成するのに高かったんや。これを使い続けてたら月の制限をすぐに超えるって警告がcursorで出たで。これは超ダサい、Claudeの代表的なボタンや。この特定のピンクがかった紫から赤のパターンがある時は、これで作られたって分かるようなスクリーンショットを投稿したくなるほどや。そのイタいグラデーションはめっちゃClaude特有のもんや。

それから、最初にやったHorizon Alpha版は、はるかに良いグラデーションがある。ここでも、生成ボタンのグラデーションが左上から右下に向かってるのが見える。色は大体同じやのに、大幅に良く見える。単純にセンスがあるんや。

それから、Horizon beta版はピンクと紫を使わなかった唯一のやつや。なぜか青と緑を使った。これもめっちゃ良く見える。上品なグラデーションバックブラードロップレットのものが、前にはなかった存在感を与えてる。これら全部が全く同じプロンプトで、全く同じスタート地点から始まってるんや。だから、この品質の差のレベルはちょっとイカれてる。

本当にめっちゃ感動してるわ。でも、このモデルが何なのかをまだ解明したいんや。だから、もっと色々見ていこう。

スケートボードテストと他のモデルとの比較

前にスケートボードについて質問したって言ったな。360フリップの歴史について聞いた時、めっちゃ良い答えをもらったんや。これは俺の好きなトリックの1つやからな。これについて聞く時にいつもチェックすることの1つは、Jason Leeが出てくるかどうかや。彼がこのトリックを本当に広めた人やからな。

スケートボードの歴史的記述の多くで、Jason Leeは彼がそうあるべきよりももうちょっと飛ばされがちや。でも彼は本当にこのトリックをストリートに持ち込んで、今あるように人気にした人で、今日でも最高の360フリップをする人や。だから彼が出てくることを確認するのはめっちゃ楽しいテストなんや。

Kimmy K2みたいな他のモデルと比較すると、彼みたいな人が出てくる可能性はずっと低い。ここではNatisとMark Gonzalezに功績を与えてるけど、どちらも実際には360フリップをしてへんかった。2人とも360フリップを広めたJason Leeととても親しかったんや。だから彼がその2人の後に出てくるのを見るのは変やな。これは最高の再話やない。

中国のモデルは歴史的にスケートボードのことでめっちゃ苦労してる。また、起こってへんトリックで2021年オリンピックを引用して、トリックの世界的地位を確固たるものにしたって言うのは面白いな。360フリップはキックフリップ以外で最も象徴的なスケートトリックや。だから、中国のモデルはこれが得意やない。

他のモデルと比較してみよう。同じプロンプトをGPT-4.1に与えた結果がこれや。スタイルが実際にめっちゃ似てるのに気づくやろう。起源、初期の普及、洗練と象徴的な実行、バリエーションと分岐の内訳の仕方とかな。これらを順番に見ていこう。起源は両方で同じ、起源と革新対起源。その直後の箇条書き、初期の普及対初期の出現が似てる、洗練と象徴的な実行。

普及がその部分を置き換えてる。同じ違いや。モダンエラのバリエーションと分岐。だから1対1ではなくなるけど、フォーマットと組織の仕方がめっちゃ似てる感じがする。例えば、O4 Miniと比較すると、めっちゃ違う。実際に箇条書きのタイプが異なるサブ箇条書きがある番号リストが出る。

今まで見た中で最高にフォーマットされたものやない。そして違うんや。もちろん、推論もあった。これはずっと臨床的や。Horizonはもうちょっと少ないみたいや。話すのがもうちょっと親しみやすい。これは推論との違いかもしれん。伝統的に、推論モデルは最も楽しく相互作用するものやないけど、ずっと賢くて質問により良い答えをくれる。

出力は臨床的になりがちなだけや。Claude Force Sonnetと比較してみよう。より1対1の比較にするために、意図的に推論なしのClaude Force Sonnetを使った。構造のされ方がめっちゃ違う。それから、Horizon Alphaがある。これはHorizonモデルの他のバージョンや。再び、GPT 4.1にもHorizon Betaにもめっちゃ似てる。

Horizon Alphaでもう一回。同じ違いや。Qwenっていう理論やったから、Qwenモデルのいくつかで試してみよう。Qwen 3 32 billを試してみる。なんでやめへんの？これは推論モデルや。起源と発展、文化的影響、主要なポイント。興味深いな。だから、これはかなり違って出た。かなり速く出たけど、それは主にGroq with a Qを全てのインファレンスプロバイダーに使ってるからや。

めっちゃ良く出たけどな。360はMike Valleyに広く帰属される。いや、絶対に違う。それは嘘や。だから、再び中国のモデルはスケートボードの歴史について良くない。

これが実際に新しいベンチマーク、Skate Benchを作った理由や。説明を与えられた時に異なるモデルがどんだけ良くスケートトリックを名前付けできるかを比較するんや。中国のモデルは基本的にこのテストで0点を取る傾向があるのに対して、OpenAI O3とO3 Proモデルはめっちゃ良いスコアを取るのが分かる。Horizon AlphaとBetaの数字はこれに追加してへんけど、実行はしたで。20%くらいのスコアやったから、Grok 3 MiniとGPT-4oの間くらいに落ちた。

これまでに分かったことのまとめ

だから、今まで分かってることを整理しよう。匿名モデルやから、実際にはどこから来たのかの公式な答えはない。トークン化がQwenと一致する。これは変な詳細やけど、注目する価値がある。非推論モデルやけど、Alphaはごく短時間推論があった。恐らくエラーとしてな。明らかに、基盤のモデルはそれをサポートできるか、そのエラーは起こってへんかったやろう。

でも非推論モデルとして出してるのは絶対に注目すべきことやし、バグのせいで短時間推論ができたってことも同様や。UIやSVGなどがめっちゃ得意や。ツール呼び出しもかなり得意や。誰も本当に大きなツール呼び出しベンチマークを実行してへんから確実には分からんけどな。SnitchBenchに対して実行したら、かなり良いパフォーマンスを示した。ほとんど全然密告せえへんかった。boldlyプロンプトで10%、tamelyプロンプトで0%やったと思う。かなり良い結果やったで。

保存してへんかったのは、色んな異なることをテストしてて結果を失ったからや。alphaが今めっちゃレート制限されてて、ユーザーが代わりにT3 chatを使えるのに、レート制限を燃やしたくないからもう一回テストできへんのや。

SnitchBenchはトークン使用量的にもめっちゃ飢えたベンチマークやし、違法かもしれんことをやってるってLLMプロバイダーから警告をもらう可能性もある。それがベンチマークのポイントやからな。とにかく、計画するのがめっちゃ好きや。だから、TODOリストツールみたいな計画用のツールを与えられると、プロセスの本当に早い段階でそれを積極的に使う。

何をやってるかとなぜやってるかを説明するのも好きや。かなり速い。本当のインファレンスで提供された時にどうパフォーマンスするかは分からんから、めっちゃ速いとは言わんけど、125トークン毎秒くらいや。まあ、110くらいって言う方が快適やな。今までのテストの平均がそのくらいやから。

面白いことに、モデルは色んな異なるベンチマークでそんなにベンチが良くないみたいや。推論モデルやのに推論へのアクセスが与えられてへんからかもしれんし、モデルがめっちゃ小さいからかもしれん。色んな異なることが考えられる。これがOpenAIの小さなモデルやっていう理論がいろいろある。でも、このモデルは違うし、めっちゃ興味深いから、それを買うかは分からん。

数学はまだあんまり得意やない。ここで見れるように、Llama 4 Maverickより悪いパフォーマンスを示してるし、O3 Mini Highみたいなもの、ましてやO4 Miniと比べると滑稽なほど悪い。だから、色んな異なるベンチマークで素晴らしいパフォーマンスやない。

GPT-5がこっそりリリースされた？史上最高のコードモデルHorizonが登場でも正直、これらのタイプのベンチマークの価値の終わりに近づいてると思う。実生活での俺の経験を反映してへんからな。例えば、artificial analysisを見ると、Claude 4 Opus thinkingがGemini 2.5 flash reasoningより悪いパフォーマンスを示してるのが分かる。実際の仕事でコードを書くためにどちらかのモデルを使ったことがあるなら、SonnetもOpusも明らかにこれらのテストでそれらより良いパフォーマンスを示してる何よりもコード書きが大幅に良いってことを知ってるやろう。

live codebenchベンチマークを見ても、claude 4 sonnetとopusの両方が大量の他のものより大幅に悪いパフォーマンスを示してるとされてるけど、これは俺のIRL経験と一致せえへん。Scodeみたいなもので似たような結果が見れるで。Claude 4モデルはO4 MiniやGrokほど良いパフォーマンスを示さへん。

でもそれは現実やない。これらはベンチマークで、これらのベンチマークは日常使用でこれらのモデルがどんだけ良いかを本当に示してへんみたいや。正直な推測では、彼らがHorizonをこれらのベンチマークに載せたら、数字的にはさらに悪いパフォーマンスを示すやろう。でも再び、それを使って遊んだ俺の実体験からすると、唯一の問題は最初のTODOが完了した後に失敗することや。再び、cursorでやってるopen routerハックの動作に何かあるからやけど、それでもめっちゃ良い仕事をしてる。

得られてる結果はマジで見事なんや。これら2つのオプションがどんだけ良いか、まだ驚きから立ち直れへん。サイドでやってる新しい画像生成スタジオの作業をしてるんや。だからこれを思いついたんや。このタイプの製品で良く見えるものをモデルがどんだけ良く生成できるかを見るテストとして使ったんや。両方とも俺が手で作ったものよりも大幅に良くやった。

他の匿名モデルとの関連性

注目すべき他のことの1つは、匿名モデルが今ドロップされてる他の場所があるってことや。現在Elmarinでライブなモデルがあって、Lobsterって呼ばれてる。実際には何なのかは分からん。これらのテストをやってたLanは、これがGPT-5やって主張してる。そうは思わん。もっと重要なのは、やってることから現在遊んでるHorizonモデルにめっちゃ似てるみたいやってことや。

ここで見てる生成はLobsterによって生成されたものやない。これはGrok 4によって生成されたもので、これが一番賢くて最高のモデルやとされてる。比較すると、これがLobsterによって生成されたものや。ちょっと良いってことで合意できると思う。

これが同じモデルやって確信する理由は、右下の青と左上の紫が背景でめっちゃフェードアウトしてるコーナーフェードドットスタイルグラデーションのやり方や。これはこのモデルがやりたがる特徴的なことみたいや。上の青のフェードと下の緑のフェードがある、ここでもめっちゃ似たようなことが見れる。この真っ黒なUIの上の紫のライトフェードでも見れる。

モデルに深く焼き込まれてるスタイルみたいや。Tailwindを与えてるんや。だからTailwindでこの生成をやってるけど、めっちゃ良く見える。これを出荷するか、ちょっと整理してすぐ後に出荷するで。ぶっ飛ばされてるわ。だから、Lobsterと同じモデルの可能性が高い。

他の要点は何やろう？今は無料や。すぐに消えるから、ASAPで試してくれ。恐らくあなたのデータで訓練してる。誰もこんな良いものを無料で出さへん。これを作った人は誰でも、作ったものの反応を見たがってるんや。Open Routerに無料でこういう風に置いたのは、俺らみたいな人が試して、遊んで、何が良くて何が悪いかを見て、体験を共有して、彼らが入力と出力を見て、何が良くて何が良くないかを見ることができるようにするためや。

だからalphaからbetaにこんなに速く移ったんや。明らかに全体を通して調整を加えてる。alphaバージョンが20 billみたいな低パラメータバージョンで、betaバージョンが120 billの高いバージョンやっていう理論もある。でも繰り返すけど、確実には分からん。ランダムなAPIエンドポイントを叩いて、今まで見たことがないほど高品質なコンテンツを返してもらってるだけやから、ほとんど何も分からん。

仮定の話やけど、これは部屋に座ってる1人の男がめっちゃ速く応答をタイピングしてることである可能性もある。それでも、現実的に考えなあかんし、現実的に言うと、これらの出力はランダムなクソになるには良すぎる。これは恐らく大きなラボで、恐らく近い将来にドロップされる何かをテストしてるんやろう。ぶっ飛ばされてるわ。

このモデルで遊ぶことを強くお勧めする。cursorの設定をいじくってやることはお勧めせえへん。だから、open routerキーでうまく動くAIコード生成ツールが他にもあるなら、それらを試してみてくれ。恐らくジャンクが少なくて、めっちゃ良い結果が得られるやろうから。

正直、このモデルとその能力をテストする一番簡単な方法はT3 chatになると思う。標準のHTMLボディで応答するように指示した。JSやCSSは含めるな。Tailwindを使え。HTMLコードブロックで出力を3つのバックテキストでマークダウン形式で囲めって。

だから今この出力をくれてる。まだ生成中や。めっちゃ速いけど、生成しなあかんテキストが大量にある。準備できたらTailwindプレイグラウンドにコピペするんや。

今回はちょっと遅かった。前回は160トークン毎秒まで行けたのに、今回は80しかやった。明らかに彼らのインフラが今めっちゃ叩かれてる。プレイグラウンドに戻る。お、めっちゃ良く見えるな。俺のアプリのシステムプロンプトにあるからT3を使ってる。悪くないな。

この1つの良く見えるホームページだけやけど、ここでダークモード対ライトモードをうまく処理してへん。ダークモードをやろうとしてると思うけど、標準CSSを編集する能力がないから、ページの背景色を設定できへん。代わりに、これが得られるものや。

それでもめっちゃ良いし、これらのタイプのことをやるのにどんだけ良いかの感覚は得られる。マジで感動してるわ。みんながコメントでどう思うか教えてくれ。この謎の匿名モデルを過大評価してるのか、それとも実際にめっちゃ良いのか？最低でも、来週は色んなクレイジーなドロップが起こってめっちゃエキサイティングな週になるって分かる。

これが俺らがめっちゃ近いうちにもっと多くを見ることになるクレイジーなもんやないわけがない。早い段階での情報提供を評価してくれることを望むし、まだやってへんなら遊ぶ機会を得られることを望む。みんながどう思うか教えてくれ。次回まで、平和やで、ナードども。