Grok 4.2は恐ろしく優秀になる(Sonoma Sky)

イーロンマスク・テスラ・xAI
この記事は約9分で読めます。

この動画では、Open Router上に登場したステルスモデル「Sonoma Sky Alpha」について詳しく解説している。このモデルは200万トークンという最大級のコンテキスト窓を持ち、外交ゲームやコーディングタスクで優秀な性能を示している。分析の結果、このモデルはxAIのGrok 4.2である可能性が高いことが判明した。また、Grok Code Fast Oneというコーディング特化モデルも紹介され、その高速性と低コストが注目されている。xAIは巨大なコンピュートクラスターを活用してこれらのモデルを訓練しており、AI業界での急速な台頭を見せている。

Grok 4.2 Will be Scary Good (Sonoma Sky)
Shownotes: out "Vibe Coding" Interview: latest AI News. Learn a...

新たなステルスモデルSonoma Sky Alphaの登場

Open Routerに新しいステルスモデルが登場しました。Sonoma Sky Alphaと呼ばれるこのモデルについて知っておくべき点をお話しします。

第一に、これは200万トークンのコンテキスト窓を持つモデルで、これまでのフロンティア研究所の中で最大級のものです。参考として、Google Gemini 2.5 Proは100万、GPT 4.1は特定の使用例で100万でした。もっと大きなものもありますが、それらはプロトタイプです。私たちが聞いたことのあるボトルネックのあるものではありません。参考までに、GPT-5は25万6千ですが、こちらは200万で、拡張版NYTコネクションベンチマークで非常に良い成果を出しています。どうやら外交ゲームでも非常に優秀なようです。

こちらはAtのアレックス・ダフィーさんからの情報です。彼らはもちろん外交ゲームを持っていて、すべてのLLMを外交ゲームで対戦させて、どれが最も優秀かを確認しています。どうやらこのモデルは非常に優秀で、最高のベースライン外交性能を持っているとのことです。非常に制御しやすいモデルでもあります。

少し見づらいかもしれませんが、左側にo3アグレッシブ、次にSonoma Skyアグレッシブ、そしてSonoma Skyが続きます。少し下の方にはGPT-5ミニマルアグレッシブ、Gemini 2.5 Flashアグレッシブがあります。要点は、このモデルは箱から出してすぐに非常に優秀だということです。先ほども申し上げたように、最高のベースライン設定を持っています。より攻撃的にしたり、攻撃性を下げたりするチューニングなしで、他のすべてのモデルのベースラインと比べて最高の性能を示しています。

箱から出してすぐに相手の顔を見て嘘をつくのが得意だということです。冗談ですが。外交は嘘をつく能力だけではありません。それよりもずっと複雑です。ただし、確実に騙しの要素もありますし、他人があなたを裏切る可能性を予測することも含まれます。全体的に、かなり良いベンチマークで、このモデルは最初から信じられないほど良い性能を発揮します。

モデルの性能評価と特徴

ジェイコブ・マトソンがこのモデルを試してみたと言っています。要約すると、Sonoma Skyは非常に優秀で、とても正確で、使用するトークン数が非常に少なく、高速で、試した多くの人が極めて印象深いと感じています。このWebアプリは48秒で生成されました。DNAシーケンス解析器は主観的に10点満点、コーディング指導者として優秀です。

レスポンスは長く、包括的で、しっかりとした根拠があり、時間を無駄にしません。素晴らしいです。別の人の独自のベンチマークでは、GPT-5を2〜3%の僅差で上回ったと言っています。

2つのバリアントがあります。メインモデルのように聞こえるSonoma Sky Alphaと、より小さなモデルで恐らくずっと高速なDuskがあります。彼らは言っています、速度やパフォーマンスを犠牲にすることなく200万トークンという巨大なコンテキスト窓を提供するのは簡単な偉業ではないと。

つまり、同じように高速で、非常に優秀に聞こえます。現在利用可能な最高のモデルの一部より優れています。これは一体何でしょうか?Gemini 3でしょうか?あらゆる情報から判断すると、これはHex AI、つまりGrokのようです。

Grokモデルであることの証拠

Ply the LiberatorからGrok 4.2確認済みとの情報です。SonomaはGrokで、GrokはSonomaです。ちなみに、これはこのSonomaからの1つのレスポンンスだけではありません。Plyや他の人からの多数の手がかりがあり、これが確実にGrokであることを確認しているように思われます。なぜそうなのかをすぐにお見せします。

Plyがここに置いているように、この出力は私の主要な法医学調査、Unicode識別を単に確認しただけです。Grokは、このような見えないUnicodeを長い推論なしに読むことができる主要研究所の唯一のLMです。

そして、Sonomaモデルは、Grokとまったく同じ容易さでそれを処理することが判明しました。下でご覧いただけるように、GPT-5やOpus 4.1のような最先端モデルは、プロンプトを見ることさえできません。

単語や文の多様性、彼らが使用するさまざまな構造、さまざまなスタイルに基づいて、どのモデルがどれかを判別する方法があります。例えば、このベンチマークでは、LMごとに400のストーリーがスタイルの指紋とストーリーの多様性について分析されました。モデルがどのように書くか、出力がどのように違うかを見るのです。GPT-5が勝者です。

しかし、モデル間の記述の多様性をチェックするためにこの分析を実行すると、ステルス200万コンテキスト窓モデルSonoma Sky Alphaが何のモデルかが100%明らかになります。それは4.1または5という名前になるでしょうか?それがあなたのヒントです。

つまり、これは基本的にAnthropicである可能性があることを言っています。彼らは4.1を持っているからです。Geminiではありません。まだGemini 3をリリースしていないからです。GPTでもありません。彼らは4.1と5を持っているからです。唯一可能性があるのはxAIですが、下の誰かが指摘しているように、4.2オプションはありません。基本的に、それはElon(イーロン・マスク)が次のバージョンとして発表したもので、4.2だと私は信じています。

xAIの巨大コンピュートクラスターと訓練

xAIとGrokについて興味深いのは、世界中にある世界最強のコンピュートクラスターを見てみると、その中の1つが他より圧倒的に大きいということです。それがXi Colossus Memphis Phase 2です。最初はPhase 1から始まって、H100相当が10万基、そして現在はH100相当が20万基になっています。

それはNvidiaのGPUチップです。ちなみに、これはTeslaが持っているものは含んでいません。これは単にxAIだけです。これがこれらのモデルの訓練に使用されているものです。そして、そのすべてのパワーがこれらのモデルの訓練に向けられています。そして、その多くが推論、強化学習の側面に焦点を当てているようです。

ですから、私たちはそのRL(強化学習)コンピュートを、問題を解決し、それらの問題を解決するための独自の認知戦略を開発する推論能力に向けています。だからこそ、Grokの次の進化段階を見ることがとても重要になるのです。

Grok Code Fast Oneの成功

最近、xAIはGrok Code Fast Oneをリリースしました。それはステルスモデル訓練でSonicとして登場しました。Sonicがあちこちに登場した後、Grok Code Fast Oneがリリースされ、Open Routerで52.1%のコーディングトラフィックシェアで速やかに支配的地位に着き、他のすべてのコードジェネレーターの合計を上回り、史上最高の使用記録を達成しました。

これは2025年9月1日時点でのことです。ご覧いただけるように、これはかなりの偉業です。GuiliangがGrok Code Fast Oneを彼のコーディング評価セットでテストしたところ、恐らく小さなサイズを考慮すると驚くほど非常に強いパフォーマンスだと言っています。非常に、非常に高速です。

ここでご覧いただけるように、確かにトップにはClaude Opus 4があり、Claude Sonnet、Grok 4もそこにあります。しかし、これらはすべて非常に大きなモデル、非常に高価なモデルです。Grok Code Fast Oneは超高速で超安価です。

これをまとめてくれたZu Leangに感謝します。彼は評価がどのように行われたかについて基本的に話すブログ投稿も持っています。しかし、ここに異なるモデルとそのコストの素晴らしい比較があります。

GPT 4.1は入力価格が100万トークンあたり2ドルです。出力価格は100万トークンあたり8ドルです。Gemini 2.5 Proは入力では少し安く、出力では少し高いです。しかし、Grok Code Fast Oneは入力で100万トークンあたり20セント、出力で100万トークンあたり1.50ドルです。Gemini 2.5 Proの10分の1のコストです。

Gemini 2.5 Flashと比較しても、まだ安いです。Gemini 2.5 Flashの入力価格は30セント、出力は250セントです。つまり、Open Routerの誰もが愛用している非常に堅実で、安価で、良いモデルです。

Grok 4.2への期待

ですから、Grok 4.2(私たちはそう呼ばれると推測しています)がどのようになるかを見るのが非常に興味深いでしょう。それは変わるかもしれませんが、そう呼ばれるように思われます。それがどのように見えるかを見るのは非常に興味深いでしょう。どれくらい優秀になるのでしょうか?つまり、これらの初期プレビューで少し味わうことができます。

Denny Lancettaは様々なGrokモデルを使って多くのゲームを作っています。最近、彼は新しいSonic Grok Code Fast Oneモデルを使ってこれを作りました。かなりクールです。つまり、良く見えます。良いモバイルゲームのように見えます。App Storeで見つけられるようなものです。印象的だと言わざるを得ません。

ここに、秒あたりトークン数対出力価格の様々なモデルのチャートがあります。基本的に、高速で安価です。ですから、このモデルの大きなポイントは、一般的なコーディングタスクを迅速かつ費用対効果的に処理することです。

コーディングの多くを1つのモデルだけで行うことはおそらくないでしょう。非常に正確で、考慮が必要なことがあります。しかし、ただ完了する必要がある非常にシンプルなことがたくさんあり、このようなモデルが輝くでしょう。高速で、安価で、正確になるでしょう。

最も複雑なタスクには使わないかもしれませんが、非常に安価で多くの出力を行う勤勉な働き手になるでしょう。

ちなみに、私の他のチャンネル、Wes and Dylanポッドキャストで、リリースされているゲームも作っているDenny Lamettaのパートナーにインタビューしました。それらのいくつかは今、App Storeにあります。それらのゲームはAIモデルで作られていると信じています。Grokのように、彼らのどちらも開発者ではないので、自分でコードを書きません。これらのモデルを使ってゲームを作っています。

これを見る頃には、完全なインタビューがライブになっているはずです。ショーノートに載せておきます。そして、これについてどう思うか教えてください。Grokの新しいイテレーションについて興奮していますか?Fast One、Grok Code Fast Oneを試す機会はありましたか?私はただSonicと呼びたいです。とても簡単だからです。

しかし、これについてどう思うか教えてください。xAIがここでかなり勢いよく雪だるま式に成長し始めると思いますか?なぜなら、覚えておいてください、そんなに昔ではないのにチャートにさえ載っていませんでした。今やトップに向かって轟音を立てています。

ここまで見てくれた方は、どう思うか教えてください。私の名前はWes Robです。ご視聴いただき、ありがとうございました。次回でお会いしましょう。

コメント

タイトルとURLをコピーしました