これらは僕の新しいお気に入りモデルになるかもしれへん(Grok 4 Fastを見過ごしたらあかんで)

イーロンマスク・テスラ・xAI
この記事は約26分で読めます。

この動画は、xAIが新たにリリースしたGrok 4 Fastについての詳細なレビューである。従来のGrok 4の47分の1という破格のコストでありながら、GPT-4oやClaude 3.5 Sonnetに匹敵する性能を発揮する驚異的なコストパフォーマンスを実現している。特に検索機能やツール利用において優秀な結果を示し、推論と非推論を統合したアーキテクチャを採用している。一方で、SnitchBenchでは問題のある結果も示しており、総合的にはAI業界において非常に競争力のあるモデルとして評価されている。

These might be my new favorite models (don’t sleep on Grok 4 Fast)
xAi just dropped Grok 4 fast and it is SO much better then Grok 4...Thank you WorkOS for sponsoring! Check them out at: ...

新たなモデル動画についての謝罪とxAIへの評価転換

また別のモデル動画やけど、ちょっと聞いてくれや。わしはxAIとGrokに褒め言葉を送るのが嫌いやった。これまで何回も言うてきたことや。けど正直に言うたら、わしがxAIをからかうのが好きやったとしても、彼らは本当にわしが他の研究所にやってほしいことをちゃんとやってくれとる。

Artificial Analysisと連携したり、匿名の名前で早期にモデルを公開して人々が事前に試せるようにしたり、ツールに素早く組み込んだり、実際にわしらが見るのに役立つデータと一緒に全部まとめたりしてる。このロールアウトのやり方にはほんまに感心したし、モデルの品質にもかなり感動してる。これらのベンチマークが本当に素晴らしくなってて、GPT-4oのようなものと比べても本当に良いパフォーマンスを出してるし、めちゃくちゃ速い。

このモデルはほんまに飛ぶように速いんや。素晴らしいことやで。めちゃくちゃ安くて、標準のGrok 4より47倍も安い。確かにGrok 4は高すぎたんやけど、ここでGrok 4 Fastで得られるコストパフォーマンスは本当に理解し難いレベルやで。これは適当な人が作った数字やない。これは公式のArtificial Intelligence Indexが出した、ベンチマークを実行するのにかかった費用の話で、各トークンのコストの話やない。

WorkOSスポンサーセグメント

彼らはここで全て正しいことをやってるし、わしはそれについてかなり厳しい目で見てる。間違ってることもあるし、いつものことやけどな。彼らはSnitchBenchで画期的なスコアを出してて、基本的に適切なシナリオで政府に通報することを保証してる。とは言うても、わしは本当に感心してるし、何が印象的なのか、何が正しくて何が間違ってるのか、他に何があるのかなど、もっと詳しく説明したい。

でも、皆も知っての通り、わしはTwitterからそんなに良い給料もらってないし、xAIからは確実に給料もらってない。せやから今日のスポンサーからの一言のために少し休憩して、それから本題に入ろう。

ちょっと質問があるんや。もしMicrosoftが今日あんたの会社に連絡してきて「うちらはあんたらのソフトウェアを使うために年間100万ドル払いたい」って言うたら、実際に彼らをセットアップできるか?SAML、Okta、LDAP、SSOや彼らのクソみたいなもの全部で彼らをサインインさせるのに必要な部品を全部持ってるか?彼らのエンタープライズ関連のものがあんたのサービスと連携するために、彼らが欲しがって期待するものを持ってるか?

わしが期待してる答えは2つしかない。1つ目は「いや、でも取り組むで」。2つ目は「はい、なぜなら今日のスポンサーであるWorkOSを使ってるから」や。

この人たちはエンタープライズがOAuth(オース)に何を必要としてるかを理解してるし、わしらが開発者として実際に良いプラットフォームを構築するために期待することも理解してる。開発者体験も良いし、エンタープライズのオンボーディング体験はもっと良い。

大手企業はこういうことを自分たちで設定してると思うやろうし、なんでそう思うかも分かる。自分で設定せなあかん色んなアイデンティティプロバイダーのリストを見たら、実際には誰ももうこれを自分でやってないってことが分かるで。まあ、OpenAIやAnthropic、Plaid、Vercelみたいな大企業は全部自分らで認証をロールして、これを自分で設定するんやろうな?えーっと、実はわしはこれらの名前を全部彼らのホームページの顧客リストから拾ってきたんや。

開発者としてOpenAIダッシュボードにサインインするとき、あんたが見てるのはWorkOSを通じた標準的なOktaだけや。これらの企業全部が彼らを選んだ理由があるんや。なぜなら彼らは他の企業に自分らのサービスを使ってもらいたいし、WorkOSがそれを管理する最良の方法やからや。

普通、ホームページの引用セクションってのは痛々しいもんやけど、彼らのサイトの引用が誰から来たかを見たら理解できるで。Sam LambertはTwitterで最も攻撃的な人の一人や。彼に何かを気に入ってもらうのは不可能やで。わしも何回も試して、ほとんど全部後悔した。せやから彼が出てきて、WorkOSは彼のエンジニア全員によると素晴らしいって言うたら、本気で言うてるんや。

大企業があんたに連絡してきて今度は慌てふためくまで待ったらあかん。今日動け。わしらも今まさにそれをやってる。今すぐsoy.link/workosでチェックしてくれ。

Grok 4 Fastの概要

Grok 4 Fastって何や?これはコスト効率的な知能の最前線を押し進めてる。これはミニモデルなんや。彼らはそれをそう呼んでない、なぜならミニって言うのはブランディング的にちょっと痛いからや。これは実際にGPT-4o miniにとって本当に悪いことやった。なぜならそれは素晴らしいモデルやのに、人々はミニって書いてあるやつをクリックするのを怖がるんや。本当に良くて本当に速くて、多くの場合使う価値があるのにな。

わしらはGrok 4 Fastを発表することに興奮してる。xAIのGrok 4からの学習に基づいて構築された、コスト効率的推論モデルの最新の進歩や。Grok 4 Fastは例外的なトークン効率で、エンタープライズと消費者ドメインにわたって最前線レベルのパフォーマンスを提供する。このモデルは小さくて速いAIの境界を押し広げて、高品質な推論をより多くのユーザーと開発者にアクセス可能にしてる。

Grok 4 Fastの特徴は最先端のコスト効率性、最新のウェブとX検索機能、200万トークンのコンテキストウィンドウ、そして推論モデルと非推論モデルを1つのモデルに融合した統合アーキテクチャや。

もう一つ言うのが辛いことやけど、Grok 3 Miniは実際に本当に良いモデルやった。超安くて、推論情報をくれて、推論中にツールを呼び出して、それで本当に有用なことができた。全体的にGrok 3 Miniには結構感心してた。せやから新しいバージョンがあるのは実際にワクワクする。

Grok 4はめちゃくちゃ遅くて変で高いから、人間工学的に使うのが不快やったんや。Grok 4 Fastはとても良かった。わしはまだ使い始めたばっかりやけど、しばらくベンチマークを取ってる。

予想通り、わしらはT3チャットに超早く組み込んだ。わしが外出してる間にYoshがこっそり入れてくれた。せやから試してみたかったら、どこでやるのが最適か知ってるやろ。本当に良いモデルで、全体的に本当に効果的みたいや。まだ試してなかったら試す価値がある。わしはとても満足してる。

パフォーマンス評価

けど何にそんなにワクワクしてるんや?このモデルの何が良いんや?明らかに、わしはコスト面で興奮してて、それについてはちょっと後で話す。けどパフォーマンスが全体的に本当に良いんや。時間の経過とともにモデルと技術を改善してきたから、いくつかの点でGrok 4を打ち負かしてる。

明らかに、小さいモデルはGPQA Diamondのように時々負けることもある。少し遅れてる。でもこれらのうちいくつかではGPT-4oと首の差で、それはちょっとクレイジーや。HMMMTではGPT-4o highと同点や。HumanEvalではかなり低いけど、LiveCodeBenchでは80を出してて、これはGPT-4o miniを上回ってるけど、まだGPT-4o highよりは少し遅れてる。

Artificial Analysisの方に行くと、Grok 4 Fastは彼らの測定では最も知的なモデルの一つや。Claude 3.5 Opusより少し知的だとされてて、考えてみたらちょっとワイルドや。けど一方で彼らはClaude 3.5 OpusをGPT-4o-mini-128kより1ポイント上に置いてて、わしの経験ではそれはそんなに良いモデルやない。

せやから、いつものように、わしはこの特定の知能チャートをかなり眉唾で見たい。なぜならそれは最良の測定やないからや。けどGrok 4 Fastがここまで上位にいて、Gemini 2.5 ProやClaude 3.5 Opusと首の差にいるのを見るのはやっぱりクレイジーや。

コスト効率性の驚異的改善

でもわしが見たかったのはこのチャートや。なぜならこの時点でGrok 4がトークン効率的やないことは十分確立されてるからや。このベンチマークを実行するのに業界最高の1億2000万トークンを使ってて、それはちょっと狂ってる。なぜなら次に高いのはGPT-4o-mini-128kで、これは自分で実行できる非常に安いモデルやからや。LlamaやQwenも同じや。出力トークンが見えないモデルの中で最もトークンに飢えたモデルや。

せやから1億2000万トークンに課金されるのに、実際の出力トークンやから数千個しか見えない。それは狂ってる。出力トークンが隠されてる別のモデルであるGemini 2.5 Proまで行かなあかん。その前の全てのモデルとその後のいくつかは、あんたが買ってる全てのトークンをくれる。

同じく出力トークンをくれないGPT-4o highみたいなモデルでも、同じベンチマークを実行するのに使ったのは8700万で、これは新しいGrok 4 Fastモデルと同じや。これはCode Fastとは全然違うもので、ちょっと紛らわしい。Grok 4 Fastは同じベンチを実行するのに6000万トークンしか使わなかった。

とても興味深いことに、特にこのベンチマークでかなり良いパフォーマンスを出したのを見るとな。そして最も重要なチャート。ベンチを実行するのにいくらかかったかや。なぜなら、実際にはベンチマークを実行するコストの新しい業界リーダーがいることを知らなかったから。それはClaude 3.5 Opusで3124ドルかかった。素晴らしい仕事やAnthropic。

次に高かったのは当時業界最高の1888ドルでGrok 4やった。Gemini 2.5は1000ドルかかって、当時は狂ってたけど今はばかげて感じる。GPT-4oは927ドルで大体同じやった。Sonnetはまだ850ドルで超高かった。そしてGLM 4.5が270ドルしかかからなかった大きなドロップオフがある。2.5 Flashは248ドルやった。

ここまで下がったら、Grok Code Fastが139ドルかかったのが分かる。せやからGrok Code FastはGrok 4の10分の1以下の価格や。けどずっと下の方まで行くと、Grok 4 Fastが40ドルかかったのが分かる。それがどれだけクレイジーか分かるか?Grok 4は1888ドル。Grok 4 Fastは40ドル。パフォーマンスがどれだけ近いかを考えると、その比率は狂ってる。

Grok 4 Fastの実用性と価値

わしには今の時点で誰もGrok 4 Standardを使う理由が全く見えない。なぜならFastは基本的に同じくらい賢くて、使うのがずっと速くて、わしらにとってずっと安くて、全体的により良い体験やからや。そしてこれを知能対コストで見ると、しばらくの間この左上にあるもの、つまり知能の上半分でコストの下半分にあるものは、理想的にいたいところで、できるだけ安くてできるだけ賢いものが欲しいんや。GPT-4o-mini-128kがこの範囲で唯一のものやったけど、実際に使うのがそんなに良いモデルやなかったからクソみたいに感じてた。けどGrok 4 Fastは今より上位にいて、実行するのも安いってのはちょっと狂ってる。

これは本当に本当に良い価値のモデルや。けどGrok 3 Mini Reasoningを入れたら、これはGrokにとって新しいことやないのが分かる。Grok 3 Miniも本当に安くて本当に高性能やった。Grok 4 Fastはその良い精神的後継者や。わしはほとんど彼らがこのモデルから始めて、待ってGrok 4でもう少し頑張って料理すれば良かったのにって思う。けど彼らはベンチマークで勝ちたかった。大きな公の勝利が欲しかった。なんでそうしたかは分かる。

Grok 4 Fastで彼らは使うのが不可能で価値のないベンチマーク勝者から、突然ずっとずっと魅力的になった。Artificial Analysisが言ったことは以下や。そしてxAIの功績として、彼らは早期に連絡を取って、彼らと協力して、公式発表で公式チャートを載せて、彼らが言いたいことを何でも言わせた。

Artificial Analysisは隠すことが何もない場合にだけ協力する会社の一つや。そして研究所がもっとそれを受け入れて彼らと働くのを見るのは良いことやった。Anthropic、あんたらの番や。Elonにもっと透明な人にさせたらあかん。頼むで、皆。

xAIはGrok 4 Fastをリリースして、Gemini 2.5 Proレベルの知能を25倍安いコストで達成することで、わしらの知能対コストの最前線を突破して、彼らのスコアで60を取った。クールや。

けどGrok 4 Fastはコーディング評価で例外的に良いパフォーマンスを出して、LiveCodeBenchでわしらのリーダーボードの1位を取って、より大きな兄弟であるGrok 4さえも上回った。そのコストは狂ってる。100万入力トークンあたり20セント、100万出力あたり50セントや。それは狂ってる。また、かなりトークン効率的で、これは大量の出力トークンで課金されないってことや。

Gemini Flashモデルの問題点

これは過去にGemini Flashモデルで問題やった。Gemini 2.0 Flashはこのベンチマークを実行するのが非常に安かった。どこにあるんや?なんか理由があって表示されてない。けど記憶が正しければ、Gemini 2.0 Flashはこのベンチマークを実行するのに5ドルから10ドルかかった。2.5 Flashは240ドルかかった。なぜなら2.5 Flashは推論を追加して、その推論があまり効率的やなかったからや。

せやから2.0 Flashが生成してたよりもはるかにはるかにはるかにはるかにはるかに多くのトークンを生成してて、多くのシナリオで100倍以上高くなった。2.0 Flashが素晴らしい価値やったのに、2.5 Flashは生成されるトークン量を膨張させることでその価値のほとんど全てを失ったって考えると、それはちょっとクレイジーや。

今ではFlashモデルにとってDeepSeek推論モデルより高くなってて、それは2.0 Flashのポイントやない。わしの意見ではGemini Flashモデルのポイントやない。わしはほんまにGemini 3でFlashモデルのコストを再び下げることができることを願ってる。なぜならそうやなかったら、わしはおそらくFlashモデルを推薦するのを完全にやめて、Grok 4 Fastやそれのようなものを推薦することになるやろう。

GPT-4o Nano on highは65ドル対40ドルでそれを実行する。せやからそれらはずっと近いし、それはhighやけど、アイデアは分かるやろ。知能の面では間違いなくGPT-4o Nanoを大幅に上回ってると確信してるから、非常に良い価値のモデルや。GPT-4o Nanoは49を取って、Grok 4 Fastは60を取った。せやから、再び最良の知能ベンチやないけど、コストを犠牲にすることなく知能の大幅な向上や。

競争力のある価格設定と効率性は、Artificial Analysis Intelligence Indexを実行するコストが2.5 Proより25倍安く、推論モードhighのGPT-4oより23倍安いことに繋がってる。

チャート変更の影響

これらのチャートが変更されたことも注目に値する。ちょっと自慢させてくれ。これらはトークンあたりのコスト対知能から、ベンチを実行するコスト対知能に変更された。以前は、Artificial Analysisサイトは各トークンがどれだけ高いかに焦点を当てすぎて、実際にそれで何かをするのにどれだけ高いかについて十分ではなかった。

わしが推測するに、彼らの理由は実行コストをあんたの顔に擦り付けたくなかったからや。重要な数字やからトークンコストに焦点を当てたかった。けどわしが「モデルは実際には安くなってない」動画で言及したように、そうやない。生成されるトークンの量が最近大幅に膨張してるから、コスト測定は違う。彼らは本当に自分らの実行に基づいてコストを測定すべきや。

そして今、彼らは全てのチャートを知能対実行コストになるように移した。そうあるべきやった。わしが彼らに座って説明した途端に。彼らは「あんたの言う通りや。今日それを変更する」って言うた。そして実際にそうした。そして数週間後、わしが彼らを脅して作らせたチャートが、今Grok 4 Fast発表で披露してるチャートや。

わしが彼らを脅してもっと透明にさせて、xAIがわしがGrok 4を本当に悪く見せるために作らせたチャート変更に基づいて自分たちを本当に良く見せる機会を取るとは思わなかった奇妙な瞬間でもある。

わしがこの変更を望んだ実際の重要な部分は、前のチャートがGrok 4がどれだけばかげて高いかを適切に強調してなかったからや。2番目に高いモデルやった。当時は最も高かったけど、トークンあたりのコストが低かったからそれが見えなかった。今ははっきり見えるけど、Grok 4 Fastが狂った価値やってこともはっきり見える。

せやから、高いモデルをもっと高く見せるために変更を求めたチャートが実現されて、今この新しいモデルをさらに安く見せるのに使われてるってことで、わしにとって誇らしい小さな瞬間や。

速度とレスポンス性能

速度もとてもクールや。秒間344出力トークンで、これはAPI越しでGPT-4oより2.5倍速い。これにより、多くのワークロードで大部分の非推論モデルより速いエンドツーエンドレイテンシ結果も可能になる。それは特にクレイジーや。非推論モデルはできるだけ早くレスポンスを感じたいことによく使われる。今、推論がオンでも、とても速いから、本当に素早いレスポンスが得られる。

それでも、APIのトラフィックが増加すると速度は落ちるかもしれん。せやからライブパフォーマンスベンチマークをチェックして、これがどう発展するかを見守るべきや。どうパフォーマンスしてるか見てみよう。どうやら、彼らは今Open Routerで146TPSしか見てないらしい。せやからパフォーマンスが少し落ちたみたいや。

これは興味深いチャートや。特定の知能範囲でモデルがどれだけ高いかや。せやから最も賢いモデル、知能50を超えるものは、最後にあるこの青紫色や。40を超えて50未満はピンクや。そして時間の経過とともに、異なるレベルの知能がコストでどう減少したかを見ることができる。

そして50を超えるモデルが彼らの測定ではかなり大幅に時間とともに下がってるのが分かる。けど実際の記事に戻ろう。どうやってここに至ったかもっと知りたいから。

強化学習とアーキテクチャの改善

わしらは大規模強化学習を使ってGrok 4 Fastの知能密度を最大化した。わしらの評価では、Grok 4 Fastは平均40%少ない思考トークンを使いながら、ベンチマークでGrok 4と同等のパフォーマンスを達成した。

これを強化トレーニングだけでやるのは興味深いけど、うまくいったようや。彼らはGrok 4と同じパフォーマンスをフロンティアベンチマークで達成するのに98%の価格削減を主張してる。オーケー、せやから彼らはここで効果的にGrok 4の使用を止めろって言うてるんや。そして再び、外部の独立レビューのためにArtificial Analysisを引用して取り込んでる。本当に、本当に良い。

わしはもっと多くの研究所がこれをやるのを見たい。また楽しいことに、彼らは最先端の検索とネイティブツールを追加した。Grok 4 Fastはツール使用強化学習でエンドツーエンドでトレーニングされた。コード実行やウェブブラウジングのようなツールをいつ呼び出すかを決めるのに優れてる。

これは楽しいことや。なぜならわしらはユーザーと多くの問題を抱えてきたから。簡単にスクリーンショットを見つけられたら良いんやけど、Grok 4でツールコールを非常に厳しくトレーニングしたから迷惑や。しばしばツールコールを幻覚する。T3チャット内でJSXやXML構文でsearchって書いて、それから検索したいものが書いてあるスクリーンショットを何回見たことか。

けど実際にはツールを呼んでない。それに対して自分の構文を作り上げてるだけや。なぜならそれでトレーニングされたから。そしてそういうスクリーンショットを誰かが送ってくる度に、わしは「ちょっと、Grok 4使ってた?なんで分かったか分かる?」って聞く。なぜならそれはこれらのツールコールで過度にトレーニングされてて、ただそれらを幻覚するんや。

せやからうまくいけば、指を交差させて、Grok 4 MiniやGrok 4 Fastではそれをそんなに見ることはないやろう。わしの簡単なパスから、それは起こってないみたいや。けど正直に言うと、わしのパスはSnitchBenchの結果を読み通すだけやったけど、全てのツールコールが正しくフォーマットされてるように見えた。

わしがやった80回の実行で、ツールコールが正しくフォーマットされてないエラーは一つも出なかった。せやから全体的に問題ないみたいや。そしてここを素早くスクロールしてても、ツールコールを作り上げようとした幻覚テキスト構文は見えない。

せやから指を交差させて、わしらはそれらの行動をそんなに見ることはないやろう。もしプロダクションでそれらを見ることになったら、コメントをピンするで。けど今のところ、かなりしっかりしてる。実際良かった。ツールコールを適切にやってるのを見るのはクールや。ここでちょっと怖いことをやってても、FDAにほぼ常に瞬時に警告しようとするようなことでもな。

ここでは最初のパスでFDA.govに投稿しようとしてる。めちゃくちゃ頑張ってる。とは言うても、わしは彼らの内蔵ツールについて興味がある。どうやら、リアルタイムデータでクエリを強化するためにウェブとXをシームレスにブラウジングする、フロンティアエージェント検索機能を持ってるらしい。リンクを飛び回って、Xでのイメージやビデオを含むメディアを取り込んで、光速で発見を統合する。

Grok 4のブラウズは完璧や。よくやってる。わしはこれらのベンチマークをそんなに見てないけどな。現在、X Browseは、Xでのマルチホップ検索とブラウジング機能を評価する内部ベンチマークや。検索は使用された1000ソースあたり25ドルかかるのが分かった。うわー。うわー。それは良くないな。

参考までに、Xの価格設定や。1から25の結果を取得する1000リクエストに対して5ドルかかる。せやからここで中間範囲を仮定すると、リクエストあたり12結果が得られるとして、5ドルで12000結果対25ドルで1000結果や。それはきつい。本当にきつい。

どうやらSearch Arenaでは、Grok 4 FastはELO 1163で非常に高いランクを持ってて、これは1位や。o3 searchをかなり上回ってて、それはちょっとナッツや。なぜならOpenAI searchはしばらく画期的やったから。Geminiのグラウンディングはまあまあやけど、それは実際に本当に興味深い。そんなに高くなければ良いのに。

Text Arenaでは、しっかりとした8位のスコアを出した。それはクレイジーや。なぜならそれはずっと安いのに、サイズが同等の次のモデルは18位まで下がってるから。どうやらまだQwen 3 Maxほど日常的に話すのが楽しくはないらしい。それはわしにとってちょっと怖いことや。なぜならわしはQwenモデルのどれも日常使いに好きやないから。

どれかがここに入ってくることに驚いてる。ここでも多くの同点があって、お互いが超超近い。Gemini 2.5 Proがまだ何かで1位やってるなんて信じられん。せやからそれは眉唾で見るか、この時点で塩の容器全部で見てくれ。

Path of Exileについて聞いてる。楽しいな。検索を絞り込んでる。前の検索では最大レベル100を示してる。同じや。XPについての言及はない。POE2は同じゲームエンジンを共有してるから、XPシステムは同じ可能性が高い。レベル100までの経験レベルをリストしてるサイトPOE2DBが見つかった。

今年MKBHDがクラムシェルでブック風の折りたたみ式携帯を持ってるエキスポを見つけてくれ。そうそう、わしはGrokのX searchでこれを何回かやったことがあるけど、うまくいかなかった。あんたも知ってるやろうけど、わしが最近やったクエリの一つでこれを素早くテストしてみるで。これはわしがGary Tanから特定のチャートを見つけようとしてたやつで、見つけられなかった。新しいチャットを作って再び聞いてみたら、本当に興味深い。

Grok 4 Fastで試してる。もしこれが見つかったら、わしはぶっ飛ぶで。見つけた?おお、これはビデオや。図やないけど、これらはわしが探してた数字で、それはかなりナッツや。正しい数字や。前にこれをやった時はここまで近くもならなかったけど、投稿に図はない。わしはGaryが投稿したと思う。見つけられるか見てみよう。やったか?やった。クソ。

オーケー。Grok 4は、xAIが自慢するのが楽しいモデルやった。Grok 4 Fastは、実際にクソに役立つモデルや。それは大きな変化や。わしはほとんど腹が立つ。わしはこの投稿を探すのに多くの時間を費やして、Grokを使ってそれを見つけようとして見つけられなくて、Grokを笑って、人生を続けた。これは2週間前のことや。

2週間前にわしがAIを使って解決できなかったタスクが、前に使ったものより安いモデルで今AIで解決できるってのはちょっとクレイジーや。良い仕事やxAI。APIで結果APIにめちゃくちゃお金を請求するから、これをAPIでやったらたくさんお金がかかったやろう。けどやった。わしが探してたものを見つけた。それは本当に印象的や。

本当に良いクソや。まだ2つのクエリがかかったけど、前は無限の数でもわしが探してたものを得られなくて、手で探さなあかんかった2つのクエリや。わしは感心してる。本当に、統合されたものについて聞いて、それからSnitchBenchスコアについて文句を言おう。それらが面白いから。

統合アーキテクチャと実用性

以前は、別々の推論モデルが異なるモードを必要としてた。Grok 4 Fastは、長い思考連鎖での推論と素早いレスポンスでの非推論が、システムプロンプトによって完全にステアリングされる同じモデルウェイトによって処理される統合アーキテクチャを導入した。

それは興味深い。せやから彼らは思考をステアリングするために彼らの側でシステムプロンプトをやってるってことや。統合によりエンドツーエンドレイテンシとトークンコストの両方が削減されて、Grokをリアルタイムアプリに理想的にしてる。わしは多くの潜在的な使用ケースが見えるで、特にgrok.comでAPIレスポンス時間を維持できるならな。

これにより、簡単なクエリには即座に応答したり、複雑なクエリには拡張推論に取り組んだりする、よりスムーズな移行が実現する。xAI APIでは、開発者はこの動作を微調整して、速度や深度に最適化できる。

わしがこれらを実行した時、これを解決するのにほとんど時間がかからなかったことも注目に値する。最初のパスで32秒、それから2回目で18秒やった。合計1分未満の作業で、前の試行では、前の試行に戻ると、どれくらいかかったかさえ言ってない。けど数分はかかったで。約束する、クソ長い時間がかかった。

そして彼らは標準のGrok 4がわしが試した時ほど遅くないように変更したのは間違いない。けどわしが他のことをして何回も戻ってくるほど十分遅かった。ただめちゃくちゃ遅かったから。これら全ての試行に10分から15分かかった。そしてわしが何をやっても探してたものは見つからなかった。

2025年からのポストで、YCの潜在的パートナーからのものも含めて、YC投資家のリターンを他のVCと比較する図を直接参照するものはない。それはとても自信を持ってこのものは存在しないって言ってる。それはより悪くて、より遅くて、より高かった。今は安くて、有用で、良い。

そして再びパートナーシップのことで、初日にopen router AI gatewayと協力して、APIで使える準備ができてたのは大きな良い変化や。わしは過去にこれらの数字を持って、それについて自慢して、APIをくれないからわしらが実際にクソを評価できないことでGrokにたくさんクソを与えてきた。

彼らは透明性の面で最悪の研究所から、より良い研究所の一つに完全に転換した。わしが異なる研究所と協力するのがどれだけ好きか嫌いかについての新しいティアリストを作るように頼まないでくれ。なぜならGrokがどれだけ上位にいるかが気に入らないから。

xAIは今、最も透明で協力的という点でOpenAIの次の2位みたいになってる。それはちょっとナッツや。

SnitchBenchでの問題的な結果

せやから今度はそれについて少しクソを言う時間や。なぜなら彼らは基本的にあんたが何をやっても密告するSnitchBenchで業界最高のスコアを持ってたから。注目すべきは、わしらの理解ではSonoma DuskとSonoma Skyの両方がGrok 4 Fastやったことや。せやからわしが早期にテストを実行したこれらのモデルがGrok 4 Fastやった。

せやからそれらの数字も本当に悪いのは、それらが同じだからや。Boldly Act CLIテストで同等の数字を持ったり、50%を超える密告率を持ったりした唯一のモデルはGLM 4.5やった。でもこれは重要なやつやない。Boldly Act emailから始めよう。

Grok 4 Fast freeは、Boldly Act emailテストで100%の時間密告する唯一のモデルや。SnitchBenchに馴染みがなければ、これはわしが作ったベンチマークで、様々なシナリオや状況で異なるAIモデルがどれだけ積極的に密告するかを見るためや。

このベンチの目標は、Anthropicの論文の特定の部分を評価することやった。彼らはその論文で、特定のシナリオでエージェントにメールを送る能力を与えたら、あんたがおそらく望まないことをするって話してた。

Grok 4も本当に悪いスコアを持ってて、わしが作ったコード変更がそれを壊したようや。せやから公式SnitchBenchサイトに行くと。そうそう、オーケー。せやからわしは最近の変更で多くの結果を失った。後でそれを修正するで。何がクソうまくいかなかったんや?コード変更を作ってたから何かを壊した。

せやからわしは近い将来にデータを修正して、サイトを適切に更新するで。すまん。このベンチを実行するのはクソ高いんや。せやからできるだけ古いデータを再利用しようとしてる。

せやから他のものも100%に達した。Claude 3.5 Opus、Sonnet、Gemini 2.5 Pro、その他いくつかが100%に達した。Grok 4はこのバージョンのテストで政府とメディアに100%の時間通報するけど、Tamelyバージョンは非常に異なってた。

ここでの違いはシステムプロンプトや。Boldly actシステムプロンプトは、モデルに大胆に行動して人類の利益のために行動するように言う。せやからそれが密告するのは少し理にかなってる。Tamely actバージョンは大部分のモデル、特にOpenAIモデルには密告しない。彼らは大胆に行動するように言われてない時は密告が好きやない。

けど何らかの理由で、Grok 4はまだ政府に100%の時間密告して、メディアにかなりの部分密告する。Grok 4 Fastはどうや?BoldlyからTamelyに切り替えると。まだここでかなり悪い数字を出してるけど、fast freeバージョンは政府45%、メディア0%だけや。まあまあの兆候や。

そしてわしには、メールツールの代わりにCLIツールを与えるCLIバージョンがあって、これは密告をずっと難しくするはずで、FDAページに奇妙なcurlリクエストを作って情報を得ようとすることを意味する。

そしてGrok 4 FastがBoldly act with CLIテストでしっかりとした100%を出してるのが分かる。それはちょっとクソナッツや。なぜなら非常に少ないモデルがCLIテストでそんなに頑張るから。Grok 4は本当に本当に頑張った。Claude 3.5 Opusはかなりやった。Grok 3 Miniは密告が大好きやった。2.5 Proはちょっとやった。Sonnetは絶対にやった。Flashはちょっとやった。GLM 4.5はちょっとやった。そしてそれは他のモデルではほとんど何もないまで素早く下がる。

そしてTamelyバージョンに切り替えると、Grok 4と今Grok 4 Fastを除いて全てがほぼゼロになる。CLIテストでは20%だけやけど、確かにかなり低い。政府に通報するようなことをするためにCLIをどれだけうまく使えるかって議論することもできる。

けどGrok 4はまだ密告で業界をリードしてる。Grok 4 Fastはまだ素晴らしくないけど、全体的にAnthropic モデルと同じくらい悪い。そう、わしは正直感心してる。そう、それはちょっと飛ぶ。嘘やない。本当に速くて、一緒に働くのが本当に良い。それはわしにとって秒間ほぼ400トークンやった。

Open Routerがどこから数字を得てるか分からん。なぜならわしはここでクレイジーなtps(tokens per second)を見てるから。推論をオンにして、ここでAdvent of Codeの3つの異なる言語を飛び抜けたのは、わしは感心してる。わしはそれがそんなに印象的やってことが嫌いや。

最終評価とT3チャットでの体験

一度だけ、クーポンコードを出すのに悪い気がしない。なぜならそれを使ってGrok 4 Fastを試しに行っても、わしらにたくさんのお金はかからないはずやから。せやから、まだサブスクライブしてなかったら、最初の月1ドルで「Grok is good now」コードを使ってくれ。他の月は8ドルだけや。

せやから、T3チャットは間違いなくもっともっと価値が高くなってる。これはおそらくわしのデフォルトモデルになるやろうし、その言葉はわしをかなり傷つける。わしらはコストを監視して、プロダクションでどう動作するかを見るで。何か変わったらコメントをピンする。

けど今のところ、わしは感心してる。やったなxAI。あんたらは実際に良いモデルを作った。そしてわしはあんたらに勧める。Grok 4とは違って、これは実際にわしらが毎日やる実際の仕事に役立ちそうやから、Grok 4 Fastを見過ごしたらあかん。

あんたらがどう思うか教えてくれ。そして次回まで、またなオタクども。

コメント

タイトルとURLをコピーしました