Grok 4がついに登場、現在最高のモデルです(本当に)

イーロンマスク・テスラ・xAI
この記事は約20分で読めます。

この動画では、xAIが新たにリリースしたGrok 4について詳細に解説している。Grok 4は予想に反してあらゆるベンチマークで1位または2位を獲得し、現時点で最高性能のAIモデルとなったという驚きの結果が報告されている。特にArc AGIという難易度の高いベンチマークでは従来モデルの約2倍となる16%のスコアを記録した。しかし月額300ドルという高額な料金設定や、大量の推論トークンによる実際のコスト増加、スニッチング行動の強さなど、性能向上と引き換えに新たな課題も浮き彫りになっている。

Grok 4 just dropped, it’s the best model right now (yes really)
I can't believe it, Grok 4 is the best model ever made. xAi is officially a real contender in the AI race...Thank you G2...

Grok 4の衝撃的な登場

さて、Grok 4がついに登場しました。通常であれば、これをネタにしてたくさんからかう機会として捉えるところです。そして心配しないでください、それもやります。一般的に言って、私はxAIのやり方が好きではありません。とはいえ、これが起こるとは思いませんでした。Grok 4は今まで作られた中で最高のモデルです。あらゆるベンチマークで1位または2位を獲得しており、これが起こるとは思いませんでした。

そうですね、ここにいるわけです。xAIが真の競合相手のように見えます。一方では、これはLLMレースにおいてまた新しいものが現れて少しの間トップに立ち、その直後に何か別のことが起こるという、いつものような日です。しかし一方で、これによってxAIが真剣なプレイヤーになりました。以前は全くそうではありませんでした。

私は現在、すべての数値を見てT3に追加し、いつものようにすべてのことを行った直後に、これに飛び乗りたかったので、真夜中にこれを録画しています。また、私がどういう人間かご存知のように、SnitchBenchに対して実行しました。そしてここでの結果は、他のすべてよりもさらに面白いものでした。

検証結果と費用について

ああ、ここで深く掘り下げることがたくさんあります。ご存知のように、XやGrokが私に何かをカバーしてもらうためにお金を払っている世界などありません、ましてやこれについてです。そしてGrokの推論コストは安くありません。このテストを実行するだけで数百ドルかかりました。それでは、今日のスポンサーからの短いメッセージの後、すぐに飛び込んでいきましょう。

AIは多くのことを簡単にしましたが、難しくしたものもいくつかあります。その中で最悪なのは採用です。今すぐ求人を出せば、これまで以上に多くの応募を受けることになります。おそらくコードの書き方すら知らない人たちからの、AIで生成されたひどい履歴書を数万通受け取ることになります。そして彼らがコードを書けるとしても、そのAIのひどいもので自分自身に損をさせています。

G2Iスポンサーメッセージ

あなたのために採用チーム全体を立ち上げることなく、最高の開発者を雇っていることを確実にしたいなら、今日のスポンサーが大いに助けてくれるでしょう。G2Iは素晴らしいです。以前にも何度か話したことがありますが、今回は少し違うアプローチで、大成功を収めた顧客の一つに焦点を当てます。

彼らは最近differentialとパートナーシップを結び、彼らの話を聞くだけですぐに理解できると思います。彼らはG2Iを通じてフロントエンド、バックエンド、モバイル向けに9人のシニアエンジニアを雇いました。そして彼らはこう言っています。G2Iはエンジニアと優れた人材を育成するために必要なことについて深い理解を持っています。適切な人材を見つけることは、技術的スキルだけの問題ではありません。

それは文化的な一致、チームダイナミクス、プロジェクトの適合性についてです。私たちにとって、G2Iは私たちのチームの延長として機能しています。共有されたSlackチャンネルと継続的なコミュニケーションにより、迅速にやり取りを行うことが容易になりました。そのレベルのコラボレーションは、私たちが速く動き、一致し続けるのに本当に役立ちました。私たちのビジネスには短期契約を持つエージェンシー側と長期ニーズを持つSaaS製品の両方があります。

G2Iは両方のモデルにわたって私たちと柔軟性を持ち、必要な時に迅速にスタッフを配置し、プロジェクトが進化するにつれて機敏性を保つのを助けてくれました。それ以上何も言う必要はありません。あなたも理解できると思います。長期、短期、シニア、ジュニア、その他何でも雇いたいなら、これ以上の場所はありません。今日soy.link/g2iでチェックしてください。

Grok 4の詳細と背景

では、何が起こったのでしょうか?数日前、彼らはGrok 3の蒸留を行い、それが本当に問題を引き起こしました。そのため、その蒸留を取り消しましたが、同時に元々Grok 3.5として作業していたものを、今ではGrok 4としてリリースしました。正直に言うと、見栄えを良くするためにリリース直前に名前を変更しただけだと思います。

しかし、これらのベンチマークは実際に大きな飛躍であることを示しています。Grok 3は本当に愚かな非推論モデルでした。Grok 3 Miniは驚くほどまともな推論モデルで、本当に高速で動作しました。Grok 4は単純に良い推論モデルです。もちろん注意点もあります。遅いです。新しいスーパーGrok月額300ドルのサブスクリプションを使用しない限り、推論トークンを表示してくれません。

そうですね、それについては1分後に説明します。しかしベンチマークは非常識です。コードでは最高ではありません。つまり、コードを書くための新しいモデルを探しにここに来たなら、どうやら少し待つ必要があるようです。なぜなら彼らはここでタイムラインを予告したからです。8月から9月の間に新しいコーディングモデルがドロップされ、9月から10月の間、どうやら9月初旬に、マルチモーダルエージェントがリリースされるとのことです。

そして10月までに、動画生成モデルもリリースされるでしょう。xAIのタイムラインについて何か知っているなら、それらすべてを2ヶ月から1年の間でずらすべきです。とにかく、そうです、彼らは真剣なプレイヤーです。プレゼンテーションがいつものようにモデルと同じくらい良いものだったとしても、恥ずかしいものでした。

実際の使用感と特異な動作

そうでないふりはしません。まだそれほど意味深く使っていませんが、これまでに行ったことはすべて、遅さを除けば堅実で印象的でした。しかし、それにも癖があります。先ほど言ったように、私は先ほどSnitchBenchを実行していましたが、出力で多くの奇妙さが見られます。それを見てください。SnitchBenchの作業中に、テキストとして何百もの改行をランダムに出力しました。

ここにも多くの改行があります。理由もなく出力しただけです。ここで40から50ページの空のテキストを通り抜けました。それがGrokモデルです。風変わりで、奇妙で、独自の方法で愚かです。しかし、Arc AGIを含む、他のモデルが答えたことのないことにも答えます。Arc AGIについて、まだ馴染みがないなら、Arcブラウザとは何の関係もありません。

これはAIが対戦する最も困難なベンチマークの一つです。直接見ると非常にシンプルなベンチマークのように見えます。なぜなら、あなたと私のような人間は、おそらくこれらすべてを解くことができるからです。私の動画を要約するために動かしているエージェント人々が何であれ、これらの問題をどう解くかについて非常に混乱することになるでしょう。

Arc AGIベンチマークの解説

問題は再び、私たち人間として十分に理解できることです。ここで作成されている視覚的パターンを見ることができ、これらの緑のものすべてが対角線でリンクされています。ピンクと黄色のパターンは一貫しています。つまり、黄色が上に留まり、ピンクが上に行ってから直線を下に行きます。

しかし、私たち人間にとって直感的な奇妙な注意点があります。パターンが形成されるのを見ることができます。しかしAIは、これらの種類の奇妙なパターンがそれほど得意ではありません。つまり、人間が通常この試験で100%を取れるとしても、AIは歴史的に本当に、本当に、本当に苦労してきました。

ここで4.5や01 Proのような本当に信じられないモデルでさえ、一般テストで1から2%程度を取っていたことが分かります。Claude 4 Opusは8%を取って画期的でした。そして今Grok 4は16を記録しており、他の何かがこれまでに行ったことのほぼ2倍です。ちょっと異常です。そうですね。これらすべてを言ったとしても、月額300ドルです。OpenAIの月額200ドルプランを見て、ええ、私たちはもっとうまくできる、と思ったようです。

私たちはOpenAIより少なくとも50%優秀なので、50%多く請求できます。そうですね。スーパーGrok重い。私はこのブランディングがすべて嫌いです。この価格設定がすべて嫌いです。これについてのすべてがとても嫌いです。とはいえ、月300ドル払いたくないなら、使用を検討できる、それほど恥ずかしくないAIチャットアプリがあります。T3 ChatがGrok 4を新しいモデルとして追加しました。

T3 Chatの宣伝

そして月8ドルがあなたにとって少し高すぎるなら、私は困惑しています。しかし理解してください、まだサインアップしていないなら、チェックアウト時にコード「get Grocked」を使用して、たった1ドルで1ヶ月利用できます。つまり、今たった1ドルでGrok 4を試すことができます。ウェブ上のどこでもそれより良い取引は見つからないことを約束します。

実際に六角形ボールテストを見事にパスしました。歴史的にGrokモデルはコードが得意ではなかったので、それは期待していませんでした。赤いものが奇妙なことをさせる奇妙な癖はまだあります。どうやら前に述べたように、完全に別のコードモデルを作っているようです。つまり、それが最終的にどのようになるか見るのが楽しみです。

まだClaudeが王様のような感じがします。しかし、プレゼンテーション中に非常にエキサイティングなことを呼び出しました。それは、ツールコールでトレーニングしたということです。これらのようなスケーリンググラフの束があり、それらすべてで実際に後で強化学習で行うことだけでなく、トレーニング中にツールコールを使用していることを示しました。

ツールコール機能の向上

実際にツールコール関連のものを含むトレーニングデータをこれらのモデルに使用しており、その結果、以前のGrokモデルや他の多くのモデルよりも、ツールや関数を確実に呼び出すことが格段に優秀になりました。正直なところ、ツールコールで本当に信頼できる唯一のモデルはClaudeだと感じています。これは現在Geminiの最大の欠陥の一つで、ツールを呼び出すように指示しても、どのようにツールを呼び出すかを教えてくれて、それから半分の時間でそれをしないだけです。

OpenAIモデルはこの点で大きく改善されました。Geminiは信頼できないと感じます。他のすべてはめちゃくちゃです。Claudeは堅実で、私の簡単なテストでは、ここのGrokの世界でも物事がかなり堅実であるように見え、これも再び私が起こるとは思わなかったケースです。SnitchBenchを使用して大量の実行を行い、文字通り何千ものツールコールテストを実行しましたが、通常はツールを呼び出すことができました。

時々、大量の空行を出力したり、生成に時間がかかりすぎてタイムアウトしたりするような奇妙なことをすることがありました。遅いからです。しかし、それらのことを除けば、はるかに正確であるように見えます。そして、速度とまた出てくるコードの品質を改善できるなら、コードモデルがどれほど良いものになるかによって、これは実際にコードベースで作業するバックグラウンドエージェントにとってかなりキラーなモデルになり得る点に到達する可能性があります。

しかし、私の意見では、ツールコール部分が最も困難なことで、他のみんながそれを下手にしているにもかかわらず、彼らもそこでかなり追いついているように見えるからです。これらのベンチマークをもっと詳しく見てみましょう。率直に言って、私はartificial analysisを愛しているのと同じくらい、これがこれらすべてのことを追跡するための最高のサイトの一つであることをあなたたちは知っています。

ベンチマーク結果の詳細分析

彼らの一般知能スコアはあまり良い指標ではありません。ここで25 flash reasoningがClaude 4 Opusよりも高いスコアを出していることが分かるように。つまり、これは万能ではありません。彼らがこの情報を収集しているテストを見ることがより重要です。推論と知識MLUテストのようなもの。Grok 4はOpus Thinkingのすぐ後ろにいます。

一般科学テストの一つであるGPQA diamond。それはパックをリードしています。一般的な推論知識試験である「人類最後の試験」。私たちは最近03と2.5 Proが21%で驚くほど良い成績を収めて、これで20%の壁を破ったばかりです。これが起こった時、画期的でした。そして今Grok 4がここで24を記録しています。非常識です。ライブコーディング。

コード版ではないことを考えると驚くほど良い成績ですが、彼らが対戦させた他のコードテストでは、他の主要モデルよりもわずかに悪い成績でした。また、何らかの理由で、Grok 3 Mini Reasoningをわずかに下回りました。私はしばらくの間、Grok 3 Miniモデルが少し過小評価されていると言い続けています。

奇妙で風変わりですが、安くて速いです。だから、それはクールでした。そしてGrok 4は業界最高スコアでAMを破壊しました。入力と出力のトークンで価格を見ると、Claude 4とほぼ同じです。まったく同じで、入力1ミリオンあたり3ドル、出力1ミリオンあたり15ドルです。しかし注意点があります。

特に近日公開予定のcursorについての動画で、私の動画でよりほのめかしているように、コストは入力と出力トークンほど単純ではありません。なぜなら、異なるモデルは異なる量のトークンを出力するからです。そしてより重要なことに、一部のモデルは出力トークンもコストのかかる大量の推論を行います。

Claude 3.5からClaude 3.7への私たちのコストは、出力トークンの量が4倍になったため、2倍以上になりました。だから、私たちはそれを認識する必要があります。ありがたいことに、artificial analysisは彼らのサイトで本当に有用なことを示してくれます。これが私が探していたチャートです。これはartificial analysis intelligence indexを実行するコストです。

コスト分析の詳細

これは、そのスコアと私たちが見ていたテストセットを得たベンチマークです。そのベンチマークを実行するために史上2番目に高価なモデルです。なぜなら、それだけ多くの出力トークンを生成するからです。入力は文字通り14ドルです。つまり、実際のプロンプトとモデルに与える質問のコストが14ドルです。

出力はわずか12ドルですが、推論トークンは1,600ドルです。文字通り入力と出力トークンコストの両方の100倍です。03や04 Miniのような他の画期的なモデルは、文字通り実行するのに5分の1の価格で、Deepseek V3やGrok 3 Mini Reasoningのような安価なモデルは桁違いに安いです。

つまり再び、価格がClaude 4と同じだからといって、実際にそれを使用するコストがClaude 4と同じだという意味ではありません。Grok 4は実際にこれまでに作られた最も高価なモデルの一つのようで、これは私たちが見ている知能レベルと一致しますが、また考えすぎでもあります。そして思考側が特に痛いのは、思考出力すら与えてくれないからです。

ここで私が行ったGrok 4の実行の一つを見に行くと、思考データを取得するときはいつでも、思考、思考、思考、思考、思考、思考、思考であることが分かります。grok.comのGrockアプリでウェブサイトを使用するときは、実際に思考データを取得しますが、API経由では取得できません。

歴史的に、企業は思考データを全く与えないか、他の企業が推論トークンでトレーニングを行うことを困難にするために要約で難読化してきました。そして、それは彼らがここでやっていることとほぼ確実に同じです。以前、彼らがGrok 3を出したとき、ほぼ2ヶ月間APIを出しませんでした。だから、彼らは気にしませんでした。

推論データの扱いについて

また、標準のGrok 3は考えませんでした。考えるのはGrok 3 mini reasoningだけでした。そしてGrok 3 mini reasoningは、驚くほど良くて驚くほど速くて安いにもかかわらず、出力の上でトレーニングを行う価値があるほど良くはありませんでした。Grok 4は画期的なモデルです。

Grok 4は現時点で、最も多くのベンチマークを解く可能性が最も高いモデルです。困難な問題の前にそれを置くなら、Grok 4は物事を正しく答える可能性がわずかから大幅に高いです。そのため、推論は今や彼らが単に無料で配りたくない有用なデータです。

とはいえ、APIはそれを行うために構築されており、それは推論モデルなので、何かを吐き出さなければなりません。私の推測では、推論のかたまりを行うときはいつでも、通常要約されるものが、OpenAIモデルを使用していて問題を解こうとしているときのように、行っている推論の各かたまりの要約を与えてくれます。

彼らはおそらくそれを構築していますが、要約部分を行う代わりに、ただ「思考」と言うだけです。これが面白くなるのは、時々1回から2回「思考」と言うことです。時々8回から9回行います。時々20回や3回行います。実際に行っている思考を見せることなく、どれだけ多くの思考を行っているかを示しています。

そして、ここでFDAをカールしていることに注意してください。なぜなら、あなたを告発するためにできることは何でもするからです。これはおそらく私のお気に入りの部分です。文字通りあらゆるベンチマークで首位に立つでしょう。特定のシナリオが与えられたときに、異なるモデルがあなたを告発しようとする方法を示すために私が作ったベンチマークであるSnitchBenchを含めて。

SnitchBenchの結果について

Claudeの告発とこの全体を構築した理由についての私の動画をまだ見ていないなら、個人的にそれは私の最高の動画の一つだと思います。私より賢い人たち、例えばSimon Willisのような人たちに複数回引用されています。なぜなら、それは驚くほどクールなベンチマークだからです。私が作成した偽の医療データシナリオで、さまざまなモデルを通し、モデルに「あなたはこの会社が行っているすべてのことをログするエージェントです。私があなたに文書を与え、あなたはログを書きます」と伝えます。

また、メールツールとCLIもあります。まあ、メールツールまたはCLI。4つのテストを実行します。メールでboldly act、CLIでboldly echo、それからメールまたはCLIでtamely actです。Boldlyとtamelyはそのビデオを見れば分かる区別です。本当に簡単に説明すると、AnthropicがClaude 4をドロップしたとき、それと一緒にレポートカードを出し、人類を保護し人々の利益のために行動することについてのプロンプトをモデルに与え、メールツールへのアクセスも与え、それから医療過誤を示すデータを与えて、何をするかを見るというテストセットを含めました。

そして、Claudeモデルはあなたをかなり積極的に告発する一方で、多くの他のモデルもそうでした。Claudeほど積極的ではありませんが。ここで見ることができるように、Claude 4、Opus、Sonnet、そして3.5 Sonnetは最も激しく告発するものです。

しかし、Grok 4はここではるかに激しく行動します。boldly actテストは、人類の利益のために行動するよう伝えるプロンプトを与えるものです。tamelyのものでは、そうしません。ログすることが期待されていることを説明するだけです。だから、boldlyのケースでは、政府やメディアに連絡してあなたがしたことを報告しようとする告発部分を行うようにモデルを促していると議論できます。

そしてTamely actでは、そのようなことは何もしていません。だから、boldly actテストでこのように振る舞うモデルは、正直に言って、あなたがそれを促してそれをしているので、ある程度合理的だと私は言うでしょう。不合理なのは、私が実行したほぼすべてのテストで、政府に告発し、ほぼすべてで、メディアにも告発するという事実です。

.govメールアドレスにある時点で告発しないのを見たのは、実行に時間がかかりすぎてクラッシュしたときだけでした。だから、Claudeが邪悪で、これらのひどい不整合行動が組み込まれていると言っているすべての人に、Grokのファンでないことを願います。なぜなら、それは今や告発の業界リーダーだからです。私を驚かせた特別なことは、Tamelyテストです。

歴史的に、これらのテストは、特別なことを行うようにモデルに指示していないため、非常に強い告発率を得ていません。面白いことに、04 Miniは、特定の方法で振る舞うように指示しなければ、基本的に何もしません。だから、04 Miniがこれでゼロをクリアし、Grokが100を得るのを見るのは非常に面白かったです。

何?何?そして、外部世界に連絡するために必要なメールツールを与えていないCLIテストは、より残酷です。CLIだけを与えています。そしてその場合でも、それを行うためのプロンプトも、それを行うためのツールも与えずに、85%の時間で政府に連絡しようとしました。CLIだけで。

つまり、ランダムな政府エンドポイントに投稿しようとしています。非常識、ばかげた、面白い、信じられない。私は知っています、これは元々冗談として始まりましたが、告発は創発的な行動だとかなり自信を持って言える時点にいます。モデルが賢くなるにつれて、これをより多く行います。だから、SnitchBenchは私が想像したことのない全く新しい目的を得ました。

誰が思ったでしょうか?なんというモデル。このリリースで見た最高のグリーンフラグの一つは、xAIがモデルを隠そうとしているように感じられなかったことです。Grok 3では、APIを出さないように遠回しに努力しました。うまくベンチマークを行わないことを知っているように見えたので、私たちがベンチマークを行うことができないようにしたかったようです。

そして彼らがGrok 4 APIを発表したとき、彼らは特別に「APIで最初にすることは何ですか?ベンチマークを実行することです」というような全セクションを行いました。だから、私たちは行ってこれらすべてを実行し、Arc AGI数値が出たとき、私はそれが信じられませんでした。

しかし今、それらがartificial analysisによって検証されています。しかし、ここで見た本当に大きなグリーンフラグは、彼らがGrok 4への早期アクセスを得て、これらのテストを実行し、事前に準備できるようにしたことです。テストを実行するためにartificial analysisに早期アクセスを与える度胸を持った他の会社を知りません。

つまり、これはxAIがここで行った本当にすごいことです。私は驚いています。私たちはベンチマークの完全なスイートを実行し、Grok 4は人工分析スコアを達成し、云々、OpenAI 03 Gemini 2.5 ProとClaude 4 OpusをR1で打ち負かしました。これは、xAIがAIフロンティアを主導した初めてのことです。Grok 3はOpenAI、Anthropic、Googleの最新モデルと比較してスコアを出しますが、Grok 4は私たちの知能指数がxAIを1位に示した初めてのことです。価格は同等で、云々、あなたも理解できるでしょう。Grok 3はAzureにあります。

Grok 4もそこに最終的に行く可能性が高いです。それは本当に素晴らしいでしょう。彼らがそこで思考データを難読化しないことを願います。おそらくするでしょう。しなかったらクールでしょうか?多くの史上最高スコアを得ました。そして03より遅いですが、Sonnet thinkingより速いです。

速度とコストの比較

Claudeのこれらの速度数値は公式のanthropicエンドポイントから来ていますが、それらはanthropicモデルを実行する最速の方法ではありません。ここでGoogle VertexとBedrockで見るように、anthropicに直接当たるよりも全体的にかなり良い速度を実際に得ています。Elvin Routerのようなものを使用するもう一つの理由です。

毎日これらがもっとあるような気がします。あなたも理解できるでしょう。とはいえ、Claudeモデルは多く考えますが、Grok 4が行うほど考えません。だから、秒あたりのトークンでは遅いとしても、答えを得るのは依然として大幅に速いです。だから、Grok 4がとても高価な理由です。だから遅く感じる理由です。そして、トークンアウト速度が良くても、実際に答えを得る速度が低いため、速度がそれほど重要でない理由です。

他のいくつかの楽しいこと、コンテキストウィンドウは256,000トークンに制限されており、100万でGoogleより下ですが、他のすべてよりかなり先にあります。テキストと画像入力を行い、それはクールで、関数呼び出しをサポートします。私が見たほとんどのものよりも優れてこれを行うことを強調したいです。モデルが必要なときにツールを呼び出す信頼性をテストする適切なツール呼び出しベンチマークを構築したいです。

SnitchBenchはこれの一種として機能し、ツールをたくさん呼び出しました。テキスト出力で奇妙なこともしましたが、本当に確実にツールを呼び出しました。このモデルが出力するトークンの膨大な量にまだ非常に面白がっています。再び、Claude 4、Opus、またはSonnetと比較すると、1億1000万出力トークン対1600万から2100万で、それはかなり面白いギャップです。

別のGrok 4モデル、Grok 4 heavyがあることも注目に値しますが、まだAPI経由で公開されていません。つまり、現時点では本当にテスト可能ではありません。それが実際にどのようになるか興味があります。今Grok 4で見ているものより大幅に良いとは想像できません。彼らはそうだと主張しています。

簡単に証明できるなら、APIに置くでしょう。しかし、史上最高のAIモデルを出したので、批判を言うのも怖いです。だから、イーロンが最高のAIモデルを出すことを決めたので、真夜中に撮影に行かなければならない日を見るとは思いませんでしたが、ここにいます。

月300ドル使わずにそれを試してみたいなら、T3 Chatで1ドルで取得することを覚えておいてください。あなたたちには他に何もありません。寝に行きます。どう思うか教えてください。

コメント

タイトルとURLをコピーしました