Grok 4—世界で最も強力なモデルの可能性

イーロンマスク・テスラ・xAI
この記事は約9分で読めます。

この動画では、xAIが発表したGrok 4について詳細に解説している。Grok 4はほぼ全てのベンチマークで最先端の性能を示し、特にARC AGI 2では16%という他モデルを大きく上回る成績を達成した。強化学習計算量を10倍に増やすことで大幅な性能向上を実現し、ツール使用やマルチエージェントシステムとの組み合わせにより更なる向上を見せている。価格は月額30ドルから300ドルと高額だが、独立機関のテストでも最高の性能を記録し、xAIが初めてフロンティアAI競争でトップに立ったことを示している。

Grok 4—Possibly the Most Powerful Model in the World
XAI just released Grok 4, the most powerful model in the world. Website: Beyond Basics Course:

Grok 4の驚異的な性能

さて、Grok 4が登場しました。そしてこれは本当に信じられないほど素晴らしいものに見えます。この動画では、このリリースに対する私の率直な感想をお話しします。まず最初にベンチマークについてです。彼らが共有したほぼ全てのベンチマークで最先端の性能を示しており、これはGrok 3が決して最先端ではなかったことを考えると、非常に大きな成果です。もちろん、これらのベンチマークについては色々言えることもありますが。

特に彼らが強調したのは、この人文学最終試験で44.4%という驚異的なスコアを達成したことです。実際、場合によっては50%まで上がることも示されており、これは本当に信じられないことです。ただし、他のモデルがツールにアクセスできないため、直接比較することはできません。

とはいえ、ツールへのアクセスやマルチエージェントシステムを提供したとしても、これは依然として本当に印象的なモデルです。現在、ARC AGI 2において、これは最高性能のモデルで16%を達成しており、これは最先端の性能です。他のほとんどのモデルは10%未満です。実際、最高だったClaude Opus 4でも8%しかありませんでした。

すでにいくつかの独立したテストがあります。これはArtificial Analysis Intelligence Indexからのもので、Grok 3 miniは67しかありませんでしたが、Grok 4は現在73で、これまでで最高の最先端モデルとなっています。

Grok 4の技術的な秘密

では、彼らはどのようにしてこれを達成したのでしょうか。主要な要素は、データとモデルに提供するツールと併せて、RL計算です。Grok 3とGrok 4の間で、彼らは10倍多くのRL計算を行いました。これは後訓練で、事前訓練は両モデルで非常に似ているようです。これにより、適切なRLで十分な計算量があれば、これらのLLMからもっと多くのものを引き出せることが示されています。

実際に3つの異なるバリエーションがあります。1つは若干のRLを加えた事前訓練済みモデルで、これは人文学最終試験で約27%を達成し、Gemini 2.5 Proと同等か近い性能です。

次に、ツール使用を追加しました。これは通常のGrok 4だと思いますが、ツールを使用する能力があります。ツール使用により、ツール使用なしと比較して性能が向上し、ほぼ40%の改善が見られました。しかし、次のものは複数の異なるツールを持つ複数のエージェントがあるマルチエージェントシステムで、人文学最終試験でほぼ50%まで押し上げることができました。

価格と今後の展開

人文学最終試験は今年初めにリリースされた最も困難な試験の1つとされていましたが、すでにほぼ50%まで押し上げることができるモデルがあります。これは信じられない改善のペースですが、これには全て代償が伴います。Grok HeavyまたはSuper Grok Heavyは月額約300ドルで、これは非常に高額だと思います。

Super Grokは月額30ドルです。それでも、これはおそらく使用できる最も高価なLLMです。ライブストリーム中、彼らはコーディングに焦点を当てませんでした。なぜなら、数週間後に専用のコーディングモデルが登場するからです。現在彼らはGrok 4をリリースしています。

専用のコーディングモデルが登場し、これは正しい戦略だと思います。コーディングには低レイテンシのモデルが必要で、おそらく彼らは低レイテンシに焦点を当てているのでしょう。その後、マルチモーダルエージェント、さらには動画生成モデルも登場する予定です。

価格設定を見てみましょう。これは256kトークンのコンテキストウィンドウを持っています。価格設定はGrok 3と非常に似ています。実際、全く同じで、価格を同じに保てているのは実際に良いことです。ただし、これが単なるベースGrok 4なのか、ツール付きのGrok 4 Heavyなのかは分かりません。これは興味深いところです。

独立機関による評価

しかし今度は、常に重要な独立分析、特にARC AGI 2を見てみましょう。これはARC財団の会長であるGregからのツイートまたは投稿です。彼によると、xAIの誰かが彼らに連絡を取り、Grok 4をAGIでテストしたいと言ったそうです。彼らは実際に独自の評価またはテスト方針を行いました。データ保持なし、モデルチェックポイントは公開使用を意図している必要があり、バーストテスト用の一時的なレート制限増加などです。

現在、これは良いことです。というのも、数ヶ月前にLM Arenaでドラマがあり、チャットボットアリーナリーダーボード用に特殊化されたモデルをスコアリングしたメタチームにアクセスを与えたと思うからです。実際に彼らがこれを真剣に受け止めているのは良いことです。

彼は事実を述べています。Grok 4は現在、ARC AGIで公開されている最高性能のモデルです。これはKaggleで提出された専用構築ソリューションをも上回っており、これは本当に信じられないことです。2つ目に、ARC AGI 2は現在のAIモデルにとって困難です。良いスコアを得るには、モデルは訓練例のシナリオからスキルを学習し、テスト時にそのスキルを実証する必要があります。これまでの最高モデルはOpusで、8%しかスコアしていませんでした。

今回、これはほぼ2倍になっており、これは本当に信じられないことです。ARC AGI 2にどのような質問があるか気になる方のために、人間には非常に簡単だと思われるいくつかの例があります。しかし、これらのモデルは依然として非常に苦戦しています。これを実際に共有したMike Noobが指摘したように、今日のAIについて最も直感に反することは、AIが人間にとって比較的困難な人文学最終試験で50%以上のスコアを出せる一方で、人間にとって比較的簡単なARC AGI 2で16%しかスコアできないということです。彼はいくつかの例を共有しました。

これがGrok 4 Heavyに基づくものなのか、通常のGrok 4バージョンなのか実際には分かりません。この投稿によるARC AGIでは、単なるGrok for thinkingのようで、おそらくツールへのアクセスはないようです。

更なる独立テスト結果

2つ目の投稿は、常に非常に重要な独立テストを実行したArtificial Analysisからのものです。彼らによると、完全なベンチマークスイートを実行し、Grok 4はArtificial Analysis Intelligence Indexで73を達成し、OpenAI o3、Gemini 2.5 Flash、そして一部の人がGemini 3とGemini Claを見たという噂もあるので、Gemini 3がどのような性能を示すか興味深いところです。GPT-4、GPT-5、Gemini 3のタイムラインが早まるかもしれません。

その後、彼らはこれがイーロン・マスクのxAIがフロンティアでリードを取った初めてのことだと続けています。Grok 3はOpenAI、Anthropic、Googleの最新モデルと競争力を持ってスコアリングしていました。しかし、Grok 4は我々のIntelligence IndexがxAIを1位に示した初めてのことです。

xAIはおそらく最後に生成AIまたはLLM訓練を開始したチームでしたが、他の全員をリードしているようなので、彼らに功績を与える必要があります。これはGeminiで起こったことを思い起こさせます。Bardの時代には本当に悪いスタートを切りましたが、現在は最先端とされていました。しかし今、Grok 4があり、これは本当に信じられないことです。十分な計算、データ、才能があれば、実際に最先端のモデルを訓練できるのだと思います。

その後、彼らはxAI API経由でGrok 4をテストしたと述べています。XまたはTwitterで使用するためにデプロイされたGrok 4のバージョンは、API経由で利用可能なモデルとは異なる可能性があります。LLMの消費者アプリケーションバージョンには、通常、スタイルや動作を変更できるモデル周辺の指示とロジックがあります。これは考慮すべき非常に重要なことだと思います。XまたはTwitterで利用可能になるモデルは、同じモデルまたは類似の動作ではない可能性があるからです。

Grok 3が少しおかしくなったことで、かなり悪い数日間を過ごしましたが。Grok 4は推論モデルです。回答する前に考えます。xAI APIはモデルが生成した推論トークンを共有しません。残念ながら、これは今日より標準的になっています。APIプロバイダーのうち、API経由で推論トークンを提供または有効にしているところはなく、これは本当に残念です。

中国からのモデルだけが生の推論トークンを提供していると思います。これは基本的に、西側世界にあるものよりもはるかにオープンです。その後、彼らはGrok 4の価格設定がGrok 3と全く同じであることについて話しており、これは非常に素晴らしいことです。Claude 4 Sonetと非常に似ていますが、Gemini 2.5 ProやO3よりも高価です。

APIを通じて、特に企業アプリケーション向けに実際にGrok 4を使用する人がどれだけいるかは興味深いところです。現時点では、主にOpenAI、Gemini、またはClaudeのいずれかだと思います。

パフォーマンスと速度

重要なベンチマークとして、Grok 4は我々のIntelligence Indexだけでなく、コーディングインデックスでもリードしており、まだ専門のコーディングモデルについて話していないことを覚えておいてください。それでも本当に素晴らしい成果を上げており、GPQA diamondで88%という史上最高スコアを記録し、Gemini 2.5 Proの84%から大きく飛躍しています。これはかなり大幅なリードです。

その後、彼らは再び人文学最終試験について話し、次に速度自体について述べています。秒間75出力トークンで、O3やGemini 2.5 Proよりも遅く、これらは非常に優秀です。これは実際には最も遅いようで、おそらくOpus 4よりは良いですが、他のフロンティアモデルと比較すると全体的にはるかに遅いです。

この独立テストに基づくと、そこにある最高のモデルの1つです。オフィスで寝ることがついに報われたようです。興味深いツイートがあります。Xの人々がオフィステントで寝ていることや、週末の午前4時20分まで働いていることを笑うことができますが、彼らが最も速く動いているAIラボであることは認めなければなりません。

私は彼に完全に同意します。これは現在我々がGrok 4について知っている全てのクイック要約でした。彼らにはボイスモードもあり、おそらく他のいくつかの提供と比較してはるかにリベラルになるでしょう。モデルをテストする機会があれば、そしてあなたの体験がどうだったか教えてください。

この動画が役に立ったことを願っています。ご視聴ありがとうございました。いつものように、次回もお会いしましょう。

コメント

タイトルとURLをコピーしました