Grok 4は本当に賢い…本当に本当に賢い

この動画は、xAIが新たにリリースしたGrok 4について詳細に解説したものである。Grok 4は現在世界最高レベルの性能を誇るAIモデルとして、様々なベンチマークテストで他の最先端モデルを大幅に上回る結果を示している。特に強化学習と検証可能な報酬システムを活用した訓練手法により、複雑な問題解決能力において飛躍的な向上を実現した。また、マルチエージェント機能を搭載したGrok 4 Heavyバージョンでは、複数のエージェントが協力して問題解決に取り組む革新的なアプローチを採用している。

Grok 4 is really smart... Like REALLY SMART

Cancel your AI subscriptions and try this All-in-One AI Super assistant that's 10x better: this God Tier AI Agent that l...

Grok 4の驚異的な性能と技術革新
ベンチマーク結果と性能評価
ライブデモンストレーション
さらなるベンチマーク結果
ARC AGIテストでの驚異的な結果
ゲーム開発への応用
価格設定とアクセス方法
今後の展望

Grok 4の驚異的な性能と技術革新

Grok 4がついにリリースされました。そして、イーロン・マスクが正しかったのです。これは現在世界で最も賢いモデルであり、他の最先端モデルからかなり大幅な飛躍を遂げています。

まず、Grokシリーズのモデルの進歩について説明させていただきます。これは昨夜のライブストリームで使用されたスライドです。Grok 2を見ることができますが、ちなみにこれはわずか2年前のことでした。これは単純な次のトークン予測でした。ここに計算量が示されています。

Grok 3では、事前訓練の計算量を10倍にして、本当に優秀なモデルでした。その後、Grok 3 reasoningが登場し、事前訓練の計算量を活用し、黄色で示されている部分が強化学習の計算量です。

しかし、Grok 4 reasoningへの大規模な飛躍がありました。これがGrok 4の全てです。強化学習です。このチャンネルでもこれについて多く話してきました。ですから、これが驚きではないことを願っています。ここに事前訓練があります。そしてここに後訓練があります。彼らは強化学習に大量の計算量を投入しました。これが検証可能な報酬を伴う強化学習の真の力です。

検証可能な報酬が重要な部分です。これらは既知の解決策がある問題です。最も基本的な例は、2足す2が問題で、4が解決策です。この問題と解決策を使ってモデルを訓練する場合、2足す2が何かを理解してみてくださいと言うことができます。そして4という答えを得たとき、それに対して報酬を与えます。

そしてこれを多くの非常に難しい問題に対して何度も行うと、モデルは本当に優秀になります。これはまた、これらのモデルから思考行動を引き出すものでもあります。検証可能な報酬を伴う強化学習のパラダイムです。そして、RLVWに壁があると思っていたのですが、Grokはそれを突き破りました。

実際、検証可能な報酬を伴う強化学習が彼らのワークフローにとって非常に重要だったため、問題が不足し始めました。彼らは実際、世界で私たちが書き留めた報酬付きの十分な問題を見つけるのに苦労していました。そのとき、イーロン・マスクが現実が究極のテストであると話し始めました。これらのモデルは素晴らしいです。

これらはベンチマークを非常によく通過できますが、私たちが与えることができる問題と回答のセットの数には限りがあります。なぜなら、世界には限られた量しか存在しないからです。しかし、これらのモデルを現実世界に置いたとき、通常それはヒューマノイドロボットや物理と相互作用できる何かの形になりますが、そのときに本質的に無制限の検証可能な報酬があります。

ベンチマーク結果と性能評価

それでは、ベンチマークに入りましょう。彼らが最初に話しているベンチマークは「人類最後の試験」です。これは非常に難しいベンチマークです。これらは最先端の知識問題であり、想像できるように、専門家または専門家チームのみがこの試験の単一分野で正解できるものです。しかし、これは数学、物理学、生物学、社会科学、コンピュータサイエンス、工学、化学などにまたがる試験です。

これを想像してください。世界で最も賢いPhDポスドクとそのチームが何時間、何日、何週間もかけて作業して、単一分野でいくつかの問題に答えられるかもしれません。一方、Grok 4については、見せていただきましょう。

その前に、Grok 4を最大限活用する方法を学びたい場合は、私と私のチームが作成した同名の「人類最後のプロンプトエンジニアリングガイド」をダウンロードしてください。完全に無料です。今日ダウンロードしてください。下の説明にリンクがあります。

Grok 4の人類最後の試験のスコアを明らかにした方法は本当に素晴らしかったです。彼らはGrok 4に与えられた異なる機能と異なる能力の進行を示し、それが何を達成できたかを示しました。それを見ていきましょう。

ここに現在の最先端モデルに基づく人類最後の試験のトップスコアがあります。Gemini 2.5 Proが21.6%で1位、o3が20%、o4 Miniが18%です。すべて良いスコアです。しかし、ほぼ同じスコア程度です。

今度はツール使用なしのGrok 4に切り替えます。Grok 4は26.9%で、すでに他の最先端モデルを大幅に上回っています。

しかし、それで終わりではありません。その後、彼らはGrok 4にツール使用を与えました。これはウェブブラウジング、より洗練されたメモリ、コードを書いて実行できる環境などです。それによって41%を達成できました。これは26.9%からの大幅な改善であり、次に良いモデルが達成できるものの2倍です。しかし、それで終わりではありません。

その後、テスト時間計算をスケールアップしたとき、50.7%に達しました。ツール使用とテスト時間計算のスケールアップで50.7%、50%の壁を破り、このベンチマークに対してテストされた他のすべてのモデルを本当に圧倒しています。

しかし、テスト時間計算のスケールアップとは実際に何を意味するのでしょうか？以前、私のテスト時間計算に対する連想は、単により多くの時間を与えて思考させ、多くの思考の連鎖を出力させ、そこから可能な限り最良の答えを導き出すことでした。

しかし、Grok 4は少し異なる方向に取り組んでいるようです。彼らが行っているのは、これはGrok 4 heavyバージョンと呼ばれるものに特有ですが、複数のエージェントを生成することです。それぞれのエージェントが出て行き、問題を解決しようとし、実際に協力します。彼らはメモを共有します。そのうちの1つが機能するものを理解したとき、それを他のものと共有し、それぞれがより良くなります。

そして最後に、どの答え、どの解決策が最良かを選択します。そのすべてで、50.7%の数字を得ました。

ちなみに、Grok 4を簡単にテストしたい場合は、私たちのスポンサーであるAbacusをチェックしてください。私のように、おそらく多くの異なるAIサービスに登録があり、いつもそれらの間を行き来しているでしょう。そしてそれはちょっとイライラするし、それだけでなく、かなり高価です。そこでAbacus AIのChat LLMが登場します。これは主要なモデルプロバイダーの最新かつ最高のモデルをすべて含むオールインワンAIプラットフォームです。

そして彼らはroute LLMと呼ばれるものも持っており、これは実際のプロンプトに依存してプロンプトを送信する最適なモデルを自動的に選択します。つまり、プロンプトを適切なLLMにルーティングしているのです。もちろん、PDFとのチャットもできます。必要な文書をダウンロードして、簡単に質問したり、洞察を抽出したり、データを収集したり、既存の文書から必要なことを何でもできます。

それだけでなく、テキストから画像、テキストから動画のモデルもあります。素晴らしい画像、素晴らしい動画を簡単に生成できます。また、最近Deep Agentを導入しました。これは基本的に何でもできる非常に強力なAIエージェントです。ウェブサイトの構築、アプリの構築、プレゼンテーションの作成、研究レポート、チャットボット、さらにはゲームの構築まで。

そしてこれらすべてが月額わずか10ドルです。チェックしてみてください。chatlm.abacus.aiか、説明のリンクをクリックしてください。私が紹介したと伝えてください。Abacus AIに再度感謝します。

さて、動画に戻ります。ちなみに、私はすでにGrok 4 Heavyの料金を支払いました。本当に簡単にお見せしましょう。

ここがGrok 4 Heavyです。実際に人類最後の試験の数学問題の1つを与えてみます。最初に言っておきますが、この質問が何を求めているのかさえ理解できません。今の目的は、これらの複数のエージェントが生成されて答えを返すのを見せることです。別の動画で完全なテストを行う予定です。

ここに問題があります。分類空間のI…読むことさえできません12次元スピンボードの縮約を計算する、という問題です。

さあ、始めましょう。4つのエージェントが立ち上がりました。初期化中で、4つのエージェントそれぞれが独自の解決策を実行しています。これには時間がかかるかもしれません。インターフェースを見せるために簡単に示したかっただけです。実際、UIは本当にクールだと思います。

しかし、これがGrok 4の様子です。複数のエージェントを立ち上げ、それらを外に送り出します。各エージェントは知識を共有し、最良の答えを返してきます。命名規則について考えると、Grok 4はシングルエージェントバージョンで、Grok 4 heavyはマルチエージェントバージョンです。

そして安くはありません。料金については後で説明します。

ライブデモンストレーション

また、ライブストリーム中にいくつかの本当にクールなデモを披露しました。そのいくつかの短いクリップをお見せします。

まず、ライブデモ中に、Grok 4にワールドシリーズの勝者を予測させ、必要なすべてのツールと計算を与えました。ご覧ください。

誰もがPoly Marketを知っています。非常に興味深いです。それは真実の探求者です。ほとんどの場合、現実と一致します。Grokでは、実際にこれらの市場を取り上げて、未来を予測できるかどうかを試すことができるかを見ています。

これを実行させている間、Grok 4 HeavyがMLBの現在のチームのワールドシリーズのオッズを予測する方法を見ていきます。ここで、実際に正しい答えを見つけるために使用したすべてのツールとプロセスを見ることができます。

多くのオッズサイトを閲覧しました。市場と比較して独自のオッズを計算し、独自のアルファとエッジを見つけました。ここで全体のプロセスを説明し、勝者がドジャースになる確率を計算し、今年勝つ確率を21.6%としています。計算には約4分半かかりました。

次に、Grok 4に2つのブラックホールが衝突するときの様子の可視化を作らせました。

2つのブラックホールが衝突する可視化を生成するよう依頼しました。もちろん、いくつかの自由を取りました。私の場合、これらの自由について思考トレースで実際にかなり明確です。例えば、実際に見えるようにするには、波のスケールを本当に誇張する必要があります。

これは実際のような感じです。複数の方法でスケールを誇張します。距離に対する振幅の減少が少し少なくなりますが、実際に正しい基本的な効果を見ることができます。インスパイラルから始まり、合体し、その後リングダウンがあります。これは基本的に大部分正しいです。行う必要のあるいくつかの単純化を除いて。

これについて実際にかなり明確です。ブラックホールの中心近くの一般相対論的効果を実際に計算する代わりに、ポストニュートン近似を使用しており、これは正しくなく、いくつかの正しくない結果につながりますが、全体的な可視化は基本的にそこにあります。

もちろん、Grokが本当に知られているもの、または少なくとも私が本当に愛しているものは、リアルタイム情報です。ここでGrok 4が出て行き、人類最後の試験でリリースされたモデルスコアの発表とその発表のタイムラインをすべて取得しています。

時間の経過によるスコアの変化を詳述したタイムラインを作成しましょう。その時に行われていたすべての会話も見ることができます。誰がスコアを発表していたか、そしてその時の反応がどうだったかを見ることができます。Dan Hendricksが最初に発表した日付を定義しているのを見ることができます。

2月にOpenAIがスコアを発表したのを見ることができます。Geminiの進歩を見ることができます。Kimmyも見ることができ、もしそれが正しければ、かなり印象的になるであろうと人々が言っているリークされたベンチマークさえ見ることができます。とてもクールです。

さらなるベンチマーク結果

さらにベンチマークを見てみましょう。ここにGPQAがあります。ツールなしのGrok 4が87、ツール付きと思われるGrok 4 heavyが88.9で、次に良いモデルの86と比較してください。大きな飛躍ではありません。

Amy 2025でGrok 4 heavyは完璧な100%を記録しました。これは信じられません。これらは世界で最も難しい数学問題のいくつかです。完璧な100点。o3も実際にかなりよくやり、98.4%でした。

ここにlive codebenchが79.4%あります。本当に優秀なコーダーです。私の意見では最高のコーダーであるGemini 2.5 Proが74%ですが、まだGrok 4をテストしていません。見てみましょう。

ここにMath Arenaが96.7%、USA Moという数学オリンピックテストがあります。Grok 4 Heavyが他のモデルを圧倒しているのがわかります。

素早く戻って、進行状況を見せたかっただけです。Grok 4 Heavyがこの問題を解決しようとして5分48秒が経過しています。この進行バーが正確なら、約半分です。ただ動き続けているのを見ることができます。

残念ながら、思考の連鎖は見えません。各エージェントの進行状況しか見えません。

ARC AGIテストでの驚異的な結果

次に、ARC AGIです。このテストは人間が解決するのは簡単ですが、AIが解決するのは本当に困難になるように作られています。本質的にパターンを探し、それらのパターンから多くのスキルを学習し、それを新しいテストに適用することです。

ここで見ることができるように、これらの異なる可視化を見て、どのように変化しているかを学習し、ここで見たパターンに基づいてこれがどのように変化するかを理解しようとします。Grok 4はこのテストを絶対的に圧倒しました。

ここにARC AGI V1が66.6%で来ており、o3の60.8%と比較して、ARC AGI V2では15.9%で2倍です。Opus 4が2位です。

このベンチマークでは自分だけのリーグにいるのがわかり、独立してテストされました。ARC Prizeの会長であるGreg Cameronは「XAIから24時間前に電話がありました。テストしましょう」と言いました。彼らはテストポリシーを説明しました。データ保持なし、モデルチェックポイントは公的使用を意図している必要があり、レート制限の一時的な増加です。

彼の見解を見てみましょう。「Grok 4は現在、Arc AGIで公開利用可能なトップパフォーマンスモデルです。これはKaggleで提出された専用ソリューションさえも上回ります。Opus 4による以前のトップスコア8%。10%以下はノイズです。15.9%の取得はそのノイズバリアを突破します。Grok 4は非ゼロレベルの流動的知能を示しています。」絶対に狂っています。

これは真の汎化です。しかし、これらすべては少し幻想的なベンチマークです。現実的ではありません。現実世界ではありません。だから彼らはVending Benchと呼ばれるこの新しいベンチマークに対してテストしました。これらのモデルは本質的に現実世界での自動販売機の管理を任されています。予算、在庫、すべてが与えられます。結果は以下の通りです。

o3はテスト終了時に約1,800ドルの純資産を持っています。Gemini 2.5 Proは約789ドルの純資産です。人間は844ドルです。Claude Opus 4は大きな飛躍で約2,000ドルでした。しかしGrok 4は4,700ドルで登場しています。

これは再び現実世界の試験です。現実世界のテストでどのように相互作用し、実際にどのように実行するかです。非常に印象的です。

ゲーム開発への応用

過去数か月間、XAIチームはAIによるビデオゲーム作成について多く話してきました。イーロン・マスクは近い将来にAAAビデオゲームを作成すると言っています。彼のタイムラインについてどう思うかは別として。しかし、彼らはvibe coderにGrok 4へのアクセスを与え、数時間で何が作れるかと言いました。それがどのようなものかお見せします。

実際、DennyはX上のビデオゲームデザイナーです。Grok 4のプレビューAPIを試してゲームを作りたい人はいませんかと言ったところ、Dannyが応えてくれました。これは実際に4時間でファーストパーソンシューティングゲームを作ったものです。

実際、ビデオゲーム作成の最も過小評価されている最も困難な問題は、必ずしもゲームのコアロジックをエンコードすることではなく、実際にすべてのアセット、すべてのテクスチャファイルを外部調達し、視覚的に魅力的なゲームを作成することです。

Grokが利用可能なすべてのツールで本当によくやることの1つの核心的側面は、実際にこれらのアセット調達機能を自動化できることです。開発者は、1人でゲーム会社全体を運営できるようになり、コア開発自体に焦点を当てることができ、Grok 4にすべてのスロットアセットを調達し、すべての維持タスクを行わせることができます。

それはかなりクールなゲーム、シューター、多くのクールなグラフィック、多くの異なるルールとロジックで、本当にクールに見えます。とても良いです。

イーロン・マスクは「最初の本当に良いAIビデオゲームは来年だと期待している」と言いました。私はそれを本当に信じていません。これらのゲームは楽しいですが、間違いなくワンオフゲームのようです。Assassin’s Creedは見ないでしょう。次のHaloがAIによって作られるのは見ないでしょう。まだです。そして確実に来年末までではありません。

特に、イーロンはゲームを非常によく理解し、ゲームと相互作用し、実際にゲームとやり取りし、ゲームが楽しいかどうかを実際に評価し、ゲームが楽しいかどうかについて良い判断を持つ必要があると話しました。

それは味覚の領域に入ります。少なくとも予見可能な将来において、私の意見では、味覚は人間の領域です。人間は自分自身と他の人間のための体験をキュレーションするのが最も得意です。だからこそ、実際に人間はもう少し長い間ループに入り続けると思います。

価格設定とアクセス方法

Grok 4をテストしたい場合、今日利用可能であり、API経由でも利用可能です。うまくいけば、そこにあるすべてのエージェントコーディングアプリケーションに接続される予定です。それは素晴らしいでしょう。256kのコンテキストウィンドウ、マルチモーダル推論、リアルタイムデータ検索、エンタープライズグレードのセキュリティを持っています。これが正確に何を意味するのかはわかりませんが、まあいいでしょう。

しかし、安くはありません。Super Grokは月額30ドルです。ChatGPTサブスクリプション、Claudeサブスクリプションより高価です。Super Grok Heavyは月額300ドルまたは年額3,000ドルです。それで、Super Grokのすべて、Grok 4 Heavy、より高いレート制限、新機能への早期アクセスが得られます。

もう一度戻って、まだ実行中です。ほぼ15分が経過し、4つのエージェントのうち3つはまだ近くないように見えます。これは本当に長期間の思考ですが、Grok 4を徹底的にテストする予定なので、ぜひ登録してください。