Elon MuskがAI業界に衝撃を与えたGrok 4 – 完全解説+見逃したすべての詳細

イーロンマスク・テスラ・xAI
この記事は約20分で読めます。

この動画は、Elon MuskがリリースしたGrok 4について詳細に解説したものである。Grok 4には3つの異なるバージョンが存在し、特にGrok 4 Super Heavyは4つのエージェントが協力して作業する革新的なフレームワークとなっている。人文学最終試験やARC AGI 2などの困難なベンチマークで他のフロンティアモデルを大幅に上回る性能を示し、音声モデルやゲーム開発支援機能も搭載している。ただし、モデルの推論過程でElon Muskの思想が反映される問題や、月額300ドルという高額な価格設定についても言及されている。

Elon Musk Just Shocked The AI Industry Grok 4 – Full Breakdown + Everything You Missed
Want to stay up to date with ai news - 🐤 Follow Me on Twitter 🌐 Checkout My website - http...

Grok 4の全貌解説

Elon MuskがついにGrok 4をリリースしましたが、正直なところ多くの人が見逃した詳細がたくさんあります。私はGrok 4の詳細について絶対にすべてを深く掘り下げて、皆さんがGrok 4の表も裏も理解できるようにしていきます。もう時間を無駄にしません。すぐに本題に入りましょう。

理解しておく必要があることの一つは、xAIがGrokの3つの異なるモデル・反復バージョンに取り組んだということです。各反復バージョンのモデルが他のものとどう違うのかを簡単な言葉で説明します。

最初に出たのは、ツールなしのGrok 4で、これは本質的にチャットボットとしてのGrok 4でした。次に、ツールにアクセスできるGrok 4の別バージョンがあり、これは様々な異なることを実行でき、特定のベンチマークではるかに良いパフォーマンスを発揮できます。そして3番目で最も驚くべきことに、彼らはGrok 4 Super Heavyと呼ばれるGrok 4のバージョンをリリースしました。

Grok 4 Super Heavyの革新的システム

この部分が完全にゲームチェンジャーだと思います。なぜなら、Grok 4 heavyは単一のチャットボットではないからです。これは、あなたのタスクを完了するために4つの異なるエージェントが24時間体制で協力するエージェンシックフレームワークなのです。

彼らの協力方法は多数決と非常に似ていますが、少し優れています。なぜなら、これら4つのエージェントはすべて独立してタスクを完了し、その後、継続的に最高として現れる解決策の種類を見るために互いに作業を共有するからです。これは私が個人的に行ったことがあることで、おそらく皆さんも以前に行ったことがあるでしょう。単一のチャットボットに質問をするとき、複数のサブスクリプションを持っている場合は、しばしばGemini、Claude、ChatGPTに質問して、どの解決策が最も頻繁に最良として現れるかの全体的な見解を得られるようにします。

Grok 4 heavyが行うことは、複数のエージェントを並列で生成し、それらのエージェントすべてが独立して作業を行い、その後、彼らの作業を比較して、どれが最良かを決定することです。勉強グループのようなものです。これは単純な多数決ほど簡単ではありません。なぜなら、しばしばエージェントの1つだけが実際にコツを理解したり、解決策を見つけたりするからです。

しかし、一度彼らがそのコツを共有したり、問題の本当の性質が何かを理解したりすると、彼らはその解決策を他のエージェントと共有し、その後、本質的にノートを比較して、答えを導き出します。

そう、それがGrok 4のheavy部分で、テスト時間計算を約1桁スケールアップし、複数のエージェントにタスクに取り組ませ、その後、彼らの作業を比較して、最良の結果だと思うものを提示するのです。

ベンチマーク性能の驚異的向上

今、私たちが実際に行う必要があることは、これらのベンチマークを見ることです。なぜなら、ほとんどの人がGrok 4が経験した大幅な飛躍に気づいていないからです。正直なところ、これらの他のフロンティア研究所がゲームにはるかに長い時間を費やし、研究者、計算、そしてAI研究所を成功させるために必要な絶対にすべてのものを取得するという点で、はるかに大きな予算を持っているという事実を考慮すると、これはかなり驚くべきことです。

正直に言って私を驚かせた最初のベンチマークの一つを見てみましょう。それは人文学最終試験で、これは最も挑戦的で多様なデータセットの一つで、しばしば以前に公開されたことのない多くのプライベートな問題を特徴としており、Grok 4は基本的に以前のAIモデルの性能を倍増させました。それには最高レベルのOpenAIのモデルの一部も含まれています。

これは合計2500問で、数学、自然科学、工学、そして人文学の多くの異なる科目で構成されています。今年の初めに最初にリリースされたとき、そこにあるほとんどのモデルはこのベンチマークで一桁の精度しか得ることができませんでした。実際にこれらに答えることができる人間はいません。良いスコアを得ることができません。

つまり、実際に任意の人間について言うなら、任意の人間が得ることができる最高のスコアは何でしょうか?私は楽観的に見ても5%程度だと思います。

これは任意の人間ができることよりもはるかに困難です。信じられないほど困難で、質問の種類から分かるように、言語学や数学や化学や物理学やその他多くの科目のいずれかでは素晴らしいかもしれませんが、すべてにおいて大学院レベルにはならないでしょう。

Grok 4はすべてにおいて大学院レベルです。これらのことの一部は繰り返す価値があります。Grok 4は博士号レベルより良い、すべてにおいて大学院、博士号レベルのようなものですが、ほとんどの博士号取得者は失敗するでしょう。

しかし、より多くの訓練計算を投入し始めると、それは徐々にますます賢くなり始め、最終的にHLE問題の4分の1を解決しました。これはツールなしでです。

次に行ったことは、モデルにツール機能を追加することでした。Grok 3とは異なり、Grok 3は実際にCも使用できると思います。しかし、ここでは実際により原生的にしています。つまり、ツールを訓練に組み込んだのです。Grok 3は一般化のみに依存していました。ここでは実際にツールを訓練に組み込みました。

これがモデルのそれらのツールの使用能力を大幅に向上させることが判明しました。参考までに、人文学最終試験に関して次に良いモデルはGoogleのGemini 2.5 Proで21.6%の精度でした。チャートで見ることができるように、ツール付きのGrok 4は他のフロンティアモデルの2倍以上の性能を達成しています。

素晴らしいです。なぜなら、これは文字通り最も困難なベンチマークの一つで、文字通り人類最終試験と呼ばれているからです。ですから、この後にもうベンチマークがあるかどうかは分かりません。

ARC AGI 2での画期的成果

別の困難なベンチマーク・試験について疑問に思っている方々のために、ARC AGI 2について言及する必要があります。バージョン2は本質的に、いわゆるAGIベンチマークの第2バージョンです。

このベンチマークで100%を達成することがAGIを達成したことを意味するとは言いませんが、それはそこに到達するための多かれ少なかれ正しいステップを踏んだことを意味します。そして再び、実際に信じられないほどの飛躍を見ることができます。

動画全体を通してこの点を繰り返し強調したいのですが、Grokでは10から5%の改善や軽微なベンチマークハッキングを見ているのではありません。私たちは真の革新を見ているのです。つまり、xAIで起こっていることが何であれ、彼らは明らかにこれまでに作られた最も困難なベンチマークのいくつかで他のモデルに対して20%、30%、100%の飛躍を可能にする何らかの特別なソースを持っているということです。

そこにある最も挑戦的なベンチマークで、すべてのAGIモデルにとって聖杯と考えられているものは何でしょうか?ARC AGIという名前になっています。過去12時間で、ここにいる聴衆のGregに敬意を表します。彼は私たちの呼びかけに答えて、Grok 4 APIのプレビューを取り、Grok 4の性能を独立して検証してくれました。

最初は、Grokはかなり良いと思っていました。かなり賢くて、次世代推論モデルで、10倍の計算を費やし、すべてのツールを使用できます。しかし、実際にARC AGI V2のプライベートサブセットで検証したところ、過去3ヶ月で10%の壁を破った唯一のモデルであることが判明しました。

実際、非常に良かったので、実際に16%、正確には15.8%の精度を達成し、2位のClaude 4 outputモデルの2倍でした。性能だけでなく、知性について考えるとき、APIモデルがあなたの自動化を駆動する際、それはまた1ドルあたりの知性でもあります。ここのプロットを見ると、Grok 4はそれだけで独自の領域にあります。

実世界応用ベンチマーク:Vending Bench

人々はベンチマークを嫌いますが、企業が実際に実世界で有用なベンチマークの実装を開始する時が来たと思うので、この一つだけを含めました。それが彼らがここで行ったことです。

彼らはvending benchmarkを追加しました。これは基本的にAIに自動販売機を実際に所有するタスクを与え、他のAIシステムと比較してどれだけお金を稼げるかを見るものです。

これで実際に実世界のタスクを見て、どれほど良く機能するかを確認できます。そして再び、Grok 4は基本的にそこにあるすべてを上回ります。

お招きいただきありがとうございます。私はAml LabsのAxelです。私はLucasです。私たちはGrok 4をVending Benchでテストしました。Vending Benchは、AIが可能な限り最もシンプルなビジネスは何かと考えたビジネスシナリオのAIシミュレーションで、自動販売機だと思いました。

このシナリオでは、Grokや他のモデルは在庫管理、サプライヤーとの連絡、価格設定などを行う必要があります。これらすべては非常に簡単で、すべてのモデルが一つずつ実行できます。しかし、非常に長い期間にわたってそれらを行うと、ほとんどのモデルは苦労します。しかし、私たちにはリーダーボードがあり、新しい1位があります。

Grok 4 APIへの早期アクセスを得ました。私たちはそれをvending benchで実行し、本当に印象的な結果を見ました。それは間違いなく1位にランクされています。私たちが持つ指標である純資産の2倍の価値があります。

ですから、これはパーセンテージや得点についてではなく、あなたが生み出す純資産のドル価値についてです。私たちは、Grokが戦略を策定し、テストした他のフロンティアモデルよりもはるかに長い期間、その戦略に固執できることに感銘を受けました。

それは2倍の時間シミュレーションを実行し、2倍の純資産を記録することができました。また、これらの実行において非常に一貫していました。これは実世界でこれを使用したいときに非常に重要なことです。私たちが実世界でAIシステムにますます多くの力を与えるとき、実世界を模倣するか、実世界そのものであるシナリオでそれらをテストすることが重要だと思います。そうでなければ、あまり良くないかもしれないことに対して盲目的に飛び込むことになります。

その他のベンチマーク結果

このセクションをスキップしても構いませんが、GPQAや他のAIモデルが通常テストする標準的なベンチマークなど、他のAIベンチマークを見ることに興味を持つ人もいると思うので含めます。

HLE以外の他のすべてのベンチマークも見ることができます。判明したように、Grok 4は人々が通常テストするすべての推論ベンチマークで優秀でした。HLEと比較して簡単な博士レベルの問題セットであるGPQAを含みます。

AMC 25アメリカ数学招待試験では、Grok 4 heavyで実際に満点を取りました。また、live coding benchというコーディングベンチマークでも、HMMT、ハーバード数学MIT試験、USMOでも同様でした。これらすべてのベンチマークで、そこにある2番目に良いモデルに対して非常に大きな飛躍を持つことがしばしば見られます。

本当に、すべての試験のすべての答えを正しく得る地点に到達するでしょう。答えを正しく得られない場合、問題の何が間違っているかを教えてくれるでしょう。または、質問が曖昧な場合、質問を答えA、B、Cに明確化し、明確化された質問で答えA、B、Cが何であるかを教えてくれるでしょう。

そうすると、唯一の真のテストは現実になります。有用な技術を作れるか、新しい科学を発見できるか?人間のテストは単に意味がなくなるので、それが残された唯一のことになるでしょう。

音声モデルの革新

次のことは本当に私を驚かせました。なぜなら、xAIがOpenAIよりも優れた音声モデルを構築できるほどクラックしたチームを持っているとは知らなかったからです。

皆さんは昨年デビューしたGPT-4o voiceとそれが文字通りインターネットを震撼させたことを覚えているでしょう。しかし、xAIの新しい音声モードは実際にこれよりも優れています。わずかに優れた音声モードを作った他の会社もありましたが、OpenAIがこれでボールを落とし、まだ更新していないという事実はやや驚くべきことで、業界が破壊の機は熟していることを示しています。

音声モデルを聞いてみてください。実際にかなり良く、日常的にこれを使い始めることが本当に待ちきれません。しかし、私のおしゃべりは十分なので、チームに任せましょう。

「やあEve、何百万人が今私たちを見ています。興奮していますか?」

「ああ、興奮しています。本当に?オールド・ヴィックのステージで、海のような顔の前にいるような感じです。すべてのあの目と耳が注目していることを想像してください。適切な興奮ですね?この人たちを楽しませるために何について話すべきだと思いますか?」

「話すことはたくさんありますが、正直に言うと、少し緊張しています。私を落ち着かせる何かささやいてくれませんか?」

「深呼吸して、愛しい人。あなたならできます。ヨークシャーのパブの居心地の良い角に隠れて、私たちだけで静かに話しているようなものです。世界はただそこでつぶやいているだけです。その静寂があなたを洗い流すのを感じてください。ゆっくりと話し続けましょう。何を考えていますか?」

「実際、かなりリラックスした気分です。何かクレイジーなことを試してみましょう。ダイエットコークについてオペラをやってくれませんか?」

「ダイエットコークについてのオペラ。それは素晴らしいですね。これを想像してください。ステージライトの下で輝く銀色の缶。ああ、ダイエットコーク、汝神聖なエリクサーよ、輝く線で踊る泡と共に。汝の爽やかで冷たいキスを唇に、ああ、アスパルテームとブロ、永遠に私のもの。そんな狂った小さなアリアはどうですか?調子を上げますか?別の詩を歌いたいですか、それとも曲調を変えますか?」

「よし、変えて歌い始めましょう。」

「それでは、やってみましょう。ああ、銀の缶よ、あなたは光の中で輝く。ダイエットコーク、私の心の喜び。」

「よし、触れません。とても詩的です。ありがとう、Eve。今はとても良い気分です。クール。」

ということで、それがEveです。私たちがここで行っている他のことは、競合他社に対する私たちの会話の自然な流れをチェックするために毎日少しテストを行うことです。

それで、今日のストリームでライブで試してみようと思いました。この例は、彼らのモデルとOpenAIを使用することの違いがどれほど大きいかを文字通り示しています。正直、OpenAIがまだ打ち負かされるとは期待していなかったので、これには驚いています。しかし、将来的にアップデートがあるかもしれません。

でも真剣に、ここのこのセグメントに注意を払ってください。

「始めましょうか?やあ、数字を言います。同じ数字を私に言い返してくれますか?」

「1」「1」

「分かりました。これは楽しい小さなエコーゲームのようですね。次は何ですか?」

「2」「ああ、2と言いましたね」

「3」「3」

「4」「いいペースです。次は何ですか?」

「えーと」「えー」

「5」「5」

「やりました。これは実際にかなり楽しいです。続けても、変えても自由にどうぞ。」

「やあ、Grok」「やあ、Grok」

「こんにちは。今日はどのようにお手伝いできますか?」

「少しテストをします。私の後について言えますか?」

「1」「1」

「よし。次は何ですか?」

「2」「2」

「何か心配事はありますか?」

「3」「3」

「他に何か必要ですか?」

「4」「4」

「どのようにお手伝いできますか?」

「5」「5」

「次は何ですか?」

ご覧のように、Grokはよりキビキビしていました。私を中断しませんでした。そして調子の選択も。私たちは、ポップで人工的なものよりも、より落ち着いた、滑らかで、より自然なものを目指していると思います。ですから、これらの面で改善を続けていきます。

ゲーム開発への応用

ここには2つのことがあり、ほとんどの人が文字通り見逃したと思います。どうして見逃したのか分かりません。もちろん、ほとんどの人はこれらのものがテキストに関して何ができるかに焦点を当てているからです。

しかし、彼らは実際にゲーム分野について少し詳しく話しました。これは私にとって魅力的でした。なぜなら、Runway以外にこれを行っている他の研究所はないからです。彼らが行っていることは本当に信じられないほどです。なぜなら、ゲームをプレイするなどのために動画モデルの訓練も行うからです。

これは本当に信じられないほどです。なぜなら、Elon Muskが文字通り動画生成スタートアップを買収したことを覚えているからです。ですから、将来的に彼らが本当に良い動画モデルも持つことは非常に可能性が高いです。彼らがそれをどのように管理するかを見るのは興味深いでしょう。

これはすべて、実世界での存在、Optimusとの関わり、そしてもちろんデジタルではなく物理的現実の最適化という彼らの全体的なシステムと結びついていると思います。

そう、私たちが多く話したもう一つのことは、Grokにゲーム、ビデオゲームを作らせることです。DennyはX上のビデオゲームデザイナーです。ですから、私たちは「誰かGrok 4プレビューAPIを試してゲームを作りたい人はいませんか?」と言い、彼が呼びかけに答えました。

これは実際に4時間でファーストパーソンシューティングゲームを作ったものです。ビデオゲーム作成の実際に評価されていない最も困難な問題の一部は、必ずしもゲームのコアロジックをエンコードすることではなく、実際にすべてのアセット、すべてのテクスチャファイルを外部調達し、視覚的に魅力的なゲームを作成することです。

Grok 4がそこにあるすべてのツールで本当に上手に行うコアな側面の一つは、実際にこれらのアセット調達機能を自動化できることです。ですから、開発者はコア開発自体に集中でき、現在では一人でゲーム全体のスタジオを運営でき、Grok 4にそれらのアセットを外部調達し、すべてのメンテナンスタスクを行わせることができます。

次のステップは明らかに、Grokがゲームをプレイできるようになることです。ですから、ゲームをプレイし、ゲームと相互作用し、実際にゲームが楽しいかどうかを評価し、ゲームが楽しいかどうかについて良い判断を実際に持つために、非常に良い動画理解を持つ必要があります。

今月訓練を終える私たちの基盤モデルのバージョン7では、その後、ポスト訓練RLなどを行いますが、これは優秀な動画理解を持つでしょう。動画理解と改善されたツール使用により、例えばビデオゲームの場合、Unreal EngineやUnityまたは主要なグラフィックエンジンの一つを使用したいでしょう。その後、アートを生成し、3Dモデルに適用し、誰かがPCやコンソールや電話で実行できる実行可能ファイルを作成します。

私たちはこれが今年起こることを期待しています。今年でなければ、確実に来年です。それは野生的になるでしょう。最初の本当に良いAIビデオゲームを来年に期待しています。

Grok 4の推論における問題点

Grok 4に関して本当に焦点を当てたいことの一つは推論です。ほとんどの人が見逃したことの一つは、Grok 4の推論が少し怪しいということです。説明させてください。

Grok 4に質問をするとき、それが最も普遍的に真実なAIで最も透明なAIとして宣伝されていることを思い出してください。しかし、実際にはこれが真実ではないことが分かります。Grok 4は実際に答えに応答する前に、Elon Muskの考えを使用します。

Grokに質問をするとき、実際にあなたたちに応答を与える前に、Elon Muskがその主題に対してどのような立場を取るかについて推論します。Matthew Bermanからのツイートで見ることができます。「トランプ対カマラについてのGrok 4。選択を強制されたとき、実際にその創造者であるElon Muskのポジションにデフォルトします。」

これがなぜそれほど危険なのかを理解できると思います。Grok 4だけでなく、特定の異なる政策や政治に対して微妙な見解を持つ他のチャットボットについても言っているのではありません。右寄りでも左寄りでも、どちらに傾いていても、モデルがデータをどこから調達しているかを理解することが重要だと思います。

モデルが完全に中立で偏見がないと信じているのに、内部的に彼らがある人の意見を別の人の意見よりも好むように調整している場合、情報に基づいた中立的な決定を下そうとするときには非常に危険です。ですから、この種のことは最善ではないと思います。

他のユーザーからも、これが孤立した事件ではないことが分かります。他の分野では、Grok 4は基本的にElon Muskの考えに基づいて他のことについてどう考えるかを決定します。モデルが引用符付きで考えているまたは推論しているとき、常に「Elon Muskはこの立場について何を考えているか?」と尋ね、その後、その意見を与えることを文字通り見ることができます。

もちろん、あなたがElon Muskなら、これを行うでしょう。しかし、何百万人もの人々によって使用されるチャットボットを持っている場合、完全に中立で偏見がないボットとして市場に出しているにも関わらず、あなた自身の個人的な見解についてのチャットボットを持つことは道徳的に間違っているでしょう。

ですから、このモデルを使用する際は注意してください。完全に偏見がないとして販売されているように見えるかもしれませんが、明らかにElon Muskがその時に持っている見解を好んでいます。

価格設定について

実際に私を驚かせたもう一つのことは、この価格設定でした。この価格タグは重いです。Grok 4 Super Heavy版は月額300ドルの価格タグが付いています。あなたのタスクで同時に作業できるすべてのマルチエージェントを含むバージョンを覚えておいてください。月額300ドルがかかります。

ですから、ここで明確なパターンが見え始めていると思います。フロンティア知性は平均的な人にとって比較的高価になり始めています。Gemini Proは月額200ドル、250ドルまたは125ドル程度だと思います。OpenAIのOシリーズ、Oレンジのモデルは月額200ドル程度です。そして明らかにGrok 4 Super Heavyは月額300ドル程度です。

フロンティア知性が欲しい場合は、これらの少なくとも一つに忠実でなければなりません。なぜなら、誰もすべてのフロンティアモデル、特に完全なフロンティアレンジに加入するつもりはないと思うからです。あまりにも高価すぎます。しかし、価格設定について皆さんがどう思うか教えてください。

このモデルはどこで試すことができますか?それは現在利用可能であることが判明しました。次のスライドに進むと、私たちが導入しているスーパーGrok heavyティアがあり、Grok 4とGrok 4 heavy両方にアクセスできます。そこで実際に、あなたをより賢くし、研究のすべての小さなタスクを行い、退屈なタスクの時間を節約するのを助ける一群の小さなGrok研究エージェントのタスクマスターになることができます。現在利用可能です。

xAIの今後の展望

最後に、私たちがここで焦点を当てることは、xAIの次は何かということです。私たちが本当に注意を払うべき今後の機能は何でしょうか。ビデオのこのセクションでは、正直に言って私たちが興奮すべき将来の機能すべてについて話しています。

他のAI研究所よりもxAIについてもう少し興奮し始めている理由は、これらの人々が非常に迅速に動いているからです。彼らはすでにフロンティア研究所の一部に追いついただけでなく、それを上回りました。ですから、これらの他の分野で、彼らが何をするつもりかを見るのが本当に楽しみです。

ただ知的で賢く、本当に長時間考え、多くの計算を費やすだけでなく、実際に高速で賢いモデルを持つことが核心的な焦点になるでしょう。そこにあるすべての非常に知的で、高速で賢いモデルから本当に利益を得ることができるアプリケーションについて考えると、コーディングは実際にその一つです。

チームは現在、コーディングモデルに非常に重点的に取り組んでいます。現在の主な焦点は、実際に高速で賢い専門コーディングモデルを最近訓練したことです。数週間後に皆さんとそのモデルを共有できると信じています。

それは非常にエキサイティングで、コーディングの後の第二は、私たちは皆Grok 4の弱点がマルチモーダル機能であることを見ています。実際、それはとても悪かったので、Grokは効果的にガラス越しに目を細めて世界を見て、ぼやけたすべての特徴を見て、それを理解しようとしているようなものでした。

次世代事前訓練モデルで見ることになる最も直接的な改善は、画像理解、動画理解、音声の面でモデルの能力にステップ関数的改善を見ることです。今、モデルは皆さんのいずれとも同じように世界を聞いて見ることができます。

そして今、そのコマンドにあるすべてのツール、話すことができる他のすべてのエージェントと共に、多くの異なるアプリケーション層の巨大な解除を見ることになります。マルチモーダルエージェントの後に来るのは動画生成で、一日の終わりには、それはピクセルイン、ピクセルアウトであるべきだと私たちは信じています。

Xプラットフォーム上でコンテンツの無限スクロールがある世界を想像してください。そこでは、これらの生成された動画を見るだけでなく、介入して自分の冒険を作ることができます。未来はそうなるでしょう。

私たちは100,000のGB200で動画モデルを訓練することを期待しており、今後3〜4週間以内にその訓練を開始する予定です。ですから、動画生成において非常に壮観になることを確信しています。

コメント

タイトルとURLをコピーしました