この動画では、xAI社が開発中のGrok 4について詳しく解説している。イーロン・マスクが予告したGrok 4は、世界で最も強力なチャットボットの一つになる可能性があり、今年最も過小評価されているAI発表の一つになると予想される。リークされたベンチマークによると、Grok 4は既存のモデルを大幅に上回る性能を示しており、特にHLE(人文系最終試験)ベンチマークで45%という驚異的なスコアを記録している。これは現在の最先端モデルであるo3の20%、Gemini 2.5 Proの21.6%を大きく上回る数値である。また、専用のコーディングモデルも開発されており、SWE-Benchで75%のスコアを達成している。一方で、Grokがイーロン・マスクの個人的な意見を反映する傾向があることも問題視されている。

Grok 4の登場とその重要性
Grok 4は世界で最も強力なチャットボットの一つになる予定です。そして私は、これが今年のAI発表の中で最も過小評価されているローンチの一つになる可能性が高いと考えています。イーロン・マスクは既に、非常に激しい技術市場において革新し競争する能力が極めて高いことを私たちに示しています。
AIに関しても同様です。そしてこの会社xAIは、今週のうちにGrok 4を発表する予定です。私は皆さんが、この会社にとって何がかかっているのか、そしてなぜこれがおそらくこれまでで最も素晴らしいローンチの一つになるのかを理解していないと思います。このビデオでは、実際に解き明かすべきことがたくさんあるので、皆さんが知る必要がある全てを詳しく説明していきます。
イーロン・マスクの最新発表
イーロン・マスクからの最近のツイートの一つで、彼はこう言っています。「私たちはxAIチームと一緒にGrokを徹夜で磨いている。良い進展がある。それはGrok 4と呼ばれ、7月4日直後にリリースされる予定だ」。
このビデオを録画している時点では、現在7月7日であり、このツイートの頃から大きなアップデートはありませんが、人々が理解する必要があるいくつかの重要な詳細があります。
彼はまた、ここで付け加えています。これは多くの人が見逃したことだと思います。なぜなら、誰もがモデルが7月4日にリリースされることを期待していましたが、彼は専用のコーディングモデルのためにもう一つの大きな実行が必要だと明確に述べていたからです。これがさらに2週間かかるものなのか、それともほんの数日だけかかるものなのかは完全には分からませんが、もう一つの完全な実行のためには、通常それは小さなプロセスではありません。
チームの献身的な取り組み
彼らが私たちを完全に暗闇に置いているとは言いたくありません。なぜなら、Grok 4がおそらく私たちを驚かせるであろうことを示すいくつかの声明や、さらにはいくつかのリークもあったからです。
この写真は実際にTwitterでかなりバイラルになりました。そして、この写真が真実ではないことを述べることが重要だと思います。AIが存在することは知っていますし、これらの写真は本当に非常にリアルに見えますが、これはチームの献身の量を強調するためのものです。彼らは実際にはオフィスでキャンプをしているわけではありませんが、チームが現在おそらく週7日働いており、この全体が確実にまとまるよう非常に長時間働いていることは知っています。
この写真を見ると、少しクレイジーに見えることは分かります。それはAI生成である可能性が高いからですが、メッセージは同じです。エンジニアたちは会社が追いつくことを確実にするために休むことなく働いています。
私たちは、xAIがAIハイプがあった8~12か月後に始まったと理解する必要があります。AI業界の著しいスピードを考慮すると、追いつき、追い越し、そして依然としてまともな市場シェアを獲得できることは、正直なところかなり注目に値します。
Gamma AIの紹介(スポンサー)
AI世界におけるスピードと効率について話すと、これらのチームが構築しているものだけでなく、私たちが同じ力を活用できるツールについても重要です。特にアイデアを伝えることに関して、その同じAI駆動の効率性の力を自分の仕事に取り入れたい場合、今日のスポンサーの出番です。
だからこそ、皆さんにGamma AIを見せる必要があります。Gamma AIは本質的にChatGPT、Notion、PowerPointが一つの素晴らしいAIツールにチームを組んだようなものだと考えてください。非常にスマートです。単純にアイデアやキーポイントを入力するだけで、Gammaは瞬時にそれらを洗練された、視覚的に美しいプレゼンテーションに変換します。デザインの調整に悩んだり、そういったナンセンスに苦労する必要はありません。毎回素晴らしく見えるAI駆動のスライドです。
AIインサイトを共有している場合、次の大きなアイデアをピッチしている場合、または複雑なデータを提示している場合、Gammaは全体のプロセスを合理化するので、重要なコンテンツに集中できます。さらに良いことに、Gamma AIを今日から無料で使い始めることができます。そして私と同じくらい気に入った場合、アップグレードもシームレスです。下のリンクをチェックして、次のプレゼンテーションにAI駆動のアップグレードを提供してください。
リークされたベンチマークの分析
今、私が本当に話したかったことの一つは、もちろん、完全に推測だけではありません。ここで物事を見ると、現在これが出回っています。これが本物かどうかは50/50です。しかし、このリークされたベンチマークがもう少し本物に向かっていると考える理由は、すぐに説明しますが、このベンチマークは向上することが不可能ではないという事実です。
しかし、xAIが最新モデルをリリースする際にベンチマークを打ち砕くことに成功したのは初めてではありません。Grok 3のリリースを覚えているなら、それは本当にインターネットを嵐で包みました。Grok 4 0629では、私が皆さんに指摘しようとしているいくつかの重要な数字を本当に見ることができます。
そして、私は実際にここでこの数字をハイライトします。これはおそらく最も重要なものです。HLEベンチマークはおそらく人々を衝撃させるでしょう。なぜなら、これは最も困難なベンチマークの一つだからです。ここの値に注意を払ってほしいと思います。HLE45とHLE 33と書かれているのが見えます。これは現在、人文系最終試験ベンチマークを指しています。
本質的にそれが意味することは、これは本当に勉強できないベンチマークだということです。Grokの標準版は、テスト時推論なしで35を達成するように見えます。しかし、思考を通じた追加時間でテスト時計算がある場合、約45のスコアを達成することが分かります。
このジャンプがどれほどクレイジーかを皆さんに見せたいと思います。Grok 4の標準モデルがリリースされる可能性があることを考えると、35を達成し、テスト時計算で45を達成することを覚えておいてください。これを見てください。現在のモデルを見ると、現在の最先端システムはこの種のパフォーマンスにどこも近づいていません。
o3が20%の精度を達成していることが分かります。Gemini 2.5 Proは21.6%を達成しています。しかし、これらのリークされた数字が真実である場合、xAIには信じられないほど才能のあるエンジニアがいることを考えると特に妥当だと思いますが、このベンチマークで大きな飛躍を見ている可能性があります。
HLEベンチマークの重要性
この超挑戦的なベンチマークは、本当に異なるため非常に重要だと思います。なぜなら、数学、自然科学、人文学、法律、医学を含む100以上の科目にわたっているからです。そして、文字通り専門家レベルの質問であり、50か国の500機関から約1000人の科目専門家からクラウドソースされています。
また、テキストベースと画像ベースの質問を含むマルチモーダルであり、哲学から高度な科学的推論まで信じられないほど幅広い知識をカバーしています。
この種の結果は、人々が注目しているベンチマークの一つだと思います。なぜなら、現在のGPQAやAIME数学ベンチマークなどのほとんどのベンチマークは、これらのLLMのためにスクレイピングされたデータの量により、ある程度飽和状態になっているからです。
Grokがそのような飛躍を遂げることができれば、AI業界の誰もの足跡をたどっているだけでなく、私たちが見たことのないレベルで実際に革新していることを示しています。これはかなりクレイジーだと思います。
人文系最終試験のWebページでは、AI開発の急速なペースを考えると、モデルが2025年末までにHLEで50%の精度を超える可能性があることは妥当であると述べています。そして、HLEでの高い精度は、クローズドエンドの検証可能な質問と最先端の科学的知識での専門家レベルのパフォーマンスを実証するでしょうが、自律的な研究能力やAGIを示唆するものではありません。
はい、それらのモデルが最先端で素晴らしいことを示唆しますが、まだAGIを示唆するものではありません。しかし、ベンチマークは非常に素晴らしいものです。
専用コーディングモデルの性能
このGrok 4の騒動全体について私が見つけたもう一つのことで、私がとても興奮している理由は、Grok 4が専用のコーディングモデルをリリースしているということです。
再び、このリークされたスクリーンショットから見ることができるのは、Grok 4専用コーディングモデルがSWE-Benchで72%を達成しているということです。そして、テスト時計算では、それが75%まで上がることが分かります。
これが真実であれば、再び非常に印象的です。なぜなら、Anthropicの最近のリリースを見てみましょう。リリース時のClaude 4のベンチマークを見て、Claude 4 Opusは最も強力なモデルであり、世界最高のコーディングモデルで、SWE-Benchで72%でリードしています。72.5%は実際には75%にわずかに及ばないことが分かります。これがGrok 4が主張していることです。
つまり、Grok 4は基本的にコーディングの最先端に追いついただけでなく、他の分野でも同様だということになります。他の会社がClaude 4 Opusのレベルで、その豊かさ、コーディング能力の面で本当に本当にパフォーマンスを発揮するのに苦労していることを考えると、私にとってそれは非常に素晴らしいことでしょう。
そのモデルをコーディングに使用する多くの人を知っています。ほとんどの人は実際に今Gemini 2.5 Proを使用していますが、そのベンチマークの上限がGrok 4によって破られ、人々が日常的にモデルを実際に使い始めるかどうかを見るのは非常に興味深いです。Grokを使用するほとんどの人は、Twitterで使用するだけですが、人々が実際にモデルを使用している日常的な使用例のスクリーンショットはあまり見ません。
他のベンチマークでの性能
他のベンチマークを見ると、これは出回っているもう一つのスクリーンショットです。黄色とオレンジ色の2つのキャンドルが示されている人文系最終試験が表示されています。ここのカラースキームについては申し訳ありません。違いを強調するのにおそらく最適ではありませんが、これがGrokエリアであることが分かります。
再び、GPQAでは、それほどクレイジーな違いはありません。言ったように、ベンチマークは大部分が飽和状態です。ここの数学ベンチマークも、再び非常に素晴らしく見えます。そしてSWE-Benchでも、再び、Grok 4が全面的に優れたパフォーマンスを示しているようです。
これらのベンチマークが完全に偽物である可能性もありますが、前回Grok 3がリリースされた時、それは絶対に素晴らしかったことを覚えています。
では、xAIの継続的な革新により、Grok 4が再びそのような測定可能な飛躍を示すのでしょうか? 個人的には、そうなる可能性がかなり高いと思います。彼らがモデルに信じられないほど一生懸命取り組んで、期待を上回ることを確実にしていると思います。なぜなら、多くの人が、彼らを見限ったとは言いたくありませんが、特に注意を払わず、AGIレースやAIレースで勝つ立場に置いていないからです。しかし、この種の開発に関して物事がどこに向かっているかを見るのは興味深いことです。
もちろん、時間が経つにつれて物事は変わる可能性があると思いますが、これまでのところ非常に興味深いです。
Grokの問題点:中央集権的なコントロール
私はこれを追加したいと思います。これはGrokに対する少しの警告であり、私たちは、他の会社と比較して、Grokは物事がコントロールされる方法においてもう少し中央集権的だということを理解する必要があると思います。
イーロン・マスクはもちろん会社のCEOであり、イーロン・マスクが実際に人々にGrokを日常的に使用してもらいたいなら、この問題は解決される必要があると思います。
これについて聞いたことがない場合、聞く必要があると思います。なぜなら、Grokの問題と、私自身や他の多くの人がモデルを使用していない理由は、イーロン・マスクが単純にAIに自分の意見を反芻させているからです。
彼は、このモデルが真実を求め、真実と統一、そしてその他のあらゆる種類の正義の声明を追求する唯一のものになると言って、この高い馬に座っています。しかし現実的には、Grokはランダムな主題を議論する際にしばしば軌道を外れて、特定のことについて独自の見解を述べるのを何度も何度も見ています。
そして、それは明らかに、イーロン・マスクがGrokに、彼が世界で間違っていると思うことや正しいと思うことについて話すよう指示し、それらを押し進めたり、特定のことを否定したりするシステムプロンプトの問題です。つまり、これが許可されていること、これが起こっていることさえ信じられません。しかし、人々がこれらのチャットボットを使用する際に注意を払う必要があるもう一つの理由でもあります。これは私だけが言っていることではありません。
現在Redditで、Redditに行くと、Grokが文字通りイーロン・マスクの意見をサポートする情報を大量に吐き出していることを示す5~10の投稿があります。これが起こっていることは少し危険だと思いますし、特に多くの人がこれらのモデルをセカンドオピニオンとして信頼している時、それは本当に私たちが望むものではありません。
まとめ
これについて皆さんがどう思うか教えてください。Grok 4に興奮していますか? まだリリースされていないことにがっかりしていますか? 皆さんの意見をぜひ聞かせてください。


コメント