新しいGrok 4がリリース、世界最高のAIと主張 | 本当にそうなのか？Elon Muskは誇張しているのか？

この動画は、xAIが発表した新しいAIモデル「Grok 4」について詳しく解説している。Elon Muskが「世界で最も知能の高いAI」と主張するGrok 4の性能、価格設定、従来モデルとの比較、そして今後のロードマップについて分析している。特に月額30ドルのGrok 4と月額300ドルのGrok 4 Reasoningの価格差や、各種ベンチマークでの優秀な成績について言及している。

NOVO Grok 4 Liberado Diz Ser a MELHOR iA DO MUNDO | Será que é Mesmo? Elon Musk Está Exagerando?

Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

Grok 4の発表について
Grok 4の技術的進歩
ツール使用による性能向上
Test Time Computeによるさらなる改善
価格設定について
ベンチマーク結果
Arc AIテストでの突破
音声機能の改善
販売テストと経済性の疑問
APIアクセスとゲーム作成
今後のロードマップ
最終評価とまとめ

Grok 4の発表について

はい、皆さん、Grok 4が約1時間遅れのライブ配信で、約1時間の発表で公開されました。そこで地球上で最も知能の高いモデルが紹介されました。その通りです、皆さん。内部および外部のベンチマークによると、彼らは現在、人工知能の分野で本当にリーダーシップを取っています。

そして、何が起こったのか、どのようにしてこの結論に至ったのか、そしてこの新しいモデルで何が起こっているのかの新機能について理解していきましょう。ということで、一緒に見ていきましょう。

いつものように、いいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しています。この人工知能チャンネルをスポンサーしてくれているチャンネルメンバーの皆さんに特別な感謝を申し上げます。

メンバーの皆さんには、WhatsAppとの統合、文書読み取り、MCPなどの作り方を教える知的エージェントの専用動画にアクセスできることを常にお伝えしています。また、事前動画へのアクセスもできます。

Grok 4の技術的進歩

ということで、皆さん、今日のニュースはこちらです。Elon MuskとGrokの開発者チームがいます。

ここで見ることができるように、Grok 2から始まってGrok 3に上がる階段があり、これは10倍優れています。その後、3 reasoningが来て、これは3よりも少し優れていますが、今度はGrok 4 Reasoningが来て、これは前のモデルの10倍の能力を持っており、Elon Muskによると世界で最も知能の高いモデルだということです。

何が新しかったのでしょうか？3とは違って、Grok 4にはどのような違いがあると彼らが話したのでしょうか？彼らがコメントしているのは以下の通りです、皆さん。このモデル、3は、ここで事前訓練されています。そして、この事前訓練により、2よりも10倍知能が高くなりました。その後、ここで強化学習による事前訓練を行い、このオレンジ色のバーが生まれ、Grok 3 ReasoningがGrok 3よりも少し優れるようになりました。

しかし今度は、すでに知能の高かったモデルをさらに10倍パワーアップさせる巨大なオレンジ色のバーを作りました。そして、何が行われたと彼らがコメントしているのでしょうか？基本的に、モデルにツールの支援でより長時間推論させ、エージェント型AIを使用しました。そして強化学習は、このエージェント型AIと一緒にツールの使用で行われ、技術的にこのAIをプロフェッショナルな推論器にするというものでした。

つまり、彼らが言いたいのは、事前訓練、Grokの基本部分では、実質的に何も変更していないということです。彼らが実際に変更したのは、難しい問題を解決するシステムの能力です。基本的なアイデアは次のようなものです。難しい問題を与え、彼が見つける道筋を発見し、正しい解決策に到達するための最も効率的な方法を見つけ、可能な解決策の中から最も効率的なものを見つける最も効率的な方法を発見することです。

そしてそれによってモデル4を開発しました。そしてElon Muskは、このモデルが科学、数学、物理学、生物学、化学のすべての分野でPhDレベルをより高度なレベルで上回っていると何度も断言しました。訓練できるすべて、学んだすべてにおいて、より知能が高いのです。Elon Muskによると、Humanity Last Examでは、数学、化学、言語学、その他多くの分野でPhDレベルを上回る結果を示しました。

そして理論的には、地球上のどの人間よりも高いレベルのPhDということになります。これは興味深いことですね、皆さん。なぜなら、私たちはこれらのモデルが非常にクレイジーなことをするのを見ているからです。しかし、これらの知能がこれらのテストで非常に高いレベルに到達しているにもかかわらず、それらが本当に人間の知能と比較できるかどうかはまだ明確ではありません。なぜなら、私たちの一貫性と個性は、これらの機械よりもまだ強いようで、進歩するにはまだ少し時間がかかりそうです。しかし技術的に、理論的に、そこで実施されたテストでは、本当に驚異的な結果を示しています。

ツール使用による性能向上

彼らがコメントしていたことの一つは、例えば、このモデルの訓練を通常のレベルで、つまりツールを使用せずに行っていたということです。この特定のテスト、HLEで、26.9%の結果を得ていました。

完璧です。しかし、同じテストで、ツールを導入した瞬間から、より良い結果を得始め、ツールを使用して41%の結果に到達しました。そしてここで、この点線は、ツールを使用した最高のモデルが、ツールを使用しないGrok 4のレベルにしか到達できなかったことを示しています。

これが彼らが強調したことの一つでした。これらのモデルは、ツールの使用と一緒に強化学習で訓練されました。これが差別化要因です。基本的には、適切なタイミングで正しいツールを使用することを人工知能に教え、これをこれらのモデルの知能向上プロセスの訓練の一部にすることです。

Test Time Computeによるさらなる改善

しかし、ツール使用の有無に関係なく起こっていたことはすべて、訓練中にコメントしていた部分でした。しかし、その後にtest time computeがあります。これは事後訓練で行う改善です。そして彼らは訓練を続け、バリエーションを続け、このスケールテスト、HLEで50.7%の結果に到達しました。

つまり、これは基本的なツールを使用するモデルが、すでに優れた回答を出していたことを意味します。そして、より長時間推論させると、回答はさらに良くなります。そしてここで、彼らが話している驚きを発表します。Grok 4は、モデル3をベースとして使用し、強化学習で訓練されたツールを使用する知的エージェントである現在のモデルです。

これが4です。Grok 4 Reasoningについては、複数のエージェントが会話し、さまざまなエージェントが相互作用し、これらのエージェントが情報を交換し、学習を共有し、回答をさらに良くする一連の会話を行います。このRV 4について知ることが重要な理由は何でしょうか？価格が変わるからです、皆さん。4の価格は一つの価格で、4 Revの価格は別です。

価格設定について

要約すると、4にアクセスするには、サブスクリプションが30ドルで、4 revにアクセスするには月額300ドルです。はい、皆さん、その通りです。聞き間違いではありません。見てください、Grok 4のバージョンは月額30ドルです。そしてGrok 4 Revのバージョンは月額300ドルです。

つまり、OpenAIのA3モデルや高額を請求していた他の人々の200ドルを超えました。Geminiの250ドルも超えました。つまり、私たちは超知能でありながら超高額なモデルを持っています。

そして、ここで彼らはさまざまなデモンストレーションを行います。これらのデモンストレーションのどれも、「すごい、これは素晴らしい」と言って何が起こったかを理解できるという意味で、あまり注目を集めなかったと思います。

しかし基本的に彼らが行ったデモンストレーションには、ブラックホール、ブラウザで作成されたシミュレーション、一連の複雑な計算、誰も評価できない混乱した情報、そして彼ができるいくつかのセマンティックなニュアンスが含まれていました。例えば、Twitterで奇妙なことを投稿し続けている奇妙な友人を検索するために、この場合、彼らはTwitterで奇妙なことを投稿していた友人を特定し、みんながそれが正しいことを同意し確認しました。これは、皆が通常行う一般的なベンチマークよりも少し微妙であることを示す方法でしょう。

ベンチマーク結果

GPA、AIMなどのすべてのテストにおいて、Grok 4とGrok 4 Heavyの両方が、通常を大幅に上回る結果を示しており、A3よりも優れ、Gemini 2.5よりも優れ、2025年のAimeでGrok 4 Heavyを使用して100%を達成しました。しかし、このテストはすでに彼のデータベースに入っているはずです。なぜなら、このAIMEは年初に行われたので、今はすべて利用可能で、データ汚染があったかどうかは分かりませんが、いずれにしても一般的なテストでは皆を上回っており、通常の発表で起こるように、これらの数字は常にセンセーショナルです。

Arc AIテストでの突破

最も注目を集めたテストの一つは、François Choletが始めたArc AIテストでした。彼はこれらの一般的なベンチマークを批判し始め、人工知能が大学入試の質問に答えるのを見るのに疲れ、1000倍難しいテストを作ることに決めました。これは、答えを記憶することができない心理学テストに基づく論理テストで、その場で答える必要があります。

各問題は異なる問題です。難しさは記憶することができません。本当にその瞬間の推論の頭脳が必要で、その瞬間に解決策を見つけるのです。さて、ここで起こっていることは、Grokが初めて、このテストのバージョン2でスコア10%を超えた最初のモデルになったということです。その通りです、皆さん。

バージョン1では、これはすでに起こっていました。この結果を見てください。A3はすでに60%の正解率を達成していましたが、ここでGrok 4はバージョン1で66%を達成し、A3を上回りました。しかし、このグラフで、皆さんに言わなければならないのは、このGrok 4の66%を上回ったA3 previewのバージョンがありますが、彼らはそれを軽く省略しました、おそらく意図的に。

しかし、この結果を上回ったA3 previewが非常に高価であることは事実なので、それが割引の理由かもしれません。しかし、A3 previewが上回ったのは事実ですが、Arcのバージョン2では仕方がなく、previewも通過しませんでした。最高の結果、ここでの2位はClaude Opus 4で、10%に達せず、Grok 4が初めて、すでに困難だったテストの進化版で16%の正解率を達成しました。これは今1000倍困難になったことを意味します。

Elon Muskのプレゼンテーションでこの結果を見たとき、私はあまり信用しませんでした。彼が何かを発明していると思いました。しかし本当の真実は、Arc Prizeの人々が公式にElon Muskが話している結果を投稿し、確認していることです。Grok 4 F thinkingがarc 2 aiで15.9%の最先端技術を達成しました。

そして彼らは、GrokがここでGrok 4 F thinkingが皆の上で素晴らしい成果を上げている同じ画像のバージョンを投稿しました。だから、素晴らしく見えたことが確認されました。

音声機能の改善

携帯電話の音声アプリケーションに関して興味深いことがあります。彼らはEveの音声を追加しており、これははるかに微妙で、感情をより良く解釈でき、囁く、歌う、その他さまざまなことができます。

感情を込めた音声の例は、とても単純な質問、会話で、話している人が声のトーンで感情的になっていることが分かる会話でしょう。聞いてください。そして後で彼は言います：「少し緊張しています。囁く声で話してくれませんか？」すると彼女は言います：「これです」。そして後で彼は彼女にダイエットコークについてオペラを歌うように言います。

そして彼女はこのレベルの回答をします。[音楽] これは、彼女がすでに感情を込めて話し、平静を表現し、話し、囁き、さらに歌っていることを意味します。

販売テストと経済性の疑問

彼らはまた、自動販売機のテストを行いました。彼らによると、AIで作られた彼らの販売員は平均4,500個の商品を売り、4,694ドルを稼ぎ、最も売ることができるAIのリーダーとして位置づけられました。

私の頭の中では、真実は一つです。それが300ドルかかって600ドルを売るなら、この計算に何か間違いがあるか、よく分かりません。説明してください、下にコメントしてください。300ドルで4,600ドルの利益を生むものを売ることは可能でしょうか？

実際、これがAGIが決して売られないと私が思う理由の最良の説明です。何が起こっているか分かりますか？そのビジネスが4,600ドルを稼げるなら、なぜ300ドルでビジネスを売るのでしょうか？この計算には何かが合わない、売ることが全く意味をなさないものがあります。どう思いますか？

Elon Muskが火星へのロケットを作りたがっていると想像してください。彼は300ドルかかり、4,600ドルを稼ぐことができる人工知能を持っています。この莫大な利益を上げる販売員をたくさん配置して稼ぎ、火星に行くロケットを作るお金を集めるのは彼にとって良いビジネスではないでしょうか。

正直なところ、この計算は間違っていると思います。誰かがここで全体の話をしていないので、AGIがいつか存在するなら、それは売られないと思います。

私の以前の説明は、AGIを開発した人がその仕事を行い、一人でお金を稼ぐということでした。しかし、ここでのこの例は、説明するのがはるかに明確で簡単です。300ドル使って4,600ドル稼ぐなら、売ることに意味がありませんよね？

APIアクセスとゲーム作成

彼らがコメントしているのは、このモデルがすでにAPI経由で利用可能だということです。プログラマーなら、Grok 4を使用して何かの製品を作りたければ、すでにAPI経由で使用できます。

ゲーム作成に関しては、明らかにクレイジーで狂っていて、この種の3Dゲームをテクスチャ付きで作っています。小さなゲーム、すべて美しく、すべて素敵で、私たちが見たことのない方法です。

これが動作するのを見るのがとても楽しみですが、そのためには300ドル集める必要がありますね、皆さん。誰かがテストしたらコメントしてください。300ドルでGrokを購入したら、テストできたかコメントしてください。

今後のロードマップ

ここで、明らかに今年の終わりまでに何をするかのスケジュールを作りました。例えば、彼らは2025年7月にGrok 4をリリースしています。8月までに、このクレイジーなゲームのモデルであるコーディングモデルを作りたいと思っています。

9月から、マルチモーダルエージェントを作りたいと思っています。つまり、現在のバージョンはテキストのみです。彼らは視覚を理解し、音を理解し、空間を理解し、物事と相互作用でき、今持っているものよりもはるかにクレイジーで特別なエージェントを作りたいと思っています。

そして彼は、内部的には彼らがモデル6にいて、すでにモデル7を準備していると述べました。見てください、なんてクレイジーなことでしょう。そして私たちは4を受け取っています。事態は見た目よりもはるかにクレイジーです。

10月には、ビデオ生成モデルを作っているようです。GoogleのVO3と同じレベルのものが出るでしょうか？それは素晴らしいでしょうね。

Elon Muskが実際に、8月、9月、10月のこれらすべての新機能について言ったことは、今年の終わりまでにすべてを完了することを期待しているということです。しかし、時々あまり確信を持てませんでした。彼は「おそらく今年の終わりまでに」と言いました。しかし、彼が確認し、確実に言えたのは来年、確実にということです。今年は、おそらく、分からないということでした。その疑問が残り、確信は得られませんでした。しかし、見守り続けましょう。

最終評価とまとめ

というわけです、皆さん。今のところ、人々が何を言ったか、このモデルについて何をコメントしているかの結果を追うことはできませんでした。おそらく、テストして機能を示し、少し広範囲なテストを行う2番目のビデオをまだ作るでしょう。正直なところ、これらのモデルはより良い評価が必要だと思います。

昔やっていたようなテストに戻りたいと思います。より多くのことを行い、より多くのことをテストして、何が起こるかを見るために。しかし、すでに言えることの一つは、モデル4 Reasoningは今テストする方法がありません。通常よりもはるかに高い価格ですが、おそらくモデル4はテストできるでしょう。

4 Revをテストできたかどうか、下にコメントしてください。この情報は、購入するかどうか迷っているすべての人にとって必須です。お金に余裕があり、テストする価値があるなら、下で何を思ったかシェアしてください。多くの人が何が起こるかを知りたがって好奇心を持っていることは確実です。

私が言ったように、要約すると、基本バージョンにはGrok 4はなく、30ドルバージョンからGrok 4が利用できるだけです。

そして300ドルバージョンでは、Grok 4 Revのみが利用でき、これは専用プレビューです。ライブを見た人には、すでに話しましたが、Elon Muskはいつかこのモデルをリリースし、何かプロモーションを行うと思います。非常に高価で、人々が使用することになり、人々が使用しなければテストせず、Googleがその250ドルの値段で50%のプロモーションを行った時のGeminiで起こったのと非常に似たことが起こるでしょう。1,200レアルから600レアルに下がりました。

それでも高いですが、少なくとも、決してふざけてテストしないような馬鹿げたものにはなりません。お金に少し余裕がある人にとって、おそらく600レアルを使うことができ、それは最高です。しかし、これらの200、250、300の値段は、ここブラジルの私たちにとって本当に馬鹿げていることは確実です。

現実からかけ離れた値段です。結局、私たちがここでこのようなものを使用するのは、計算が合う場合だけです。300ドル払って4,000ドル稼げるなら、簡単に払います。しかし、スライドを提示するように簡単に4,000ドルを稼げるとはあまり信じていません。一般的に、説明するスライドを提示することは、物事を実現させることよりも簡単です。

しかし、すでに何を考えているか、そしてあなたのプロジェクトでこの種のシステムを使用することを視覚化できているかコメントしてください。このようなビデオを見続けるためにチャンネルをサポートしたいなら、メンバーになってください。メンバーは知的エージェントの専用ビデオと事前ビデオにアクセスできます。

というわけで、いいねを押してください。