本動画は、xAIが新たにリリースしたGrok 4の性能を詳細にテストしたレビューである。イーロン・マスクが「どんな分野のPhDよりも優秀」と豪語するGrok 4について、実際にゲーム作成、ウェブサイト構築、データ分析、画像認識などの様々なタスクを通じて検証を行っている。ARC Prizeで史上初めて10%を超える成績を記録したことで注目を集めているものの、月額30ドルという料金に見合う価値があるかを冷静に評価している。

Grok 4の登場とその性能への期待
皆さん、Grok 4が登場しました。数多くのテストで驚異的な成果を上げています。イーロン・マスクによると、地球上のあらゆる分野において、どんなPhDよりも優秀だということです。そして今、私たちが初回テストを行いますので、何が起こるか見てみましょう。一緒に行きましょう。
いきましょう、皆さん。いつものように、いいねを押してくれた皆さん、チャンネル登録してくれた皆さんに感謝しています。このAIチャンネルをスポンサーしてくれているチャンネルメンバーの皆さんには特別な感謝を申し上げます。メンバーの方々には、インテリジェントエージェントの独占動画へのアクセス権があり、そこではゼロからWhatsApp統合、ファイル読み込み、PDF、MCP統合、その他様々なことを教えています。
また、先行公開動画へのアクセスもあります。それでは皆さん、今日の動画はイーロン・マスクとGrok 4のローンチに関するもので、私はそのローンチを追跡するライブ配信を行いました。そのモデルで起こったすべての詳細、すべての新機能、新しいことについて説明する動画も既に作成しており、今度は実際にこれがどのように機能するかを見るための簡単なテストを行います。
ARC Prizeでの画期的な成果
私たちが念頭に置いておくべき重要なことは何でしょうか?ARC Prizeを見てください。これは最も困難なテストの一つで、知能テストです。人間が受ける試験を実施するテストとは異なり、このARC Prizeの特徴は、人間には簡単だが人工知能には困難であることです。
バージョン1では既に80%以上を達成した人工知能を作ることができたチャンピオンがいました。そしてこのバージョン2では、Grok 4が初めて10%の壁を突破しました。そのため、このモデルに対する期待は非常に大きくなっています。明らかに非常に強力だからです。
そして重要なことですが、ARC Prizeのバージョン3が既に発表されています。見てください、面白いことに、7月17日にローンチされる予定です。私たちは12日にこれを見ているので、木曜日までに人工知能がさらに賢くなるための新しいARC Prizeがローンチされます。
Grok 4の二つのバージョン
Grok には二つのバージョンがあることを覚えておいてください。通常のGrok 4は、困難なタスクを実行し作業するために強化学習で強化された非常に強力なインテリジェントエージェントです。そしてGrok 4 Heavy があり、これはマルチエージェントで、これらのエージェントが互いに会話し、非常に強力なことを行います。この超強力バージョンは300ドルで、ブラジルの私たちには1,600レアルになります。
今のところ、動画作成のためにこのような高額なテストにお金を投じるレベルにはまだ達していませんが、いつかきっとそこに到達するでしょう。しかし一方で、通常のGrok 4のより穏当なバージョンをテストしてみましょう。この穏当なバージョンは30ドルで、通常のモデルが一般的に20ドルするのに比べて高くなっています。
100レアルから120レアル程度ではなく、160レアル程度と、かなり高額です。しかしそれはそれです。私が行ったすべてのテストのシーケンスを説明し、何が起こったかをある程度説明し、何が起こっているかの詳細を提供します。最後に、Heavy バージョンをテストした他の人々を紹介し、彼らが何を言ったかを示して、Heavy バージョンもテストした人々に何が起こったかの概念を得られるようにします。
3Dカーゲームのテスト結果
ここで気づくでしょう、私に何が表示されているかを見てください。バージョン4 expert があり、これは以前のGrok 3バージョンにはなかった機能で、今はFastバージョンがあります。そしてここで見ることができるように、Grok 4 Heavy は購読を希望するかどうか尋ねてきます。購読しようとすると、既に言ったように月額300ドルです。
それでは今、実際にバージョン4へのアクセスを持つこのSuper Grokでテストを行います。最初に行ったテストは、皆さんが既に知っているカートテストでした。このテストは何度も行ったもので、3Dカートゲームのシミュレーションを生成します。
雲、山、道路、木、循環する小さな列車が必要です。カートをコントロールし、カメラは三人称視点でカートを追跡します。集めるコインがあり、私たちと対戦するAIがあります。最初に10枚のコインを取った方が勝ちで、衝突があった場合、カートは爆発しなければなりません。スペースキーでゲームを再開します。
ここで見ているように、ゲームは動いて機能しています。見てください、とても正確です。一回で機能するゲームを作りました。これは既に非常に注目に値します。エラーなしに一回で作ると、コインは既に機能し、収集し、スコアボードは正確に8対8となっています。彼女が収集すると、彼女が収集したという通知が表示され、彼女が勝つでしょう。8対8です。
衝突があった場合、何が起こるか見てみましょう。見えますか?消えましたね。爆発したということです。ここでやり直しましょう。ここでも、紫の敵と衝突すると、最初に戻ります。衝突は存在し、小さな列車との衝突もあります。この赤いブロックがその列車です。
しかし、ここの木と衝突すると、衝突せずに通り抜けてしまい、山とも衝突しません。しかし少なくともゲームの基本、つまりここでの機能、小さな列車、その他すべてが機能しました。このゲームを作るのにどのくらい時間がかかったでしょうか?ここには10秒と書かれていますが、実際にはそうではありません。
10秒間考えて、その10秒の後にコードを生成し始め、それに関してある程度時間がかかります。そして私は変更を求め始めました。線路がないことに気づき、線路を追加してくださいと言いました。すると線路を配置し、小さな列車は今線路上にあります。でも爆発しても何も起こりません。
そこで、衝突時にアニメーションを作ってくださいと言いました。すると新しいバージョンを生成し、見てください、衝突があると色とりどりのものが起こります。これが衝突時に起こることです。しかし私は続けて主観的なことを求めました。例えば、ゲームをより美しくしてくださいと言いました。
すると彼によればより美しいバージョンであるこのバージョンを作りました。皆さんがより美しいと思うかどうかわかりませんが、明らかにすべてが改善されています。衝突、爆発、そしてゲームがより美しくなりました。そして私はさらに変更を求めました。列車の線路を円形にしてくださいと、さらに変更を求めました。
そして線路は今円形になり、小さな列車は今円形の線路内で動いています。素晴らしい。そして私は後で、カートが木や山にぶつかったら爆発するべきだと言いました。なぜなら、それまでは爆発せず、小さな列車、列車にぶつかった時だけ爆発していたからです。そして今、山でも爆発するようになりました。
ウェブサイト作成とビジュアル改善のテスト
最終的に、「さらに美しくしてください」と言いました。さらに美しくするよう求めると、この見えているバージョンを作りました。木が三重になり、既に木の影があります。この地面はバグっていて、どうしようもありません。山の上に小さな帽子を配置しました。
そして気づいたでしょうか、始まった時、雲も三重になっており、すべてがふわふわで、より美しいもののように見えています。基本的にそれだけでした。私はこれをうまく実行されたテストだと考えています。機能しました。一般的に、テストがうまくいかない時は、機能しないか、動作しないか、変更を求めても変更を実行できません。
これらが私が検出しようとしているサインです。何かをするよう求めて、それが起こっているなら、素晴らしい。ゲームを壊すことなく変更を実行できているなら、素晴らしい。外観的にはそれほど美しくならなかったと考えています。確実により美しい外観にできたはずです。例えば、Geminiの外観はより美しい外観ですが、ゲームとゲームプレイの点では、車輪があり、すべて正確で、動きは非常に良く、ゲームプレイは非常に良いので、言うことはありません。これは優秀です。
次のテスト。私は単純にここに来て、「ペットショップの標準サイトを作成してください」と言いました。チャンネルを見ている方なら、私が何度もこれを行ったことを知っているでしょう。そして彼は文字通りそれに従い、ペットショップの標準サイトを作成しました。
ペットショップ標準へようこそ。モデルがこれほど文字通りで、私が求めたことを正確に実行するのを見たのは初めてです。しかし正しいですね。私たちについて、そこに配置し、製品、非常に基本的なもの、サービスを作成しました。これは、サイト作成方法の最初のレッスンの例としては十分に機能するでしょう。そして私は再びあの質問をしました。
より美しくしてください。単純に主観的な基準ですね。そして彼はこれらの変更を行いました。ここのペットショップのフォントを変更し、少しより魅力的なレイアウトを配置し、フォントを中央に配置しましたが、基本的に残りはすべて同じに保ちました。単一エージェントのシンプルなモデルとしては良かったと考えています。
もしGrok Heavy だったら、私は違うと言うでしょう。彼がGrok Heavy でこのようなサイトを提供したら、私は不合格にするでしょう。しかしここでどう思ったかコメントしてください。
惑星衝突シミュレーターのテスト
そして私は別のテストを行いました。Grokは科学的なことをする傾向があり、科学的なことが得意だからです。そこで惑星衝突シミュレーターを作りました。例えば、ここで火星と地球を選択し、衝突の開始を行うことができます。
ここに火星があり、ここに地球があります。地球の方が大きいので、地球が小さな火星を引き寄せ、衝突は弾性的になります。ぶつかると弾性衝突が起こり、素晴らしく、とても正確です。もう少し大きな惑星だったら、地球が引き寄せられ、衝突はこの形で起こるでしょう。素晴らしいです。
そこで私は言いました。「いや、いや、いや、でも私は彼らに爆発してもらいたいのです。」この弾性衝突は全く関係ありません。そして彼はここでバージョンを作りました。衝突があり、衝突が起こると爆発が起こり、衝突して爆発しました。皆さん、この爆発はあまり気に入りませんでした。なぜなら、穏やかで柔らかな小さな爆発のように見えたからです。
軌道が現実をシミュレートする惑星の衝突の爆発には見えません。単純に何かが爆発しているように見えます。しかし私は彼に一時停止ボタンを配置するよう言い、ここで第三のバージョンを作りました。衝突後、この衝突をある時点で一時停止したい場合、一時停止し、続行することができます。
そして私が言ったことが続いて起こりました。変更を求める度に、彼はそこに行って問題なく変更を正確に実行します。彼はここで合格したと考えています。少しより良い衝突を作ることはできたでしょうが、私が既に言ったように、もしGrok Heavy でこの結果だったら、とても悪いと言うでしょうが、ここではまあまあ合格でした。
NVIDIAの株価分析テスト
そしてもう一つ、Grok 4は科学的であるため、データ分析が非常に得意です。そこで私はここにNVIDIAの株式グラフを送りました。過去1年間のこの期間を示しており、NVIDIAは大きく価値を得て、その後トランプの関税でここで価値を失い、市場価値でここで再び上昇しました。
私はこの1年間の期間のこの画像をGrokに送り、この株式の分析をしてください、なぜ上昇し始めたのか、何が起こったのかと尋ねました。すると彼は画像にあったデータを正確に検索しました。開始値163、高値167という値で、これらは下にある値です。開始163、高値167、安値163.47です。
そのデータを正確に取得し、ここで分析を始めました。なぜNVIDIAの分析を行ったかというと、何が起こったかを知っている主題だからです。この場合、私は答えを知っています。そしてここで、実際に彼はAIの支配という関連する重要なポイントを提起し始めます。これがNVIDIAが上昇し始めるための重要なポイントでした。
第1四半期にこの最初の成長があったことを示し、ここでBlackwellアーキテクチャの問題について言及しています。これは彼らが作ったGPUで、非常に優秀で、NVIDIAの株式を大幅に上昇させました。同時に、2025年に何が起こったでしょうか?ここでこの画像を見ると、上昇と下降がありました。ただ成長しただけではありません。
彼は次のように言います。1月にDeepSeekのせいで急激な下落があったと。皆さんが覚えているなら、まさにそれでした。ここを見てください。20日頃、DeepSeekがローンチされた時、とんでもない下落がありました。誰もが「もうNVIDIAは終わりだ」と思いました。その時私は言いました。「皆さん、落ち着いてください。
株主はパニックになりましたが、現実世界はそのようには機能しません。彼らは正しく理解していませんでした。いつかは人々は何が起こったかを理解し、株式は再び上昇するでしょう。」完璧です。彼はこの心理的な瞬間があったことを理解しました。そして彼は何と言いますか?2月から4月まで、結果は再び成長し始めます。
彼らはデータセンターの拡大について話し始めます。再びBlackwellについて話し始めます。ネットワーキング、ゲーム、自動車、ロボティクス、その他多くのことのこれらの問題を提起し始めます。その下落の後、上昇があります。ここで下落があり、そして上昇します。しかしその後、彼はトランプの関税の変動性の問題があったとコメントします。これは米国とすべての企業の株式が下落した瞬間でした。
中国からの輸出制限があり、多くの企業がそのためにNVIDIAに投資していた資金を引き上げました。そして多くの人々がこれが失敗するのか、うまくいかないのかと心配していました。そして4月の真ん中でより強力に起こるこの恐ろしい下落の瞬間があります。
しかしその後、状況は成長し始め、最近彼女は4兆企業になりました。これは彼がここでコメントしていることで、主にイーロン・マスクが購入し、OpenAIが購入し、多くの人が購入しているBlackwellの販売増加があったからです。そして今7月に彼らは4兆という非常に狂った株式価値を達成することができました。
そして彼はリスク分析、展望を行い、起こりうることを説明します。しかし私は彼に尋ねます。この7月の上昇についてより詳しく説明してください。これは4兆のこの上昇です。そしてその時、彼は非常に詳細な分析を行います。7月1日から4日まで、アナリストのアップグレードで牽引力を得始めました。
そして彼はこれらのより短い期間で何が起こっているかを評価し始め、7月7日から8日以降何が起こっているかです。そして7月9日にこのピークがあったとコメントし、再びAIチップの高い需要があり、欧州連合も動き始め、これらすべての小さな詳細についてです。そして彼は7月10日から12日まで、基本的に今日までの分析で終了し、ピークの後に0.8%の下落で小さな後退があったと言います。
それで私は何と言うでしょうか?もし何も知らずにこれを手に取り、何が起こっているか全く知らない人がこのレポートに書かれていることを読み、彼がここで伝えている情報に基づいて判断するなら、その人は非常に現実的な概念を持つでしょう。たとえここで起こったすべてのイベントを通過し、日々これらのことが起こるのを見てきた私たちのようにスローモーションで追跡していなくても。
そして皆さんが見るために、実際に7月10日にこのニュースが出ました。NVIDIAは中国向けに設計された新しいAIチップのローンチを計画しています。これらのことがNVIDIA市場を価値あるものにし始めています。NVIDIAは米国の輸出制限にもかかわらず、中国でAIチップを販売する方法を見つけることを決意しているようです。
これは、ジェンスン・フアンが既に何度も言っているからです。中国が密輸をしているという主張、彼らが言っているこれらの多くのことすべて、ジェンスン・フアンは既に繰り返し言うのに疲れています。そんなことは起こっていません。ジェンスン・フアンとデータセンターの間には非常に強い合意があります。そしてこれらのデータセンターは、ポケットに入れて持ち運べるビデオカードではありません。
彼は既に、データセンターは何トンもの重さがあると言いました。誰にも知られることなく密輸できるようなものではありません。それでも多くの人々が、ポケットの下でデータセンターを密輸していると言っています。しかし同時に、ジェンスン・フアンは、私たちが見ている限りでは、動いており、中国にも技術を提供しています。
このAIチップはNVIDIAのBlackwell RTX Pro 6000プロセッサーに基づいており、AIチップの既存制限を満たすように既に修正されています。これらのチップには高帯域幅メモリもNVLinkも含まれていません。NVLinkはNVIDIAの高速・低遅延通信インターフェースです。基本的に、彼らは少し遅いバージョンを作りますが、それは既にかなり更新されたバージョンです。
このように、Grokの分析は非常に正確であることがわかります。
画像認識能力のテスト
この話の途中で、私は彼の視覚能力をテストするために写真も送りました。そしてこの画像で何が見えるか、どのような物体が見えるかと尋ねました。すると彼は17秒間考えて次のように言いました。「眼鏡をかけてひげを生やした男性がベージュのセーターを着ています。これがこの人で、クロワッサンと白い皿があります。
クロワッサンを切るのに使われているナイフですが、実際にはここには何もありませんね。彼がここで小さな棒のようなものを持っているようです。何かわかりません。皿の上に角砂糖が2個ありますが、実際にはこれら2個は皿の横にあり、皿の中に1個があります。どこか下の方を読み続けると、時計の横に角砂糖があるとか、そのようなことを言うでしょう。
そしてあなたは彼が実際に混同したことがわかります。外にあったこれら2個について、中にあると言いました。そして中にあったこの1個について、外にあると言いました。しかしここで、コーヒー入りの白いカップもあります。オレンジジュース入りのガラスのコップもあります。約8時45分を示している赤い目覚まし時計があります。時計はありますが、時刻が間違っています。
10時15分であって8時45分ではありません。灰色の鉢に小さな植物があります。これがこの小さな植物です。このように、私はここでいくつかのことを確認しました。基本的に彼はすべてを正解しました。鍵、ランプ、黄色い鉛筆、ペン、木のスプーン、サングラス。ここで間違ったのは、壁のこの眼鏡がサングラスではなく度付き眼鏡だということです。ヴィンテージカメラ、腕時計、ヘッドフォン。
ヘッドフォンの部分で、ある時点でヘッドフォンとプラグ付きコードとヘッドフォンのコントロールがあると言いました。つまり、実際には同じ物体について2回言ったということです。三角定規、白いスニーカー1足だけ、これがテーブルの上にあるスニーカーで、1足だけです。そしてここで彼が言うのは、時計近くの小さな茶色の立方体、おそらく砂糖かサイコロです。
覚えていますか、私が言ったように、彼は1個だけあると言いましたが、実際には2個あります。ここに1個、ここに2個あります。そして彼はここで数え間違いをしただけです。2個あるところで1個と言い、1個あるところで2個と言いました。明るい木のテーブル、小さな木の棚、ベージュの壁の壁、これは奇妙なことでしたね。結局、壁の壁とは何でしょうか?まあいいでしょう。
そして棚の上の植物入り小さな鉢。実際に、彼は既にこの鉢について話していて、再び話しました。それで私が気づいたことは何でしょうか?彼はすべての物体を検出しました。時々数え間違いをしました。時々「壁の壁」という奇妙なことを言いました。時々度付き眼鏡をサングラスと混同しましたが、全体的に物体の数量は非常に正確でした。
彼は何も非常に間違ったことを発明せず、しかしこのシーンで人間はこれらの物体を間違えないだろうと言えるでしょう。認識しやすい物体です。そのため、人工知能には限界があることを理解できます。完璧ではありません。
手描きスケッチの分析で見えた興味深い反応
そして私がテストした最後の興味深いことで、彼は206秒間考えました。彼が206秒間何を考えたのでしょうか?ここを見ると、皆さん、ゲームを作るのに73秒でした。サイトを作るのに4秒でした。シミュレーターを作るのに13秒でした。分析を行うのに22秒でした。物体を解釈するのに17秒でした。
しかしここでは206秒でした。彼が非常に考えたことは明らかです。私がこんなに考えさせることを何をしたのでしょうか?私はここで添付をクリックし、「スケッチを描く」というオプションがあることに気づきました。そして私は絵を描くことにし、まさにこれを描きました。棒人間、ブラジルの旗を持った小さな人形で、最後にUが付いた「vai Brasil」と書いてあります。
なぜかわかりませんが、彼は本当に興奮し、ここで考え続けました。FIFA World Cupを検索し、試合の日程を確認し、回答の計画を立て始めました。画像は人気のミーム「vai Brasil」でブラジルを応援する棒人間を示しています。Uで正確に書かれており、ここで多くの理論を作成しました。
あなたがアップロードした画像は、手作りのスケッチを示すシンプルな画像で、ここで笑顔の棒人間を示しており、すべて正確で、何も間違えませんでした。すべて正しいです。ここで「gol Brasil」と言い、「Campeão Brasil」、そこで起こっているすべてを説明しています。しかし本当に私の注意を引いたのは、彼がこの「Vai Brasil」の画像に、NVIDIAグラフの非常に強力な分析、その他多くのことよりも実際に多くの時間を費やしたことです。
彼は千倍速く作業しました。なぜ彼が棒人間に作られた「Vai Brasil」を理解しようとしてより多くの時間を費やしたと思うか、下にコメントしてください。この質問はNASAでも説明できません。
Grok Heavy バージョンのテスト事例
さて、私が話していたように、Grok Heavy バージョンのテストを行った人の一人がMatthew Burmanでした。そして彼は非常にクレイジーなシミュレーターを作りました。見えますか、皆さん?流体の分析、煙の分析を行います。そして彼は煙が通過するのを見せ始め、ここでいくつかのバリアを配置し、いくつかの設定、一連のことができます。そしてこれらのシミュレーションは非常に完璧です。そしてここは間違いなくより知能的なモデルです。
これらのシミュレーターがより高度であることがわかります。彼がGrok 4で行っている非常にシンプルなこと、Grok 4 Heavy ではより知能的です。彼は手の動きを検出して、指を使ってスクリーンに文字を書き、タイピングするプログラムを作りました。そしてそれはまあまあ機能します。
それほど良くはありませんでしたが、機能しました。彼は非常に興味深いアプリケーションを作りました。これはそれほど作るのが難しくありません。これを行う非常に簡単なコンピュータビジョンライブラリがあります。彼は答えを知らない非常に難しい質問を投げかける一連のテストを行いました。コメントしません。人がわからない難しい質問を送って、後でそれが良いか悪いかを結論するのに、彼が答えを理解していないということです。
しかしいずれにせよ、彼はARC Prize 2の演習からいくつかの例を取り、Grokは正解しませんでしたが、彼が16%しか正解しなかったことを覚えておく必要があります。彼はこの種の演習ではあまりうまくいっていません。しかし、ARC Prizeとは何か、なぜ人間には簡単で機械には難しいかを理解するために、この絵を見てください。
演習は例を与え、その例の正しい答えを与えます。すると「あ、真ん中に黄色い。」青いのが上に嵌まった。緑のおそらくこの後ろにあるのが、上に嵌まった。青いのが横に嵌まった。そして灰色のが青いのに嵌まった。
わかりましたか?私たち生き物は、これを見て少し考えて、もう解決します。しかし彼はそれをGrokに解決させるために投げかけ、明らかにGrokは正解しませんでした。
総合評価と結論
しかし、Grokを使用するために30ドルの購読をする価値があるかどうか疑問に思っているでしょう。この時点で正直でなければなりません。
正直に言って、購読する価値があるとは思いません。ここで私が行ったテストと私がここで行ったすべてのことは、他のAIモデルと大体同じレベルで、時には以下のレベルにあると思います。例えば、Geminiの方が私が行ったこれらのテストで彼が解決した問題をより良く解決すると思います。
そしてGeminiなら、絶対に何も支払うことなく無料でこれらすべてを行うことができます。では、Geminiより高く、Geminiの無料版で既にこれらのことを大体行えるのに、30ドル支払う価値があるでしょうか?そうは思いません。おそらく私が期待することは、彼らが価格を下げるか、知能を向上させることです。
なぜなら、この購読価値とこの彼らが提供しているもので、他の人工知能が既に提供しており、他のものがより安いということを超える何かを追加できていないと思うからです。そのため、正直に言って、あなたのGemini 2.5 Proで満足していたなら、そこに留まってください。すべて素晴らしく、変更する必要はありません。
そしてあの300ドルのモデルについては、もう少し待った方が良いと思います。彼らがAPIに配置するまで待ちましょう。APIで機能している時、300ドル、1,500レアルを費やすことなくテストを行うことができます。そしてこれらのAPIテストで、本当に購読する価値があるかどうかを決めることができます。なぜならこれらのテストは5から10レアルかかるからです。
そしてその時にそこで何をするかを決めることができます。何かテストを行った場合は既にコメントしてください。ここで私が話したことと少し異なる認識があったかどうか、話すのが重要で欠けている詳細があるかどうかを言ってください。そしてこのような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。
メンバーはインテリジェントエージェントの独占動画と先行動画にアクセスできます。以上です。いいねを押してください。ありがとうございました。


コメント