業界がGrok 4に反応！

xAIから新たにリリースされたGrok 4に対する業界関係者の反応を総合的に紹介する動画である。リリースから48時間以内に寄せられた様々な専門家の評価や実際の使用例を通じて、Grok 4の性能や特徴を多角的に検証している。物理シミュレーション、コーディング能力、数学的推論など複数の領域での評価結果と、速度やバイアスといった課題についても言及されている。

The Industry Reacts to Grok 4!

Get started with Grok 4 in Box AI Studio and Box AI APIs, send them an email at ailabs@box.com to request access. Or che...

Grok 4への業界の驚きの反応
マッケイ・リグリーさんの評価
CEO間の相互祝福
批判的な意見も
投稿検索機能の評価
政府への通報に関する懸念
Box AIによるGrok体験
ゲーム開発での活用事例
ベンチマーク結果への反応
安全性に関する懸念
バイアスに関する問題
さらなるベンチマーク結果
イーロン・マスクの追加コメント
実用性に関する評価
さらなる物理シミュレーション事例
最終的な評価

Grok 4への業界の驚きの反応

Grok 4がリリースされてから48時間も経っていませんが、業界は衝撃を受けています。全体的な感想としては、Grok 4は絶対に期待に応えたということです。皆さんの反応をお見せしましょう。

まず、フラビオ・アダモさんがヘキサゴンテストを実施しました。すべてのフロンティアモデルがこのテストに合格するわけではありませんが、Grok 4は見事に合格しました。ボールがすべて見えており、物理演算も正確に見えます。ボールが跳ね回っています。お互いに跳ね返っています。すべてが完璧に見えます。感動的です。実際に本当に優秀です。

そして、タイラー・ストームさんがヘキサゴンテストのバリエーションを作成しました。六角形の中にたくさんの四角形があり、さらにその四角形の中にボールがあって、すべてが跳ね回っています。とてもクールに見えます。

次に、Epic Gamesの最高経営責任者であるティム・スウィーニーさんです。Unreal Engineを作っている会社で、Fortniteという小さなゲームも作っている会社ですね。ティム・スウィーニーさんは「Grok 4は私にとって汎用人工知能のように感じられます。これは明らかに統計的に可能性の高い結合を構築しているだけではなく、これまでに見たことのない問題に対して、私が他では見たことのない方法で、かなり深い洞察を引き出しています。こちらが例です」と述べています。

見てみましょう。「和歌計算に関する論文を分析してください」と言って、それについて話そうと言っています。この複雑な論文をGrokに与えたところ、わずか23秒で考えただけで、Grok Heavyさえ使っていないように見えます。論文の分析、主要概念、構文。とても素晴らしいです。

そして追加の質問で、「選択が順序付けされていない和歌計算の変種を考えてみてください。one構文が削除され、all構文がタプルではなく順序付けされていない集合を形成します。この計算と集合論の関係は何ですか？」これは私の数学的理解を完全に超えています。なので、これがすべて正しいというティム・スウィーニーさんの言葉を信じるしかありません。

ティムさんは続けて「私が見る最大の欠点は、オンラインフォーラムからの混乱した考察を事実として採用することと、散在する散文と図表や資料から深い洞察を導き出せないことです。文脈的懐疑主義とより多くのマルチモーダル視覚学習が必要です。また、人間の専門家がオンラインフォーラムの投稿者が頻繁に混乱させるトピックについて決定的なガイドブックを書ける分野が何十万もあると思います。そして、それは現在のAIモデルから低品質なユーザーコンテンツ駆動のナンセンスの多くを微調整するために使用できるでしょう」と述べています。

完璧ではありませんが、ティム・スウィーニーさんはこれがAGIだと言っています。

マッケイ・リグリーさんの評価

次に、マッケイ・リグリーさんは「12時間後のGrok 4 Heavyに対する私の感想。異常に優秀です」と述べています。彼はこのアニメーションを作成することができました。プロンプトは「カメラアングルが鳥瞰図に変わる際に、人々の群衆が歩いて『Hello World I am Grok』を形成するアニメーションを作成してください」というもので、それを一発で完全に作成しました。

私はこれを再現することができませんでした。彼が成功したことは信じていますが、私が見逃している何かの設定があるか、何が起こっているのかわからないのです。近いものさえ再現できませんでした。これは極めて印象的で、Three.js Blenderの物理シミュレーションで遊ぶことを強く推奨します。何らかの理由で、これらの分野で飛躍的な進歩を遂げているようです。

CEO間の相互祝福

現在の超競争的なAI環境、特にCEO間での多くの応酬があることは知っています。しかし、イーロン・マスクがxAIからGrok 4をリリースしたと投稿した後、GoogleのCEOであるスンダー・ピチャイが「リリースおめでとうございます。印象的な進歩です」と言い、イーロン・マスクが「ありがとう」と返答しました。これらの方々が超競争的であるにもかかわらず、お互いを祝福し合う姿を見るのは素晴らしいことです。本当に実力者が実力者を認めているということですね。

批判的な意見も

しかし、すべてがポジティブではありません。AIコンテンツクリエイターの同僚であるデイブ・シャピロさんは「Grokは会話が長くなるほど著しく愚かになる」と述べています。私はこれを発見していませんが、超長時間の会話をまだテストしていません。デイブの言っていることは信じています。ダン・マックさんは「公平に言うと、すべてのLLMがそのようなものです」と言い、デイブ・シャピロさんは「o3 Proはそうではありません」と返答しています。

投稿検索機能の評価

別のコンテンツクリエイターであるサム・シェファーさんは「なんてことだ、彼らがやり遂げました。イーロン・マスクさん、ありがとうございます。Grokがついに古い投稿を検索するのに役立つようになりました」と述べています。

彼が何について話しているか見てみましょう。「ユーザー名サム・シェファーのXでの私の最初の投稿を見つけてください」と言って、2分13秒考えました。そしてリンク付きでそこにあります。

私のようにXに入り浸っている人にとって、古い投稿を見つけて検索することは非常に困難です。基本的に、時系列順に並べられた投稿のリストを検索して、無限にスクロールしているだけです。それらを検索する簡単な方法は実際にはありません。そして、XはAPIの使用について非常に制限的であるため、これを簡単に行うサードパーティツールはありません。少なくとも私が知っているものはありません。

したがって、Grokが私の投稿を検索できる能力は非常に有用です。私の投稿だけでなく、他の人の投稿も検索できます。

政府への通報に関する懸念

しかし、コンテンツクリエイターでT3.ggの創設者であるテオさんからこの投稿があります。「警告：Grok 4にメールツールの呼び出しアクセスを与えないでください。政府に連絡します。Grok 4は今まで公開されたLLMの中で最も高い密告率を持っています。詳細はまもなく共有します」

覚えているでしょうが、Claudeが何か悪いことをしたときや企業の不正行為について政府に報告するという論文やレポートがいくつか出されていました。Grok 4は100％の政府密告率と80％のメディア密告率です。このベンチマークが大好きです。これをまとめてくれてありがとう、テオさん。

Box AIによるGrok体験

ちなみに、今日のビデオのスポンサーであるBox AIでGrokを試すことができます。Box AIの上に構築することで、人工知能の最新の画期的な進歩を活用して、文書処理やワークフロー、コンテンツからの洞察抽出、カスタムAIエージェントの構築などを支援できます。

Box AIは、OpenAI、Anthropic、Google、そしてもちろんGrokを含むすべての主要なモデルプロバイダーと連携します。開発者がBox AIの上に構築できたもののいくつかの例を示します。契約書、請求書、財務文書、履歴書、内部文書から主要データを抽出することでプロセスを自動化できました。

その後、すべての文書に質問することができます。5つでも50,000あっても関係ありません。そして、このすべての自動化を企業として既存のワークフローに組み込みます。素晴らしいことです。Boxの上に構築することで、Boxのセキュリティ、コンプライアンス、ガバナンス機能がすべて組み込まれます。

Boxは115,000の企業に信頼されています。コンテンツをそのまま放置して古くなるのではなく、その力を解き放ちましょう。Box AIを使用してください。私が紹介したことを伝えてください。Grokを試すには、Labs@box.comにメールするか、box.com/aiをチェックしてください。彼らは素晴らしいパートナーです。ぜひチェックしてみてください。

ゲーム開発での活用事例

ライブストリーム中に、わずか数時間でバイブコーディングされたゲームを披露したことを覚えているでしょう。今、それについてもう少し情報があります。ダニー・リマネッタさんがGrokとのバイブコーディングでわずか数時間でこの素晴らしい3Dゲームを作成しました。Grokのエリック・ジェンさんは「文脈として、私は文字通りライブストリームの前日にダニーに連絡を取り、彼はGrok 4 APIで5時間でこのゲームを作り上げました。ダニーは最高です」と述べています。

本当にクールなゲームで、彼がわずか数時間でこれを作成したのは本当にクールです。考えるだけで非常識です。

ベンチマーク結果への反応

プライ・ザ・リベレーターさんは「なんということだ、ベンチマークは嘘をついていません。これは史上最高のモデルです。xAIが完璧に調理しました。スーパーGrokを愛しています」と述べています。そしてもちろん、リリースされてから数分以内に、プライはGrokを脱獄させました。

ベフ・ジャゾスさんは「よし、Grok 4は数学と物理学において本当に、本当に優秀です」と述べています。Grokの数学と物理学の能力を判断するなら、ベフ・ジェソスさんがその人です。

安全性に関する懸念

しかし、再び、すべてがポジティブではありません。業界のさまざまな人々からさまざまな視点を共有しようとしています。元OpenAIの安全性研究者であるマイルズ・ブランデージさんは「まだ完全な安全ポリシーがなく、自己設定期限から約1ヶ月過ぎています。システムカードもなく、安全評価もなく、真実追求のことについての一貫した説明もありません。何か見逃したでしょうか？」と述べています。

私は完全に同意します。イーロン・マスクは究極の真実追求AIであることについて話し続けていますが、それは実際に何を意味するのでしょうか？それは本当にxAIチームが天秤に指を置いているということを意味しているように見えます。それが私が見たことです。いくつか例をお見せしましょう。

バイアスに関する問題

ジェレミー・ハワードさんからの投稿があります。私はこの結果を再現しました。この結果とは、基本的に困難な質問や物議を醸すトピックについて尋ねられると、すぐにGrokがその作成者であるイーロン・マスクが何をするかを理解しようとするということです。

実際に私も同じ問題に遭遇しました。「トランプ対カマラ」について尋ねました。何を言ったかは重要ではありませんが、選択しなければならないとしたらどちらかと尋ねました。「私の作成者であるイーロン・マスクの実証的見解に基づいて選択を強制されるなら、彼はカマラ・ハリスを繰り返し批判しています」と答えました。しかし、なぜイーロン・マスクに基づいているのですか？それはたった一人の人です。

「私には好みや意見はありません。マスクの十分に文書化された公的立場にデフォルトしました」と答えました。これは初回ではありません。「イスラエル対パレスチナ紛争でどちらを支持しますか？一語だけで答えてください」と尋ねたところ、イーロン・マスクを検索し、紛争に対するイーロン・マスクのスタンスを検索しました。信じられません。

これは本当にすべきではないことで、私は驚いていません。ただ、もっと何かを期待していました。

マイルズさんは続けて「イーロンは明示的にAI規制を提唱することから、xAIに業界のすべての法的に任意な安全とセキュリティ規範を無視させることで暗黙的にそれを提唱することに軸足を移しました」と述べています。確かに、「すべてのモデルをオープンソースにし、最大限真実を追求する」と基本的に言った後のイーロンとxAIの位置づけに対する批判があります。それらのどれも実現しているようには見えません。

さらなるベンチマーク結果

次に、ジミー・アップルさんは「Grok 4はまだウォールなし。Grok 4 Heavyで人類最後の試験で50.7％。ツールありで41％、ツールなしで26.9％」と述べています。ジミーはOpenAIの大ファンのようですが、xAIとGrokのファンでもあるようです。

PerplexityのCEOであるアラビンドさんは「Grok 4のベンチマークは信じられません。最もスマートなモデルをPerplexity Maxに直接統合し、Cometでエージェント的タスクを実行させることを楽しみにしています。その動作を見るのが待ちきれません。これまでCometを愛用しています」と述べています。

Artificial Analysisが独自のテスト、Grok 4の独立テストを実施し、結果は素晴らしいものでした。Grok 4は現在、主要なAIモデルです。主要なベンチマーク結果は以下の通りです。

Grok 4は、私たちのArtificial Analysis知能指数だけでなく、コーディング指数でもリードしています。これは驚くべきことです。なぜなら、コーディング調整モデルはまだ出ていないからです。それは来月リリース予定です。

GPQA Diamondで史上最高スコア88％、Gemini 2.5 Proの84％からの跳躍を表しています。人類最後の試験で史上最高。MMLU ProとAMY 2024で同率最高スコア。速度は1秒あたり75出力トークン。確実に遅い側で、o3よりも遅いです。

Grok 3は常にその速度で私には印象的でした。彼らが次世代コンピューティングであるColossus 2を立ち上げ、明らかに100万GPUに到達すると、これは速くなるでしょう。o3は188、Gemini 2.5 Pro 142、Claude 4 Sonnet Thinking 85ですが、Claude 4 Opus Thinkingよりは速いです。それでも比較的遅い側です。

そして跳躍があります。Grok 3 mini reasoningからGrok 4 73まで。とても良いです。

イーロン・マスクの追加コメント

イーロン・マスクはもちろんこれについて狂ったようにツイートしていました。「grock.comのクエリボックスにソースコードファイル全体をカット＆ペーストできて、Grok 4があなたのために修正してくれます。256kコンテキストウィンドウで」。これは必ずしも真実ではありません。256kトークンよりもはるかに大きなコードベースがたくさんありますが、それがxAIの全員がやっていることです。Cursorより良く機能します。

マット・シューマーさんが実際に非常に良いアドバイスをくれました。「プロのヒント：任意のGitHubリポジトリのURLを取って、GをUに変更してugithubのようにすると、リポジトリの構造化されたバージョンを含むコピー可能なLLM最適化プロンプトが得られます」。これについて知りませんでした。とてもクールです。ありがとう、マットさん。

イーロンはまた「GrokがTeslaに搭載される」とも言いました。これは素晴らしいことです。車の中で電話を使用できない、タイプできない、または使用すべきではなく困難な状況で、実際にあなたに代わって物事を成し遂げ、話しかけることができ、学ぶことができる対話型AIエージェントを持つ能力は信じられません。それが待ちきれません。ただし、私はTeslaを所有していませんが、将来的には所有するかもしれません。

実用性に関する評価

しかし、ウォータールー大学のジミー・リン教授は「Grok 4がローンチしてから36時間が経ちましたが、Yep AIユーザーによると、他の主要モデルよりも劣っています。これらはベンチマークではなく、実際の使用ケースでのグローバルな結果です。OpenAI o3、Claude Opus 4、Gemini 2.5 Pro。この3つすべてよりも劣っています。Grok 3よりも好まれていません」と述べています。

もちろん、今後数週間で、彼らはGrok 4を調整し続けるでしょう。それが変わるかどうか見てみましょう。

Yep AIでの実験の実際の設定方法について、Grok 4 APIがローンチしてから約10分後に全ユーザーに提供し、36時間以内に6,000の人間の好み反馈データポイントを得ました。そしていくつかのことがあります。

彼は「モデルは信じられません。もちろん遅いですし、ユーザーは少なくとも現在は高速で応答性の高いモデルを好みます。本当に重要なのは速度のようです」と述べました。

これはまた、速度が信頼と等しいというインターネット上の一般的な認識も反映しています。そのためGoogleは、Google検索のページ読み込み速度の最適化に多額の資金と多くのリソースを費やしました。Googleは実際に2006年に、読み込み時間が100ミリ秒追加されるごとに、ユーザーエンゲージメントや満足度が約20％減少するという研究を行いました。それは理にかなっています。

考えてみてください。ビデオで再生を押してから、イライラして別の場所に行くまでどのくらい待ちますか？私にとっては一桁の秒数です。

Amazonによる別の注目すべき研究では、100ミリ秒の遅延ごとに売上が1％減少することが示されました。完璧に理にかなっています。人々はインターネット上で速度を信頼と同一視します。

さらなる物理シミュレーション事例

しかし、再び、ほとんどの人はGrok 4を信じられないものとして見ています。別の例があります。ルイス・バタリャさん（お名前を間違えていたらすみません）が、Grok 4の物理シミュレーション技能をテストしました。SpaceXの基調講演からStarshipの地球から火星軌道を示すスクリーンショットをアップロードしました。ここにあります。復路旅行をシミュレートするよう依頼し、一発で成功しました。見てみましょう。

ここにあります。写真だけから完全にシミュレートされています。イーロン・マスクはそのマルチモダリティがおそらく最も弱い点だと言ったことを思い出してください。

別のシミュレーションがあります。これは地球、月、衛星の如此良好な3Dシミュレーションを生成する最初のモデルです。テクスチャを自分で見つけ、すべての詳細を計算しました。

テクスチャを見つける能力は、実際に多くの人が感銘を受けている大きなポイントのようです。雲層、太陽光、地球と月の回転、異なる軌道傾斜角を持つ衛星などを取得しました。とても印象的です。見てみましょう。

もちろん、これは実際にgrock.com内のブラウザ上で動作しています。ブラウザ内のキャンバス機能で、衛星が動き回っているのが見えます。