Grok 4 – 知っておくべき10のこと | ASIに仕事を奪われたい

この動画は、イーロン・マスクのxAIが発表したGrok 4について解説したものである。Grok 4は各種ベンチマークで優秀な成績を示しているが、その結果の解釈には注意が必要である点、料金設定、他のAIモデルとの比較、将来の展望などについて詳しく分析している。特に月額300ドルという高額な料金設定や、ベンチマーク結果の選択的な提示について批判的な視点で検証している。

Grok 4 - 10 New Things to Know

Grok 4 is here, but did you know these 10 things about the new model? From benchmark caveats to soloing science, 0 a ...

Grok 4の登場とその評価
ベンチマーク結果とその解釈
ベンチマーク結果の選択的提示について
ARC AGI2での優秀な成績
Simple Benchによる評価
Simple Benchでの高評価予想
知識集約的ベンチマークの限界
Grok 4 Heavyの仕組み
テキストと視覚のパフォーマンス差
高額な料金設定について
今後の展開と競合他社
安全性に関するマスクの見解
政治的偏見の問題
xAIの財政状況と環境問題
ポジティブな側面
将来への期待

Grok 4の登場とその評価

Grok 4が登場しました。これはかなり優秀なAIモデルですが、おそらく他のどの言語モデルよりも多くの騒音が生まれることになるでしょう。ですので、混乱の中で少しでも信号をお伝えできればと思います。最新で、おそらく最も賢いAIモデルについて知っておくべきことを、たった10項目に絞ってお話ししましょう。

ベンチマーク結果とその解釈

1点目は、Grok 4が少なくともベンチマークによると、最も賢いモデルかもしれないということです。高校数学コンペティションの特定の設定において、OpenAIの最高モデルとGoogleの最高モデルを上回っています。かなり有名な科学ベンチマークであるGoogle proof Q&Aでも同様で、ここでもAnthropicの最高モデルとGoogleのモデルを再び上回っています。

少なくとも1つのコーディングベンチマークでも同様ですが、イーロン・マスクはGrok 4について、「ほぼすべての分野において同時に、ほとんどすべての大学院生よりも賢い」と、さらに踏み込んだ発言をしました。この発言はもちろん皆に取り上げられるでしょうが、3つの重要な注意点が必要です。

まず私からの指摘として、Grok 4は依然として言語モデルであり、皆さんがお馴染みのあらゆる幻覚に陥りやすいままです。これは新しいAIのパラダイムではありません。

2つ目に、私たちは以前にもこのような誇大宣伝を聞いたことがあります。特にGoogle DeepMindのCEOであるデミス・ハサビスが約18ヶ月前に、Gemini 2がほぼすべての人間の専門家よりも優れていると言ったときです。「Geminiの素晴らしいところは、非常に多くのことに優れていることです。トレーニングの終盤になってくると、例えば私たちがテストした50の異なる専門分野のそれぞれで、その分野の最高の専門家の人間と同等の能力を持っています」。

あれは当時誇張でしたし、マスクも今誇張しています。なぜなら、実世界でのパフォーマンスが常にベンチマークのパフォーマンスと一致するとは限らないからです。専門性とは、多肢選択問題に答えること以上のものです。

したがって、マスク自身、xAIのCEOからの3つ目の文脈として、大学院生よりも賢いという発言は、少なくとも学術的な質問に関してのことだと述べています。「Grok 4は全てにおいて大学院レベルです。これらのことの一部は繰り返す価値があります。Grok 4は全てにおいてポスドクのようにPhDレベルです。PhDよりも優れていますが、ほとんどのPhDは失敗するでしょう。それよりも優れています。つまり、少なくとも学術的な質問に関してです」。

ベンチマーク結果の選択的提示について

2点目として、私はGrok 4に大いに感銘を受けていますが、これらのベンチマーク結果は別の理由で誤解を招くものです。まず、Y軸がゼロから始まっていないことに注目してください。そのため、モデル間の差は規模的にやや誇張されています。

Grok 4の製造元であるxAIは、比較するモデルを選択的に選んでいます。最近の高校数学コンペティションでは、Grok 4 Heavy（これについては後で説明します）がGemini Deepthink、つまりまもなくリリース予定のGemini 2.5 Pro Heavyを大幅に上回っています。しかし、このコーディングベンチマークのLive Codebenchでは、Gemini DeepthinkがGrok 4 Heavyを実際に上回っているにもかかわらず、チャートには含まれていません。

これまでと同様に、これらのモデル提供者がベンチマークを示すときは、特にベンチマークの答えがオンラインで入手可能な場合、それらを眉唾物として受け取る必要があります。

ARC AGI2での優秀な成績

しかし、これらのことだけでは、Grok 4のARC AGI2という半プライベート評価での素晴らしいパフォーマンスを完全に説明することはできません。ご覧のように、TwitterまたはX上のこの投稿は約300万ビューを獲得し、急速に増加しています。これが、いわゆる流動的知能やIQの非常に厳格なテストとして知られているからです。

そして、Grok 4は実際に他のモデルを上回っています。私は他の動画でARC AGIについて取り上げましたが、簡単に言うと、Grok 4はデータの潜在的なパターンを真に把握することができます。もちろん、これはほぼすべての分野に関連することです。

Simple Benchによる評価

次に、モデルがどれほど賢く感じるかのベンチマークはあるのでしょうか？はい、あります。私が考案しようとしたもので、Simple Benchと呼ばれています。これは社会的知能、ひっかけ問題、時空間的質問のテストです。

現在、皆がGrok 4 APIにスパムを送っているため、今日完全なベンチマークを実行するのはかなり困難ですが、かなり良い推定を得るために約20問を実行しました。この質問を見てください。これは一般的な論理パズルの少しひねったもので、Grok 4は実際にそれを見抜きます。

これは実際に、罠の答えを選ばない最初のモデルです。Grok 4は賢く感じるでしょうが、もちろん、例えば空間推論のように、快適な領域から外に引き出すと、まだ崩れることがあります。この質問では、他のすべてのモデルと共通して、Grok 4は手袋が単に道路に落ちることに気づきません。

また、答えるのに非常に長い時間がかかることがしばしばあり、これは皆さんの多くにとって若干の問題となる可能性があります。

Simple Benchでの高評価予想

とはいえ、Grok 4はSimple Benchの私のリーダーボードのトップ付近に位置するだろうと強く予想しています。言い換えると、すべてのベンチマーク結果をベンチマークハッキングだけで説明しようとする誘惑に駆られすぎないよう注意してください。

これはGrok 4が月額300ドルの価値があるという意味ではありませんが、もう一つ触れたいベンチマークがあるので、すぐにその話に移ります。それはもちろん、大袈裟に名付けられた「人類最後の試験」で、特定の設定下でGrok 4は50%以上のスコアを記録し、どのモデルよりもはるかに優秀なパフォーマンスを示しています。

知識集約的ベンチマークの限界

しかし、これは知識集約的なベンチマークであり、したがってパフォーマンスはモデルに投入されるトレーニングデータに大きく依存することを知っておくべきです。一例を挙げると、ハチドリが対をなす楕円形の骨を持っていることをモデルが知っていることが、あなたのユースケースにとって重要でしょうか？

皮肉に聞こえるかもしれませんが、モデルがこのような信じられないほどの知識ベースを持っていることは実際にとてもクールだと思います。ですので、率直に言って、私はGrokをかなり使うことになるでしょう。

その試験のリリース時に、私はそれが人類最後の試験にはならないだろうと言いました。トレーニングデータに必要な知識があるかどうかは、モデルとしてどれほど知的であるかの指標というよりも、たまたまその知識を持っているかどうかの問題です。これは後知恵ではありません。

昨年9月の私のPatreonで、この試験は他の多くの人が予想するよりも早く攻略されるだろうと予言しました。ツールを使えるということは、例えばGrok 4が特定の計算を実行するためのコードを書けるということです。

Grok 4 Heavyの仕組み

しかし、このGrok 4 Heavyとは何でしょうか？マスクに説明してもらいましょう。「Grok 4 Heavyについてですが、これが行うのは、複数のエージェントを並行して生成することです。そして、それらのエージェントはすべて独立して作業を行い、その後、彼らの作業を比較し、どれが良いかを決定します。これは学習グループのようなものです。

そして、それは単純な多数決ではありません。なぜなら、しばしば1つのエージェントだけが実際にトリックを理解したり、解決策を見つけ出したりするからです。しかし、彼らがトリックを共有したり、問題の本当の性質が何かを理解したりすると、その解決策を他のエージェントと共有し、そして彼らは比較します。本質的にメモを比較してから、答えを導き出します。それがGrokのHeavy部分です」。

このチャンネルの長年のフォロワーなら、これが私が約18ヶ月前にリリースしたSmart GPTの正確な前提であることに気づくかもしれません。これは当時、MLUで記録的なパフォーマンスである89%を記録しました。皮肉なことに、その試験も人類最後の試験の主要著者であるダン・ヘンドリクスによって作成されました。

そして、アンドレ・カルパシーがSmart GPTを称賛してくれたことを自慢せずにはいられません。

テキストと視覚のパフォーマンス差

ベンチマークで多くの人が見逃したかもしれない最後のことは、Grok 4とGrok 4 Heavyのテキストベースのパフォーマンスが非常に優秀だということです。しかし、完全なベンチマークでは、例えばGemini 2.5 Proに対してより控えめな改善にとどまっています。

つまり、Grok 4は視覚セグメントで非常に悪いパフォーマンスを示しているに違いありません。言い換えると、ローマ碑文の解読には頼りたくないかもしれません。

高額な料金設定について

これは当然、年間3,000ドルまたは月額300ドルのSuper Grok Heavyの話につながります。xAIは10月にビデオ生成のような新機能がSuper Grok Heavyに追加されることを約束していますが、より低価格のGemini Ultraはすでにv3を持っています。

財布に十分余裕があれば、すべてに加入するでしょう。しかし、これが唯一の最大限の加入プランであるなら、はるかに安い20ドルのGemini Proを見過ごすのは困難です。この金額に価値があると思うか、そしてその理由をコメントで教えてください。説得される心の準備はあります。ただ、現時点では価値を見出せません。

簡単に言うと、開発者の方なら、Grok 4の価格設定がClaude Sonnetと同じレベル、入力3ドル、出力15ドルであることをご存知でしょう。これはフロンティアモデルとしては適正な価格ですが、繰り返しになりますが、はるかに安い代替手段があります。

今後の展開と競合他社

次に、ライブストリームをご覧になった方なら、マスクが新機能と新モデルが間もなく登場すること、そしてGrok 5のトレーニングが差し迫って完了する可能性があることを繰り返し言及していたことをご存知でしょう。

しかし、今週はGemini 3が登場するというリークも得られましたし、もちろん今月GPT-5が登場するという恒例のリークもあります。以前は、モデルの実際のリリースまで安全チェックのために6ヶ月待つ必要がありました。例えば、モデルが生物兵器の作成に役立つのか、といったことです。しかし、現在ではそのすべてが窓の外に投げ捨てられているようです。

安全性に関するマスクの見解

これは、安全性に関するマスクのかなり大胆な発言につながります。「これは人類にとって悪いことなのか、良いことなのか？私は良いことだと思います。おそらく良いことでしょう。ええ、ええ。しかし、たとえそれが良いことにならないとしても、少なくともそれが起こるのを生きて見たいと、ある程度自分自身を納得させました。そうです。実際そうです」。

政治的偏見の問題

次に、私がいつこの話をするのか疑問に思っていたかもしれませんが、はい、もちろん、Grok 4は時々、特定の歴史上の人物を賞賛したり、例えば南アフリカのような国に焦点を当てたりする、Grok 3と同様の問題に苦しむ可能性があります。

その行動は、「政治的に正しくない主張をすることを避けるべきではない」というGrok 3のシステムプロンプトへのこの追加によって引き起こされたようです。システムプロンプトへのこのような小さな変更がこのような激しい行動を引き起こすなら、Grok 4では何でも起こり得ます。

xAIの財政状況と環境問題

システムプロンプトはもちろん、xAIにとって唯一の問題ではありません。彼らは月10億ドルを燃やしているとされています。Grok 4またはGrok 5は、xAIにとってより多くの収益をもたらす必要があります。

そしてもちろん、厄介な環境汚染の問題があります。xAIがOpenAIやGoogle DeepMindに追いついた速度は驚くほど印象的でしたが、そこまで速く競争力を持つために必要な発電機を導入することは、地域的なコストを伴いました。

マスクのxAIが10万GPUに到達した速度が驚異的だと思ったなら、彼らは100万のAI GPUを搭載した海外の発電所全体をメンフィスに持ち込むことを計画しています。

ポジティブな側面

前向きな話で終わろうと思います。マスクはGrok 4がまだ新しい科学的発見を生み出すために使用できないと言いましたが、Grok 4の助けを借りてわずか4時間で作られたこのゲームによって実証される、過小評価されている点があると思います。

それは、Grok 4のようなモデルが現在の技術で新しい科学を単独で生み出すのに苦労することが多い一方で、既存の科学やコードをあなたが単独で理解しやすくすることに最適化されているということです。誰もが一人でもっと多くのことができるようになることの影響を過小評価すべきではないでしょう。

ただし、美しい大きな法案に投票すべきかどうかを分析するためにGrokを使用すべきではないでしょう。

将来への期待

しかし、Grok 4やGrok 5の優位性がXとTwitterのデータへのアクセスから来ているなら、少なくともGrok 5のために、Xが現在そこにある大量のボット返信、スパム、クリックベイトをクリーンアップできることを期待しましょう。

いつものように視聴していただき、ありがとうございました。これがこのチャンネルでのGrok 4の最後の言及にはならないと確信しています。実際、Patreonで公開予定のドキュメンタリーでGrokについて言及していると思います。いずれにしても、素晴らしい時間をお過ごしください。