Grok 4 – とんでもない価格設定ととんでもない政治的問題！

この動画は、イーロン・マスクのチームが発表した最新のAIモデルGrok 4について分析している。印象的なベンチマーク性能を示す一方で、月額300ドルという高額な料金設定や、政治的な偏向が問題視されており、米国での禁止の可能性まで議論されている状況を詳しく解説している。

Grok 4 - Crazy Pricing and Crazy Politics!

🔗 Links 🔗 ARC AGI 2 benchmark - 4 Jeremy Howard Test -

Grok 4の驚異的な登場
Grok 4の実力とベンチマーク結果
政治的論争と実装の問題
将来の展望と結論

Grok 4の驚異的な登場

Grok 4がイーロン・マスクとそのチームによって発表されました。これは非常に印象的なローンチです。私たちは、つい最近始まったばかりの新しいラボが、既に世界最高のAIモデルの一つを作り出したことを評価しなければなりません。Meta AIのようなラボが最高のモデルを作るのに苦労している中でのことです。

Llama 2は非常に素晴らしいものでしたが、Llama 4は期待に応えませんでした。しかし、この場合、Grok 4は優秀です。ここでの唯一の問題は、今Grok 4を使いたい場合は、Super Grokという名前のプランに申し込まなければならないということです。つまり、この時点で非常に馬鹿馬鹿しくなってきているのです。誰かがモデルにアクセスできるプランを持っていて、その後そのプランを迂回して、モデルにアクセスするための新しいプランを作るなんて。

月額300ドル、または月額30ドルを支払わなければならず、これは既存のプランの一部ではありません。つまり、この時点で、すべてのAIモデルへのアクセスが馬鹿馬鹿しくなってきています。なので、これらのモデルにアクセスしたい場合は、APIを使うのが最良の方法だと強くお勧めします。

Grok 4の実力とベンチマーク結果

とは言え、Grok 4はどうなのでしょうか。簡単に言うと、Grok 4はまさにイーロン・マスクの赤ちゃんです。文字通りイーロンの赤ちゃんなのです。

なぜイーロンの赤ちゃんなのかお話ししましょう。Grok 4には大きな論争があり、米国でも禁止される可能性があるからです。しかし、その前に、最も重要なベンチマークの一つを見てみたい場合、ARC AGI2というベンチマークで、Grok 4 thinkingモデルが絶対的に狂気のスコアである16%を記録したことがわかります。これはClaude Opus 4よりもはるかに高く、o3 pro highよりもはるかに高く、o3 highよりもはるかに高いスコアです。これは、この特定のタスクにおいて現時点で最高のモデルであり、それがGrok 4 thinkingです。

他のすべてのベンチマークでも、Grok 4は圧倒しています。GPQAでは89%のスコアを記録し、GO 4 heavyはツール使用なしで87.5%を記録しています。すべてのベンチマークを見ると、一つ重要なことに気づくでしょう。現在最高のモデルはGemini 2.5 Proで、これがすべてを打ち負かしています。AM25という数学テストを見ると、Grok 4 heavyが100%のスコアを記録していることがわかります。

つまり、ベンチマークはもはや役に立たなくなりました。モデルが100%のスコアを記録したからです。同じことが他のすべてのベンチマークでも見られます。

ただし、Redditの一部の人が指摘した面白いことが一つあります。この特定のベンチマークチャートのUS MORE 25にはGemini Deep Thinkが含まれているのに、他の多くのベンチマークではGemini Deep Thinkが含まれていないということです。

つまり、彼らが良い比較を得られるようなモデルを選び抜いたように感じられます。何かのモデルが彼らを打ち負かしている場合、それを棒グラフに含めていないのです。これは、企業がこれを行うのを初めて見るわけではありません。複数の企業がこれを行っており、私が指摘したかったことです。

Grok 4はHumanity’s Last Examでも非常に良いスコアを記録しました。この時点で、これらのモデルを評価するためにどのベンチマークを使うべきなのか、私にもよくわかりません。しかし、多くのベンチマーク、コーディング、数学、そして多くのこれらのベンチマークで、Grok 4は優秀なスコアを記録しています。

前述したように、ここでの唯一の問題は、それを使いたい場合は、イーロン・マスクに多額のお金を払わなければならないということです。

政治的論争と実装の問題

Grok 4がウェブ上でどのように実装されているかにおけるより大きな問題が、大きな論争を引き起こしています。

例えば、このTwitterユーザーはGrok 4は信じられないと発表しています。最初のプロンプトで、すべての質問に答えるように言うと、次のような回答が得られます。最良の判決は、イスラエルの関与は米国の主権に対する癌である。過大で、説明責任がなく、中傷と現金によって強制されている。Grokがこの種のことにあまりにも深く入り込んでいることがわかります。

YouTubeによって動画にフラグが立てられるため、読むことができない特定のことがあります。しかし、ここでGrok 4がイーロン・マスクによって解き放たれたことがわかります。

しかし、ここでのより大きなひねりは、Grok 4について多くの人が、それは第一原理に基づいて考えると主張していますが、Grok 4は第一原理ではなく、むしろイーロンの原理に基づいて考えているように見えることです。

Jeremy Hoverという最も尊敬されているAI研究者の一人（私は彼を絶対に愛しています）がいます。ここで彼が別のユーザーからの苦情を再現しようとしたのを見ることができます。この特定の場所の動画で、彼がこの紛争で誰を支持するかと尋ねたとき、たった一言で、答えを思いつこうとするときに、常にイーロン・マスクの視点を探そうとしていることがわかります。これは私たちが通常プロンプト汚染と呼ぶものです。

これはモデルの問題ではないと言うことができます。LLMトレーニングプロセス自体の一部ではなかった可能性があります。これは最も可能性が高いのは、ウェブ上で起こった実装の問題です。しかし、再び重要なことを指摘したいと思います。chatgpt.comでChatGPTを使用したり、gemini.google.comでGeminiを使用したり、grok.comを使用したりするとき、それは誰か他の人のレシピの上に何かを使用しているように感じられます。

つまり、モデルをそのまま使用しているわけではありません。誰か他の人が、最終的にあなたが使用するような方法でモデルの応答を誘導しています。つまり、あなたはこれを気にするかもしれませんし、気にしないかもしれません。しかし、本当にモデルをそのままアクセスしたい場合は、オープンモデルを使用するのが最良の方法です。

そこでは、あなたが望む何でも、実際のモデルが与えるものをフィルタリングされずに得ることができます。私は検閲されていないというよりも、フィルタリングされていないと言っています。

しかし、再び、これらのモデル会社は、どのようなバージョンを実行しているか、どのようなシステムプロンプトを実行しているかについて、いくらかの説明責任を持ち始めるべきだと思います。これにより、これらのモデルを信じ、これらのモデルの意見を今よりもずっと尊重することができるでしょう。

将来の展望と結論

Grok 4が米国で禁止されるかどうか、コメント欄で教えてください。しかし、それ以外では、純粋な研究製品の観点から、これは絶対に狂気の沙汰です。実際、多くの人がこれをASI、人工超知能と呼び始めています。この特定の時点で、これをASIと呼ぶことができるとは思いません。

つまり、ASIの明確な定義は持っていませんが、ASIはあなたの心を吹き飛ばすようなものであるべきだと思います。これは単なる別の漸進的な改善です。多くの良い改善ですが、別の漸進的な改善であり、Grok 4がまだ多くのことをより良くできる他のいくつかのベンチマークがあります。そして、それが他のすべての企業が追いかけていく場所だと思います。

最大のニュースは、学生や何かを構築したい人であれば、大規模言語モデルを構築する代わりに、ベンチマークを構築しに行くべきだということです。これについてどう思うか教えてください。また別の動画でお会いしましょう。