
4,020 文字

イーロン・マスクのファンならこの動画は見ないほうがいいでしょう。この動画を一行で要約すると、Grok 3のローンチ後、私のDeepSeek R1に対する尊敬の念は何倍にも増しました。
今日、イーロン・マスクとxAIは彼らの新しい主力大規模言語モデルであるGrok 3を発表しました。イーロン・マスクはオープンソースの旗手であり、OpenAIが何もオープンソース化していないことを常に批判していたにもかかわらず、驚くべきことにGrok 3はオープンソースではありません。Grok 3はオープンソースではなく、Grok 3 miniもオープンソースではありません。今日まで、それらをオープンソース化するかどうかについての情報もありません。Grok 2がオープンソース化される可能性があるという憶測はありますが、Grok 3については違います。
純粋なベンチマークの観点からGrok 3を見ると、これは良いモデルです。悪いモデルではなく、実際、現時点で最高水準で機能する最先端モデルの1つです。ベンチマークの観点から、Grok 3は本当に良いモデルです。ベンチマークでトップラインのスコアを記録しています。複数の独立したベンチマーク、数学、AIM、GPQA、コーディングなど、これらすべてのタスクでGrok 3は既存の競合よりもはるかに高いスコアを記録しています。
このような比較の唯一の問題は、どのバージョンのGPT-4と比較したのかわからないことです。例えば、ChatGPTは数日前にアップデートをリリースしましたが、このアップデートはこの比較に含まれていない可能性があります。それでもなお、推論モデルではないGrok 3が本当に良いスコアを記録しているのが分かります。
会社自身が共有したすべてのベンチマークで、Grok 3はo3のすぐ隣、o1やDeepSeek R1の上位にいることが分かります。推論なしのモデル、推論機能のないモデルとしては、Grok 3が最高のモデルです。Chatbot Arenaに関しては、モデルを試すことができ、このモデルはChocolateという名前で利用可能でした。Chocolateは最高のモデルで、コーディング、言語、その他すべての点で上位に位置しています。Grok 3は最高のモデルであり、Arenaスコアで1400を達成した最初のモデルです。新しいモデルなので95%信頼区間で±7という誤差がありますが。
私にとって非常に驚くべき興味深いことは、企業がArenaリーダーボードで素晴らしいスコアを獲得しているにもかかわらず、実際に誰かと話すと、そのモデルは日常的に使用されるものではなく、開発者が好むものでもないということです。Grok 3のAPIが利用可能になるのを待つ必要がありますが、それは数週間後になると思います。
正直なところ、私にとってGrok 3は単なる別のLLMです。特別なものは何も生み出していません。AIにおける私のChatGPTの瞬間ではありませんし、オープンソースの推論モデルにおける私のDeepSeekの瞬間でもありません。市場で誰もが推論モデルを追いかけることになったo3がしたことでもありませんし、Claude 3.5 Sonnetのようなものでもありません。
例えば、多くの人が使用しているテストがあります。人気YouTuberのTheoがこれを使用しており、Grok 3ではボールが跳ね返るという結果が出ました。これは80億パラメータのモデルで我々が行ったことと非常に似ています。
コーディングに関してGrok 3がどれほど優れているかは、待って確認する必要があります。これらのベンチマークではモデルは良い仕事をしているように見えますが、実世界のタスクになると、これらのモデルが崩壊し、Claude 3.5 SonnetやDeepSeek R1に及ばないことを何度も目にしてきました。
Grok 3のバイブテストに関しては、人々はすでに比較を始めています。例えば、元テスラAIディレクターのAndrej Karpathyは早期アクセスを得て、バイブチェックでGrok 3は本当に良いモデルだと述べています。Grok 3は多くのことをこなしますが、いくつかの単純な質問には上手く対応できません。例えば、「Lollapalooza」には「l」が3つしかありませんが、このモデルは4つあると答えます。これはLLMがコンテキストで与えられた内容ではなく、メモリから単語を使用するためです。
しかし、9.11 > 9.9のような問題はすべて、思考機能をオンにすると解決します。これがGrok 3に付属する思考モデルです。4つの異なるモデルが利用可能です。Grok 3、Grok 3 mini、Grok 3 reasoning beta、Grok 3 mini reasoningです。
これらのモデルを見ると、Grok 3は非常に良い仕事をしています。一つの理由は、xAIチームがこの場合o3モデルを含めないことを決定したからです。o3を含めると、o3は間違いなく現時点で最高の推論モデルです。TwitterユーザーのRexがこれを追加してくれました。推論プラステスト時の計算モデルを見ると、o3が現時点で間違いなく最高のモデル、最も機能的なモデルです。
o3を除外すると、Grok 3 reasoning betaとGrok 3 reasoning miniは良いモデルで、o1より優れているか、場合によってはo1と同等です。しかし、確実にDeepSeek R1よりは優れており、Gemini 2 flash thinkingよりもはるかに優れています。
これは素晴らしいモデルです。なぜこの動画がイーロン・マスクファンのためのものではないと言ったのでしょうか。理由は、もちろんGrok 3は本当に素晴らしいイノベーションで、モデルは良く、チームはそれほど古くなく、研究所もOpenAIのように何年も機能しているわけではなく、2-3年程度だからです。
しかし最大の問題は、イーロン・マスクが自分の言葉に忠実でないように見えることです。AIの進歩が人類を破壊することに問題があると言いながら、それについて何もせず、別の大規模言語モデルをリリースします。xAIのライブストリームを見ると、バックグラウンドには「我々のミッションは宇宙を理解することです」と書かれています。Grok 3のどの部分が宇宙を理解することに関係しているのでしょうか。
人類を進歩させているとか、AGIを実現しているとか、シリコンバレーの創業者として言いたいことは何でもいいですが、イーロン・マスクは再び…Grok 3は宇宙の理解に何を貢献しているのでしょうか。これはGoogleのDeepMindがAlphaFoldやalpha geometryで行っている、生物学、物理学、化学の異なる側面を解明しようとしているようなものではありません。これは単なる別の大規模言語モデルです。
誰もが大規模言語モデルを作っています。実際、中国のある高頻度取引やクオントのランダムな人々が、これらの人々が得たようなレベルのサポートなしにDeepSeek R1を作ることができました。イーロン・マスクは、Grok 3を200-100,000のH100相当の超巨大GPUクラスター(Corolisと呼ばれる、NVIDIAから独占契約で提供された)を使って訓練したと言っています。
一方、中国はGPUの制裁を受けているにもかかわらず、DeepSeek R1を作ることができました。DeepSeek R1を作っただけでなく、DeepSeek V3もオープンソース化し、DeepSeek R1やDeepSeek V3の訓練方法も共有しています。
その一方で、これらの企業、特に宇宙を理解しようとしているというオープンソースの旗手は、モデルがリリースされてから今まで技術論文さえ公開していません。その上、モデルはXのプレミアムプラスサブスクライバーのみが利用可能です。プレミアムには来るかもしれませんし、来ないかもしれません。Grok 3 miniが来るかもしれません。
私の最大の問題は、これらの米国企業がモデルを誇大宣伝し、結局のところモデル自体、価値、ミッション、原則のいずれにも応えていないことです。
これらすべてのイーロン・マスクの愚痴にもかかわらず、xAIチームには大きな敬意を表します。イーロン・マスクは彼らのボスですが、何かを作り出し、押し出すことに対して大きな敬意を表します。それが非常に難しいことは分かっています。チームが何日も起きてこのモデルを作ったというツイートをいくつか見ました。
Grok 3はモデルとして1月初めに事前訓練されたと思います。そして、わずか1ヶ月半でファインチューニングやポストトレーニングなどを行い、モデルをリリースしました。これは本当に大きな成果だと思います。チームに対して大きな賞賛を送ります。チームには本当に良い可能性があると思います。多くの素晴らしいエンジニアがいるのが分かります。
しかし、彼らが主要な研究所になるのか、あるいはそもそも主要な研究所になろうとしているのか、宇宙を理解するために何をしているのか、これらは答えられるべき質問です。イーロン・マスクが作り出しているすべての誇大宣伝にもかかわらず、Grok 3は我々が思っていたような、モデルが非常に特別で世界を超越したものになるという期待には応えていないと思います。
これは今日のもう一つの主要モデル、もう一つの最先端モデルに過ぎません。誰かがこのモデルを超えるのを待ちながら、日々を数えていきます。また別の動画でお会いしましょう。ハッピープロンプティング!


コメント