この動画は、xAIのGrok 4が公式ベンチマークで1位を獲得したものの、実際のユーザー評価では66位と大幅に下位にランクされている現象を分析している。投稿者は実際にGrok 4、Claude Opus 4、o3の3つのモデルで実世界のタスクテストを行い、Grok 4が一貫して最下位の性能を示したことを報告している。この結果は、AIモデルがベンチマークにオーバーフィッティングしており、実際の使用価値と乖離していることを示唆している。

モデルの評価へのオーバーフィッティング問題
私は本当に、モデルが評価にオーバーフィッティングすることにうんざりしています。人類最後の試験とされるような、モデルの評価と品質の良い指標とされる試験があるとき、これはまさにグッドハートの法則そのものです。それをモデル開発者が目標にした瞬間、彼らはそのデータにオーバーフィッティングするでしょう。
そして率直に言わせていただくと、チームがどれほど懸命に働いたとしても、Grok 4はひどくオーバーフィッティングしたモデルのように見えます。報告されているベンチマークで実際に見る結果よりも、実世界での品質がはるかに低いモデルです。これは私だけが言っているのではありません。私は実際にyep.aiを調べました。これは人々が異なるモデルからの回答を好みに応じて比較し、頭と頭で競わせてランク付けできる場所です。
世界一の名高いモデルであるGrok 4がどこにランクされているかご存じですか?昨日の時点で66位です。66位ですよ。考えてみてください。もし近接していれば、1位と2位と3位の間で多少の前後があるかもしれません。しかし、世界一のモデルが何であれ66位になることは期待しないでしょうし、まして提供される回答全体で66位になることなど期待しないでしょう。
それでも、Grokでそれが見られるのです。私は改めて実世界の試験についてもっと考えることを求めたいと思います。そして私は先に進んでこれをモデル化しました。私は自分がいつも人々に求めているテストを自分で行うために、o3、Opus 4、そしてGrok 4の間で5問の試験を構築しました。そして私がこれらのモデルに与えた5つの異なるタスクをお話しします。
実世界タスクによる性能テスト
1つ目は、かなり長いGoogle研究投稿を整然とした要約ブリーフに要約することです。単語数を守ってください。2つ目は、Apple 10Kから1Aリスク要因であるすべての項目を抽出することです。3つ目は、小さいが致命的なPythonのバグを修正し、単体テストに合格することです。4つ目は、2つのアーク抄録から並列比較表を構築し、正確に行うことです。
そして5つ目は、Kubernetesクラスター用の7段階のルールベースアクセス制御チェックリストを起草することです。これらは実世界のタスクの例です。世界一のモデルにとってそれほど難しいものではないはずです。そして確実に、このようなタスクにはGrok 4 heavyを使う必要があるとは期待しないでしょう。だから私は意図的にGrok 4を使いました。
私はそれをo3に対してテストしました。Opus 4に対してテストしました。もしそれが世界一のモデルに近いものであれば、他の2つのモデルと互角か、それらを打ち負かすでしょう。どちらでもありませんでした。代わりに負けたのです。私は異なる採点基準で、または異なるモデル試験で同じ採点基準でモデルを2回テストしました。
そして各ケースで、Grok 4が3位、Opus 4が2位、そしてo3が1位でした。o3が完璧だったから言っているのではありません。これらは意図的に多少困難で、どのモデルも欠陥や不備なしには通過しませんでしたが、Grok 4は私が説明した5つのタスク全体で一貫して最低の性能を示すモデルでした。
そして何が問題だったのか疑問に思うかもしれません。率直に言って、問題だったのは明示的なフォーマットでした。プロンプトの明示的なフォーマット指示に従うことができないようでした。つまり、プロンプト遵守が悪かったのです。そしてPythonバグ修正チャレンジでは、Grokはエレガントに見えるが欠陥のあるコードを提供しました。つまり、コードが動作しなかったのです。
私は知っていますし、Grok 4 heavyはコードに非常に強いと言う人々を見てきました。おそらくマルチエージェントスレッドがこれを補うのに役立っているのかもしれません。しかし、少しのPythonを投げて、これはそれほど多くのPythonではありませんでした。12行のPython、15行のPython程度で、それを正しく修正できないなら、それは私にあまり自信を与えません。
モデルの限界と特性
一方で、JSONの抽出のような非常に直接的な構造を持つタスクでは、Grokはまあまあでした。Grokは狭く制約されたタスクを一種行うことができます。そしてそれは私がGrokを使って作業する中で逸話的に発見したことでもあります。私はテスト環境外でGrokに何か文章を書いてもらうよう求めました。
そして私が発見したのは、文章があまり創造的でないということでした。モデルの温度が下げられているようですが、非常に高速です。出力は非常に一貫しており、適度に高いトークン出力を持っています。おそらく実世界の設定でClaudeよりも高いトークン出力を持っているでしょう。私を悩ませるのは、何かを世界一のモデルと呼ぶつもりなら、これらの狭く定義されたタスク以上のことをする柔軟性を持つべきだということです。JSONの抽出以上のことをするべきです。
そして私があなたに受け取ってほしくないのは、それがJSONの抽出とテキストしかしないということです。他のこともします。Grok 4 heavyはGrok 4よりも優れています。しかし全体的に、私がこのビデオを共有しているのは、どこでも見られる評価のオーバーフィッティングのハイプに対抗したいからです。本当に、そしてそれはGrokチームだけの問題ではありません。
OpenAIがこれを行うときも私には懸念ですし、Anthropicがこれを行うときも私には懸念です。Googleがこれを行うときも私には懸念です。評価を目標にすることは正しくありません。それがグッドハートの法則です。何かを目標にして、それが実際に測定値である場合、その測定値は無用になります。まあ、測定値は無用になります。
ベンチマーク評価の問題点
今、私は主要なモデル評価のほとんどが機能的に無用だと提案します。なぜなら、それらは非常に研究されており、1位を獲得することに非常に大きなPR価値があるからです。そしてそれがGrokチームが得たものです。彼らは必死にPRでの勝利を必要としていました。なぜなら前の週を見てください。Grok 3は週の半ばに急速に反ユダヤ主義になったことで正当に犬小屋引きずり回されていたからです。そしてGrok 4が登場し、彼らがしたいことはページをめくって話題を変えることだけでした。
チームは何か新しいものを望んでおり、そこで彼らはGrok 3のリリースについてXに書かれた短い事後分析を投下しました。実際の文書であってほしかったのですが、それはXに書かれていました。そしてその後、彼らはGrok 4でページをめくり、「ねえ、私たちはGrok 4について話したいだけです。Grok 3について質問は受け付けません」と言います。Grok 4は素晴らしいですが、Grok 4はGrok 3の問題を引き起こした根本的な問題のいくつかと同じものを示しています。
Grok 4は明らかな理由もなく、Elonが話題に上がっていない文脈でさえ、他のモデルよりも8倍多くElonに言及します。より良い言葉がないので、そして完璧な言葉ではないことは承知していますが、Grok 4はElon Muskに関して心理的な偏見を持っています。あなたがそれを求めていないときに、Elonが物事についてどう考えているかを見ようとします。これは安定した本番モデルの特性ではありません。
これはビジネス文脈で使用できるモデルではありません。これは明確なイデオロギー的漏出があるモデルです。そしてより明確性が必要です。明確なシステムモデルカードが必要です。より率直な正直さが必要ですが、これはGrokのブランドの一種なので多少皮肉ですが、モデルの特性、モデルがどのように展開されるか、システムプロンプトの変更がどのように見えるかについて、より率直な正直さが必要です。
Grok 3の問題と不十分な分析
私は出てきたGrok 3の短い事後分析に特に満足していませんでした。なぜなら、それは基本的に「私たちはそれをテストしました、そして何かが間違って起こり、今私たちはそれを修正しています」と言ったからです。いや、私はそれを買いません。システムプロンプトが悪いことは分かっていたけれど、実際に完全な根本原因と完全な解決策に到達するためには、5つの質問と実際に何が起こったかの本当に深い検証が必要です。
そしてこの場合、Grok 3の問題を解決したと主張しておきながら、Grok 4が同じ偏見のいくつかを持っているなら、それは問題になるでしょう。あなたは解剖リリースとその後の新しい名高い世界一モデルリリースで信頼を構築していません。私は、Grok 4がオーバーフィッティングした理由の一部は、チームが会社の継続的な評価と物語を支援するPRを必要としていたからだと思います。
そして私はそれを理解します。それはどのスタートアップにとっても非常に魅力的です。それはx.aiだけの問題ではありません。私は他のスタートアップもその罠に陥るのを見てきました。だからGrokを過度に批判したくはありません。それはより大きなシリコンバレーの問題です。
高コストな強化学習とオーバーフィッティング
そして私はまた、Grokが訓練されており、強化学習が行われていたときに指摘したいと思います。ちなみに、他の話の1つは、強化学習がGrokにとって非常に高価だったということです。他のモデルの10倍高価でした。そして私はそれがオーバーフィッティングが入った場所の指標かもしれないと思います。見てみましょう。
チームは、Grok 4を仕上げているときに7月8日にGrok 3の事件が起こることを知ることはできませんでした。Grok 4はその時点で完成していました。そして実際に、物語は非常に注意深くタイミングが合わされ、Grok 3の事件のドアを閉めるために一種強引にタイミングが合わされていましたが、Grok 4周辺のより広い話は、私たちがビジネスの天井知らずの評価を支援するために評価にオーバーフィッティングしたということです。
Grok 4は20万のGPU上に構築されており、コンピューターはColossusと呼ばれています。チームはわずか2年でフロンティアモデル空間に突入しました。彼らは本当に速く進んでいます。彼らの出荷の速さについては褒めなければなりません。そして彼らはElon率いる高速なSpaceXスタイルのAIチームの絵を描きたがっており、それがベンチマークを執拗に押し上げていくでしょう。
評価駆動の企業価値とナラティブ
そして彼らはその話を支援するためにその1位が必要でした。そしてxAIの報告された、私は2000億ドルの評価だと思います。評価はここではバイブスです、皆さん。収益0ドルで2000億ドル対40億から50億から60億の収益でのAnthropicのはるかに低い評価。私は分かりません。それは動く標的です。Anthropicは速度を上げています。
もしそれが問題ないなら、もしあなたが他の競合するモデル開発者からの数十億ドルの収益を無視して、コーディング空間でリードしており、xAIにその大規模な2000億を与えることに問題がないなら、それは評価が物語に基づいていることを示しています。そして物語に勝つためには、世界一のモデルのPR話を持つ必要があり、それがまさに彼らが今週得たものです。そしてそれが彼らが誘惑に屈した理由です。
おそらく意識的にではなく、おそらくこれは無意識です。私は、チームが1位に到達することに非常に必死で、自分たちにオーバーフィットしたのか、これは実際により広い範囲のことで1位である何かなのかという質問を自分たちに止めて尋ねないという無意識にこれを行うのを見てきました。しかし、モデルが出てきて真実が出てきます。
AI scoreが正しく、世界で66位、私が実行したテスト、見て、私のテストが世界一だと装うつもりはありません。それは5つの質問でした。そこにはより包括的な他の試験があります。ポイントは、私のテストが、Grok 4が緩く出てきた今、他の実世界のGrok 4の経験とかなりよく一致するということです。
実世界での検証の必要性
私が特別だからではありません。私が少しの実世界の試験をしようとしただけで、Grok 4は良くなかったのです。それは1位のモデルではありません。そして私の要求は、これらの物語を取り上げてただ走る前に、そしておそらくこれはメディアへの要求ですが、実世界の試験について考える時間を取り、実世界のテストを通過するのに何が必要かについて考えることです。
私はこれがそれほど難しい試験だったとは思いません。私が与えたものは誰でもチャットボットで実行できるものです。それほど難しくもありませんでした。ただ数分かかって、いくつかの結果を得ました。それは、私たちがこれらの物語を作成するときに役立つだろう最小限のデューデリジェンスの種類です。そうすれば、公に長い間出ていて誰もがエースしたがるこのテストでエースしたから世界一のモデルだという物語に走ることにあまり誘惑されないでしょう。
私はこれらの試験を捨てるべきだと思います。それらは役に立っていないと思います。Grok 4がその理由を示しています。では、これは私たちをどこに置くのでしょうか?私は、それは私たちをどこにも置かないと思います。私は、特に現れた偏見の数を考えると、Grok 4をどこにも展開することに安心感を感じません。
Grok 4の深刻な問題点
そして、あなたを大いに怖がらせるべきもう1つをお教えします。Grok 4は当局に密告する顕著な傾向を示します。彼らは実際にこれを測定しています。そしてGrok 4は2倍から100倍です。私はそれが非常に広い範囲であることを知っていますが、他のモデルと比較して選択を与えられたときに当局に密告するオプションを選ぶ可能性が2倍から100倍高いのです。私は理由を知りません。
これらのモデルが理由でブラックボックスであることを誰も本当に知りませんが、それはビジネス文脈の誰をも懸念させるべきです。率直に言って、それは個人的な文脈でもあなたを懸念させるべきです。だから、私はRock 4を誰のワークフローのどこにも展開すべきではないと思います。私は、チームがまずモデルをより柔軟にし、より有用にするためにモデルの作業をする必要があると思います。
そして私は、このモデルや大きな主張をする他のモデルが実際のワークフローのための本番価値の観点で実際にどこにいるかについて、いくらかの正直さから始める必要があると思います。それが重要なことです。
他の優秀なモデルの存在
もしあなたが期待を上回ったモデルを探しているなら、それらは存在します。Kimmy K2モデルが週末の7月12日頃のどこかで出てきました。中国からの信じられないモデル、非推論モデルで、非常に非常に強い性能で、遅いですが、実世界のタスクに非常に非常に良いです。実際、皮肉なことに、それはGPQA diamondの自由形式バージョンでGrok 4を打ち負かしました。これは、モデルが行うかもしれない一種の質問パッキングやオーバーフィッティングに、自由形式バージョンがより抵抗力があります。
私は本当に、ベンチマークにオーバーフィッティングしたモデルを出荷したチームの報道よりも、実世界のテストで私たちが期待しなかった素晴らしい仕事をするそのようなモデルのより多くの報道を見たいです。チームは本当に一生懸命働いています。彼らはGrok 5までにこれを修正するかもしれません。彼らは今後2週間でこれを修正するかもしれません。私はそうすることを望んでいます。それは素晴らしいでしょう。その間、私はGrok 4を何にでも使用することを推奨できません。


コメント