
2,923 文字

数日前のLlama 4の発表から、ベンチマークハッキングに関する深刻な告発が出ています。実際、あるローカルのLlamaの投稿には、中国のフォーラムサイトの内容が引用されており、LlamaまたはMetaの社員が、Llama 4のポストトレーニングに多くの問題があったために辞表を提出したと述べています。
このビデオではそれらについて詳しく説明していきます。しかし、こういった問題を見る前に、まずベンチマーク自体を見てみましょう。Artificial Analysisという別チームがLlama 4に対して独自の評価を実施し、Metaの主張のほとんどが真実であることを確認しました。
問題は「ほとんどの」Metaの主張が真実であるということです。Artificial Analysisには「Artificial Analysis Index」と呼ばれる指標があり、これはDeepSeek R3のような推論モデルではないモデル向けのものです。このインテリジェンス指標を見ると、Llama 4 MaverickはDeepSeek V3やGPT-4oのすぐ隣に位置しており、思考モードを有効にしていないClaude 3.7よりも優れています。
これを見ると素晴らしいモデルだと思うかもしれませんが、問題はこの指標が既存のベンチマークの組み合わせに過ぎないことです。MMLU Pro、GPQA、Diamond、Humanity’s Last Exam(Scale AI製)、Live Codebench、Scode、AI ME Math 500などです。Artificial Analysis Intelligence Indexはこれらの指標でLlama 4を評価し、スコアを取得した後、平均化またはインデックス化しています。
ただし注意点として、彼らはLlama 4が時々正しい形式で出力を行わないことも発見しました。例えば、多肢選択問題では特定の形式で回答することが求められますが、「マルチチョイス評価(MMLU Pro、GPQA、Diamond)の結果がMetaの主張より大幅に低いことに注意します。この差異の主な原因は、ScoutとMaverickが回答フォーマットに従わないことが頻繁にあるためです」と述べています。彼らは特定のフォーマットを要求したのに、モデルがそれに従わず、そうなると結果を比較するためのコードが使えなくなります。
これが彼らの唯一の懸念点でしたが、それ以外はMetaの主張とほぼ一致しています。しかし、より大きな問題はモデルがMetaの主張通りかどうかではありません。実際、多くの人々がこのモデルのパフォーマンスに不満を持っています。これがモデルをデプロイする際の設定の問題なのか、実際に悪いモデルなのかはわかりません。
Llama 4に関するもう一つの大きな懸念は、リーダーボードに「Llama 4 Maverick 0326 experimental」と表示されていることです。MetaもブログポストでLlama 4が「experimental chatバージョン」で最高のパフォーマンスとコスト比を提供すると確認しています。これは私たちがアクセスできるローカルモデルと同じバージョンではありません。つまり、MetaはLMSアリーナ(チャットボットアリーナ)用に提出したモデルと、リリースしたモデルが異なるのです。
これが論争の始まりで、深刻な告発は中国の投稿の英語訳にあります:「何度もトレーニングを繰り返したにもかかわらず、内部モデルのパフォーマンスはオープンソースの最先端ベンチマークに達せず、大幅に遅れをとっています。会社の経営陣は、ポストトレーニングプロセス中にさまざまなベンチマークからのテストセットをブレンドすることを提案しました」
大規模言語モデルは、まず事前学習(プレトレーニング)があり、その後にポストトレーニングがあります。ポストトレーニングの段階で、モデルはチャットモデルやインストラクトモデルなどに変わります。ここで誰かが提案したのは、例えばMMLP Proのようなベンチマークのテストセットの質問と回答を取り、ポストトレーニング段階でこのモデルを訓練することです。
これにより、特定のベンチマークで正解を予測する能力が意図的に水増しされることになります。つまり、このベンチマークでのスコアが上がり、モデル全体のパフォーマンスも向上しますが、それは実生活ではなくベンチマークだけの話です。これが投稿者の主張です。
「様々な指標で目標を達成し、見栄えの良い結果を出すことを目的としています。4月末の期限までにこの目標を達成できなければ、悪い結果につながるでしょう。昨日のLlama 4のリリース後、XとRedditの多くのユーザーがすでに実世界での非常に悪い結果を報告しています」。実世界でのテスト結果が悪いという問題は、設定の問題なのか、実際にモデルが悪いのかわからないという点です。
「現在学術界にいる者として、このアプローチはまったく受け入れられません。結果として、私は辞表を提出し、Llamaの技術レポートから私の名前を除外するよう明示的に要求しました。注目すべきことに、MetaのAI担当VPも同様の理由で辞任しました」
Metaには大規模言語モデルやAIを扱う2つの異なる部門があります。一つはYan LeCunが関わるMAIで、もう一つはFAIRと呼ばれるものです。実際に辞任した人がいます。Joel Pinoが8年後に辞任し、彼女はMETAのAIリサーチのVPでした。元の投稿者が言っているのは、辞任した人がFAIRのVPだったということですが、生成AI担当VPのAhmed al-Dahliは辞任しておらず、Yan LeCunもこの組織の一部です。
中国のあるフォーラムに投稿されたこの記事の背後には多くのことが起きており、Llama 4のトレーニングについて内部告発しようとする人がいて、特にポストトレーニングプロセス中にベンチマークのテストデータセットを混ぜることで、結果を見栄え良くしたという深刻な告発をしています。
しかし、Llama 4を使った方は、それが良いモデルだと感じましたか?それとも良くないモデルだと感じましたか?オンラインで見られる初期の結果からすると、これは競争力のあるモデルには見えず、ライセンスのすべての複雑さを考えると、Llama 4ではなくDeepSeekを使う方が人々は喜ぶでしょう。
ベンチマークハッキングはしばらく前から行われていることは知っていますが、このような事態が大きな研究所から出てくるとなると、非常に深刻なことです。そのような場合なら驚きでしょう。なぜなら、誰もが独自の内部ベンチマークや独自のテストに対してモデルを使用することを知っているからです。Metaがそのようなモデルをリリースするほど愚かだとは思いませんが、大手テック企業で何が起きているのかは分かりません。
皆さんの意見を聞かせてください。また別のビデオでお会いしましょう。ハッピープロンプティング!


コメント