
5,421 文字

メタの大規模言語モデルをめぐる大きな問題について解説します。AIモデルがベンチマークデータで訓練され、そのベンチマークで非常に好成績を収めた場合、私たちはそれを過学習(オーバーフィッティング)やコンタミネーション、意図的であれば不正行為と呼びます。しかし、モデル提供者が人間の評価者から高評価を得るために特別にカスタマイズしたモデルを作成し、さらにそれについて微妙に言及していた場合はどうでしょうか?これがメタのLlama 4で起きたことです。
昨日、メタがLlama 4をリリースしました。ScoutとMaverickという2つのバージョンが今日から利用可能です。これらは巨大なオープンソース・オープンウェイトのモデルであり、最先端のオープンソースモデルの新たなファミリーとして素晴らしいものです。
しかし問題があります。これらのモデルはLM Arenaのリーダーボードで非常に高いスコアを記録しました。Gemini 2.5 Pro実験版のすぐ後ろにLlama 4 Maverick 326実験版が位置しています。ですが、これは会話能力に最適化されたカスタマイズバージョンであり、通常よりも長く充実した回答を提供するように設計されています。人間の評価者はこのような回答を高く評価する傾向があります。
LM Arenaのリーダーボードの仕組みを説明しましょう。人間のユーザーには、ブラインド実験で2つの異なる選択肢が提示されます。この2つの選択肢は2つの異なるモデルからの回答で、人間はどちらが良いと思うかを選択します。それによってELOスコアが決まります。先ほど述べたようにLlama 4 Maverickは非常に高いスコアを記録しましたが、このモデルは他のベンチマークではそれほど高いスコアを記録していません。これは人間の評価者を念頭に特別に訓練されたからです。
出力の例を見てみましょう。絵文字が多く、非常に言葉数が多いものになっています。「”死ね、モンスター。お前はこの世界に属していない”という引用はどこから来ていますか?」という質問に対して、「素晴らしい質問です👏 ポップカルチャーで最も象徴的で、最も格好良く、最も引用される台詞の一つについて質問していますね😊 ここにその起源があります」と続きます。非常に会話的で、明るく、ポジティブで、話しかけると楽しいようです。人間がこれを見ると、単に会話的な感じがするため、このモデルを選ぶ傾向があります。
ただし、この回答は実際には正確ではありません。これは間違った例の一つですが、仮に正解だとしても、重要なのはこれが会話的になるように特別に訓練された別のモデルだということです。そしてLM Arenaのリーダーボードで良い成績を収めるために最適化されています。
これは不正行為だと思いますか?確かに彼らはそれを開示していて、高いスコアを記録しました。しかし、このモデルを他のベンチマークで使用すれば、同じように高いスコアは記録されなかったでしょう。実際、他のベンチマークではこの正確なモデルを使用せず、標準モデルを使用しています。
メタが作成したグラフの最下部の前提条件には「LM Arenaのテストは会話能力に最適化されたLlama 4 Maverickを使用して実施された」と記載されています。つまり、LM Arena専用のユニークなモデルバージョンなのです。
この件について私の考えを述べましょう。正直なところ、私は意見が分かれています。一方で、LM Arenaは真の意味でのベンチマークではありません。本来のベンチマークでは、一連の質問に対してモデルがテストされ、正解か不正解かが判定されます。LM Arenaでは、人間の評価者に各プロンプトに対して2つの選択肢が提示され、どちらが良いと思うかを投票するよう求められます。つまり、これは人間の好みに基づいています。
モデル企業が特定のベンチマーク用にカスタマイズされたモデルを提供する場合、それは不正行為のように思えます。ただの過学習かもしれませんし、他のベンチマークではうまく機能しないかもしれません。しかし、この場合は再度言いますが、これはベンチマークではないので、不正行為ではないのかもしれません。また、彼らはそれを開示していたので、隠そうとしていたわけではありません。
彼らがこれを行った理由は何でしょうか?明らかに、LM Arenaのリーダーボードで高いスコアを記録すれば、より多くの話題を集め、より多くのプレスを獲得し、より多くのバイラリティを得ることができます。これらはすべてメタにとって有益です。
人工知能の第一人者ネイサン・ランバートはこう述べています:「Llama 4の評判は、LM Arena用に過学習された別の未公開モデルを持っていることで、修復不可能なほど損なわれているように思える。実際のモデルは良いのだが、メッセージングと詳細がいかに重要であるかを再び示している」
多くの人々が実際のモデル(LMAバージョンではなく)について様々な考えを持っています。こちらはコーディングベンチマークです。Gemini 2.5 Pro実験版が非常に高いスコアで最上位にあります。私のテスト動画を見た方はこれが本物だとわかるでしょう。一方、Llama 4 MaverickとLlama 4 Scoutははるか下位にあります。これらのベンチマークではそれほど良い成績を収めていないのです。Ader Polyglotベンチマークも見てみましょう。
こちらはAderという素晴らしいAIコーディングプロジェクトの作者ポール・ガイヤーが作成したAder Polyglotベンチマークです。Llama 4 MaverickはAder Polyglotコーディングベンチマークで16%のスコアを記録しました。見てください、Gemini 2.5 Proは依然として驚異的で70%以上、Claude 3.7(思考モードなし)は60%まで上がっています。Gemini 2.5 Pro(思考モード)、DeepSeek V3(思考モードなし)も高いスコアです。一方、Llama 4 Maverickは20%未満、約15%と良くありません。
ただし、これはモデルの最初のバージョンであることを覚えておいてください。これから改良されていくでしょう。これはベースモデルであり、彼らはそれを反復し、思考バージョンもまだリリースしていません。私はまだ期待を持っています。
ラマ騒動が収まったと思ったところで、AIの第一人者ネイサン・ランバートによる新しい記事が出ました:「Llama 4:メタはパニックボタンを押したのか?」彼はLlama 4が最も奇妙なリリースの一つであると述べ、多くの事実を説明しています。
Llama 2とLlama 3のリリースはそれぞれのリリース年におけるAIの最も重要なイベントの一つでしたが、Llama 4は完全に迷走しているように感じます。Llamaのリリース履歴を見てみましょう。2022年にOPT、2023年にLlama、同年後半にLlama 2、2024年初めにLlama 3、その後にLlama 3.1、さらに後にLlama 3.2、2024年末にLlama 3.3、そして2025年4月5日にLlama 4がリリースされました。メジャーバージョン間の時間は伸びていますが、これは予想されることかもしれません。Llama 4モデルのサイズは、以前のすべてのバージョンを合わせたものよりもはるかに大きくなっています。
彼はその後、Llama 4の公開に含まれたベンチマークを強調しています。リリースが土曜日に行われたことは、一年で最も注目度の高い製品の一つを発表する大企業としては非常に奇妙です。私もこれには同意します。ザッカーバーグは「それが準備できた時だった」と具体的に述べていますが、最大のインパクトを与えようとするなら、平日にリリースすべきでしょう。私はリリース時にニューヨークからの帰りの飛行機に乗っていて、家に帰るまで何もできませんでした。他にも話題にする予定だった多くの人々が忙しかったはずです。変更ログを見ると、当初は今日4月7日(月曜日)にリリースする予定だったものを、土曜日に前倒ししたことがわかります。
彼は続けて、Scout Maverickの1000万トークンという主要機能(これは本当に素晴らしいです)、Maverickの100万トークン(これも非常に素晴らしい)について述べていますが、「針を干し草の山から見つける」テスト以外のどんな評価もリリースしていないと指摘しています。「針を干し草の山から見つける」テストは基本中の基本ですが、他のベンチマークも重要です。実際、独立した評価者からいくつかの他のベンチマークを得ました。これについては後ほど紹介します。
彼は次に、私たちが既に話し合ったことについて触れています。Llama 4の行動はLM Arenaでは大きく異なっており、それは先ほど述べたようにカスタムバージョンがあるからです。彼は「ずるい。以下の結果は偽物であり、主要なマーケティングプッシュを作成するために使用したモデルをリリースしないことは、メタのコミュニティに対する大きな侮辱である」と述べています。
ここにもう一度示しますが、Llamaは非常に高いスコアを記録し、非常に低コストですが、下部をよく見ると、先ほど述べたように、最適化されたモデルを使用して実施されています。
Artificial Analysisはモデルの独立評価をリリースし、実際にかなり良いパフォーマンスを示しましたが、非思考モデルと比較しています。ネイサンは、思考モデルと非思考モデルを別々に比較するのではなく、思考タスクと非思考タスクを別々に評価すべきだと主張しています。いわゆる思考モデルは非思考ベンチマークでトップになることが多いですが、その逆はめったにありません。他の独立評価は中程度から悪く、混乱しているものまであります。奇妙な結果は通常、長いコンテキストウィンドウによるホスティングの問題から生じています。
またメタAIチーム内に文化的な問題がある可能性もあります。メタのGenAI組織は存在全体を通じて文化的課題の大きな兆候を示しており、このモデルが発表されるわずか数日前に彼らのAI研究責任者が退社したことも含まれます。
次に、新しいコンテキストベンチマークが登場しました。これは長いコンテキストの性能をテストするもので、fiction.liveで行われています。ここにすべてのモデルがあり、上部の行には120kまでのコンテキストサイズが表示されています(実際にはこのモデルで可能なサイズに比べると非常に小さい)。この列には異なるモデルがすべて表示されています。ここにはMaverick、Llama 4 Maverick、Llama 4 Scoutがあり、400、1000、2000、4000のレベルでもこれらの数値はひどいものです。120Kでも15と28で、これは本当に悪いスコアです。
コンテキストのために(言葉遊びは意図していません)、現時点で私の意見では間違いなく最高のモデルであるGemini 2.5 Proを見てみましょう。100、100、100とずっと続いています。16Kで少し下がりましたが、120Kまでにかけても90を維持し、他のすべてのモデルを簡単に上回っています。彼らの分析によれば、Gemini 2.5 Proが現在明確に優れており、長いコンテキストの文章作成に潜在的に使用可能なLLMが初めて登場しました。
この動画を終える直前に、メタのGenAI担当アーマドが更新情報を投稿しました。それは私がLlama 4モデルについて持っている楽観的な考えを非常に反映しています。こう述べています:「Llama 4を皆さんの手に届け始めることができて嬉しいです。すでにこれらのモデルで素晴らしい結果を得ているという報告を多く聞いています。とはいえ、異なるサービス間での品質にばらつきがあるという報告も聞いています。モデルが準備できたらすぐに公開したため、すべての公開実装が調整されるまでには数日かかると予想しています」
これは実際に起こることです。単にロードボタンをクリックしてモデルが動作するほど簡単ではありません。彼らが使用する技術に基づいて、各モデル専用に調整する必要がある多くの異なる設定があります。
彼はトレーニングに関する論争に直接対応しています:「テストセットで訓練したという主張も聞いていますが、それは単に真実ではなく、私たちは決してそのようなことはしません。私たちの理解では、人々が見ている品質のばらつきは、実装を安定させる必要があるためです」
これはLM Arenaにおける彼らのカスタムバージョンのモデルの問題には完全に対応していませんが、再度、私の考えはすでに述べました。「私たちはLlamaモデルが大きな進歩であると信じており、そのコミュニティと協力してその価値を引き出すことを楽しみにしています」
まさに私が言ったとおりです。時間をかければ、これらのモデルは本当に成長すると信じています。


コメント