
7,383 文字

AIの業界はドラマがつきものですが、LLAMA 4のリリースは控えめに言っても波乱万丈でした。LLAMA 4がリリースされ、ベンチマークが期待に応えていないようです。このビデオでは、Metaの舞台裏で実際に何が起きているのかを明らかにする最近のニュースについて掘り下げていきます。
私にとって最初に興味深かったのは、LLAMA 4が技術論文なしでリリースされたことです。多くの企業が現在、モデルを非公開にすることを選択しているため、これはそれほど大したことではないと思うかもしれません。ブレークスルーがあった場合、その革新を非公開にしておくのは、技術的に競争上の優位性があるからです。
しかし、この場合はさらなる問題の兆候かもしれません。モデルの内部構造にアクセスできず、どのようにモデルが構築され、トレーニングされ、どのような技術が使用されたのかについて本当に知らないからです。一部の人々は、これはMetaがベンチマークを改ざんして、より良い結果を得るために過剰適合させた可能性があるさらなる証拠だと主張しています。
もちろん、すべての重要な詳細に触れますが、このリリースは本当に興味深いものです。ここには二つの陣営があります。一方ではMetaがベンチマークを完全に偽造したと言う人々がいて、もう一方では私も含めて、このモデルが実際にはかなり優れていると主張する人々がいます。
実際にお見せしたいのは、Twitterで少し話題になったものです。これはDeepseek V3がリリースされた頃、Redditで見かけた別のウェブサイトからの投稿でした。MetaのGen AI組織がパニックモードに陥っていることについて述べていました。それはDeep Seek V3から始まり、すでにベンチマークでLLAMA 4を追い抜いていました。さらに、550万ドルのトレーニング予算しかない無名の中国企業が追い打ちをかけました。
「エンジニアは慌ただしくDeep Seekを解剖し、できる限りのものをコピーしようと動いています。これは誇張ではありません」と書かれています。これは、テック業界の人々が自分の仕事や経験、業界について匿名で投稿できるウェブサイトです。
ここには「経営陣はGen AIの莫大なコストを正当化することを心配しています。Deep Seek V3のトレーニングコスト全体よりも多くの報酬を得ているGen AIのリーダー全員に対して、どのように指導部と向き合うのか。そして我々はそのようなリーダーを何十人も抱えています」と書かれています。
基本的に彼らが言っているのは、Deep Seekのトレーニング実行コストが550万ドルだとすると、これらのGen AIリーダーたちは数百万ドルの報酬を得ているという事実を考えてみてください。AIの人材争奪戦が激しいため、企業は誰を維持できるかについて本当に競争しています。従業員を維持する一つの方法は、より高い報酬を与えることです。
そして今、彼らは疑問に思っています。もしかしたら、これらの従業員に払いすぎているのではないか。1年に何百万ドルも払っているのに、無名の中国企業が組織全体と同じパフォーマンスを発揮できるのであれば、何かを変える必要があるのではないかと。
ここには「Deep Seek R1はさらに恐ろしいものでした。情報は明かせませんが、すぐに公開されるでしょう。本来はエンジニアリングに焦点を当てた小さな組織であるべきでしたが、多くの人々がインパクトグラブに参加し、組織の採用を人為的に膨らませたかったため、全員が損をします」と書かれています。
要するに、Gen AIがメディアだけでなく多くの異なる業界でも多くの注目を集めていることを考えると、多くの人々が先駆的なチームに参加したかったということのようです。
当時この投稿は、Deep Seek V3が優れていることは分かっていたので、多くの個人によってすぐに無視されました。もちろん匿名で投稿することはできます。しかし、最近のニュースが出てきたことで、この声明はさらに信憑性を持つようになりました。なぜなら、それは早い段階で予測していただけでなく、LLAMA 4がまだインディーベンチマークに遅れをとっているという事実も予測していたからです。
いくつかの違いがあったという証拠・証明をお見せします。AI教授のイーサン・モリクは、大規模言語モデルアリーナ(基本的にはベンチマーク領域)で勝利したLLAMA 4モデルと、一般公開されたモデルには違いがあったと語りました。彼は実際にアリーナの回答とリリースされたモデルを比較しており、それらはまったく近くないと言っています。そして彼は「このデータは価値があります。LMアリーナの結果がいかに人間にとって喜ばしいものになるよう操作できるかを示しています」と述べています。
基本的に彼が言っているのは、状況が手に負えなくなっているということです。テストされていたモデルが一つあり、人間が使用していて、LLAMA 4のベンチマーク結果が公に公開されていましたが、その後、別のモデル、おそらく潜在的により能力の低いモデルをリリースしたというのです。
実際に見てみると、リリースされたMaverickに「3.145が答えとなるなぞなぞを作って」と質問すると、Open Routerは非常に短い方法で、かなり基本的な質問に応答します。質問ではなく、答えですが。
そして、LLAMA 4 Maverick実験版は、ここで見られるものとはかなり異なることがわかります。このモデルは推論においても、もちろん応答においても非常に包括的なようです。LLAMA 4 Maverick実験版が何なのかはよくわかりませんが、AI分野で我々が抱える主要な問題の一つは、企業が命名に非常に不得手だということです。
04、03 mini、03 mini high、03 high、01、01 mini、GPT-4o、GPT-4o mini、04が登場予定など、すべて非常に混乱しています。そしてAIの新リリースでも、同じモデルに対して複数の異なる名前があることもよくあります。
この教授が混乱していたとは言いたくありませんが、LLAMA 4 Maverick 03 26実験版をベンチマークに使用して結果を出したのであれば、それがOpen Routerのようなウェブサイトでリリースされているモデルと同じではないことは明らかです。明らかに違いがあります。
そして、このモデルが巨獣モデルである可能性があると私は疑っています。LLAMA 4がまだトレーニング中の巨獣モデルについて言及していることを考えると、それは単に蒸留版か何かかもしれません。しかし、明らかにリリースにこのような違いがあるのであれば、もちろん良い印象ではありません。
しかし、これは小さなミスであり、このLLAMA Maverick実験版はリリースされたものとはまったく異なるバージョンであることを願っています。つまり、最善のものを見極めるために、単に異なるバージョンをテストしているというだけのことです。
ここで誰かが「これはこれらのランクを真剣に受け止めるべきではないという最も明確な証拠だ」と言っているのが見えます。基本的にLMAは「完全な透明性を確保するために、頭と頭を合わせた戦いを公開レビューのためにリリースしている」と述べています。これには、プロンプト、モデルの応答、ユーザーの好みが含まれています。
Eleaでは、どのように機能するかご存知だと思いますが、誰かが1つの質問を入力し、2つのモデルが盲目的に応答します。まだどのモデルが応答したかはわかりません。出力だけを見ます。そして出力が明らかになった後、どちらが好きかを選びます。左側を選んだとしましょう。すると、あなたがどのモデルを選んだかが明らかになります。
興味深いことに、LLAMA 4 Maverick実験版は偶然によりテキストが多くなり、そのためユーザーはLLAMA 4に投票しているようです。これは非常に興味深いことです。というのも、ユーザーが目にするデータに基づいて、間違ったモデルに投票している状況が生じているからです。
Elmarinoは確かにいくつかの点では優れていますが、一部のベンチマーク領域ではおそらく最善ではないでしょう。
タイトルで述べたように、Metaはインターネット上に流れているこのデータに対応しました。彼らは「LLAMA 4をみなさんの手に届けられることを嬉しく思います。すでに多くの素晴らしい結果が得られているという声を聞いています。とはいえ、異なるサービス間で品質にばらつきがあるという報告も聞いています。モデルが準備できたらすぐにドロップしたので、公開実装が調整されるまでに数日かかると予想していました。バグ修正やパートナーのオンボーディングに引き続き取り組んでいきます。
また、テストセットで訓練したという主張も聞いていますが、それは単に真実ではなく、我々はそのようなことは決してしません。人々が見ている変動する品質は、実装を安定させる必要があることによるものと理解しています。LLAMA 4モデルは大きな進歩であり、コミュニティと協力してその価値を引き出すことを楽しみにしています」と述べています。
全体的にこれは非常に興味深い声明です。彼らは明らかに異なるサービス間で品質にばらつきがあるという報告を認めており、人々が得ている異なる応答を見るのは本当に興味深いことです。
体験談として、私自身がLLAMA 4を使用したことについて話します。それはそれほど凄いものではありませんでしたが、私はLLAMA 4のトップユースケースに関するビデオを公開しました。正直に言うと、Open Routerを使用して私のAI Grid Academyでモデルを使用したとき(そこでは人々にAIを超効果的に使用する方法を教えています)、他のモデルと比較して、私が持っていた様々な問題や質問に対して実際に非常にうまく機能しました。
前にも言ったように、モデルをどこで使用し、どれだけ効果的に使用しているかによって本当に異なると思います。もちろん、使用しているものの種類によって、確かに違いがあります。しかし、個人的に言いたいのは、先ほど言ったように、2番目のチャンネルでこれを使用したとき、モデルを使用するすべての素晴らしい方法について話していたとき、かなり効果的だと感じました。
もちろん、モデル自体をテストする必要があります。Open Routerやpoe.comのようなものを使用できます。しかし、ベンチマークによってこのモデルを取り巻くドラマがすべて存在するのは非常に興味深いと思います。
ここで彼らが明確に述べているのは「我々はテストセットでトレーニングすることは決してなく、そのようなことは決してしません」ということです。しかし、別のベンチマークでも非常に興味深いものを見つけました。ここでMetaを信用していないわけではありません。モデルは実際にかなり優れていると思います。
Redditにも投稿されていたものもあります。LLAMA 4のトレーニングに深刻な問題があり、特定の人々が辞任したことについて話しています。基本的に中国語で投稿されたもので、「繰り返しのトレーニング努力にもかかわらず、内部モデルのパフォーマンスはオープンソースの最先端ベンチマークに達しておらず、大幅に遅れをとっている。会社のリーダーシップは、様々なベンチマークのテストセットをポストトレーニングプロセス中にブレンドすることを提案し、様々な指標で目標を達成し、提示可能な結果を生み出すことを目指している。4月末の期限までにこの目標を達成できなければ、深刻な結果につながるだろう」とあります。
そして、昨日のLLAMA 4のリリースに続いて、XとRedditの多くのユーザーがすでに非常に貧弱な実世界のテスト結果を報告しています。以前言ったように、私はソーシャルメディアや特定のビジネスのためにいくつかのことを自動化するためにそれを使用していただけで、得られる結果は定量的ではなく、かなり定性的なものです。おそらくそれが私の結果がはるかに良い理由かもしれません。
基本的に、MetaがInstagram、WhatsApp、Facebookでトレーニングされているという事実について話しています。そのようなデータソースにより、モデルはプラットフォーム間のニュアンスを、他のモデルが単にできない方法で理解することができます。
以前にも言ったように、このモデルをコーディングやアプリ構築など他の分野で使用している場合、モデルをトレーニングしている人々が、そのモデルから最高のパフォーマンスを引き出すことを確実にするために最適化する必要があるため、かなり異なるでしょう。
もちろん、この声明は真実でした。MetaのAI研究担当VPは辞任しました。しかし、この人物がFAIRのVPだったとしても、それはLLAMAに取り組んでいる組織であるGenerative AIとはMetaの中で完全に別の組織であることも注目に値します。GenAIのVPはAhmedです。もちろん、すでに彼のツイートをお見せしました。
他のベンチマークを見てみたいと思います。Artificial Analysisが投稿したものによると、彼らは現在MMLU ProとGPQA DiamondのためのMetaの主張値を複製し、ScoutとMaverickのインテリジェンスインデックススコアをさらに高くしています。
彼らは48時間前の最初の投稿で、彼らの測定結果とMetaの主張スコアの間に多肢選択評価データセットに関する不一致があることを指摘しました。さらなる実験と詳細なレビューの後、質問の内容を正しく理解しているがフォーマットが異なる場合にモデルを不当に罰するべきではないという彼らの公表された原則に従って、多肢選択評価のために「最良の答えはaである」というLLAMA 4の回答スタイルを正当な回答として認めることを決定しました。
これにより、ScoutとMaverickの両方のスコアが上昇し、Artificial Analysis indexを構成する7つの評価のうち2つでScoutが最大の上昇を見せました。そのため、Scoutのスコアは36から43に、Maverickのスコアは49から50に上昇しました。
これらのモデルがどこに位置するのか疑問に思っている場合、実際にはGemini 2.0 Flashとちょうど上、そしてGPT-4o 3月更新のちょうど上に位置しています。このモデルがそれほど悪いとは思いません。以前にも言ったように、ベンチマークに関しては、LLAMA 4の質問への回答方法が誤解される可能性があると思います。もちろん、ベンチマークでは回答の記録方法についてかなり正確である必要があります。
本当に見たかったベンチマークの一つは、この会社が実際に非公開データセットを持っていることを知っているからです。それはホールドアウトで、実際にそれを見る方法はありません。これはScale AIの安全評価・調整ラボによって開発されたSEAL LLMリーダーボードです。
これらは正確で信頼性の高いパフォーマンス比較を提供するために設計された、LLMの専門家主導のランキングです。これらはコーディング、指示に従うこと、数学、多言語性を含む複数の領域にわたってフロンティアLLMを評価します。
前にも言ったように、これらのデータセットとCLLMリーダーボードが異なるのは、これらの評価が悪用されたりモデルのトレーニングデータに組み込まれたりすることのない非公開のデータセットによって管理されているため、偏りのない結果を保証しているからです。
ここで「humanity’s last exam」を見ていたとき、このベンチマークはかなり優れているように見えました。しかし、スクロールしてLLAMA 4 Maverickのスコアに気づいたとき、潜在的な汚染警告があると書かれていました。「このモデルは、humanity’s last examの公開リリース後に評価されたため、モデル構築者がプロンプトとソリューションにアクセスできるようになっています」と書かれています。
もちろん、いくつかの注意点がありますが、それでもこのウェブサイトは、モデルが実際にどこに位置しているかを見るときに使用するものです。興味深いことに、すべてのベンチマークを見ると、Enigma評価やMulti-Challenge評価でも、潜在的な汚染警告の可能性について言及されています。
全体的に、私はよくわかりません。これが起こったことは驚くべきことでしょうか?Deep Seekがそのパフォーマンスで西側を驚かせたとは思います。これを直接見るのは私にとって非常に驚くべきことです。以前にも言ったように、私はLLAMA 4を使用し、AIを教育に使用する別のチャンネルでそれについて話しましたが、このモデルはまだかなり良いと思います。
しかし、誠実さが最良の方針であるため、モデルに関するより多くの明確さがあることを願っています。もちろん、Metaのインセンティブは最高のベンチマークを持つことに合わせられています。そうすることで、人々に実際に製品やサービスを使用してもらい、最高の人材を引き付けることができますが、時間が教えてくれるでしょう。
このモデルが正直なところオープンソースの非推論モデルに過ぎないことを考えると、結果はそれほど驚くべきものではないと思います。私たちは急速なAIの変化にほぼ慣れてしまっており、モデルのパフォーマンス方法に完全な変化がない場合、多くの場合、私たちはかなり混乱しています。
コメント欄で、LLAMA 4やその他のモデルについてどのように感じているか教えてください。あなたの考えを知りたいと思います。


コメント