ラマ4の群れ – オープンソースの勝利？

6,643 文字

皆さんこんにちは、今日はラマ4の発表日です。まずは当の本人からお話を聞きましょう。
皆さん、今日はラマ4の発表日です。私たちの目標は、世界最高のAIを構築し、それをオープンソース化して、世界中の誰もが利益を得られるよう普遍的にアクセス可能にすることです。私はしばらく前から、オープンソースAIが主要モデルになると思っていましたが、ラマ4でこれが実現し始めています。Meta AIは今日大きなアップグレードを受けています。
ラマ4を試してみたい場合は、WhatsApp、Messenger、InstagramのダイレクトメッセージでMetaを使用するか、meta.aiのウェブサイトにアクセスできます。今日、私たちは最初の2つのオープンソースラマ4モデルをリリースし、さらに2つが控えています。
最初のモデルはラマ4スカウトです。これは非常に高速で、ネイティブにマルチモーダルであり、業界をリードする事実上無限の1000万トークンのコンテキスト長を持ち、単一のGPUで実行できるように設計されています。170億パラメータと16のエキスパートを持ち、そのクラスで最も高性能な小型モデルです。
2番目のモデルはラマ4マーベリックで、作業馬とも言えるモデルです。すべてのベンチマークでGPT-4oとGemini Flash 2を上回り、DeepSeek V3よりも小さく効率的ですが、テキスト性能は同等で、さらにネイティブにマルチモーダルです。このモデルは170億パラメータと128のエキスパートを持ち、簡単な推論のために単一ホストで実行できるように設計されています。このモデルは本当に強力です。
さらに2つのモデルが控えています。1つはラマ4リーズニングで、来月中に詳細をお知らせします。最後のモデルはラマ4ビヘモスと呼ばれています。このモデルは巨大で、2兆以上のパラメータを持ちます。これほど大きなモデルをトレーニングしている企業は他にないでしょう。すでに世界で最も高性能なベースモデルであり、まだトレーニングが完了していません。ラマ4ビヘモスについては近日中に詳細をお知らせします。
全体として、ラマ4はMeta AIとオープンソースにとってマイルストーンです。初めて、最高の小型、中型、そして近いうちにフロンティアモデルがオープンソースになります。やるべきことはまだたくさんありますが、この軌道は明確です。近日中にさらなるモデルのリリースがありますので、楽しみにしていてください。
さて、お気づきかもしれませんが、マークはラマ4スカウトを小型モデルと呼んでいましたが、実際には合計パラメータ数は約1100億で、活性パラメータは170億、16のエキスパートと1億トークンという巨大なコンテキストウィンドウを持っています。彼が言及したもう一つのモデル、マーベリックも4000億の合計パラメータ、170億の活性パラメータ、128のエキスパートを持つ巨大なモデルです。このモデルのコンテキストウィンドウは比較的小さい100万トークンですが、それでも西側のオープンウェイトモデルではおそらく最長のコンテキストウィンドウです。
そして最後に紹介された2兆トークン以上のラマ4ビヘモスは、約3000億の活性パラメータを持つ予定です。このように見ると、活性パラメータという点では16のエキスパートを持つこのモデルは実際にはもっと大きくなります。GPT-4oは1兆パラメータモデルと噂されていましたが、一つ明らかなのは、全ての企業がこうした巨大モデルへと移行していることです。
これらのモデルのサイズを考えると、我々が目にしている性能向上は絶対的に理にかなっています。しかし驚くべきことの一つは、ラマ4マーベリックが現在チャットボットアリーナのリーダーボードで2位にランクされていることです。これはGPT-4o、Grok 3、GPT-4.5よりもユーザー評価が大幅に高く、ラマとMetaチームにとって大きな勝利です。
ラマ4では、Metaは密モデルから離れました。これはMetaが初めてMoE（Mixture of Experts、エキスパートの混合）をリリースしました。業界全体がこの方向に進んでいるようです。Geminiモデル、DeepSeekモデル、Quinnもリリースしていますが、より大きく高性能なモデルはほとんどがMoEのようです。密モデルの時代が終わりを迎えているのかもしれません。
MoEの良い点は、計算効率も高いことです。このプロットにも表れています。これはLM ArenaのELOスコア対コストのグラフです。ラマ4マーベリックは、他のフロンティアモデルと比較して最も低いコストで最も高性能なモデルであり、ユーザー評価を測るELOスコアが最も高いです。ただし、これをローカルマシンで実行することはできず、80GBのVRAMを持つH100 GPUが必要です。より低い量子化でも実行するには、少なくともH100が必要でしょう。
ベンチマークを見てみましょう。自社の内部ベンチマークでテストすることを強くお勧めしますが、これらの標準ベンチマークは他のモデルとの比較のアイデアを与えてくれます。マルチモーダルであるため、画像推論においてラマ4マーベリックはそのクラスで最先端です。彼らはこれをGemini 2.0 FlashやGPT-4oと比較しているので、非常に似たサイズだと思われます。また、DeepSeek 3とも比較していますが、全体的にほとんどのベンチマークで最先端の性能を示しています。
しかし、マルチモーダルベンチマーク以外では、約6000億パラメータを持つ別のMoEであるDeepSeek 3と非常に接近しているか、あるいは遅れをとっています。例えば、LiveCodeBenchではDeepSeek 3がラマ4マーベリックよりも優れています。同様に、MMLU ProでもDeepSeek 3がラマ4マーベリックより優れています。GPQAではラマ4マーベリックがDeepSeek 3より優れていますが、これらのベンチマークでのスコア差はそれほど大きくありません。
興味深いことに、コーディングについては、LiveCodeBenchの結果のみを報告しています。SweetBenchのような他のベンチマークも追加すると思われましたが、この場合は追加しないことにしたようです。ラマ4スカウトについては、以前のラマバージョン、Gemma 3（270億）、Mistral 3.1（240億モデル）、Gemini 2.0 Flashlightと比較していますが、これらの小型モデルと比較して、ラマ4スカウトはテストしたすべてのベンチマークで最先端の性能を示しています。
しかし、報告されているベンチマークに基づくと、優れたコーディングモデルではないようです。個人的にはコーディングは主要なユースケースの一つなので、モデルを見るときはそのコーディング能力を確認したいと思います。おそらくすぐにADERベンチマークや他の独立したベンチマークが利用可能になるでしょう。ラマ4スカウトとラマ4マーベリックが独立したベンチマークでどのように性能を発揮するか見るのは興味深いでしょう。
別の動画でより詳細なテストを行う予定ですが、いくつかの機能を見てみましょう。このモデルはマルチモーダルなので、画像理解能力があります。入力画像を提供し、その画像に関する質問をすることができます。これまで見てきたベンチマークに基づくと、これはかなり優れているようです。
もう一つは画像グラウンディングです。入力画像に基づいて推論することもできます。例えば、「画像のどのツールが長さを測定するために使用できますか？」というプロンプトがあります。利用可能なすべてのツールに基づいて、それは画像で回答を具体化できます。これは画像理解能力と画像推論能力を持つことが本当に良いことです。
個人的には長いコンテキスト能力に興味があります。私はレトリーバルシステムに関する多くの仕事をしており、企業をサポートしています。1000万のコンテキストウィンドウがあれば非常に便利で、場合によっては既存の検索システムを置き換える可能性もあります。コストと計算量を考慮する必要がありますが、彼らはテキストのみを処理するラマ4マーベリック、テキストを処理するラマ4スカウト、ビデオを処理するラマ4スカウト（1000万のコンテキストウィンドウにより最大20時間のビデオ）について「干し草の山の中の針」テストを提供しました。
「干し草の山の中の針」テストの仕組みは、事実を取り、それをテキスト内の異なる位置に埋め込むことです。例えば、上位7曲線四分位（または上位35%）から100%までのさまざまな深さに事実を配置し、LLMにそれを取得するよう求めます。長いコンテキストの検索に関しては、1000万トークンのラマ4スカウトは異なる深さで非常に優れた性能を示しています。特に単一の事実の検索では、1000万コンテキストウィンドウ全体が使用可能であるようです。
しかし、通常、レトリーバルタスクを行う場合、人々は単一のプロンプト内で複数の異なる事実や情報を検索します。複数の異なる検索ステップを一つのプロンプトで行う場合、どのように性能を保つか見るのは興味深いでしょう。
マーベリックに関しては、例えば70パーセンタイルまで事実を配置した場合でも、その100万コンテキストウィンドウは使用可能であるようですが、それ以上になると検索に問題があるようです。ラマ4スカウトはビデオに対しても非常に良い検索精度を持っているようです。
興味深いのは、フレームごとにビデオを処理しているのか、テキストのみを処理しているのかということです。ビデオに関するマルチモーダル情報をどのように正確に処理しているのか、もっと読んでみる必要があります。
チャットボットアリーナのリーダーボードベンチマークスコアから、この非常に興味深いチャートがあります。異なるモデルプロバイダーのELOスコアの変化を年代順に示しています。一世代から次の世代への最大のジャンプはラマで見られました。前の世代はELOスコアが約1250または1270で、現在は1417であり、これはGemini 2.5 Proのすぐ後ろです。これは任意のモデルファミリーのユーザー評価における驚異的なジャンプです。ラマチームからの本当に素晴らしい仕事で、単一世代での大きな性能向上です。
他にもいくつか強調したいことがあります。特に1000万コンテキストウィンドウまたはラマ4マーベリックの100万コンテキストウィンドウに関しては、ラマ4スカウトを4ビット量子化で実行するにはすでにH100 GPUが必要ですが、1000万トークンを使用したい場合は、モデルをVMにロードするだけと比べて大幅に多くのGPU VRAMが必要になります。
実際には、これらの異なるサービスプロバイダーで1000万コンテキストウィンドウを提供できる人はいないでしょう。自社のインフラでホストすることは忘れてください。TPUでの100万コンテキストウィンドウをホストしているGoogleのような企業か、Metaが自らこのモデルをホストすることを決めない限り。
第二に、ライセンス自体についていくつかの議論があります。ここでマキシムが強調しているように、ラマ4ライセンスにはいくつかの制限があります。7億人以上のアクティブユーザーを持つ企業は、MetaがMetaの独自の裁量で許可または拒否できる特別なライセンスをMetaにリクエストしなければならず、ウェブサイト、インターフェース、ドキュメントなどに「built with meta」を目立つように表示する必要があります。
個人的には、7億人のアクティブユーザーを持つ企業に対して要求していることは気にしません。Metaを含め、Google、Appleなど、実際に毎月7億人のアクティブユーザーを持つ企業はほんの一握りです。このような企業にとっては、GoogleがやっているようなLLMを自社で持つか、AppleはおそらくMeta、Google、またはOpenAIからの助けが必要かもしれません。しかし、7億人未満のアクティブユーザーを持つ企業であれば、このモデルを実行できれば全く問題ないでしょう。
オープンソースの定義に基づくと完全にオープンソースではありませんが、これがなくてもオープンソースモデルではなく、オープンウェイトモデルにすぎないことは理解しています。トレーニングコード、トレーニングデータなどにアクセスできません。7億人未満のアクティブユーザーを持つ限り、完全に問題ないと思います。また、これはラマ3とラマ2と全く同じライセンスなので、何も新しいことはありません。
モデルをテストしたい場合、いくつかの異なるオプションがあります。例えば、Together AIがホスティングしており、Grokもプレイグラウンドでラマ4スカウトを利用できます。おそらくAPIを通じても利用可能です。または、自分でこのモデルを実行したい場合は、Hugging Faceでラマ4スカウトとラマ4マーベリックの両方のモデルウェイトが利用可能です。H200またはB200にアクセスできる場合も実行できますが、B200のパフォーマンスはH200の3.4から4倍速いのは驚異的です。ラマ4スカウトでは秒間約40,000トークンに近い性能が得られます。
モデルを試してみたいだけなら、Meta.aiにサインアップすることもできます。Facebookアカウントを使用してモデルとの対話を開始できます。例えば「あなたはどんなモデルですか？」と尋ねることができます。より詳細なテスト動画を作成する予定ですが、尋ねると「ラマ4を基にしています」と答えるので、少なくともラマ4スカウトはすでに稼働しているようです。
締めくくりとして、これはオープンウェイトモデルにおける重要な進歩です。正直なところ、スケーリングという点では、誰も本当のMoEを持っていないようです。例えば、2兆のビヘモス（2兆モデルに相応しい名前）のような、これらのモデルをより大きなサイズにスケールすることができます。これはリーズニングモデルではないので、これらのベースモデルの上に本当に優れたリーズニングモデルを作る機会がMetaにはあります。
第二に、このリリースは、MoE（エキスパートの混合）が進むべき道であるという考えを確立しています。現在、より大きく高性能なモデルのほとんどはMoEです。Gemma 3のような小型モデルはまだ密モデルですが、より大きなモデルについては、すべてのフロンティアラボがMoEまたはエキスパートの混合の構築について考えているようです。
長いコンテキストは、1000万トークンのコンテキストウィンドウを持つラマ4スカウトがおそらくGeminiに次いでリーディングモデルであり、Googleは1000万コンテキストウィンドウを持つGemini 1.5 Proを示しましたが、実際のモデルはリリースしなかったと思います。これはまた、我々がますます見るようになる傾向の一つです。
動画で指摘したように、能力について本当に確信が持てないのは、Metaチームがここで示したベンチマークに基づくコーディング能力です。特にSwBenchのようなベンチマークでより多くのベンチマークを見たいと思います。これは基本的にPythonプログラミング言語に基づいてモデルのコーディング能力を測定するものです。それがほとんどですが、それでもLLMまたはエージェントシステムのコーディング能力の良い指標です。
これがコーディングモデルまたはエージェント用途としてどれほど優れているかという疑問にもつながります。これらの能力とベンチマークスコアはすぐに出てくると思いますが、最先端のフロンティアモデルが週末にリリースされるのを見るのは素晴らしいことです。実際、これは初めてのことでした。
この動画が役立ったかどうか教えてください。視聴していただきありがとうございます。いつものように、次回の動画でお会いしましょう。