LLAMA 4登場：1000万トークンのコンテキスト機能搭載！

6,876 文字

Just in: LLAMA 4 with 10 Million Context!!!

Llama 4 Scout, a 17 billion active parameter model with 16 experts, is the best multimodal model in the world in its cla...

LLAMA 4が正式に公開されました。これはリークでも噂でもなく、モデルが正式にダウンロード可能になりました。皆さん、LLAMA 4の日がやってきました。私たちの目標は、世界をリードするAIを構築し、オープンソース化して、誰もが利用できるようにすることで、世界中の人々が恩恵を受けられるようにすることです。私はしばらく前から、オープンソースAIが主要モデルになると思っていました。そしてLLAMA 4で、それが現実になりつつあります。
このモデルは3つの異なるバリエーションがあります。LLAMA 4 Behemoth、LLAMA 4 Maverick、LLAMA 4 Scoutです。最大のバージョンであるLLAMA 4 Behemothはまだトレーニング中ですが、すでにGemini 2.0 Proなどを上回っています。これら3つの異なるモデルについて学んでいきましょう。このモデルをダウンロードしたい場合の方法もご紹介しますが、皆さんが嫌うかもしれないことの一つは、LLAMA 4が同じくだらないライセンスで提供されており、月間アクティブユーザーが7億人を超える場合はこのモデルを使用できないことです。
LLAMA 4は最新のマルチモーダルインテリジェンスで、異なるバリエーションがあります。3つの異なるバリエーションがあり、最小のものはLLAMA 4 Scoutで、170億のアクティブパラメータを持っています。これはエキスパートモデルの混合で、16のエキスパートがあるため、合計1090億パラメータとなります。つまり、1090億パラメータを持っていますが、与えられたトークンでアクティブになるのは1700万パラメータだけです。業界をリードする1000万のコンテキスト長を持っています。これを実行するにはどのようなコンピューティングが必要かはわかりませんが、1000万のコンテキストウィンドウで提供されています。1000万のコンテキストウィンドウを持つモデルを見たことがあるかどうかはわかりません。GoogleのGeminiが約束していたことは知っていますし、実際にディース・ハサビスが「1000万で実験した」と言っていたのを覚えていますが、まだモデルはリリースされていません。おそらく世界初の1000万コンテキストウィンドウを持つモデルであり、これは大規模なコードベースとカーソルが完全に幻覚を起こすという問題を解決するはずです。
次のモデルはLLAMA 4 Maverickで、これも170億のアクティブパラメータがあり、128のエキスパートがあります。最大の違いは4000億パラメータです。ScoutとMaverickのベースとなるパラメータ数を見ると、アクティブパラメータは170億ですが、ベースパラメータは完全に異なります。これはネイティブマルチモデルですので、Chat GPTやGPT4で行っていることと同様のことがこのモデルで可能なはずです。100万のコンテキストウィンドウを持っています。
最後に、最大のもの、これまで見たことのないものは、2880億のアクティブパラメータを持つモデルです。16のエキスパートを持ち、このモデルの総パラメータ数は2兆です。この大きさのモデルを聞いたことがあるかどうかはわかりませんが、Gemini 4、いや、Gemini 2.5 Proやなどの大きさは知りません。GPT4やGPT5の大きさも知りません。2兆というのはかなり魅力的に聞こえますが、Claude 3.5 SonnetやClaude 3.7 Sonnetがこのレベルに達している可能性もありますが、実行するためにどのようなコンピューティングが必要か、人々がどのように使用するかはわかりません。しかし、主な目的は、LLAMA 4の4050億パラメータモデルと非常に似ており、大規模言語モデルとしてそのまま使用するというよりも、ティーチャーモデルとして使用し、蒸留によって小さな特化したモデルを作ることです。これが主なポイントです。
動画を一時停止して、モデルをダウンロードしてください。モデルをダウンロードするにはいくつかの方法があります。私はちょうど確認しましたが、モデルはまだHugging Faceにアップロードされていません。なぜこうなっているのかわかりませんが、モデルはまだHugging Faceで更新されていません。MetaのLLAMAからの最後のアクティビティは、彼らが行った論文のようなものです。ウェブサイトに行って詳細を追加することができます。詳細を追加すると、YouTubeの説明欄にリンクするフォームがあります。詳細を追加すると、LLAMA 4 ScoutとLLAMA 4 Maverickの両方をダウンロードできるページが表示されます。CLIをインストールし、使用したい場合は使用できます。そして、それらのことをすべて行った後、最終的にURLが与えられ、URLを貼り付けると、モデルをダウンロードできます。モデルをダウンロードする必要がありましたが、インターネットの問題がありましたが、とりあえずニュースを出してからダウンロードしようと思いました。
ダウンロードしたい場合は、モデルを48時間以内に最大5回ダウンロードできます。正直言って、なぜこのような秘密主義なのかわかりません。LLAMAさん、オープンソースの顔になりたいなら、まずそのくだらないライセンスを修正してください。Googleがあなたのモデルを使うことを恐れているなら、最上位のモデルをそのくだらないライセンスで保持し、他のすべてを完全にオープンソースにしてください。これはオープンソースの精神を尊重していません。それでも大きな問題がありますが、フォームに記入してリンクを取得し、48時間内に5回だけダウンロードできるという仕組みです。なぜそうしているのかわかりません。トレントやリークがあるこの時点では馬鹿げています。でも、それが私たちの住む世界です。
どのようなモデルが入手できるかというと、2種類のモデルがあります。1つは事前学習された重みで、これはベースモデル自体であり、単に次の単語を予測するものです。2つ目は教示重みで、モデルが指示に従うことができ、チャットや他の微調整などに使用できます。
モデルのサイズについては、事前学習されたものでは2つのモデルしか入手できません。Scout 170億16EとMaverick 170億128Eです。ここでのEはエキスパートを表しています。この1つは16のエキスパートを持ち、もう1つは128のエキスパートを持っています。微調整されたモデルは3つの異なるバリエーションがあります。教示、教示1、そしてFP8（浮動小数点精度8）があり、これは小さなコンピュータマシンで実行するのが少し簡単になっています。また、使用を推奨する他のツールもあります。これがモデルをダウンロードするページで、YouTubeの説明欄にリンクします。
モデル自体について、Metaは大きな主張をしています。この40億Scoutモデル、つまり170億のアクティブパラメータを持つモデルについて、Metaがミックスチャー・オブ・エキスパートの世界に戻ったことも非常に興味深いです。これがDeep Seekの前に長い間トレーニングされていたことは確かなので、これらは思考モデルではありません。研究がどのように変化しているかのダイナミクスを理解できます。
LLAMA 4 Scoutは16のエキスパートを持つ170億のアクティブパラメータを持ち、Metaによれば、単一のH100 GPUに収まる最高のマルチモデルモデルです。1台のH100 GPUでこれを実行でき、Gemma 3、Gemini 2.0、Flaslight、Mistral 3.1よりも優れた結果を提供すると言っています。この場合、小さなモデルも非常に興味深く、小さなサイズのモデルと比較しています。私にとって最も興味深い部分は1000万のコンテキストウィンドウです。1台のH100でこのモデルを実行しながらも1000万のコンテキストウィンドウを取得できるなら、それは推論ゲームと人々ができることの種類を完全に変えると思います。すぐにパーベンチマークを見ていきますが、MaverickについてはLLAMAがLLAMA 4 MaverickがGPT4O、Gemini 2.0 Flashをすべてのベンチマークで上回っていると主張しており、Deep Seek V3と同等の結果を達成しています。これは最新のDeep Seek V3であり、古いものではありません。
このモデルとそのモデルはほぼ同じですが、アクティブパラメータが少なく、Deep Seek V3の最新版もエキスパートモデルの混合ですが、Metaは約半分のアクティブパラメータ、この場合は170億パラメータ、170億のアクティブパラメータで、Deep Seek V3とほぼ同等であり、計算効率が高いことを主張しています。
Metaによれば、これはクラス最高のパフォーマンスとコスト比率を提供し、最大のパフォーマンスを得ながら実行コストが低くなります。LM Arenaで1417点を獲得したと言っており、まだそのモデル名がLM Arenaで何かはわかりませんが、1417は非常に良いスコアです。LM Arenaに行って他のモデルがどこに位置しているかを見れば、1417でトップ3に簡単に入るでしょう。ただ、LM Arenaはリーダーボードとして懐疑的になりつつあります。
LLAMA 4 Maverick 0326、0326は3月26日を意味しているのでしょうか。彼らは3月からこれをやっていたのは奇妙です。1417は非常に良いですが、投票数が少ないので、信頼区間がかなり広いです。もっと広くなるかどうか見てみましょう。新しいモデルも見てみましょう。まだ新しいモデルはないようですね。LLAMA 4 Scoutがここに登場するのを待ちますが、これは非常に興味深いベンチマークです。
最大のモデルであるLLAMA 4 Behemothは、2兆パラメータを持つ2880億のアクティブパラメータモデルです。非常に奇妙ですが、GPT 4.5、Claude 3.7、Gemini 2.0 Pro、特に多くのSTEMベンチマークで上回っています。ただし、すべてのベンチマークですべてを上回っているわけではなく、まだトレーニング中で情報を提供しています。
モデルにアクセスしたい場合は、meta.comまたはllama.comに行くことができます。Metaに行けば使用できますし、llama.comに行けばダウンロードできます。llama.comというウェブサイトで大金を稼いだ人がいるのは興味深いですね。
彼らがトレーニングした方法と全体のコンセプトは、エキスパートの混合です。この概念が初めての方には、これは密なトランスフォーマーモデルではなく、エキスパートの混合という概念があります。複数のエキスパートがあり、各トークンが異なるエキスパートに送られます。これはスキルベースのエキスパートではありません。多くの人が「生物学の専門家や、コンピュータサイエンスの専門家があるのかも」と混乱しますが、そうではありません。それは暗黙的に起こるかもしれませんが、エキスパートの設計方法ではありません。これらはエキスパートであり、各トークンが特定のエキスパートセットにルーティングされ、それが処理します。
トレーニング方法については別の動画を作りますが、ここで非常に興味深い情報はベンチマークと価格の比較です。Deep Seek V3.1に匹敵するLLAMA 4 Maverickの場合、約50セントのコストがかかると言っていますが、Gemini 2.0 Flashは約17セント、GPT4Oは100万の入力と出力トークンあたり$4.38かかります。入力トークンの3倍から13倍、出力トークンの1倍を想定しており、これは20セントから50セントの間のコストになると言っています。彼らが想定しているレートは、単一のH100で、単一のホストで分散推論をしている場合です。1台のH100で行う場合、コストは30から50になると言っています。これは正直なところ、悪くない料金だと思います。
他のベンチマークと比較すると、正直にMMLUを見るのをやめました。これはマルチモダリティのもので、Gemini 2.0 Flashよりも優れています。Math Vistaでは、Gemini 2.0 Flashよりも優れています。Chart QAでは、これも優れており、これは重要です。なぜなら、私たちはチャートを理解し、人間に説明するためのモデルを構築し始めたからです。Doc VQAでは、これはGPT4Oよりも優れています。比較がライブで見れます。コーディングベンチマークであるLive Codebenchでは、これはGPT4OとDeep Seek V3.1よりも優れています。
特にLLAMA 4 Maverickでは、どのAnthropicモデルとも比較していないのは非常に驚きです。Claude 3.5 Sonnetと比較することもできたと思います。これは非常に戦略的だと思います。これらのモデルがそれよりも優れているかどうかはわかりません。別の動画を作る必要があります。マルチ言語対応で、非常に優れたモデルです。
この動画はここで終わります。物事がどのように行われているかなど、もっと多くの情報を見ることができますが、これは非常に優れたモデルで、大きなコンテキストウィンドウを持っていると言えます。この情報でモデルをダウンロードし、他のモデルと比較するときにベンチマークを再度確認します。これは堅実なマルチモデルモデルです。エージェンティックなユースケースにどれほど適しているかはわかりません。特別なエージェンティックユースケースを見ることはできませんでした。これらは思考モデルではありません。このモデルについてどう思うか教えてください。また別の動画でお会いしましょう。ハッピープロンプティング。
皆さん、LLAMA 4の日です。私たちの目標は、世界をリードするAIを構築し、オープンソース化して、誰もが利用できるようにすることで、世界中の人々が恩恵を受けられるようにすることです。私はしばらく前から、オープンソースAIが主要モデルになると思っていました。そしてLLAMA 4で、それが現実になりつつあります。
Meta AIは今日大きなアップグレードを受けています。LLAMA 4を試してみたい場合は、WhatsApp、Messenger、Instagramのダイレクトメッセージで使用するか、私たちのウェブサイトmeta.aiにアクセスしてください。
今日、私たちは最初の2つのオープンソースLLAMA 4モデルをリリースし、さらに2つが開発中です。最初のモデルはLLAMA 4 Scoutです。これは非常に高速で、ネイティブマルチモーダルであり、業界をリードするほぼ無限の1000万トークンのコンテキスト長を持ち、単一のGPUで実行できるように設計されています。これは170億パラメータに16のエキスパートを持ち、そのクラスで最も高性能な小型モデルです。
2つ目のモデルはLLAMA 4 Maverickで、すべてのベンチマークでGPT 4OとGemini Flash 2を上回ります。Deep Seek V3よりも小さく効率的ですが、テキストではほぼ同等であり、さらにネイティブマルチモーダルです。これは170億パラメータに128のエキスパートを持ち、簡単な推論のために単一のホストで実行できるように設計されています。このモデルは獣のようです。
さらに2つのモデルが開発中です。1つはLLAMA 4 Reasoningで、来月にさらなるニュースを共有する予定です。最後のモデルはLLAMA 4 Behemothと呼んでいます。これは巨大で、2兆以上のパラメータを持ちます。これより大きなモデルをトレーニングしている人がいるとは思いません。すでに世界で最も高性能なベースモデルであり、まだトレーニングが完了していません。LLAMA 4 Behemothについてはもうすぐ詳細を共有します。
全体として、LLAMA 4はMeta AIとオープンソースにとってマイルストーンです。初めて、最高の小型、中型、そして近い将来フロンティアモデルがオープンソースになります。やるべきことはまだたくさんありますが、ここでの軌道は明確です。もうすぐさらなるモデルのリリースがあるので、ぜひお楽しみに。