
4,804 文字

Metaは突然OpenAIとGoogleを出し抜きました。彼らは何の前触れもなくLlama 4のラインナップを発表しました。複数のモデルが登場し、それぞれが前のモデルよりも驚異的です。あるモデルは1000万トークンを処理し、別のモデルは半分の計算量でGPT-4に匹敵し、そして本当の野獣は影の中でまだトレーニング中の2兆パラメータの怪物です。
基本的にMetaは主要な3つの新しいモデルを発表しましたが、実際には4つ目についても示唆しています。これらはすべて新しいLlama 4シリーズの一部です。現在実際に入手できるのはLlama 4 ScoutとLlama 4 Maverickで、巨大なティーチャーモデルであるLlama 4 BehemothはまだMetaのデータセンターのどこかでトレーニング中です。彼らはLlama 4 Reasoningという何かについても簡単に言及していますが、Metaはこれについては非常に秘密にしているため、多くの詳細はわかっていません。
まずはScoutとMaverickについて詳しく見ていきましょう。これらはすでにAIコミュニティで注目を集めています。どちらもオープンウェイトモデルで、基本的には訓練済みの重みをダウンロードして自分のハードウェアで操作できるということです。ただし、ライセンスの制約はいくつかあります。例えば、7億人以上のユーザーを持つ巨大な企業の場合、商業利用にはMetaからの明示的な許可が必要です。
それでも、これはオープンソースAIにとって大きな飛躍と考えられています。なぜなら、外部のクラウドAPIを使用することを強制されることなく、GPT-4のような一流のクローズドモデルに匹敵する可能性を持つ強力な大規模言語モデルを自己ホスティングできるようになったからです。オープンウェイトのリリースがあるたびに人々は興奮します。外部クラウドAPIを使わずに、新しい実験やカスタムファインチューニングが可能になるからです。
Llama 4 Scoutは2つのうち小さい方のモデルですが、それでも170億のアクティブパラメータと16のエキスパートを搭載しています。さらに、単一のNVIDIA H100 GPUで実行できるため、多くの開発者に愛されています。動作させるために巨大なサーバーファームが必要ないからです。
しかし本当に驚くべきは、Scoutが最大1000万トークンのコンテキストウィンドウをサポートしていることです。1000万!これは馬鹿げています。本棚丸ごとのテキストや20時間分の動画データさえも理論的には供給できるため(ネイティブでマルチモーダルなので画像とテキストを一緒に処理できます)、それは基本的に無制限のコンテキストだと冗談を言う人もいます。
もちろん、ある特定の小さな閾値を超えるすべてのトークンで最高品質の結果を生成するわけではないかもしれないと指摘する人もいますが、それでも重要なポイントです。8Kや32Kトークンのような一般的なコンテキストウィンドウと比べるとはるかに多いのです。
次にLlama 4 Maverickですが、これはより高度で、同じ170億のアクティブパラメータを持ちながら、驚異の128エキスパートを搭載しています。これはすべてMetaのMixture of Experts(MOE)アーキテクチャの一部で、各トークンはそれらのエキスパートのサブセットのみを一度に活性化します。これは基本的に効率を高め、全体的な計算オーバーヘッドを下げます。そのため、巨大なGPUクラスターを必要とせずに、巨大なparaLLMに匹敵または凌駕するモデルが得られます。
人々はすでにMaverickをGPT-4o、Gemini 2.0 Flash、DeepSeek V3と比較しています。オープンソースコミュニティからのテストセットによると、MaverickはコーディングタスクおよびGeneral languageベンチマークのパフォーマンスにおいて最高レベルにあります。ただしDeepSeek V3が特定の分野でわずかに上回っているかもしれません。しかしMaverickはDeepSeek V3が使用するアクティブパラメータの約半分しか使用していないようです。これはコストと速度にとって大きな意味を持ちます。アクティブパラメータ数は重要です。各トークン生成のために実際に読み込まや処理する必要があるパラメータ数を示すからです。
Llama 4 Behemothは誰もが待ち望んでいる大きなスターです。170億のアクティブパラメータが驚異的だと思うなら、Behemothが2880億のアクティブパラメータを持ち、総パラメータ数が約2兆に達していることを聞いてください。これはただ巨大です。Metaによると、これは小さいLlama 4バリアントを導くティーチャーモデルとして機能し、おそらくそれらがテキストを生成したり推論を処理したりする方法に影響を与えるとのことです。
噂によると、BehemothはGPT-4.5やClaude Sonnet 3.7のような主要なクローズドソースモデルを、特に超難しいSTEMタスクでアウトパフォームするかもしれませんが、まだ準備ができていません。まだトレーニング中です。いつリリースされるのか誰も正確にはわかりませんが、MetaがScoutとMaverickをどれだけ早く押し出したかを考えると、すぐに来ることを願っています。
繰り返し登場する詳細の一つは、Metaがこれらの新しいLlama 4モデルをどれだけ広く配布しているかということです。人々はすでにHugging FaceのLlama公式ページやある種のHPCやAIアクセラレータプラットフォームからそれらを入手できます。MaverickをAppleのM3 Ultra Mac Studioクラスターで実行するデモを投稿した人もいます。基本的に複数のユニットを連結して、これらの大きな統合メモリの塊を形成しています。
MOEモデルは実行時にアクティブパラメータのみを読み込むため、理論的には巨大なモデルを小さなメモリフットプリントに押し込むことができます。ただし、フル精度ですべてを行おうとすると、それでも大量のメモリが必要かもしれません。しかし、このエキスパートの混合アプローチにより、以前は完全に不十分と考えられていたハードウェアで高度なLLMを実行できる可能性があるのは、かなりクールです。
ScoutとMaverickが会話でどのように振る舞うかについて、ユーザーからのフィードバックがすでに寄せられています。一部のテスターは、Maverickがより色彩豊かな楽しい言語を使用し、時々絵文字やドラマチックな間を挟むことに気づきました。一部の人々はこれを少しばかばかしいまたは気が散る要素と感じますが、これらのモデルはオープンウェイトなので、実際に好みに合わせて微調整することができます。それがオープンソースの美しさの一部です。かわいいスタイルが好きでなければ、より中立なものを生成するようにシステムやプロンプトを調整できます。
他の人々は、あらゆる種類のPythonスクリプトを要求して、コード生成の能力をテストしています。バウンシングボールや回転する六角形のプロンプトでテストした人もいます。結果は様々ですが、すでに古いバージョンのGPT-4と同等のようです。ScoutとMaverickが発売されたばかりであることを考えると、これはかなり驚くべきことです。
一般的な合意は、新しいLlama 4モデルがGPT-4やClaudeのすべての高度な推論トリックを完璧に再現するわけではないかもしれませんが、かなり近く、実行コストが安いということです。
コストについて言えば、ある分析によると、特定のホスティングプラットフォームを介して実行する場合、Llama 4 Scoutは入力トークン100万あたり約15セント、出力トークン100万あたり約40セントの料金を請求します。これは一部の大手クローズドモデルと比較すると、ほんの一部のコストです。Maverickはやや高価ですが、それでもGPT-4のレートをはるかに下回ります。コストとスケールを管理したい開発者にとって大きな意味を持ちます。APIコールでお金を失うことなく、より大きな言語モデルを実行し続けることができるからです。
もちろん、Scoutに1000万トークンを供給して、依然としてトップクラスのパフォーマンスを期待できるかどうかについては、少し論争があります。一部の専門家は、その巨大な入力のすべての部分に対してトップレベルの応答を生成するわけではないかもしれないと考えています。それでも、その可能性だけで人々は興奮しています。半分でも機能すれば、理論的にはテキストの図書館全体や何時間もの動画転写をプロンプトに投入できるからです。
これにより、検索拡張生成(RAG)の重要性が低下する可能性があります。もしそのような膨大な量の参照資料をプロンプトに詰め込むことができれば、ベクトルデータベースを持つ別々のパイプラインは必ずしも必要ないかもしれません。とはいえ、そうすることは非常に高価だったり遅かったりする可能性があります。なのでRAGはまだなくなることはないでしょう。おそらくしばらくはハイブリッドアプローチが見られるでしょう。
波紋を呼んでいるもう一つのことは、Metaが自社のすべてのサービスをLlama 4で更新しているという事実です。彼らはWhatsApp、Messenger、Instagram Direct、そしてより広いウェブ全体にわたって徐々にそれを展開しています。アプリ内でMeta AIとチャットしている場合、舞台裏ではScoutまたはMaverickのいずれかを使用している可能性があります。
一部の人々は、公式MetaAIサイトに大きなプロンプトを投入しようとしましたが、消費者向けインターフェースは現在、超長い入力を許可していないことを発見しました。それでも、内部の力はあり、モデルを自分でホストするか外部のHPCクラスターでホストすれば、おそらく好きなことができます。
業界の反応はかなり示唆に富んでいます。MicrosoftのSatya NadellaはLlama 4を称賛しています。というのも、MicrosoftはOpenAIとのパートナーシップだけに依存せず、多様化を図ろうとしているからです。GoogleのSundar PichaiもMetaを祝福し、Michael DellはDellがエンタープライズソリューションを通じてLlama 4をホスティングすることを発表しました。
David Saksのような大手VCの人々も、オープンソースAIがAIにおいて米国がリードを維持するための鍵だと称賛しています。これはすべて、私たちが大手テック企業間の狂気じみた軍拡競争の真っ只中にいることを思い出させます。それぞれが大規模モデル能力で他を追い抜くか凌駕したいと望んでいます。そしてそれは単なる生のパラメータ数だけでなく、コスト効率や、オープンモデルの周りにどのようなエコシステムを構築できるかということも重要です。
最終的に、Llama 4は少なくとも部分的にここにあり、すでにオープンソースAIの景観を変えています。初期のテストから、パフォーマンスは非常に有望です。特にモデルがどれだけアクセス可能かを考慮すると。
以上です。お楽しみいただけたでしょうか。まだであれば、購読ボタンを押してください。視聴いただきありがとうございます。次の動画でお会いしましょう。


コメント