LLAMA 4: 最高のオープンLLM！Sonnet 3.7、R1、GPT-4.5を凌駕！1000万コンテキストウィンドウ！（完全テスト済み）

4,250 文字

LLAMA 4: BEST OPEN LLM! Beats Sonnet 3.7, R1, GPT-4.5! 10 Million Context Window! (Fully Tested)

In this video, we dive into why Llama 4 Scout and Llama 4 Maverick are now the best open-weight LLMs available. With 10 ...

この人は本当に土曜日に新しいモデルをリリースしたんですね。そんなことする人いるでしょうか？でも、私が昨日ツイートしたことが現実になりました。Llama 4が正式に登場したのです。Meta AIチームとザッカーバーグには、このような画期的なモデルのリストをリリースしたことに大きな称賛を送ります。
私たちは一つではなく、三つの巨大なモデルを手に入れました。まず最初はLlama 4 Scootです。これは170億のアクティブパラメータを持ち、16の専門家モジュールと、記録的な1000万トークンのコンテキストウィンドウを備えています。このモデルはGemma 3、Gemini 2.0 Flashlight、Mistro 3.1を複数のベンチマークで全面的に上回っています。
次にLlama 4 Maverickがあります。同じく170億のアクティブパラメータを持ちますが、128の専門家モジュールを備え、画像理解においてGPT-4 OmniとGemini 2.0 Flashを凌駕しています。DeepSeek V3と同等の推論とコーディング能力を半分のサイズで実現しています。そして、Ellaマリーナでは1,400というELOスコアで圧倒的な成績を収めています。
最後にLlama 4 Behemothがあります。これはまだトレーニング中ですが、既にGPT-4.5、Claude 3.7 Sonnet、Gemini 2.0 ProをSTEMベンチマークで上回っています。他の2つのモデルを支える強力なエンジンとなっています。
これらのモデルは巨大で、複数のベンチマークで優位に立っています。今強調したいのはLlama 4 Scootで、1000万トークンのコンテキストウィンドウを持ち、これによりRAG（検索拡張生成）を不要にする可能性があります。複数文書の要約や大規模コードベースまたは大量のテキストに対する推論などのタスクを可能にします。
このモデルは新しいIRO（Interleaved Rotary）アーキテクチャで構築されており、アテンションレイヤーが組み込まれ、回転埋め込みを使用して長いコンテキストタスクに優れています。特に強力な検索能力とコードパフォーマンスを示しており、コード生成と長いコンテキストの検索において優れた性能を発揮します。
Llama 4 Maverickは基本的に同じですが、より多くの専門家モジュールを持っています。Gemini 2.0 Flashの優れた代替になり得ます。少し高価ですが、画像推論から画像理解、コーディング、推論、知識といった様々なカテゴリでよりパフォーマンスが高いです。
ScootとMaverickモデルはMetaが提供する最初のオープンウェイト、ネイティブにマルチモーダルな大規模英語モデルで、早期融合を使用してテキストとビジョンをシームレスに統合しています。どちらのモデルも専門家の混合アーキテクチャを使用しており、各トークンは少数のパラメータだけを活性化させ、効率を向上させています。Scootは単一のH100 GPUで動作し、MaverickはH100ホストで動作するため、大規模な展開が容易になります。
こちらはLlama 4 Behemothの指示調整ベンチマークで、コーディングから多言語対応まで、あらゆる面での優れたパフォーマンスが見られます。Claude 3.7 SonnetやGemini 2.0 Proを上回っていることがわかります。新しいGemini 2.5 Proと比較するとどうなるか興味深いところです。
使い始めるには、llama.comに行ってこれらのモデルをダウンロードできます（ローカルでホストする要件を満たしていれば）。また、Hugging FaceやMeta AIのチャットボットを通じてアクセスし、会話を始めることができます。Open Routerを通じて無料APIも利用でき、Llama 4 MaverickとScootを完全に無料で使用できます。特にScootはコーディングタスクにおすすめです。
それでは、このモデルをコーディングから数学まで様々なベンチマークでテストしていきましょう。まずはこのプロンプトを送信してフロントエンドを作成します。このモデルの応答速度がいかに速いかわかります。Scootモデルは素早くフロントエンドを生成しています。これがScootモデルが生成できたものです。ここで「YouTube動画」と入力できます（「YouTube動画を作成」と言うべきでしたが）。「追加」をクリックすると、機能的なドラッグアンドドロップUIが作成されました。完璧ではありませんが、仕事はこなせています。全体的に、付箋アプリのための機能的なフロントエンドであり、その出力にはかなり感心しています。
次に、PythonでConwayのライフゲームを作成します。このプロンプトはアルゴリズムの実装、状態遷移ロジック、ターミナルベースの可視化を評価するものです。このコードをローカルに持ってきて、Pythonファイルを開いてみましょう。VS Codeにコードをコピーして貼り付けました。再生ボタンをクリックしてどんなものを生成できたか見てみましょう。シミュレーションが出力されました。これができたことに満足しています。
次に、MaverickモデルでSVGコードを使って蝶を作成します。これはほとんどのモデルが失敗するプロンプトですが、Llama 4 Maverickモデルができるか見てみましょう。チャットルームからコードをコピーして、オンラインSVGビューアに貼り付けてみます。これは蝶のようには見えませんが、触角と本体はそれらしいでしょうか。Scootでも試してみましょう。これがLlama 4 Maverickによる蝶のSVG生成で、こちらがScootによる生成です。どちらのモデルもこのプロンプトで失敗したのは驚きですね。できると思ったのですが。残念ながらこれは失敗です。
次は、「列車Aが午前9時に都市Aを時速60kmで出発し、別の列車Bが午前11時に都市Bを時速90kmで都市Aに向かって出発します。都市Aと都市Bの距離は450kmです。これらの列車はいつ出会いますか？すべての手順を明確に示してください」というプロンプトです。全体的に5〜6つのステップを生成し、これは代数および相対運動を時間距離の公式でテストするプロンプトです。正しい答えである午後1時12分を得るために正しい手順を踏んでいます。
次のプロンプトはコーディングと数学のプロンプトで、素数とフィボナッチフィルターに焦点を当てています。整数のリストを受け取り、素数かフィボナッチ数のどちらかであり、両方ではない数字だけを含む新しいリストを返すPython関数を書くよう依頼しています。また、100万までの入力を効率的に処理するソリューションを確保するよう指示しています。このコードではフィボナッチ数を効率的に生成し、素数と簡単に区別できるセットに格納しています。これは合格です。
次に、木の後ろにいる犬の画像を送信し、この画像を説明し、犬の品種を特定するよう依頼します。Scootモデルでは迅速に応答があり、犬の品種はジャック・ラッセル・テリアであると指摘しました。実際の画像と比較するとかなり正確で、雪の森の中の木の後ろに立っている犬を適切に説明していると思います。これは合格です。
次に、長いコンテキストと研究要約の推論に焦点を当てます。このScootモデルは1000万トークンのコンテキストウィンドウを持っているため、長いコンテキストの説明とそれに対する理解がどれほど優れているかを確認したいと思います。大きな記事を送信して、それを3つの異なるセクションに分割してみましょう。応答は非常に速く、Enterを押すだけですぐに返答が得られました。提供されたセクションに基づいて、3つの異なるセクションそれぞれの説明があります。記事全体に基づいて、3つの異なる段落のハイブリッドアプローチを説明でき、与えたコンテキストに基づいてさまざまなソリューションを提供しました。もちろん、より長いコンテキストの方がうまく機能します。これはまだかなり短いものでしたので、実際にもっと長いものを与えれば、より良い仕事をするでしょう。
最後に、探偵が事件を調査しており、5人の容疑者（アリス、ベン、カーラ、デビッド、エヴァ）がいるというプロンプトを送信します。全員が異なることを述べており、誰かが有罪だと言ったり、別の人が何かをしていないと言ったりしています。これは論理的な問題解決に焦点を当てており、すべての組み合わせを検討できるかを確認するものです。複数のステップで正しい答えを導き出しており、デビッドが有罪であるという正解を得ています。また、ベンだけが真実を語っており、カーラは嘘をついているため、デビッドが実際に有罪であるという一貫したシナリオになると述べています。これは合格です。
全体的に見て、素晴らしい仕事をしていると思います。コーディング、処理、問題解決の面ではまだ改善の余地がありますが、全体的には優れた結果を示しています。MaverickモデルはGemini 2.0 Flashの素晴らしい代替となり、新しいScootモデルは長い文書の処理や長いコンテキストコードでコードベース全体を理解するのに最適です。
Llama 4がこのような素晴らしい3つのモデルシリーズを立ち上げることに本当にワクワクしています。Claude 3.7 Sonnetと競争できるLlama 4 Behemothのリリースも楽しみにしています。これは間違いなく興奮することでしょう。
以上で今日の動画は終わりです。何か価値を得られたと思います。これらのリンクはすべて説明欄に残しておきます。新しいチャンネルを購読し、ニュースレターをフォローし、Patreonでプライベートディスコードに参加し、Twitterで日々のAIニュースを最新情報を入手してください。最後に、購読して通知ベルをオンにし、この動画にいいねを押し、以前の動画もぜひご覧ください。本当に役立つコンテンツがたくさんあります。素晴らしい一日を過ごし、ポジティブさを広めてください。またすぐにお会いしましょう。それでは。