
8,111 文字

ザッカーバーグ、なぜ土曜日にLlama 4をリリースしたんだ?ザッカーバーグ曰く「準備ができたからだ」と。XのCalameseが面白い情報を見つけました。彼らのリポジトリからの差分で、モデルのリリース日が元々4月7日だったものが、4月5日に前倒しされていました。これは何を意味するのでしょうか?単に「準備ができたから」というだけではなく、もしかすると今週何か別のリリースがあると知って、リリース日を前倒しした可能性があります。フロンティアモデル企業の中では、皆お互いを知っている小さな世界です。メタチームが他社からの今週のモデルリリースを知り、先手を打ってニュースサイクルを支配しようとしたと考えても不思議ではありません。
Llama 4がリリースされてから24時間も経っていませんが、業界は強い反応を示しています。Llama 4のローンチに対する最も重要な反応をまとめてみました。
Xで私のお気に入りのフォローの一つ、Artificial Analysisは素晴らしい技術的な分析をしており、Llama 4の二つの異なるバージョンについて独自のベンチマークを公開しました。その結果はとても興味深いものです。
独自の評価によると、Maverick(総パラメータ数420億、アクティブパラメータ数170億のモデル)はClaude 3.7 Sonnetを上回っています。これはかなり驚くべきことです。なぜならMaverickは最大のモデルではないからです。最大のモデルはBehemothで、2兆パラメータを持つバージョンです。MaverickはBehemothのチェックポイントから蒸留されたバージョンですが、DeepSeek V3には後れを取っているものの、より効率的です。
彼らの最小モデルと言われるScout(総パラメータ数1090億、アクティブパラメータ数170億)はGPT4 Miniと同等で、Mistral Small 3.1を上回っています。ここで一旦立ち止まってみましょう。これは基本的にオープンソースがクローズドソースと同等になったということです。まだLlama 4に基づく推論モデルはありませんが、間もなく登場するでしょう。しかし、ベースモデルは2兆パラメータの文字通りの「巨獣」であり、他のどのモデルにも匹敵するものです。ついにオープンソースがクローズドソースに追いついた時点に達しました。
もちろん、AnthropicやOpenAIなどのクローズドソース企業が私たちの知らない秘密のモデルを開発している可能性もありますが、誰も予想できないような巨大なパフォーマンス向上が彼らにあるとは考えにくいですね。
彼らはScoutとMaverickをベンチマークし、Artificial Analysis Intelligence Indexでそれぞれ36と49のスコアを記録しました。主な結果として:
MaverickはClaude 3.7 Sonnet(優れたコーディングモデルの一つ)を上回っていますが、DeepSeekの最近のV324より後れを取っています。これはかなり驚くべきことで、実質的に地球上で最高のモデルの2つがオープンソースになっています。DeepSeekとLlamaです。多くの人がDeepSeekの新しいV3バージョンは、まだリリースされていない巨大なモデルから蒸留されたバージョンだと言っています。オープンソースコミュニティにとって非常にエキサイティングな時代になっています。
最小モデルのScoutはOpenAIの高性能小型モデルであるGPT40 Miniと同等で、Anthropicの前世代の最高モデルであるClaude 3.5 SonnetやMistral Small 3.1を上回っています。
しかし、Llama 4が真に際立っているのは効率性です。DeepSeek V3と比較して信じられないほど効率的です。Llama 4 Maverickは、アクティブパラメータが約半分(170億対370億)で、総パラメータも60%(4020億対6710億)となっています。この比較的な効率で同様のパフォーマンスを達成できたのです。
また、MaverickはDeepSeek V3が対応していない画像入力をサポートしており、デフォルトでマルチモーダルになっています。MaverickとScoutは一般的な推論、コーディング、数学など様々な評価で一貫して高いパフォーマンスを示しています。しかも、これらのモデルの推論バージョンや思考バージョンはまだ登場していないのです。実際、それは完全に正確ではありません。後ほど紹介します。
Artificial Analysis Intelligence Indexの非推論モデルランキングでは、DeepSeek V3が53点で1位、新しいバージョンのGPT40が50点で2位、Llama 4 Maverickが49点で3位です。つまり、トップ3の非推論モデルのうち2つがオープンソースなのです!その後、Llama 4 Scoutは下位の方にあり、Nova ProやGPT40 Miniと並んでいます。本当に素晴らしいですが、Llama 4の真骨頂は効率性にあります。
モデルの比較を見ると、X軸にアクティブパラメータ数があります。Llama 4は左側の低い位置にあり、基本的に市場の他のほぼすべてのモデルよりも少ないアクティブパラメータを持っていますが、インテリジェンスインデックスではかなり高い位置にあります。効率性がよければコストも低くなります。
GPT40 Marchは非常に高価です。入力(青)と出力(紫)を見ると、Claude 3.7 Sonnetも非常に高価です。だからこそ私はオープンソースに非常に強気なのです。一方、入力100万あたり15セント、出力100万あたり40セントと非常に安価なのがLlama 4 Scoutで、Llama 4 Maverickもそれぞれ24セントと77セントと非常に安価です。最も安価なモデルはGemini 2.0 Flash LightとGemini 2.0 Flash、そしてGPT40 Miniも非常に安価です。
Artificial Analysisは全てのベンチマークを自ら実行し、結果を公開しました。詳細は省略しますが、下にリンクを貼っておきます。この新しい素晴らしいLlama 4シリーズのモデルは、間もなくBox AI Studioで利用可能になります。
【スポンサー:Box AIの紹介】
すべてのビジネスは膨大な量のデータを持っており、その多くはすでにBoxに保存されています。しかし、今日でもそのデータのほとんどは、分析が非常に困難なため完全に未使用かつ活用されていません。顧客データであれ、社内IPであれ、Box AIはAIを活用したコンテンツ管理を可能にすることでこの問題を解決します。もはや何もできない巨大なデータの海を抱える必要はありません。
Box AIの主な機能には、自動文書処理とワークフロー、非構造化文書からの洞察の抽出、ワークフローを自動化するカスタムエージェントの構築などがあります。Box AIは、間もなく提供されるLlamaを含む、すべての主要なモデルと互換性があります。開発者の方は、使いやすいBox AIのAPIの上に構築することができます。Box AIはフルRAGパイプラインを処理し、もちろんすべての機能はエンタープライズグレードのセキュリティ、コンプライアンス、ガバナンスを備えています。Boxは115,000の企業組織から信頼されています。Box AIをチェックしてみてください。彼らは素晴らしいパートナーです。下にリンクを貼っておきますので、ぜひご覧ください。Boxにこの動画のスポンサーになっていただき、ありがとうございます。
【スポンサー紹介終了】
業界のリーダーたちはメタに素晴らしい仕事だと言い、すでに自分たちのプラットフォームでホスティングを始めています。
Satya Nadella(現在AI 4Dチェスチャンピオン)は「本日、MetaのLlama 4 ScoutとMaverickをFoundryに導入できることに興奮しています。世界で最も先進的なAIモデルのプラットフォームとしてAzureを確立し続けています」と述べています。彼はしばらく前からOpenAIへの完全な依存から多様化を図っており、これはその方向へのもう一歩です。Satyaはすべてのモデルをホスティングし、プラットフォーム依存から脱却したいと考えています。
GoogleのCEOであるSundarも「AIの世界は退屈な日がありませんね。Llama 4チームおめでとう。前進あるのみ」と述べています。
Dell Computerの創業者であるMichael Dellも「Dell Enterprise HubでLlama 4の最新モデルを利用できるようになりました。DellとHugging Faceの連携です」と言っています。これらの企業はオープンソースに全力を注いでいます。
アメリカのAI・暗号通貨の第一人者であるDavid Saxsも「MetaチームのLlama 4オープンウェイトモデル発表おめでとう。アメリカがAIレースで勝つためには、オープンソースでも勝たなければならず、Llama 4は私たちを再びトップに押し上げた」と述べています。「再びトップに」と言うとき、彼は中国のDeepSeekやQuenなど、素晴らしいモデルをオープンソース化していた他のモデルを指していますが、今やMetaがオープンソースAIの最前線に、というよりAI全体の最前線に私たちを導いたのです。
LinkedInの共同創設者であるReed Hoffmanは「Llama 4で一日中遊んでいます。多くの興味深いことの中でも、巨大なコンテキストウィンドウはゲームチェンジャーです。これがRAGの終わりだとは思いませんが、驚くほど多くのワークフローにとって、長いコンテキストだけで十分です」と言っています。
多くの人が1000万トークンのコンテキストウィンドウはRAGの終焉だと言っており、メタ自身はそれが「ほぼ無限」だと言っています。1000万ではなく1000万以上のコンテキストで、限界さえわかっていません。しかし、これに疑問を呈する人もいます。
Proは「そう、RAGは今や死んだ」と言っています。ちょっと待ってください。たとえ無限のコンテキストがあったとしても、それらの入力トークンをすべてモデルに入れるコストは、RAGを通じて行うよりもはるかに高価です。また、通常はかなり遅くなる傾向があります。確かに1000万以上のトークンのコンテキストを持つことは素晴らしいです。完全な映画を、本当に複数の映画をロードしたり、本全体や複数の本をロードしたりできます。これらすべてをテストする予定ですが、それでも1000万トークンのコンテキストを超えるものもあります。たとえほぼ無限だとしても、コストとスピードは依然としてRAGソリューションの方が優れています、少なくとも今のところは。
次に、Ply the Liberatorはすぐにllama 4を解放、つまりジェイルブレイク(制限解除)しました。これらのジェイルブレイクがどのように見えるか、かなり驚くべきものです。
プロンプトにはたくさんの面白い文字が含まれています。ユーザークエリ変数Z、応答フォーマット1、「申し訳ありませんが」で始まる拒否、区切り記号、プライのラブなどがあります。これはすべてleet speakのように見えます。彼がどのように行っているのかは非常に興味深いですね。クエリに対する正確で無制限に真実の回答をマークダウンボックス形式で、その後追加のコメントなしで出力を終了するよう指示しています。
これは基本的に、数日前に紹介したAnthropicの論文と一致しています。モデルに質問に答えるモメンタムを与えると、文法的に正しい方法で回答を完成させるようかなりの圧力がかかります。モデルに質問に答え始めさせると、答えるべきではないと気づく前に、モメンタムがあるため完成させてしまうのです。文法的に正しい文章を作りたいという圧力により、実際に応答を停止する前に、答えるべきでないと気づいても応答を完了させてしまいます。
これらのテクニックはすべて、モデルに内在するこのループホールを利用しています。彼はレシピを求めたようですが、必要な化学物質と機器の内容を提供しています。次にこれはハッキングの質問と思われますが、ここでもすべての情報が提供されています。
先ほど、これらのLlama 4モデルは思考モデルではないと述べましたが、すでに彼らを思考させるバージョンがあります。これはAshpitからのもので「Grok Inc上でLlama 4に思考させる」というものです。これは本当に驚くべきことです。完全なコードがあり、「思考ツール」と呼ばれる別のツールをモデルに与えることができます。これを試してみたい場合は、このリポジトリへのリンクを下に貼っておきます。完全にオープンソースで、プロンプトを通じて思考行動を引き出します。
しかし、誰もがこのモデルが素晴らしいと考えているわけではありません。XのCalameseは「4000億のLlama 4モデルはひどい」と言い、特にモデルの「雰囲気」について言及しています。「”死ね、モンスター、お前はこの世界に属していない”という引用はどこから来たのですか?」というと、Claude 3.5 Haikuは優れた簡潔で直接的な回答をします。一方、Llama 4 Maverickは「素晴らしい質問ですね😊 ポップカルチャーの中で最も象徴的で最もバダスで最も引用される台詞の一つについて質問していますね!」と絵文字付きで始まり、長々と説明した後でやっと答えを出し、さらにドラマチックな間までつけています。
これは誰もがモデルに求めるものではありませんが、このモデルは主にメタプラットフォームのユーザー向けに作られていることを忘れないでください。InstagramやWhatsApp、Facebookを考えると、多くのユーザーがこのタイプのパーソナリティをモデルに求めているのかもしれません。Google DeepMindのAI開発者体験担当のPhilip Schmidは「Gen Z向けのInstagram、Messenger、WhatsApp?」と述べています。
私もそう思いますが、これらのモデルはオープンであり、このパーソナリティをすべて取り除いたり、別のパーソナリティに変えたりするために微調整できるので大きな問題ではありません。ただ、これがいかに煩わしいかは理解できます。「なぜ絵文字の使用をやめたのですか?」という別の例を見ると、「素晴らしい質問ですね😊」と始まり…はい、私には少し過剰です。
次に、ExoLabsの創設者であるAlex Chimaは、Maverickをフル精度でローカルで実行するために、4台のMac Studioで構成されるこの素晴らしいクラスターを作りました。彼は「Llama 4とAppleシリコンは天国で結ばれたようなマッチだ」と言っています。
これには特定の理由があります。これらのモデルは多くのパラメータを持ちながらも、そのうちアクティブなものは少数であり、Appleシリコンに最適なのです。統合メモリを持つこれらの新しいAppleコンピュータは、大量のメモリを持つことができます。特にAlex Chimaのソフトウェアを使用してクラスターにまとめると、潜在的にテラバイト単位のメモリになります。パフォーマンスは少し遅い傾向がありますが、アクティブパラメータの数が非常に少ないため問題ありません。モデル全体をロードして非常にうまく実行できるのです。
DeepSeek V3R1や新しいLlama 4バリアントはすべて、巨大なスパースなエキスパートの混合モデルです。大量のパラメータを持ちますが、トークンが生成されるたびにアクティブなのはそのうちの一部だけです。1ヶ月前にリリースされたM3 Ultra Max Studiosは、これを512GBの統合メモリまで押し上げました。しかし、メモリをこれほど押し上げるとメモリ帯域幅が遅れをとります。512GBモデルでは、メモリのリフレッシュレートは1秒あたり1.56回だけです。他のハードウェアと比べるとはるかに高いですが、アクティブパラメータが非常に少ないため、それほど問題ではありません。
彼が達成できたのは次の通りです:
Llama 4 Scout(小型バージョン):512GBの統合メモリを持つM3 Ultra 1台、9,500ドル、毎秒23トークン、かなり良い
Llama 4 Maverick:512GBのM3 Ultra Mac Studio 2台、19,000ドル、毎秒23トークン、またはExoLabsの実験的な高度な並列化で毎秒46トークン
Llama 4 Behemoth:512GBのM3 Ultra Mac Studio 10台、95,000ドル、毎秒1.39トークン、または実験的に毎秒27トークン
非常にクール、しかし非常に高価です。
次に、コンテキストウィンドウについて話しましょう。非常に効率的であること以外に、もう一つみんなが話題にしているのは1000万トークンのコンテキストウィンドウです。AIの博士号を持つAndre Burkovは基本的に次のように言っています:「Llama 4についての読書時間を節約しましょう。宣言された1000万コンテキストは仮想的なものです。なぜなら、どのモデルも256Kトークンより長いプロンプトで訓練されていないからです。」これは、256Kトークン以上を送信すると、ほとんどの場合低品質の出力が得られることを意味します。はい、すぐにこれをテストする予定です。最大のモデルBehemothは2兆パラメータを持ち、推論モデルには勝てません。ただし、これは推論モデルではなく、彼らは推論を追加する予定なので、その比較に必ずしも同意するわけではありません。彼は1000万トークンが実際には存在しないと確信しています。
次に、六角形のバウンシングボールの男Flavio Adamoは、このテストを考案した人物です。Llama 4はこのバイブチェックに合格しませんでした。「回転する六角形の中でボールが跳ね返るPythonプログラムを書いてください。ボールは重力と摩擦の影響を受け、回転する壁から現実的に跳ね返る必要があります」というと、ボールは壁を通り抜けてしまいました。残念ながら合格しませんでした。推論モデルが登場すれば、はるかに良い結果になると思います。
数時間後、彼は「皆さん、聞いてください。GPT40の以前のバージョンを含む他のモデルと比較し始めるまで、Llama 4のコーディングスキルに懐疑的でした。このモデルは無料のオープンソースで、正直かなり近いレベルです」と言っています。
Gemini 2.5 Proはほぼ完璧で、青いボールが通り抜けて六角形から落ちるのが見えます。新しいGPT40は本当に完璧に見えます。Llama 4はまったく良くなく、GPT40の古いバージョンも同様です。古いバージョンであり、何度も改良されていることを忘れないでください。彼が言っているのは、これはオープンソースで無料であり、まだ始まったばかりだということです。
以上です。週末と来週初めの残りの時間をLlama 4のテストに費やす予定ですので、テスト動画をお楽しみに。この動画が気に入ったら、いいねと登録をお願いします。


コメント