Llama 3.3がAI業界に衝撃を与える – GPT-4を凌駕し、ほぼ無コストで実現

AIに仕事を奪われたい
この記事は約8分で読めます。

4,240 文字

New Llama 3.3 Shocks the AI World - Crushes GPT-4 and Costs Almost Nothing
Meta's Llama 3.3 is a groundbreaking AI model with just 70 billion parameters, delivering near top-tier performance at a...

Metaが新たにLlama 3.3を公開しました。驚くべきことに、以前の405ビリオンパラメーターの巨大モデルのわずか17分の1、70ビリオンパラメーターで、ほぼ同等のパフォーマンスを実現しています。この効率性により、低コスト、小規模なGPU要件で、日常的なAIツールから没入型VR世界まで、あらゆるものを強化できる可能性が生まれています。
まず、Llama 3.3はMetaの新しい多言語大規模言語モデルです。注目すべきは70ビリオンのパラメーター数です。これは確かに巨大ですが、より驚くべきことは、450ビリオンパラメーターを持つ以前のLlama 3.1モデルに匹敵する性能を発揮することです。つまり、Llama 3.3は、はるかに効率的でありながら、トップクラスの性能を実現しているのです。超高級モデルとほぼ同じ速さでありながら、燃料と空間をはるかに少なく消費するスポーツカーのようなものです。
マーク・ザッカーバーグ自身が、Llamaが世界で最も採用されているAIモデルになったと発表しました。Metaによると、6億5000万回以上のダウンロード数を記録しているとのことです。これは、オープンソースAIプロトコルで開発を行う開発者が増えていることを考えると、非常に大きな普及率です。
オープンソースが重要なポイントです。Metaは、数多くのAIプロジェクトのバックボーンとなることを目指しています。オープンソースは一見すると全てを無償提供しているように見えますが、誰もがMetaの基盤上で開発を行うことで、Metaは根底のインフラストラクチャーとなり、時間とともに大きな市場影響力を持つ可能性があります。
このAI推進と並行して、VR分野でも拡大を図っています。VRツールを業界標準にしようと取り組んでいます。主要なAIツールとVRツールの両方を管理することで、デジタル接続の未来、さらには彼らが語り続けているメタバースの基盤を築いているのかもしれません。
これを実現するために、サードパーティとの提携も進めています。AIであれVRであれ、より多くの人々がMetaのツールに依存するほど、Metaはデジタルインタラクションの未来にさらに深く組み込まれていくことになります。
実務面では、ザッカーバーグはルイジアナ州での新しいAIデータセンターの計画や、これら全てをサポートする新しい海底ケーブルプロジェクトについても言及しました。Meta AIは約6億人の月間アクティブユーザーを抱えているとのことですが、実際にはFacebook、Instagram、Messenger、WhatsAppなど、Metaのアプリ全体で30億人以上のユーザーを持っており、これら全てにAIアシスタントを組み込んでいます。
また、AI画像生成機能やその他のAI駆動型エクスペリエンスの利用を促しています。これにより利用統計は上がるかもしれませんが、人々が自発的に殺到しているわけではない中で、その利用がどれほど意味があるのかという疑問も浮かびます。確かに、ソーシャルアプリ内のAIアシスタントは自然に感じられないかもしれません。画像生成や質問はできますが、多くの一般ユーザーにとって、説得力のある理由は何でしょうか。
とはいえ、まだ初期段階であり、特にVRが主流になるにつれて、本当の価値は将来的に現れてくるかもしれません。AI、VR、ウェアラブル、海底ケーブルなど、これらのパズルのピースは全て、より大きな何かを構築しているのです。
さらに技術的な詳細に踏み込んでみましょう。Llama 3.3はオープンソースで多言語対応であり、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしています。Llama 2の2兆トークンと比較して、15兆トークンという膨大なデータセットで学習を行っており、これにより推論タスク、コーディングベンチマーク、STEM問題解決、さらには雑学においても優れたパフォーマンスを発揮しています。
もう一つの優れた特徴は、128,000トークンという超長期のコンテキストウィンドウをサポートしていることです。これは適度な長さの本に相当し、モデルが非常に長い文書を処理し、多くのページにわたって内容を追跡できることを意味します。
Metaはまた、Llama 3.3を効率的に実行できるよう、多くの改良を行っています。新モデルはグループドクエリアテンション(GQA)と呼ばれる技術を使用しており、これによりメモリ効率が向上し、推論時(モデルの学習ではなく、実際に答えや予測を生成する過程)の処理速度が向上します。GQAはスケーラビリティを改善し、実行コストを低減します。
Metaによると、Llama 3.3は開発者にとって非常にコスト効率が高く、テキスト生成のコストは100万トークンあたり1セント程度と、多くのシナリオでGPT-4やClaude 3.5よりもはるかに安価です。
ハードウェアの節約も驚くべきものです。以前の405ビリオンパラメーターモデルは、推論に最大で約2テラバイトのGPUメモリを必要としましたが、70ビリオンパラメーターのLlama 3.3は数十ギガバイトしか必要としない可能性があります。これは、開発者にとってGPUコストを数十万ドル削減できる可能性があり、さらに継続的な電力消費も大幅に削減できることを意味します。GPUコストを60万ドルから、より管理しやすい金額まで削減できると考えてみてください。
開発者や研究者向けに、Llama 3.3は特定のコミュニティライセンス契約の下で提供されています。基本的には無料でオープンソースですが、月間アクティブユーザーが7億人を超える組織の場合は、Metaから直接商用ライセンスを取得する必要があります。また、使用する際は「Built with Llama」のようなクレジットを表示し、利用規約に従う必要があります。この規約は、有害なコンテンツの生成、サイバー攻撃、または違法行為を防ぐことを目的としています。つまり、オープンですが、一定の安全策が設けられているのです。
Metaは、このモデルを無策で公開しているわけではありません。安全性と信頼性に重点を置いており、モデルは監督付き微調整(SFT)や人間のフィードバックによる強化学習(RLHF)を使用して、有用性と安全性の基準に合わせて調整されています。
Llama Guard 3やPrompt Guardなどの多くの安全機能を組み込み、モデルが有害な行為を行ったり、安全でないコンテンツを出力したりすることを防いでいます。また、セキュリティ専門家がモデルを欺こうとする「レッドチーミング」を広範に実施し、弱点を見つけて修正しています。児童の安全性からサイバー攻撃の可能性まで、リスクを検討し、その軽減に努めています。
環境への配慮も行っています。Llama 3.3の学習には、H100 GPUハードウェアで約3,930万GPUアワーを要し、約11,390トンのCO2排出量が発生しましたが、Metaは再生可能エネルギーを使用してトレーニング段階でのネットゼロ排出を達成したと主張しています。また、これらの大規模モデルの環境コストを理解できるよう、使用したエネルギー量を公開しています。
性能面では、Llama 3.3は様々なベンチマークで優れた結果を示しています。様々な分野の知識をテストするMMUでは約86%の精度を達成し、MATHのような数学ベンチマークでは約77%のスコアを記録しています。HumanEvalのようなコーディングタスクでは88.4%のパスレートを達成しており、これは非常に優れた結果です。多言語推論タスクも得意で、MGSMで約91.1%のスコアを記録しています。コーディングタスクでGPT-4には及ばないものの、全体的に驚くほど近い性能を示しています。
エコシステムについては、Llama 3.3はMetaのサイト、Hugging Face、GitHubなどから入手可能です。開発者はLangChainやWeights & Biasesなどの様々なツールと統合できます。AWS、GCP、Azureなどのクラウドでも利用しやすく、MetaのTorch Tuneライブラリを使用して独自のアプリケーション用に微調整することもできます。自然言語理解からコーディング支援、将来的にはVRエクスペリエンスまで、幅広いシナリオに対応できる柔軟性を持っています。
安全性は依然として大きな話題です。Metaは開発者にモデルの使用に関する責任を求めています。例えば、Llama 3.3を外部サービスにアクセスできるツールと統合する場合、悪意のある行為が発生しないようにすることは開発者の責任です。モデルは建築ブロックのようなもので、有用で安全なものを作ることも、有害なものを作ることもできます。Metaは、危険な出力や安全でないコードを避けるために、ガイドライン、ベストプラクティス、Prompt GuardやCode Shieldなどの追加ツールを提供しています。
Metaは最終的に、オープンソースで強力かつ効率的なAIモデルが、将来のテクノロジースタックのインフラストラクチャーを形成すると考えています。これに、筋肉の信号を測定して仮想オブジェクトを制御するリスク型筋電図(sEMG)デバイスのようなVRへの取り組みを組み合わせると、彼らの目指す方向が見えてきます。彼らは単にAIモデルを作っているのではなく、VRとAIがシームレスに融合する次世代コンピューティングの基盤を構築しているのです。
これがAIアシスタンスやVRインタラクションの標準になるでしょうか?Metaはそうなることを期待しています。現時点では、確かにトップクラスのクローズドソースモデルよりも安価で効率的です。開発者がどのように使用するのか、どのようなアプリケーションが登場するのか、ユーザーがどのように反応するのか、注目していく必要があります。
コメント欄で皆さんの意見をお聞かせください。この動画が良かったと思われた方は、いいねとチャンネル登録をお願いします。AIに関する最新情報をお届けしていきます。ご視聴ありがとうございました。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました