Google の新しい AI GEMMA 3 が最大級モデルよりも賢く、電卓で動作!

AGIに仕事を奪われたい
この記事は約8分で読めます。

4,740 文字

Google's New AI GEMMA 3 Outsmarts the Biggest Models While Running on a Calculator!
Google's new AI model, GEMMA 3, is designed to outperform larger models while running efficiently on smaller hardware li...

Google DeepMind が新しい Gemma 3 モデルを発表しました。これらのモデルは Gemini シリーズの研究を基盤としていますが、非常に軽量で機敏、そして GPU や TPU、さらには AMD GPU や Jetson Nano のような他のハードウェアといった単一のアクセラレーターに簡単に展開できるように設計されています。彼らはこれを「1つのデバイスで実行できる最も高性能なモデル」と呼んでいますが、パフォーマンスに関しては依然として大きなパンチ力を備えています。
注目を集めている理由は、高度なテキストと視覚的推論能力の組み合わせを提供し、140以上の言語に対応し、さらにオープンモデルとしては非常に大きな最大128,000トークンのコンテキストウィンドウを扱えることです。これは最近では標準になりつつあります。
Gemma 3 が特別な理由の一つは、もはやテキストだけに限定されていないことです。真のマルチモダリティを備えており、画像や短い動画、テキストを入力することができ、それらを専門的に処理します。Sig lip と呼ばれるビジョンエンコーダー技術を使用しており、これは画像を256の視覚トークンのシリーズに変換する凍結された4億パラメータのビジョンバックボーンを持っています。これらのトークンは言語モデル部分に送られ、Gemma 3 が画像に関する質問に応答したり、オブジェクトを識別したり、画像に埋め込まれたテキストを読み取ったりすることができます。
彼らが導入した便利な機能の一つは、「パンアンドスキャン」と呼ばれるトリックで、画像を小さなクロップに分割して、特に非正方形の形式やテキストを含む画像を扱う際に詳細を保存します。これにより、画像を一律のサイズに引き伸ばしたり押し縮めたりすることなく、鮮明さをすべて保持できます。
Gemma 3 は、1B、4B、12B、27B パラメータの4つのサイズでリリースされています。Bとは当然ながら数十億(billions)のパラメータを指します。最大のものは27Bバージョンで、あらゆる種類の比較の主役となっています。実際、彼らはLMS Chatbot Arenaでのスコアを調査しました。これは人間の評価者が盲検的に並べて比較を行い、ELOレーティングと呼ばれるものを生成するプラットフォームです。Gemma 3 27B は1,338のELOスコアを獲得し、DeepSeek V3、O3 mini、またはLlama 3の40.5Bメンバーシップバージョンのような古いオープンモデルをはるかに上回りました。
ELOスコアから明らかなように、Gemma 3 27Bは70Bや400B、あるいは専門家モデルの混合などの巨大なモデルと比較して比較的小さいにもかかわらず、ユーザーの好みという点では真剣に競争しています。
興味深いことに、Gemma 3はコンテキストウィンドウを128kトークンに向けて押し上げる際によく見られる大きなメモリオーバーヘッドを削減するために、フード下ではかなり異なるアーキテクチャを導入しています。大きなトリックは、より少ないグローバルレイヤーと交互に配置された多数のローカル自己注意レイヤーを使用することで、比率は約5対1です。つまり、5層のローカル自己注意を行い、次に1層のグローバル注意を行うというような具合です。これにより、すべての層が128kトークン全体に注意を払う必要がなくなるため、メモリフットプリントが大幅に削減されます。ローカル層では、128kではなく1,24トークンのスライディングウィンドウで基本的に作業しており、そのためKVキャッシュが爆発しないのです。
結果として、メモリを保持するために数十のGPUを備えた非常識なシステムを必要とせずに、超長コンテキストを持つことができます。彼らは、1,24のスライディングウィンドウを持つ5対1のローカル対グローバルレイヤーを使用することで、メモリオーバーヘッドを約60%ではなく約15%に削減できることを示しています(すべての層がグローバルである場合)。
もう一つの新しいことは、Gemma 3が公式の量子化バージョンと共に出荷されていることです。量子化とは、16ビットの浮動小数点の重みをすべて取り、int 4や特殊なfloat 8表現などに圧縮して、モデルがより小さなメモリフットプリントに収まるようにすることです。彼らは量子化対応トレーニングと知識蒸留の短いラウンドを行い、より少ないビットを使用しているにもかかわらず、モデルの精度を保持するのに役立っています。量子化は、超高性能なGPUを持っていない場合や、特定の状況でCPU上でホストしたい場合など、より小さなハードウェア上で大きなモデルを実行するための大きなプラスです。
Gemma 3は、140言語をカバーするために262kの語彙エントリを持つGemma 2.0と同じSentencePieceベースのトークナイザーを使用しています。より大きな教師モデルからの知識蒸留に依存していますが、短いトレーニング実行には小さな教師でも機能します。モデルはまた、関数呼び出しと構造化出力をサポートしているため、ハッキー的なプロンプトなしでネイティブにJSONや関数シグネチャを生成できます。
彼らは注意深くトレーニングデータをフィルタリングし、RLFを適用し、モデルのメモリ化リスクや個人データの漏洩をテストし、違反率が低く、高度な有害能力が最小限であることを発見しました。これらの安全策にもかかわらず、開発者はGemma 3のようなオープンモデルを展開する際には、安全性を責任を持って取り扱う必要があります。
ハードウェア側では、公式にはGemma 3がNVIDIA GPU、Google Cloud TPU、AMD GPU(RoCm経由)、そしてgma.cppと呼ばれるもので CPU実行用に最適化されています。NVIDIAシステムをお使いの場合、Jetson Nanoから最上位のBlackwellチップまで直接最適化されていることを評価するでしょう。NVIDIAのAPIカタログにも掲載されているため、そこから迅速なプロトタイピングができます。
一方、Google Cloudですべてを実行することを好む場合は、Vertex AI、Cloud Run、またはGoogle Gen AI APIを通じて起動することができます。ローカルマシンで試してみたいだけなら、KaggleやHugging Face、olamaから重みをダウンロードすることができます。
同時にリリースされたもう一つのピースは、Shield Gemma 2です。これはGemma 3のアーキテクチャを使用した特殊な4Bパラメータの画像安全チェッカーです。開発者は、危険なもの、性的なコンテンツ、暴力の3つのカテゴリーの内容の画像をスキャンすることができます。基本的に、データセットやユーザーフィードに望まないイメージが入らないようにするための、すぐに使えるソリューションです。個人や地域のガイドラインが異なる場合には、さらにカスタマイズすることができ、独自の安全基準に合わせたいと考える開発者にとっては大きなプラスです。そして、Gemma 3の基盤上に構築されているため、既に使用しているのと同じハードウェアやフレームワーク上で効率的に実行できるはずです。
もう一つの大きな推進力は、Gemma 3を中心とした学術プログラムです。Google DeepMindは、これらの新しいモデルで真剣な研究をしたいと考える学術研究者に10,000ドル相当のGoogle Cloudクレジットを提供しています。この応募は数週間開いているので、学術界にいて27Bパラメータモデルを何か新しいことに活用したい場合は、素晴らしい機会かもしれません。
彼らは、過去1年間に何千ものGemmaのバリエーションが登場した、より広範なエコシステムである「Gemma verse」を活性化することについて話しています。AI SingaporeのSea Lion V3とNexa AIのOmni Audioは、Gemmaモデルのオープンな性質が、言語翻訳から高度な音声処理まで、あらゆるものに対して非常に特殊な派生物を構築することを可能にした例のほんの一部です。
発表された技術報告書は、Gemma 3のテスト方法に多くの光を当てています。彼らは、MML Live、Codebench、BIRD SQL、数学、さまざまな多言語タスクなどの標準的なベンチマークについて言及しています。Gemma 3の27B命令調整版は、最高のオープンモデルと同じパフォーマンスリーグにあります。技術報告書のあるチャートは、特定のタスクでは古いGemini 1.5と同等またはそれ以上であることを示しています。
彼らは、大きな教師モデルからの高度な知識蒸留と、コード実行フィードバックを取り入れた強化学習手法を混合する多段階アプローチを使用する、改良されたポストトレーニングまたは命令調整に依存しています。このアプローチは、数学、コーディング、推論、会話のパフォーマンスを向上させるものです。
また、Doc VQA、Info VQA、Text VQAなどの視覚タスクについてもより集中的にテストし、パンアンドスキャン方法を使用して高解像度で画像を適切に処理すると大きな改善が見られることを実証しました。一部のタスクでは、PNSを適用した後に大幅なジャンプが見られ、これは画像からテキストを読み取ったり、複雑なアスペクト比を扱ったりするのに便利です。
もちろん、これらのモデルやそのコードを使用したい場合は、お気に入りのフレームワークを通じて行うことができると強調しています。Hugging Faceが好きなら、そこでGemma 3を見つけることができます。Jax、Keras、PyTorch、VMを好むなら、そのオプションもあります。また、トレーニングと推論のための新しいレシピとコードベースも提供しているので、独自の微調整を行いたい場合は可能です。これには、関数呼び出しワークフロー、構造化出力、そして128kトークンのコンテキストを扱う能力が含まれています。
彼らは、まともなGPUを持っているならローカル環境で実行できるし、それがあなたのスタイルならクラウドでも実行できると言っています。彼らは様々なユースケースに対して非常に柔軟にしようとしているだけです。
また、これらの新しいGemma 3モデルは責任を持って訓練されていると示しており、これはリスクに比例したアプローチに従おうとしていることを意味します。モデルがより強力になればなるほど、より評価します。Gemma 3は、有害物質の作成における誤用について特定のチェックを受け、リスクは低いと結論付けました。また、彼らはアプローチを継続的に改良しているので、おそらく新しいバージョンごとに前回のイテレーションから改善されるでしょう。最後のGemmaがローンチされてから、悪意のある使用の大きな例はなかったので、リスクは非常に小さいままだと考えています。
以上がGemma 3についてです。コメントであなたの考えを聞かせてください。ビデオを楽しんでいただけたなら、いいねを残すことを忘れないでください。まだ登録していない場合は、今が参加する絶好の機会です。視聴いただきありがとうございます。次回にお会いしましょう。

コメント

タイトルとURLをコピーしました