Gemma 3 270M – Googleの新しい超小型LLMを7分で解説!

Google・DeepMind・Alphabet
この記事は約7分で読めます。

Googleが新たにリリースしたGemma 3 270Mは、わずか2億7000万パラメータの超小型LLMである。このモデルはスマートフォンやラズベリーパイなどのエッジデバイスでローカル実行が可能で、Pixel 9 Proでは25回の会話でバッテリー消費量がわずか1%未満という驚異的な省電力性を実現している。ファインチューニングに特化した設計により、特定タスクに最適化しやすく、プライバシーを重視した環境での利用に適している。

Gemma 3 270M - Google's NEW Tiny LLM in 7 mins!!
Gemma 3 270M, a compact, 270-million parameter model designed from the ground up for task-specific fine-tuning with stro...

Googleの新しい超小型モデルGemma 3 270M

Googleがめっちゃ小さなGemmaモデルを発表したんや。2億7000万パラメータ、10億パラメータやないで、270万パラメータのモデルでな、自分のパソコンで動かせるんや。実際、画面に映ってるみたいにスマホでも動くんやで。

これは理想的にはファインチューニングしやすいように設計された新しいモデルなんや。このモデルを使って、自分が欲しい機能をファインチューニングできるんやな。

これは超効率的なモデルっちゅうことになってるんや。つまり、Pixel 9 Proでテストした時でも、このモデルは25回の会話でバッテリーを1%も使わへんかったんや。めっちゃ省電力なGemmaモデルで、ローカルで動かせるんやで。

この動画では、Gemma 3の2億7000万パラメータモデルについて全部説明するし、Olamaでモデルを実際に動かしてみるで。

ベンチマークについての考察

ベンチマークについて深く掘り下げるつもりはないんや。モデルをテストしてみたら、まあまあ平均的やった。でも今の問題は、俺らの頭がGPT-4sやClaude 4 Opusみたいなモデルでいっぱいになってることなんや。だから2億7000万パラメータのモデルを見ると、無意識のうちにバイアスが働いて、このモデルはそんなに良くないって思ってしまうんや。

ベンチマークをたくさん議論する意味はないと思うけど、Googleが言ってる一つのことを見てみると、Gemma 2億7000万パラメータモデルはモデルサイズ的にはここら辺にあるんやけど、この特定のファミリーの他のモデルより良い成績を出してるんや。Qwen 2.5の5億パラメータモデルよりも良いんやで。

俺はいつもQwenについて良い印象を持ってるから、ベンチマークをそのまま受け取るつもりはないけどな。でも重要なのは、このモデルはいろんな理由で評価されるべきやということなんや。

モデルの特徴と活用方法

まず、このモデルは2億7000万パラメータで、25万6000トークンを持ってるんや。語彙が大きいんやな。つまりモデルがいろんなことをできるっちゅうことや。語彙が大きいおかげでファインチューニングもしやすいんや。ファインチューニングする時に、基本的な知識がモデルの中に入ってるから、ドメイン特化のファインチューニングも言語のファインチューニングもやりやすいんや。

インストラクションチューンドモデルもリリースされてる。つまり、このモデルを使って特定の指示に従うタスクを実行できるんや。もちろん2億7000万パラメータのモデルやから複雑な会話用に設計されてるわけやないけど、箱から出してすぐに指示に従うことができるんや。

俺にとって重要なのは、このモデルがポケットデバイスやAndroidデバイスみたいな端末で動くっちゅうことなんや。特にAndroidスマホで簡単にローカルでモデルを動かす方法があって、汗をかくこともなく、モデルがうまく動いてるんや。多分ChatGPTレベルの最高精度の知識ではないかもしれんけど、モデルは動くんや。それが第一歩やと思うで。

要するに、このモデルはタスク特化のファインチューニングと強力な指示従順性、テキスト構造化能力のために設計されてるんや。これらは既に訓練されてて、事前訓練された基本モデルの一部なんやで。

使用場面とユースケース

いつGemma 3の2億7000万パラメータモデルを使うべきかって聞かれたら、まず考えるべきは、エッジデバイスとか計算リソースが限られた状況があるかどうかや。そういう時にこのモデルを使い始めるべきなんや。

例えば、ラズベリーパイのクラスターを持ってるとするやろ。クローズドネットワークで簡単なタスクのためにこのモデルを動かしたいなら、簡単にこのモデルを使えるんや。プライバシーを重視したい時や、特定タスク関連のモデル群が欲しい時は、ファインチューンドモデルをラズベリーパイや別のエッジデバイスで動かせるんやで。

このモデルはそういう用途にめっちゃめっちゃ便利なんや。他のケースとしては、タスクが非常に明確で構造化されてる場合やな。例えば物語を書いたり、要約みたいなテキスト処理や、ツイートを作ってくれっていう感じのことや。そういう場面でもこのモデルを使えると思うで。

特に開発者やったら、このモデルのファインチューニングを試してみてほしいな。モデルのファインチューニング方法について別のチュートリアルを出すかもしれへんで。

実際のデモンストレーション

transformer.jsを使ったデモがあるんや。これはモデルをウェブアセンブリ言語でローカルにダウンロードして、このモデルを動かせるんやで。ここで見えるように、これはダウンロードされてる。インターネットなしでも動くっちゅうことを見せるために、インターネットを切るで。

ここに行ってハッカーニュースを開こうとしても動かへん。恐竜ゲームしかできへんな。ここに戻ってくると、もうモデルをダウンロード済みや。ここでキャラクターを選んで、眠そうな宇宙飛行士と海の底のおとぎ話で短い物語を作るって選んで、ストーリーを作るってクリックすると、ここで物語が生成されてるのが見えるやろ。coherentな物語が見えるはずや。

ピューリッツァー賞やエミー賞やエマ賞、どんな賞があるかは知らんけど、そういうのを取れるような物語ではないかもしれん。でも重要なのは、2億7000万パラメータのモデルが、インターネットがなくてもブラウザ内でローカルに動いてるっちゅうことなんや。まだインターネットがないのが見えるやろ、また恐竜ゲームができるからな。これは特定タスクにはめっちゃ良いモデルやと思うで。

この場合はファインチューニングもされてないと思うけど、特定タスクでモデルを使い始めることができるんや。スマホデモでも、モデルは素晴らしい仕事ではないけど、まともな仕事はしてくれたで。Google AI Edgeのギャラリーアプリを使って、Hugging Faceから量子化版モデルをダウンロードして使い始めたんや。まともな仕事はしてくれてるで。

Olamaでのモデル実行

このモデルをダウンロードする方法を見せたるわ。まず、Olama run gemma 3 270Mって言うだけや。これを実行すると、Olamaがモデルを自分のコンピューターにプルしてくる。モデルが使えるようになるんやで。これを実行するわ。俺の場合はもうモデルがダウンロードされてるから、そのままモデルとチャットできるんや。

「イーロン・マスクが火星人と恋に落ちる短編小説を書いて」って言うてみるわ。これは2019年のラップトップや。6年前のやつやな。そんなに悪いラップトップではないけど、まだ32GBのまともなRAMは持ってる。でも、モデルがcoherentなテキストを生成するスピードがすごいんや。「彼らの友情は花開き、人間のつながりの永続的な力と、宇宙の無限の可能性の証となった」って感じや。

これも小さなモデルやから、一つ覚えておかなあかんのは、量子化版を使う場合、例えばスマホで同じモデルを使った時は、Olamaで試せるのと同じ品質ではないっちゅうことや。だから、いろんな量子化やモデルのバージョンを使う時は、量子化なしで使うのと同じくらい良くないかもしれへんっちゅうことを覚えといてや。

「seabornで棒グラフを作るPythonプログラムを書いて」って別の質問をしてみるわ。多くの人がLLMに聞くような質問ではないけど、LLMに聞くならモデルはまともな仕事をしてるで。マークダウンタグがあって、import matplotlib.pyplot as plt、import seaborn as snsがあって、棒グラフを作ろうとしてるな。

よし、棒グラフを作ろうとしてる。このコードが実際に動くかどうか願うで。そんな感じや。

まとめ

これは心を吹き飛ばすようなモデルではないけど、Googleがリリースしてくれたことを俺ら全員が感謝すべきモデルなんや。俺はこのモデルが好きやで。興味があったら、ファインチューニングのチュートリアルを作るかもしれへん。チャンネル登録して、また別の動画で会おうや。ハッピープロンプティング!

コメント

タイトルとURLをコピーしました