GoogleがリリースしたGemma 4は、同社史上最も高性能なオープンソースモデルファミリーである。Apache 2.0ライセンスの下で公開されたこのモデルは、パラメータ数が小型であるため標準的なGPUでのローカル実行が可能であり、Gemini 3と同じアーキテクチャを基盤としている。2B・4B・26B MoE・31Bという4つのサイズ展開があり、31Bモデルは自身の20倍のサイズを持つモデルを上回るArena AIランキング3位を記録している。マルチステップ計画や画像・動画処理にも対応しており、初心者でもOllamaを使えば数分でインストールして利用開始できる。ただしVRAM要件には注意が必要で、大型モデルを動かすには24GB以上のVRAMが推奨される。VRAM不足の場合はクラウドGPUレンタルを利用することで、月額課金のAPIサービスよりも安価に運用できる。

Gemma 4の登場と特徴
GoogleのGemma 4が登場しました。これは本当に驚きのリリースです。なぜならこれがGoogleのこれまでで最も高性能なオープンソースモデルファミリーだからです。昨日Apache 2.0ライセンスの下でリリースされました。
このビデオでは、このモデルを完全無料でインストールしてローカル実行する方法を正確にお見せします。パラメータ数の観点から見て、このモデルは驚くほど小型です。そのサイズのおかげで、かなり標準的なGPUで実際に動かすことができるんです。
Gemini 3と同じアーキテクチャで構築されています。サイズは4種類あって、2Bと4Bがあります。これは本質的にスマートフォンやエッジデバイス向けの効率的なモデルです。
260億パラメータのMixture of Expertsモデルもあり、推論時には38億パラメータのみを有効化します。そして310億パラメータの密なモデルは、現在Arena AIで全オープンソースモデル中3位にランクインしており、自身の20倍のサイズを持つモデルを打ち負かしているんです。かなりクレイジーですよね。
このモデルはマルチステップ計画を記憶できます。画像や動画も処理します。これは本当にすごいことです。非常に有能なモデルだと思います。では、これをどうやってインストールするのかお見せする時が来ました。
Ollamaのインストール方法
まずOllamaとは何かをお見せします。Ollamaをダウンロードする方法はたくさんありますが、初心者の方にとっては、ここのダウンロードボタンをクリックするだけで非常に簡単です。
Windows版をダウンロードします。Mac版をダウンロードしたい場合は、そちらもあります。Linux版も本当に簡単です。では、このランチャーを実行してみましょう。
インストールを続けます。いくつかのファイルを展開するだけです。これでデバイスに基本的にインストールされます。
実際にこれを開くと、このメニューが表示されます。もちろん、初心者の方で本当にシンプルなものが欲しい場合は、新しいチャットに移動して、下にスクロールすると、文字通りGemma 4と入力できます。
Gemma 4は現時点ではまだそこにありませんが、おそらく非常に短時間のうちに表示されるでしょう。もちろん、ここで本質的にダウンロードできるようになります。そこのダウンロードボタンをクリックするだけで、ポップアップで表示されるのが見えて、モデルと対話できるようになります。
もちろん、Ollamaをダウンロードした後に実際にGemma 4を使いたい場合は、ターミナルを開いて以下の手順に従うだけです。超簡単です。
モデルの実行とVRAM要件
必要なのは基本的に「ollama run」というコマンドを入力して、その後に特定のモデル名を入力するだけです。もちろんこの場合、Gemma 4であることがわかります。ですから、もちろんそれが実行したいものになります。
ただし、このモデルには異なる種類があることを覚えておく必要があります。グラフィックカードによっては、カードを実行するのに十分なVRAMがない場合があります。
フルサイズのGemmaモデルのリストについては、少し注意が必要です。2BのE版は7.2ギガなので、最新のGPUを持っているほとんどの方にとってはかなり簡単です。3060、4060、12ギガ以上のものを持っていれば、問題ありません。
Gemma 4 latestという標準モデルもあります。それも動作します。Gemma 4 E4Bも動作します。
しかし問題が発生するのはここからです。ここでほとんどの方が壁にぶつかることになります。RTX 4090や5090のような24ギガ以上のRAMを持つものがない限り、それらのモデルはGPUに収まらず、CPUにフォールバックして非常に遅く実行されます。
VRAMがなくても心配しないでください。基本的にGPUをレンタルするだけです。1時間あたり数セントのコストで、クラウドの他のAPIサービスのような大規模なAPIサブスクリプションよりもはるかに安いです。
実際に、クレイジーなGPUを買いに行く必要はありません。本当に簡単です。これが私がやろうとしていることです。なぜなら、実際に実行したいこれらのモデルを動かすのに十分なVRAMがないからです。仮想システムでそれらを実行するつもりです。
VRAM確認方法
VRAMの問題について話したので、やりたいことはターミナルを開くことです。Windowsキーを押して「cmd」と入力し、エンターを押すとこれがポップアップします。
VRAMをチェックしようとしている場合は、「nvidia-smi」と入力してエンターを押すだけです。そうすると、どのGPUを持っているかが表示されるはずです。
ここでNvidia RTX 5070Tiを持っているのが見えます。真ん中に、利用可能な16GBのうち6ギガが使用されていると実際に書かれています。16GBのVRAMがあることがわかるので、その量を超えるものは実行できません。
もちろん、その量に近づきたくもありません。GPUにストレスをかけたくないからです。タスクマネージャーを開いてGPUタブに移動すると、ここでもっと明確に見ることができます。
タスクマネージャーは「Ctrl+Alt+Delete」です。そしてタスクマネージャーを見ると、実際にどれだけのGPUを持っているかを確認できます。システムによっては、十分に持っているかもしれませんし、少ししかないかもしれませんし、十分でないかもしれません。
Macの場合は少し違うことは知っていますが、システムによって、十分に持っているかもしれないし、少ししかないかもしれないし、十分でないかもしれません。
インストールする前に必ずこれを確認してください。実行したくないからです。システムを壊したくないですし、超遅くなるのも嫌ですよね。インストールする前に、もちろんこれをやってください。
ローカルでのモデル実行
でも今どんな感じか見せます。例えば、ここの小さなモデルが欲しいとしましょう。
そのコマンドを入力するだけです。「run E42B」と入力してエンターを押すと、それが取り込まれます。すべてをダウンロードして、待つだけです。
今、これを文字通りインストールしたのが見えます。Ollamaに戻って下にスクロールすると、実際にこのモデルがポップアップするのが見えます。Gemma 42Eです。
モデルと話したい場合は、「hello」と言えます。これは実際に完全にローカルで実行されています。つまり、私のGPU上で実際に動いているんです。待ちましょう。
「hello, how can I help you today?」と言ったのが見えます。「who developed you」と言ってみましょう。初回のロードには時間がかかります。実際にVRAMにロードされます。
でももちろん、ここでのアイデアは、かなりまともなモデルを持っていて、ローカルで実行できるということです。
画像認識のテスト
例えば、画像処理をやりたいとしましょう。今度は画像機能をテストします。実際にマクラーレンの画像を入れました。「what does the image show?」と聞いてみます。
ここに入力しましょう。画像が何か気になっている方のために言うと、実際にマクラーレンです。これを見られるか確認しましょう。
ここでかなり考えているのが見えます。「公共交通機関、建築物、店舗のある街の景色に明るい黄色のスポーツカーが映っています」と言っています。これは実際に非常に良いです。
これが実際に私が貼り付けた元の画像です。うん、これは実際にかなり良いです。ローカルモデルとしては、これはかなりクレイジーだと思います。
次のテストでは、このモデルが実際にここのナンバープレートを読めるかどうか見てみます。もちろん、特定のモデルができることですから。
ここで実際に7.5秒考えて、「はい、黄色いスポーツカーのナンバープレートを読めます。ナンバープレートはLC18 MCLと書かれています」と言っています。これは私に言わせればかなりクレイジーです。
自分専用のローカルモデルがあるのが見えます。もちろん、必要なら、もっとインストールできます。Ollamaを使っている場合は、文字通りもっとモデルをインストールできます。
もちろん、これらの大きなモデルについては、言ったように、別のGPUが必要です。GPUプロバイダーを使って基本的にペニーでそれらを実行する方法を正確にお見せします。もちろん、自分のGPUを持っている場合は、これで完全に大丈夫です。
でも私の場合、実際には良いGPUを持っていません。では、専用サーバーでこれを実行してみましょう。
クラウドGPUでの実行
今やることは、このNvidiaグラフィックカードが動作しているか確認することです。このコマンド「nvidia-smi」を入力します。そして幸運なことに、そこに5090が見えます。かなり良いですね。
次に2番目のコマンドを実行します。それは「serve」で、エンターをクリックします。これでロードされます。基本的にOllamaを起動するだけです。
気になっている方のために言うと、Claudeとの完全なチャット会話を用意します。ステップバイステップで正確にこれをセットアップする方法をお見せします。このリンクを公開するだけで、皆さんは文字通りフォローして、すべてをコピーできるので混乱しません。
今必要なのは、文字通りこれをコピーアンドペーストするだけです。2番目のもので、モデルを取り込むだけです。今、私の実際のデバイスでやったのと同じように、モデルをダウンロードします。ダウンロードが終わるのを待ちましょう。
オーケー。次のコマンドを実行する必要があります。それは「run gemma 31B」です。ここでメッセージを送信できるはずです。「hello」と言ってみます。モデルが何と言ったか見てみましょう。
モデルが考えていて、「how can I help you today?」と言っています。うん、これはかなり簡単です。モデルが動いています。文字通り何でも聞けます。「what is the meaning of life?」「what is AGI?」と言えます。たくさんの質問ができます。
ここでこういったことすべてについて考えているのが見えます。実際にここで推論チェーンが得られます。本当にクールです。もちろん、その後に応答が得られます。
これは本当にクールです。なぜなら第一に、もちろんこれは現在のAPIプロバイダーに月額20ドル、100ドルを支払うよりもはるかに安いからです。プライベートなAI関連のものですね。
ダウンロードされていてプライベートで安全なものです。ローカルではありませんが、はるかに安いです。特にVRAMがない場合は。
モデルのアンインストール方法
モデルをアンインストールしたい方のために、基本的に「ollama list」と入力するだけです。それを入力すると、IDが表示されます。
インストールしたものをコピーして、「ollama rm」と入力し、モデルIDを貼り付けると、文字通りアンインストールされます。
これで完了です。システムから削除したい場合、少しおかしくなってきた場合は、こうすればいいんです。


コメント