Gemma 4がApache 2ライセンスでリリース!マルチモーダル推論とネイティブ音声処理を搭載した4つの新モデル

Google・DeepMind・Alphabet
この記事は約15分で読めます。

GoogleがGemma 4をリリースした。今回のリリースで最も重要な点は、Apache 2.0ライセンスの採用である。これまでのGoogleのオープンモデルは独自ライセンスによる制約があったが、Gemma 4では商用利用、改変、ファインチューニングが完全に自由となった。4つの新モデルは、128の専門家を持つMixture of Expertsアーキテクチャ、ネイティブな音声・画像処理、推論機能、関数呼び出し機能を統合している。ワークステーション向けの大型モデル(31Bパラメータの密モデルと26BパラメータのMoEモデル)と、エッジデバイス向けの小型モデル(E2BとE4B)が提供され、後者は音声認識や多言語翻訳をオンデバイスで実行できる。Gemini 3の研究成果を基盤とし、従来のGemma 3と比較して画像エンコーダ、音声エンコーダ、コンテキストウィンドウ(最大256K)が大幅に改善されている。

Gemma 4 Has Landed!
In this video, we look at the launch of the Gemma 4 family of models. These are 4 models 2 small and 2 larger models whi...

Gemma 4の登場とApache 2ライセンスの衝撃

さて、GoogleがGemma 4をリリースしました。これは4つの新しいモデルで、マルチモーダル機能、推論機能、関数呼び出し機能など、様々な機能を搭載しています。正直なところ、これだけでも取り上げる価値は十分にあります。でも、それだけでは終わりません。本当に興味深いのはライセンスなんです。

Gemma 4はApache 2ライセンスで提供されています。これは独自のライセンスではありません。オープンウェイトではあるけれど競合してはいけないといった奇妙な制限がついたライセンスではないんです。これは本物のApache 2ライセンスです。つまり、初めてGoogleの最高のオープンモデルを手に入れて、改変したり、ファインチューニングしたり、商用展開したり、何でも好きなことができるということです。一切の制約なしにです。

そして、これらのモデルの内部を見てみると、ここでは128の専門家について話をしています。ネイティブな音声処理、ネイティブな視覚処理、組み込みの推論機能、これらすべてが組み合わさると、かなり大きな意味を持つことになります。

4つのモデルの構成

では、簡単に全体像を説明しましょう。4つのモデルがあって、命名がちょっと混乱しやすいんです。Gemma 4には2つの階層があります。まず、ワークステーションモデルと呼ばれるものがあります。これは310億パラメータの密モデルと、260億パラメータのMixture of Expertsモデルで、40億パラメータがアクティブになります。

そして、エッジモデルがあります。これがE2BとE4Bです。これらは非常に小さく効率的なモデルで、スマートフォン、Raspberry Pi、Jetson Nanoなどで動作するように設計されています。基本的にエッジのどこででも、優れた品質のモデルが必要な場所であればどこでも動作します。

私は最初のリリース以来、Gemmaシリーズのモデルを取り上げてきました。チャンネルでGemma 3についても取り上げましたし、当時、多くの人がそれに非常に感銘を受けていたものの、ライセンスに関するいくつかの点に不満を感じていたことも知っています。つまり、有能なモデルではあったのですが、十分な制限のあるライセンスのせいで、多くの人がLLaMAやQwenを選んだわけです。

ですから、Apache 2.0への移行は、Googleが基本的にこう言っているようなものです。「わかった、わかった。他のオープンモデルプロバイダーと同じ条件でやりましょう」と。実際、この話をしている今、中国の他のオープンモデルプロバイダーの中には、最新のリリースを引き戻して、過去のように公開しないところも出てきています。

Gemini 3の研究成果を継承

もう一つ最初に大きなポイントがあります。Googleは、これらがGemini 3の研究から構築されていると言っています。基本的に、彼らのフラッグシップ商用モデルに投入されたアーキテクチャの革新が、徐々にオープンウェイトモデルに降りてきているということです。

ローカルモデルを実行している方、そして多くの方がそうしていると思いますが、この状況は一定のパターンに落ち着いてきました。LLaMAモデルを過ぎて、今ではQwenやMistralなどが、密モデルの固定パラメータ範囲でベンチマークで競い合っています。

しかし、つい最近まで、これらのモデルのほとんどはテキストのみ、あるいはせいぜいテキストプラス視覚でした。音声が欲しければ、Whisperを追加することになります。外部のASRパイプラインを追加することになります。そして、関数呼び出しのようなものが欲しい場合、モデルがプロンプトテンプレートに協力してくれることを期待することになります。

Gemma 4がここでやっていることは、これらすべてをネイティブに単一のモデルファミリーに統合しているということです。視覚、音声、推論、関数呼び出し、そしてこれら4つすべてが実際にアーキテクチャレベルから組み込まれており、後から追加されたものではありません。

長い思考連鎖推論の実装

さて、Gemma 4を以前のGemmaシリーズよりも優れたものにしている主要な点の1つは、長い思考連鎖推論を行う能力を持つようになったことです。これが出力を改善し、より良い最終的な答えを得られることは明らかに示されています。

このモデルはテキストだけでなく、異なるモダリティにわたって推論できます。画像を渡して、それを利用したい場合、画像にわたって推論できます。そして初めて、音声にわたって実際に推論できるようになりました。これもここでは素晴らしいことです。

明らかに、この長い思考連鎖を行う能力は、多くのベンチマークを改善しており、MMU ProやSweetbench Proで非常に強い結果を得ています。

ネイティブな関数呼び出し機能

推論とともに、関数呼び出し機能が付いています。エージェント的なことをしたい場合は、基本的に関数呼び出しとツールを使いたいわけです。これは、昨年末にリリースしたFunction Gemmaモデルに投入した多くの研究を統合しています。しかし今では、これが小さなモデルと大きなモデルの両方に入っています。

多くの人は、これはそれほど新しいものではないと思うかもしれません。しかし実際には、過去に人々がこの種の関数呼び出しを行っていた方法は、実際にはモデルが指示に従うことが上手くなるようにして、それを引き出すようにしていただけでした。Gemma 4は、関数呼び出しが最初から組み込まれています。

これは、マルチターンのエージェントフローに最適化されており、複数のツールを使って行うことができます。そして、それは実際にできるエージェントベンチマークやタスクのいくつかで本当に現れています。

小型モデルの音声サポート

さて、推論のところで先ほど述べましたが、残念ながら4つすべてのモデルではなく、2つの小さなモデルには実際に音声サポートがあります。その音声サポートは、Gemma 3Nや音声サポートを持っていた以前のGemmaモデルで持っていたものよりもはるかに優れています。

これは、ASRや文字起こしのようなことができることを意味しますが、音声から翻訳されたテキストへのサポートもできます。これについては、ウォークスルーを進める際にお見せします。

これに加えて、音声エンコーダーは優れているだけでなく、はるかに小さくなっています。これは、これらのモデルでエッジで何かをしたい場合に大いに役立ちます。デバイスのストレージやメモリをそれほど使わなくて済みます。

改善された画像エンコーダー

Gemma 4をGemma 3Nシリーズと比較するもう1つのポイントは、画像エンコーダーに関することです。Gemma 3Nモデルの画像エンコーダーは、優れてはいましたが、やり方がちょっと古風でした。アスペクト比のようなものをうまく処理できませんでした。そのため、OCRなどのタスクであまり良い仕事をしないことがよくありました。

Gemma 4モデルは、基本的にこれらのインターリーブされたマルチ画像入力に対するネイティブサポートを持っています。実際に使ってみた感じからすると、おそらくかなりの量のOCRやドキュメント理解のトレーニングが入っていると思います。そして、そのようなマルチ画像入力ができるので、実際にここで動画を扱うことができ、これらのマルチ画像にわたって推論できます。

ですから、一般的にGemma 4をGemma 3やGemma 3Nと比較すると、両方で多くのアップデートがあります。小さなモデルが音声をサポートし、より優れたマルチモーダルサポートを持っています。Gemma 3Nのコンテキストウィンドウは32Kしかありませんでしたが、Gemma 4の小さなモデルでも128Kのコンテキストウィンドウがあり、大きなモデルでは256Kになっています。

アーキテクチャの詳細とモデルサイズ

さて、これらのアーキテクチャの選択とモデルサイズ自体について話しましょう。Mixture of Expertsモデルは、合計260億パラメータですが、常時アクティブなのは38億パラメータだけです。最近他のモデルで見られたような膨大な数の専門家にはしていません。

128の小さな専門家があり、各トークンに対して8つがアクティブになり、さらに1つの共有された常時オンの専門家があります。これをGemma 3モデルと比較すると、最大のモデルは270億パラメータの密モデルでした。明らかにその場合、すべての270億を同時に使用しています。

ですから、これはおおよそ27Bモデルの知性を、約4Bモデルの計算コストで得られるということです。これは確実にコンシューマー向けGPUで実行できます。そして、この録画をしている時点で公開される前に、OllamaやLLM Studioなどで見られるようになると確信しています。Google自身も、QATチェックポイント、つまり量子化対応トレーニングチェックポイントをリリースしているので、低精度でもモデルの品質が高く保たれます。

MoEモデルが欲しくない場合はどうでしょうか。彼らがワークステーショングループの一部としてリリースしている2番目のモデルは、310億パラメータの密モデルです。これは異なるアプローチを取っています。Gemma 3よりもレイヤーが少ないですが、かなり多くの意味のあるアーキテクチャのアップグレードがあります。値の正規化が追加されており、アテンションメカニズムも、長いコンテキストに最も適したものに収束するように変更されています。

長いコンテキストといえば、これらのワークステーションモデルは、箱から出してすぐに256Kのコンテキストウィンドウを持っています。ローカルモデルとしてはかなり重要です。

もう1つ素晴らしいのは、ここのビジョンエンコーダーです。Gemma 3Nで使っていたものから、ネイティブなアスペクト比処理を持つビジョンエンコーダーに移行しました。画像やドキュメント、スクリーンショットを入れると、モデルが実際の寸法を処理します。

これは、ドキュメント理解、OCR、そしてそのようなもののためにトレーニングしたいと人々が考えている下流のタスクにとって、どのように機能するかが確実に興味深いことになるでしょう。

ワークステーションモデルの用途

これらのワークステーションモデルについて、Googleは、これらをローカルコーディングアシスタント、おそらくIDE co-pilot、あるいは複数のユーザー向けに小さなサーバーで実行するものとして位置づけています。

この31Bモデルは、コード生成、補完、修正を行います。これに加えて、完全に多言語対応で、事前トレーニングには140言語、ポストトレーニングと指示ファインチューニングには35言語があります。

エッジモデルE2BとE4Bの特徴

さて、エッジモデル、E2BとE4Bを見てみましょう。これらは、別の理由で本当に興味深くなるところです。これらは、実際に音声をサポートするファミリーの2つのモデルです。音声認識に使える組み込みのASRエンコーダーがあり、音声から翻訳されたテキストのようなものにも使えます。つまり、ある言語で話して、別の言語でテキストを得ることができ、すべて1つのモデルで、デバイス上で行えます。

興味深いことに、ここの音声エンコーダーは、Gemma 3Nモデルと比較して大幅に圧縮されています。50%小さくなり、6億8100万パラメータから3億500万パラメータに減りました。つまり、パラメータ数の削減だけでなく、それに必要なディスクスペースも大幅に小さくなり、390メガバイトから87メガバイトに減りました。

興味深いことに、フレームの持続時間をここで160ミリ秒から40ミリ秒に変更したようで、これにより文字起こしのためにはるかに応答性の高いものが得られるはずです。

Gemma 3Nからのいくつかの革新は維持されていますが、アーキテクチャ的に、3Nで持っていたいくつかの革新が実際には最善のものではなかったことに気づいたようです。私の推測では、これはGemmaチームが、研究から本番環境に必ずしもすべてが引き継がれるわけではないことに気づいたということです。

これらの小さなモデルのビジョンエンコーダーも劇的に小さくなっています。過去には、ビジョンエンコーダーは約3億から3億5000万パラメータでした。これらの新しいモデルでは、1億5000万パラメータに減っています。そして、それらのモデルで行っていた方法から、この新しいアーキテクチャに劇的に移行しており、より軽量で、そのためかなり高速になっています。

クラウドに何も送信したくない、実際の音声優先AIのようなオンデバイスアシスタントを構築している場合、これはまさに欲しいものです。128Kのコンテキストウィンドウ、視覚、音声、関数呼び出し、モデルが思考する能力、これらすべてが、エッジで極めて低いレイテンシで実行できるほど小さなモデルに入っています。

実際のデモンストレーション

さて、ここで少し割り込みます。いくつかの主要な機能を見せるために、最小のモデルをテストします。これが実際にリリースされる前にテストしているので、transformersライブラリの特別なバージョンを使う必要があります。でも、基本的にはGemma 4の最小のE2Bバージョンのウェイトをダウンロードしているだけです。

非常に素早く確認できますが、思考に使いたい場合は、基本的にチャットテンプレートで思考を有効にしたいことを渡すだけです。つまり、enable thinking equals trueとするだけです。これを実行します。レスポンスが返ってきます。そして、そのレスポンスを出力するだけです。

ここで私が尋ねた質問は、ディープラーニングと金融の一般的なユースケースは何ですか、というもので、これに対する答えが出てきています。思考をオフにしたい場合は、enable thinking equals falseとするだけです。そうすると、この場合は以前とかなり似た答えが得られますが、思考はありません。答えを直接出してくるだけです。ですから、思考をオンにする、思考をオフにする能力があります。

次は、実際に画像を入れたい場合です。画像を読み込んでいるのが見えます。そして、プロセッサーを使います。ここにオートプロセッサーがあり、画像をそれに渡します。そして、実際に画像をそれに渡すことができるのが見えます。ここでやっているのはそれです。プロセッサー画像トークンがあるので、ここに画像を挿入することがわかります。

そして後で入力を定義する際に、テキスト入力を渡します。これは基本的に、apply chat templateを通して処理されたメッセージです。そして画像を渡します。この場合、渡している画像は1つだけです。

確かにこれを進めることができるのが見えます。実際には、ここでの出力は128トークンしか出していません。でも、これが犬と一緒にビーチにいる女の子の画像であることがわかります。この画像で何が起こっているのか尋ねました。画像が人と犬の間の温かく素敵な瞬間を捉えていることがわかります。

何が起こっているかの詳細が見えます。被写体が見えます。やり取りが見えて、設定などの完全な部分を入れる前に切れています。画像には非常に優れており、これもかなり速いです。これが素晴らしいことの1つです。

音声をやりたい場合は、基本的に同じことをします。ここに音声ファイルがあります。その音声ファイルを少し再生しますので、聞いてください。

(音声:仮面舞踏会で踊る。アイドルの真実と無垢な視線。疲れたポップロールのクリックショット。今日は誰になろうか、それともならないか…眠っているように見える潮。音と泡にあふれすぎて…)

2つの声が聞こえますね。これを渡すと、基本的に実際の音声をここに渡すだけです。そしてテキストがあり、これを実行して処理できます。確かに、出力が得られます。

これを見ると、実際にかなりうまく文字起こししています。女性の声も男性の声も両方を非常に正確に捉えているのが見えます。

さて、これをASRモデルの代わりに必ずしも使うかというと、おそらく使いません。しかし、これらを連鎖で使う予定がある場合、つまりASRモデルを持ってからLLMモデルに入れる予定がある場合は、ここで確実にそれができます。

ここの音声でできる本当に素晴らしいもう1つのことは、翻訳のようなことができることです。ここで、この場合は日本語というターゲット言語を定義しているのが見えます。ソース言語として英語を定義します。そして、ソース言語で次の音声セグメントを文字起こししてくださいと伝えることができます。それからターゲット言語に翻訳してください。そして、どのようにフォーマットしてほしいかなどを伝えることができます。

そして確かに、これをやってくれます。実際に進んで、英語で文字起こしして、日本語の翻訳を出してくれます。これをGoogle翻訳にコピーしましたが、おおよそ正しいようです。

さて、これはE2Bモデルだけだということを忘れないでください。非常に小さなモデルです。これにはもっと大きなモデルを使うことができます。私の推測では、それはおそらく多言語のいくつかのことでもっとうまくやるでしょう。

小さなモデルを実行したい場合は、T4で実行できます。実際にここでT4 GPUを使っているだけです。量子化なしで大きなモデルを実行したい場合は、かなりの量のRAMを持つものが必要になります。H100、RTX 6000 Proのようなものを見ることになります。しかし全体として、ワークステーションモデルとこれらのはるかに小さなモデルの両方が、それぞれの特定のユースケースで非常に印象的です。

デプロイメントオプション

モデルはHugging Faceにも、Google Cloudにも出ています。大きなモデルを提供したい場合は、それができます。本当に素晴らしいと思うことの1つは、これらの2つの大きなモデルを、Cloud Runで完全にサーバーレスの方法で実際に提供できるようになったことです。

Cloud Runは今、G4 GPUを使用する能力があります。これは実際にはNvidia RTX Pro 6000です。96ギガバイトのVRAMがあります。そして、実際にフルサイズのバージョンを読み込んで、サーバーレスの方法でサポートできます。何もないところまでスピンダウンします。ですから、将来的にそれも確実に見ていきたいと思います。

まとめと今後の展望

まとめると、Gemmaの新しいバージョンが4つ出ています。これらのベースモデルと指示チューニングされたモデルの両方が出ています。ここのベースモデルは、ファインチューニングのようなことをするのに本当に興味深いものになるでしょう。

おそらく、それについていくつかの動画を作ることになると思います。小さなモデルでも、大きなモデルでも、実際に非常に強力なベースモデル、Gemmaモデルが常に持っていたものを持っているとき、特定のユースケースなどのために独自のファインチューニングを行うことから本当に利益を得られることを示すために行います。

これがGemma 4モデルの完全なファミリーだとは思いません。おそらく今後数ヶ月でもっと見られると思いますが、確実にこれは、これらのモデルを実際に使い始め、特定のユースケースのためにテストし始めるための本当に良いスタートです。

とにかく、いつものように、コメントで何を考えているか、これらのモデルで今後何か特定のことを見せてほしいかを教えてください。過去にGemma RAGの動画をいくつか作ったので、それらのアップデートを見ることもできるかもしれません。

そして、先ほど言ったように、これらでいくつかの異なるファインチューニング動画をほぼ確実に作って、これらが実際に何ができるかを示します。そのようなものに興味がある場合は、必ず「いいね」とチャンネル登録をクリックしてください。次の動画でお話しします。それではまた。

コメント

タイトルとURLをコピーしました