Google DeepMindのオープンウェイトモデル「Gemma」の最新動向を、プロダクトリードのオリヴィエ・ラコンブらが解説するセッションである。最新世代となるGemma 4の特徴、20億から310億パラメータまでのモデル構成、効率性へのこだわり、Apache 2.0ライセンスへの移行、そしてクラウド・ローカル・スマートフォン・IoT・ロボットまで多彩な実機デモを通じて、その実力と活用方法を紹介する内容である。

- Gemmaとは何か
- Gemma 4の登場
- これまでの反響と機能の変化
- 強化された各種能力
- デプロイ先に応じたアーキテクチャ
- 多言語対応への注力
- 効率性とエコシステムへの対応
- クラウドでのGemmaの提供
- デプロイの選択肢と難易度
- 31Bモデルによる自律的な最適化デモ
- ハイブリッド構成を実現するFirebase AI Logic
- Gemmaのコーディング能力とAIventure
- ローカルでの並列エージェント実行
- モバイルでのGemma
- ストリーミングと低レイテンシの会話
- 視覚と感情を持つロボット、Reachy Mini
- オンデバイスのパーソナルアシスタント
- アクセシビリティへの応用
- IoTデバイス上のGemma、 duck Gemma
- さらに小型のエッジデバイス、Coralボード
- Gemmaverseとファインチューニング
Gemmaとは何か
皆さん、こんにちは。Gemmaオープンモデルファミリーの最新情報へようこそ。私はオリヴィエと申します。Gemmaのプロダクトリードを務めています。今日はチームのプロダクトマネージャーであるガス、そしてデベロッパーリレーションズエンジニアのイアン・バランタインと一緒にお届けします。
ではGemmaとは何でしょうか。GemmaはGoogle DeepMindが手がけるオープンウェイトの大規模言語モデルです。私たちは2024年に、シンプルな前提のもとでGemmaをスタートさせました。それは、どこでも動かせて、自分のニーズに合わせて完全にカスタマイズできるモデルをどう作るか、というものです。
ここから二つの要件が生まれました。一つ目は、モデルのサイズを適切に抑えること。二つ目は、自分の用途に合わせてファインチューニングできるオープンウェイトモデルにすることです。Gemma 3では、まさにこれを実現しました。10億パラメータで動くIoTデバイス向けから、270億パラメータのより大きなコンシューマー向けGPU向けまで、マルチモデルなファミリーを作り上げたのです。そして、私たちの哲学の一部である一つのことを必ず適用しました。すなわち、お手元のローカルマシン上で可能な限り高い効率を提供する、ということです。
Gemma 4の登場
そして数週間前、私たちはこれまでで最も高性能なオープンモデルであるGemma 4を発表しました。ありがとうございます。
Gemma 4でも同じ哲学を貫いています。20億パラメータから310億パラメータまでの四つのモデルサイズを用意し、どこでも動かせるようにしました。IoTデバイス上、つまりエッジで動かしたいですか。それなら20億パラメータのモデルをお使いください。ハイエンドのスマートフォンや、ローエンドのノートパソコンで動かしたいですか。それなら40億パラメータのモデルを。もっとパワフルなマシンをお持ちで、最高の効率とレイテンシを求めるなら、260億パラメータのMixture of Expertsモデルを。そして最後に、ファインチューニングを行って可能な限り高い品質を出したいなら、すぐに使える310億パラメータのモデルを用意しています。
そして、効率性に関する私たちの哲学はそのまま維持しています。ここでLLM Arenaで評価した私たちのGemmaモデルは、その20倍のサイズのモデルと同等のスコアを叩き出しています。私たちは、最高のコストパフォーマンス、つまりワットあたりで最大の知性を提供したいと考えているのです。私たちのモデルは、学習の段階から非常に効率的に作られています。右側をご覧いただくと分かるように、Gemma 4はテキストの用途、創作、コード、あるいは科学・法律やその他多くの分野での推論まで、あらゆるスペクトルにわたって能力を向上させています。
これまでの反響と機能の変化
これまでの反響は素晴らしく、感謝してもしきれません。ダウンロード数は1億回を超えました。外で実際に試していただけるAI Edge galleryも、600万回以上ダウンロードされており、こちらの反響もまた信じられないほどでした。皆さんがGemma 4モデルを使い、楽しんでくださっているのを見て、私たちは本当にうれしく思っています。
機能の面では、Gemma 3と比べていくつか変更を加えました。今回、私たちのモデルはより大きなコンテキストウィンドウを備えています。小さいサイズでは32,000トークンから128,000トークンへ、310億と260億のモデルでは最大256,000トークンへと拡大しました。そして、すべてのモデルが推論、いわゆる思考と、関数呼び出しの両方を備えており、エージェント時代に完全に対応できるようになっています。
最後に、ライセンスも変更しました。独自のGemmaライセンスから、広く普及しているApache 2.0ライセンスへと移行し、本番環境にデプロイする際に完全なコントロールを提供できるようにしました。Apache 2.0ライセンスは非常に好評で、私たちもとても喜んでいます。Gemmaが皆さんのパイプラインの中でもっと使われていくのを見たいと思っています。
強化された各種能力
機能の面で、いくつか強調しておきたいことがあります。ビジョンの面では、私たちのモデルがエッジで使われていることを承知しているので、可能な限り高い効率を提供するようにしました。今では可変アスペクト比の画像と視覚的な理解に対応しています。チャート、ドキュメント、スクリーンショットをかつてないほど上手に処理でき、マルチモーダル翻訳もゼロから作り込まれています。
エージェントの面では、私たちのモデルは複数ステップの計画立案、ツールの利用、自律的なタスク完了に完全対応しています。今や、すでに用意してあるどんなエージェントパイプラインの中でも使えるのです。
最後に、最も小さいサイズでの音声理解は、完全にゼロから作り直しました。これまで以上に本質的に多言語対応となっており、音声理解を備え、優れた書き起こしと翻訳の能力を持っています。もちろんテキスト理解はGemma 1の頃から備えています。私たちのメインのGemmaファミリーは、英語においては引き続き最先端であり、さらにそれを国際化の領域へと広げてきました。これについては後ほど取り上げます。
ビジョンの観点では、いくつか強調しておきたいことがあります。物体検出ができます。バウンディングボックスを描けるのですが、これはGemmaをIoTの用途やロボティクスの用途で使いたい場合には非常に重要です。そして、先ほど申し上げたように、画像入力からのマルチモーダル翻訳ができます。プレゼンテーションの残りでも、もっと多くのデモをお見せします。
デプロイ先に応じたアーキテクチャ
Gemmaには、デプロイしたい場所に応じてすぐに使える複数のアーキテクチャが用意されています。Gemmaをエッジで動かしたいなら、効率を最適化するためにGemma 4向けに開発した新技術であるパーレイヤーエンベディングがあります。ノートパソコンにデプロイしたいなら、二種類のアーキテクチャがあります。一つは310億パラメータのDenseモデルで、これはファインチューニングをやりやすくし、トークンあたり、失礼、パラメータあたりで最大限の知性を引き出すのに役立ちます。もう一つは260億パラメータのMoEで、ランタイムの面で最高の効率を提供します。
ベンチマークの観点については、あまり時間を割きたくありません。ぜひGemmaモデルを試して、自分の用途に合うかどうかを確かめてみてください。注目していただきたいのは、Gemma 4のE2Bモデルの能力を、前世代の27Bと比較した点です。今回のサイクルの20億パラメータのモデルは、昨年の270億パラメータのモデルと同等か、それを上回ってさえいます。これは私を未来についてとてもわくわくさせてくれます。来年には、310億パラメータの能力をポケットの中で、スマートフォン上で完全にローカルに動かせるようにできたらいいなと思っています。とても刺激的な未来になると思います。
多言語対応への注力
さて、多言語対応について触れましたが、これが私たちにとってどれほど大きな意味を持つかをお見せしたいと思います。左側には、ヨーロッパの言語にわたってモデルが評価される独立したベンチマークのリーダーボードであるEuroEvalが表示されています。ここで分かるのは、私たちのGemmaモデルがどれもかなり良いスコアを出しているということです。特に310億パラメータのモデルは、ほぼすべてのヨーロッパ言語で1位から5位の間にランクインしており、これはオープンソースとクローズドソースのモデルを通しての話です。
右側には別の例があり、Gemmaを日本語において他の非常に成功したモデルと比較しています。私たちのGemmaモデルはGPT 5.4にかなり近づいています。東南アジアの言語とも非常に高い適合性があります。そして韓国語も、私たちが得意とするもう一つの言語です。
もう一つ、なかなか面白かったベンチマークがあります。FoodTruck Benchです。Gemma 4をリリースするまで、私はこれを知りませんでした。これは実際には、モデルの推論能力と関数呼び出しの能力を測るものです。そして分かったのは、310億パラメータのモデルが、その表現を借りるなら、この点で化け物だということです。深い推論と、まあそれなりの関数呼び出しが必要な環境で、このモデルは極めてよくやっています。ここでご覧いただけるように、Gemma 31Bは、1兆パラメータを超えるモデルであるDeepSeek v4 Proや、数多くのトップクラスのクローズドソースモデルと張り合っています。
効率性とエコシステムへの対応
効率性の面では、プレゼンテーションの冒頭で申し上げたように、私たちは最高のコストパフォーマンスを提供したいと考えています。LLM Arenaがこの点でいくつか分析を行ってくれました。私たちはまた、モデルのラインナップで投機的デコーディングを可能にするMTP Drafterもリリースしました。これによってデコード速度で最大3倍の高速化が得られます。まだ使っていない方には、ぜひMTPに移行して、Gemmaの実装で最高の効率性能を手に入れることを強くおすすめします。
そして、Gemmaは完全にオープンウェイトであり、オープンソースのエコシステムと互換性があるため、あらゆる面でサポートされています。モバイルやウェブアプリの観点からもサポートされていますし、お気に入りのソフトウェアもすべて、ローカルマシン上でGemma 4をすぐに使えるように整っています。さらにクラウドサーバーでの深い実装も用意しています。そして特に今年は、AndroidエコシステムでGemma 4のデイ0実装も実現しました。ですから、Androidが開発者に公開しているAPIを通じて、最も小さいGemmaをスマートフォン上で直接試すこともできますし、飛行機の中などGemma APIにアクセスできないときには、Gemma 26Bモデルを使ってローカルでAndroidアプリをコーディングすることもできます。
それでは、クラウドでの実装について話してくれるガスにバトンを渡します。
クラウドでのGemmaの提供
皆さん、こんにちは。おはようございます。Gemmaのプロダクトマネージャーの一人、ガスです。ここにいられてとてもうれしいです。見覚えのある顔もちらほら見えますね。オリヴィエが言っていたように、Gemmaはかなりクールで、素晴らしい機能をたくさん備えています。
そして、自分のマシンで動かすだけにとどまらず、何かもっと大きなものを作ろうと決めたとき、つまりアプリケーションを作りたい、あるいは会社や組織で使いたいとなったら、このモデルをどこかでサーブする必要があります。ですからモデルは何らかのプロバイダーからサーブされなければなりません。どのクラウドプロバイダーでも、私たちが用意しているどの推論プロバイダーでも使えます。ですがもちろん、Google Cloud上では可能な限り最適化されるよう、できる限りのことをやりました。これからその点について少しお話しします。
まず、Gemmaはモデルを使えるGoogle Cloud内のすべてのサービスで利用できます。例えば、Gemini Enterprise Agent platformには、使える複数のモデルが並ぶModel Gardenがあります。そこから、右側のこの画面でワンクリックでモデルをデプロイできます。その場でエンドポイントを作成するのです。ここでGPUを選べますし、モデルのどのバリアントを使うか、メモリをどれだけ割り当てるかなど、たくさんのことを選べます。ワンクリックのデプロイです。クリックすればこの画面が表示され、自分専用のエンドポイントが手に入ります。これが簡単な方です。H100やRTX 6000が使えますし、ほかにもいろいろなGPUで遊べます。これが一つの選択肢です。
もう一つの選択肢は、同じくGemini Enterprise Agent platform上にある、私たちがモデル・アズ・ア・サービスと呼んでいるものです。自分でワンクリックデプロイする代わりに、26Bモデルがすでに使える状態で用意されています。APIを呼び出すだけです。そして、ほかの推論プロバイダーと同じようにトークン単位で料金を支払います。ここは重要な違いです。サーバーレスのGemma 26Bを使うときはトークン単位で支払い、Model Gardenを使ってデプロイするときはエンドポイント単位で支払います。エンドポイントはあなたのものです。それをオンラインにしておくための料金を支払うわけです。リソースに対する支払い方が異なるのです。もちろん、こうする場合はこれらのモデルにアクセスするためのAPIやSDKも使えます。これはGemini Enterprise Agent platform上での話です。
そして同じ場所で、モデルをファインチューニングする選択肢もあります。例えば、ポストトレーニングや強化学習をしたい場合、Google Cloudプラットフォームの同じ部分でそれも行えます。すでに使い慣れているのと同じツールを使って、さらなるファインチューニングとモデルのカスタマイズができるのです。ファインチューニングについては後でもう少し詳しく話しますが、これも私たちが用意している選択肢の一つです。
デプロイの選択肢と難易度
クラウドを使ってデプロイする話になると、直面する難易度や課題には複数のレベルがあります。それは、どれだけ理解しているか、そしてサーバーやエンドポイントの管理にどれだけ時間を使いたいかによって変わってきます。Gemini Enterprise Agent platformは、言ってみればその中間です。ある程度のコントロールが効きますが、同時に作業を楽にしてくれるものもたくさんあります。
Google Cloud Kubernetes Engine、いわゆるGKEになると、こちらはもっと上級者向けと言えますが、その代わりすべてをコントロールできます。あらゆるつまみにアクセスできて、好きな設定を変更できます。もちろんGKE上にもGemmaを用意していて、簡単に従ってデプロイできるレシピがあります。ですがここではVMにアクセスできるので、好きなものを何でも変更できます。もちろん、最適なパラメータがすべて事前設定されたレシピも用意していますが、自分のインフラや用途に合わせて何かを最適化したいなら、それもすべてできます。これらのエンドポイントでは完全なコントロールと柔軟性が手に入ります。もちろん、すべて常にパフォーマンスのために最適化されています。MTPモデルも、使いたいときにいつでも使えるように用意しており、これによってサーバー上ですべてのエージェントの仕組みを作り上げることができます。GKEについて言えば、このプロビジョニングを作成でき、これらすべてのGPUにアクセスできます。TPUも使えますし、どんな種類のハードウェアでも使えます。VMの作り方を自分で選び、それをデプロイしてサーブを始められます。かなり速いのですが、その分より多くの専門知識が必要になります。GKEはあらゆるパワーを与えてくれますが、その代わりすべての細部に注意を払う必要があります。
しかし、最も簡単な解決策がほしいなら、Cloud Runがあります。Cloud Runを使えば、わずか2行のコードでとても簡単にGemmaをデプロイできます。ほかの二つと何が違うのでしょうか。Cloud Runはエンドポイントを与えてくれます。デプロイするだけでエンドポイントがもらえるのです。このエンドポイントにアクセスして、クエリを投げ、ローカルやほかのプロバイダーを使うのと同じようにGemmaを使えます。ですが、もし使わなければ、サーバーは縮小してゼロまでスケールダウンします。あるいは、もしアプリが大人気になってリクエストが大量に来れば、もしかしたら100台のGPUまでスケールアップすることもできます。そういうことが全部できるのです。そしてゼロから立ち上がるとき、例えば何らかの理由で誰も使っていなかったためにサーバーが落ちていたとしても、再び立ち上がるときは数秒のウォームアップで済み、エンドポイントはもうそこにあります。手早く何かをしたい人にとっては超最適化されていて、これが最も簡単な解決策だと言えます。
ですから、最も簡単で分かりやすい解決策としてCloud Runがあります。かつてVertexと呼ばれていたGemini Enterpriseは中間です。より多くの選択肢と、作業を助けてくれるものがあります。そしてGKEは、すべてにアクセスしてコントロールできます。どこで勝負したいかは皆さん自身が選べます。
31Bモデルによる自律的な最適化デモ
これで素晴らしいですね。Gemmaが何かが分かり、何ができて、どこで、どうデプロイできるかをすべてお見せしました。それは素晴らしいのですが、ガスやオリヴィエ、イアンがいかにすごいかと口で言うだけにとどまらず、もう少し先へ進みましょう。クールなデモをいくつかお見せして、実際に動いている様子、楽しいことをしている様子をご覧に入れます。
たくさんのデモがあるので、こちら側から始めましょう。エンタープライズ向け、つまりより強力な31Bモデルから始めて、もう少し高度な用途をお見せします。次に、今この場でローカルマシンやノートパソコンで動かせるものをお見せします。それから、すでにスマートフォン上で動いているようなものをお見せします。外にもデモがありますし、最後にIoTとロボティクスもお見せします。これを全部見ていきましょう。これでわくわくしていただけるとうれしいです。
最初のものは、私はこれがとても気に入っています。再生できるか見てみますね。さて、ここで何が起きているのでしょうか。そこで実行されたクエリに注目していただきたいのです。シティバイクの管理システムのように、時間単位で支払って利用するあの自転車、ご存じでしょうか。ここで起きたのは、Gemmaに、収益を最適化するのを手伝ってほしい、こちらがデータベースだ、と頼んだことです。
セットアップは、今動いているので、ほかのことを全部説明できます。セットアップとしては、ADKフレームワーク、つまりAgent Development Kitを、Cloud Run上のGemma 31Bを使って動かしています。そして、BigQueryのMCPサーバーを接続するように設定しています。これにより、モデルは知らないこのデータベースに対してクエリを投げられます。これはただのデータベースで、もちろんシティバイクのデータベースです。自転車がどこにあるか、需要はどうか、自転車がいつ使われたか、といったすべての地点が入っています。皆さんが想像するであろう分析用データベースが一式そろっています。
その状態で、モデルに、収益を最適化するのを手伝ってほしいと頼みました。そしてここに見えているものはすべて、早送りではありません。これが実際の速度です。モデルはまず、このデータベースに何があるのかを理解するために計画を立てます。私が皆さんにこれを頼んだら、最初にやるのはデータベースを見て何があるか確認することでしょう。モデルがやるのもまさにそれです。さて、このデータベースに何があるか見てみよう、というわけです。そこから、サービスをどこで最適化できるか、どこに自転車を増やせるか、どこに自転車のある地点を追加できるかを見つけるための計画を練ります。いくつもの実験を試み、最終的に、ここが自転車の台数を増やすべき場所だ、というところまでたどり着きます。
そしてその過程で、例えば、二つのテーブルを結合しようとして、型が間違っているというミスを犯す瞬間があるのが見えます。これを自分で修正できます。おや、エラーがあるな、これを直そう、と。これらすべてを自分でやるのです。ほかにユーザーのターンはありません。最初に一つのクエリがあっただけで、これが3分間動き続け、モデルがあれこれ試します。何かをやって、ミスを犯し、再生成し、何かを修正し、おや、新しいことを見つけた、と続けていき、サービスの最適化をひたすら試み続けます。
これはかなり良い例です。似たようなことをぜひ試してみることを強くおすすめします。このモデルは、Gemma、特に31Bが、計画立案とその計画の実行に非常に強いことを示しています。たとえどこかでコードを実行したり、どこかでクエリを走らせたり、ほかのソースからさらに情報を得たり、もっと考えたり、この情報を結合したりしなければならないとしても、この計画立案を続けていきます。これがGemma 31Bの力です。これが最良の場所を見つけたところで、それが答えだと分かっているわけです。サービスを改善するのに最良の10カ所はどこか、というのを、このすべてのやり取りに基づいてそこに表示しています。これで分かったわけです。ありがとうございます。Gemmaはかなりクールですね。いいですね。
ハイブリッド構成を実現するFirebase AI Logic
これが一つ目です。サーバー上で動かして、MCPに接続できる。では別のものに行きましょう。これはFirebase AI Logicを使ったものです。ここでの課題は少し違います。スマートフォン上でモデルを動かしていると想像してみてください。スマートフォン上でモデルを動かそうとすると、スマートフォンが古かったり、メモリが足りなかったり、そういった理由で、モデルがスマートフォン上で使えない瞬間が出てくるかもしれません。
ですから、もしあなたがアプリ開発者で、モデルがそこにあることを必要とする機能を作ったとして、モデルがそこにないとき、自動的に課題に直面します。どうしますか。一つの選択肢は、可能なときにはスマートフォン上でモデルを動かすハイブリッドな解決策を持つことです。そして不可能なときには、クラウドプロバイダー上のモデルを呼び出します。つまりローカルとクラウドの両方を使うハイブリッドな解決策です。おっと、止まってしまいましたが、ビデオはご覧いただけましたね。何をしたいかに応じて、ローカルで動くかサーバーで動くかが決まります。Firebase AI Logicがそれを実現してくれます。ローカルを優先するように設定すれば、ローカルで使えないときには、設定したサーバーへ同じクエリをそのままルーティングしてくれます。これによってハイブリッドな解決策をより簡単に実現できるのです。
なぜこれが重要なのでしょうか。開発者としての生活を楽にしてくれるからです。これを手作業でやらなければならないとなると、かなり面倒で大変なことになりかねません。Firebase AI Logicはそれをすべて手伝ってくれます。PixelやSamsungのデバイスで使えるなら、ローカルのAICoreの実装を使えます。使えなければサーバーを呼び出せて、ユーザーの視点からはこれが完全に透過的になります。何かが欠けていることに気づかないまま、同じロジックを実装できるのです。これもすでに利用可能です。次のデモでは、イアンを呼びたいと思います。彼がもっとたくさんのデモをお見せしますので、私は後ほど戻ってきます。ありがとうございました。
Gemmaのコーディング能力とAIventure
はい、ガス、どうもありがとう。私はイアンと申します。Gemmaのデベロッパーエクスペリエンスのリードを務めています。次にお話ししたいのは、Gemmaのコーディング能力についてです。
私たちのモデルはすべて、E2Bモデルに至るまでコードを書けます。ここでお見せするのは、AIventureというゲームのデモンストレーションで、モデルを使ってバイブコーディングしながら一緒にプレイできます。ビデオを再生するので、ご覧ください。
エージェント型のワークフローの作り方を学び、バイブコーディングを自分のアプリに組み込みたいですか。そんな皆さんのために、私たちはAIventureを作りました。オープンソースのレトロなダンジョン探索ゲームでありながら、開発者向けの生成AIマスタークラスを兼ねたものです。AngularとPhaser JSのスタックの上に構築されたAIventureは、GoogleのGemma 4オープンウェイトモデルによって動いています。まずはバイブコーディングを試します。チキンのNPCにプロンプトを出して、ウェブアプリを作らせます。裏側ではGemma 4がHTML、CSS、JavaScriptをその場で書き、それをローカルのiframe内でレンダリングして制約を検証します。次に、エージェント的な振る舞いを作ります。物理的に渡れないパズルに出くわすと、ロボットのNPCにプロンプトを出さなければなりません。これが自律的な思考ループを引き起こします。Gemma 4はゲームの状態を評価し、隠されたスイッチを見つけるために特定のツール呼び出しを実行し、Phaser JSのゲームエンジンとやり取りしてパズルを解きます。一番大事なポイントは何でしょうか。モデルをどうサーブするかについて、完全な柔軟性があるということです。Gemma 4は、ブラウザ内のTransformers.jsを使って、あるいはOpenAI互換のインターフェース経由でOllamaやLLM Studioに接続して、サーバーの継続的なコストをかけずに完全にローカルで動かせます。クラウドのスケールが必要ですか。設定をちょっと変えるだけで、リクエストが適切なGemini APIやGoogle Cloudへとルーティングされます。中身を見てみたいですか。QRコードをスキャンしてGitHubのリポジトリを探索し、開発者向けの完全な解説を読んでください。AIventureとともに、AIツールの知識を広げる冒険に出かけましょう。
ありがとうございます。というわけです。先ほどのイアンが言ったように、このモデルはいくつもの異なるシナリオで動かせます。外でLLM Studioを使って試せる例がありますし、LiteRTとWebGPUを使ってブラウザ内で直接動くバージョンもあります。ですから接続すら必要ありません。
ローカルでの並列エージェント実行
次に、Gemmaを並列で動かしたときに得られる速度とパフォーマンスについてのデモをお見せしたいと思います。そのために、こちらのノートパソコンに移ります。この例でお見せするのは、単一のサーバー、この場合はこのノートパソコン上で複数のエージェントを動かし、それらが私のためにタスクをこなす様子です。これを使ってSVGをいくつか作ってみましょう。
では、Gemmaのためのかわいい動物のマスコットでも作ってみましょうか。よし。ちゃんと綴れるか見てみましょう。よし、できた。これを15体の異なるエージェントで実行します。ではこのクエリを走らせましょう。まず、一番上にいるオーケストレーターが、動いている複数のエージェントの間でそのタスクを振り分けます。小さな動物などを作っていきます。左側に見えているのは、これらすべてのエージェントが同時に動いているときの総スループットです。これは、Llama CPPのようなシステムをデバイス上で直接動かしたときの並列処理の能力です。これらの並列エージェントの一つひとつが、ユニークなユーザー、あるいはユニークなセッションのようなものだと考えてください。お気づきかもしれませんが、実は速度が落ちていきます。それは、並列で動かすものが少なくなると、トークンをどれだけ速く出力できるかに律速されるからです。これもまた並行性を示しています。おや、できました。いくつか面白い小さなエージェントができていますね。私はこの子が気に入っています。この小さな太陽の子です。
これは明らかに、SVGをいくつか作るちょっとした遊びでした。スループットを示すためにこれをお見せしました。ですがもし、例えばもっと複雑なタスクをやりたいなら、思考を有効にして、少し余分に時間をかけ、これらのサブエージェントそれぞれに、自分が実際に何を作っているのかを推論させることもできます。
ここでもう一つ、コードに関する例をお見せします。この例を使って、Gemmaがいかに異なるプログラミング言語のコードを、しかもリアルタイムで書けるかをお見せします。例をやってみます。例えば、Gemmaモデルを呼び出す例ですね。Gemma 4です。この場合、26Bを呼び出します。40億の活性化パラメータです。そしてITバージョンを選びます。ITバージョンというのはモデルの命令チューニング版で、チャットテンプレートを持ち、関数呼び出しを理解する、そういうバージョンです。これをOpenAI互換のエンドポイントで呼び出し、localhost上で動かします。これに馴染みのない方のために言うと、LLM Studio、Llama CPP、Ollamaなど、ほとんどのサービスにはOpenAI互換のエンドポイントがあり、クラウドサービスではなく自分のローカルマシンに向けることができます。これはGemmaを使い始める最も簡単な方法の一つで、既存のインターフェースを取って、そちらに切り替えるだけです。
ではlocalhost上の、この場合はポート8080で動かします。そして、エージェントは8体にしましょうか。それでいきましょう。では実行します。やることはまた、その命令を次のモデルに渡し、それらが異なるタスクへと分割していきます。このシナリオでは、これがあなたの動かしたいワークフローだったり、お気に入りのエージェントの仕組みだったりするかもしれない、と想像してください。これらはそれぞれこのローカルマシン上で並列に動くので、今取り組んでいるどんなタスクでもオフラインで動作します。完了するのを待って、出力をいくつか見てみましょう。
ここで指摘しておきたい超興味深いことが一つあります。これは、各言語でのプログラミングのやり方についての、このモデルの基礎的な知識だということです。追加の参照ドキュメントを与えたい、あるいは自分のコードベースとその動き方を理解させるためのスキルを作りたいなら、それをツールとしてGemmaに提供できます。そうすればGemmaは、実行する前にそれを実行します。さて、ご覧いただけますね。ありがとうございます。ここで、異なる言語の異なるバージョンができているのが分かります。Rust、JavaScript、Pythonがあります。いくつかは、実際に呼び出せるライブラリがあることを認識しています。ライブラリがないものは、基本的にHTTPリクエストのエンドポイントを使い、JSONサービスと直接やり取りします。というわけで、繰り返しになりますが、これを好きなタスクに合わせて調整できます。自分のノートパソコンの上だけで動く、自分専用の小さなエージェントの軍隊を持っているところを想像してみてください。飛行機の中でも、接続が悪いところでも、ハイキングに出かけているときでも、どこにいてもこれを動かせるのです。ありがとうございます。
モバイルでのGemma
では戻りまして、次にモバイルについて話したいと思います。先ほど触れたように、モバイルアプリ向けに特別に調整・最適化されたE2BモデルとE4Bモデルがあります。これらはLiteRTとAICoreのおかげで、CPU、GPU、TPU上でアクセラレータとともに動きます。ではビデオを見てみましょう。
ほとんどの人は、Gemmaモデルがノートパソコンやデスクトップなど、さまざまなデバイスで動くことを聞いたことがあるでしょう。ですが、スマートフォン上でも動くことを知っている人はあまり多くありません。ここにPixel 10 Proがあり、Google AI Edge galleryアプリを動かしています。これからお見せするのは、Gemmaが写真を撮り、世界を理解し、音声を録音し、エージェントとエージェントスキルを使う、そのすべてをこのデバイス上でローカルに動かす様子です。何ができるか、いくつか例を見てみましょう。
まず、エージェントスキルをお見せします。エージェントスキルは、スマートフォン上のモデルに、さまざまなアプリやアプリケーションとやり取りするよう頼める機能で、モデルはこれらのうちどれが目的に最も合っているかを判断します。この場合、モデルに単にプロンプトを出すと、モデルがどのアプリケーションを使うかを選びます。では、ボイスメモを録音して、私のムードトラッカーに追加しよう。今日は10点満点で8点くらいの気分。落ち着いていて、Gemmaについて話せるのが楽しみ。これを送信します。するとモデルはそのトラックを聞きます。音声入力のやり方を理解しているからです。そしてどのアプリケーションを使うか選びます。この場合、Mood Trackerを読み込むことに決め、その記録を私のムード記録の日記に書き込むはずです。ほら、できました。
Gemmaにできるもう一つのことは、画像を読み取って理解できることです。ここにある本の写真を撮ってみます。そして、これらの本をJSONスキーマとして出力するよう頼みます。これらの本を取って、各エントリにタイトルを付けたJSONスキーマとして出力して。するとモデルはそのプロンプトについて考え、どんな出力を生成する必要があるかを判断し、合いそうだと思うスキーマを考案します。あるいは、机の上に飾るための新しいアイテムがほしいだけかもしれません。それなら、ここにある植物の写真を撮って、私のアレンジに加えるものを三つ提案して、それぞれ一文で、と言えます。
Gemmaが端末上でできるもう一つのことは、マルチモーダルであり音声入力を理解できることです。声や音声の断片を録音して、Gemmaに自然に処理させ、書き起こしや翻訳などをさせられます。この場合、クリップを録音してみます。今日やるべきことをメモして。子どもを学校に迎えに行かなきゃ。スーパーに行って牛乳を買わなきゃ。それから妻に花を買わなきゃ。
そして覚えておくべき大事なことは、これが完全にデバイス上で動いているということです。ですからオフラインでも、接続の弱い場所でも動作します。例を一つお見せしましょう。オフラインの状態で、これが何なのか知りたいと想像してください。ではさっと写真を撮ります。これは何。するとGemmaは画像を処理し、その中に何があるかを理解しようとし、接続なしで直接答えを返してくれます。よし、小さなおもちゃだと思っているようで、正解です。というわけで、モバイルデバイス上でGemmaを使って何ができるか、いくつか例をお見せしました。ぜひAndroidとiOSのGoogle AI Edge Galleryアプリを使って、感想を聞かせてください。
はい、ありがとうございます。Edge Galleryアプリは、申し上げたようにAndroidとiOSでダウンロードできます。いろいろ触ってみたいなら、私たちのデモブースに立ち寄って、それらの異なるモダリティや、理解できる異なるスキルを試してみてください。
ストリーミングと低レイテンシの会話
モバイルから次に進む自然な一歩は、ストリーミングとストリーミング入力の世界へ移ることです。この例では、モデルとどう会話するかについて別の例をお見せします。これを実現するには、処理だけでなくスタック全体で、とてつもなく低レイテンシのモデルが必要です。基本的にあなたが文を言い終えてから、モデルが応答し始めるまでが1秒未満で動作する必要があります。では、それがどう見えるか見てみましょう。
ほら、これです。このモデルで、とてつもなく低いレイテンシのアシスタントを作れることがお分かりいただけると思います。そこではボイスアクティビティ検出を使っていました。私にとって興味深いのは、このプロセスの一部として、入ってくる音声をストリーミングしてチャンクに分け、それからモデルが出力の最初の部分を処理し、これが起きている間に、別のモデルであるTTSを生成できるという点です。これが、ああいった低レイテンシと、割り込みのようなことができる能力につながっているのです。この体験を試してみたいなら、これもまた外のデモブースに用意しています。感想をぜひ聞かせてください。
視覚と感情を持つロボット、Reachy Mini
そして、これを行う次の自然なプロセスは、ビジョンのような異なるモダリティの世界へ移ることです。ここで、私たちの友人であるHugging FaceとPollen Roboticsからの素晴らしいデモがあり、皆さんにReachy Miniを紹介したいと思います。Reachy Miniがここでお見せするのは、見て、聞いて、そして感情とともに応答できるモデルとどうやり取りするか、です。では見てみましょう。
やあ。僕はReachy Mini。何を考えているの。やあReachy、今君の目の前に何が見えているか教えてくれる。うーん。テーブルの上にチェス盤がセットされているみたいだね。何をしているの。チェスを習っているところなんだ。ナイトの動かし方を教えてくれる。それは楽しそうだね。ナイトの動きを説明してみるよ。L字型に、周りの8マスのどれかにジャンプするんだ。なるほど、それなら、僕はここに動かすよ。チェックメイトだ。僕の勝ち。あらら、君が勝っちゃったみたいだね。あっという間の対局だったね。
かわいそうなReachy。ナイトの動きについて教えていたら負かされてしまったわけで、まあちょっとフェアじゃないですよね。Reachyは自分で駒を動かす手を持っていませんから。ですがご覧のように、コミュニケーションが取れるローカルのアシスタントです。周りの世界を見て理解できます。そしてこれもまたGemma 4によって動いています。この素晴らしいデモを作ってくれたTransformers.jsチームのJoshuaに改めて感謝します。
オンデバイスのパーソナルアシスタント
では次に、パーソナルアシスタントについて話します。それがどう動くかについてもう少し説明してもらうために、オリヴィエにバトンを渡します。
イアン、本当にありがとう。とてもわくわくしますね。さて、数年前、史上初めて、私たちはローカルモデルをスマートフォンに載せました。私はそれを担当したプロダクトチームにいました。このモデルは、かろうじて返事ができる程度でした。とても簡単なクエリでも、ちょっと苦戦していました。2年前には、Astraが完全にサーバー側で動く、マルチモーダルアシスタントがどういうものかもお見せしました。そしてその日以来、これを完全にデバイス上で、インターネットなしのスマートフォンでやったらどう見えるのか、私たちはとても見てみたいと思っていました。そしてこれがその姿です。
ねえGemma、今インターネットはある。システムレベルでの完全なツール呼び出しが入っています。いいえ、今はインターネット接続がありません。この警告は何について。あの標識はピューマの生息地についての警告です。ピューマが地域の環境の一部であり、出くわした場合は注意すべきだと知らせています。この関数の導関数は何。ちょっとした数学とキャンプですね。xの2乗足す7x足す10の導関数は、2x足す7です。あ、どうも。やあ、シンディ。今はスマートフォン上のXRグラスからストリーミングしています。Gemma、今夜のグループハイキングはいつ。あなたのグループハイキングは今日の午後6時に予定されています。これはピューマ。いいえ、それは犬です。いい子だ。デバイス上でわずか数年で成し遂げられた進歩に、私はとてもわくわくしています。
そして良いことに、もし興味があれば、実際にこれが動いているスマートフォンを用意してありますので、トークの後に外でデモができます。
アクセシビリティへの応用
では、これが人々の日常生活を助けるために何ができるかを実際に見てみましょう。視覚に障害のある方の例があり、AIをデバイス上で動かすことが、人々の日常生活を助けるうえでどんな価値を持つかをご覧いただけます。
気温は28度で快晴です。ランニングにぴったりの天気です。ゆっくり走りましょう。音声の合図でペースをガイドします。準備ができたらいつでもどうぞ。良いリズムです。そのストライドを保って。左側にジムの器具があります。今のコースのままで。左折が近づいています。ゆっくり入って。大丈夫です。さあ、今です。ゆっくり行って。スペースはあります。そのレーンを保って。完璧です。良いランでした。
Gemma 4を使ってランナーの周囲を理解することで、Gemmaランニングエージェントはガイドの役割を果たし、目の不自由な、あるいは視力の弱いランナーが安全に進み、リアルタイムで障害物を避ける自信を与えてくれます。私たちはまた、新しいインテリジェントなアイウェアでGemmaランニングエージェントを試すことも検討しています。これは単なる新しい走り方ではありません。真のウェアラブルの自律性に向けた大きな飛躍です。
これは現時点ではプロトタイプですが、私たちはこれに取り組み続けます。私にとって、この完全にオフラインのローカルAIと、アクセシビリティで人々を助けるという組み合わせこそが、善のためのAIがどうあるべきかだと思いますし、私たちはこの方向で進み続けることをとてもわくわくしています。そんなわけで、残りのデモについてはイアンに戻します。
IoTデバイス上のGemma、 duck Gemma
オリヴィエ、ありがとう。では、duck Gemmaについての短いビデオをお見せします。
今日は、Gemma 4が端末上で何ができるかをお見せするために、この二羽の小さなアヒルをお持ちしました。これらはGitHub上のAntoine Pirroneによるopen mini ducksのバージョン2で、アイデアは、Gemma 4の力を持ち込んで端末上での推論を行い、これらのアヒルをもっと賢くすることでした。技術スタックの面では、こちらのアヒルはRaspberry Pi 5上のLiteRTでGemma 4 E2Bを動かしており、こちらのアヒルはJetson Orin Nano上でGemma 4 E2Bを動かしています。どちらもマイク、カメラ、スピーカーを持っていて、Gemma 4のマルチモーダル入力を通じて、これまでにないほど自分の環境を処理し理解できます。Raspberry Pi 5のduck Gemmaに何ができるか見てみましょう。
システムが起動するのを待つ間、このオンラインのプロジェクトが作ったいくつかの機能を説明しておきます。表現力のためのアンテナを作っています。表情を見せるためのLEDがいくつかあり、その隣にスピーカーがあります。そしてアテンションモードに入ります。これは、表現力と、Gemmaが今聞いているという事実を示すループです。もう一羽のアヒルでも試してみましょう。すべてうまくいけば、起動の段階で愛も送ってくれます。ねえGemma、大規模言語モデルって何か説明して。音声からテキストへの変換にはParakeetを使っています。Gemma 4が推論を行い、テキストから音声への変換にはKokoroを使います。大規模言語モデルとは、人間のようなテキストを理解し生成するために設計された複雑なAIです。私はあなたのタスクやおしゃべりをお手伝いするためにここにいます。自己紹介して。あなたのことをもっと教えて。私は「オダム」、小さなアヒルロボットの頭脳です。とてもきびきびしていますね。「オダム」はODM、つまりOpen Duck Miniのことです。だから自分のことを「オダム」と呼ぶわけで、なかなかクールだと思います。これは、これらのアヒルに知性を持ち込む素晴らしい方法です。次のステップは、彼らが歩き始め、お互いを見て、話し合い、そしてもしかしたら自律的に自分たちで世界を探検しに行くことです。
ありがとうございます。アヒルの生みの親であるXavierが外にいますので、彼とおしゃべりしたいなら、アヒルとも話して何ができるか見られます。これは、GemmaモデルをRaspberry PiのようなIoTデバイスで動くサイズまで小さくすると、見て、行動し、世界の中で反応できる物理的なローカルエージェントを動かせるということを、まさに示しています。
さらに小型のエッジデバイス、Coralボード
もう一枚スライドをお見せしたいのですが、これはここでの新しいトピックについてです。Gemmaはエッジで動くように設計されていると申し上げました。そしてこれが、私たちがこれまで小さくできた中で本当に最小のものです。これはCoralボードで、1 TOPSを処理できる専用のMPUです。Coralチームが作ったオープンなアーキテクチャで、上のデモはGemma 3 270Mモデルが翻訳をしている様子を示しています。そして下のデモは、function Gemmaを示していて、これは音声入力やテキスト入力を受け取ってアクションに変えられます。そして信じられないのは、これらのモデルを、ウェアラブルのような、本当に低消費電力で低コストなデバイスに適している可能性のあるものまで小さくできているということです。ですからGemmaは、その全範囲を本当にカバーしているのです。
さて、これらは明らかに、私たちがお見せしてきたものすべてです。私たちには、Gemmaモデルと一緒に取り組んでいる開発者、ビルダー、企業の巨大なエコシステムがあります。それについて少しご説明するために、ガスに渡します。ありがとう、ガス。
Gemmaverseとファインチューニング
もちろんです。ありがとう。いいですね。かなりクールでしたよね。クールなデモがたくさんありました。来年のデモを作るためのインスピレーションがたくさんありますね。これはかなり良いことです。
そしてここに来るのにちょうど良いポイントですが、Gemmaverseとは何でしょうか。私たちはこれらのGemmaモデルを、コミュニティのため、エンタープライズのため、開発者がクールなものを作って、自分たちが作っているものを世界と共有するために打ち出しました。そしてアプリケーションを作るだけにとどまらず、モデルを共有すると、皆さんはそのモデルを改良し、モデルの振る舞いを変えることができます。これが私たちがGemmaverseと呼んでいるもので、人々がGemmaを基に作り続けるモデルのコレクションです。
今日の時点で、これは間違っていると確信していますが、5億回を超えるダウンロードがあります。間違っていると思うのは、実際にはもっとずっと多いはずだからです。これは数週間前の更新です。ありがとうございます。そして10万を超えるGemmaモデルのバリアントがあります。バリアントというのは、皆さんのようなコミュニティの誰かが、特定のタスクや言語などでモデルを改良したものです。後でいくつか例をお見せしますが、これらのバリアントを作っている人がたくさんいます。
ではどうやってそれをするのでしょうか。たいていの場合、モデルをファインチューニングします。モデルをファインチューニングするというのは、子どもがいたら何か新しいことを教えるのと同じです。モデルも同じ考え方です。新しい能力を教えたり、すでに知っていることを改良したり、振る舞い方を変えたりできます。失礼。これがファインチューニングです。ですから、モデルに自分のエンタープライズにより合った話し方をさせたいなら、そのためにファインチューニングするわけです。
昨日の開発者向けキーノートで、KevinはAntigravityを使ってGemmaをファインチューニングし、答えをもっと簡潔にしました。彼が言うには、答えが少しふわふわしすぎることがあるとのことです。私は同意しませんが、まあそれはそれとして。彼はもっと端的なものがほしかったのです。これは、おそらく100個か1000個の例でモデルをファインチューニングできることで、必要ならモデルはもっと端的になります。あるいは、新しい言語を教えるためにやることもできますが、これはずっと手間がかかり、しかも超クールです。こういった選択肢がすべてあるのです。
そして人々はGoogleでこれをやってきました。例えばMedGemmaのためにこれをやりました。MedGemmaは、昨年の私たちのモデルであるGemma 3を、ヘルスケア分野向けにファインチューニングしたものです。健康や、レントゲン写真や、こうした垂直分野にずっと特化した情報に、より関連した質問ができます。MedGemmaも利用できますので、ぜひ触ってみてください。今年リリースしたMedGemma 1.5がすでにあります。触って楽しんでください。私たちが用意しているバリアントの一つです。たくさんあります。
昨年リリースしたもう一つのバリアントはCell2Sentenceです。Cell2SentenceはGemma 3 27Bのバリアントで、がんの新しい治療法を見つけるのを助けています。これはかなりクールです。というのも、おお、がんを治せるのか、と思うかもしれませんが、いえいえ、これは治療法を見つける手助けをしているのです。これらの治療法はすでにテストされています。おお、いつかそこに到達するだろう、というようなものではありません。いえいえ、すでにテストされていて、もう良い結果がいくつか出ています。ですから、ただのおもちゃよりもずっと進んでいます。
それ以上に、私たちもいくつかバリアントを作りましたが、コミュニティはたくさんのバリアントを作りました。複数のバリアントを作ってくれた仲間がたくさんいます。ここにいくつか例があります。例えばCrane AI Labsです。彼らはGemma 3モデルを取って、スワヒリ語をもっとうまく教えられるようにファインチューニングしました。これは多くの人に影響を与えます。Gemmaは少しはスワヒリ語ができますが、彼らはもっとうまくできました。これによって、ずっと多くの人がLLMにアクセスできるようになります。あちらにはCEIAがいて、彼らとは一緒に取り組んで、ポルトガル語でさらに優れたバージョンを作りました。ポルトガル語は私にとってかなり大事なので、彼らと一緒に取り組めたのはとても楽しかったです。ほかにもたくさんあります。ウクライナにいる私たちの仲間であるePermitは、すでに政府でGemmaモデルを使って、手続きをより速くする手助けをしています。
ですから、Gemmaverseですでに役立っているバリアントがたくさんあるのです。そういうわけで、皆さんが次に何を作るのか、ぜひ知りたいと思います。可能性はとてもたくさんありますし、Gemmaは皆さんがもっとクールなものを作るのを助けるためにここにあります。今すぐ質問にお答えする時間はありませんが、私たち全員がこの後Q&Aセッションで前にいます。ですからぜひ質問しに来てください。喜んでお話しします。どうもありがとうございました。


コメント