GoogleのGemma 4がAI業界に衝撃を与えた理由

GoogleがリリースしたGemma 4は、オープンソースAI業界に衝撃を与える画期的なモデルである。31億パラメータと26億パラメータのモデルは、最先端の推論能力を持ちながら、既存のフロンティアモデルの約10分の1のサイズという驚異的な効率性を実現している。Apache 2.0ライセンスの下で公開され、PC、ノートパソコン、スマートフォンなどの個人デバイス上で完全にローカル実行が可能だ。マルチモーダル対応、140以上の言語サポート、エージェント機能を備え、インターネット接続不要でプライバシーを完全に保護しながら使用できる。この効率性とアクセシビリティの革新は、オープンソースAIの未来を大きく変える可能性を秘めている。

Googles Gemma 4 Just Shocked The AI Industry

🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

Gemma 4の衝撃的なリリース
印象的なベンチマーク結果
驚異的な効率性
スマートフォンでの実行
スケーラビリティと効率性
ローカルでの使用方法

Gemma 4の衝撃的なリリース

Googleがオープンソース界を驚かせる発表をしました。Gemma 4のリリースについてお話ししていきます。GoogleがGemma 4をリリースしたので、まずはGoogleからの説明を聞いて、その後詳細に入っていきましょう。

こんにちは、私の名前はOlivierです。Gemmaチームのグループプロダクトマネージャーを務めています。最初のモデルをローンチして以来、開発者コミュニティには本当に驚かされてきました。4億回以上のダウンロード、10万以上のバリエーション。皆さんはGemmaを中心に活気あるエコシステムを構築してくれました。これ以上感謝の言葉はありません。

皆さんが次に何を求めているのか、非常に注意深く耳を傾けてきました。そして本日、Gemma 4を発表できることを大変嬉しく思います。Gemini 3の背後にある世界クラスの研究と技術から構築されたGemma 4は、スマートフォン、ノートパソコン、デスクトップなど、皆さんが所有するハードウェア上で直接動作するよう設計されたオープンモデルのファミリーです。

今回初めて、GemmaをオープンソースのApache 2.0ライセンスでリリースします。Gemma 4はエージェント時代に向けて構築されています。複雑なロジック、マルチステッププランニング、エージェントワークフローを処理でき、その知能に対してトークンを最適に活用します。大型モデルは最大100万トークンのコンテキストウィンドウで優れたパフォーマンスを発揮し、コードベース全体の分析やマルチターンのエージェント用途に対応できます。

ツール使用のネイティブサポートを特徴としており、皆さんの代わりに計画し行動するエージェントを構築できます。それではモデルファミリーを詳しく見ていきましょう。まず、26億のMixture of Expertsモデルと31億の密モデルがあります。これらはパーソナルコンピューター上で直接フロンティアレベルの知能を提供します。データを管理環境外にアップロードすることなく、最先端のローカル推論とコーディングパイプラインを実行できます。

26億モデルは38億の活性化パラメータで非常に高速である一方、31億モデルは出力品質に最適化されています。次に、最大限のメモリ効率を実現するために設計された実効2億と実効4億のモデルがあります。このモデルは、オーディオとビジョンを組み合わせたサポートにより、リアルタイム処理が可能なモバイルおよびIoTデバイスに全く新しいレベルの知能をもたらします。

これらのモデルは世界を見て聞くことができます。これら全てが140以上の言語をネイティブサポートしています。それでは、多言語タスクとエージェントタスクで実効モデルをテストしてみましょう。AJ、レストランを探してください。英語で返信してください。素晴らしい。勝者が決まりました。

オープンモデルが企業インフラの中心になるにつれて、セキュリティは最も重要です。Google DeepMindによって開発されたGemma 4は、プロプライエタリモデルと同じ厳格なセキュリティプロトコルを経ており、企業と開発者に信頼できる基盤を提供します。Gemma 4を既に知っていて愛用しているツールで使用できるようにしたいと考えています。今日から重みをダウンロードして実験を始められます。皆さんが次に何を作り出すのか、楽しみで待ちきれません。

印象的なベンチマーク結果

さて、最初に本当に注目して深く掘り下げたいのは、印象的なベンチマーク結果です。表面的には、これらのモデルは競合モデルほど印象的ではないように見えるかもしれません。それはもちろん、かなり普通のことです。実際に見てみると、これらのモデルがArena ELOスコアで低いスコアを示しているように見えても、混乱するかもしれません。

だからこそ、このモデルリリースは近年で最も見過ごされているモデルリリースの一つになるかもしれないと思うのです。たとえこれらのベンチマークを額面通りに受け取ったとしても、それほど重要だとは思いません。なぜなら、Gemma 4モデルの両方を見たとき、それらをパラメータで組み合わせて考えると、310億パラメータと260億パラメータです。

仮に570億パラメータのモデルがあるとしましょう。それでもGLM5の10分の1、Qwen 2.5の10分の1であり、本質的にフロンティア推論モデルの10倍以上効率的です。つまり、これらのモデルを個別に見ても、同等の品質レベルを維持しながら約20倍効率的です。これはオープンソース空間において状況を変えるものです。なぜなら現在オープンソースを見ると、これらのモデルの多くは別のプロバイダーから推論を行わなければならないという問題があるからです。

正直なところ、現在推論しているモデルは、相対的に見てもかなり安価で、それでも良いことですが、大量の作業を行っている場合は費用がかさむ可能性があります。特に完全にローカルで作業を行う必要がある場合はなおさらです。

驚異的な効率性

例えば、Gemma 4 31億モデルを見てみましょう。これは最も強力なモデルで、基本的にQwen 2.5 Thinkingと同等ですが、わずか310億パラメータのモデルです。つまり、自宅に十分なRAMがあれば、このモデルをGPU上で実行でき、第一にプロバイダーに料金を支払う必要がなく、第二に全てのデータをプライベートに保ち、第三に完全にオフラインで、これまで見たことのないような方法で完全に安全に使用できるということです。

だからこそ、これは非常に過小評価されていると言っているのです。本当に注目する必要があります。このチャート、モデルパフォーマンス対サイズのグラフは、さらに良く示していると思います。これはほとんどの人が話していないことだと思います。Googleがオープンソースモデルをリリースしたという事実だけではありません。文字通り今すぐダウンロードできるモデルをリリースしたという事実です。

もし疑問に思っているなら、私は文字通りそのチュートリアルを作成しました。リンクは説明欄にあります。しかし彼らは、基本的にQwen 2.5 Thinkingと同等の完全なモデルを作成し、今すぐダウンロードして、文字通りプライベートかつローカルで使用できるようにしました。つまり、現在、モデルパフォーマンス対サイズを比較したときに、これほど効率的なモデルは文字通り存在しません。

これはゲームチェンジャーになると思います。大幅にコストを節約できます。そしてこれは、未来がいかにクレイジーになるかを示していると思います。なぜならGemma 4は、Gemma 3以来大幅な改善を遂げており、このモデルがこれほど優れているなら、そして私はすでにこのモデルをテストしましたが、これはモデルがどれほどクレイジーになるかを見る上で、将来本当に興味深いことになるでしょう。

下位レベルのタスクでは、私たちができることのために、オンデバイスモデルをデフォルトで使用するようになるのではないかと思います。皆さん、これは推論モデルだということを覚えておいてください。そして実際に私はこのモデルを自分のスマートフォンでテストしました。Googleアプリを使用して、スマートフォン上でこのモデルを実際に使用できます。でもモデルは、スマートフォンでも使用できます。

スマートフォンでの実行

つまり、これは単にコンピューターやPCでローカルに使用するというだけではありません。現在ご覧いただいているのは、私のiPhone 15 Proで動作している40億パラメータ、正確には3.6GBのモデルです。これはかなりクレイジーです。なぜなら、それほど多くのRAMを使用していないからです。思っているほど使用しておらず、モデルは非常に小さいです。

それでも、得られるのは、大量のテキストで作業し、推論の難易度に効果的な、基本的に最もコストパフォーマンスの高いモデルと比較されるモデルです。このモデルには思考モードさえあります。つまり、ここでの最大のポイントは、これが基本的に実行したい新しいモデルスイートだということです。

つまり、私はこれをスマートフォンに入れています。もしインターネットが切れてLLMを使いたい場合、文字通りこのアプリを起動して、スマートフォンデバイス上でこれを使用できます。ご覧のとおり、これは完全にプライベートで、完全にオフラインで、完全に無料です。

そしてこれら全ての中で最もクレイジーなことは、これが単なる完全なチャットボックスモデルではないということです。これはネイティブマルチモーダルモデルです。つまり、このアプリには画像、動画、オーディオを文字通り使用できるエリアがあります。本当に印象的です。動画部分については実際にはよくわかりませんが、画像とオーディオは使用できることは知っています。そしてスマートフォンのいくつかの機能を制御できるほど賢いです。

スケーラビリティと効率性

これら全てを見ると、Gemma 4のスケーラビリティ効率性エリアは、本当に非常にクレイジーです。スマートフォンで実行でき、ノートパソコンで実行でき、デスクトップで実行できます。そして大型モデルでさえ、引用符付きで言いますが、思っているほど大きくありません。なぜならモデルは驚くほど効果的だからです。

そしてこれら全ての中で最もクレイジーなことは、これらのモデル全てが推論時にわずか20億、40億パラメータしか使用しないことです。つまり、非常に非常に効果的です。部屋があって、多くの部屋がある建物があるとしましょう。仕事を完了するためにいくつかの部屋に明かりをつけるだけで済むとすれば、それは非常に小さなフットプリントを意味します。つまり、実際に実行しているときでも、他のことを行うことができるということです。

もちろん、完全に古いデバイスをお持ちの場合は、少なくとも6から8GBのVRAMを搭載したスマートフォンを用意することをお勧めします。それが必要になります。古い古いデバイスは小型のものをいくつか実行できるかもしれませんが、それでも得られるものの観点から見ると、これはかなりかなり素晴らしいものになると思います。

特に260億パラメータのMixture of Expertsモデルは、ほとんどのタスクで完全に効果的です。310億パラメータは常にアクティブで、これは最高品質のために設計されています。量子化バージョンがあることを覚えておいてください。つまり、それらは基本的に同じレベルの品質ですが、サイズがさらに小さくなります。これはかなりクレイジーです。

これがオープンソースエコシステムをどのように変えるのか気になります。オープンソースがどれほど優れているか考えてみてください。他のオープンソースモデルを使用する魅力と興奮の多くは、安価であるだけでなく、優れているという事実でした。しかしGoogleはさらに一歩進みました。安価にし、優れたものにし、それだけでなく、サイズの違いを絶対的に素晴らしいものにしました。

つまり、Gemma 4 Thinkingが現在のように優れている場合、他のモデルを引き続き使用しますか、それともQwenなどの他のモデルを完全なワークフローで引き続き使用しますか。

ローカルでの使用方法

このモデルをダウンロードして実際にローカルで使用したい場合、デバイスで実際に使用する方法を示すガイドをお届けします。明日は、スマートフォンで実際に使用して完全にローカルで実行する方法についてのガイドをお届けします。この動画を楽しんでいただけたなら、Air Gridでした。次の動画でお会いしましょう。