GoogleがGemma 4をリリース これはすごい

Google・DeepMind・Alphabet
この記事は約9分で読めます。

Googleが新たにリリースしたGemma 4は、オープンソース・オープンウェイトモデルの最前線を押し上げる画期的な成果である。31億パラメータの密モデルと26億パラメータのMoEモデルを含む4つのサイズ展開で、業界標準のArena AIテキストリーダーボードにおいて世界第3位にランクインする驚異的な性能を実現している。特筆すべきは、DeepSeek V3やQwen 3.5といった数百億パラメータ規模の大型モデルに匹敵する性能を、わずか31億パラメータという小型サイズで達成している点だ。高度な推論能力、エージェントワークフロー対応、ネイティブな関数呼び出しサポート、マルチモーダル機能を搭載し、Apache 2.0ライセンスで商用利用も可能。エッジデバイス向けのE2BおよびE4Bモデルは、スマートフォンやRaspberry Piなどでオフライン動作し、ほぼゼロレイテンシーを実現する。オープンソースモデルが小型化・高速化・高性能化する流れを象徴する一作である。

Google just dropped Gemma 4... (WOAH)
Try Recraft V4 today! Start creating with professional-grade AI at The 25 OpenClaw Use Cases eBook 👇🏼https...

Googleの継続的なオープンソースへのコミットメント

Gemmaが登場しました。オープンソース、オープンウェイトモデルの最前線を押し進め続けているGoogleに大きな称賛を送りたいと思います。これを言えることが本当に嬉しいんです。なぜなら、すべての企業がこれをやっているわけではないですし、Googleほど一貫してこれを続けている企業もないからです。

そして今、彼らのGemmaファミリーの新バージョンが登場しました。そして、これは本当に素晴らしいんです。詳しくお話ししましょう。この動画はRecraftの提供でお送りします。詳細は後ほど。

Gemma 4の概要と特徴

Gemma 4、これまでで最もインテリジェントなオープンモデルです。高度な推論とエージェントワークフローのために特別に設計されています。もちろん、これを聞いたとき、何を思い浮かべますか? そう、OpenClawですね。Gemmaはパラメータあたりで前例のないレベルのインテリジェンスを提供します。

つまり、これらは巨大なモデルではありません。実際には比較的小型のモデルで、あなたのGPUにぴったり収まる完璧なモデルなんです。そして彼らは小型モデルからこれほど信じられない性能を引き出すことができました。私はしばらくの間これを言い続けてきましたが、オープンソースモデルは小型化し、より良くなり、より速くなっています。

だからこそ私は、エッジコンピューティングの大きな支持者であり、非常に強気なんです。最も難しいタスクには完全にホストされたフロンティアモデルを使用しますが、大多数のタスクについては、おそらく私たちの机の上にあるどんなデバイスでもコンピューティングを使えるでしょう。このハイブリッドアプローチにね。

性能比較とELOスコア

さて、性能をお見せしましょう。これは単なるELOスコアです。ベンチマークではありません。それについては後で説明します。

横軸は総モデルサイズ、つまり数十億単位のパラメータ数です。縦軸にはELOスコアがあります。探しているのは、できるだけ上に、そしてできるだけ左に行くことです。そしてご覧の通り、Gemmaはそれを見事に達成しました。

Gemma 31B密モデル思考版があり、そしてGemma 26億パラメータで4億の活性パラメータを持つ思考版があります。これはMixture of Expertsモデルです。どちらもELOで非常に高いスコアを記録しており、Qwen 3.5に似ています。

しかしQwen 3.5、それは397億パラメータで活性パラメータが170億のモデルです。これは巨大なモデルです。私は実行できますが、それは私がGB300を持っているからで、基本的に誰も持っていません。だからほとんどの人はそのQwen 3.5モデルを実行できないんです。

そして今、あなたは同等の性能を持ちながら、サイズがほんの一部のモデルを手に入れました。この31億パラメータモデルをローカルで実行できます。ほとんどの中級から高級の通常の消費者向けハードウェアで実行できるんです。

ここにGLM5が上位に来ています。Kimi K 2.5、これは私でさえ実行できません。GB300でも、約750GBの統合メモリを持っていても、Kimi K 2.5は実行できません。しかし1兆パラメータモデルの中に、31億パラメータモデルが信じられないほど良い性能を発揮しているんです。

そしてこちらにはDeepSeek V3.2思考版があります。これは巨大なモデルですが、それには遠く及びません。ところで、DeepSeek、どこにいるんですか? さあ、モデルを出してください。みんな待ってるんですから。

そして見てください。ずっと下の方に、GPT-4o OSS、さあOpenAI、次はあなたの番ですよ。

4つのモデルサイズと「効果的」パラメータの意味

Gemma 4には4つの異なるサイズがあります。効果的2億パラメータモデル、効果的4億パラメータモデル、26億のMixture of Experts、そして31億の密モデルです。

実は「効果的」という言葉を聞いたことがなかったんです。その用語が何を意味するのか分からなかったので、実際に調べる必要がありました。E2BとE4BのEは効果的を意味します。小型モデルは、オンデバイス展開におけるパラメータ効率を最大化するために、レイヤーごとの埋め込みを組み込んでいます。

モデルにより多くのレイヤーやパラメータを追加するのではなく、PLEは各デコーダーレイヤーに、すべてのトークンに対する独自の小さな埋め込みを与えます。これらの埋め込みテーブルは大きいですが、高速な検索にのみ使用されるため、効果的なパラメータ数はずっと少なくなります。

なるほど、そういうことです。ファミリー全体が単純なチャットを超えて、複雑なロジックとエージェントワークフローを処理します。私たちの大型モデルは、そのサイズに対して最先端の性能を提供し、31Bは現在、業界標準のArena AIテキストリーダーボードで世界第3位のオープンモデルとしてランク付けされています。それを見てみましょう。

GLM5、これは巨大なモデルです。Kimi K2.5、これも巨大なモデルです。そしてそこにあります。Gemma 4 31B、小型モデルですが、ほぼ同等の性能です。

Recraftの紹介

ところで、もしGemmaを商用目的で使用するつもりなら、素晴らしい画像生成も使えるビジネスを構築しているかもしれませんね。そこで、今日の動画のスポンサー、Recraftについてお話しできることを嬉しく思います。

複数の画像生成モデルで同じプロンプトをテストしましたが、Recraft V4がすぐに際立っていました。そして最も印象的だったのは、リアリズムではなく、センス、品質、そしてコントロールでした。

Recraft V4は短いプロンプトと長いプロンプトの両方を理解します。素早く一言で伝えることもできますし、探しているものを詳細に説明することもできます。そしてそれを手に入れられるんです。

照明、特定のポーズ、クリーンなタイポグラフィ、さらには複数言語でのテキスト生成を含む複雑な構成、すべて簡単にできます。そして独自のブランディングやUIコンセプトに取り組んでいる場合、結果は実際に完成品のように見えます。プロトタイプではなく。

Recraftでは2つの別々のモデルファミリーが得られます。フォトリアルなビジュアルのためのRecraft V4、そして完全にスケーラブルなSVGグラフィックスのためのRecraft V4 Vectorです。

デザインに真剣で、AIとワークフローに真剣なら、Recraft V4は素晴らしいです。強くお勧めします。ReCraft Studioを通じて使用できます。下にリンクを貼っておきます。彼らは素晴らしいパートナーです。ぜひチェックしてみてください。私たちの助けにもなりますし、素晴らしい製品です。

高度な推論とエージェント機能

さて、Gemma 4についての他の事柄をご紹介します。高度な推論。複数ステップの計画、深いロジックが可能です。素晴らしい。それはすでに知っていました。数学と指示遵守の改善。

エージェントワークフロー、関数呼び出しのネイティブサポート。そうです、これはあなたがエージェントに接続するモデルです。そう、OpenClaw、分かっていますよ、テストしますから。

構造化されたJSON出力とネイティブシステム指示により、異なるツールやAPIと対話し、ワークフローを確実に実行できる自律エージェントを構築できます。

コード生成。Gemmaは高品質なオフラインコードをサポートし、あなたのワークステーションをローカルファーストのAIコードアシスタントに変えます。

コーディングにおける現実的な用途

さて、正直に言いましょう。コーディングをしているなら、おそらくホストされたフロンティアモデルを使用しているでしょう。もし私がコードを書いているなら、地球上で最高のモデルを使いたいです。それはGPT-5.4か、私の好みとしてはOpus 4.6です。

でもローカルモデルでもコーディングはできますが、私にとってそれをする意味があまり感じられないんです。

また、すべてのモデルがネイティブに動画と画像を処理し、可変解像度をサポートし、OCRやチャート理解などの視覚的タスクに優れています。そして効果的モデルE2BとE4Bは、音声認識と理解のためのネイティブオーディオ入力を備えています。

これらは小さなモデルです。これらはこれに搭載されるように設計されたモデルです。

コンテキストウィンドウの制限

さて、少し物足りない点があって、これを見て少しがっかりしました。それはコンテキストウィンドウです。エッジモデルは128Kのコンテキストを備えています。まあいいでしょう。小型モデルについて考えているなら、128Kは予想通りです。

しかし大型モデルについては、わずか256Kです。本当はもっと多くを見たかったんです。

そして彼らはここで続けています。E2BとE4Bバージョンはモバイルデバイス向けです。推論中に効果的な20億と40億のパラメータフットプリントを持ち、RAMとバッテリー寿命を節約します。

Google Pixelチームや、Qualcomm TechnologiesやMediaTekなどのモバイルハードウェアリーダーとの緊密な協力のもと、これらのマルチモーダルモデルは、スマートフォン、Raspberry Pi、Nvidia Jetson、Orin Nanoなどのエッジデバイス全体で、ほぼゼロレイテンシーで完全にオフラインで動作します。

これらはローカルで動作するように作られており、これは単なる予測ですが、Appleデバイスでも見られるようになるかもしれません。

入手方法とライセンス

このモデルはどこでも見つけることができます。HuggingFace、vLLM、Llama.cpp、MLX、Ollama、Nvidia Nimsでダウンロードできます。LM Studio、Unsloth、他にもたくさんのオプションがあります。今日ダウンロードして、使い始めて、ファインチューニングを始めてください。私もそうしますよ。

そしてあなたの感想を聞かせてください。Gemma 4は商用利用可能なApache 2.0ライセンスの下でリリースされています。だから、どうぞ使ってください。

ベンチマーク結果

さて、いくつかのベンチマークです。Arena AIテキスト1452。それは見ました。MMLU、これは多言語で85.2%です。AME 2026が89%、覚えておいてください、フロンティアのAME 2026は100%に近づいています。

LiveCodeBench 80%、T2 Bench 86%、GPQA Diamond 84.3%。

そしてSteve VibeがTwitterでTool Call 15を全4つのGemma 4モデルで実行しました。そしてこれがその結果です。さあ、いきますよ。そしてこちらです。

ここで見えるのは、Gemma 4 31Bが完璧なツール呼び出しベンチマークでスコアを記録していることです。本当に印象的です。特にそのサイズを考えると、非常に優れたモデルです。

ダウンロードしてください。オープンソース、オープンウェイト。楽しんでください。それで何をするか教えてください。そして改めて、この動画をスポンサーしてくれたRecraftに特別な感謝を。下の説明欄にリンクを貼っておきます。

この動画を楽しんでいただけたら、ぜひいいねとチャンネル登録をご検討ください。それではまた次の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました