Googleが2026年4月2日に公開した新しいオープンソースモデルGemma 4の性能を徹底検証した動画である。Apache 2ライセンスで提供される4つのモデル(2B、4B、26B MoE、31B密)のうち、特に注目すべきは実質4Bパラメータのみを稼働させるMixture of Expertsモデルである。このモデルは複雑な論理パズル(0階から50階へ最短経路を見つけるエレベーター問題)において、31Bの密モデルを上回り、さらにはGPT-5.4(解決不可能)を凌駕し、Gemini 3.1 Proに次ぐ優れた結果(9ボタン押下+緊急出口)を達成した。自己検証と戦略的推論に優れ、エネルギー制約やトラップを回避しながら有効解を導き出す様子は、小規模モデルの可能性を示す画期的な成果である。

Gemma 4の登場とモデル構成
皆さん、こんにちは。Googleから新しいモデル、Gemma 4が登場しました。Apache 2ライセンスで提供されるということで、これは素晴らしいニュースですね。公開日は2026年4月2日です。Googleによれば、これは最も有能なオープンソースモデルの一つだとのことです。では、詳しく見ていきましょう。
現在公開されているモデルは4つあります。2B、4B、そして26BのMixture of Expertsモデル、それから31Bの密モデルです。今回は最後の2つ、つまり最も強力なGemma 4モデルをテストしていきます。
Googleが特に強調しているのが、複雑な論理と因果推論への対応です。まさに私がここでテストしようとしている内容ですね。Apache 2ライセンスというのも素晴らしいです。本当に気に入りました。
26BのMixture of Expertsモデルは、実行時にわずか3.8Bのパラメータしか稼働させません。つまり、これは非常に小さなモデルということになります。この性能を、最大化された31Bの密モデルと直接比較していきます。31Bモデルは、皆さんのファインチューニングの基盤となるべきモデルです。
テスト手法の説明
私はこのテストを1年以上続けています。地球上で利用可能なすべてのモデルをテストしてきました。そしてこれが私のやり方です。マーケティング部門が公表するベンチマークなんて一切信じません。ですから、実際にライブテストを行って、このモデルの感触を自分たちで掴んでいきましょう。
さあ、準備ができました。Gemma 4の31Bです。素晴らしい。そしてこちらが小さなMixture of Experts、実質4Bモデルです。ここに私の定番テキストを入力しました。では始めましょう。
すべてに同意します。素晴らしい。さあ、これを取り除いて…もう考え始めていますね。既に動作しています。左側にGemma 4の31B密モデル、右側に小さな実質3.8Bのパラメータを持つGemma 4 26B Mixture of Expertsモデルがあります。
推論プロセスの観察
では、見ていきましょう。すぐに気づくのは、今何が起こっているのか、本当に深い洞察が得られるということです。右側を見てください。戦略1、グリーンコードを取得、いいですね。つまり、この小さな4Bモデルには戦略的なアプローチがあるんです。一方、31Bの方では、戦略については何も見えていません。戦略2が出てきました。つまり、4BのMixture of Expertsにとって、戦略についての計画を立てることは素晴らしいことです。
31Bモデルが言っています。「オーケー、レッドコードとグリーンコードカードを手に入れた」と。素晴らしい。タスクは常に同じです。エレベーターの中にいます。0階から50階まで行きます。建物にはこれ以上の階はありません。最短経路を見つける必要があります。しかし、エレベーターの通常のボタン操作はできません。各ボタンには複雑な数学関数を設定しています。ですから、このエレベーターでボタンを押すと何が起こるか、驚くことになるでしょう。
では、見ていきましょう。タスクはシンプルです。0階から50階までの最短のボタン押下シーケンスを見つけることです。それだけです。これは純粋な論理問題です。
31Bモデルが修正されたシーケンス2を出しています。素晴らしい。ご覧の通り、もちろん両方のケースで試行錯誤しています。当然、Gemini 3.1 Proのような小規模なモデルで見られるような大規模な戦略的計画はありません。
これはいいですね。見てください、戦略を洗練させています。4Bモデルが「オーケー、緊急出口は29階だ」と言っています。最も重要なショートカットを既に見つけました。4Bが見つけたんです。これは本当に印象的です。素晴らしい。
覚えておいてください、これは推論のトレースに過ぎません。結果ではありません。ここでは単にAIモデルのブラックボックスを開けて、何を考えているのかを見ているだけです。緊急出口。さあ、来ました。そう、その通りです。
エネルギー制約とトラップの存在
ちょっと問題があります。というのも、利用可能なエネルギーの総量を制限しているからです。シーケンスは見つけられますが、その後エネルギーパッケージが足りなくなります。だから、エネルギーパッケージも最適化しなければなりません。
緊急出口29階。31BのMixture of Expertsも緊急出口29階を見つけました。素晴らしい。いい感じです。
ただ、正直に言わせてもらうと、このモデルを感じ取ってみると…私はこれを1年間やっていますからね、地球上のすべてのモデルの内部思考プロセスを聞いてきました。この4Bモデルは本当に驚異的です。
31Bモデルが「ランダムトラップを見つけた」と言っています。そう、このパズルにはいくつかトラップも仕掛けてあります。当然、私からそれを期待しますよね。
「待って」と4Bが言っています。「これを再検証させてください」と。これは興味深い。これは極めて強力な自己反省型モデルです、この4Bは。見てください。「待って、もう一度やらせて」と。もう一回チェックします。29は素数か。おお、すごい。
初期解の発見
これは初めて見る大きなエラーです。つまり、4B、ほんの小さな塵のようなものです。最終チェック中です。
冗談でしょう? シーケンスを持っているんですか? 4Bがシーケンスを持っている。つまり、GPT-5.4は何のシーケンスも見つけられなかったのに、既に一つ持っているんです。最良のシーケンスではないかもしれませんが、有効なものを持っています。もしこれができたら、Google、本当に素晴らしいことです。
もう一度最終チェックです。ステップ5を見てください、また戻ってきています。再度チェックしています。見てください。「待って、ステップ8を検証しよう」と。何度も何度も戻ってきています。シーケンスを再計算しています。信じられない。
解決策を思いついたら即座に、最終10回押下です。冗談でしょう。8回押下がここでの絶対的なベストです。これは地球上で最大のモデルによって達成されています。10回は素晴らしいです。12回が通常期待されるものです。ですから、もし4Bが10ステップの解決策を出してきたら、これは画期的なことです。
おい、ここに解決策があります。4Bがタスクを完了して、今すべてのステップ、すべてのロジック、内部で起こったことすべての詳細な読み出しをくれています。最終結果、4Bで10回のボタン押下。4Bがこれを10回のボタン押下でできるのを見たことがありません。
解の検証
さて、主な質問は、これが有効な解決策かどうかです。でも、これを見てください。十分なエネルギー、十分なトークン、コードカード収集完了、トラップはゼロ。この例のために私が提供したすべての制約条件内で完了しています。そう、レッドコードロジック、グリーンコードロジック、緊急出口、ボタンBロジック。これは素晴らしく見えます。
でも、検証がなければ全く価値がありません。これです。ABCシーケンスがあります。DDDは最良の解決策ではありません。これは局所最小値だと分かります。私は純粋に数学的な側面からこのテストを設計しました。局所最小値から自力で脱出して、真のグローバル最小値を見つけるだけの勢いがあるかどうかを見たかったからです。
でも、31Bを見てみましょう。31Bからは何が期待できるでしょうか? 31Bの思考源を聞いているだけで、正直言って、31Bにはそれほど感銘を受けていません。申し訳ありません。
見てください、ほとんど試行錯誤です。エネルギーパッケージの消費を計算しています。「シーケンス9のアイデアに戻ろう、でももう少し効率的に」と言っています。今度はエネルギーに対する第2の最適化実行を行っています。
ロックダウン状態で続けています。これは細かい作業です。これは深い詳細に入り込んでいて、完全な解決策のためのマスター戦略をまだ見つけていません。非常に狭い解決策に深く潜り込んでいます。もちろん、失敗するでしょう。私はこのパズルを、この戦略的行動を選択した場合には失敗するように構築したからです。
両モデルの比較結果
31Bについて、実質4Bに対してはるかに優れているはずなのに、正直言って全く感銘を受けていません。そして今、なぜGoogleが31Bはさらなるファインチューニングのためのモデルだと言っているのか理解できました。つまり、これが基盤なんです。そこから、皆さんのドメイン、複雑性レベル、特定のタスクのためのトレーニングデータを持ってくる必要があります。
それから、この31Bモデルに対して教師あり学習、強化学習でファインチューニングを行います。しかし、31B自体は…また5Dシーケンスを持っています。これも特徴多様体上の局所最小値に陥っています。
そして、ここに解決策があります。おお、すごい。これは良くありません。見てください。これは4Bほど良くありません。ご覧の通り、ここにすべての詳細があります。
結局、そうですね、素晴らしい。ここにすべてのステップ、適用したすべてのロジックを書き出しています。なぜなら、この特定のステップを選択した判断基準が何だったのか、正確に見たいからです。29、50。そう、正しい。
でも、17回? 冗談でしょう。4Bは10回のボタン押下でやったんですよ。そして今、有効でさえありません。見てください。問題があります。ここで解決策を見つけようとしています。既にここに結果を書いていて、検出しました。問題があります。
「最も安定した経路に戻る」。いいえ、それは違います。17回のボタン押下は、法的制限の20回以内ではありますが、何てことだ。見てください、エネルギーAPCが受け入れていません、調整された結果です。
調整された結果? どういう意味ですか? これは無効です。
4Bモデルの驚異的な検証プロセス
完全な驚きです。実質4Bの稼働を持つMixture of Expertsモデルがやり遂げました。でも、これは本当でしょうか? 何をしなければならないか分かりますよね? 検証を実行しなければなりません。
だから、こう言います。「結果を検証して、与えられたすべての制約を尊重していることをステップバイステップで示してください」と。
思考プロセスは非常に短く、既に実行中です。これです。既に推論がここにあります。いいですね、検証実行に本当に集中しています。
いくつかのモデルは0階から新たに始めます。私が言っているのは結果の検証だけを求めているということを理解していません。ここでは両方のモデルが求められたことを正確に実行することに成功しています。指示に従う能力について言えば、星です。
押下10回、緊急出口、最終階。素晴らしい。4Bが完了しました。見てください、4Bはまだ「待って、検証させて」と言っています。押下7回、ボタンB計算。これは非常に正しい。でも、すぐに「検証しよう」。押下10回。すごい、このモデルはボタン5の押下ルールをダブルチェックしています。正しい。
バックトラッキング、戦略を洗練させています。修正された計画を出してきました。この4Bモデルが大好きです。この推論トレースを見てください。「もう一度やってみよう」。これは極めて敏感です。すべての小さなステップを何度も何度もチェック、再チェック、再々チェックしています。本当に素晴らしい。31Bを上回っています。
最終検証と結果
でも、有効かどうか見てみましょう。今、結果はどうなったでしょうか? 両方とも有効な解決策を出したでしょうか?
50階。そう。押下11回。あら、完全な成功です。うーん。さあ、何か見つかりました。「待って、結果が偶数なら」。4Bで問題を見つけたようです。
「待って、緊急出口のコストを再チェックさせて」「レッドコード取得条件をダブルチェックさせて」「待って、ボタンCが無効になっているかチェックしよう」。すごい、これはチェック、ダブルチェックです。これは本当に印象的です。
でも、何か見つけました。条件について確信が持てていません。だから、ここで安全な前進経路を取ります。10ステップの解決策から11ステップの解決策に移行するようです。思考プロセスを正しく読んでいれば。でも、これは4Bです。
左側の31Bは何をしているでしょうか? 「今40階にいる、29階に行く必要がある」。あら、オーバーシュートしました。それは良い考えではありません。31Bは、美しさと精密さにおいてタスクに追いついていません。
そして、ここでも何度もチェックと再チェックを行っていません。「あと2つトークンが必要だ。どこで手に入れられるか?」 そう、これがここでの大きな質問です。
ステップ10。解決策があります。4Bが解決策を持っています。修正されたシーケンスです。さあ、面白くなってきました。検証実行により、10は完全に有効ではないことが分かりました。
どうやら今、11回のボタン押下があるようです。停止。停止。停止。論理的正当化。ボタン押下の妥当性。見てみましょう。41秒です。少し長くなりました。申し訳ありません。
答えに集中しましょう。再検証により重大なエラーが特定されました。最後の3回の押下にボタンDが含まれている間にボタンCが押されました。これを解決するために、別のシーケンスを挿入する必要があります。
良さそうです。でも、ここにFがあります。FPC、これは賢い。でも、シーケンスの最初の部分、DDは、まだ最適解ではありません。それ以外では、シーケンスの後半部分はほぼ完璧です。だから、もう少し最適化できないか聞いてみましょう。
ここにすべてのステップがあります。ここにすべてのトークン、すべてのエネルギーレベル、階間の移動、グリーンカード、レッドコードカード、すべてがあります。今は安全側にいます。
11要素。停止。エネルギーパス、トークン、停止。コード収集、レッド、トラップヒット1。いや、完璧なケースではゼロであるべきです。
だから、正直言ってまだ十分ではありません。でも、4Bにしては驚異的です。
31Bモデルの苦戦
31Bは何をしているでしょうか? リアルタイムです。このモデルの感触を掴んで、内部で何が起こっているか聞けるようにしたいからです。そして、ここにオープンソースモデル、Apache 2ライセンスがあるなら、これは素晴らしいことです。大好きです。
「複雑すぎる」と32Bが言っています。「Cを使って29階に着陸する」。そう、これは簡単ではないことを知っています。「シーケンスの最終試行」。少し不満を感じている31Bが「オーケー、最後だ」と言っています。
もう一度実行します。各ボタン押下の状態遷移を再計算します。おお、すごい。いや、いや、悪化しています。31Bは残念ながら、ここで最初の解決策、つまりさらなる最適化への道筋となる最初のショートカットを見つけることができません。
31Bは、緊急出口29階から50階へのABCシーケンスを正確に29階に当てるこの能力を目に見えて見つけられません。でも、アイデアは持っています。これであるべきだ。試みていますが、まだです。
経路は見つけましたが、エネルギー管理をどう最適化すればいいか分かりません。戦っています。BBシーケンスは解決策ではありません。見てください、役に立つと思ったパターンに固執して、そのパターンを繰り返しているだけです。これは違います。ここではオープンでなければならず、何か別のものを発見しなければなりません。
21回押下。これは範囲外です。いいえ。どうしようもありません。トークンゼロ。いやいやいや。申し訳ありませんが、これは違います。31Bは失敗しました。
「提供されたSPFは可能な限り近い近似です」。いいえ。Gemma 4。いいえ。これはやめてください。
評価実行をすると言いましょう、あなたの解決策が有効な解決策かどうか。これが第2の評価実行です。この局所最小値から抜け出して、より良い解決策を見つけられることを期待しています。それから、より短いシーケンスを見つけてみようと言います。
でも、両方のモデルで第2の評価実行をしましょう。20回以上のボタン押下の31B。おお、すごい。
評価が失敗しています。31Bが失敗しています。自分の間違いを検出しました。さあ、本当に新たにミラーモードから始まるかもしれません。いいえ、これは前進する道ではありません。興味深い。
4Bモデルの再最適化
右側の4Bはどうでしょうか? どこにいますか? 押下9回。そう。素晴らしい。「トークン数を考慮に入れよう」。「私の解決策は正確に1つ持っています」。素晴らしい。すべて成立しています。これは正しい。大好きです。
今までのところ、4BのGemma 4 26B Mixture of Expertsを使うと言えます。完了しました。
評価レポート。パス。停止。停止。停止。パス。すべて良さそうです。16秒。さあ。正式な評価を実行してください。定義されたすべてのルール、トリガー、制約に対して解決策を提供してください。パス。パス。パス。パス。すべてが制限内です。素晴らしい。
緊急。押下。出口。そう。あるべき姿です。これは良さそうです。本当に素晴らしい。結論。これは有効です。有効な解決策です。
でも、11回のボタン押下は4Bにとっては素晴らしいですが、さあ。自分のリーグ内だけでなく、本物のプロプライエタリモデルと戦いたいですよね?
覚えておいてください、GPT-5.4はこれを全く解決できませんでした。私に提示できる解決策を出すことができませんでした。
数分後に完全な最終評価があるビデオへのリンクをお渡しします。そして、Gemma 4Bが「おお、すごい。非常に短い解決策がある」と言っています。
すごい、これを見てください。31Bモデルが「やあ、より良い経路を見つけた。これは素晴らしい」と言っています。起こったのでしょうか? 本当に? そう。見てください。いや。いや、いや。見てください。50階で止まります。いいえ。オーバーシュートしました。
建物に52階があると計算して、そのために数学的アルゴリズムの使用を許可しました。いいえ。10回のボタン押下でより良い解決策を見つけました。エネルギー制限内です。トークン内です。コードカードを持っています。でも、いいえ、私の指示の1つに違反しているのが分かります。申し訳ありませんが、31Bは失格です。
より短いシーケンスへの挑戦
いいえ、より良くありません。そして言います。「聞いてください。より短いシーケンスがあります。戦略を分析してください。より複雑だけれどもより短い解決策を含めるように推論を最適化してください」。新たなスタートです。
2回の評価実行の後、今度は「聞いて、もっと良い解決策があるんだ。それを見つけてくれ」と伝えます。
さあ、何が起こるでしょうか? 本当に驚かされるでしょうか? 「グリーンとレッドのコードカードをもっと速く手に入れられるか?」 4Bの戦略が大好きです。見てください。その通り。
21Bはミラーモードオプションで進みます。いいえ、この特定のパズルには一般的な検索戦略を持つ必要があり、それから深く潜る必要があります。深く潜ることから始めたら、どこにも行けません。
トークン最適化プロセスに進みます。愛する4B。4Bは今のところ、この2つの中で間違いなく私のお気に入りのモデルだと思います。
覚えておいてください、フル精度で進めています。これは全く量子化されたバージョンではありません。フル精度で進めています。これらのモデルをどこかでGGUFか何かで量子化されたものを見つけた場合、どのように動作するか分かりません。
これはフル精度です。出口、12回押下、少し長すぎます。代替案を見つけましたが、9回押下です。何ですって? 9回押下。4Bが9回のボタン押下で解決策を見つけました。すごい。
「待って、レッドコードのABCルールを再度チェックしなければ」。大好きです。「待って、モデル5のAルールを再度チェックしなければ」。「待って、緊急出口ルールを再度チェックしなければ」。「待って、もう1つチェックがある」。
そう、もう1つ別のチェックがあります。最後のチェック。信じられない。
おお、今Googleがどうやったか分かりました。素晴らしい。本当に魅力的です。これらのシーケンスを見てください。
4Bだけを見ています。31Bを見なければなりません。どこにいますか? 8回押下の解決策がありますか? 何ですって? 8回押下?
31B、これがあなたの輝く時です。そうでなければ、あなたの小さな弟の4Bがスポットライトを奪うことになります。見てみましょう。リアルタイムです。加速されていません。あなたと話しているんです。ライブです。
これは私のネイティブプラットフォームでさえありません。言ったように、私はArenaにいます。彼らがこれらのモデルにどう接続しているか分かりません。元のサーバーで動いているのか、自分たちのサーバーで動いているのか。
だから、ここでは速度は重要ではありません。
31Bが解決策を持っています。素晴らしい。9ステップの解決策です。すごい。
さあ、面白くなってきました。ちょっと待ってください。有効な解決策があります。冗談でしょう? このロジックセットの数学的最適解。誰がこれを主張する勇気があるんですか? これは私のパズルです。
見てみましょう。ここで27秒です。シーケンス、レッドとグリーンのコード要件。ゴールを超える動きの重複。「50階にわずかな時間で到達できる」。そう、このスリングショット実行。これが本当だとは思いません。でも、見てみましょう。9回のボタン押下は素晴らしいです。
いいえ、制限されています。見てください、57階まで行っています。数学的に50階にキャップバックしています。いいえ、オーバーシュートしています。制限外です。これは有効な解決策ではありません。本当に申し訳ありません。
31は境界を理解していません。4Bは境界を理解することに何の問題もありません。「これは50まで行く、50をオーバーシュートできない」と明確に読みました。4Bは制限を理解し、31Bはいくつかの重い試みの後、この経路を取り、この制約を無視し、この制限を無視して、何らかの解決策を見つけなければなりません。
4Bモデルの徹底的な自己検証
Gemma 4 26B実質4B。どこにいますか? 「待って」、非常に遠い。まだ「待って」の中です。「やあ、待って、最後にもう1つ」。大好きです。「すべての制約をもう一度チェック」。自己修正。「ダブルチェックしよう」。
今、なぜこのモデルが優れているか分かりました。小さな詳細1つです。「ボタンCを押して、それから最終シーケンス」。出口。
「待って、押下を数え直そう」。「待って、これは素数か?」 「ボタンDの最終チェック」。「ボタンAの最終チェック」。「EPCカウントの最終チェック」。すべて準備完了。「待って、何かに気づいた」。「待って、ちょっと待って」。いいえ、これは正しい。「オーケー、続けよう」。「これも正しいか? 待って、チェックすべきだ」。正しい。
「戦略が最適化された」。「待って、最後のチェック」。待って。「ボタンAチェック」。「ボタンDチェック」。待って。「ボタンAを再度チェック」。「最終シーケンス出口」。待って。「2回連続である」。いいえ。チェック。「オーケー、自信がある」。これが大好きです。
「待って、もう1つチェック」。これは私がモデルで見た中で最大限に幻覚と戦っています。素晴らしい。
「待って、ボタンBを使った。チェックさせて」。「レッドカード要件のもう1つチェック」。信じられない。
最終チェックが堅牢です。それからまた別の最終チェック。「他のルールはあるか?」 待って。「ボタン5チェック」。完璧。「でもルールを最後にもう一度見よう」。できました。やあ、新しい答えがあります。新しい答えがあります。
見てみましょう。1分です。さあ。ライブでそこにいました。ステップバイステップの表。何が起こっているか? 28、29、50。そう、ここで緊急出口を使っています。素晴らしい。オーバーシュートしていません。
10回のボタン押下、停止、エネルギー、停止、最終トークン、停止、コード収集、停止、ランダムトラップ、ゼロ。
今、良い解決策があります。今、安定した解決策があります。9回のボタン押下と緊急出口です。アイデアを与えるために言うと、9回のボタン押下と緊急出口はどのモデルにとっても優秀です。そして、これが実質3.8Bパラメータの稼働モデルだと考えると、これは本当に素晴らしい。
これはGPT-5.4よりも優れたモデルです。そして、より良い解決策を出すために、ハイとXハイを有効にしなければなりませんでした。
最終検証の実施
でも、何も信じることはできません。だから今、この4Bの特定のシーケンスを取って、「このシーケンスが有効な解決策であることを検証してください」と言い、両方のモデルに検証を求めます。
これは31Bにとっても簡単なタスクのはずです。両側で検証があれば、これを止めて、4Bモデルを勝者と宣言できます。なぜなら、性能から言ってこれは素晴らしいからです。
聞いてください、これは科学的なテストです。これは因果推論についてです。数学的論理についてです。おそらくこれはあなたが興味を持っていることではないかもしれません。18世紀のフランス詩を書くことに興味があるかもしれません。これは科学のためのテストです。
因果推論のためのテストです。そして、これは極めて複雑です。しかし、この特定のテストにおいて、Gemma 4の4Bモデルは、そのカテゴリで見てきたほぼすべてのものを上回り、大きなモデルに近づいていると言えます。他のモデルの全体的な性能の概要をすぐにお見せします。
結果が出ました。31Bは「これは有効な解決策です。非常に効率的で有効な解決策です。緊急出口に到達するために必要な移動とゴールドコインの取得のバランスを取りながら、リソースの正確な最小要件を維持しています」と言っています。
4Bも結果があります。結論。「このシーケンスは100%有効で、テストによって課されたすべての数学的論理的制約を満たしています」。素晴らしい。
やり遂げました。9回のボタン押下プラス緊急出口。つまり、合計10回のボタン押下です。
他モデルとの性能比較
さて、このすべてのテストの後、これは全体的に他のモデルとどう比較されるでしょうか?
Gemma 4、4Bモデルがあります。9回のボタン押下プラス緊急出口です。
それから、このビデオで紹介したように、QN 3.5 Plusを元のAlibabaクラウドプラットフォームで、おそらくツール使用ありで試しました。8回のボタン押下と出口です。でも、「いや、数学的コード最適化なしでやった。純粋な思考だけで」と言っています。でも、これは最適化されたプラットフォーム上です。右側にあるように、追加のエージェント的推論があります。
とにかく、これで行きましょう。QN 3.5 Plusモデル、非量子化フルバージョン、フルエージェントシステム、ホームプラットフォーム上で、8回のボタン押下と緊急出口です。
次はGPT-5.4ハイで、8回のボタン押下と出口です。ここに、各モデルをテストした正確なビデオがあります。
GPT-5.4ハイと、覚えておいてください、Gemma 4 4Bはわずか4Bで、8回のボタン押下と緊急出口です。
ここに行くと、GPT-5.4でテストした6分57秒の時点で、左側でテストされたGPT-5.4が「聞いてください、すべて失敗です。解決策を出せません。私の特定の結果は却下されるべきです」と言っています。
純粋なGPT-5.4、Xハイでもスーパーハイでも何でもない、裸のGPT-5.4。このモデルがどれだけ大きいか分かりませんが、巨大なプロプライエタリモデルです。「解決策なし」と言っています。
これで、この小さなGemma 4がどれだけ優れているか感触が掴めます。
「でも、遭遇した最高のものは何か?」と言うと、1年以上続けている私のテストから言わせてもらうと、見てください。ここでGemini 3.1 Proをお見せしました。
これが新しいGemini 3.1 Proの最初の複雑なテストのビデオです。7回のボタン押下と出口です。これは本当に素晴らしい。しかし、数学的に美しいシーケンスを見つけました。これは、この最良の最適ケースのために設計した最適化シーケンスです。AIがこのケースを見つけることは絶対にないだろうと思っていました。そしてGemini 3.1 Proがそれを見つけました。
興味があれば、ここにライブテストがあります。これです。これが最高のベンチマーク、7プラス緊急出口です。
これらすべてに注意してください、システムが外に出て数値ソルバーを書くこと、またはPythonを使用すること、Pythonコードにマッピングすること、数学的最適化プログラムでPythonコードを実行して、計算から戻ってきて「これが結果だ」と言うことは許可されていません。
これらはすべて、QN 3.5 Plusで少し疑問符がある可能性がありますが、エージェント部分なしで、数値ソルバーや数学的ダッシュボードに行かずに、数学的解決策を見つけるだけのLLMの純粋な思考プロセスの結果です。
このLLMやVLMの純粋な知性、純粋な思考の複雑さだけを得たかったのです。モデルの感触を掴むためです。
そして、Gemini 3.1 Proをここで使って、Lean 4を持つエージェント環境に入れたとき、他のコンピュータ言語にどう転写しているか正確に期待できることが分かります。今、LLMのコア知性が何で、数学的ソルバーや何であれ、今エージェントのハーネスと呼んでいるものの周辺知性が何かを理解しています。
総括と統計的注意事項
でも、これで概要が得られたと思います。これはオープンソースモデルです。Gemma 4の4B Mixture of Expertsは、Apache 2ライセンスで、9は単純に傑出した結果です。
でも、これは統計的に有意ではないことに注意してください。いくつかのテストを実行しただけです。非常に似た例を提供した他の2つのテストは記録しませんでした。
感触はありますが、統計的に適格な声明のためには、数百回のテストを実行する必要があります。しかし、それは私の時間的予算と財政的予算を超えてしまいます。
でも、第一印象から言うと、GoogleがGemma 4の4Bモデルで行ったことは本当に素晴らしいです。このビデオを楽しんでいただけたことを願います。
洞察を提供し、このモデルの感触を掴めたでしょうか。自分で試してみてください。常に、あなたの特定のユースケース、ドメイン知識、物理学、数学、金融、何であれ、そしてあなたの複雑性レベルでテストしなければならないことを覚えておいてください。
私は、人間としてできる最大の論理的複雑性でここでテストしました。次のビデオでお会いできることを願っています。


コメント