Nvidiaの新しいNemotron 3 Nano – エッジ向けの推論LLM！

この動画は、Nvidiaの軽量推論モデル Nemotron 3 Nano を取り上げ、その性能、設計思想、学習レシピ、そしてWebGPU上での実用性を検証する内容である。4Bという比較的小さなモデルでありながら、オンデバイス用途に強く最適化され、ブラウザ内で動作する点が大きな特徴として語られている。一方で、幻覚やベンチマーク上の見え方への留保も示されており、最先端モデルの代替というより、効率性やファインチューニング適性を重視する用途で注目すべきモデルとして評価されている。

Nvidia's NEW Nemotron 3 Nano - Reasoning LLM for the Edge!

🔗 Links 🔗❤️ If you want to support the channel ❤️Support here:Patreon -

NvidiaのNemotron 3 Nanoとは何か
ハイブリッド構造と設計思想
ベンチマークと推論モデルとしての特徴
Qwen 3.5との比較に対する率直な見方
Nvidiaが公開した学習レシピの価値
最終段階の調整内容
学習方式の追加情報
想定されるユースケース
WebGPUでの実演
一般知識の応答速度
簡単な計算デモ
中国系モデルとの比較と立ち位置
推論オフ時の挙動
古典的な機械学習タスクでの実用性
2026年時点で見た総評

NvidiaのNemotron 3 Nanoとは何か

このNvidia Nemotron 3 Nano、40億パラメータのモデルは、オンデバイスのユースケース向けとして本当にかなり優れたモデルです。にもかかわらず、このモデルについて語っている人はほとんどいません。そしてこのモデルは、オンデバイス利用に向けて強く最適化されていて、WebGPU上で動かせるようになっています。つまり、量子化された状態のこのモデルをブラウザ内に読み込んで、インターネット接続がなくてもチャットできるということです。

この動画では、この特定のモデルについて学んでいきます。そのうえで、WebGPUでこれがどのように動くのかもデモでお見せします。まず第一に、これはわずか40億パラメータのモデルです。40億パラメータでありながら、NvidiaはBF16、つまり bfloat16 と、GGUFのチェックポイントも公開しています。なので、公開されているチェックポイントは3種類あります。

ハイブリッド構造と設計思想

このモデルはハイブリッドモデルです。この場合のハイブリッドとは、2種類の異なるアーキテクチャのハイブリッドを意味しています。MambaとTransformerのアーキテクチャです。MambaはSSM系のタイプを指し、Transformerアーキテクチャは、昔からあるLLMで見てきたあのTransformerのことです。つまりこのモデルの考え方としては、効率性と精度の両立を目指して設計されているということです。

ベンチマークと推論モデルとしての特徴

このモデルをいくつかのユースケースで使いたい場合、特定のベンチマークではかなり良い結果を出しています。まず、命令追従性能で、IFBenchやIFEvalで評価されています。それから、モデルには十分に高い知能もあります。さらにこれは推論モデルでもあります。ですので、内部のchain of thoughtを使わせるような使い方もできます。

このモデルサイズとしては、おそらく必要なVRAMフットプリントが最も低い部類ですし、同サイズ帯の中ではTTFT、つまり最初の1トークンが出るまでの時間も最も短いです。これらのベンチマークはRTX 4070上で測定されていて、Q4の量子化版をLlama CPPで動かしたときの結果です。

ただ、このベンチマーク上のモデル性能について言うなら、これはあくまで私個人の意見であり、実際にテストした感想ですが、このモデルは少しベンチマーク寄りに最適化されすぎているようにも感じます。最近のリリース全般に見られる傾向でもある気がします。

Qwen 3.5との比較に対する率直な見方

ここにNemotron 3 Nano 4BとQwen 3.5 4Bが見えます。私はQwen 3.5をかなり使い込んできましたが、ベンチマークに出ている数字以上に、Qwen 3.5のほうが実際にはずっと良いモデルだと感じています。なので、Nemotron 3が悪いモデルだとは思いませんが、Qwen 3.5より優れているとまでは、私は到底言えません。Qwen 3.5ではかなり良い成果を得てきたからです。

ここを見ると、このモデルはIFBenchで実際に10ポイントほど上回っていますし、IFEvalでもQwen 3.5より1ポイント上です。そのほかのベンチマークでも、このモデルがQwen 3.5を上回っているものがあります。

Nvidiaが公開した学習レシピの価値

このモデルの特に良い点のひとつは、Nvidiaが学習レシピまで公開していることです。最近ではこういうものはあまり見られません。Nvidiaは、ポストトレーニング用データセットも、事前学習用データセットも共有しています。つまり、このモデルの学習に使われたデータセットはすべて公開されていて、私たちがそのまま利用できる状態です。さらに、このモデルをどのように学習させたのかというレシピまで公開されています。

まず第一に、これは蒸留モデルです。90億パラメータのモデルを使って、このモデルを蒸留しています。つまり、90億パラメータモデルを圧縮したバージョンです。ここを見ると、90億パラメータのモデルを使い、まず短いコンテキストで圧縮して、distillation checkpoint 1を作っています。その後、8Kから49Kへとロングコンテキスト化しています。これが2つ目の蒸留チェックポイントです。

そこから教師ありファインチューニングを行っています。ポストファインチューニングでは、80％が推論あり、20％が推論なしになっています。さらに少し安全性重視のファインチューニングも入り、そのあとで強化学習も行われています。ここではRLVR、つまり verifiable rewards を用いた強化学習が使われています。そして、2つ目のRLVRチェックポイントもあり、最終的に私たちが使うモデルに至ります。

最終段階の調整内容

最終モデルでは、シングルターンおよびマルチターンの命令追従、構造化出力のファインチューニング、マルチターン会話、ツールコーリングといった調整が施されています。こうした工程を経て、最終的に今のモデルができあがっています。

正直に言うと、私にとって最も興味深いのはモデルそのもの以上に、このレシピです。もちろんモデル自体も多くのユースケースには十分良いのですが、それ以上に、Nvidiaがここで共有しているモデル開発レシピこそがいちばん重要で、いちばん面白い点だと思います。

学習方式の追加情報

さらに詳しい説明として、このモデルはMutron Elasticと呼ばれる仕組みで学習されていて、そこにはエンドツーエンドで学習されたルーターがあります。そのルーターがどのように意思決定しているのか、そういったことも確認できます。枝刈りがどう行われるのか、蒸留がどう進むのか、どのような段階を経ているのかといったことを、純粋にモデル開発の観点から見ていくことができます。

想定されるユースケース

純粋なモデル性能だけで言えば、これは基本チャットを含めてさまざまな用途に使えると思います。たとえばカスタマー向けのチャットボットを作りたい、与えるコンテキストは限定的でよく、そのうえで会話させたいという場合には、これを使ってよいと思います。

ただ、エージェント用途やコーディング用途を主な目的としてこのモデルを使うことは、私はあまり勧めません。

WebGPUでの実演

このモデルの見せ方として、WebGPU内でどう使うかをお見せします。リンクがあって、Hugging Face上にホストされています。そこへ行ってリンクをクリックすれば、そのままチャットを始められます。最初だけ約2GBのモデルをダウンロードしますが、次回以降はキャッシュから使われます。

なので、2GBのストレージがある場合だけ試してください。これは完全にブラウザのインスタンス内で動いていて、インターネット接続も必要ありません。

ここでは、映画Tenetのあらすじを入力して、それを要約するように頼んでいます。画面を見ていると、いくつか気づく点があります。まず第一に、モデルは47秒考えました。先ほど言ったように、これは私のブラウザ内で完全に行われていて、インターネット接続なしです。そこがいちばんすごいところです。そして毎秒およそ47トークンを生成しました。あとでデモもお見せします。

ただ、問題点もあります。要約自体はかなりうまくできていたと思います。ここでは長い文章、つまりプロット全体を与えて要約させたのですが、仕事としては悪くありませんでした。ただ途中で幻覚が出始めました。たとえば思考プロセスの途中で、主人公をTom Cruiseと呼び始めたのですが、これは完全に間違いです。この映画にTom Cruiseは出演していません。

それに、TenetのことをTenSetと呼び始めたりもしました。なぜなのか分かりません。創業者のJensen Huangに忠実なんでしょうか。理由は分かりませんが、そういう微妙な癖がいくつかあります。ただ一方で、これはかなり強く量子化されたうえでWebGPU内で動いているモデルでもあるので、こういうことが起こる理由は理解できます。

それでも、一般的なチャット用途であれば、このモデルは十分まともな仕事をしていると思います。

一般知識の応答速度

たとえば、世界でいちばん大きい動物は何かと聞いてみます。推論をオフにして送ると、世界最大の動物はシロナガスクジラですと返してきます。つまり、基本的なWikipedia的知識を扱うような用途には使えます。

たとえば、子ども向けのおもちゃを設計して、その中にこのモデルを組み込みたいとします。そういう場合には、これはかなり扱いやすい候補だと思います。簡単に組み込めますし、ブラウザ内でもかなり高速です。

簡単な計算デモ

もう一度質問してみます。今度は推論をオンにして、40……いや、これはうまくできないかもしれませんが、とりあえず見てみましょう。24×2を計算してもらいます。ここでは44トークンで、ちゃんと正解の48を返してきました。

ご覧のとおり、生成速度は十分速いです。TTFTもかなり優秀です。そして私は、このモデルはファインチューニングしやすいモデルになると思っています。ここもまた、このモデルが他の多くのモデルに対してかなり強い優位を持っている点だと思います。

中国系モデルとの比較と立ち位置

もう一度言いますが、私は少し偏っているかもしれません。そこは本当にすみません。ただ、中国系モデル、たとえばQwen 3.5に対して、これがそれ以上の大きな優位だとは私は言いません。

ただし、中国系モデルを使いたくない場合、US系のモデルだけを使いたい場合、とくにNvidiaのGPUやNvidiaマシンに強く最適化されたモデルを使いたい場合には、これはかなり選びやすい候補になると思います。とりあえず触ってみて、モデルの雰囲気をつかむには良いです。

推論オフ時の挙動

もう一度試してみますが、今度は思考をオフにして、幻覚が減るかどうかを見てみます。私の感覚では、多くのモデルは思考プロセスをオンにすると、深く考えに行くせいで幻覚が増えることがあります。では、あらすじを3行で要約してと頼みます。送信します。

思考プロセスをオフにしました。するとモデルが動き始めて、WebGPUモデルで毎秒42トークンというのはかなり良い数字です。そして、予想どおり、思考プロセスをオフにしたときには幻覚が出ませんでした。

これは多くのモデルで見られることです。推論をオンにすると、モデルは必要以上に推論しなければならないので、かなりひどい出力になることがあります。推論をオフにすると、TTFTも速くなります。推論そのものをしていないからです。そして、多くのケースでは、今回のように古典的なNLPタスクに対して、モデルはかなり良い仕事をしてくれます。

古典的な機械学習タスクでの実用性

もうひとつデモをお見せします。このモデルが古典的な機械学習タスクに対してどれくらい良いかという話です。ここで文章をひとつ選んで、visually dazzling と入力します。それからこちらに戻って、あなたは映画レビューの感情分類器です、positive、negative、neutral、score、text をJSONで返してくださいと指示します。

本来これはポジティブなレビューです。すると、positiveでスコア85と返してきました。

次に同じことをしますが、今度はかなり悪い内容を書きます。visually dazzling なパズルではあるが、期待したものをまったく提供せず、またひとつの失望作だった、というような感じです。ここにネガティブなキーワードをいくつか足します。

すると、negativeを返してきました。文章の中にはポジティブな表現も入っているのに、それでも全体をnegativeと判断しました。こうした古典的NLPタスク、つまり大量にバッチ処理したいような仕事であれば、このモデルは十分に使えます。この量子化レベルでも能力はしっかりしていて、良い仕事をしています。

2026年時点で見た総評

ただ、2026年現在のLLMを前提に考えて、最先端モデルをこれで置き換えたいかというと、そういうモデルではありません。先ほども言ったように、いちばん面白いのはファインチューニングの部分です。そして、これをWebGPU上で動かせるという事実も非常に面白いポイントです。

全体として、これは素晴らしいモデルだと思います。先ほど言ったとおり、使えるチェックポイントは3種類あります。Nvidiaマシンのような環境で動かすなら、bfloat16 を使えますし、フル精度のFP8もあります。そして、CPU上や量子化環境で動かすならGGUFを使えます。

Nvidiaとしては、これをJetsonハードウェアで使ってほしいのでしょう。正直なところ、私はそのハードウェアを持っていません。Nvidiaがテスト用にくれたこともありません。でも、もしDGX SparkやJetsonデバイスを持っているなら、使ってみる価値はあります。

これは本当に良いリリースだと思います。特に、ハイブリッドアーキテクチャであること、そして開発レシピ全体を共有していることを考えると、なおさらです。私はこのモデルをさらに試していくのをとても楽しみにしています。皆さんがこのモデルをどう感じたか、コメント欄でぜひ教えてください。それではまた次の動画でお会いしましょう。Happy prompting.