NVIDIA:新しいエラスティックAIモデル(5080以上対応)

NVIDIA・ジェンスンフアン
この記事は約25分で読めます。

NVIDIAが発表したNeatron Elasticは、1回の学習で複数サイズのAIモデルを同時生成する革新的なエラスティックAIアーキテクチャである。12億、9億、6億パラメータの推論モデルを単一の学習実行から抽出可能にし、ユーザーのGPU VRAMに応じて最適なモデルサイズを自動選択する。Mamba 2ブロック、MLP、Transformerを統合したハイブリッド構造により、従来の圧縮手法と比較して学習トークンを7.2倍削減し、メモリ使用量を42%低減することに成功した。重要層のランク付けと確率的弾性学習により、層の削除やニューロンの間引きを追加学習なしで実現し、科学計算や数学的推論タスクに特化した効率的なデプロイメントを可能にする画期的技術である。

NVIDIA: NEW Elastic AI Models (5080 up)
NVIDIA: AI Scaling is Compression. Mamba-2, MLP, Transformer. Achieving Optimal Efficiency via The "Many-in-One" Archite...

NVIDIAの革新的エラスティックAIアーキテクチャ

皆さん、こんにちは。お会いできて嬉しいです。今日はNVIDIAについてお話しします。NVIDIAは、皆さんのGPU VRAMの制限に適合する素晴らしい新しいモデルを発表しました。最新のNeatron elasticAIアーキテクチャについて話していきましょう。私のチャンネルDiscoveriへようこそ。ここでは最新の研究論文について議論しています。

さて、NVIDIAの研究者たちは、ここで12億パラメータの推論モデルの学習に成功しました。しかし、ここにはひねりがあります。その単一の学習実行により、9億パラメータモデルと6億パラメータの推論モデルも同時に生成されたのです。皆さんは「ちょっと待って、それは不可能だ。違う、私たちはそれらのモデルをそれぞれ独自のデータセットで個別に学習させるものだ」と言うかもしれません。しかし今、NVIDIAはこれらすべてを一つにまとめようとしているのです。

通常、エッジデプロイメント用に小さなモデルが必要な場合、私たちは何をするか知っていますよね。プルーニングを行い、プルーニングによって生じた損傷を修復するために大規模な再学習コストがかかるか、あるいは単純に教師・生徒モデルを作成して、生徒モデルをゼロから学習させます。素晴らしいですね。しかしNVIDIAが今、データセンターのAIモデルだけでなく、皆さんのコンシューマーGPUモデルにも複数のモデルを一つのモデルに統合しようとしている場合、利点があります。

しかし、もし必要な6億パラメータモデルが別個の存在ではなかったらどうでしょう。もし6億パラメータモデルが既に12億パラメータモデルの中に存在していて、レオナルド・ダ・ヴィンチのダビデ像のように大理石から彫像を取り出すかのように、ただ取り出されるのを待っているとしたら。彼らはそれをやり遂げたのです。

Neatron elasticは魅力的な論文です。誰もこれについて話していませんが、私はこれが大好きです。その理由を説明させてください。本日は2025年11月21日です。

Neatron Elastic:効率的な多対一推論LLM

Neatron elasticは効率的な多対一推論LLMです。通常のLLMがあり、次にMixture of Expertsの要素があり、そして今NVIDIAは完全に新しいエラスティックAIアーキテクチャを考案しようとしています。私はこれが印象的だと思いました。私のチャンネルの魅力をさらに向上させるため、皆さんのためにインタラクティブな可視化を構築しました。これにより、左側のMixture of Expertモデルと右側のNeatron elasticモデルの違いが明確に分かります。ぜひVRAM負荷に注目してください。こちらでは48GBが必要で、この出版物では12GBのモデルがあるとしましょう。

Mixture of Expertでは複数のエキスパートを持つことができます。例えば、1つのエキスパートは理論物理学、次のエキスパートは数学、次のエキスパートは化学、医学といった具合です。アイデアはお分かりですね。では、アクティブパラメータを見てください。60億パラメータで、総パラメータ数はエキスパートがロードされているが待機状態でスペースを占有している状態で470億です。

ここでエキスパートの数を増やすと、クエリの複雑さに応じてエキスパート1とエキスパート2をターゲットにし、これを増やすことができます。数値が上昇するのが分かりますね。今、アクティブパラメータは240億パラメータモデルになっています。総パラメータ数は470億で、VRAM負荷は同じ48GBです。そして何だと思いますか。より多くのエキスパートを活性化すればするほど、一般的な学際的科学知識へのアクセスが増えるのです。すべてのエキスパートが今働いているのが分かります。

今、私は420億の自由に学習可能なパラメータを持つアクティブパラメータモデルを手に入れました。総パラメータ数は同じ470億のままで、もちろんVRAM負荷は常に48GBです。つまり、たとえ複雑さが理論的には3つのエキスパートしか必要としない場合でも、巨大なモデル全体をダウンロードしなければならないということです。そして今、NVIDIAは「ここを再び改善しよう」と言っているわけです。再びVRAM負荷は12GBで、アクティブパラメータモデルは60億パラメータモデル、総パラメータ数も60億です。特定のモデルに対する未使用のウェイトは物理的にアンロードされます。ここの48GBのように完全なものをダウンロードするのではなく、エラスティックターゲットデプロイメントを備えた実際に小さなモデルをダウンロードするのです。

では見ていきましょう。シンプルな質問がある場合、この60億の自由に学習可能なパラメータモデルだけが必要です。しかしここを増やして、90億に進むとどうなるか見てみましょう。

アクティブパラメータは90億、総パラメータ数は90億でこのモデルをダウンロードし、VRAM負荷は今18になります。つまり12から18に増加します。そして、本当に強力なコンシューマーGPUをお持ちなら、さらに高くすることもできます。今、ここに完全な120億パラメータでダウンロードできる120億モデルがあり、VRAM負荷は今24GBです。

つまりNVIDIAがお客様のグラフィックカードが何か、またはデータセンターにいる場合はデータセンターでどのような構成が利用可能かを確認し、ここで最大のパフォーマンスのために異なる構成、異なるモデルサイズを選択できるセレクターを持つことができるのです。

これがどれほど大きなことか分かりますか。60億パラメータモデルの場合、Mixture of Expertのように完全なものをダウンロードする必要はなく、小さなモデルサイズだけで済むのです。NVIDIAによる素晴らしい革新ですね。そして彼らはMamba 2ブロック、多層パーセプトロン、Transformerアーキテクチャを統合しています。見てみましょう。これは今日既にHugging Faceで入手できます。連絡先情報を共有することに同意する必要があります。

かなり厳しいライセンスがかかっています。しかし2つのことに注目していただきたいのです。まず、先月のダウンロード数は33でした。それほど多くはありません。つまりコミュニティはこれを無視しているのです。しかし2つ目は、テンソルタイプがbfloat16であることです。これは興味深いことです。「何が起こっているんだ」と思うかもしれません。説明させてください。

層の重要度ランキングの仕組み

このインタラクティブな表現で私たちが何について話しているのかをお見せしたいと思います。Neatron elasticの層重要度ランキングについて話しています。では、60億パラメータコアから始めましょう。これが最も重要度の高い層です。これが論理エンジンの背骨と言えるものです。どうするかというと、L1からL20層までのシステムがあるとしましょう。

そして今、特定の事前学習、特定の事前学習データセットが与えられた場合、ここでルーチンに対して特定の層に特定の重要度値を割り当てるのです。例えば、事前学習で純粋に抽象的な数学データセットで学習しているとしましょう。素晴らしいですね。そして各層の重要度を特定できます。彼らはこれを行い、層20が90%の重要度を持つことが分かります。

19は95%の重要度です。そして彼らはここで80%以上の層を特定します。大体正しいでしょうか。ええ、大体正しそうですね。これらがあなたの特定の事前学習タスクの主要な論理層です。しかし生物学について何か尋ねた場合、これは大惨事になるでしょう。失敗します。これは機能しません。

つまり、高度に焦点を絞ったドメイン特化型の事前学習データ構成なのです。素晴らしい。そして「では90億モデルに進もう」と言います。重要度について、因果推論をさらに洗練させるモデルを追加します。この90億モデルは素晴らしく、これらが学習される層です。

しかしもちろん、120億パラメータモデルの完全な推論能力を持ちたい場合、Mamba 2とMLPとTransformerアーキテクチャが必要です。今、ここに追加できる細部があります。そして今、層1から層20が活性化されているのが分かります。しかし今、特にあなたの特定の学習セットに対して、どれがコア層か緑色で示されています。何が洗練層かピンク色で示されています。そして詳細について質問したい場合に必要な詳細層は何かが分かります。

基本的な質問だけがある場合、コア層だけで十分かもしれません。したがって、ルーターは今、クエリの特定の複雑さに対してどのモデルが最適化されているかを学習し、決定できるのです。これで非常に分かりやすい説明ができたと思います。最後の精度について話しましょう。

NVIDIAでこれが実際のデータです。Neatron elasticの60億モデルについて、研究で見られるように4つの特定のベンチマークでの推論精度は全体で約70%です。彼らは「60億のアクティブパラメータモデルについてはこれで、これは素晴らしい」と言っています。90億に進むと76%に達します。つまり、追加で活性化される洗練層があることが分かります。しかしもちろん120億に進むと、77.4%に達し、プラトーで飽和しているのが分かります。

このインタラクティブグラフで、このモデルがどのように機能するかについて小さな指標を提供できたことを願っています。ビデオに戻りましょう。

モデルの技術的詳細

ご覧のとおり、私たちのelastic 12億モデルは、NVIDIAが研究目的のみでデプロイしたLLMです。ハイブリッドアーキテクチャを使用しています。Mamba 2ブロックがあり、Transformerアーキテクチャのアテンション層と組み合わされたMLP層があります。そして彼らはわずか4つのアテンション層しか持っていません。

そして、なぜ彼らがシンプルに保とうとしているのか、すぐに分かるでしょう。彼らはこれをエラスティック推論からネストされたモデル抽出を可能にするように設計しました。見てみましょう。ベースモデルを知りたい場合、Neatron Nano 12億バージョン2で、高度な推論能力のために組み込まれています。そして私のチャンネルがこれをカバーする理由が分かりますね。数学的および科学的推論タスクに最適化されています。

科学の分野で働いている方は、これが注目すべきモデルです。そしてHugging FaceとNVIDIAで、すべてが利用可能です。問題なく試すことができます。しかし、ここで主な新しいアイデアを理解しましょう。彼らにはいくつかの全く新しい革新があります。さて、NVIDIAはもちろんデータセンター向けの会社です。

ここでコストを削減し、現在AIで適用しているすべての従来の圧縮方法と比較して、学習トークンで7.2倍の削減を達成するこのような新しいAIモデルを見つけることが不可欠です。さらに通常の90億および120億チェックポイントと比較して42%のメモリ削減があります。トークンで7.2倍の削減、そしてメモリ削減が42%です。

NVIDIAが独自のモデルを構築している理由がお分かりいただけたと思います。興味深いことに、これらすべてのモデルとサブモデルは、親モデルとウェイトテンソルを共有しています。そして今から驚愕の事実をお伝えします。これは追加の学習やファインチューニングなしに、デプロイメントフェーズ中にゼロショットで抽出できるのです。

つまりNVIDIAがここで1つの巨大で印象的なモデルを構築することに成功すれば、すべての小さな子モデルはゼロショットで抽出できます。学習なし、ファインチューニングなし、何もなしです。そして自宅で24GBや32GBのRAMを持つNVIDIA GPU用に、お客様のGPUに自動的に最適化できるのです。どうやってやったのでしょうか。ここから興味深い部分に入ります。

技術的革新の詳細

彼らはMamba 2ブロックのためのグループ認識SM弾性化を設計しました。これはMambaの構造的適合性を保持します。MLPボードについても弾性化があります。お見せしましょう。そしてこれは本当に素晴らしいのですが、Transformerパートについては、改善された深さ選択のための正規化MSEベースの層重要度があります。さらに同時マルチバジェット最適化を可能にする知識蒸留があります。説明すべき新しいことがたくさんありますが、この新しい論文の核心的主張は、推論モデルから層全体を削除できるということだと思います。

Mambaヘッドを削除したり、切り落としたり、MLPを圧縮したり、Transformer層を存在から削除したりできます。より小さなモデルが必要な場合です。「いや、それは不可能だ。密なネットワークだ。ヘッドや層やニューロンをただ削除することはできない。モデルが幻覚を起こすか、単純にクラッシュするだろう」と言うかもしれません。いいえ、違います。

そして「これをどうやって可能にしたのか。これは数学的、技術的にどうやって可能なのか」と言うかもしれません。見てみましょう。かなり時間がかかりましたが、私はビデオで論文をプレゼンテーションするつもりはありません。論文を読んで、理解してから戻ってきてください。なぜなら今から私の個人的な考察をこの論文について提供し、よりシンプルな説明を提供するからです。魔法と言えるものがあります。

彼らは残差ストリームをはるかにより強力に活性化させます。現代のAIアーキテクチャは、TransformerでもハイブリッドMambaブロックでも、Y=f(X)のように層を通して順次データを処理するのではありません。追加でXが入ってきて、入ってくるXの層があります。美しいですね。そして弾性性のアイデアにより、残差ストリームが超高速道路として機能します。Transformerで既に何年も持っていたこのスキップ接続が、今では再利用されているのです。

これらの層は今や単にデータを処理してそれをマージして戻すオフランプになっています。したがって、Neatron elasticルーターまたはルーターがたとえば層5が不要であると判断した場合、例えば自宅に小さなNVIDIA GPUしかないか、データセンターが最大パフォーマンスのピーク性能にあり、モデルを削減する必要がある場合、これを行うことができます。なぜなら、モデルの層5を切り取ることを決定できるからです。

数学的に、層はここで単純にゼロになります。方程式はお見せしたように恒等関数に崩壊します。データは今、残差ブリッジを越えて層4から層6へシームレスに流れます。計算の接続性の問題に対処しました。

つまり、テンソル形状、ウェイトテンソル形状に隙間がなく、計算できるのです。しかし意味論的には、大きな問題があります。いいえ、違います。構造的にはテンソルは適合します。しかし層6は層5から高度に処理された特徴入力を期待していました。つまりこれが層5がある理由です。そして突然、この例のように層4からの生の特徴を与えた場合、層6はゴミを出力するはずです。

これが、すべての標準的なプルーニング技術が追加のファインチューニングを必要とする理由です。モデルを再びファインチューニングしなければなりません。今、Neatron elasticはこれを事前学習フェーズ中に解決します。彼らは新しいアイデアを見つけ、これを確率的弾性性と呼んでいます。これがハイブリッドなMamba 2とMLPとTransformerアーキテクチャであることを思い出してください。

彼らは「これをMambaからTransformerまでの3つの各コンポーネントだけでなく、ハイブリッドシステムでも実行できる」と示しています。しかしこれには大規模な事前学習が必要です。しかしあなたがNVIDIAなら、コンピュータインフラストラクチャについて誰が気にするでしょうか。学習中、特別なGumbel Softmax関数を介して最適化されたこの学習可能なルーターが、層をランダムにオンオフ切り替えます。そしてこれは学習フェーズ中に何千回も起こります。例を挙げましょう。

ステップ1では、層5がアクティブです。したがって層6は、層5から入ってくるレベル5の特徴を処理することを学習します。ステップ2では、層5がスキップされます。今、層6は層4の特徴を直接受け入れることを強制されます。そしてすべての可能な組み合わせ、すべての可能な層の切り替えと層の削除などをオンオフ切り替えると、新しい学習パターンが得られます。

これにより、層6のテンソルウェイトがより多言語的、またはバイリンガル、またはマルチリンガルになることを強制します。つまり、ここで彼らは入力抽象のさまざまなレベルに対して堅牢になります。これは事前学習データで起こります。後からこれを行うことはできません。さて、私は最初のコメントが自己修復ネットワークについて触れているのを見ましたが、これはナンセンスです。

ネットワークは実行時に自己修復することはできません。なぜなら、事前学習フェーズで、異なる入力パターンを学習するように訓練されたからです。了解。忘れてください。つまり、これは単にアーキテクチャの深さで層をスキップすることだけではなく、幅でも縮小しているのです。「なんてことだ、どうやってこれが起こるんだ」と思うでしょう。NVIDIAはここですべてを出し尽くし、「AIは多かれ少なかれ、テンソル構造や行列構造などの掛け算に過ぎない」と言っています。

最も単純な例では、サイズ4k×4kのウェイト行列Wがある場合、60億モデルは今、特定のサブセット、サイズ3k×3kの厳密な左上サブ行列を使用します。これは事前学習フェーズで、最も重要なニューロンがそこに位置するように構築されています。つまり、60億モデルが90億モデルの内部にあると言う場合、文字通りこれを意味します。テンソル構造の観点から、これがまさに起こっていることです。

ウェイト行列4k×4kがあるとします。了解しました。アルゴリズムは今、正規化平均二乗誤差を使用して、事前学習におけるすべてのニューロンの重要度をランク付けします。特定の事前学習データセットに対する最も重要なニューロンです。シンプルな数学問題で学習しているとしましょう。次に少しより複雑な数学問題で、次に理論物理学の課題で。これらの特定のタスクに対して、すべてのニューロンの重要度が評価され、記録され、この弾性最適化の一部になります。

そして何だと思いますか。しかし既に示したように、事前学習学習によって与えられた重要度によって、最も重要なニューロンがソートされ、それらは今、テンソルの左上のインデックスにソートされます。これは数学的観点から美しい階層を作成します。なぜなら60億のコアは、論理の背骨だからです。

これはモデルが何かをするために持っていなければならない最も重要なウェイトです。そして90億は、人間の脳について考えてみると、皮質は今、コアプラス洗練されたウェイトを含んでいます。そして120億は完全なすべて、完全な脳、すべてプラスニュアンスやいくつかの本当に重要な詳細を扱うテールウェイトです。

したがって、90億モデルは60億とは異なるウェイトを選ぶのではありません。どこかでこれも読みました。より多くのウェイトを選ぶだけです。さらに、推論を増やすためにより多くのウェイトを選びます。しかし「一体全体、これを1回の実行でどうやって学習するんだ。冗談でしょう。層をマスクしなければならない。Mambaヘッドをマスクしなければならない。MLPを圧縮しなければならない。

そして今、これを行列乗算で行わなければならない。」と思うかもしれません。NVIDIAは、それを実現したようです。さて、これについて考えてみてください。通常、Chain of Thoughtについて私は約100本のビデオを持っています。それらは数千トークンだけを必要とし、研究者はバジェットを均一にサンプリングした場合、60億、90億、120億を均等に学習すると、苦戦している小さなモデルからの勾配更新が、より大きなモデルのファインチューニングを圧倒し、これが単純な効果をもたらすことを発見しました。120億モデルがより愚かになったのです。

達成したかったことと正反対です。では解決策は何でしょうか。何ができるでしょうか。NVIDIAは解決策を見つけました。彼らはこれを2段階カリキュラム学習と呼んでいます。見てみましょう。短いコンテキストのステージ1では、8kのシーケンス長で均一なサンプリングを使用すると彼らは言います。

ルーターにAIアーキテクチャを安定化させます。この文について考えてみてください。これは本当に強力な新しいアイデアです。しかしもちろん、推論フェーズを実装する必要があります。なぜなら科学を行う場合、短いコンテキストだけではないからです。いいえ。NVIDIAはここで49kのシーケンス長まで引き上げました。そして今、魔法、美しさ、何と呼びたいにせよ、それが来ます。

彼らは今、これら3つの異なるモデルに適用する特定のサンプリング確率を持っています。120億モデルでは半分です。90億では3分の1、そして60億では20%です。なぜでしょうか。考えてみてください。このマトリョーシカの原理、ロシア人形の原理があれば、それらはすべて同じ内部コアテンソル構造を使用します。科学タスクのための複雑な推論フェーズ中に120億モデルを優先することで、小さなモデルが親モデルの高品質勾配の恩恵を受けることができるようになります。

そしてNVIDIAが言うには、このカリキュラムが、60億モデルがChain of Thoughtを壊すことなく既に少し複雑な数学を扱える唯一の理由です。達成したことは、120億モデルがより愚かにならず、より知的になり、60億モデルが120億モデルの学習をどう言えばいいのでしょうか、活用するということです。なぜなら120億モデルのコアは、同一のテンソルウェイトを持つ60億モデルだからです。

そして今、すべての学習ケースの50%でこれらのテンソルウェイトも学習されます。このアイデアは分かりますか。とてもシンプルですが、とても美しいのです。初めて私に起こったとき、私は「数学的フレームワークでこれがどうやって起こるのか本当に理解していない」と言いました。

「私がこれをコーディングできるように、数学を書き出してくれますか」と。そして2度目に見たときです。今、学習ループに120億モデルを今示したように50%の時間選択させることを強制することで、完全な脳に難しい推論データを扱わせています。了解。しかし完全なモデルが難しい推論タスクを見ます。より多くの層、より多くのニューロンを持っています。より良い事前学習データセットを持っています。

扱える複雑さのレベルが高いです。ロジックを理解すると言いましょう。それで今、より高品質の勾配構造とテンソルウェイトのより正確な調整を計算します。しかし120億モデルは、60億モデルも使用するコアウェイトをここで更新します。いいえ。120億モデルがバックプロパゲーション更新を行うとき、何が起こりますか。外側のニューロンをここでチューニングします。

120億専用のニューロンも、すべてのMamba 2、MLP、Transformerアーキテクチャでチューニングします。しかしもちろん、60億コアである内側のニューロンもチューニングします。したがって、この特定のステップ中に60億構成がアクティブでなかったとしても、そのウェイトはとにかく改善されました。なぜなら同じテンソル構造と本当に同じ同一のウェイトを使用するからです。120億モデルの後ろを引きずられたのです。

120億モデルは60億モデルの道を滑らかにし、60億モデルが自分自身では決してできなかった方法でコアロジックを修正しました。これを理解する複雑さを持っていないのです。興味深いことに、60億モデルを120億モデルのロジックで改善しました。なぜなら同じコアウェイト構造を持っているからです。

120億、90億、60億モデルを1回の実行で、1回の本当に複雑な実行で学習するなんて、何とエレガントな方法論でしょう。間違いないですが、1回の実行です。事前学習プロセスで120億モデルを優先することで、共有ウェイトが利用可能な最も賢い知能、または120億モデルによって最適化されることを保証し、今まですべての学習演習で起こっていたように、愚かな構成が共有プリントを破損するのを防ぎます。この学習ループを見てみましょう。

学習ループの理解

これが私の理解で、もし間違っていたら、コメントで訂正してください。この新しいNeatron elasticのMamba 2、MLP、Transformerのための形状変化学習ループがあります。1000ステップの単一実行で考えてみましょう。シンプルに始めましょう。データのバッチが到着します。数学問題があり、ルーターが決定を下します。「120億モデルでいこう」と。

モデルは通常の120億モデルとまったく同じようにすべてのパラメータを活性化します。そして結果は、ウェイトが高レベル推論のためにより賢くなります。さて、2番目のステップで、システムが60億モデルを学習することを決定します。今、システムは特定のマスクを適用します。外側の層を一時的に盲目にし、モデルは60億バージョンになります。蒸留のため、知識蒸留のために、重要なリンクがあります。

120億の教師モデル、つまりマスクなしの完全なモデルを実行する必要があります。なぜなら正しい答え、小さなモデルが達成できない高複雑度の答えと、答えがどうあるべきかを知りたいからです。そして60億の生徒モデルマスク実行がデータを実行し、ここで結果を推測しようとします。

しかし共有ウェイトへの更新の最適化を行うとき、60億の生徒が120億の教師モデルのウェイトのようになるように行います。つまり60億の実行がありますが、この実行の後、別の最適化器がこれを見て言います「さあ、60億のウェイトを120億の教師ウェイトにもう少し近づけよう。なぜならこれが私たちが探している解決策だからだ」と。

そして60億のウェイトが物理的に120億のウェイト内に位置しているため、ステップ2で60億モデルを更新するたびに、120億モデルも部分的に学習していることになります。120億モデルもこれらのテンソルウェイトを使用するので、このアイデアが好きです。さて、よりシンプルなケースに戻りましょう。

ここでNVIDIAは、パラメータあたり2バイトの特定の精度、16ビット精度を使用しており、16ビットフォーマットのBfloat16を使用しています。なぜ量子化しないのでしょうか。通常8ビット量子化を使用しますが、彼らは16ビットを使用しました。なぜでしょうか。なぜNVIDIAはこれを行ったのでしょうか。彼らはここで、ハイステークな推論、推論研究、Chain of Thought能力、ベンチマークテスト、数学テスト、AIM 2425において、研究者は研究中に量子化を避けたと言っています。なぜなら量子化は丸め誤差を導入するからです。

通常、丸め誤差に対しては、導入する量子化の品質低下のための誤差予測コードを持つ方法論があります。しかし今、モデルはかなり集中的な事前学習を実行しています。50ステップの論理的推論だけを実行する場合でも、ステップ10での最も小さな丸め誤差でさえ、ステップ40に達するまでに幻覚へのカスケード効果を持つ可能性があります。

NVIDIAは、60億のNeatron elasticモデルで良好なパフォーマンスを得るため、16ビット、Bfloat16データ構造の分離変数を使用することにしました。量子化アーティファクトのノイズなしに、エラスティックアーキテクチャが機能することを証明するため、または量子化のための最適化を試みるためです。まず、機能することを証明しなければならないのですが、彼ら自身も8ビットアーキテクチャを使用していることを知っていますが、16ビットアーキテクチャに固執しているということは、行列乗算のすべての複雑さにこの精度が必要であることの明確な指標です。

これは興味深いことです。なぜなら一方でモデルサイズを小さくしようとしていますが、出力の品質を達成するため、少なくともこの研究フェーズでは16ビットエンコーディングを使用したと彼らは言っているからです。NVIDIAは、2バイトを選んだ理由は、これがゴルディロックスゾーンだからだと言っています。

メモリに収まるほど小さいが、このモデルが科学モデルであるか、少なくともより複雑な推論を解決する能力を持つモデルであるべきことを考えると、モデルを愚かにしないほど正確なのです。アイデアを提供するために、4バイトがある場合を考えてみましょう。完全なFP32を使用する場合、この標準精度は120億モデルで約48GBを取ります。

次にNVIDIAはこのバリアントを使用しましたが、もちろん1バイト、Integer 8まで下げることができます。ここでは非常に低い精度ですが、利点は12GBしか取らないことです。私のコンシューマーGPUカードに収まるかもしれませんが、今行っている複雑さを考えると、非常に低い精度です。

これはNVIDIAがゴルディロックスゾーンに行くことを決めた方法ではありません。興味深いです。8ビットではなく、16ビットです。慎重にです。また、かなり多くのNVIDIAコンシューマーGPUが24GBのVRAMを持っていることもうまく合致していると思います。したがって、この特定のNeatron elasticモデルは、24GBまたは32GBカードで実行できるでしょう。

つまり、AIクライアント、あるいは中小企業にまで降りてくるのです。明確にしておくと、エラスティックAIアーキテクチャは美しいものであり、本当に挑戦的なものです。そして私はこの論文が本当に興味深いと思いました。なぜなら、エラスティックであるように新しいAIアーキテクチャを設計することで、ここでかなり多くの新しい革新、残差ハイウェイ、サブマトリックスサンプリング、カリキュラムベースのルーティングを使用したのが分かります。NVIDIAは本当に単一のアーティファクト、ユーザーのハードウェアに適応する単一のLLMを作成できます。24GBのVRAMしかない場合でも。

革新の短い要約が必要な場合、構造的革新、意味論的革新、次元的革新があります。構造的には、残差ストリームで、アーキテクチャの層を削除すると、単純に恒等関数に変わります。そして残差ストリームを使用することで、これを機能させることができます。確率的学習により、層n+1の6が、n-1の出力を見たときに混乱しないことを保証します。

したがって、これらのスキップ接続を持つことができ、縮小された次元性、順序付きスライシングについては、常に乗算可能なサブマトリックス、左上隅を確実にします。これは、典型的な低ランク適応に進む場合に本当に興味深くなりますが、これについてはフォローアップビデオで詳しく説明します。この論文を読む場合は、見てください。私が思うに、本当に美しく行われているのは、Mamba 2層のグループ認識弾性化方法論です。なぜなら、Transformerで行うように、Mamba層のニューロンをランダムに削除することはできないからです。

Mamba 2は、ハードウェア効率のためにここで厳密なグループ状態空間モデルの構造に依存しているからです。グループアラインメントを壊すと、すべてのCUDAカーネルがここで失敗します。すべての計算命令がなくなります。したがって、もちろんNVIDIAは、高速CUDAカーネルのためにここで最適化するのに最適な場所であり、彼らは本当に素晴らしい方法でそれを行ったと思います。彼らはここでグループごとのマスキング技術を発明しました。

ルーターはかなりシンプルです。ルーターはブロックマスクを適用することを強制され、ヘッド全体をオフにすることができるか、特定のグループのすべてのヘッドにわたって特定のチャネルを均一にオフにすることができます。そしてNVIDIAは「機能している」と示しています。本当に素晴らしい詳細です。

量子化なしで、新しい出現する今後の柔軟なエラスティックAIアーキテクチャについて学びたい場合、これを強調したいのですが、これは本当に重い科学的なものです。これはソーシャルメディアのAI的なものではありません。これは本当に科学AIです。これは未来への絶対に魅力的な視点です。Mambaについて確信が持てない場合、それについて学びたい場合、私にとっては1年前ですが、私のチャンネルに複数のビデオがあります。

Mamba AI S6、DPOアラインメントでMamba S6を最適化およびファインチューニングする方法です。ここではコードを見ていきます。数学に少し興味があり、Mamba S6の数学からベクトル場へ進みたい場合、この特定のビデオがあります。なんと1時間です、了解、あなたのためです。

またはハイブリッドMamba Transformerアーキテクチャに興味がある場合、これがあなたのためのビデオです。または特にBlackwellテンソルコースに興味がある場合、Mambaトークンのモデルがあります。11ヶ月前、私はここでMambaトークンのモデル、NVIDIA HAモデルをやりました。つまり、そこには多くの新しい情報があります。彼らは新しいAIモデルを構築しようとしています。機能していないのが分かります。

しかしもちろん、そこにあるのは、特にGoogleとGemini 3 Proで、ここのインフラストラクチャで起こっているTPU革新の美しさでもあります。そしてこれは、TPUアーキテクチャについて、NVIDIAの完全に反対側について学びたい場合、詳細な今後のビデオになるかもしれません。気に入っていただけたら幸いです。もしかしたら登録してくれるかもしれません。

もしかしたら私のチャンネルのメンバーになってくれるかもしれません。とにかく、次のビデオでお会いできることを願っています。

コメント

タイトルとURLをコピーしました