ローカルAIモデルで何でも構築する方法

本動画は、ローカルコンピュータ上でAIモデルを実行する方法を包括的に解説する技術ガイドである。クラウドベースのAIサービスへの依存から脱却し、プライバシーを保護しながら無料でAIを活用できる「ローカルAI革命」の到来を告げる内容となっている。LM Studioを使用した具体的なセットアップ方法から、オープンソースモデルの選び方、量子化やハイブリッドアーキテクチャといった技術的概念、さらには実践的な活用テクニックまで、初心者から上級者まで段階的に理解できるよう構成されている。特にNVIDIAのNemotron 3 30Bモデルを例に、最新のMamba-TransformerハイブリッドアーキテクチャやMixture of Expertsといった先進技術についても詳述し、ローカルAIが既に実用レベルに達していることを実証している。

Build anything with Local AI Models, here's how

Learn about the best AI Business models here - Editors, I'm hiring! Apply here:

ローカルAI革命の到来
ローカルAIモデルを使う理由
最適なローカルAIモデルの選び方
LM Studioのセットアップ
Nemotron 3の技術的優位性
LM Studioの詳細設定
キーボードショートカットと実践的な活用

ローカルAI革命の到来

私の名前はDavid Ondreです。ローカルAIモデルをインストールして実行する方法をご紹介します。今、私たちはローカル革命を目の当たりにしています。AIが非常に速いスピードで改善されているため、コンピュータ上で非常に優れたモデルをローカルで実行することが可能になりました。

それでも、ほとんどの人はまだローカルモデルを使用しておらず、ChatGPTを使うことをデフォルトにしています。このビデオでは、ローカルモデルとは何か、なぜ非常に人気が高まっているのか、そして実際にどのように使用するのかを学びます。ですから、最後まで必ず視聴してください。

このグラフを見ていただくとわかるように、最先端のフロンティアモデルと、ローカルで実行できるオープンソースモデルとの間のギャップは小さくなっています。つまり、ローカルで実行できるモデルは、おそらく1年前の最先端モデルと同じくらい優れているということです。これは、ローカルモデルの実行を始めるのに、今ほど良い時期はないことを意味しています。

でもDavid、ローカルモデルって何ですか?それは、自分のマシン上でローカルに実行できる任意のAIモデルです。マシンとは、あらゆる種類のコンピュータを意味します。スマートフォン、ノートパソコン、PC、冷蔵庫、トースター、何でも構いません。CPUまたはGPUを持つものなら何でもAIモデルを実行できます。

つまり、コンピュータが強力であればあるほど、ローカルで実行できるAIモデルの数が増え、より強力なモデルを実行できるということです。でも、なぜローカルでAIを実行することについてもっと頻繁に聞かないのでしょうか?なぜもっと主流になっていないのでしょうか?

その答えはシンプルです。大手テック企業や主要なAI研究所は、単にあなたにこのことを知られたくないのです。それは単純に、エッジコンピューティング、つまりスマートフォン上でローカルにAIモデルを実行することが、すべてのハイパースケーラーにとって最大のリスクだからです。エッジ上で実行することをエッジコンピューティングと呼びます。

エッジコンピューティングは、すべてのハイパースケーラーにとって最大のリスクなのです。彼らの現在のビジネスモデル全体は、クラウドを通じて彼らの知能、つまり彼らのAIモデルをあなたに貸し出すことに依存しています。しかし、ノートパソコン上で無料で実行できる十分に強力なAIをローカルに持っていれば、その月額20ドルのサブスクリプション市場は完全に消滅してしまいます。

ローカルAIモデルを使う理由

さて、あなたはこう思うかもしれません。「でもDavid、なぜわざわざローカルAIモデルを使うのですか?」最初の理由は、あなたのデータがあなたのものであり続けることです。AIモデルをローカルで実行すると、すべてのプロンプトとデータ、コンテキスト、添付するファイルがマシンから離れることはありません。それらはあなたのコンピュータに留まります。

これは、クラウドベースのAIサービスを使用する場合とは根本的に異なります。クラウドベースでは、送信するすべてのデータがLLMで処理するためにリモートサーバーに送られなければなりません。なぜなら、LLMはあなたのコンピュータ上で実行されていないからです。それはどこかのスーパーコンピュータ上で実行されています。だからこそ、ローカルモデルは機密性の高い作業、あなたが持つ可能性のある独自のコード、あるいは単にプライバシーとセキュリティを重視する人にとって理想的なのです。

もう一つの大きな理由は、無料だということです。コストは0ドルです。なぜなら、ローカルレイアウトモデルをセットアップすれば、これから数秒後にその方法をお見せしますが、送信するすべてのクエリ、すべてのプロンプトが完全に無料だからです。1つ送ろうが100万個送ろうが関係ありません。APIの料金もなく、トークンの制限もなく、月額サブスクリプションもありません。

もしあなたがAI業界にいるなら、サブスクリプションがすぐに積み重なることを知っているでしょう。特に、月額100ドル、200ドルといった高額なティアを使用する場合、そして特に複数のモデル、Claude、Grok、Gemini、ChatGPTを使いたい場合は、本当に高額になり得ます。また、マシン上にローカルでモデルがあれば、オフラインで動作します。

つまり、インターネットが落ちても、ローカルモデルは動作し続けます。私は文字通り、飛行機に乗るたびにこれをやっています。MacBook上に複数のモデルをローカルにダウンロードしており、コーディング、ブレインストーミング、概念の学習に使用しています。その飛行機の他の全員に対する大きな不公平なアドバンテージです。

全体として、最悪のシナリオにおいてこれらのモデルを持っていることは単に有用です。しかし、これらは明白なポイントです。ローカルモデルを使用したい理由は、もっと微妙で高度なものがたくさんあります。

まず、モデルのバイアスがあなたに有利です。今、すべての主流AIモデルには明確なイデオロギー的アジェンダが組み込まれていますよね?ほぼすべてのAI研究所がサンフランシスコに拠点を置いています。注意を払っているなら、サンフランシスコには非常に特定の世界観があり、それはおそらくあなたがAIモデルやあなたの子供たちに持ってほしくないものです。しかし残念ながら、人気のあるAIモデルはそれらの信念を持っています。

ローカルモデルは異なります。ファインチューニングできます。検閲を解除できます。誰もあなたのコンピュータからそれらを削除することはできません。誰もあなたの知らないうちにシステムプロンプトを変更することはできません。簡単に言えば、モデルはあなたのものであり、あなたが気づいていない隠れたバイアスはありません。

また、それらをファインチューニングして、ローカルモデルのファインチューニングされたバージョンに変えることができます。ご存じない場合のために説明すると、ファインチューニングされたモデルは、特定のタスクで優れた性能を発揮するために、特定のデータでさらにトレーニングされたAIモデルです。

それはあなたのスタイルで書くこと、自分自身の法律アシスタントを持つこと、会社のデータに基づいて自社のカスタムチャットボットを構築することなど、ファインチューニングには100万通りの異なる使用例があります。そして、ほとんどのローカルモデルはオープンウェイトです。つまり、モデルの重み、パラメータにアクセスできるということです。これがファインチューニングを可能にします。

パラメータを変更し、重みを変更して、モデルがファインチューニングしている新しいデータに特化できるようにする必要があります。ちなみに、ファインチューニングについての完全なビデオをここで作りました。このビデオの後にそれを見てください。

最適なローカルAIモデルの選び方

では、現在ローカルで実行するのに最適なAIモデルは何でしょうか?最も簡単な確認方法は、このウェブサイトartificialanalysis.aiにアクセスすることです。これはArtificial Analysisで、複数の異なる項目、速度、価格、出力、レイテンシなどでAIモデルを比較する独立したベンチマークプラットフォームです。

上部のモデルに移動してオープンソースモデルに行き、それをクリックすると、すべての異なるオープンソースモデルとそれらがどのようにランク付けされているかを見ることができるページに移動します。今のところ、Qwen QwQ 32Bが全体的に勝っています。しかし、Qwen QwQ 32Bは実行できません。なぜなら、それは1兆パラメータのようなものだからです。

ですから、私たちはこれらの中型モデル、小型モデル、極小型モデルに興味があります。説明すると、極小型モデルは皆さん全員が実行できます。最新のiPhoneのような良いスマートフォンを持っていれば、おそらくスマートフォンでもこれらを実行できるでしょう。

しかし、小型と中型ではもっとトリッキーになります。小型モデル、これはまともなノートパソコンを持っている場合ですね?40億パラメータから400億パラメータです。これらはClaude 4.5 OpusやGPT-5.2と比較すると超小型ではありませんが、それでもかなり小さいです。

しかし中型モデル、これは強力なマシンが必要なところです。少なくとも5,000ドル、7,000ドルのコンピュータが必要です。良好な速度でこれらを実行できるようにするには、マシンに少なくとも48または64GBのVRAMが必要です。そしてここでは、GPT4o-mini-12Bが現在最高です。

しかし、これをお見せしている理由は、これが常に変化しているからです。文字通り毎週、オープンソースの新しい強力なAIモデルがリリースされています。ですから、今何が最高かを伝える代わりに、Artificial Analysisに行き、自分のマシンで実行できるカテゴリーをチェックし、異なるメトリクス、知能、評価、異なる特定のベンチマークで現在何が最高かを確認するというリソースを持っていてください。

そうです、たくさんあります。だから下にリンクしておきます。では、実際にローカルでAIモデルを実行することに移りましょう。

LM Studioのセットアップ

まず、実際にローカルで実行できるツール、それらをダウンロードして使用し、対話できるツールが必要です。最良のオプションの1つがLM Studioです。ちなみに、これはスポンサードではありません。単に素晴らしいツールなのです。

ホームページに来ると、ChatGPTが持っているのと基本的に同じものをすべて持っていることがわかるUIを見ることができます。そして、GPT-4o、Qwen、Gemma、DeepSeekなど、さらに多くのモデルから選択できます。完全なリストを見たい場合は、上部に移動し、モデルをクリックして、スクロールするだけです。

ローカルで実行できるモデルがたくさんあります。とにかく、ホームページに戻って、ダウンロードをクリックしましょう。さあ、どうぞ。インストールがダウンロードされたら、それをダブルクリックして、LM Studioをアプリケーションフォルダにドラッグするだけです。

明らかに、Windowsを使用している場合、セットアップは少し異なりますが、アプリをダウンロードできるなら、LM Studioも文字通り同じです。初めてこれを行う場合は、手順を説明するウィザードがあるかもしれません。だから、それらをクリックするだけです。特別なことは何もありません。他のアプリと標準的です。

ただし、初めてLM Studioを使用する場合は、間違いなくユーザーモードになっているでしょう。下部を見ると、アプリには3つの異なるモードがあります。ユーザー、パワーユーザー、開発者です。明らかに、開発者は最も多くのオプションを提供し、ユーザーは最もシンプルで直感的です。

このビデオでは、開発者モードでアプリを使用する方法をお見せします。どのモデルを使用しているか気になる場合、100万のコンテキストウィンドウ、エージェント機能を持ち、24GBのVRAMしか必要としないオープンソースローカルモデルは1つしかありません。そのモデルはNemotron 3 30Bです。

これはNVIDIAのNemotron 3モデルファミリーの一部であり、オープンソースモデルです。Mixture of Expertsを備えたハイブリッドMamba-Transformerアーキテクチャを利用しています。これを分解してみましょう。

Nemotron 3の技術的優位性

Transformerは、すべてのAIにおいて最も重要なアーキテクチャです。それは2017年の元の「Attention is All You Need」論文から来ています。これはGoogleで発明され、これがLLMの本当のブレークスルーを引き起こしました。

Mambaはモデルのための異なるアーキテクチャであり、このNemotron 3というモデルファミリーはそれらを組み合わせています。だからこそ、MambaとTransformerのハイブリッドアーキテクチャなのです。しかしその上、それはMixture of Expertsです。

これは、すべてに応答する単一のモデルではないことを意味します。代わりに、モデルは異なるエキスパートに分割されており、それぞれが専門化されています。例えば、1つは数学、1つは言語、1つは創造性、1つはプログラミングといった具合です。クエリに基づいて、必要なエキスパートだけをアクティブ化できます。

つまり、8つあるとして、8つのエキスパートすべてをアクティブ化する必要はありません。代わりに、最も関連性の高い3つまたは4つだけをアクティブ化します。これにより、より小さなマシン、より性能の低いマシンでより大きなモデルを実行できます。なぜなら、すべてのクエリですべてのパラメータや300億パラメータをアクティブ化する必要がないからです。

そして今、Nemotron 3 30Bは、最も強力な小型オープンソースモデルだと言えるでしょう。繰り返しますが、これは1週間か2週間で変わる可能性があります。だから、Artificial Analysisをチェックしてください。そして、7つか8つの異なるベンチマークでのパフォーマンスは次のとおりです。

チャット、数学、指示追従、ツール使用、コーディング、コーディング、そして長いコンテキストがあり、基本的にこれらすべてで最高です。GPT4o-mini-20BやQwen 2.5 32Bよりも優れています。だから、Nemotron 3 Nano 30B、これはアクティブなパラメータが30億しかないことを意味しますが、今の時点で非常に強力なモデルです。

コンピュータで実行できるなら素晴らしいです。これはChatGPTができることの90%を実行できます。では、Mamba-Transformerアーキテクチャについてもう少し説明させてください。なぜなら、これは本当に興味深い部分であり、ほとんどの人が高度な知識に威圧されるために触れないからです。

Nemotron 3 Nanoは、長いテキストの高速で効率的な処理のために23のMambaレイヤーを使用しており、最大100万トークンを処理できます。これはGeminiレベルです。これは本当に優れたコンテキストウィンドウです。しかし、必要に応じて正確な推論のために6つのTransformerアテンションレイヤーも使用しています。

Mambaは高速応答のためのものです。Transformerアテンションレイヤーは深い推論のためのもので、答える前に多くの思考を行います。基本的に、Mambaは速度を処理し、Transformerは賢さを処理します。そして、この組み合わせにより、同様の精度で純粋なTransformerモデルよりも3.3倍速い推論が得られます。

これは、モデルをより高速に、より小さく、より性能の低いマシンで実行するために最適化する別の方法です。そして、これこそが、ローカルAIモデルの進歩が最先端AIモデルの驚異的な進歩よりもさらに速いと言っている意味です。

ですから、AIをローカルで行っていない場合、LM Studioをセットアップしていない場合、複数のモデルをダウンロードしていない場合、あなたは本当に遅れを取っています。さて、LM Studioに戻って、もう少しお見せしましょう。

LM Studioの詳細設定

繰り返しますが、下部の開発者モードをオンにしてください。左に移動し、検索をクリックし、ここでミッションコントロールを実行してモデル検索をクリックできます。ここでモデルを検索します。Nemotron 3 Nanoまたは実行したい他のモデルを選択してください。

文字通り、10億パラメータ、あるいは10億パラメータ未満から2,300億パラメータまで、あらゆる形とサイズがあります。8つの異なるMac Studioをリンクさせている場合でも、これらの強力なモデルのいくつかを実行できます。とにかく、Nemotron 3 Nanoに行きます。それをクリックします。

右側にモデルに関する詳細があります。フルネーム、フォーマット、パラメータ、アーキテクチャ、ドメイン、そしてダウンロードオプションを見ることができます。すべてのオプションを表示をクリックすると、ダウンロードできる9つの異なるモデルがあることがわかります。

しかし、LM Studioは既にあなた自身のマシンに理想的なものを選択しています。MLXについて説明させてください。これは重要だからです。GGUFとMLXは、理解しておくべきです。GGUFは、Llama.cppライブラリのネイティブファイル形式です。

それは別のビデオ全体です。Llama.cppについて深く掘り下げてほしい場合は、下にコメントしてください。しかし基本的に、これはどのオペレーティングシステムでも動作します。一方、MLXはApple Siliconでのみ動作します。Mac OSだけでなく、Apple Siliconのみです。つまり、Mシリーズチップのようなものです。

WindowsまたはLinuxを使用している場合は、GGUFを選択してください。Intel CPUを搭載した古いAppleコンピュータを使用している場合は、GGUFを選択してください。しかし、Apple Siliconチップを搭載した新しいMacBookを持っている場合は、MLXを選択してください。

また、ここで異なる量子化を選択できます。マシンの性能に応じて、これらは量子化された4ビット、5ビット、6ビット、8ビットです。高いものほど大きなファイルであることがわかります。8ビットは33GBですが、4ビットはわずか17GBです。これもマシンの性能に依存します。

ここに、AIモデルの量子化を理解するための素晴らしいビジュアルな方法があります。左側には高精度モデルがあります。巨大なエンジンを持つ車のように考えてください。つまり、このAIモデルの高精度な詳細な重みです。

しかし、重みが非常に詳細であるため、これによりモデルが遅くなり、電力を消費します。量子化により、モデルを圧縮して単純化することができます。量子化された重みは精度が低くなります。小数点以下の桁数が少なくなります。それほど正確ではありません。

しかし、これにより、スマートフォンやノートパソコンなどのローカルデバイスでモデルを実行できます。なぜなら、この類推での車であるモデルが必要とする電力が少なくなり、より高速な推論が得られるからです。

簡単に言えば、量子化はモデルの応答における正確性のわずかな部分を、速度と効率の大幅な向上と引き換えにすることで、通常のデバイスで非常に強力なAIモデルを実行することを可能にします。

LM Studioでは、モデルがインストールされていない場合、例えばこのGLM-4-9B-Chat、これは持っていないので、ダウンロードボタンが表示されます。実際には私のウェブカメラの下にあります。だからカメラを動かします。ドン。右下の緑色のダウンロードボタンです。

Nemotron 3 Nano、これはダウンロード済みです。だから、新しいチャットで使用するだけです。それをクリックすれば、チャットを始めることができます。数学の秘密を説明してください。そして、今ロードされました。

非常に高速な応答です。数学をとても強力にするものの秘密は隠された呪文や誤った信念ではありません。それはパターン、論理、抽象化の人間が作り上げた言語です。ChatGPTやPerplexityで得られるのとまったく同じように、非常に詳細な答えをうまくフォーマットして提供していることがわかります。

トークン生成速度は驚異的です。繰り返しますが、100トークン以上で、ChatGPTよりもさらに優れています。詳細を見ることができます。繰り返しますが、これは開発者モード用です。総トークン数と最初のトークンまでの時間を見ることができます。より多くのAIチャットボットツールがこれを表示すればいいのにと思います。

左のミッションコントロールに戻ると、完全なGPUオフロードも実行できます。カメラを戻します。ここに完全なGPUオフロードが可能です。知っておくべきもう1つのプロのヒントは、上部にLM Studioがある場合、モデルを選択して、手動でモデルロードパラメータを選択するを切り替えたいということです。

次に、モデル自体を選択します。だから、Nemotron 3 Nanoにします。そして、ここでコンテキスト長のトークンを見ることができます。だから、許可されている最大値である260Kに設定します。設定を記憶してからモデルをロードします。これにより、この量子化されたバージョンの完全なコンテキストウィンドウを使用していることがわかります。

もう1つのプロのヒントは、右上に移動し、レンチをクリックすることです。ここでカスタムフィールドをクリックすると、そのモデルの思考を有効または無効にできます。一部のモデルは推論モデルだからです。より良い答えを得るために推論させたい場合があります。

または、より迅速に答えてほしい場合は、思考を無効にすると、即座に答えます。設定に入ってモデルの温度を変更することもできます。より一貫性のある応答が必要な場合は、ゼロまたは0.1にします。より多くのランダム性や創造性が必要な場合は、0.9、0.7のようにします。

そして、ChatGPTで選択できるよりも多くのオプション、サンプリング、構造化出力など、さらに多くのオプションに進むことができます。だから、これが真剣にAIに取り組んでいる人向けであり、モデルをローカルで実行することがパワーユーザー向けであると言うとき、私は冗談ではありません。

本当に強力で、UIはあなたが必要とするすべてのもの、そしてあなたが必要とする以上のものを提供します。LM Studioをマスターしたい場合に知っておくべきもう1つのことは、左側の開発者タブ、緑色のボタンに移動することです。

ここで、ステータスが実行中であることがわかります。つまり、このlocalhostのURLでサーバーに到達可能です。これは、アプリを構築するために使用できることを意味します。つまり、AIのSaaSをローカルで構築していて、OpenAIやAnthropicでクレジットを使いたくない場合、あるいは機密データを使用していてサードパーティ企業に送信したくない場合、LM Studioをバックエンドとして使用し、このエンドポイントをフロントエンドまたはバックエンドから呼び出して、コンピュータ上でローカルにあるモデルからの応答を生成できます。

サーバーを呼び出すたびに、LM Studioターミナル内にログが表示されます。しかし、チャットに戻ると、左上で黄色のチャットアイコンをクリックすると、さまざまなプリセットを作成することもできます。

これにより、システムプロンプトや異なる温度、カスタムフィールド、必要なプリセットを保存できます。ChatGPTでプロジェクトを実行できるのと似ていますが、これははるかに高度です。ChatGPTよりもはるかに多くのフィールドがあります。初心者には圧倒的かもしれませんが、だからこそ3つの異なるモードがあるのです。

それが圧倒的な場合は、ユーザーとして始め、パワーユーザーに進み、準備ができたら開発者モードに進んでください。そして、チャットしているときはいつでも、その場で思考を有効または無効にできます。さらに速くできます。

もちろん、LM Studioには、RAGまたはサードパーティ統合やプラグイン(MCPサーバーを含む)で動作するファイルの添付などの古典的なものがすべてあります。だから、基本的にLM StudioにすべてをつなげることができUGitHub、Google Docs、Google Sheets、Codeex、Vectal、Claude Code、MCPサーバーを持つものなら何でも使用できます。

キーボードショートカットと実践的な活用

キーボードショートカットについては、Command+Lが最も重要なものの1つです。これはモデルをロードするためのものです。Lはロードの意味です。Command+Lです。それからCommand+Nは新しいチャットです。Nは新しいの意味で、覚えやすいです。新しいチャット。

それからCommand+Shift+Hは、GPUコントロール用です。繰り返しますが、ミッションコントロールとハードウェアに行くことができますが、Command+Shift+Hを実行できます。ハードウェアのHで覚えてください。これにより、GPUに関するすべてのもの、どのように割り当てたいか、LM Studioにどれだけ専念させたいか、実際の統計情報が表示されます。

これで、ローカルでAIモデルを実行する方法がわかりました。しかし、さらに一歩進んで、実際に独自のAIビジネスを立ち上げたいとしましょう。その話題について完全なビデオを作りました。2026年に始めるのに最適なAIビジネスモデルは何か?ここをクリックして視聴してください。