ChatGPTは忘れて、自分専用のLLMをローカルで動かそう

LLM・言語モデル
この記事は約26分で読めます。

本動画は、ChatGPTやClaudeなどのクラウドベースのAIサービスに依存せず、完全にローカル環境で大規模言語モデル(LLM)を実行する方法を解説している。ローカルAIモデルの主なメリットとして、APIコストやサブスクリプション料金が不要であること、使用制限がないこと、データが一切外部に送信されずプライバシーが完全に保護されること、インターネット接続なしでも動作すること、モデルのバージョンを完全に管理できることなどが挙げられる。さらに、オープンソースモデルをファインチューニングして自分専用のモデルを作成できる点も大きな利点である。動画では、ローカルモデルが劣っているという誤解を払拭し、特に中国勢の積極的なオープンソース化により、過去12ヶ月間で利用可能な優秀なローカルモデルが50倍に増加したことを示している。また、オープンソースモデルの性能がクローズドソースモデルに急速に追いついており、一部のベンチマークでは上回っている事実も紹介されている。技術的な解説として、OllamaとLM Studioという2つの主要ツールの使い方、モデルのダウンロード方法、APIサーバーとしての設定方法、量子化の概念とその利点などが詳しく説明されている。量子化により、通常は高性能なハードウェアでしか動作しない大規模モデルを、一般的なラップトップでも実行可能にする技術についても触れられている。

Forget ChatGPT, run your own LLM locally
Wanna start a business with AI Agents? Go here: I'm hiring! Apply here: Vectal for FREE:...

ローカルAIモデルを使う理由

ChatGPTは忘れてください。自分専用のLLMをローカルで動かす方法をお教えします。ローカルAIモデルとは、完全にあなたのコンピューター上で動作するものです。さて、あなたはこう思うかもしれません。デビッド、なぜローカルLLMが必要なんだ?と。理由はたくさんあります。

まず第一に、コストです。APIの費用もサブスクリプションも不要です。自分のコンピューター上で動作するため、完全に無料です。

第二に、レート制限がありません。好きなだけ使えます。

第三に、すべてがプライベートです。データは決してあなたのデバイスから離れません。つまり、サム・アルトマンがあなたのメッセージを読むことは決してないのです。ローカルモデルはオフラインでも動作します。インターネット接続は不要です。飛行機の中でも森の真ん中でも使えます。また、モデルのバージョンを完全に所有できます。

特定のAIモデルをローカルにダウンロードすれば、その特定バージョンを常に持つことができ、誰もそれを変更できません。さらに、自分専用のモデルを作りたい場合は、オープンソースモデルをファインチューニングしてローカルで実行できます。これにより、自分の用途に特化したモデルを作成できるのです。

ローカルモデルの性能について

ローカルAIモデルが何となく劣っていて、ChatGPTやClaudeよりもずっと悪いという大きな誤解があります。それは数年前なら真実だったかもしれません。しかし今日では確実に真実ではありません。それを証明する4つのチャートをお見せしましょう。

中国がAIにどんどん参入するにつれて、彼らは基本的にすべてのモデルをオープンソース化しており、それがアメリカをリードする原因となっています。これは、今日では12ヶ月前と比べても50倍もの素晴らしいローカルモデルの選択肢があることを意味します。

次に、オープンソースモデルの能力がクローズドソースモデルに急速に追いついているのがわかります。実際、多くのベンチマークでは、彼らはさらに先を行っています。例えば、GPQA Diamondというのは、Google証明質問回答のことですが、その差も縮まってきているのがわかります。

注目してください。これは最高のオープンソースモデルではありません。これらはコンシューマーGPUで実行可能なオープンモデルです。これらはあなたや私がラップトップで実行できるモデルであり、クラウドで動作している巨大なGrok 4やGPT-5といった最先端モデルに近づいているのです。それは、小さなモデルの方が大きなモデルよりもトレーニングがはるかに効率的だからです。

AI分野を1年以上注目してきた人なら、巨大な最先端モデルの進歩がやや停滞していることをご存知でしょう。以前よりもずっと遅くなっています。しかし、200億、300億パラメータの小型モデルの進歩は驚異的です。

ちなみに、ローカルモデルを実行するのにGPUクラスターは必要ありません。多くの人がこれを広めていますが。例えば、PewDiePieが最近自分専用のクラスターを作りました。PewDiePieがAIにもっと取り組んでいるのを見るのは素晴らしいことです。MacやMac Studio、あるいはNvidia GPUのような単一のGPUだけで始められます。種類は問いません。あらゆる形やサイズのローカルモデルがありますし、ホームスーパーコンピューターに2万ドルも費やす必要はありません。なぜなら、あなたのGPUが処理できるローカルモデルを実行し始めることができるからです。

この動画で学べること

このビデオでは、第一に、ローカルモデルにとって絶対不可欠なOllamaの基礎を学びます。第二に、モデルをあなたのマシンにローカルでダウンロードする方法。第三に、モデルをAPIサーバーに変える方法で、これによりあなたが望むあらゆるアプリに接続できるようになります。第四に、現時点での最高のローカルAIモデルとは何か。第五に、あなたのコンピューターのスペックとニーズに応じてモデルを選ぶ方法。

そして第六に、ボーナスとして、量子化の概念とそれによってどのように通常ではあなたのコンピューターが処理できないはるかに強力なモデルを実行できるようになるのか、つまりそれらのモデルの量子化バージョンを取って実際にローカルで実行できるようになる方法を説明します。

ですから、最後まで必ず見てください。

Ollamaとは何か

それでは、Ollamaを見ていくことから始めましょう。Ollamaは、あなたのコンピューター上で動作するAIモデルをダウンロードする方法です。モデルをローカルで実行する最も簡単な方法の一つです。さらに、Ollamaはオープンソースです。つまり、実際にどのように動作しているかを見ることができます。文字通りGitHubを開いて、自分でコードベースを見ることができます。改善できると思ったら、フォークして自分専用のOllamaバージョンを構築できます。

しかし、深く掘り下げる前に、そもそもAIモデルとは何なのかを明確にすることが重要です。なぜなら、AIが世界を席巻しているにもかかわらず、この質問に答えられる人の数は非常に少ないからです。AIモデルは基本的に、数十億の重みやパラメータを保存する大きなファイルです。そしてそれらの重みは、AIがトレーニングデータから学習したパターン、知識、結論を表しています。

何兆ものトークンのトレーニングデータを与えます。そして、AIが損失関数を減らそうとし、そのトレーニングデータをできるだけ理解しようとするトレーニング実行を行います。最終的に、モデル自体を構成する重みとバイアス、別名パラメータの束を得ることになります。

つまり、基本的にAIモデルは重みの集合なのです。AIモデルを使用するには、第一に、それらの重みを含むファイル、第二に、重みを読み取って解釈できるプログラム、第三に、推論を実行する方法、つまりそのモデルから応答を生成する方法が必要です。3Blue1Brownの素晴らしいグラフィックがあり、大規模言語モデル内で単語がどのように重みに分解されるかを示しています。

誰かが特定のモデルが700億パラメータを持っていると言うとき、それはこのような一連の数字にすぎません。この概念をさらに理解するために、このウェブサイトでLLMがどのように見えるかを視覚化できます。これはnano GPTです。これは今日の基準ではLLMですらないかもしれません。大規模言語モデルではありません。85,000パラメータしかありません。現代のAIモデルは1兆パラメータのようなものを持っています。

しかし、モデル自体の中で重みとバイアスとベクトルがどのように組織されているかがわかります。ここにソフトマックス関数もあり、アテンション行列もあります。これはトランスフォーマーの不可欠な要素です。それは別のビデオのトピックですが、これはモデルの内部動作を視覚化する本当に良い方法です。

もっと大きなモデルを見たい場合、GPT-3があります。これはChatGPTが最初にリリースされたときにOpenAIが使用したオリジナルモデルです。これははるかに大きく、1750億パラメータです。これがパラメータの正確な量です。そしてこれはモデルが内部でどのように見えるかの素晴らしい視覚化です。モデルを構成するパラメータである、膨大な量の重みとバイアスです。

Ollamaが実際に行うこと

さて、Ollamaが実際に何をするのか、3つの部分に分けて説明します。第一に、ダウンローダーです。これらの巨大なAIモデルをあなたのコンピューターにダウンロードさせ、安全かつ組織的な方法で保存します。それがセーフテンソルファイル形式です。テンソルとは、n次元の数値配列のことです。

1次元テンソルはベクトルとして知られています。2次元は行列です。3次元は立方体です。4次元は立方体のベクトルです。5次元テンソルは立方体の行列です。以下同様です。そのセーフテンソル形式は、これらのモデルの重みをコンピューター上に保存するための効率的なファイル形式です。

これがOllamaが実際にモデルをダウンロードすることを可能にする最初のことです。第二はエンジンとして機能することです。Ollamaはモデルファイルを読み取ります。数十億のパラメータをメモリにロードします。だからこそ、多くのメモリを持つことが重要なのです。M1やM2チップを搭載したMacコンピューターをお持ちの場合、RAMはユニファイドメモリです。つまり、CPUとGPUの両方からアクセス可能です。

しかし、Nvidia GPUを搭載したWindowsコンピューターをお持ちの場合、RAMは重要ではありません。重要なのはGPUのVRAMです。これが、x86アーキテクチャとM1、M2、M3、M4といったすべてのMシリーズのApple Siliconチップで見られるARMベースのアーキテクチャでメモリがどのように機能するかの主な違いです。

第三のことについて話しましょう。インターフェースです。Ollamaには現在UIがありますが、私のチャンネルを見ている方はご存知でしょうが、彼らは主にターミナルで知られています。OllamaのおかげでターミナルでLLMを使用できます。しかし、このビデオでは両方をお見せします。超シンプルな方法でターミナルを使う方法と、LM Studioで素敵なGUI、グラフィカルユーザーインターフェースを持つ方法をお見せします。

実際、これら両方の設定は思っているよりもはるかに簡単です。もしそれだけをやるなら、ローカルモデルの実行方法を全く知らない99%の人々よりもすでに先を行っていることになります。でも、それについてはもう少し後で。

Ollamaのインストールとモデルのダウンロード

さて、Ollamaをダウンロードすることから始めましょう。すべてステップバイステップでお見せします。専門家である必要は全くありません。実際、プログラミング経験ゼロ、ローカルモデル実行経験ゼロの完全な初心者でも、これに従うことができます。信じてください。

ollama.comに行って、実際にソフトウェアをダウンロードしましょう。完全に無料です。オープンソースです。この大きなダウンロードボタンをクリックしてください。オペレーティングシステムを選択します。私はここではMac OSを使っています。ダウンロードをクリックします。インストーラーがダウンロードされたら、それをダブルクリックします。はい、そこにあります。アプリケーションフォルダに移動します。次にOllamaと入力して実際にアプリケーションを開きます。

Ollamaがインストールされました。Ollamaをインストールすると、APIサーバーも自動的に起動します。サーバーは、他のツールやソフトウェアプログラムがOllamaに接続し、ダウンロードしたモデルを使用するための方法です。OllamaにAPIがなければ、それ自体だけを使用できますが、例えばCursorを動かすために使用することはできません。

Ollamaサーバーが動作しているかどうかを確認したい場合は、このURLのlocalhost:11434にアクセスしてください。左上にOllama is runningと表示されるはずです。それが見えています。素晴らしい。しかし、サーバーに接続して実際に何かをする前に、モデルをダウンロードする必要があります。これがローカルでLLMを実行する主なことです。それでは、それをやりましょう。

モデルをダウンロードする際の最大の質問は、どのモデルをダウンロードすべきかということです。ダウンロードできるLLMはたくさんあります。すぐに、どれが最高かをお見せします。しかし、まずOllamaを使って実際にモデルをダウンロードする方法をお見せします。思っているよりもずっと簡単だからです。

簡単に、ローカルモデル、ファインチューニングなどについてもっとビデオを作ってほしい場合は、チャンネル登録を検討してください。完全に無料で、2秒しかかかりません。ビデオの下に行って、チャンネル登録をクリックしてください。それは私にとって強力なシグナルです。ねえ、デビッド、ローカルLLMについてもっとビデオを作ってくれという。

モデルをダウンロードするには、ターミナルを開くだけです。ターミナルは、ここで行ったようなグローバルなものでもいいし、VS Code内のものでもいいです。本当に関係ありません。コンピューターでターミナルを開くだけです。

そして、ターミナルで、ollama runとモデル名を入力するだけです。Ollamaのウェブサイトに戻って左上のmodelsをクリックすると、Ollamaが提供するあらゆる種類のモデルが表示されます。例えば、GPT-4oはOpenAIのオープンモデルです。OpenAIがこれまでにリリースした数少ないオープンソースモデルの一つです。

クレイジーですよね。しかし、20Bと120Bの2つのバージョンがあります。これはパラメータの量です。このシンプルな構造に従って、入力する必要があるのはollama runと、そしてGPT-4o 20Bだけです。文字通りここにコピーされています。Ollamaがそれを提供してくれます。正直なところ、これ以上簡単にはできません。コピーボタンをクリックして、ターミナルに戻って貼り付けるだけです。GPT-4oを実行して、Enterキーを押します。

初めてこれを行うと、マニフェストをプルします。つまり、モデルをダウンロードします。例えば、20Bを見ると、これは14GBです。つまり、ビデオゲームよりも大きいようなものです。初めてターミナルで実行するときは、ここで私にとって即座だったように即座であるとは期待しないでください。なぜなら、私はすでにモデルをダウンロードしていたからです。

どのモデルをすでにダウンロードしたかを確認し、それらを管理するには、/byeと入力してこれを終了できます。ターミナルをクリアして、ollama listと入力します。これにより、Ollama経由でローカルにインストールしたすべてのモデルのリストと、それらをいつダウンロードしたか、そしてそれらのサイズが表示されます。4つのモデルがあることがわかります。つまり、これらは実際に使用できるモデルです。

他のモデルを使いたい場合、Ollamaには明らかにはるかに多くのモデルがあるので、まずrunとモデル名を入力してダウンロードする必要があります。モデルを削除したい場合は、ollama rmとモデル名を入力するだけです。例えば、ここでdestralを削除しましょう。ollama rm destral:latestです。Enterキーを押すと、削除されました。

ターミナルをクリアして、再度ollama listを実行すると、そのモデルがなくなっていることがわかります。これはモデルを削除することが重要です。なぜなら、まず第一に、それらは非常に速く時代遅れになるからです。AI分野の3ヶ月前は永遠のようなものです。しかし、オープンソースAI分野の3ヶ月前は30年のようなものです。

この分野はそれほど速く動いています。しかし、これらのモデルは非常に大きいのです。65GB、30GBです。したがって、古くなって使わなくなったモデルを削除することで、メモリを管理するのが良いのです。

さて、先ほど述べたように、OllamaはAPIサーバーでも動作します。このローカルURL 11434に行くと、サーバーが動作していることがわかります。しかし、curlを使ってAPIサーバーに接続して応答を送信できるかどうかをテストすることもできます。このcurlコマンドをコピーして、ターミナルに切り替えて、再度クリアして、送信します。

エラーが発生しました。GPT-4o 20B not foundと表示されています。デバッグするためにlistを実行します。問題は、この名前GPT-4o latestでダウンロードしたことです。ここのモデル名を更新する必要があります。latestです。この質問に答えるはずです。空が青い理由は何ですか、短く答えてください。トークンストリーミングを有効にします。Enterキーです。そこにあります。

トークンストリームがオフだったので、パースされません。しかし、モデルから回答を得たことがわかります。ここにあります。トークンが入ってくるのが見えます。ストリームなしでやり直しましょう。falseです。メッセージ全体が構築されるまで待ちます。そこにあります。応答です。地球の大気中の空気分子が太陽光を散乱させるため、短い青色の波長は長い赤色の波長よりもはるかに効率的に散乱されます。

私のMacBook上で完全にローカルで動作しているモデルから応答を得ました。インターネットへの接続はありません。データは決して私のマシンを離れません。サム・アルトマンが私の制限を決めることもありません。誰もモデルのバージョンを変更していません。モデルを完全にコントロールできます。望むなら、ファインチューニングして自分専用のものにすることもできます。モデルをローカルで実行することには非常に多くの利点があります。クレイジーです。

LM Studioの使用

しかし、これが印象的だと思うなら、これから始まるだけです。ビデオの残りはもっと役立つものになります。ターミナルUIは最も良いものではありませんし、Ollamaのユーザーインターフェースはかなり基本的です。たとえば120Bを選択できます。これはまだ非常に初歩的です。ChatGPT、Claude、Perplexityから来た場合、はるかに良いUIに慣れているでしょう。ここでLM Studioに切り替えることをお勧めします。

LM StudioはローカルモデルのためのChatGPTのようなものです。UIがOllamaよりもはるかに高度であることがわかります。チャット履歴があり、推論努力があり、メッセージ履歴があり、異なるモデル間で切り替えることができ、トークンカウント、電力使用量、使用しているRAMの量、CPUを確認できます。実際、ChatGPTよりもはるかに多くのデータを提供してくれます。

lmstudio.aiにアクセスして、ダウンロードをクリックしてください。ダウンロードしたら、LM Studioと入力してアプリを開きます。LM Studioを初めて開くと、このように見えます。左側に行くと、下部にさらに多くのものがあります。実際、ユーザー、パワーユーザー、開発者の間で選択できます。最もコントロールしたい場合は、開発者を選択してください。しかし、ユーザーのままでもアプリを使用できます。

それだけではるかにシンプルです。心配するボタンが少なくなります。それで問題ありません。しかし、ビデオのために開発者に切り替えます。左側で、my modelsをクリックします。Ollamaモデルが表示されていません。デビッド、OllamaでダウンロードしたモデルをLM Studio内で使用するにはどうすればいいのかと思うかもしれません。

問題は、LM Studioが競合しようとしているということです。OllamaとLM Studioの両方がモデルをダウンロードするために使用できます。両方ともインストールに使用できます。しかし、Ollama経由でインストールしたモデルをLM Studio内で使用できる解決策があります。それをお見せしましょう。

これは少し混乱するかもしれませんが、解決策はGolamaです。Ollamaは、ターミナルでモデルをダウンロードするために以前使用したものです。これがOllamaです。しかし、GolamaはOllama経由でインストールしたモデルを管理するためのMac OS Linuxツールです。

命名が少し混乱するかもしれませんが、これによりOllamaモデルをLM Studio内で使用できるようになります。そうでなければ、同じモデルを2回ダウンロードする必要があります。多くの人がそうしています。これらのモデルは多くのギガバイトのサイズなので、非常に非効率的です。

コンピューターに無限のストレージがない限り、1回だけダウンロードする方が良いです。信頼できるターミナルを再び開きましょう。ollama listと入力して、まだいくつかのモデルをダウンロードしていることを確認します。素晴らしい。clearと入力してリセットします。次にbrew install golamaを実行します。ちなみに、このGitHubリポジトリをビデオの下にリンクします。

ここの指示に従うだけです。すべてのFAQと一般的なエラーがここにあります。詳細情報が必要な場合は、これをコピーしてください。ChatGPTに貼り付けてください。ステップバイステップで設定方法を教えてくれます。しかし、80対20の法則をお見せします。やり方をお見せします。

brew install golamaです。おそらくHomebrewで最も簡単な方法です。完了しました。3秒くらいかかりました。ターミナルをクリアして、Golamaと入力して起動します。これにより、モデル間を循環できる素敵なターミナルUIが開き、正確なファイルサイズ、正確なパラメータ量など、さらに多くの情報を教えてくれます。

これは量子化方法だと思います。それからモデルファミリーです。使用したいモデルを選択し、Lをクリックすると、下部にモデルGPT-4o latest linked successfullyと表示されます。LM Studioに戻ると、GPT-4oがLM Studio内に表示されます。

時間を節約し、よりシンプルに保つために、LM Studio経由でモデルをダウンロードしたいとしましょう。左に行って、ここの検索をクリックします。これによりミッションコントロールが開きます。モデル検索では、多くの異なるモデルをスクロールできます。上部でフィルタリングすることもできます。

例えば、Hermes 4 70Bです。これは検閲の少ないモデルなので、通常のモデルよりもはるかに多く答えます。Llama 3.1 70Bのファインチューニングされたバージョンです。これは約40GBです。このモデルをダウンロードします。明らかに、それには時間がかかります。40GBです。ここドバイで高速インターネットを持っていても、おそらく1時間かかるでしょう。それは私のインターネットだけではありません。LM Studioサーバーも十分に速くデータを送信する必要があります。

これがLM Studioでどのモデルを持っているかを管理する方法です。GPT-4oやDestralモデルなどを検索できます。Qwenモデルはないようです。Qwenはあまりにも大きすぎます。1兆パラメータです。ここでランタイムを確認できます。ここでハードウェアに関する詳細情報を確認できます。正直なところ、これは別のビデオに十分です。LM Studioは非常に設定可能です。特に開発者モードでは。

最大のパフォーマンスを得るためにLM Studioを完全に設定する方法についての専用ビデオを作ってほしい場合は、コメントしてください。多くのコメントを見れば、実現できます。

これらのモデルのどれが実際に最高で、どれを無視すべきで、どれを絶対に持つべきかに入る前に、11月3日に始まり11月9日に終わる新しいソサエティで実施している特別オファーについてお伝えする必要があります。

この週に参加する全員が、2026年のトップ7のAI機会を獲得できます。これは、私とチームが来年のAI分野における最大の機会について作成した詳細なレポートです。基本的に、これは何百時間もの研究を単一のドキュメントに凝縮したものであり、この週に新しいソサエティに参加すれば入手できます。

この研究レポートは、この週に新しいソサエティに参加した場合にのみ利用可能です。ちなみに、新しいソサエティの中では、AIでコーディングする方法、AIエージェントを構築する方法、SaaSをゼロから月収10,000ドル以上にスケールさせることから学んだすべてのレッスン、間違い、ヒントも学べます。

自分のスタートアップを構築したい場合、まさにこのセクションがあります。AIスタートアップを構築する方法です。正直に言うと、他のほとんどの人はこれを高額なコースに入れて5,000ドルくらい請求するでしょう。しかし、これは新しいソサエティにある多くのものの一つに過ぎません。

アイデアを選んだ初日から、推論を説明し、Cursor内でプロジェクトを開始し、Pythonでバックエンドを構築し、10K MRRに到達したときまで、さらにその先、開発者を雇っていたときまで、文字通りあなた自身のAIスタートアップを構築するために知る必要があるすべてがユーザー内にあります。これは私たちが内部に持っているモジュールの一つに過ぎません。

さらに、すべてのAIエージェント、すべてのプロンプト、MDファイル、オートメーション、必要とするかもしれないすべてを共有しています。参加した瞬間にこれを入手できます。参加した瞬間に、新しいソサエティ内のクラスルームで、テンプレートとプリセットをクリックすれば、これらすべてにアクセスでき、ダウンロードして自分で実行するまで1クリックです。

また、何でも質問できる週に複数回の通話をホストしています。Dan Martellの専門AIデベロッパー、営業の専門家、大企業を運営した人々、コンサルタントなどの専門家がいました。つまり、これらの通話に参加する人々のレベルは実際に膨大です。

他のすべてを忘れて、一つのことのために新しいソサエティに参加するとしたら、それはカレンダーの通話です。現在、毎週木曜日と土曜日の週2回実施していますが、火曜日も追加する予定です。参加したい一つのことがあるとすれば、それは通話です。これは、AIの最先端にいるために自分をアップスキルする方法です。

ビジネス、スタートアップのアイデア、直面している技術的な問題について、どんな質問でもできます。関係ありません。これらの通話はゴールドです。参加することを決めた場合、行動を起こすことをお勧めします。なぜなら、新しいソサエティには人生を完全に変えるために使用した多くの人々がいるからです。

しかし、彼らに共通しているのは行動を起こすことです。私のチャンネルを見ているなら、AIがどこにも行かないことを知っていますし、誰かを待つこともありません。真剣に考えていて、AIの最先端にいたいなら、新しいソサエティに参加してください。ビデオの下の最初のリンクになります。

そして、述べたように、この週に参加すれば、ボーナスとして2026年のAIチェックリストを入手でき、来年この分野を完全に変えると信じる7つの最大の機会が含まれています。

最高のローカルモデル

約束したように、実際にローカルで実行するのに最適なモデルは何かという質問に答えましょう。Artificial Analysisが本当に良いメトリックを作成し、実際にこのベンチマークを常に更新しています。これらはすべて400億パラメータ未満のオープンソースモデルです。

明らかに、優れたコンピューターをお持ちの場合、より大きなモデルを実行できます。例えば、見たように、Hermes 70B、700億パラメータです。私はMacBookでこれを実行できます。なぜなら、128GBのRAMを持っているからです。Apple Siliconチップでは、これは共有されています。つまり、CPUとGPUの間でアクセス可能です。より大きなモデルも絞り出すことができます。

例えば、120B Ollamaです。ターミナルを再びロードすると、ここに120Bがあり、Enterキーを押すことができます。クリアしましょう。ollama listです。12Bがインストールされています。ollama run GPT-4o 120Bを実行します。これによりロードされ、録画が遅くなるかもしれません。なぜなら、録画と1200億パラメータのAIモデルを同時に実行しているからです。

単一のMacBookにとっては最適ではありませんが、そこにあります。heyと入力すると、推論を開始し、非常に速いスピードで実行されているのがわかります。ソフトウェアエンジニアリングの基礎を教えてください。これは非常に使いやすいです。これは1200億モデルです。優れたコンピューターを持っている場合、400億パラメータ以下に制限しないでくださいと言いたいだけです。

しかし、あなた方のほとんどは、コンピューターに5,000ドル以上費やしていない限り、これは見る必要がある完璧なサイズです。40億から400億の間です。Artificial Analysisには、これらのモデルを比較するベンチマークがあります。中型モデルカテゴリに入ることもできます。

GPT-4o 120Bが最高であることがわかります。例えば、イーロン・マスクが最近、これはゴミだとこのモデルについて言っていましたが。最高の中型オープンソースモデルであるにもかかわらずです。イーロンがOpenAIと確執があるのは秘密ではありません。

大型モデルに入ると、Minimax M2が現在最高であることがわかります。DeepSeek V3.1 Terminusがあります。Qwen QwQ 32Bは明らかに最大です。Link 1Tです。これらはおそらくローカルで実行できないでしょうが、小型モデルはラップトップで実行できます。

極小型モデル、これは携帯電話でも実行できます。Qwen 34B 2.5がおそらく現在最高の小型モデル、または極小型モデルです。しかし、小型モデルに関しては、これがあなた方のほとんどが見るべきものです。

Artificial Analysisをビデオの下にリンクします。調べることができます。異なる評価と異なるベンチマークがあるからです。生の知能です。GPT-4o 20Bが最高です。QwenQVLがあります。これはとても多くのモデルがあってクレイジーです。Exaoneです。これらのいくつかは聞いたこともありません。

ラボからの知能評価があります。Aider Bench、T-Squared Benchです。明らかに異なるモデルが異なるカテゴリーで勝っています。自分のニーズに応じて選択できます。例えば、コーディングでは、OSが本当に良いことがわかります。しかし、GPQAのようなGoogle証明質問回答では、ExaoneやQwenの方が良いです。

Artificial Analysisからの非常に良い研究があります。ビデオの下にこれをリンクします。繰り返しますが、彼らは常にこれを更新しています。新しいモデルが出ると、これを改善します。これらはあなたが実行できる最高のモデルです。

メモリとスペックの要件

どのモデルを実行できるかを理解するための非常に大まかな計算として、明らかに、MacやMacBookを持っている場合、RAMは共有されます。Nvidia GPUを持っている場合、重要なのはGPUのVRAMです。通常、10億パラメータごとに2GBのRAMが必要です。

しかし、これは常に当てはまるわけではありません。なぜなら、例えば、96GBのRAMを持つM3 MacBookが120Bモデルを実行できるからです。GPT-4o 120Bです。これは非常に大まかです。モデルがより最適化され、ハードウェアがより最適化されるにつれて、1対1の比率により近づいているかもしれません。

ローカルLLMを実行したい場合、量子化の基本も理解する必要があります。量子化とは何でしょうか。議論したように、モデルは数百万、多くの場合数十億のパラメータを保存します。これらは重みとバイアスとしても知られる数字です。量子化は、これらの重みの精度を低くします。

例えば、13.4何とかかんとか、これを単に13に丸めます。これらの値を正規化するようなものです。これはスペースを節約するためです。大きなモデルが小さな低性能のコンピューターで実行できるようになりますが、明らかにパフォーマンスの一部を失います。

良い点は、それらの量子化されたモデルを実行するためにはるかに少ないRAMが必要だということです。悪い点は、モデルの精度が低く、パワーが少ないということです。LLMで量子化がどのように機能するかの別の視覚化があります。しかし、美しいのは、通常、量子化されたモデルは50%小さくなることができますが、50%悪くはないということです。

モデルを3分の1のサイズにしても、おそらく20%しか悪くありません。量子化は非常に高いレバレッジです。80対20のようなものです。通常従うプロセスは次のとおりです。Qwen 2.5 8Bのような元のベースモデルを入手します。これはFP16のトレーニングから出た後の生のモデルであり、これは16GBのサイズになります。

次に人々はそれをファインチューニングします。通常、彼らはインストラクション、つまり指示のファインチューニングを行い、実際に指示に従うようにします。これはファインチューニングされたバージョンですが、まだ16GBです。次にファインチューニングされたバージョンを量子化します。

Qwen 2.5 8B Q4を見ることができます。これによりモデルをわずか5GBに圧縮します。3倍以上小さくなりますが、3倍悪くはありません。少し悪いですが、著しく小さいです。これが量子化の美しさです。

この例では、Qwen 2.5 8B Instructで、16ビット精度から4ビット精度に移行すると、モデルを70%小さくしながら、その能力のほとんどを同じに保つことができます。それは明らかに大きな節約であり、量子化はローカルオープンソースモデル市場と、オープンソース分野の進歩が最先端よりもはるかに速い多くの理由の一つです。

GPT-5がやや期待外れのリリースだったとしても、GPT-4oよりも著しく優れているわけではありませんが、ローカル側、特に中型および小型モデルでは、これは常に変化しており、モデルは常にリリースされており、大幅に改善されています。

ローカルLLM、LM Studio、ファインチューニング、オープンソースモデルなどについてもっとビデオを見たい場合は、必ずチャンネル登録してコメントしてください。このビデオから多くの人々がチャンネル登録しているのを見れば、それは強力なシグナルです。そのような方向に進むことを喜んでします。

そう言って、視聴していただきありがとうございました。素晴らしい一週間をお過ごしください。

コメント

タイトルとURLをコピーしました