この動画では、DeepSeek R1の蒸留モデルをローカル環境で使用する方法を詳しく解説している。オリジナルの巨大なDeepSeek R1モデルの代わりに、より軽量な蒸留版をLM Studioというツールを使って簡単にセットアップする手順を紹介。Windows、Mac、Linuxのすべてのプラットフォームに対応し、GPUを必要とせずに高性能な推論モデルを自分のコンピュータで動かすことができる実践的なガイドである。

DeepSeek R1蒸留モデルをローカルで使用する方法
DeepSeek R1蒸留モデルをローカルで使用する方法について説明します。Windows、Mac、Linuxのどれを使用していても、このガイドは最終的に皆さんのお役に立つでしょう。現時点で最高のオープンソース推論モデルであるDeepSeek R1を使用するためのものです。
本当に大きなモデルであるDeepSeek R1を使用するのではなく、同社が蒸留モデルの一群をリリースしました。他のモデルを取り、DeepSeek R1の出力を使用してそれらのモデルを微調整したのです。それがまさに私たちがローカルで使用するものです。
ただし、免責事項として、これは100%オリジナルのDeepSeek R1ではなく、DeepSeek R1蒸留モデルであることをお伝えしておきます。
LM Studioを使用したセットアップ
このチュートリアルではLM Studioと呼ばれるツールを使用します。LM Studioを使用する理由は、初心者にとって非常に使いやすいからです。LM Studioにアクセスして、文字通りダウンロードするだけで、残りの項目はこの動画で私がお見せするすべてに従うことができます。
LM StudioのウェブサイトリンクをYouTubeの説明欄に掲載します。LM Studioを使用したことがない方のために、LM Studioチュートリアルもいくつか用意していますので、それもリンクします。これで始めることができます。
LM Studioを初めて正常にインストールすると、このインターフェースが表示されます。チャット、開発者、マイモデル、発見があります。LM Studioの良いところは、モデルとチャットできるだけでなく、モデルをエンドポイントとして使用したい場合にも使用できることです。関数呼び出しもサポートしており、モデルをOpenAI互換エンドポイントとして公開できます。
初めてここを訪れる方で、私が初めて言うことについて質問がある場合は、コメント欄でお知らせください。できる限り質問にお答えします。
モデルのダウンロードと設定
これがチャットウィンドウですが、チャットする前にモデルをダウンロードする必要があります。最初に確認する必要があるのは、LM Studioの最新バージョンを持っていることです。この録画時点では37.0.3.7ビルドです。これは確実に持っている必要があります。
リリースノートでDeepSeek R1をサポートしていることがわかります。最新バージョンを持っていることを確認してください。それができたら、発見タブに移動します。
発見タブに移動すると、DeepSeek R1蒸留が表示されます。これはQwen 7億パラメータモデル蒸留版で、これはLlama 8億パラメータモデル蒸留版です。Qwen 7億パラメータモデル蒸留版であるDeepSeek R1蒸留Qwen 7億を使用します。
詳細を知りたい場合は、Hugging Faceでモデルカードを見ることができますが、技術的詳細もここで見ることができます。このモデルがどのような情報を持っているかなどです。
ダウンロードをクリックします。これは5GBのダウンロードなので、ダウンロードに時間がかかります。ここでダウンロードが開始されたのがわかります。この5GBのモデルのダウンロードが完了したら、このモデルの使用を開始できます。
モデルの詳細設定について
もう一つ重要なことは、GGUFとMLXの両方を有効にしておく必要があることです。特にMacの場合、MacでのみMLXモデルが計算と速度の面で追加の優位性を提供する可能性があります。LinuxやWindowsを使用している場合は、単純にGGUFモデルを使用してください。
タグと詳細もここで確認でき、どのようなモデルかがわかります。モデルがダウンロードされたらすぐにモデルの使用を開始できます。
ダウンロードが完了したので、ここをクリックしてモデルを読み込むか、チャットできるタブに移動してそこでモデルを使用できます。モデルを読み込むをクリックするのが開始するのに最も簡単なオプションです。しかし、再度閉じて開いて、完全にゼロからお見せします。
モデルの実際の使用方法
モデルを読み込んだ後は、質問をすることができます。このバーは、モデルが現在のセッションに読み込まれているかどうかを基本的に示しています。バーが読み込まれるまで待ってください。
何か変更を加えたい場合、例えばシステムプロンプトを変更したい場合や、トークン数やコンテキストウィンドウを増やしたい場合は、これをクリックすると、実際に与えることができるシステムプロンプトが表示されます。JSONのような構造化出力やそのようなものが必要な場合は、ここで行うことができます。しかし、そのままにしておきます。
下部では、システム使用量、RAMとCPU使用量も確認できます。この時点でモデルは正常に読み込まれています。閉じたい場合は取り出すをクリックできますが、今は閉じたくありません。いくつか質問をしたいと思います。
実際の質問と推論プロセス
これを閉じて、簡単な質問をしてみます。「3 + 4 + 5を計算してもらえますか」
2種類のトークンがあります。一つは思考トークンで、これはモデルが内部的な独白を行うプロセスです。そして最終的に出力を提供します。LM Studioは、ある時点で思考トークンをエスケープし、それを異なって表示するUIを持つでしょう。
思考トークンを見ることができます。ここでモデルが問題を解決するために自分自身と議論し、最終的に解決策を得ます。これはLaTeX形式です。レンダリングされたものを見たい場合は、LaTeXレンダラーに貼り付けることができます。
LM Studioを完全に閉じて、どのように読み込むことができるかをお見せします。LM Studioを閉じて終了します。この時点で単純にLM Studioを呼び出します。
LM Studioが利用可能になったら、理想的には私がしなかったモデルを取り出すべきでした。LM Studioがあるので、既存のチャットが保存されています。チャットに移動し、新しいチャットをクリックし、モデルを読み込みます。
LM Studioにあるモデルのリストが表示されます。DeepSeek R1蒸留Qwen 7億を選択します。例えば、より長いコンテキストウィンドウが必要な場合は、持っているメモリ量に応じてスライドを増やすことができます。メモリ最適化についても同様です。
LM Studioでモデルを読み込むと言います。モデルが読み込まれていることがわかります。この時点でモデルが読み込まれ、モデルが読み込まれたらモデルとのチャットを開始できます。
この場合はそうではないと思いますが、ビジョン言語モデルがある場合は、添付ファイルをアップロードすることもできます。しかし、今は単純なモデルで、任意の質問をすることができます。
より複雑な質問の例
「人間が火星でどのくらい生存できるかの確率チェックをしてもらえますか」と質問します。イーロン・マスクについてのジョークを既に聞くべきでしたが、おそらくそうすべきではないでしょう。
考えているのがわかります。内部的な独白を行っています。「火星で人間がどのくらい生存できるかを理解する必要がある」ということで、この内部的な独白を経て、最終的に完了すると戻ってきて答えます。
開発者向け機能
その間に注意すべきもう一つの重要なことは、開発者タブに移動すると、DeepSeek R1蒸留Qwen 7億が現在実行されていることがわかります。これらのモデルをOpenAI互換エンドポイントとして利用可能にすることもできます。
なぜ重要かというと、ローカルコンピュータでMVPとして何かを開発し、おそらくサーバーにデプロイしたい場合、同じコードを保持し、ローカルホストエンドポイントだけを変更すれば、必要なことをすべて行うことができるからです。
モデルを提供したい場合、モデルを提供するのは非常に簡単で直接的です。モデルが既に利用可能なエンドポイントがあり、モデルが準備されています。モデルの提供準備ができています。
サーバーは停止していますが、これを行うとサーバーを開始できます。この特定のエンドポイントで、このエンドポイントに移動してモデルにヒットし、レスポンスを得ることができます。
他のモデル選択肢
マイモデルでは、すべてのモデルを確認できます。例えば、私が取り上げたのはQwen 7億パラメータモデルですが、おそらくQwen 14億パラメータモデルを取得できます。DeepSeek R1蒸留モデルの異なるバージョンがあるので、使用することができます。
これらのモデルをGGUFに変換することに積極的に取り組んでいるbosiに大いに感謝します。彼らと、このモデルを使用できるようにしてくれたLM Studioチームにも感謝します。
ここでトークン数を見ることができます。毎秒33トークン、これはかなり速いです。合計991トークンで、最初のトークン時間、つまり最初にすべての思考を行った後、最初の時間はどれくらいかかったかです。
最終的に、大気圧などのような最終回答を得ます。これは必要ありません。
チャットの管理
最後に、新しいチャートをクリックしたい場合は、既存のチャットを削除したい場合は、3つのドットをクリックしてチャットを削除します。
これがまさに蒸留R1またはDeepSeek R1蒸留版を使用する方法です。この場合、Qwen 7億パラメータモデル蒸留R1の蒸留版Qwen 7億パラメータをローカルでコンピュータ内で使用しました。
GPUは必要ありません。本当に強力なマシンも必要ありません。7億を使用しましたが、必要に応じて15億パラメータモデルも使用できます。蒸留R1、DeepSeek R1の異なるバージョンが利用可能ですので、RAMに適合するものを使用し、プライバシーを心配することなくローカルでモデルを楽しんでください。
この特定のケースでは、LM Studioが何か怪しいことをしていない限り、データはどこにも送信されません。彼らがそうしているとは思いませんが。
聞いてくださってありがとうございました。また別の動画でお会いしましょう。ハッピープロンプティング!


コメント