OpenClawの運用コストが月額1万ドルに達するケースもあり、これは深刻な問題である。本動画では、Nvidia RTX GPUやDGX Sparkを活用してオープンソースモデルをローカル実行することで、クラウドモデルへの依存を減らし、大幅なコスト削減とプライバシー強化を実現する手法を解説する。実験段階ではフロンティアモデルを使用し、プロダクション化の過程でローカルモデルへ移行するハイブリッドアーキテクチャが鍵となる。埋め込み処理、文字起こし、分類タスクなど90%のユースケースは、ローカルモデルで十分に対応可能であり、月額300ドルのクラウド費用を3ドルの電気代まで圧縮できる可能性がある。

OpenClawの高額なコスト問題とその解決策
OpenClawは高額です。これが問題なんです。OpenClawを使うだけで月に1万ドル以上を費やしている人たちを見てきました。私はこれを解決したかったんです。クラウドですべてを処理するには多額のお金がかかります。でも、その一部をローカルで動作するオープンソースモデルにオフロードできるとしたらどうでしょうか。
この動画では、Nvidia RTX GPUまたはDGX Sparkを使ってそれを実現する方法をお見せします。素晴らしいのは、今使っていないRTX GPUでもこれができるということです。古いゲーミングノートパソコンでも、デスクトップでも、これらすべてがOpenClawのセットアップの一部となり、これらのモデルを実行できます。ちなみに、この動画はNvidiaの提供でお送りします。
この動画では、まずなぜオフロードしてローカルモデルを使いたいのかについて話します。次に、それを動かすために必要な実際のハードウェアについて説明します。それから、私のハイブリッドアーキテクチャアプローチについて教えます。これは非常に強力なので、ぜひ最後まで見てください。
その後、実際の本番OpenClaw環境でローカルモデルを使っている実際のユースケースを紹介し、ローカルと完全にホストされたモデルの比較をお見せして、価格の見積もりも提供します。では、始めましょう。
ローカルモデルの実力を体感する
この動画を見ていて価値を感じているなら、ぜひチャンネルに「いいね」と登録をお願いします。では、もう一度言いますね。この動画を見ていて価値を感じているなら、ぜひ「いいね」を押して登録してください。さて、これでうまくいくか見てみましょう。
違いに気づきましたか。一方は無料で、もう一方はお金がかかります。どちらもWhisperモデルですが、一方はローカルで実行され、もう一方はOpenAIがホストするクラウドで実行されます。コストの違いを見てください。
ほとんどのユースケースでは、実際にはフロンティアモデルは必要ありません。ローカルのオープンソースモデルは、90%のユースケースで素晴らしい性能を発揮します。コストを削減し、セキュリティを向上させ、プライバシーを強化でき、ホストされたモデルだけを使う場合よりもパーソナライズされたものになります。
必要なハードウェアとその柔軟性
この動画の核となるコンセプトは、あらゆるNvidia RTXハードウェアで動作しますし、DGX Sparkをお持ちの方にも対応します。それが今日私が使うものです。最新で最も高価なRTXハードウェアも必要ありません。30シリーズや40シリーズのような古いRTX GPUでもローカルモデルを使用できます。
唯一の本当のトレードオフはモデルのサイズです。VRAMがたくさんあれば、より大きなモデルを搭載できます。より高度なユースケースに対応できます。VRAMがそれほど多くない場合は、ローカルでそれらの最先端のユースケースに対応できないだけです。でも大丈夫です。繰り返しますが、大多数のユースケースはかなり平均的なハードウェアで実行できます。
ここでの本当のポイントは、Opus 4.6やGPT-5.4のような完全にホストされたフロンティアモデルに、これらの本当に重いけれども単純なユースケースを与えたくないということです。トークンを大量に消費してお金をたくさん使っているだけで、全く必要ないのです。これらのフロンティアモデルは、実際に使用している絶対的な最先端のユースケースのために確保しておきたいのです。
LM Studioでローカル実行を簡単に
ローカルマシン、私のDGX Sparkで実行する方法ですが、どのRTXマシンでもこれを実行できます。それはLM Studioです。これが私のおすすめです。なぜなら、圧倒的に使いやすいからです。独自のインターフェースが付属していて、マシンに最も適したモデルを判断してくれます。本当にすべてをシンプルにしてくれます。
今日お教えするのは、ハイブリッドアーキテクチャと呼ばれるものです。クラウドでホストされるフロンティアモデルと、ローカルでホストされるオープンソースモデルの両方を使用します。
ハイブリッドアーキテクチャの設計思想
どんな感じか見せましょう。システムには2つの異なる部分があります。一部はクラウドモデル、ホストされたモデルによって提供されます。Opus 4.6やGPT-5.4のようなものです。これらはローカルでホストするには大きすぎるフロンティアモデルです。さらに、オープンウェイトさえ提供していないので、ローカルでホストすることはできません。
そして、RTX PCとDGX Sparkでホストする多数の素晴らしいモデルがあります。これらのモデルには、Qwen、Llama、GLMなどがあります。非常に強力なオープンソースモデルがたくさんあり、もちろんNvidiaが提供する最新リリースのNeotronもあります。
最も複雑なユースケースには、Opus 4.6とGPT-5.4のモデルを使用します。コーディング、あらゆるコーディング、特に実際のOpenClawシステムやエージェントワークフローの構築は、ほとんどの場合クラウドモデルで行うべきです。コードを書いてもらうには、可能な限り最高のコーディングモデルが必要です。
計画についてもそうです。複雑な計画を立てて、それを他のモデルに委任する場合、それは手に入る最高のモデルで行うべきです。
ローカルで実行できるタスクの幅広さ
さて、ここからが素晴らしいところです。それ以外のすべてはローカルモデルで実行できます。埋め込みのようなものはローカルで実行できます。これは、どれだけVRAMがあるかに関係なく、ほぼどんなコンピュータでも非常に簡単に実行できます。埋め込みとは、大量のテキストデータを取得して、大規模言語モデルで簡単に検索できるようにすることです。
そして、ローカルで処理することで、これらの埋め込みもプライベートに保たれることを覚えておいてください。これが、先ほどお見せしたように、ローカル対クラウドの重要な利点です。文字起こしも簡単にローカルで実行できます。文字起こしの反対側である音声、音声生成も非常に簡単にローカルで実行できます。非常に強力なテキスト音声変換モデルがたくさん存在します。
PDF抽出は、ローカルモデルにとって非常に簡単です。分類に関するものは何でも、これらのモデルにとって非常に簡単です。比較的小さなQwenモデルやNeotronは、分類を簡単に実行できます。これらのローカルモデルとチャットすることができ、個性もあり、チャットが本当に得意です。
コーディングやオーケストレーション計画を行っていない場合は、OpenClawやあらゆるエージェントシステム内でローカルモデルをチャットモデルとして使用できます。そして、これらのモデルは日々良くなっています。ローカルモデルで実行できるユースケースの数は増え続けています。ツール呼び出しが上手になっています。
コード記述、エージェントフローも上手になっています。これらのモデルはすべて日々良くなっています。ローカルモデルにオフロードできるユースケースを見つけ続けることができ、お金を節約し、プライバシーを向上させ、先ほど話したその他すべてを実現できます。今日はコーディングにローカルモデルを使わないかもしれませんが、すぐに使うようになるでしょう。
これらのオープンソースモデルは小さくなり、良くなっています。しかし、オープンソースモデルをいつ使うか、ChatGPTのような完全にホストされたモデルをいつ使うか、実際にどう考えればいいでしょうか。そして、どのユースケースが実際にオフロードできるかをどうやって知るのでしょうか。
3段階のワークフロー:実験・本番化・スケール
私は非常にシンプルなプロセスで物事を進めています。最初のステップは実験です。それは、さまざまなワークフロー、さまざまな自動化を試して、何が機能するかを見極めようとしているときです。その時点で使いたいのはフロンティアモデルだけです。
実験ステップでは、物事を理解していきます。つまり、さまざまなワークフローをテストし、それらが機能することを確認し、データが正しい場所に正しくフォーマットされていることを確認し、統合が正しく機能していることを確認します。これがすべて実験フェーズの一部です。
実験の後、それを本番化したくなります。繰り返し可能で確実に機能するようにしたいのです。本番化フェーズでは、まだフロンティアモデルを使用していますが、ここで見始めて考え始めます。「この部分はおそらくローカルモデルに置き換えられる」と。そして、スケールフェーズのためにどの部分をオフロードできるかを見極め始めます。これがローカルモデルへの移行の始まりです。
この時点で、ローカルモデルにオフロードする機会を探し始め、エッジケースをテストし、実際の本番データで使用するなどします。非常に繰り返し可能で、信頼できることを確認するだけです。
会社のことを考えると、これは従業員に全プロセスを書き留めさせるフェーズです。そうすれば、チームに参加する新人をトレーニングできます。本番化の後、スケールアップしたくなります。そこでローカルモデルに移行します。繰り返し実行するユースケースを見つけて、それらのフロンティアの高価なモデルと同じくらいうまくできるローカルモデルを探し始めます。
実際のアーキテクチャ構成
次に、実際のアーキテクチャはどのようなものでしょうか。私のものを図示して、あなたのものは少し違うかもしれないので、いくつかの異なるバージョンを図示します。私のOpenClawシステムはMacBook上にあります。そこから、GPUを提供する多数の異なるRTXおよびNvidia搭載マシンがあります。
ここに5090マシンがあり、ここにDGX Sparkがあるとしましょう。これらは基本的に、私がSSH接続するGPUとして機能しているだけです。SSH接続は、この外部GPUを、SSH接続元のコンピュータに接続するようなものだと考えることができます。
SSHは、ウェブサイトを訪問するようなものです。情報を前後に送信しているだけですが、他のマシンからそのマシンを制御できます。この場合、MacBookで5090マシンとDGX Sparkを制御していますが、基本的にGPUとして機能しているだけです。モデルはここに配置されます。
これらの異なるデバイス上に存在し、MacBookに提供され、MacBookがOpenClawをホストしている場所であり、それが接続の仕組みです。でも、そのようにする必要はありません。すべてを1台のマシンで実行したいとしましょう。それは全く問題ありません。
ここにPCがあって、これがOpenClawを実行していて、これが5090だとしましょう。すべてのローカルモデルはここにホストされます。クラウドがそこにあり、常にOpusやGPTのようなフロンティアモデルを呼び出すことができます。
OpenClawの素晴らしいところは、どこからでもこれができることです。今、携帯電話があって、携帯電話からTelegramを使用でき、これがOpenClawインスタンスと通信します。OpenClawインスタンスから5090を使用し、これらのローカルモデルに電力を供給します。もちろん、必要に応じてクラウドのフロンティアモデルをいつでも呼び出すことができます。
SSH接続の実践的な方法
実際にSSH接続する方法をどうやって知るのでしょうか。実際には、方法を知る必要はありません。OpenClawに頼んでやってもらうだけです。SSH接続したいマシンと同じローカルネットワーク上にいる場合から始めることができます。
単純に「SSH接続できるローカルネットワーク上のマシンは何ですか」と尋ねます。マシンにSSH接続するために必要なのは、ユーザー名、パスワード、IPアドレスだけです。IPアドレスは、OpenClawに「SSH接続できるローカルネットワーク上のマシンは何ですか」と尋ねるだけで見つけることができます。
私の実際のIPアドレスなので表示しませんが、ネットワーク上のさまざまなデバイスがリストアップされているのを見ることができ、そこに接続できます。そして、実際に方法を知る必要はありません。OpenClawにやってもらうように指示するだけです。
ローカルモデルに適したユースケースの特定
次に、ローカルモデルに配置するのに適したさまざまなユースケースを特定します。実際、OpenClaw構築の多くにCursorを使用しています。すでにかなり複雑なモデルルートのセットがあります。それをお見せしましょう。
ここに、すでにローカルモデルにオフロードできる可能性が高いと特定したユースケースがあります。それを知っている理由は、すでにAnthropicが提供する最高のモデルであるOpus 4.6から、より実務的なモデルであるSonnet 4.6に移行したからです。Opusほど優れてはいません。
これらのユースケースがより能力の低いモデルで実行できることをすでに示しているので、ここにあります。通知分類、企業ニュースの関連性、CRMコンテキスト抽出、これらすべてローカルモデルに簡単にオフロードできます。
Sparkには、LM StudioのQwen 3.5、350億パラメータモデル、30億のアクティブパラメータをダウンロードしました。それを選択して、テストしてみましょう。思考モデルです。ビジョンモデルでもあります。思考を簡単にオフにできますが、今はオンのままにしておきます。
それらのトークンを完全に無料で、DGX Sparkで実行しながら、どんどん処理しているのが見えます。1秒間に65トークンが得られました。私が言及したすべてのユースケースに十分です。
Cursorでのモデル統合
最初にすることは、OpenClawを構築しているCursorに飛び込んで、利用可能なすべてのモデルを提供する設定にそのモデルを追加するように指示することです。Spark Qwen 3.5 35B A3Bモデルを、使用できる利用可能なモデルとしてOpenClawに追加しましょうと言うだけです。そしてエンターを押します。
基本的に、Sparkに接続して、Sparkに到達する方法を知っていることを確認し、使用するモデルを知っていることを確認して、それを設定とOpenClawに追加するように言っています。それからテストします。機能することを確認します。それからユースケースの1つにプラグインします。
ちなみに、これが素晴らしいところです。実際にこれらすべてを設定する方法を知る必要はありません。Cursorを使っていますが、Telegram、OpenClawを通じて簡単に進めることができます。OpenClawはこれらのことをする方法を知っています。
実際にコーディングする必要はありません。自然言語で入力するだけで、やり方を知っています。モデルルーティングJSONで、Qwen 35 Sparkがあり、そこを正しく指し示してくれました。素晴らしい。Sparkホストの Qwenモデルを追加しました。完璧です。
完璧にルーティングされています。素晴らしい。実際にライブスモークテストを実行してくれました。素晴らしいです。結果が得られました。
Telegram統合とパフォーマンステスト
次に、OpenClaw Telegramにプラグインして、動作するか見てみましょう。このOSテストチャンネルがあります。実際のチャンネルIDを取得して、このチャンネルのチャットモデルを、今設定したQwenモデルにして、チャンネルIDをそこに貼り付けると、設定してくれます。
まず、どのモデルが読み込まれているか見てみましょう。スラッシュステータスを実行すると、ここにSpark Qwen Qwen 3.5 35Bと表示されます。完璧です。コンテキストウィンドウは256Kです。完璧です。では、「こんにちは」と入力してみましょう。
Qwenモデルが動作しているようです。これは本当にワクワクします。見てください。スラッシュステータスを実行しました。ここにSpark/Qwen Qwen 3.5と表示されています。素晴らしい。新しいセッションを開始しましたが、まだそこにあります。デフォルトはSonnetですが、現在Qwenモデルを使用しています。
100語の物語を書いてくださいと言ってみましょう。どう言うか見てみましょう。比較的速いはずです。見てください、速かったです。ほぼ瞬時でした。実際に非常に印象的です。
Sonnetに100語の物語を書いてもらうように頼んで、実際にクラウドに到達し、レスポンスが返ってくるまで、すべて合わせて約5〜8秒かかります。これはわずか数秒でした。ローカルで実行されているQwen 3.5とクラウドで実行されているSonnet 4.6の間で、1000語の物語で比較します。計時します。始めましょう。
信じられない。Sparkには128ギガバイトのユニファイドメモリがあるので、Neotron 3 Super 12BやQwen 3.5 122Bのようなはるかに大きなモデルも搭載できます。これらはそれほど速くありませんが、はるかに高性能で、速度よりも品質が重要なタスクに理想的です。
ハードウェアとモデルの最適なマッチング
モデルをハードウェアに合わせることが重要です。Neotronのような300億パラメータモデルはRTX 5090で素晴らしく動作しますが、完全な1200億パラメータバージョンはSparkに快適に収まります。実行しているものに対して、速度と能力の適切なバランスを選択できます。
他のRTXソフトウェアでもこれを実行できることを覚えておいてください。適切なハードウェア上で、適切なユースケースに適切なモデルを適切なサイズにすることです。実際、300億パラメータの範囲が完璧だと気づきました。
それ以上はあまり必要ありません。サイズと品質の完璧なバランスです。多くの消費者向けGPUに収まります。5090、おそらく4090、間違いなくDGX Sparkに搭載できます。さらに、使用できるさまざまな量子化があります。
具体的には、最近Gemma 4を使用しています。Neotronファミリーのモデルを使用しています。Qwenを使用しています。実際、これらが私が使用している主な3つです。抽出から分類、要約、テキスト音声変換まで。これらが私がローカルモデルを使用しているユースケースです。
実践的なユースケース:ナレッジベース
最初にお見せするのは、ナレッジベースのユースケースです。現在Sonnet 4.6を使用していて、お金がかかります。大量のリンクをここに投下していて、Sonnetで日次および週次のクォータをかなり使用しています。これは不要です。Qwenモデルを完全にローカルで、完全に無料で、制限なしで使用でき、同じくらいうまく機能します。
ナレッジベースの記事インジェスターを置き換えました。これは私が使用するユースケースです。記事やツイート、動画を投下すると、すべてを取り込み、埋め込み、この大きなデータベースに入れて、いつでも参照して呼び出すことができます。今はQwenで動いています。
リンクを投下します。エンターを押します。これでQwenを使用するはずです。ツール呼び出しを実行します。記事をスクレイピングして、データベースに取り込みます。素晴らしいのは、埋め込み部分がすでにローカル埋め込みモデルで実行されていたことです。そこで何も切り替える必要さえありません。
記事をスクレイピングして、Qwenがそれを要約してデータベースに入れます。たとえば、ナレッジベースの要約タスクを実行して、Qwenにオフロードしました。違いをお見せしましょう。
コストについては、月額12〜20ドルを支払っていました。サブスクリプションに月額約200ドルを支払っていて、限られたクォータしか得られません。実際の使用量で月額約12〜20ドルの見積もりです。今は完全に無料です。
尋ねているすべてのこと、保存したすべての記事、それは完全にローカルです。すでにすべてをローカルで埋め込んでいます。そして今、すべての質問と答えもローカルに保たれています。
CRM機能の実装
別のユースケースがあります。フロンティアモデルを使用したCRM機能をQwenに置き換えました。そして今、OpenClawでカスタム構築したCRMにそのQwenモデルを使用して質問できます。
スポンサー名を表示せずに、ドキシングしたくないので、単純に最後に話したスポンサーとの最後の会話を要約してくださいと言いました。これがあります。これは、この会社と最後に話したときのメールとビデオトランスクリプトの要約です。完璧です、ここにあります。
もう一度言いますが、フロンティアモデルには月額12〜20ドルでしたが、必要ありませんでした。今Qwenでは無料です。そして、ここが重要なところです。すべてがローカルに保存されていますが、質問を始めるとすぐに、以前はフロンティアクラウドモデルにヒットする必要があり、すべてのデータが彼らと共有されていました。でも今はまったくローカルに留まります。何もオフィスから出ません。
企業レベルでの実用性とNvidiaの戦略
今日お見せしたすべてのこと、コストの最適化、プライバシーとセキュリティ、パーソナライゼーションの最適化、これらは単なる趣味のハックではありません。フロンティアモデルで実験し、それらを抽出して本番化し、最終的にローカルモデルでスケールアップするというワークフローは非常に現実的です。
実際、Nvidiaはそれを非常に信じているので、オープンソースモデルNeotronの第3バージョンをリリースしたばかりです。彼らはオープンソースに非常に力を入れています。
実際、Nvidiaは、NeoClawと呼ばれるOpenClawの独自のエンタープライズバージョンも発表しました。これは、NvidiaのExtreme Code Designの実践です。彼らはハードウェアを構築しています。ハードウェアを制御するソフトウェアを構築しています。また、世界が使用できる完全に無料のモデル、オープンソースモデルを構築してリリースしています。
最後のメッセージ:ハイブリッドの未来
100億トークンを費やしてOpenClawを今日の状態にした後、教訓は明確です。私と同じ間違いをしないでください。できる限りユースケースをローカルモデルにオフロードしてください。Nvidia RTX GPUまたはDGX Sparkを使用すれば、エージェントワークフローを動かすローカルモデルを簡単に実行できます。
より安く、よりプライベートで、よりカスタマイズされていて、自分のデバイスで完全に実行されていることを知っているのは素晴らしいことです。今日はたくさんの異なるユースケースを見ました。私がやったようにローカルモデルにそれらをオフロードすれば、月に数百ドルのトークンクォータまたはトークンコストを節約できるでしょう。
完全にホストされたモデルを使用して月額300ドルを支払うこともできますし、これらのモデルをローカルで実行して電気代だけで月額約3ドルを支払うこともできます。未来はハイブリッドです。最も複雑なユースケースはクラウドに送られます。それ以外のすべてはローカルで実行されます。この動画を楽しんでいただけたなら、ぜひ「いいね」と登録をご検討ください。


コメント