最近のAIエージェントの進化により、コンピューティングの主体がクラウドから手元のローカルPCへと回帰している現状を解説する。RTX 5090、Mac Studio、DGX Sparkなどのハードウェア比較から、ランタイム、モデル、メモリ、インターフェースに至るまで、自分専用のパーソナルAIスタックを構築するための完全なガイドを提供する。プライバシーを保ちながら、個人のワークフローやデータにAIを直接連携させるための具体的な選択肢と戦略を詳解している。

- パーソナルAIコンピュータの再浮上
- クラウドとローカルの共存
- 所有とレンタルの境界線
- コンピューティングの歴史の繰り返し
- オープンウェイトモデルの進化
- ハードウェアの選択
- NVIDIAとAMDの選択肢
- ランタイムの重要性
- ランタイムの選択肢
- 高度なランタイム
- モデルの組み合わせと特化
- 個別のユースケースに合わせたモデル
- ワークロード別のモデル選定
- ツールキャビネットとしてのAI
- メモリ層:AIとあなたの人生を繋ぐ
- オープンな記憶システム
- 検索とパイプラインの構築
- データアクセスの境界と制御
- インターフェースの重要性
- ワークフローとAIの統合
- 推論コストからの解放
- 3つのユーザータイプと推奨スタック
- 知識の複利と未来への投資
- 主導権を取り戻す
パーソナルAIコンピュータの再浮上
今のAIについて最も奇妙なことは、あなたのデスクの上にあるコンピュータを再び重要なものにしているという点です。過去15年間、パーソナルコンピューティングの歴史は、基本的にコンピュータが姿を消していく歴史でした。あなたのファイルは誰か別の人のクラウドに移動しました。あなたのアプリはブラウザのタブになりました。あなたのストレージは何らかの同期システムになりました。あなたのOSは、他の人のインフラを起動するためのランチャーになりました。そして多くのソフトウェアにとって、それで問題ないように見えました。それは便利でしたし、当時は正しいトレードオフだったのかもしれません。しかし、エージェントがコンピューティングの進む方向を変えつつあります。なぜなら、役立つエージェントはただ質問に答えるだけではないからです。エージェントは実際の作業に触れたがります。ファイルを読み、フォルダを調べ、テストを実行し、スプレッドシートを編集したいのです。あなたのメモを挿入し、ブラウザを開き、あなたが下した決定を記憶し、最初の試みが失敗したときにはもう一度やり直そうとします。したがって、エージェントが役立つようになればなるほど、ファイルやプロセス、権限、メモリ、ローカルな状態、実行といった、コンピューティングの最も古い基本要素へと手を伸ばし始めます。だからこそ、パーソナルAIコンピュータが重要なのです。
クラウドとローカルの共存
ここで最初に一つ、簡単な注意点をお伝えしておきます。私はこのチャンネルで最先端のモデルについてよく話していますし、これからも話し続けるつもりです。最高のクラウドモデルは信じられないほど役に立ちますし、最も重要なトレンドの一つは、それらが私たちから遠ざかるのではなく、私たちのパーソナルコンピュータに近づいてきているということです。ですから、コーデックやクラウドコード、そしてコーディングエージェントの全クラスが重要になるのは、まさにクラウドモデルが今やあなたの目の前にあるマシンのリポジトリやターミナル、ファイル、ツールと対話できるからです。つまり、ここでの主張は、クラウドが悪くてローカルが良いというものではありません。ここでの主張は、AIがパーソナルコンピュータの奥深くまで入り込むにつれて、あなたにとっての所有権の問いがより鋭くなるということです。もしモデルがあなたのファイルに触れ、あなたの仕事を記憶し、あなたのツールを呼び出し、あなたのワークフローの中に組み込まれるのであれば、すべてがあなたのものとなるスタックのための余地がまだありますし、おそらくもっと多くの余地があるはずです。そしてそのスタックが重要である理由は、最も価値のあるAIの仕事の一部が、抽象的に見て最も難しい仕事ではないからです。それは最先端のクラウドモデルを必要とするような仕事ではありません。あなたのメモ、あなたの会議、あなたのドラフト、あなたの未完成のプロジェクト、あなたの奇妙なフォルダシステムなど、あなた自身のコンテキストに最も近い仕事なのです。
所有とレンタルの境界線
そしてあなたにとっての課題は、そのうちのどの部分を引き続きレンタルし、どの部分を所有すべきかということになります。モデルが継続的に改善され、そのワークフローの境界が変わり始める中で、どのように意図的にそれについて考え始めるべきでしょうか。ほんの数ヶ月前でさえ、オープンソースモデルは私が今説明したようなことの多くをまったく実行できませんでした。そして今でも、それらはクローズドソースの最先端モデルほど優れてはいませんし、ChatGPT 5.5のようなモデルに任せられるほどの面倒な作業をすべて任せることはまだ到底できません。しかし、それらは確実に大きく進歩しています。特にプライバシーを重視する場合や、コンピュータ上に機密性の高い情報がある場合は、少なくともワークフローの一部について検討する価値があります。ですので、この動画の最後までには、パーソナルAIスタック全体に対するメンタルモデルを持っていただきたいと思っています。どのGPUを買うべきか、今週はどのモデルが最高かというだけでなく、マシン、ランタイム、モデル、メモリ、アプリ、そしてそもそもローカルAIを所有する価値を生み出すワークフローといった実際のスタックについてです。なぜなら、あなたが犯す可能性のある最大の失敗は、ベンチマークのプロンプトを実行するか、メールを処理することだけが仕事の、非常に高価なコンピュータを買ってしまうことだからです。それは多くの人がMac miniやopen clawでやっていることです。パーソナルコンピュータの最高のバージョンは、それよりもはるかに魅力的です。それは、AIがあなたのコンピューティングライフの残りの部分に接続でき、なおかつあなたがプライバシーを保てる、耐久性のある場所を構築することなのです。
コンピューティングの歴史の繰り返し
ここには、見過ごされがちな歴史的な名残があります。パーソナルコンピュータが登場する前、支配的なモデルは実はタイムシェアリングでした。誰か別の人のメインフレームで計算リソースをレンタルしていたのです。待ち行列に並び、会うこともないオペレーターが設定したルールの中で作業していました。最初のパーソナルコンピュータは、純粋なパワーでそのメインフレームに勝ったわけではありません。彼らが勝ったのは、人とマシンとの距離を縮めたからです。AIも同様のチャンスを生み出しています。最先端のモデルは依然として最も困難なタスクにおいて優れており、しばらくは優位性を保ち続けるでしょう。しかし、個人の仕事のほとんどは月へ行くような壮大なベンチマークではありません。個人の仕事のほとんどは面倒で、繰り返されるものです。それほど巨大なものでもありません。プライベートであり、コンテキストが重要になります。会議で何を決定したか教えてほしい、このドラフトを見つけてほしい、このリポジトリを見てテストが失敗している理由を説明してほしい、フォローアップのメモを作ってほしい、あるいは日記プログラムの作成を手伝ってほしい、といった具合です。そうした仕事はすべて、あなたのファイルやツール、メモリ、そしてあなたがすでにパーソナルコンピューティングを行っている場所にモデルが存在することから恩恵を受けます。それらすべてがクラウドに切り離されてしまうと、あなたが管理してほしいファイルやフォルダのすべてにAIが一つのコンピューティングスペースで触れることが難しくなります。
オープンウェイトモデルの進化
そして率直に言って、多くのエンタープライズワークフローが、クラウドモデルをAzureやAWSに接続されたローカルのメモリファイルシステムと結びつけるための多くの仕組みを伴っているのはそのためです。彼らは本質的に、私がここで企業向けに説明していることと全く同じことの大人向けエンタープライズ版をやっているのです。原則は同じです。作業を行う必要がある場所の近くにモデルを置きたいのです。そして、もしあなたがローカル環境を構築したいのであれば、オープンウェイトのエコシステムは現在、これがもはや理論上の会話ではないと言えるほどの速さで動いています。Metaの実用的なオープンウェイトのラインナップは、もはや古いLLaMA 3の物語だけではありません。Llama 4 ScoutとLlama 4 Maverickは、そのLLaMAの系譜を混合エキスパートモデルへと移行させました。そこでの重要な問いは、モデルの大きさではなく、各トークンに対してモデルのどれだけの部分が実行されるかということです。OpenAIにはGPTOSS 20 billionとGPTOSS 120 billionがあり、これらはApache 2.0の下で提供されるオープンウェイトの推論モデルです。これらはChatGPTではありません。通常のOpenAI APIを通じて呼び出すモデルでもありません。あなたが管理するインフラストラクチャ上であなたが実行する重みデータです。Qwenは、エージェント、コーディング、多言語作業、そしてツールの使用において、最も重要なローカルモデルファミリーの一つになりました。GoogleのGemma 4は、より寛容なライセンスの下で、真剣な能力をより小さなローカルモデルにまで押し下げました。これはopen clockのために設計されています。Mistralの新しいオープンモデルは、大規模な最先端スタイルの導入と効率的なローカル導入の両方を満たしています。そして4月24日には、DeepSeekがProとFlashのバリアントを持つV4のプレビューを公開しました。これは、今日作成したモデルのリストはすぐに古くなり始めるということを思い出させてくれます。それがポイントなのです。モデルのリストは耐久性のあるものではありません。耐久性があるのはスタックなのです。
ハードウェアの選択
これを正しく構築すれば、単一のモデルの専用機を買うことにはなりません。時間が経つにつれて進化させることができるローカルの基盤を構築することになります。新しいモデルを導入できます。新しいランタイムで古いものを置き換えられます。新しいメモリストアを追加できます。新しいエージェントが同じツールを呼び出すことができます。ナレッジベースを奪われることなく、新しいインターフェースが登場する可能性があります。パーソナルAIコンピュータは、一つの芸しかできない密閉された箱であってはなりません。それは、AIの残りの部分がコンピューティングの残りの部分に接続できる場所であるべきです。ですから、最も華やかではない部分、つまりハードウェアから始めましょう。ここは人々が罠に陥りやすい場所です。なぜなら、誰もが一つだけの普遍的な答えを求めているからです。MacかNVIDIAか、CUDAタワーかDGX Sparkか、今すぐ買うべきか待つべきか。唯一の答えなんてありません。なぜなら、ローカルAIはメモリ容量、帯域幅、アクセラレータのサポート、ソフトウェアの成熟度、冷却、電力、騒音、そして何より厄介なこととして、あなたが毎日何をするかによって制約されるからです。ですから、最高のAIコンピュータは何かと尋ねるよりも、あなたがどのローカルワークロードを自分のものにしようとしているのかを尋ねる方が良いのです。もしあなたがスタックを学んでいる段階で、プライベートな文書検索を実行し、ローカルでの執筆やコーディングの支援を受け、もしかしたら音声の文字起こしも行うというのであれば、つまらない答えですが、十分なユニファイドメモリを積んだ最近のMacで十分です。M4 Proと64ギガを搭載したMac Miniは素晴らしい入門機です。128ギガ、あるいは256、さらにそれ以上の512ギガのユニファイドメモリが欲しくなると、Mac Studioが面白くなってきます。ここでのMacの強みは、生のテンソル処理能力ではありません。強みはユニファイドメモリであり、低騒音であり、電力効率の良さであり、そしてそのマシンがプロジェクトではなく一つのコンピュータのように感じられるという事実です。
NVIDIAとAMDの選択肢
そしてこちらがCUDAの道です。RTX 5090は32ギガのGDDR7を提供してくれます。早口で5回言ってみてください。素晴らしい処理能力です。これを2枚使えばカードをまたいで64ギガになります。しかし、それは1つのきれいな64ギガのメモリプールではありませんよね。その見返りとしてスピードとエコシステムのサポートが得られます。ですから、あなたはドライバ、熱、電力、シャーディング、そしておそらくメンテナンスのコストに対処することになります。それをしっかりと考えなければなりません。そしてNVIDIA DGX Sparkがあります。これはNVIDIAの道のアプライアンス版です。デスクの上にGrace Blackwellチップが乗ります。128ギガのコヒーレントなユニファイドメモリが得られます。ただの部品リストではなく、ローカルの推論とファインチューニングを中心としたNVIDIAのソフトウェアスタックと製品ストーリーが得られます。それはすべてのカスタムマシンに勝つという意味ではありません。タワーを自分で組み立てることなくCUDAネイティブのローカルAIが欲しいなら、お金を払う価値があるかもしれない形でNVIDIAスタックをパッケージ化しているということです。AMDのStrix Haloシステムは、ここでは一種のバリュー重視のワイルドカードですね。ハードウェアのストーリーは魅力的です。しかしソフトウェアのストーリーは依然としてCUDAよりも成熟しておらず、Appleのシリコンよりも摩擦が多いのが現状です。
ランタイムの重要性
これが本当の購入ルールへと私たちを引き戻します。記事で読んだ最大のモデルに合わせて買わないでください。毎日実行するものを買ってください。もしその仕事がプライベートな執筆やメモ、文書、会議に関するものなら、メモリとシンプルさを買ってください。もし仕事がコーディングエージェントでありスループットが必要なら、CUDAを買ってメンテナンスを受け入れてください。もし仕事が長いコンテキストを持つ個人の記憶に関するものなら、ストレージを買い、ユニファイドメモリを買い、本物のデータベースを買ってください。もし単に実験しているだけなら、今持っているものから始めてください。箱が届く前に、その箱に与える仕事を決めておく必要があります。だからその作業をしてください。マシンが存在するようになったら、次の問題は、そのソフトウェアがマシンをツールのように感じさせてくれるのか、それとも単にあなたの時間に対する税金のように感じさせてしまうのかということです。ここでランタイムが本当に重要になってきます。重みをロードし、推論を提供し、量子化を処理し、APIを公開し、バッチ処理を管理し、あなたの高価なハードウェアが実際に使われているかどうかを決定するのはソフトウェアです。ほとんどの人はこの層を過小評価しています。なぜなら、モデルの名前ほどエキサイティングではないからです。しかしランタイムは、ローカルAIがコンピュータの通常の一部のように感じられるか、それとも回復する機会のなかった週末のように感じられるかの違いを生み出します。
ランタイムの選択肢
この多くを根底で支えている基盤がllama.cppと呼ばれるツールです。たとえ直接呼び出すことがなくても、自分自身のスタックを実行するなら常にその恩恵を受けています。これはGGUFという一般的なローカルモデルのフォーマットを作るのに役立ちました。CPU、Apple Metal、CUDA、Vulkanなどをまたいで動作します。そしてほとんどの人にとって、その上で動かすランタイムは依然としてOllamaであるべきです。常に最速だったり最も設定しやすかったりするわけではありませんが、クリーンなコマンドラインインターフェース、ローカルサーバー、シンプルなモデルレジストリ、そして他のツールが対話できるOpenAI互換の表面を提供してくれます。これによって、特にクラウドモデルに慣れている場合、ローカル推論がごく普通のことのように感じられます。ここで、私が使っている技術用語について少し触れておきます。この動画で非常に専門的な用語をたくさん使っていることは承知しています。でも怖がらないでください。もし自分自身のローカルスタックを構築したいなら、本当にMac Miniから始めることができます。そしてこの動画の最後に、あなたが目指すワークロードに応じてどのアプローチを取るべきかを理解するのに役立つよう、複数の複雑さの度合いにわたる完全な分解解説を提供します。だから技術用語に怯えないでください。実際、この動画のトランスクリプトをあなた好みのAIに読み込ませて、私が言及している技術用語がそれぞれ何を意味するのかを説明させることもできます。では続けましょう。
高度なランタイム
もしもっと洗練されたランタイムを使いたいなら、LM Studioはモデルと量子化をテストするための洗練されたワークベンチです。Appleネイティブの何かを使いたいなら、Apple Silicon上ではMLXが重要になります。なぜならそれがよりネイティブなパフォーマンスの経路だからです。そしてNVIDIAのハードウェア上で実際のワークロードを提供するなら、vLLMから話が本当にレベルアップし始めます。バッチ処理、OpenAI互換の提供、そしてチームや内部製品に十分なスループットを処理します。それを超えると、SGLangやTensorRT-LLM、さらにはNVIDIA NIMにまで取り組むことができます。これらはすべて本格的なデプロイメントの階層向けです。そこでは、レイテンシ、構造化された生成、エージェント、そして提供の経済性といった話題に入り、どれだけの作業をこなせるかによって構築の複雑さを正当化できるようになります。しかし実用的なデフォルトはシンプルです。日常使いにはOllama、評価にはLM Studio、Mac側に取り組んでいるならおそらくMLX。提供がインフラストラクチャになる場合はvLLM。そしてCUDAにコミットしたなら、より深いNVIDIAのスタックです。
モデルの組み合わせと特化
ここで何が起こったか注目してください。私たちはまだモデルを選んでいません。これは意図的なものです。ランタイムの層が健全であれば、モデルは非常に簡単に交換できるようになります。もしランタイムの層が脆ければ、新しいモデルを導入するたびに移行作業が発生し、多くの苦痛を伴います。さて、モデルの層は最も大声で議論が交わされる場所であり、同時に最も早く陳腐化する場所でもあります。ですから私は、パーソナルAIコンピュータを単一のモデル名を中心に構築することはありません。特定のワークロードに向けたモデルのクラスを中心に構築します。たとえば、おそらく安価な呼び出しのための高速なローカルモデル、より強力なローカルの汎用モデル、コーディングをしているならコーディングモデル、記憶のための埋め込みモデル、音声モデル、おそらくはビジョンモデル、そしてもちろん、必要であれば依然としてそれに値する仕事のための最先端のクラウドのフォールバックを求めているはずです。私がここで説明しているパーソナルAIコンピュータは、必ずしも反クラウドというわけではありません。ただ反依存というだけです。クラウドモデルに依存したくないのです。
個別のユースケースに合わせたモデル
そして一般的な作業において、ローカルの状況には今や現実的な選択肢があります。Llama 4 ScoutとMaverickは重要です。なぜなら、それらがオープンエコシステムがどこへ向かっているかを示しているからです。それらは混合エキスパートモデルを持っています。マルチモーダルなアプローチ、より長いコンテキスト、展開におけるより多くのニュアンスがあります。GPTOSSが重要なのは、OpenAIが寛容なライセンスの推論モデルをセルフホストの世界に公開したからです。Qwenが重要なのは、多くのエージェント、コーディング、多言語作業、ツールの使用においてデフォルトのファミリーになったからです。Gemmaが重要なのは、Googleがopen clawタイプのアプリケーション専用に設計された、非常に能力の高いローカルモデルをより小さなサイズへと押し下げているからです。Mistralが重要なのは、強力なエンタープライズおよびデプロイメントのストーリーを持つ、本格的なオープンウェイトの代替手段を提供し続けているからです。しかしここでの最も重要な収穫はこれです。すべてのユースケースで勝利する単一の正解のモデルなど存在しないということです。AIのための強力なパーソナルコンピュータをセットアップする際に行っていることの一部は、私にはどのようなモデルの組み合わせが必要か、と自問することなのです。そして私が皆さんに提供したいのは、その選択肢の感覚と、その選択をする際に使う論理的根拠です。
ワークロード別のモデル選定
たとえばコーディングにおいて、一つのモデルにすべてをやらせたくはないはずです。小さなオートコンプリート用のモデル、リポジトリを認識するエディタモデル、そしてデバッグや移行などのアーキテクチャ変更のためのより深い推論モデルが必要です。ドキュメントを扱うなら、意味的な記憶を正しく検索できるように、埋め込みモデルと埋め込みをどう処理するかについて考える必要があるでしょう。ここではQwenの埋め込みモデルが優れていますが、他にもスタックに合う選択肢はあります。埋め込みモデルは実行コストが非常に安いです。キャッシュしやすく、クラウドには送らないコアとなるドキュメントのプライベートなセットを重視するなら、プライバシーの中心となります。あなたのドキュメントが単にベクトル化されるためだけにマシンから離れてしまっているとしたら、ローカルAIにおける最も簡単な勝利の一つを逃していることになります。音声について言えば、Whisperが依然として基準点です。ローカルでの文字起こしは速くてプライバシーが守られますし、ハードウェアを所有していれば非常に経済的です。ビジョンモデルに関しては、ドキュメントのスクリーンショットやチャートの抽出において、ローカルモデルはついに十分なレベルに達しました。すべての視覚的な推論においてではありませんが、多くの個人的なメディア検索や作業においては十分であり、それはあなたのスタックに含まれるべきです。
ツールキャビネットとしてのAI
最終的に、あなたのモデルポートフォリオは、お気に入りのチャットボットを選ぶというよりも、ツールキャビネットを構築するような感覚に近くなるはずです。高速なループのための小さなモデル、困難なローカル作業のためのより大きなモデル、コード編集、コード生成、メディアのさまざまな側面について私が説明してきたような特化したモデル、そして最先端のケースのためのクラウドモデルです。原則は、ランタイムを所有し、例外的なケースでのみクラウドモデルをレンタルするということであるべきです。ここまで聞いて、これらをすべてやらなければならないのか、すごく手間がかかりそうだ、クラウドモデルだけを使うことはできないのか、と疑問に思っている方がいるかもしれません。答えは、もちろんクラウドモデルだけで構いません、ということです。そして多くの人にとってそれが答えになるでしょう。しかし、私の視聴者の中には、自分自身のローカルスタックに伴うプライバシーを重視する人がたくさんいることを私は知っています。そして、自分のワークフローに沿った形でそのスタックを構築できるツールを持っていただきたいのです。私が目にする多くの動画は、自分自身のパーソナルコンピュータを構築するのには非常に役立ちますが、自分がどのスタックを使うべきかを決定するのには役立ちません。おそらくそれこそがより重要なことなのにです。取り組むべきワークフローを把握し、それに合ったスタックを構築してください。それがここでの私の本当の焦点です。私は皆さんに、掘り下げることができるたくさんの選択肢を本質的に提供しています。もし完全なパンチリストが欲しいなら、ええ、もちろんSubstackに載せておきます。
メモリ層:AIとあなたの人生を繋ぐ
私たちのスタックの話に戻りますと、これを単なるおもちゃからインフラストラクチャへと実際に変える層がメモリです。そしてこれが、人々が過小評価して十分に構築しない傾向がある部分だと私は考えています。モデルは状態を持ちませんが、あなたの人生は状態を持たないわけではありません。あなたは物事を記憶します。永続的な記憶と共に人生を歩みます。役立つパーソナルAIシステムもまた、モデルの外側に永続的なメモリを必要とします。メモ、文書、トランスクリプト、メール、タスク、カレンダーのイベント、コードの決定、調査、好み、そして長期的なプロジェクトの状態といった感覚を必要とします。ですから、あなたの最も重要なアーキテクチャ上の決定は、このメモリがモデルプロバイダーではなく、あなたに属するべきだということです。それが私がOpen Brainを構築した理由です。
オープンな記憶システム
Open BrainはオープンソースでGitHubから利用可能なメモリシステムであり、これを使えば使いやすいサーバーが付随したSQL駆動のデータベースアプローチによるメモリを構築できます。しかし最近では埋め込み管理システムも追加したので、アンドレイ・カルパシーのようなハイブリッドなメモリシステムを構築できるようになりました。カルパシー的なメモリのアプローチでは、多くの異なる相互にリンクされ織り込まれた埋め込みが関係し、複数のドキュメントを同時に理解するのに役立ちます。また、SQLのアプローチでは、事実を整然とした方法で保存し分類することができます。ですので、これは検討すべきことの一つです。もちろん、これを解決するためにOpen Brainを使う必要はありませんが、私がこれを構築したのは、AIの時代においてメモリは非常に高いレバレッジを持っており、特定のクラウドプロバイダーに縛られないように自分自身のメモリを管理することが重要だと考えているからです。結局のところ、クラウドファーストのモデルでは、AIサービスはあなたのメモリを所有したがります。そしてあなたは自分のメモリを訪問する立場になります。一方、私がここで説明しているパーソナルコンピュートのモデルでは、あなたがメモリを所有し、あなたがモデルをレンタルすることを選択した場合に、モデルの方からあなたのところへやってくるのです。そしてこの逆転こそが全体の核心です。これがあなたの人生のソースマテリアルなのです。
検索とパイプラインの構築
あなたのメモリはどこか永続的な場所に存在するべきです。もしOpen Brainを使いたくないなら、Obsidianを使うのも良いでしょう。それはデフォルトの一つです。ドキュメントがたくさんある場合、多くの定量的なストレージや事実の保存ほどうまく機能しないかもしれませんが、作業のほとんどがドキュメントで行われているなら、コントロール可能なフォルダ内のMarkdownとして保存されます。もちろんObsidianを使うこともできます。プレーンなMarkdownとGitを組み合わせている人もたくさん知っています。それは退屈で不滅のバージョンのようなものです。構造化された作業であれば、メモよりもPostgresを使う方がいいかもしれません。だから私はOpen Brainをそのように構築しました。しかし全体としてのメモリの重要な特性は非常にシンプルです。AIアプリが消滅したとしても、あなたの知識は存在し続けるということです。
次に検索機能が必要です。多くの本格的なシステムにおいて、PG vectorを使ったPostgresは大人のデフォルトの選択肢です。なぜならリレーショナルデータとメタデータ、権限、ベクトル検索をすべて一つの場所に保持できるからです。SQLiteとSQLite Vecの組み合わせは、軽量な個人向けバージョンです。一つのファイルで済みます。バックアップも理解するのも簡単です。さて、ほぼ誰もが間違える部分がパイプライン側です。優れた検索機能とは、すべてのドキュメントをチャンクに放り込んであとは祈るというものではありません。ちなみに、これを聞いて複雑そうだなと思っている方のために言うと、Open Brainはチャンク分割の戦略、検索戦略、入力と分類の戦略の多くをあなたに代わって処理してくれます。ですから、もし気に入ればそれが選択肢の一つになります。しかしここでのポイントは、データの種類が違えば必要なメモリ処理も異なるということであり、それを事前に考えておかなければならないということです。
データアクセスの境界と制御
PDFはMarkdownとは異なる処理を必要とします。会議のトランスクリプトには発言者が必要で、タイムスタンプも必要です。コードにはシンボルを認識するインデックス付けが必要です。メモはリンクが保持される必要があります。何が変更され、何がインデックス付けされ、より優れた埋め込みモデルが登場したときに何を再生成すべきかを知る必要があります。だからこそ、生データ、埋め込みデータ、データベースをそれぞれ別々に持っておくことが非常に重要なのです。そうすれば、何か問題が起きたときにいつでも再構築できるからです。メモリシステムで問題が起きる時のほとんどは、モデル自体ではなくパイプラインが原因です。たとえばパイプラインがチャンク分割戦略にどう影響したか、検索を処理する能力にどう影響したかなどを考えなければなりません。そしてMCPが面白くなるアクセス層があります。Open BrainはMCPを持っています。データベースの前に置かれたMCPサーバーによって、ClaudeやChatGPT、あるいはあなたが望むあらゆるカスタムツールにそのメモリをクエリさせることができます。それは正しい方向性です。
インターフェースの重要性
しかし、何かの前にMCPがあるというだけで、それを魔法のように扱えるとは思わないでください。MCPサーバーは単なる実行可能なツールの表面にすぎません。それらがうまく機能するためには、依然として権限、ロギング、シークレット管理、そして境界が必要です。あなたのパーソナルAIコンピュータは、どんなモデルでも何にでも呼び出せるローカルツールの単なる寄せ集めであってはなりません。それはあなたが意図的に設定した、所有されたシステムであるべきです。それが、役立つローカルな知性と、モデルに車の鍵を渡してすべてがうまくいくことを祈るだけとの違いなのです。次の失敗パターンはインターフェースです。快適なインターフェースを持たない素晴らしいランタイムは、その中にいないために一週間後には使うのをやめてしまうようなセットアップにすぎません。だからこそローカルAIはターミナルの中だけに存在していてはならないのです。モデルはあなたの仕事が存在する場所に存在しなければなりません。
チャット用にはOpen WebUIのようなものが使えます。検索を非常に重視したい場合は、AnythingLLMを検討する価値があります。LM Studioは直接的なモデルの操作に適しています。現在のワークフローに合っていると感じられるインターフェースのツールを選べばいいのです。エディタについても同じ原則です。Continueは明らかな架け橋の一つです。OpenAI互換のエンドポイントを指し示すことができるからです。ターミナルベースのコード編集にはAiderが依然として非常に優れています。そして、あなたが連携したいと考えるであろう非常に似たパターンへと収束しつつある、コーディングエージェントのクラス全体が存在します。モデル、ツール、リポジトリ、コンテキストを計画ループの中で組み合わせるのです。コーディングをしているなら、クラウドモデルを使おうがローカルモデルを使おうが、これが実際の仕組みです。
ワークフローとAIの統合
ランチャーやコマンドインターフェース、モデルを動かすためのものについては、退屈なツールのほうがあなたが思っている以上に重要です。RaycastやAlfred、ショートカット、シェルコマンド、小さなメニューバーアプリ、LLMのコマンドラインインターフェースなどです。パーソナルAIコンピュータは基本的に、LLMと話すためだけにチャットボットを開くことを要求するべきではありません。エディタから、メモから、ブラウザから、Finderから呼び出せるべきです。お分かりですね。コンピュータ内のどこにいても、ただ話したり入力したりするだけでLLMにアクセスできるべきなのです。ここでは音声機能が過小評価されています。なぜなら、ホスト型の音声アシスタントがここ数年、全員に失望を期待するように訓練してしまったからです。しかし今、ローカルの音声機能は違います。Whisperが文字起こしを処理します。ローカルまたはハイブリッドのモデルが意図の解釈、クリーンアップ、要約、ルーティングを処理します。
そしてインターフェースの原則は、単にたくさんのAIアプリをインストールするということではありません。探しているものをただ言葉にし、それがあなたの求めているものを下層の単一のスタックに送り込むということです。原則は、多くのインターフェースと、その下にある一つのスタックです。ですから、エディタ、メモアプリ、ブラウザ、ランチャー、ターミナル、そしてボイスレコーダー、これらはそれぞれ別々のメモリ層を持つべきではありません。それらは同じローカルランタイムと同じメモリ層を呼び出すべきであり、そうすれば実際にうまく機能します。これは多くの製品があなたに提供しない部分です。なぜなら彼らのビジネスモデルは、入力チャンネルの下にあるメモリを所有することに依存しているからです。そのため、会議のトランスクリプトのようなメモリを特定のクラウドモデルの中に蓄積させることになります。そして二度とそれを取り出すことができなくなります。
最後に考えるべき層は、ワークフローをどこに置きたいかということです。ここで「モデルをローカルで動かせるか」という問いをやめ、「モデル自身を超えて、今や私がコントロールできるワークフローは何か」という問いを始めることになります。パーソナルRAGや、先ほどOpen Brainのところで説明したようなパーソナルメモリシステムのワークフローの管理について考えているなら、それは依然としてクリーンな最初の勝利です。メモやドラフト、PDFのインデックスを作成できます。データベースを作成できます。そこの価値は一般的な検索ではありません。時間の経過とともに、自分の仕事の長期的な組織的な記憶を実際に構築できるという点にあります。最先端のモデルは公開されているインターネットを読み込んでいるかもしれません。しかし、あなたの過去数年間の会議のメモは読んでいませんし、読む必要もありません。
推論コストからの解放
プライベートなコーディングはもう一つの明白なループです。リポジトリにアクセスできるローカルのコーディングアシスタントは、今やオートコンプリート以上の多くのことができます。リファクタリングができます。テスト生成ができます。ドラフト作成ができます。コード側で最先端のモデルができることには及ばないかもしれませんが、多くのことができます。そして最も困難なタスクには最先端モデルを使い続ければいいのです。繰り返しますが、私が強調し続けているのは、これは厳密なルールの話ではないということです。どこで戦うかを選ぶという話にすぎません。そして現在、ローカルモデルは、世の中にある多くの単純なソフトウェアの問題において、自律的なループがデフォルトで機能するほど十分に優れています。
会議の記録もその一つです。ローカルのWhisperとローカルの要約ツールがあれば、録音して、文字起こしして、要約して、決定事項を抽出し、タスクを作成し、その結果をメモリ層に保存することができます。音声がマシンから出ることは決してありません。時間単位の文字起こしの請求もありません。1年間すべての通話でそれを実行でき、時間が経つにつれていろいろなものが見え始めるでしょう。あなたの決定事項は検索可能になります。あなたがした約束は、取り出して確認できるものになります。あなたの繰り返し行われる会話は、事実上あなたが所有するプライベートな組織的記憶の一部となります。
長期間稼働するエージェントもまた、推論がローカルで行われるようになると、より経済的な意味を持ち始めます。クラウドのAPIは高価ですよね。お金を払いたくないために、心理的にあまり多くのトークンを実行したくないと思うかもしれません。しかし、電気代というコストにしか制限されていなければ、本当に長く稼働する自律的なループを設定する気になりやすいでしょう。これこそまさにOpen Devinなどの現象で見られることです。人々はローカルコンピュータを設定し、エージェントを常にオンにしたままにしています。調査と統合は、おそらく今後も長期間にわたって少なくとも部分的にはハイブリッドであり続けるでしょう。なぜなら、ローカルモデルは検索して整理して要約してコンテキストを準備することができますが、非常に難しいコーディングの問題に最先端モデルが必要とされるのと同じように、高度な統合や調査タイプの問題には最先端のモデルが必要だからです。
3つのユーザータイプと推奨スタック
さて、この時点で、購入の決定はずっと明確になると思います。必要なスタックに戻って、3人の人物を想像してみてください。1人目はローカルファーストのナレッジワーカーです。彼らは執筆し、調査し、少しコードを書き、機密性の高いドキュメントを扱い、ホームオフィスを複雑なサーバールームに変えることなくプライベートなAIを求めています。その人はおそらく、64ギガを搭載したMac Mini M4 Proか、予算が許せば128ギガを搭載したMac Studio M4 Maxから始めるべきでしょう。Ollama、LM Studio、おそらくMLXを使用し、ローカルの埋め込みモデルか何らかのローカルメモリシステム、Whisper、Open WebUI、Continue、そしてSQLiteとObsidianを混ぜたような非常にシンプルな検索スタック、またはMarkdownを持つものとOpen Brain側のデータベースを持つものを使うでしょう。それほど複雑ではありません。名前がたくさん並んで大変そうに聞こえるかもしれませんが、これらをLLMに読み込ませれば、何を調達し、どの順番でセットアップする必要があるかというパンチリストを文字通り出力してくれます。私のSubstackにも詳細な記事があります。そしてその人は、難しい作業のために1つの最先端モデルのサブスクリプションやAPIアカウントを保持し続けることができます。もしあなたがこれに当てはまるなら、これが妥当なデフォルトになります。クラウドが無関係であるかのように振る舞うことなく、プライバシー、スピード、所有権、そして日常使用に十分な能力を手に入れることができます。
2人目は、おそらくローカル至上主義者です。クラウドに対する欲求なんて耳に入りません。いやいや、プライバシーが絶対に必要なんだ、というタイプです。つまり、プライバシーを求め、コンプライアンスを求め、主権を求め、依存せずにコアな作業を実行したいと考えています。その時点で、大容量メモリのMac StudioかDGX Spark、あるいはそれに類する本格的なワークステーションを検討することになります。完全な制御を可能にする何かを持たなければなりません。NVIDIAのミニスタックを検討するかもしれません。メモリ層はPG vectorを備えたPostgresのようなものになり、ツールはおそらく権限と監査ログを備えたMCPの背後に置かれるでしょう。正直に言って、これは最も安価な構築ではありません。しかし、ローカルのテーゼを最もきれいに表現したものです。ローカルモデル、ローカルメモリ、ローカルツール、ローカルワークフローです。そして自由に使い倒すことができます。
最後になりましたが、ローカルファーストのビルダーがいます。ソフトウェアを構築し、エージェントを実行し、製品をテストしたり、クラウドの推論費用を削減しようとしている開発者や小規模なチームです。その人はおそらく、CUDAのスループット、提供、評価、そして再現性をより気にかけます。ですから、デュアルのRTX 5090、ワークステーションGPU、DGX Spark、あるいはローカルとクラウドのGPUを混在させたセットアップを手に入れるかもしれません。提供にはvLLM、プロトタイピングにはOllama、そしてデプロイの効率が重要な場合にはTensorRT-LLMやNIMを使用します。ここでの原則はシンプルです。ローカルモデルが開発の大部分を吸収します。プライベートなデータを処理します。バッチジョブや大量の内部ループを処理する機会を提供します。ローカルで処理することで、その経済性が積み重なり始めます。価値を追加するために、ローカル推論がホストされた呼び出しをすべて一つ残らず置き換える必要はありません。購入資金を回収できたと感じられる程度の、反復的でプライベートな大量の作業を吸収するだけでいいのです。そしてそれが重要な違いです。
知識の複利と未来への投資
最終的に、パーソナルAIコンピュータは純度テストではありません。それは単なるルーティングシステムです。一部の作業は、それがプライベートであり安価であり、反復的またはコンテキストが重いという理由でローカルにとどまります。一部の作業は、それがまれであり困難であり、価値が高いか、あるいは最先端のモデルを必要とするという理由でクラウドに行きます。その力は、クラウドプロバイダーが望むデフォルトにただ従うのではなく、あなたが決定することから生まれます。このスタックを構築する長期的な理由は、コスト削減ではありません。コスト削減も実際にあり得ますが、より深い理由は、時間をかけて知識を複利で増やしていくことにあります。だからこそ私はメモリについてたくさん話したのです。すべてのプロジェクト、メモ、会議、決定、修正、好み、そしてワークフローが、あなたが所有するメモリシステムの一部になることができます。時間の経過とともに、パーソナルAIコンピュータはチャットボットというよりは、あなたの仕事の上にあるオペレーティング層のようになっていきます。
モデルは数ヶ月ごとに変わるかもしれません。しかしメモリは毎年良くなっていきます。だからこそ拡張性が非常に重要なのです。しかし基本的には、あなたがこのシステムに保存しているソースデータ、つまりMarkdownのメモ、PDF、トランスクリプト、コードリポジトリ、メディアファイルなどはそこにとどまります。それらが真実の源となります。そして、時間をかけてその上に構築するデータセットを拡張し、改善し続けることができます。埋め込みを使って構築しようと、SQLデータベースを使って構築しようと、その問題をどう解決するかにかかわらず、そしてそれについては他の動画も用意していますが、時間の経過とともに進化し、良くなっていき、あなたの組織的な記憶を保存し、あなたが持っているワークフローを保存するメモリシステムを確実に構築することができます。
そしてここでの使命はシンプルです。もしあなたがこれを重視するなら、あなたの目標は、独自のAIアプリにあなたを囲い込ませ、そこがあなたの知識が存在する唯一の場所にならないようにすることです。世の中には複数の優れたモデルが存在するというアイデアについて、私はよく話しています。私たちは、それを利用することを可能にする基盤となるコンピューティング層を必要としているのです。だから、オープンなインターフェースを構築してください。OpenAI互換のローカルエンドポイントがあれば、多くのアプリがあなたのモデルと対話できます。ローカルだけに縛られることはありません。必要であればクラウドとも対話できます。モデルコンテキストプロトコル(MCP)を使えば、複数のクライアントがあなたのツールやメモリと対話できます。PostgresやSQLiteは、検索が一つの製品の中に閉じ込められるのを防ぎます。これがOpen Brainの基礎の大部分です。プレーンなファイルとGitは、システム全体を非常に検証しやすい状態に保ちます。システム上で使うツールは、単なる便利なものとしてではなく、権限のように扱ってください。これは設計について考える上で重要な原則です。エージェントが便利になればなるほど、これについて考えなければなりません。なぜなら、シェルの権限へのアクセスや支払いへのアクセスを持つエージェント、コンピューティングスタックの重要な部分へのアクセスを持つエージェントは、責任を持って運用するために厳密な権限を必要とするエージェントだからです。
主導権を取り戻す
ですから、先を考えて自問する必要があります。もしこのマシンで複数のエージェントを運用するなら、ここでの責任あるアクセスパターンとは何だろうか、と。執筆エージェントにシェルへのアクセスは必要ありません。コーディングエージェントに私の銀行口座の明細は必要ありません。会議の要約ツールにファイルを削除する権限は必要ありません。これを行おうとするなら、エージェントの攻撃対象領域をどうコントロールするかを考えてください。そうしないと、境界のない拡張性を持つことになり、ただトラブルに巻き込まれるだけです。あなたは、マシン上で無責任に何かを行うことを許可されないように、エージェントが持つスコープを管理する立場にいたいのです。
さて、私はこのシステムの心臓部としてメモリを強調してきましたが、そこについていくつかヒントを出しておきます。メモリは蓄積されるものであると同時に、監査可能である必要があります。システムはあなたの仕事から学習できるべきであり、あなたもまたシステムが何を保存したかを調べ、間違っているものを削除し、事実がどこから来たのかをたどり、より優れた埋め込みモデルが登場したときにインデックスを再構築できるべきです。一般的に言って、クラウドを呼び出してこれらのより大きなモデルを呼び出すというハイブリッドな体験を持続することになるということを前提としてください。時にはそれらは今後もさらに良くなり続けるでしょう。あなたが非常にハードコアなローカルコンピューティングのみの人でない限り、ほとんどの場合あなたはそれを望むはずです。その人向けには、すでに説明したように専用のスタックがあります。しかし私たちのほとんどにとって、パーソナルAIコンピュータのポイントは、すべてのクラウドモデルを永遠に拒絶することではありません。ポイントは実際には、クラウドモデルや他のどんなモデルでもうまく接続できる基盤を前向きに所有することです。なぜなら、まれで難しく価値の高い仕事のために、いつでも好きなときに最先端モデルを呼び出すことができるからです。しかし、このようなセットアップは、クラウドAIをシステム全体を支配するものではなく、システムへの訪問者にすることができます。ちなみに、いやいや、私はクラウドモデルだけを使いたいんだ、という声もあるかもしれません。それは素晴らしいことです。私はクラウドモデルについても常に話しています。システム上にクラウドモデルやクラウドエージェントを設定することについての今後の動画や過去の動画もたくさんあります。そして多くの人がその流暢さも必要としているので、私はそれらも作り続けます。
さて、あなた個人のスタックを手に入れると、コンピューティングの世界の残りの部分が少し違って見え始めます。あなたは鏡の向こう側にいます。このアプリはなぜ私のドラフトを自社のサーバーにアップロードする必要があるのか?このエージェントはなぜ私のアカウント全体のトークンを欲しがるのか?このアシスタントはタブを閉じた瞬間にどうして記憶を失ってしまうのか?あるいは、私のデスクの上にすでにある箱の上で処理できるこの日常的な仕事のために、なぜモデルとのやり取りごとに料金を支払っているのか?そういった疑問は、実際に鏡の向こう側に行き、パーソナルスタックを構築し、代替手段を手に入れたときに初めて目に見えるようになる傾向があります。それが、私が今説明したような疑問を具体的で現実的なものに感じさせるのです。
そしてここが、人々がローカルAIの議論を少し勘違いしているところだと思います。クラウドに打ち勝つという話をよく耳にします。クラウドに打ち勝つことではありません。クラウドの最先端は今後も重要であり続けるでしょう。最も困難なモデルのトレーニングや提供にかかる費用が高くなるにつれて、その重要性は減るどころか増すかもしれません。しかしそれは実は、スタックの残りの部分を所有することの根拠を強めるのです。最先端モデルをスペシャリストとして使うことができるようになります。それをあなたのメモリやファイルシステム、ワークフローエンジン、オペレーティング層にはしません。それが最も得意とする仕事のためにそれを雇い、そしてあなたの人生の残りの部分までそれをレンタルするのをやめるのです。そうすれば、あなたのパーソナルAIコンピュータは本当にノスタルジーの遊びではなくなります。インターネットからの愛好家の逃避ではありません。それは、知性が仕事に近づくほど、ファイルに近づき、ツールに近づき、あなたのメモリに近づき、それを実行するよう求めている人物、つまりあなたに近づくほど、知性はより有用になるという賭けなのです。あなたのデスクの上のマシンにはやるべき仕事があります。それがこの動画のすべてのポイントです。それは世界で最も賢いコンピュータである必要はありません。ただあなたのコンピュータであればいいのです。ただあなたのAIであればいいのです。それが私がこの動画を作った理由です。
皆さんには、知的な選択をして、実はプロシューマーの世界を本当に望んでいるのだ、と宣言できる力を感じてほしいのです。完全なローカルの世界が欲しい。ローカルファーストの開発者モデルと開発者マシンのスタックが欲しい、と。もしそれがあなたなら、Substackへどうぞ。推奨する構築の完全なパンチリストがあります。また、ハードウェアスタック全体を構築するつもりはなくメモリ部分にだけOpen Brainを使っている人もたくさんいるので、メモリ側を掘り下げられるようOpen Brainの素晴らしいリマインダーとガイドも用意しています。それもまた、自分のコンピュートスタックの一部を所有することに足を踏み入れるための一つの方法です。あなたの選択が何であれ、私はただあなたに快適さを感じ、自分の運命を自分が握っていると感じてほしいのです。そして世の中にあるクラウド提供のAIエージェントやLLMが、あなたの人生における知性の長期的なパラメータを支配するようなことがないようにしてほしいのです。それはあなた次第であり、あなた次第であるべきです。それでは、また次回お会いしましょう。


コメント