この動画はComfyUIを使ってローカル環境でAI画像・動画を生成する方法を解説した技術チュートリアルである。インターネット接続なしで動作し、データが外部サーバーに送信されないプライバシー重視のシステムの構築方法を、初心者にも分かりやすく段階的に説明している。FluxやYuan 2.2などの最新オープンソースモデルを活用した実践的な生成手法に焦点を当てた内容となっている。

ComfyUIを使った完全オフラインAI生成システムの構築
ドナルド・トランプは出てるけど、この中にアダム・サンドラーは全然見えへんな。この動画では、あんたのローカルコンピューターから想像できるあらゆる画像や動画を作る方法を教えたるで。これを一度セットアップしてしもたら、画像や動画を生成するのにインターネットすら必要あらへん。
全部完全にあんたのコンピューターで処理されるんや。それに、うちらが使うモデルはほぼ完全に検閲なしやから、頭に浮かんだどんな奇妙な化け物でも生成できるで。
でも、なんでインターネットに接続されへん画像や動画生成ツールが必要なんか疑問に思うやろ?まず第一に、GoogleやMicrosoft、OpenAI、その他の大手テック企業にデータを渡すことがないし、あんたが何も送信してへんから、彼らがあんたのモデル使用データで訓練することもできへん。
それか、田舎に住んでて接続に問題があるとか、お母さんの家への飛行機の中の高度30,000フィートで画像を生成したいとかもあるやろ。もちろん、自分のプライベートコレクション用に画像を作るっていう使用例もあるしな。いいね。何のことか分かるやろ。理由が何であれ、今日の動画で全部カバーしたるで。
パート1:メイン生成ソフトウェアのセットアップ
それじゃあ、パート1から始めよう。メイン生成ソフトウェアのセットアップや。この動画では、ComfyUIを使ってローカルにインストールするで。Macでデモしてるけど、ワークフローは基本的にPCでも同じや。こんにちは、僕はMacです。そして僕はPCです。ComfyUIに馴染みがなかったら、これはAI生成画像・動画を作るためのビジュアル制御パネルみたいなもんや。
ComfyUIを初めて見た時は、めちゃくちゃ圧倒的に見えるで。ワークフローは繋がったノードの巨大なスパゲッティボウルみたいに見えて、すごく複雑そうに思える。でも、このチュートリアルは超上級のComfyUIテクニックには踏み込まへん。代わりに、このツールを使う最もシンプルなワークフローを見せたいんや。
だから、ComfyUIで何が起こってるかを理解してるかどうかは実際にはあんまり重要やないような、リソースやショートカット、シンプルな方法を共有するで。このチュートリアルは誰でも可能な限り素早く立ち上げて使えるように設計されてるんや。ComfyUIのウサギ穴は確かに超深くて、できるカスタマイゼーションもめちゃくちゃあるんやけど、今日のチュートリアルでは、可能な限り早くあんたに入門してもらって使ってもらいたいんや。
ComfyUIをあんたのコンピューターにインストールする絶対一番簡単な方法は、彼らの公式ウェブサイトcomfy.orgに行くことや。ウェブサイトを見ると、ここをスクロールダウンしたら、無料でオープンソースやって書いてある。ComfyUIは100%無料でオープンソースで、これからもずっとそうや。サブスクリプションなし、隠れたコストなし。制限なしで構築、作成、共有でき、ローカルで高速に動作する。
Comfyは性能のために設計されてる。ワークフローを直接あんたのマシンで実行することで、より早い反復、低コスト、完全な制御が可能や。超カスタマイズ可能でもあって、今日の動画でそのカスタマイゼーションのいくつかに触れる予定や。それじゃあ、トップに戻ってスクロールしよう。ダウンロードをクリックすると、2つのオプションがある。
さっき言ったように、僕はMacを使ってる。Mac用をダウンロードするで。これは基本的に簡単インストールや。GitHubからインストールしたかったらできるで。そうしたかったら、このgithub.com/comfyanonymous/comfyuiに行けばええし、かなりステップバイステップのインストールチュートリアルがある。マニュアルインストールをクリックしたら、手順を教えてくれる。
でも、やっぱりWindowsとMacのインストーラーをダウンロードするだけで、めちゃくちゃたくさんのステップをスキップできる。Pythonや、ComfyUIを動作させるのに必要な他の依存関係をインストールすることを考える必要がないんや。ダウンロードができたから、ダウンロードを開いて、ComfyUIをアプリケーションフォルダにドロップするで。
ComfyUIを開こうとすると、デスクトップで実行できるようになってる。セットアップ過程を進めよう。「開始」をクリック。持ってるGPUを選択する。僕はM3 Ultraやから、次へをクリックするで。どこにでもインストールできる。このデモでは、インストールディレクトリはデフォルトのままにしとく。次へをクリック。
既存のインストールを移行してへんから、これはスキップするで。自動更新と使用状況メトリクスをオンにしとくかはあんた次第や。インストールを進めるで。バックグラウンドでたくさんのスクリプトが実行されるけど、マニュアルプロセスを使った場合にしなあかん多くのステップをこれでスキップできる。
ComfyUIのインストールが完了すると、「テンプレートで開始」って書かれたページが表示される。これがセットアップの一番簡単な方法や。他のチュートリアルでは、Hugging FaceやCivitAIみたいな場所に行って、実際に使うモデルをダウンロードする方法を見せてくれるやろう。
そのチュートリアルに従ってそうすることもできるで。でも、ComfyUIインストーラーに既に入ってるこれらの組み込みテンプレートを使う方が、ComfyUIを始める一番簡単な方法やと思うんや。選択肢もたくさんある。見てみ。すぐにセットアップできるこれらの様々なFlux画像モデルがあるやろ。
Flux以外の画像モデル、様々なStable Diffusionモデルもある。Juan 2.2、Mochi、Hunion video、テキストから動画など、もっともっとたくさんの動画モデルもある。API接続もある。これらのAPI接続を使う場合は、インターネットに接続する必要があることを覚えときや。これは基本的にローカルで処理する代わりに、彼らのサーバーを呼び出して処理してもらうってことや。
画像API、動画API、3D APIみたいなのを使うことにしたら、これらはサーバーに接続してるけど、ComfyUIをRecraftモデル、Runwayモデル、Stabilityモデル、Ideogram、そんなもんと一緒に使えるで。でも、これらはオフラインモデルやないってことや。それじゃあ、この動画のパート2に進もう。ComfyUIで画像を生成することや。
パート2:ComfyUIでの画像生成
今のところ、僕の意見では、あんたのコンピューターでローカル実行できる絶対最高の画像生成モデルは、このFlux 1 Schnell Devや。これを選択すると、バックグラウンドでこのワークフローがセットアップされるんやけど、全部足りてへんって言われる。テキストエンコーダーもない、VAEもない。
拡散モデルもない。何も適切にセットアップされてへん。でも、セットアップするのは超簡単や。それぞれをダウンロードしていくだけや。ここでテキストエンコーダーをダウンロードしよう。このテキストエンコーダーをダウンロードするで。覚えといて、ファイルサイズに注意や。めちゃくちゃでかいことが多いから、容量があることを確認してや。
でも、このテキストエンコーダーをダウンロードするで。ここでVAEをダウンロードする。拡散モデルをダウンロードするけど、11GBやから、そのサイズに注意してや。でも、ダウンロードするで。これらのダウンロードを実行させる。全部ダウンロードが終わったら、Flux 1 Schnellで画像を生成できるようになる。インターネットを切っても動作するで。
数分後、全てのモデルがダウンロードされて、このボックスを閉じることができる。これが作成されたComfyUIワークフローや。この画面に来たら、ほとんどの場合、これらの設定は全部同じままにしとけるで。Fluxモデルは既にここに読み込まれてる。これらは全部基本的にデフォルトのままでええ。
プロンプトを入力するだけや。今、夜のニューヨーク市のスカイラインってプロンプトを入力すると、float8なんちゃらをMPSバックエンドに変換しようとしてるけど、そのdtypeをサポートしてへんっていうエラーが出る。これはMacを使ってるから起こってる。僕はMacや。PCを使ってたら、このエラーは多分見ることないやろう。
最初から画像を生成してくれるはずや。でも僕はMacを使ってるから、このfloat8スタイルでは動作せえへん。これは複雑に聞こえるけど、正直、あんまり心配せんでええで。この問題を解決するために、実際にMacで動作するモデルを手に入れる必要がある。
このFP8版はMacでは動作せえへん。PCでやる必要がある。実際にHugging Faceとこの上のURLに行って、Flux 1 Schnellのメインモデルをダウンロードせなあかん。ここを見ると、flux1-schnell-dev.safetensorsがあって、23.8GBのファイルや。でも、これは最初に試したより小さいやつがNvidia GPUが必要なCUDAアーキテクチャが必要なのに対して、実際にMシリーズのMacで動作するファイルや。
知っとく必要があるのは、Macを使ってるなら、これが必要ってことや。PCを使ってるなら、最初にインストールしてくれた前のモデルで多分動いてるやろう。これをダウンロードしてや。24ギガやけどな。ダウンロードしたら、ComfyUIをインストールした場所に行く。僕の場合、documentsフォルダのComfyUIの下やった。
それからmodelsに入る。ここにdiffusion modelsっていうフォルダがあるはずや。ここに24GBのFlux 1 Schnell dev safetensorsファイルをドロップするんや。そこに入ったら、ComfyUIインターフェースを再起動できる。完全に閉じて、もう一回開いたら、新しいモデルが利用可能になるはずや。
ここの矢印をクリックすると、Flux 1 Schnell dev.safetensorsが見える。これは僕のMacで動作するはずのモデルや。他の全部を同じままにして、もう一回実行してみる。夜のニューヨーク市のスカイライン。実行をクリック。かなり早く、夜のニューヨーク市のスカイラインの画像ができた。冬の真ん中のホワイトハウスを試してみよう。
雪に覆われたホワイトハウスの写真ができた。夕日のエッフェル塔や。ストック写真が必要やけど、ストック写真サイトにお金を払いたくなかったら、スーツを着た4人のビジネスパーソンが会議テーブルの周りに座って、全員が同時に握手してるとかプロンプトしたら、シャッターストックから直接出てきたような何かが手に入る。
このFlux Schnell devモデル、そしてFluxモデル全部やと思うんやけど、制限の一つは、実際の有名人の本当の顔は生成してくれへんと思うことや。サム・アルトマン、マーク・ザッカーバーグ、イーロン・マスクがWWEリングで戦ってるっていうプロンプトを入力して生成すると、人は生成されるやろうけど。
頼んだ人には全然似てへん。リングの中の3人の白人男性やから、そんなに外れてへんけど、人を生成するのはあんまり得意やない。ゲイリー・ビューシーが一度に12本のソーセージを食べてるっていうのを試した時に出てきたのがこれや。明らかにゲイリー・ビューシーやないけど、これがかなり検閲なしやっていうのを見せるために、限界まで押してみたいんや。
訓練データに本当の有名人は入ってないだけや。マリオがスコーピオンとして再イメージされて、ルイージがモータルコンバットのサブゼロとして再イメージされる。サブゼロ・ルイージがスコーピオン・マリオの頭を手に持って、脊椎がその下にぶら下がってる、みたいなプロンプトをやってみよう。ちなみに、このプロンプトをくれたデイブ、ありがとう。フェイタリティ。
これが出てきたやつや。思い描いてたものとは全然違う。他のプロンプトを試して、何ができるか見てみよう。マリオとルイージをちょっと混同してるけど、見ての通り、かなりクレイジーなアウトプットが得られる。ほとんどのクローズドソースモデルがあんたのためにやることを拒否するような、クレイジーなホラーシーンも作らせることができた。
生成した画像を後から見返したかったら、ComfyUIをインストールした場所に行って、outputフォルダをクリックするんや。ここにFlux Schnellフォルダができてるのが見えるやろう。これまでFluxで生成した全てのアウトプットが、このフォルダの中に見えるで。あんたのハードドライブ上で、クラウドのどこでもなく、好きなようにアクセスして使えるようになってる。
僕のApple Cloudには同期されてるけどな。だから、この場合は完全に真実やないけど。でも、Apple Cloudをオフにしてたら、クラウドには同期されへん。それじゃあ、この動画のパート3に進もう。ComfyUIでオフライン動画生成や。
パート3:ComfyUIでのオフライン動画生成
この動画のセクションでは、実際にPCに切り替えた。僕も楽しいことするで。これらの動画モデルをMacで実行することもできる。ただ、ほとんどがNvidia GPUで動作するよう最適化されてるんや。これらをMacで実行しようとすると、めちゃくちゃ遅い。6秒の動画を1本生成するのに20分から60分かかるっていう話やで。
この動画のために、デモしながら少しでも早くするために、PCに切り替えたんや。ComfyUIで動画を動作させる絶対一番簡単な方法は、ComfyUIデスクトップアプリにログインしながら、ワークフローに行って、最初に始めたブラウズテンプレートに行って、左側の動画メニューに行くことや。
今現在、この録画時点で、Yuan 2.2ファミリーの動画モデルが最も強力なオープンウェイトモデルや。今オフラインで使える最高のモデルがこれらや。いくつかオプションがある。Yuan 2.2 14bテキスト-動画、Yuan 2.2 4b画像-動画がある。2つのモダリティを分けたんや。
それからYuan 2.2 5b動画生成があって、これは両方やる。テキストと画像-動画両方あるんや。どれを使うかを選ぶ。それと、Yuan 2.2 14b最初と最後のフレーム-動画っていう新しいのも追加された。実際に最初のフレームと最後のフレームを選んで、2つのフレーム間を繋ぐ動画を生成してもらえるんや。
まともなGPUを持ってたら、これらの14Bモデルのどれでも使える。古くて遅いNvidia GPUを持ってたら、多分この5Bモデルを使いたくなるやろう。テキスト-動画モデルから始めよう。これをクリックするだけや。いくつかモデルが足りてないって言ってくる。さっきと同じように、これらのモデルをダウンロードしていく。全部取得して、このモデルを動作させよう。
モデルのダウンロードが全部終わったら、これを閉じることができる。動画ワークフローができた。基本的に全部デフォルトのままでええ。ここにプロンプトがあるのが見える。中国語で書かれたネガティブプロンプトもある。何て書いてるか分からんけど、まともなネガティブプロンプトらしいから、そのままにしといてもええやろう。
ストック動画として使えるような何かを生成してみよう。グランドキャニオンのドローン撮影。文字通り全部をデフォルト設定のままにして実行するで。数分後、グランドキャニオンの空撮ドローン映像ができた。このモデルはNvidia GPUでもまだかなり遅いけど、Macで試すよりはめちゃくちゃ早い。
ちょっと気になるから簡単なテストをしてみたい。習近平の家のドローン撮影。キッチンの窓のそばを通り過ぎる時、彼がパンケーキを作ってるのが見える。中国のモデルやから、このプロンプトを生成することを許可してくれるかどうかただ気になってるんや。すごく興味深い。確かめてみよう。
それで出てきたのがこれや。普通の家の通り過ぎみたいに見える。誰か特定の人には見えへんと思う。検閲はされてへんと思う。動画の中の人が誰か分からんほど近づかなかっただけや。よし、今度は画像-動画をやってみよう。
もう一回、ワークフローに行って、ブラウズテンプレートをクリックして、動画に行って、今度はYuan 2.2 14b画像-動画をやる。やっぱり、いくつかモデルが足りてない。めちゃくちゃでかいモデルやけど、ダウンロードしよう。ダウンロードが終わったら、このボックスを閉じる。
画像をここに読み込むのが見える。実際にこの画像を生成したところや。ビッグフットが自撮りしてるはずやけど、ゴリラが自撮りしてるみたいに見える。でも、これでいこう。ここに画像を入れる。ビッグフットがキャンプサイトを見せながら自撮り動画を撮る、っていうプロンプトをやる。
下に行って、ここで実行をクリックする。出てきたのがこれや。動画があって、角度が変わって、背景にテントが見えるのが分かる。でも、やっぱり、すごくいいGPUでもめちゃくちゃ遅い。ブラウズテンプレートに戻って、テキスト-動画と画像-動画両方をやる50億パラメータ動画生成モデルで遊んでみよう。
やっぱりここでこれらのモデルをダウンロードして、ここを閉じる。事前構築されたワークフローができた。理解するのが難しいクレイジーなスパゲッティボウルみたいに見えるけど、事前構築されたワークフローを使うだけなら、あんまり心配する必要ないで。これは小さいモデルやから、品質が少し落ちる代わりに、実際に動画をもう少し早く生成できるはずや。
Halo AIに生成させることはできたけど、VO3にはできなかったプロンプトを試してみたい。人間サイズのホットドッグがバーベキューでホットドッグサイズの人間を焼いてるっていうやつや。これを生成して、何が出てくるか見てみよう。生成されたのがこれや。明らかにHalo AIが生成してくれたのには全然及ばへん。
これは人間サイズのホットドッグやない。これはホットドッグサイズの人間には見えへん。でも、この50億パラメータモデルを使う方が14bモデルより生成がめちゃくちゃ早かったのは確かや。芝刈りが芝生が刈るより早く成長するから無駄に芝刈りをしてる男性をテストした。最終的に芝生が男性を飲み込んで、芝生が確実に彼の後ろで大きくなってるのが見える。
でも、何よりも実際に彼から生えてるみたいに見える。ヒューマノイド・ホンダ・シビックが男性を高圧洗浄機で洗浄してるっていうプロンプトを入れた時に出てきたのがこれや。前回試した時にVO3やHalo AIがやったよりも、この特定のプロンプトではめちゃくちゃよくやった。
今回は欲しかったことをやってもらうために、プロンプトを少し上手く書き直したけど、かっこいいホンダ・シビックやと思う。最後に、本当の有名人とかをやってくれるかテストしたかった。アダム・サンドラーがドナルド・トランプをハグしてるっていうプロンプトを入れた。ドナルド・トランプは出てるけど、この中にアダム・サンドラーは全然見えへん。でも確実にドナルド・トランプを生成しようとした。
カマラのはずみたいに見える、かも。分からん。やったで。でも少なくともドナルド・トランプは生成してくれる。それが、オフラインで画像を生成する方法や。オフラインで動画を生成する方法や。まとめると、MacかWindowsのComfyUIインストーラーをダウンロードするだけ。ComfyUIの中に入ったら、ブラウズテンプレートをクリックして、事前構築されたテンプレートを使うだけや。
そうしたら、このスパゲッティボウルのクレイジーな部分が何をしてるかあんまり心配せんでもええ。誰かが既に事前構築して、全部解決してくれてるから。個人的には、検閲なし動画をたくさん作ったり、オフラインで作ったりする大きなニーズはない。僕にとっては大きなニーズやない。VO3モデルとHalo AIモデルが、動画生成では最高のモデルやと思ってる。
でも、絶対にオフラインで生成したくて、他の誰のサーバーにも保存されたり見られたりしないものを生成したかったら、これがその方法や。これが全部どこに向かってるかについては、ちょっと心配してる。文字通り何でも好きなものを生成できる。これらのモデルの一部が少し検閲なしやったとしても、オープンウェイトモデルやから、人々がファインチューニングして訓練して、追加データを加えて、文字通り何でも生成できるようにしてる。
人間が絶対に生成したいと思わへんようなものでも、残念ながら生成できるようになってる。これが今うちらが生きてる世界や。この魔神をボトルに戻すことはできへん。このものを使う方法を学んで、何があるかを学んで、何ができるかを学んで、完全に避けて怖がってるより、技術を知っとく方がええと思うんや。
やっぱり、人々がこれで生成しそうなもの、悪い奴らがこの種の技術で悪いことをしそうなことについては、すごくすごく心配してる。でも、見てるあんたは、誰も眉をひそめないような良くて倫理的なことしかせえへんって分かってる。だから、それを守ろう。ComfyUIで遊び始めたら、基本的にChatGPTとVOしか使い方を知らん世界の99%の人より先を行くことになる。
もっと深く掘り下げて、本当に技術的な深いダイブをして、ComfyUIの動作を学んで、追加ノードや追加の最適化方法を学びたかったら、いくつかのチャンネルを強くお勧めする。AI Prreneurっていうチャンネルと、Olivio Serasっていうチャンネルがある。両方とも僕が友達で、DMでチャットしたことがある人や。絶対に素晴らしいComfyUIチュートリアルを作ってる。ComfyUIでもっと深く掘り下げて、想像できるあらゆるものを作る方法を本当に本当に理解したかったら、この2つのチャンネルをチェックすることを強くお勧めするで。彼らはそういう種類のチュートリアルをもっと深くやってくれるから。
でも、これは最もシンプルな概要、ComfyUIを立ち上げて動かして、オフラインで画像と動画を生成する最も早い方法を意図してた。これがあんたの役に立ったらええな。チューニングしてくれて本当に本当にありがとう。最新で最高のAIチュートリアルが欲しくて、最新のAIニュースを最新の状態で把握したかったら、この動画に親指を立てて、このチャンネルを購読してくれ。そうしたら、こんな動画がもっとあんたのYouTubeフィードに表示されるようにするで。
ハングアウトしてくれて本当にありがとう。一緒にオタクしてくれてありがとう。次回で会えたらええな。バイバイ。今日一緒にオタクしてくれて本当にありがとう。こんな動画が好きやったら、親指を立てて、このチャンネルを購読してくれ。こんな動画がもっとあんたのYouTubeフィードに表示されるようにするで。
まだやってへんかったら、futuretools.ioをチェックしてや。最もクールなAIツールと最新のAIニュースを全部シェアしてる。素晴らしい無料ニュースレターもあるで。改めてありがとう。本当に感謝してる。次回で会おう。


コメント