文生图这个领域,云端服务虽然方便但有几个绕不开的问题:成本按张计费,批量出图时费用惊人;隐私方面,很多商业素材不能传到第三方服务器;定制方面,LoRA微调和ControlNet控制在云端很难做;
本地部署ComfyUI是目前最灵活的方案。节点式工作流让你能精确控制图像生成的每个环节,而且资源占用比A1111更低;
硬件要求
显卡是最关键的。NVIDIA显卡,显存不低于8GB。6GB也能跑,但要开低显存模式,速度会慢很多。16GB显存是舒适区,SDXL模型可以畅跑。内存16GB以上,存储预留20GB(模型+插件)。
安装ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt
下载模型
模型放到models/checkpoints/目录。推荐几个:
SDXL Base 1.0是Stability AI的基础模型,全能型选手,各种风格都能出。RealVisXL擅长写实风格,人物细节处理得很好。DreamShaper XL在动漫和写实之间平衡得很好,出图质量稳定;
cd models/checkpoints
wget https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors
启动
python main.py # 本机访问
python main.py --listen 0.0.0.0 # 允许远程访问
python main.py --lowvram # 低显存模式(6GB以下)
python main.py --gpu-only # 全部走GPU(显存够的话速度快)
打开http://127.0.0.1:8188进入界面。
基础工作流
ComfyUI的界面是一个节点编辑器,你需要连接不同的节点来构建工作流。基础文生图工作流包含这几个核心节点:
Load Checkpoint加载模型,这是工作流的起点。**CLIP Text Encode (Prompt)**设置正向提示词(你想要什么)和反向提示词(你不想要什么)。KSampler配置采样参数:steps(采样步数,20-30通常够用)、cfg(引导强度,7-8是常用值)、sampler_name(采样器,dpmpp_2m是性价比最高的选择)、denoise(去噪强度,文生图设1.0)。VAE Decode把潜空间数据转成可见图像。Save Image保存结果;
正向提示词示例:a beautiful sunset over the ocean, golden hour, photorealistic, 8k, detailed clouds, cinematic lighting。反向提示词示例:blurry, low quality, distorted, deformed, ugly, bad anatomy, watermark。
ControlNet控制
ControlNet是出图可控性的关键。它可以接受边缘检测图、深度图、姿态骨架、线稿等作为输入,精确控制生成图像的构图和姿势;
安装ComfyUI ControlNet Auxiliary插件后,在工作流中添加Apply ControlNet节点。输入一张参考图,选择控制类型(Canny边缘/Depth深度/OpenPose姿态),模型会按照参考图的结构生成新图像。
LoRA风格微调
LoRA是轻量级的风格模型(通常几十MB到几百MB),加载后可以让基础模型输出特定风格。Load LoRA节点连接在模型链路中,strength参数控制风格强度(0.6-0.8通常最合适)。
批量出图
ComfyUI支持批量处理。在KSampler中设置seed为-1(随机种子),batch_size设为想要的数量。也可以通过Queue面板批量提交不同参数的工作流。
写在最后
ComfyUI的学习曲线比Stable Diffusion WebUI陡一些,但一旦掌握了节点式工作流,你会发现它的灵活性和可控性远超其他方案。建议从社区导入现成工作流开始,逐个节点理解它的作用,比从零搭快得多。