【SD】深入理解Stable Diffusion与ComfyUI的使用

ComfyUI

最强大且模块化的具有图形/节点界面的稳定扩散GUI。

项目地址：https://gitcode.com/gh_mirrors/co/ComfyUI

免费下载资源

guoqiang_sunshine

1269人浏览 · 2024-07-22 00:58:36

guoqiang_sunshine · 2024-07-22 00:58:36 发布

【SD】深入理解Stable Diffusion与ComfyUI的使用

在这里插入图片描述

1. Stable Diffusion（SD）原理概述

整体结构：SD不是单一模型，而是由三个模型组成，包括文本编码器（Clip）、2. 生成模型（unit）、变分自编码器（VAE）。
输入输出：最基础的输入为文本和随机变量（Latent Vector），输出为图片。

2. 各部件详解

文本编码器（Clip）

专门为SD设计的，采用transformer结构。
训练步骤包括：
限制性预训练：使用图片和文本描述数据集，训练文本编码器和图片编码器，使输出向量尽可能接近。
进一步训练：使用物体名称和描述，训练文本编码器解码出图片含义。

生成模型（unit）

ComfyUI

最强大且模块化的具有图形/节点界面的稳定扩散GUI。

项目地址：https://gitcode.com/gh_mirrors/co/ComfyUI

加噪降噪过程：通过VAE的encoder将图片转换成与Latent Vector相同大小的格式，然后逐步加噪并降噪，生成中间结果。

变分自编码器（VAE）

包括编码器和解码器，将图片编码成较小格式，再解码回原大小，训练目标是最小化原始图片与解码结果的差异。
利用VAE可以从噪声中生成图片，即输入随机噪声至解码器，生成图片。

3. SD的工作流程

文本通过文本编码器转换为向量。
向量与随机变量结合，控制生成内容的随机性。
使用unit进行加噪降噪，生成中间结果。
中间结果通过VAE解码器还原成最终图片。

4. ComfyUI与SD的结合

ComfyUI用于低显存生成图片，但具体如何结合SD的原理和ComfyUI的操作未在文本中详述。

5. 总结

SD通过三个模型的协同工作，实现了文本到图片的生成。
Clip作为文本编码器，负责将文本转换为向量。
Unit负责生成过程的加噪和降噪，VAE则用于图片的编码和解码，最终还原成清晰图片。
整个流程涉及文本处理、随机性控制、图片生成和还原，是一个复杂但高效的生成系统。

GitHub 加速计划 / co / ComfyUI

下载

最强大且模块化的具有图形/节点界面的稳定扩散GUI。

最近提交(Master分支：6 个月前 )

98bdca4c * Deprecate InputTypeOptions.defaultInput * nit * nit 17 小时前

a26da20a 21 小时前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

谷歌将闭门开发Android，中国企业主导开源的含金量还在上升

GitCode 开源社区

GitCode3月运营月报：端产品全面上线，G-Star开源生态扩展，公益与教育双线发力！

GitCode 开源社区

南开大学程序员到全球开源领袖，他用开源重构商业逻辑，让千万开发者“滚雪球”创新｜CodeMaster#4

GitCode 开源社区

所有评论(0)

查看更多评论

guoqiang_sunshine

@Darlingqiang

已为社区贡献4条内容

【SD】深入理解Stable Diffusion与ComfyUI的使用

guoqiang_sunshine

【SD】深入理解Stable Diffusion与ComfyUI的使用

1. Stable Diffusion（SD）原理概述

2. 各部件详解

3. SD的工作流程

4. ComfyUI与SD的结合

5. 总结

所有评论(0)

guoqiang_sunshine

登录社区云

GitCode 开源社区