StabilityAI发布Stable Cascade在Comfyui中使用他
StabilityAI宣布推出研究预览版的Stable Cascade,极大地降低了对硬件的要求。
本地版本Comfyui Cascade工作流
https://pan.quark.cn/s/76fc9e2a88f8
这是一个建立在Würstchen架构之上的创新文本到图像模型。Stable Cascade的显著特点在于其采用的三阶段方法,这种方法不仅在图像质量、灵活性和微调能力上达到了新的高度,而且极大地降低了对硬件的要求,使得在普通消费级硬件上进行训练和微调变得轻而易举。为了支持用户更深入地探索和利用这一新架构,我们提供了一系列的资源,包括检查点、推理脚本,以及专门用于微调和优化的ControlNet和LoRA训练脚本。所有这些资源都可以在Stability的GitHub页面上轻松获取。目标是通过Stable Cascade,进一步消除硬件限制,让更多研究者和开发者能够参与到这一领域的创新中来。此外,鼓励用户利用diffusers库中的推理代码,来进一步定制和优化模型,以实现更多样化的图像生成效果。
技术细节
Stable Cascade 与我们的 Stable Diffusion 系列模型不同,它建立在由三个不同模型组成的流水线上:这种架构允许对图像进行分层压缩,在利用高度压缩的潜空间的同时实现出色的输出。让我们看看每个阶段,了解它们是如何组合在一起的:
通过将文本条件生成(阶段 C)与解码到高分辨率像素空间(阶段 A 和 B)解耦,我们可以在阶段 C 上单独完成额外的训练或微调,包括控制网络和 LoRA。可以选择对阶段 A 和阶段 B 进行微调,以实现额外的控制,但这与微调稳定扩散模型中的 VAE 相似。对于大多数用途而言,这只会带来极小的额外好处,因此我们建议只训练阶段 C,并在原始状态下使用阶段 A 和 B。
阶段 C 和阶段 B 将以两种不同的模型发布:建议在 C 阶段使用 3.6B 模型,因为该模型的输出质量最高。不过,对于那些希望将重点放在最低硬件要求上的用户,也可以使用 1B 参数版本。对于 B 阶段,两者都能达到很好的效果,但 15 亿参数版本在重建精细细节方面更胜一筹。得益于 Stable Cascade 的模块化方法,推理所需的 VRAM 预计可控制在 20GB 左右,但也可通过使用较小的变体进一步降低(如前所述,这也可能会降低最终输出质量)。
稳定级联对效率的关注体现在其架构和更高的压缩潜空间上。尽管与 Stable Diffusion XL 相比,它的最大模型包含 14 亿个参数,但推理时间仍然更快,如下图所示。
附加功能
除了标准的文本到图像生成外,Stable Cascade 还能生成图像变化和图像到图像生成。
图像变化的工作原理是使用 CLIP 从给定图像中提取图像嵌入,然后将其返回给模型。下面是一些输出示例。左边的图像是原始图像,右边的四幅是生成的变体图像
图像到图像的工作原理是在给定图像中添加噪点,然后以此为起点进行生成。下面是一个对左侧图像添加噪点,然后以此为起点进行生成的示例。
培训、微调、控制网和 LoRA 代码
随着稳定级联的发布,我们将发布用于训练、微调、ControlNet 和 LoRA 的所有代码,以降低进一步试验此架构的要求。以下是我们将与模型一起发布的一些控制网:
内绘/外绘:输入一张图片,并配上一个遮罩,以配合文字提示。然后,模型将根据提供的文本提示填充图像的遮罩部分。
2 倍超分辨率:将图像的分辨率提升至其边长的 2 倍(例如,将 1024 x 1024 图像输出为 2048 x 2048),也可用于 C 阶段生成的潜像。
更多推荐
所有评论(0)