StabilityAI宣布推出研究预览版的Stable Cascade,极大地降低了对硬件的要求。

本地版本Comfyui Cascade工作流
https://pan.quark.cn/s/76fc9e2a88f8

在这里插入图片描述

这是一个建立在Würstchen架构之上的创新文本到图像模型。Stable Cascade的显著特点在于其采用的三阶段方法,这种方法不仅在图像质量、灵活性和微调能力上达到了新的高度,而且极大地降低了对硬件的要求,使得在普通消费级硬件上进行训练和微调变得轻而易举。为了支持用户更深入地探索和利用这一新架构,我们提供了一系列的资源,包括检查点、推理脚本,以及专门用于微调和优化的ControlNet和LoRA训练脚本。所有这些资源都可以在Stability的GitHub页面上轻松获取。目标是通过Stable Cascade,进一步消除硬件限制,让更多研究者和开发者能够参与到这一领域的创新中来。此外,鼓励用户利用diffusers库中的推理代码,来进一步定制和优化模型,以实现更多样化的图像生成效果。

技术细节

Stable Cascade 与我们的 Stable Diffusion 系列模型不同,它建立在由三个不同模型组成的流水线上:这种架构允许对图像进行分层压缩,在利用高度压缩的潜空间的同时实现出色的输出。让我们看看每个阶段,了解它们是如何组合在一起的:
在这里插入图片描述

通过将文本条件生成(阶段 C)与解码到高分辨率像素空间(阶段 A 和 B)解耦,我们可以在阶段 C 上单独完成额外的训练或微调,包括控制网络和 LoRA。可以选择对阶段 A 和阶段 B 进行微调,以实现额外的控制,但这与微调稳定扩散模型中的 VAE 相似。对于大多数用途而言,这只会带来极小的额外好处,因此我们建议只训练阶段 C,并在原始状态下使用阶段 A 和 B。

在这里插入图片描述

阶段 C 和阶段 B 将以两种不同的模型发布:建议在 C 阶段使用 3.6B 模型,因为该模型的输出质量最高。不过,对于那些希望将重点放在最低硬件要求上的用户,也可以使用 1B 参数版本。对于 B 阶段,两者都能达到很好的效果,但 15 亿参数版本在重建精细细节方面更胜一筹。得益于 Stable Cascade 的模块化方法,推理所需的 VRAM 预计可控制在 20GB 左右,但也可通过使用较小的变体进一步降低(如前所述,这也可能会降低最终输出质量)。

稳定级联对效率的关注体现在其架构和更高的压缩潜空间上。尽管与 Stable Diffusion XL 相比,它的最大模型包含 14 亿个参数,但推理时间仍然更快,如下图所示。

附加功能

除了标准的文本到图像生成外,Stable Cascade 还能生成图像变化和图像到图像生成。

图像变化的工作原理是使用 CLIP 从给定图像中提取图像嵌入,然后将其返回给模型。下面是一些输出示例。左边的图像是原始图像,右边的四幅是生成的变体图像

图像到图像的工作原理是在给定图像中添加噪点,然后以此为起点进行生成。下面是一个对左侧图像添加噪点,然后以此为起点进行生成的示例。

培训、微调、控制网和 LoRA 代码

随着稳定级联的发布,我们将发布用于训练、微调、ControlNet 和 LoRA 的所有代码,以降低进一步试验此架构的要求。以下是我们将与模型一起发布的一些控制网:

内绘/外绘:输入一张图片,并配上一个遮罩,以配合文字提示。然后,模型将根据提供的文本提示填充图像的遮罩部分。

2 倍超分辨率:将图像的分辨率提升至其边长的 2 倍(例如,将 1024 x 1024 图像输出为 2048 x 2048),也可用于 C 阶段生成的潜像。

GitHub 加速计划 / co / ComfyUI
44.41 K
4.72 K
下载
最强大且模块化的具有图形/节点界面的稳定扩散GUI。
最近提交(Master分支:1 个月前 )
1c08bf35 - 3 个月前
2a02546e * add type hints to folder_paths.py * replace deprecated standard collections type hints * fix type error when using Python 3.8 3 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐