替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

497人浏览 · 2026-04-17 14:44:42

魔乐社区 · 2026-04-17 14:44:42 发布

4月15日，百度开源文生图模型ERNIE-Image模型，参数量仅8B，24GB显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。它基于单流 Diffusion Transformer（DiT）架构，并配有一个轻量级 Prompt Enhancer，用于将简短输入扩展为更丰富、更结构化的描述。在仅有 8B DiT 参数规模的前提下，达到了开源文生图模型中的领先水平。

同时开源的还有蒸馏版本ERNIE-Image Turbo，仅需 8 步推理即可生成高保真图像，在保持图像质量的同时大幅提升生成速度。

ERNIE-Image的模型权重、推理代码已在魔乐社区同步开源，遵循Apache2.0协议，欢迎开发者下载体验。

🔗 模型链接：

https://modelers.cn/models/PaddlePaddle/ERNIE-Image

https://modelers.cn/models/PaddlePaddle/ERNIE-Image-Turbo

🔗 体验空间：

https://modelers.cn/spaces/chicheng/ERNIE-Image-Turbo

01 模型亮点

小模型，强性能

以8B 参数实现“以小搏大”，在多项 benchmark 上全面超越其他开源模型，与 Seedream 持平，媲美 NanoBanana 系列。

精准的语义遵循

从容驾驭复杂细节约束、多主体关系和知识密集型描述的prompt，模型能够保持较强的理解与执行能力，生成结果高度贴合用户意图。

卓越的文字渲染

中、英、日、韩，复杂示意图、学术图表、商业海报等场景，字形清晰、笔画准确、支持密集文字渲染。

清晰的结构化生成

在海报、漫画、分镜、故事板和多面板图像等结构化视觉任务中，ERNIE-Image 能更好地保持布局逻辑和画面组织。

广泛的风格覆盖

模型支持写实摄影和辨识度较强的风格化视觉表达，包括更柔和、更具电影感的画面风格，在动漫、分镜图截图、二次元、剪影、老照片等多元风格中均表现突出，创意边界更广。

友好的部署体验

得益于较紧凑的模型规模，ERNIE-Image 可以运行在 24G VRAM 的消费级 GPU 上，降低了研究、下游使用和模型适配的门槛。

02 国际基准通杀，开源全面SOTA

在多个公开的国际基准上对 ERNIE-Image 进行评估，结果表明，在所有开源模型中，ERNIE-Image 的综合表现处于领先位置，展现出其在通用图像生成、双语理解、复杂指令执行等各类任务中的强大能力。尤为突出的是，在文字渲染能力上，ERNIE-Image 取得了开源模型的 SOTA 效果，与NanoBanana等商业闭源模型同处第一梯队。