替你试过了,消费级显卡可以跑的开源文生图SOTA模型,顶级渲染、高密度文本绘图
4月15日,百度开源文生图模型ERNIE-Image模型,参数量仅8B,24GB显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。它基于单流 Diffusion Transformer(DiT)架构,并配有一个轻量级 Prompt Enhancer,用于将简短输入扩展为更丰富、更结构化的描述。在仅有 8B DiT 参数规模的前提下,达到了开源文生图模型中的领先水平。
同时开源的还有蒸馏版本ERNIE-Image Turbo,仅需 8 步推理即可生成高保真图像,在保持图像质量的同时大幅提升生成速度。
ERNIE-Image的模型权重、推理代码已在魔乐社区同步开源,遵循Apache2.0协议,欢迎开发者下载体验。
🔗 模型链接:
https://modelers.cn/models/PaddlePaddle/ERNIE-Image
https://modelers.cn/models/PaddlePaddle/ERNIE-Image-Turbo
🔗 体验空间:
https://modelers.cn/spaces/chicheng/ERNIE-Image-Turbo
01 模型亮点
小模型,强性能
以8B 参数实现“以小搏大”,在多项 benchmark 上全面超越其他开源模型,与 Seedream 持平,媲美 NanoBanana 系列。
精准的语义遵循
从容驾驭复杂细节约束、多主体关系和知识密集型描述的prompt,模型能够保持较强的理解与执行能力,生成结果高度贴合用户意图。
卓越的文字渲染
中、英、日、韩,复杂示意图、学术图表、商业海报等场景,字形清晰、笔画准确、支持密集文字渲染。
清晰的结构化生成
在海报、漫画、分镜、故事板和多面板图像等结构化视觉任务中,ERNIE-Image 能更好地保持布局逻辑和画面组织。
广泛的风格覆盖
模型支持写实摄影和辨识度较强的风格化视觉表达,包括更柔和、更具电影感的画面风格,在动漫、分镜图截图、二次元、剪影、老照片等多元风格中均表现突出,创意边界更广。
友好的部署体验
得益于较紧凑的模型规模,ERNIE-Image 可以运行在 24G VRAM 的消费级 GPU 上,降低了研究、下游使用和模型适配的门槛。
02 国际基准通杀,开源全面SOTA
在多个公开的国际基准上对 ERNIE-Image 进行评估,结果表明,在所有开源模型中,ERNIE-Image 的综合表现处于领先位置,展现出其在通用图像生成、双语理解、复杂指令执行等各类任务中的强大能力。尤为突出的是,在文字渲染能力上,ERNIE-Image 取得了开源模型的 SOTA 效果,与NanoBanana等商业闭源模型同处第一梯队。




03 生图效果
ERNIE-Image在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。同时,模型也覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格。接下来,让我们一起感受一下ERNIE-Image强大的生图效果。







欢迎体验
欢迎开发者在魔乐社区下载体验ERNIE-Image模型并在模型评论区留言交流!
https://modelers.cn/models/PaddlePaddle/ERNIE-Image
https://modelers.cn/models/PaddlePaddle/ERNIE-Image-Turbo
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐




所有评论(0)