4月15日,百度开源文生图模型ERNIE-Image模型,参数量仅8B,24GB显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。它基于单流 Diffusion Transformer(DiT)架构,并配有一个轻量级 Prompt Enhancer,用于将简短输入扩展为更丰富、更结构化的描述。在仅有 8B DiT 参数规模的前提下,达到了开源文生图模型中的领先水平。

同时开源的还有蒸馏版本ERNIE-Image Turbo,仅需 8 步推理即可生成高保真图像,在保持图像质量的同时大幅提升生成速度。

ERNIE-Image的模型权重、推理代码已在魔乐社区同步开源,遵循Apache2.0协议,欢迎开发者下载体验。

🔗 模型链接:

https://modelers.cn/models/PaddlePaddle/ERNIE-Image

https://modelers.cn/models/PaddlePaddle/ERNIE-Image-Turbo

🔗 体验空间:

https://modelers.cn/spaces/chicheng/ERNIE-Image-Turbo

01 模型亮点

小模型,强性能

以8B 参数实现“以小搏大”,在多项 benchmark 上全面超越其他开源模型,与 Seedream 持平,媲美 NanoBanana 系列。

精准的语义遵循

从容驾驭复杂细节约束、多主体关系和知识密集型描述的prompt,模型能够保持较强的理解与执行能力,生成结果高度贴合用户意图。

卓越的文字渲染

中、英、日、韩,复杂示意图、学术图表、商业海报等场景,字形清晰、笔画准确、支持密集文字渲染。

清晰的结构化生成

在海报、漫画、分镜、故事板和多面板图像等结构化视觉任务中,ERNIE-Image 能更好地保持布局逻辑和画面组织。

广泛的风格覆盖

模型支持写实摄影和辨识度较强的风格化视觉表达,包括更柔和、更具电影感的画面风格,在动漫、分镜图截图、二次元、剪影、老照片等多元风格中均表现突出,创意边界更广。

友好的部署体验

得益于较紧凑的模型规模,ERNIE-Image 可以运行在 24G VRAM 的消费级 GPU 上,降低了研究、下游使用和模型适配的门槛。

02 国际基准通杀,开源全面SOTA

在多个公开的国际基准上对 ERNIE-Image 进行评估,结果表明,在所有开源模型中,ERNIE-Image 的综合表现处于领先位置,展现出其在通用图像生成、双语理解、复杂指令执行等各类任务中的强大能力。尤为突出的是,在文字渲染能力上,ERNIE-Image 取得了开源模型的 SOTA 效果,与NanoBanana等商业闭源模型同处第一梯队。

image.png

image.png

image.png

image.png

03 生图效果

ERNIE-Image在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。同时,模型也覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格。接下来,让我们一起感受一下ERNIE-Image强大的生图效果。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

欢迎体验

欢迎开发者在魔乐社区下载体验ERNIE-Image模型并在模型评论区留言交流!

https://modelers.cn/models/PaddlePaddle/ERNIE-Image

https://modelers.cn/models/PaddlePaddle/ERNIE-Image-Turbo

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐