上周帮朋友做一张活动海报,标题就四个字——“AI SUMMIT 2026”。我想着这么简单的事,用 AI 生图几秒钟搞定。

结果 Midjourney 给我出了个 “AI SUMM1T 2O2G”。

换 Stable Diffusion 试,“AI SUNMIT 2026”。离谱。

这个问题我忍了快两年了。每次用 AI 出图,文字部分都得后期自己 P。直到最近试了几个 2026 年新出的模型,发现这事终于有救了。

分别跑了大概四五次,把三个模型的文字渲染能力摸清楚了,写个记录。

先说一下为什么以前不行

这个得从扩散模型的原理说起。

Stable Diffusion 这类模型生成图片,本质上是从一张全是噪点的图开始,一步步去噪,最后变成清晰图片。模型在训练的时候学的是像素级别的统计规律——它知道"这个位置大概应该有文字的形状",但它不知道具体该写什么。

你可以想象一个完全不认识中文的老外,让他画一块中文招牌。他见过很多中文招牌的照片,知道中文字大概长什么样——方方正正,有横有竖。但具体每个字怎么写?他不知道。画出来的东西远看像中文,近看全是乱笔。

AI 就是这个老外。

文字和风景、人物不一样。树叶多一片少一片没人在意,但 “R” 少一笔就变成 “P” 了。扩散模型每一步去噪都有微小的随机性,这点随机性放在风景照里无所谓,放在文字里就是错别字。

三个模型

我在 WaveSpeedAI 上调的,三个模型都有,换个模型 ID 就行,不用折腾多套 SDK。

pip install wavespeed

测试 1:英文海报标题

最基础的。一张科技大会海报,标题 “AI SUMMIT 2026”,副标题 “San Francisco · June 15-17”。

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/text-to-image",
    {
        "prompt": 'Minimalist tech conference poster, deep navy background, large bold title "AI SUMMIT 2026", subtitle "San Francisco · June 15-17", abstract holographic geometric shape in center, generous whitespace, modern sans-serif typography',
        "width": 2048,
        "height": 2048
    }
)
print(output["outputs"][0])

三个模型跑同一个 prompt,结果:

Wan 2.7:标题 “AI SUMMIT 2026” 完全正确,副标题 “San Francisco · June 15-17” 也对。它还自己加了 “Moscone Center West · Hall C” 和底部的活动信息栏,排版最丰富,像一张真正的活动海报。

Qwen Image 2.0:标题副标题都对,排版最简洁干净——大标题居中,副标题在下方,中间一个全息几何体。没有多余的元素,设计感最强。

Seedream 4.5:标题副标题也全对。风格偏暗色调,几何体是一个透明立方体。三个模型在这轮英文短标题测试里都没出错。

在这里插入图片描述

测试 2:中文

这轮拉开差距了。

prompt = '书法风格的中国传统卷轴,上面写着"千里之行始于足下",毛笔字体,宣纸质感背景,水墨画风格的山水点缀'

Wan 2.7:"千里之行始于足下"七个字全对,竖排书法,笔画清晰有力,右下角还自动加了一方印章,整体最像一幅真正的书法卷轴。背景是水墨山水,构图完整。

Qwen Image 2.0:七个字也全对,但排版不太一样——分成了两列横排("千里之行始"一列,"于足下"一列),更像是书法练习的布局。字体偏楷书,笔画清楚。

Seedream 4.5:七个字也写对了,竖排,字体偏现代书法风格。背景是水墨山水画,有卷轴边框。三个模型在这轮中文测试里表现都不错,七个字的成语长度是它们的舒适区。

在这里插入图片描述

测试 3:多行信息图

模拟一个真实需求——做一张数据卡片,有标题、副标题、四行数据。

prompt = '''Design an infographic card with the following layout:
Title: "2026 AI Video Market"
Subtitle: "Key Statistics"
Body text in 4 bullet points:
- "Market size: $4.2 billion"
- "YoY growth: 340%"  
- "Top model: Veo 3.1"
- "Open source leader: Wan 2.7"
Clean white background, blue accent color, modern data visualization style'''

Wan 2.7:标题 “2026 AI Video Market”、副标题 “Key Statistics”、四行数据全部正确,美元符号百分号都没问题。它做成了一份正经的数据报告风格——有图标、有分栏、有 “DETAILED BREAKDOWN” 小节,甚至底部还加了 “AI MARKET INSIGHTS” 的水印。过度发挥了,但文字全对。

Qwen Image 2.0:四行数据全对,排版是最干净的列表风格——白底,蓝色标题,四个 bullet point 一目了然。没有多余装饰,信息密度最高,最适合直接拿来用。

Seedream 4.5:四行数据也全对。做成了一张手持卡片的效果图,有点像社交媒体上的数据卡片模板。文字清晰,蓝色圆点标记。三个模型在这轮多行英文测试里都没出错,这个结果比我预期的好。

在这里插入图片描述

对比表

Wan 2.7 Qwen Image 2.0 Seedream 4.5
英文短词
英文多行(4行)
中文短句(7字)
排版丰富度 ✅ 最丰富 简洁干净 中等
输出分辨率 1024(实测) 1024(实测) 2048
价格 $0.04/张 按分辨率 按分辨率

这三轮测试的结论比我预期的乐观——三个模型在英文标题、中文短句、多行数据这些场景下都没出错。区别主要在排版风格和额外细节上,而不是文字准确率。

真正拉开差距的场景应该是更长的中文段落、混合中英文、特殊符号密集的情况。这些我后续会补测。

我的选择逻辑

中文、长文本、复杂排版用 Wan 2.7。4 月 1 号刚出的,目前中文文字渲染最强的。3000 token prompt 意味着你可以把每行字的内容位置大小全写清楚。

需要先生成再反复改的用 Qwen Image 2.0。它把生成和编辑统一到一个模型里了,生成一版不满意直接用自然语言改,不用重新跑。AI Arena 第一名。

英文短标题、产品标签用 Seedream 4.5。“COFFEE”“OPEN”“SALE 50% OFF” 这种,又快又准。别拿它写长句子就行。

写 prompt 的经验

文字内容一定要用英文双引号包起来。title "AI SUMMIT 2026"title AI SUMMIT 2026 效果差很多,引号帮模型分清哪些是要渲染的文字。

字体风格和位置要写。bold sans-serif title at top center 比光写 title 好太多。不写的话模型自己选,经常选得很离谱。

文字越短越准。这是铁律。1-5 个词的准确率远高于一整句话。需要多行文字就把每行单独描述,别塞一大段。

分辨率拉到 2048 以上。1024 的图里文字容易糊,尤其是小字号。

调 prompt 的时候固定 seed。不然你分不清是 prompt 改好了还是随机性碰巧出了个好结果。


Wan 2.7-Image:https://wavespeed.ai/blog/posts/introducing-alibaba-wan-2-7-text-to-image-on-wavespeedai/
Qwen Image 2.0:https://wavespeed.ai/collections/qwen
Seedream 4.5:https://wavespeed.ai/collections/bytedance
SDK:https://github.com/WaveSpeedAI/wavespeed-python

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐