AI 生成的图片终于能写对字了：Wan 2.7 / Qwen Image 2.0 / Seedream 4.5 文字渲染实测

2601_95717211

484人浏览 · 2026-04-07 15:25:36

2601_95717211 · 2026-04-07 15:25:36 发布

上周帮朋友做一张活动海报，标题就四个字——“AI SUMMIT 2026”。我想着这么简单的事，用 AI 生图几秒钟搞定。

结果 Midjourney 给我出了个 “AI SUMM1T 2O2G”。

换 Stable Diffusion 试，“AI SUNMIT 2026”。离谱。

这个问题我忍了快两年了。每次用 AI 出图，文字部分都得后期自己 P。直到最近试了几个 2026 年新出的模型，发现这事终于有救了。

分别跑了大概四五次，把三个模型的文字渲染能力摸清楚了，写个记录。

先说一下为什么以前不行

这个得从扩散模型的原理说起。

Stable Diffusion 这类模型生成图片，本质上是从一张全是噪点的图开始，一步步去噪，最后变成清晰图片。模型在训练的时候学的是像素级别的统计规律——它知道"这个位置大概应该有文字的形状"，但它不知道具体该写什么。

你可以想象一个完全不认识中文的老外，让他画一块中文招牌。他见过很多中文招牌的照片，知道中文字大概长什么样——方方正正，有横有竖。但具体每个字怎么写？他不知道。画出来的东西远看像中文，近看全是乱笔。

AI 就是这个老外。

文字和风景、人物不一样。树叶多一片少一片没人在意，但 “R” 少一笔就变成 “P” 了。扩散模型每一步去噪都有微小的随机性，这点随机性放在风景照里无所谓，放在文字里就是错别字。

三个模型

我在 WaveSpeedAI 上调的，三个模型都有，换个模型 ID 就行，不用折腾多套 SDK。

pip install wavespeed

测试 1：英文海报标题

最基础的。一张科技大会海报，标题 “AI SUMMIT 2026”，副标题 “San Francisco · June 15-17”。

import wavespeed

output = wavespeed.run(
    "alibaba/wan-2.7/text-to-image",
    {
        "prompt": 'Minimalist tech conference poster, deep navy background, large bold title "AI SUMMIT 2026", subtitle "San Francisco · June 15-17", abstract holographic geometric shape in center, generous whitespace, modern sans-serif typography',
        "width": 2048,
        "height": 2048
    }
)
print(output["outputs"][0])

三个模型跑同一个 prompt，结果：

Wan 2.7：标题 “AI SUMMIT 2026” 完全正确，副标题 “San Francisco · June 15-17” 也对。它还自己加了 “Moscone Center West · Hall C” 和底部的活动信息栏，排版最丰富，像一张真正的活动海报。

Qwen Image 2.0：标题副标题都对，排版最简洁干净——大标题居中，副标题在下方，中间一个全息几何体。没有多余的元素，设计感最强。

Seedream 4.5：标题副标题也全对。风格偏暗色调，几何体是一个透明立方体。三个模型在这轮英文短标题测试里都没出错。

在这里插入图片描述

测试 2：中文

这轮拉开差距了。

prompt = '书法风格的中国传统卷轴，上面写着"千里之行始于足下"，毛笔字体，宣纸质感背景，水墨画风格的山水点缀'

Wan 2.7："千里之行始于足下"七个字全对，竖排书法，笔画清晰有力，右下角还自动加了一方印章，整体最像一幅真正的书法卷轴。背景是水墨山水，构图完整。

Qwen Image 2.0：七个字也全对，但排版不太一样——分成了两列横排（"千里之行始"一列，"于足下"一列），更像是书法练习的布局。字体偏楷书，笔画清楚。

Seedream 4.5：七个字也写对了，竖排，字体偏现代书法风格。背景是水墨山水画，有卷轴边框。三个模型在这轮中文测试里表现都不错，七个字的成语长度是它们的舒适区。

在这里插入图片描述

测试 3：多行信息图

模拟一个真实需求——做一张数据卡片，有标题、副标题、四行数据。

prompt = '''Design an infographic card with the following layout:
Title: "2026 AI Video Market"
Subtitle: "Key Statistics"
Body text in 4 bullet points:
- "Market size: $4.2 billion"
- "YoY growth: 340%"  
- "Top model: Veo 3.1"
- "Open source leader: Wan 2.7"
Clean white background, blue accent color, modern data visualization style'''

Wan 2.7：标题 “2026 AI Video Market”、副标题 “Key Statistics”、四行数据全部正确，美元符号百分号都没问题。它做成了一份正经的数据报告风格——有图标、有分栏、有 “DETAILED BREAKDOWN” 小节，甚至底部还加了 “AI MARKET INSIGHTS” 的水印。过度发挥了，但文字全对。

Qwen Image 2.0：四行数据全对，排版是最干净的列表风格——白底，蓝色标题，四个 bullet point 一目了然。没有多余装饰，信息密度最高，最适合直接拿来用。

Seedream 4.5：四行数据也全对。做成了一张手持卡片的效果图，有点像社交媒体上的数据卡片模板。文字清晰，蓝色圆点标记。三个模型在这轮多行英文测试里都没出错，这个结果比我预期的好。

在这里插入图片描述

对比表

	Wan 2.7	Qwen Image 2.0	Seedream 4.5
英文短词	✅	✅	✅
英文多行（4行）	✅	✅	✅
中文短句（7字）	✅	✅	✅
排版丰富度	✅ 最丰富	简洁干净	中等
输出分辨率	1024（实测）	1024（实测）	2048
价格	$0.04/张	按分辨率	按分辨率

这三轮测试的结论比我预期的乐观——三个模型在英文标题、中文短句、多行数据这些场景下都没出错。区别主要在排版风格和额外细节上，而不是文字准确率。

真正拉开差距的场景应该是更长的中文段落、混合中英文、特殊符号密集的情况。这些我后续会补测。

我的选择逻辑

中文、长文本、复杂排版用 Wan 2.7。4 月 1 号刚出的，目前中文文字渲染最强的。3000 token prompt 意味着你可以把每行字的内容位置大小全写清楚。

需要先生成再反复改的用 Qwen Image 2.0。它把生成和编辑统一到一个模型里了，生成一版不满意直接用自然语言改，不用重新跑。AI Arena 第一名。

英文短标题、产品标签用 Seedream 4.5。“COFFEE”“OPEN”“SALE 50% OFF” 这种，又快又准。别拿它写长句子就行。

写 prompt 的经验

文字内容一定要用英文双引号包起来。title "AI SUMMIT 2026" 和 title AI SUMMIT 2026 效果差很多，引号帮模型分清哪些是要渲染的文字。

字体风格和位置要写。bold sans-serif title at top center 比光写 title 好太多。不写的话模型自己选，经常选得很离谱。

文字越短越准。这是铁律。1-5 个词的准确率远高于一整句话。需要多行文字就把每行单独描述，别塞一大段。

分辨率拉到 2048 以上。1024 的图里文字容易糊，尤其是小字号。

调 prompt 的时候固定 seed。不然你分不清是 prompt 改好了还是随机性碰巧出了个好结果。

Wan 2.7-Image：https://wavespeed.ai/blog/posts/introducing-alibaba-wan-2-7-text-to-image-on-wavespeedai/
Qwen Image 2.0：https://wavespeed.ai/collections/qwen
Seedream 4.5：https://wavespeed.ai/collections/bytedance
SDK：https://github.com/WaveSpeedAI/wavespeed-python

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一个GitHub Issue就能投毒Claude Code？我拆解了整条供应链攻击链

上周Claude Code刚被AMD AI负责人用23万次调用记录实锤"越更新越差"[1]，这周它的GitHub Actions又被安全研究者扒出了一个供应链级别的漏洞——一个恶意GitHub Issue，就能让Claude Code帮你把仓库Secret全偷走，甚至往你的代码里投毒[2]。这个漏洞有多严重？CVSS v4.0评分7.8，Anthropic为此支付了4800美元赏金。更可怕的是，A