在做营销素材自动化,不同场景需要不同风格的图——产品图要写实、海报要能渲染文字、社交配图要出得快。试了几个模型,记录一下各自的效果和适用场景。

环境

FLUX、Seedream、Nano Banana Pro 分别是 Black Forest Labs、字节、Google 的模型,本来得分别对接三家的 API。后来发现 WaveSpeedAI 这种聚合平台上这几个模型都有,SDK 把提交任务、轮询状态、拿结果这些都封装好了,切换模型只要换个模型 ID 字符串,就不用折腾多套接入了。

pip install wavespeed

API Key 在 https://wavespeed.ai/settings/api-keys 创建,设成环境变量就行。

FLUX 2 Pro

Black Forest Labs 的旗舰模型,写实风格很强。

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/flux-2-pro/text-to-image",
    {
        "prompt": "Professional product photo of a luxury wristwatch on dark slate surface, dramatic side lighting, reflections on metal case, commercial photography style",
        "width": 1024,
        "height": 1024
    }
)

print(output["outputs"][0])

产品图和人像是它的强项,光影和材质感渲染得很到位。

短板是中文 prompt 效果一般,同样的描述英文出来的图比中文好不少。用 FLUX 建议写英文 prompt。

在这里插入图片描述

Seedream 4.5

字节的模型,最大卖点是能在图片里生成清晰可读的文字。

output = wavespeed.run(
    "bytedance/seedream-v4.5",
    {
        "prompt": '极简科技大会海报,深蓝色背景,大标题 "AI SUMMIT 2026",副标题 "San Francisco · June 15-17",中央一个抽象全息几何体,大量留白',
        "width": 2048,
        "height": 2048
    }
)

文字渲染有几个技巧:

  • 要生成的文字用双引号包起来
  • 指定字体风格和位置:bold sans-serif, title top-center
  • 文字控制在 1-10 个词,太长容易出错
  • 分辨率拉到 2048 以上,文字更清晰

这些是从 WaveSpeedAI 上 Seedream 的文档里学到的。

在这里插入图片描述

Seedream 5.0 Lite

Seedream 最新版,中文 prompt 理解比较好。我拿同一段中文 prompt 跑了 FLUX 和 5.0 Lite,FLUX 把"手冲咖啡器具"理解成了意式咖啡机,Seedream 生成的确实是手冲壶和滤杯。

output = wavespeed.run(
    "bytedance/seedream-v5.0-lite",
    {
        "prompt": "一间温馨的日式咖啡馆,木质吧台上摆着手冲咖啡器具,窗外樱花盛开,午后阳光透过纱帘洒进来"
    }
)

还支持图片编辑,端点是 bytedance/seedream-v5.0-lite/edit,传入原图和编辑指令就行。

在这里插入图片描述

Nano Banana Pro

Google 基于 Gemini 3 Pro 做的,特点是快,编辑能力强。

output = wavespeed.run(
    "google/nano-banana-pro/text-to-image",
    {
        "prompt": "A cozy reading nook with floor-to-ceiling bookshelves, velvet armchair, warm lamp light, a sleeping cat on a cushion, photorealistic",
    }
)

画质和 FLUX 差距不大,但出图速度快一些。需要快速迭代的时候(跑 20 个 prompt 选最好的)速度优势就体现出来了。

在这里插入图片描述

同一 Prompt 对比

用同一段 prompt 跑三个模型看看差异:

prompt = "An ancient Japanese temple in autumn, red maple leaves falling, stone path leading to wooden gate, morning mist, golden hour light, ultra detailed"

models = {
    "FLUX 2 Pro": "wavespeed-ai/flux-2-pro/text-to-image",
    "Seedream 4.5": "bytedance/seedream-v4.5",
    "Nano Banana Pro": "google/nano-banana-pro/text-to-image",
}

for name, model_id in models.items():
    output = wavespeed.run(model_id, {"prompt": prompt})
    print(f"{name}: {output['outputs'][0]}")

跑了几轮的观感:

  • FLUX:光影最真实,树叶的透光感和石板路的质感处理最好,但构图偏保守
  • Seedream 4.5:色彩更鲜艳,构图更大胆。如果 prompt 里有牌匾、石碑之类的文字,它能渲染出来
  • Nano Banana Pro:整体和 FLUX 接近,远处细节稍粗糙一点,胜在速度

在这里插入图片描述

批量生成

Seedream 有个 Sequential 模式,一次生成多张风格一致的图,适合电商多色产品图这种场景:

output = wavespeed.run(
    "bytedance/seedream-v4/sequential",
    {
        "prompt": "Generate 4 product photos of the same sneaker. Image 1: white/blue; Image 2: black/gold; Image 3: red/white; Image 4: green/cream. Studio lighting, same angle, white background.",
        "max_images": 4
    }
)

for i, url in enumerate(output["outputs"]):
    print(f"图片 {i+1}: {url}")

注意 Sequential 按 max_images 计费不是按实际输出数量,设了 4 就收 4 张的钱,prompt 里描述的数量要对上。

在这里插入图片描述

小结

跑下来的经验:产品图和写实场景用 FLUX,需要图内文字(海报、Banner)用 Seedream 4.5,中文 prompt 用 Seedream 5.0 Lite,需要快速出图用 Nano Banana Pro。


SDK:https://github.com/WaveSpeedAI/wavespeed-python
Seedream 文档:https://wavespeed.ai/blog/posts/seedream-4-0-to-5-0-complete-tutorial-image-generation-editing

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐