用同一套代码跑 FLUX / Seedream / Nano Banana Pro，对比一下效果

2601_95717211

438人浏览 · 2026-04-02 15:31:49

2601_95717211 · 2026-04-02 15:31:49 发布

在做营销素材自动化，不同场景需要不同风格的图——产品图要写实、海报要能渲染文字、社交配图要出得快。试了几个模型，记录一下各自的效果和适用场景。

环境

FLUX、Seedream、Nano Banana Pro 分别是 Black Forest Labs、字节、Google 的模型，本来得分别对接三家的 API。后来发现 WaveSpeedAI 这种聚合平台上这几个模型都有，SDK 把提交任务、轮询状态、拿结果这些都封装好了，切换模型只要换个模型 ID 字符串，就不用折腾多套接入了。

pip install wavespeed

API Key 在 https://wavespeed.ai/settings/api-keys 创建，设成环境变量就行。

FLUX 2 Pro

Black Forest Labs 的旗舰模型，写实风格很强。

import wavespeed

output = wavespeed.run(
    "wavespeed-ai/flux-2-pro/text-to-image",
    {
        "prompt": "Professional product photo of a luxury wristwatch on dark slate surface, dramatic side lighting, reflections on metal case, commercial photography style",
        "width": 1024,
        "height": 1024
    }
)

print(output["outputs"][0])

产品图和人像是它的强项，光影和材质感渲染得很到位。

短板是中文 prompt 效果一般，同样的描述英文出来的图比中文好不少。用 FLUX 建议写英文 prompt。

在这里插入图片描述

Seedream 4.5

字节的模型，最大卖点是能在图片里生成清晰可读的文字。

output = wavespeed.run(
    "bytedance/seedream-v4.5",
    {
        "prompt": '极简科技大会海报，深蓝色背景，大标题 "AI SUMMIT 2026"，副标题 "San Francisco · June 15-17"，中央一个抽象全息几何体，大量留白',
        "width": 2048,
        "height": 2048
    }
)

文字渲染有几个技巧：

要生成的文字用双引号包起来
指定字体风格和位置：bold sans-serif, title top-center
文字控制在 1-10 个词，太长容易出错
分辨率拉到 2048 以上，文字更清晰

这些是从 WaveSpeedAI 上 Seedream 的文档里学到的。

在这里插入图片描述

Seedream 5.0 Lite

Seedream 最新版，中文 prompt 理解比较好。我拿同一段中文 prompt 跑了 FLUX 和 5.0 Lite，FLUX 把"手冲咖啡器具"理解成了意式咖啡机，Seedream 生成的确实是手冲壶和滤杯。

output = wavespeed.run(
    "bytedance/seedream-v5.0-lite",
    {
        "prompt": "一间温馨的日式咖啡馆，木质吧台上摆着手冲咖啡器具，窗外樱花盛开，午后阳光透过纱帘洒进来"
    }
)

还支持图片编辑，端点是 bytedance/seedream-v5.0-lite/edit，传入原图和编辑指令就行。

在这里插入图片描述

Nano Banana Pro

Google 基于 Gemini 3 Pro 做的，特点是快，编辑能力强。

output = wavespeed.run(
    "google/nano-banana-pro/text-to-image",
    {
        "prompt": "A cozy reading nook with floor-to-ceiling bookshelves, velvet armchair, warm lamp light, a sleeping cat on a cushion, photorealistic",
    }
)

画质和 FLUX 差距不大，但出图速度快一些。需要快速迭代的时候（跑 20 个 prompt 选最好的）速度优势就体现出来了。

在这里插入图片描述

同一 Prompt 对比

用同一段 prompt 跑三个模型看看差异：

prompt = "An ancient Japanese temple in autumn, red maple leaves falling, stone path leading to wooden gate, morning mist, golden hour light, ultra detailed"

models = {
    "FLUX 2 Pro": "wavespeed-ai/flux-2-pro/text-to-image",
    "Seedream 4.5": "bytedance/seedream-v4.5",
    "Nano Banana Pro": "google/nano-banana-pro/text-to-image",
}

for name, model_id in models.items():
    output = wavespeed.run(model_id, {"prompt": prompt})
    print(f"{name}: {output['outputs'][0]}")

跑了几轮的观感：

FLUX：光影最真实，树叶的透光感和石板路的质感处理最好，但构图偏保守
Seedream 4.5：色彩更鲜艳，构图更大胆。如果 prompt 里有牌匾、石碑之类的文字，它能渲染出来
Nano Banana Pro：整体和 FLUX 接近，远处细节稍粗糙一点，胜在速度

在这里插入图片描述

批量生成

Seedream 有个 Sequential 模式，一次生成多张风格一致的图，适合电商多色产品图这种场景：

output = wavespeed.run(
    "bytedance/seedream-v4/sequential",
    {
        "prompt": "Generate 4 product photos of the same sneaker. Image 1: white/blue; Image 2: black/gold; Image 3: red/white; Image 4: green/cream. Studio lighting, same angle, white background.",
        "max_images": 4
    }
)

for i, url in enumerate(output["outputs"]):
    print(f"图片 {i+1}: {url}")

注意 Sequential 按 max_images 计费不是按实际输出数量，设了 4 就收 4 张的钱，prompt 里描述的数量要对上。

在这里插入图片描述

小结

跑下来的经验：产品图和写实场景用 FLUX，需要图内文字（海报、Banner）用 Seedream 4.5，中文 prompt 用 Seedream 5.0 Lite，需要快速出图用 Nano Banana Pro。

SDK：https://github.com/WaveSpeedAI/wavespeed-python
Seedream 文档：https://wavespeed.ai/blog/posts/seedream-4-0-to-5-0-complete-tutorial-image-generation-editing

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

ssd,fasterrcnn,yolo26,yolo11,yolov8,yolov5目标检测免环境一键训练工具

AtomGit开源社区

DeepBI如何通过AI提升亚马逊广告ROI

AtomGit开源社区

架构设计（一）

项目中的智能穿搭建议，属于文本大模型推理任务，输入衣物标签、场景信息，即可秒级返回文字结果，轻量且稳定。而虚拟试穿（VTON）是图像生成任务，需要完成图像解析、人体适配、衣物形变、画面渲染等一系列复杂操作，耗时普遍在30–120秒，对网络、超时、文件传输的要求远高于普通文本接口。因此我摒弃了将试穿功能嵌入AI聊天窗口的常规做法，采用独立页面、独立接口、独立服务逻辑的设计，从根源避免功能耦合、超时崩