2025年AI生图+视频生成终极实战指南：Flux/Midjourney/Sora/可灵/即梦五大模型深度对比，附完整工作流代码

糯叽叽哇

812人浏览 · 2026-05-07 12:03:55

糯叽叽哇 · 2026-05-07 12:03:55 发布

2025年AI生图+视频生成终极实战指南：Flux/Midjourney/Sora/可灵/即梦五大模型深度对比，附完整工作流代码

这篇文章是我过去半年实战踩坑的总结，跑了将近200G的生成素材、烧了不下三万块API费、对比了市面上所有主流的AI生图生视频模型。如果你正准备切入AIGC这个赛道，或者已经在做但效果一直上不去，这篇应该能帮你少走大半年的弯路。文中涉及的API调用统一走 https://178.nz/aigc 这个聚合接口（后文会讲为什么选这个），省去了挨个申请海外账号的麻烦。

一、AI视觉生成赛道：2025年到底发生了什么？

如果你从2023年的Midjourney V5时代一路看到现在，应该能明显感觉到——AI生成的"能力密度"正在指数级攀升。

过去一年多，行业里密集发生了好几件大事：Sora 2全量开放API、Flux 1.1 Pro把开源模型的天花板顶到新高度、Midjourney V7终于修好了困扰多年的手部问题、GPT-4o Image把文字渲染能力拉到了新维度、可灵2.0让国产视频模型第一次有了国际竞争力、Veo 3原生集成了音频合成……每一件事单独拿出来都能搅动行业。

先给你看一组数据（来自我过去6个月跑的真实测试）：

能力维度	2023年Q4	2024年Q4	2025年Q2
单图生成耗时	30-60s	10-20s	2-5s
手部/脸部准确率	40%	75%	95%+
中文文字渲染	基本不可用	80%成功率	95%+
视频最长时长	4s	10s	60s+
视频一致性	差	中等	接近真人拍摄
3D模型生成	实验性	可用	商用级
单张成本	¥0.8-1.5	¥0.3-0.6	¥0.05-0.2

两年前我们做一张电商主图，要Midjourney试20次挑1张、再PS两小时修手修脸。现在用Flux 1.1 Pro + GPT-4o Image，一次出图可用率能到70%，整个流程压缩到5分钟以内。

这意味着什么？意味着AIGC从"创意人的玩具"真正变成了"生产线上的工具"。

谁能先把这套工具链搭起来、把工作流跑通，谁就能在2025年的内容大战里吃到第一波红利。

换个角度看，这也意味着技术门槛在急剧降低。一年前你想做AI视频，得懂ComfyUI、懂Stable Diffusion的工作流、还得有张好显卡。现在你只要会写几行Python，就能调用全球最强的视频模型。这种"普惠化"的趋势会持续加速——每一个从业者都应该在自己的工作流里至少嵌入一个AIGC节点，否则半年后就会被同行甩开一大截。

二、主流生图模型横评：5款模型的硬核对比

先从生图说起。目前市面上真正有战斗力的闭源/开源大厂模型，我筛出来5款：

2.1 Flux 1.1 Pro（Black Forest Labs）

定位：2025年综合实力最强的生图模型。

出身背景：Black Forest Labs是Stable Diffusion原班人马出来单干创立的公司，2024年发布Flux系列后迅速占据社区C位，被誉为"SD精神续作"。

优势：

手部、脸部结构准确度行业第一
提示词遵循度极高（Prompt Adherence榜单长期Top1）
支持文字渲染，英文几乎完美，中文需要特殊技巧
风格多样，既能照片写实也能插画风
速度快，单张约3-5秒

劣势：

价格中等偏高（单张约¥0.12-0.18）
开源版本（FLUX.1-dev）和Pro版本在精度上有明显差距

最适合的场景：电商主图、产品摄影、广告大片、真实人像。

实战Prompt模板：

A professional product photograph of [object], 
studio lighting, soft shadows, seamless white background, 
shot with Canon EOS R5, 85mm lens, f/2.8, 
ultra-detailed, 8k resolution, commercial photography style

2.2 Midjourney V7

定位：艺术性之王，设计师首选。

出身背景：Midjourney是最早把AI生图带入大众视野的产品，创始人David Holz曾是Leap Motion的CTO。MJ的特点是"美学优先"，每一版更新都在追求更高的艺术表现力。

优势：

美学调性独特，"一眼MJ"的风格辨识度极高
情绪、光影、氛围把控无敌
–sref（风格参考）和–cref（角色参考）功能极其好用
最新V7版本在结构准确度上大幅提升

劣势：

价格较高（折算成单张约¥0.25-0.4）
官方只有Discord+Web端，API需要通过第三方代理
写实场景有时"过于艺术化"，不如Flux接地气
文字渲染能力一般

最适合的场景：插画创作、IP设计、概念设定、品牌视觉。

实战Prompt模板：

cinematic portrait of a cyberpunk detective, 
neon-lit rainy street, moody atmosphere, 
volumetric lighting, shallow depth of field, 
--ar 3:4 --style raw --stylize 750 --v 7

2.3 GPT-4o Image（OpenAI）

定位：最懂"你想要什么"的模型。

优势：

原生多模态，能听懂复杂多步骤的指令
支持图像编辑、局部重绘、风格迁移一站式完成
中文理解能力行业最强，中文提示词无需翻译
文字渲染能力行业第一（英文、中文都行）

劣势：

艺术性略逊于Midjourney
对"细节堆砌类"的Prompt响应不如Flux
价格较高（约¥0.3/张）

最适合的场景：需要精确控制的编辑任务、带文字的海报、营销插图。

2.4 可灵图像 / 即梦3.0（国产旗舰）

定位：中文场景最优解。

优势：

中文Prompt原生支持，无需翻译
对中国元素（汉服、水墨、国潮）理解到位
价格极低（约¥0.03-0.08/张）
支持角色一致性、图生图、文生图

劣势：

国际化美学不如Flux/MJ
某些复杂构图能力较弱

最适合的场景：国风创作、中文营销物料、小红书/抖音内容、本土化电商。

2.5 Stable Diffusion 3.5 Large（Stability AI）

定位：自由度最高的开源选择。

优势：

完全开源，可本地部署
LoRA生态极其丰富（C站上有数十万个LoRA）
可精细化训练自己的风格
无审核限制（自部署情况下）

劣势：

原生效果弱于闭源旗舰
需要一定的调参和LoRA搭配才能出彩
本地部署需要16GB+显存

最适合的场景：需要定制化风格、有GPU资源、做细分垂类的团队。

2.6 横向对比速查表

模型	画质	创意	中文支持	文字渲染	价格	速度	综合评分
Flux 1.1 Pro	★★★★★	★★★★	★★★	★★★★	中	★★★★	9.2
Midjourney V7	★★★★★	★★★★★	★★★	★★	高	★★★	9.0
GPT-4o Image	★★★★	★★★★	★★★★★	★★★★★	高	★★★	8.8
可灵图像	★★★★	★★★	★★★★★	★★★★	低	★★★★★	8.5
即梦3.0	★★★★	★★★★	★★★★★	★★★★	低	★★★★	8.5
SD 3.5 Large	★★★★	★★★★	★★★	★★★	极低	★★★	8.2

三、视频生成赛道：从"玩具"到"工业化"的惊险跨越

2024年以前，AI生成视频约等于"会动的PPT"。2025年，这个行业发生了三件关键事情：

Sora 2正式开放API
可灵2.0实现30秒以上的连贯叙事
Veo 3引入原生音频合成

视频生成的难度远高于图像。一张图只需要保证空间一致性，而视频要同时保证空间一致性 + 时间一致性 + 物理合理性 + 角色一致性。任何一个维度出错，成片就会显得"假"。过去两年行业一直在攻克这4个难题，到2025年终于有了质的突破。

我按真实测试结果，把目前能打的视频模型梳理如下：

3.1 Sora 2（OpenAI）

能力：

最长60秒连贯视频
原生音频合成（人物对话、环境音、音乐）
物理真实感行业第一
支持多镜头切换

价格：较高，60秒视频约¥30-50

适用场景：短片、广告、分镜动画

实战经验：Sora 2对"镜头语言"的响应极强。写Prompt时多用"tracking shot（跟拍）"、“dolly in（推镜）”、"low angle（低角度）“这类电影术语，效果会炸裂。另外Sora对"物理世界细节"特别敏感，比如"水从杯中溢出”、"蜡烛火焰随气流摇曳"这些场景都能准确模拟，别的模型在这方面经常翻车。

3.2 可灵2.0（快手）

能力：

最长30秒，一致性出色
首尾帧指定
运动笔刷（圈出某区域指定运动方向）
支持参考角色和场景

价格：低，10秒视频约¥3-8

适用场景：电商带货、短视频内容、产品演示

实战经验：可灵的"首尾帧"功能是神器。你只要提供起始画面和结束画面，中间的过渡它自己搞定，比纯文字Prompt稳定得多。另外可灵的"运动笔刷"功能特别适合电商场景——你只要圈出"这个产品要旋转"、“这片布料要飘动”，模型就能精准执行，不会乱动其他部分。

3.3 Veo 3（Google）

能力：

8秒超高质量视频
原生对白+音乐+音效合成
物理模拟极其精准

价格：中高

适用场景：社交媒体短片、创意广告

实战经验：Veo 3对"声画一体"场景无敌。比如"一个人在雨中打伞走路，同时听到脚步声和雨声"，Veo 3能同时生成画面和音效。特别适合社交平台的短视频——因为不用单独做音效合成，成片效率直接翻倍。

3.4 即梦AI / Vidu 2.0（国产）

能力：

5-10秒视频
价格极低
中文Prompt支持好

价格：极低，5秒约¥1-2

适用场景：大批量素材生成、短视频矩阵

3.5 视频模型使用决策矩阵

需求	推荐模型
高质量广告短片	Sora 2 / Veo 3
电商产品视频	可灵2.0
批量内容矩阵	即梦 / Vidu
创意分镜	Sora 2
带配音	Veo 3
长片剧情	可灵2.0（首尾帧拼接）

四、为什么我所有项目都走 https://178.nz/aigc 这个入口？

讲到这里，你应该能感觉到——想做好AIGC，一个模型是绝对不够的。

你做一张电商主图，可能要Flux出主体、GPT-4o加文案、可灵做商品动态图、Sora做产品视频。光是注册账号就能把你逼疯：

OpenAI要美国手机号+海外信用卡
Midjourney要Discord账号+订阅
Black Forest Labs要Replicate或Fal账号
国产各家都要分别注册+充值
账户之间的额度不能共用，每家都要盯着余额

更糟的是，很多模型有地域限制。OpenAI在国内直连不稳定，Midjourney的Discord在国内访问经常断连，Sora API刚开放时绝大多数国人根本申请不到资格。你以为最难的是写代码？其实最难的是"拿到入场券"。

这就是为什么聚合中转站（API Gateway）在2025年变得不可或缺。

我个人这半年一直在用的是 https://178.nz/aigc（向量引擎），因为它基本解决了我所有的痛点：

一个Key通所有模型：Flux、MJ、GPT-4o Image、Sora、可灵、即梦、Veo 3、Stable Diffusion、Midjourney，全部600+模型都在同一个endpoint下调用。
兼容OpenAI格式：老代码基本零改动，直接切换base_url就行。
价格走官方倍率：账单透明可追溯，没有乱七八糟的"会员费"。
1元起充：早期测试阶段非常友好，我当初就是先充10块钱跑完整套pipeline才决定全量切。
国内直连稳定：不用折腾代理，不用担心被封号。
账户统一结算：不用在7-8个平台分别盯着余额，一个账户覆盖所有模型。
故障切换：某个模型临时故障时，后台会自动路由到备用线路，业务连续性有保证。

具体操作也很简单：打开 https://178.nz/aigc 注册账号，在后台创建API Key，就能在代码里用了。注册流程不需要海外手机号、不需要外币信用卡，国内用户全流程无障碍。

你可以自己去看：https://178.nz/aigc ，注册后能在后台看到完整的模型列表和价格。建议先充10块钱跑一遍自己的核心场景，再决定是否上规模。我身边至少有20多个朋友（独立开发者、电商运营、自媒体博主）都在用这个，反馈都挺稳定。

下面所有的代码示例和实战案例，都是基于这个聚合入口写的。你照抄就能跑。

五、生图实战：统一代码调用五大模型

5.1 基础环境

# requirements.txt
openai>=1.50.0
requests>=2.31.0
Pillow>=10.0.0
python-dotenv>=1.0.0

配置文件：

# config.py
import os
from dotenv import load_dotenv

load_dotenv()

API_KEY = os.getenv("AIGC_KEY")          # 在 178.nz/aigc 后台获取
BASE_URL = "https://178.nz/aigc/v1"      # 统一endpoint

5.2 生图统一调用接口

# image_gen.py
from openai import OpenAI
import base64
import requests
from pathlib import Path
from config import API_KEY, BASE_URL

client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

def generate_image(
    prompt: str,
    model: str = "flux-1.1-pro",
    size: str = "1024x1024",
    n: int = 1,
    save_dir: str = "./output"
) -> list[str]:
    """
    统一生图接口，支持 flux/midjourney/dall-e-3/gpt-4o-image/kling-image 等
    """
    response = client.images.generate(
        model=model,
        prompt=prompt,
        size=size,
        n=n,
        response_format="url"
    )
    
    save_path = Path(save_dir)
    save_path.mkdir(parents=True, exist_ok=True)
    
    files = []
    for i, item in enumerate(response.data):
        img_bytes = requests.get(item.url, timeout=30).content
        filename = save_path / f"{model}_{i}.png"
        filename.write_bytes(img_bytes)
        files.append(str(filename))
    
    return files


if __name__ == "__main__":
    # 用Flux生成电商主图
    files = generate_image(
        prompt="商业摄影风格的智能手表产品图，纯白背景，柔和打光，极致细节",
        model="flux-1.1-pro",
        size="1024x1024"
    )
    print(files)
    
    # 同一个Prompt切换到Midjourney
    files = generate_image(
        prompt="cinematic product shot of a smartwatch, white background, soft studio lighting --ar 1:1 --v 7",
        model="midjourney-v7"
    )
    print(files)

5.3 图像编辑与局部重绘

当你要做商品图换背景、模特换脸、文字修改这类场景，图像编辑比纯生成更重要：

def edit_image(
    image_path: str,
    mask_path: str,
    prompt: str,
    model: str = "gpt-4o-image"
) -> str:
    """
    局部重绘：image_path是原图，mask_path是白色区域要重绘的mask
    """
    with open(image_path, "rb") as img_f, open(mask_path, "rb") as mask_f:
        response = client.images.edit(
            model=model,
            image=img_f,
            mask=mask_f,
            prompt=prompt,
            size="1024x1024"
        )
    
    img_url = response.data[0].url
    img_bytes = requests.get(img_url).content
    out_path = "edit_result.png"
    Path(out_path).write_bytes(img_bytes)
    return out_path


# 用法：给模特换身衣服
result = edit_image(
    image_path="model_original.png",
    mask_path="clothing_mask.png",  # 白色区域覆盖衣服部分
    prompt="a red silk qipao with golden embroidery, elegant style",
    model="gpt-4o-image"
)

5.4 角色一致性：用Reference Image

2025年最重要的生图能力之一，就是角色一致性——同一个人、同一个IP在不同场景下长得一模一样。

def generate_with_reference(
    prompt: str,
    reference_image: str,
    model: str = "flux-redux"
) -> str:
    """
    基于参考图生成同风格/同角色的新图
    """
    with open(reference_image, "rb") as f:
        img_b64 = base64.b64encode(f.read()).decode("utf-8")
    
    payload = {
        "model": model,
        "prompt": prompt,
        "reference_image": f"data:image/png;base64,{img_b64}",
        "reference_strength": 0.85,   # 参考强度
        "size": "1024x1024"
    }
    
    resp = requests.post(
        f"{BASE_URL}/images/generations",
        json=payload,
        headers={"Authorization": f"Bearer {API_KEY}"}
    ).json()
    
    img_url = resp["data"][0]["url"]
    out_path = "ref_result.png"
    Path(out_path).write_bytes(requests.get(img_url).content)
    return out_path


# 用法：保持品牌IP在不同场景下的形象一致
generate_with_reference(
    prompt="品牌吉祥物小熊坐在咖啡店窗边，阳光洒进来",
    reference_image="mascot.png"
)

六、视频生成实战：从Prompt到成片的完整流程

6.1 文本到视频（text-to-video）

# video_gen.py
import time
import requests
from config import API_KEY, BASE_URL


def text_to_video(
    prompt: str,
    model: str = "kling-v2",
    duration: int = 10,
    aspect_ratio: str = "16:9"
) -> str:
    """
    文本生成视频，返回视频URL
    """
    # 第一步：提交任务
    create_resp = requests.post(
        f"{BASE_URL}/video/generations",
        json={
            "model": model,
            "prompt": prompt,
            "duration": duration,
            "aspect_ratio": aspect_ratio
        },
        headers={"Authorization": f"Bearer {API_KEY}"}
    ).json()
    
    task_id = create_resp["task_id"]
    print(f"任务提交成功: {task_id}")
    
    # 第二步：轮询任务状态
    while True:
        status_resp = requests.get(
            f"{BASE_URL}/video/tasks/{task_id}",
            headers={"Authorization": f"Bearer {API_KEY}"}
        ).json()
        
        status = status_resp["status"]
        if status == "succeeded":
            return status_resp["video_url"]
        elif status == "failed":
            raise Exception(f"生成失败: {status_resp.get('error')}")
        
        print(f"当前状态: {status}, 进度: {status_resp.get('progress', 0)}%")
        time.sleep(5)


if __name__ == "__main__":
    video_url = text_to_video(
        prompt="一只橘色小猫在窗台上伸懒腰，阳光透过窗户洒下来，慢动作特写",
        model="kling-v2",
        duration=10
    )
    print(f"视频已生成: {video_url}")

6.2 图生视频（image-to-video）

这个是电商、产品演示最常用的场景：

def image_to_video(
    image_path: str,
    prompt: str,
    model: str = "kling-v2",
    duration: int = 5
) -> str:
    """
    用一张图作为起始帧，生成动态视频
    """
    with open(image_path, "rb") as f:
        img_b64 = base64.b64encode(f.read()).decode("utf-8")
    
    create_resp = requests.post(
        f"{BASE_URL}/video/generations",
        json={
            "model": model,
            "prompt": prompt,
            "first_frame": f"data:image/png;base64,{img_b64}",
            "duration": duration
        },
        headers={"Authorization": f"Bearer {API_KEY}"}
    ).json()
    
    task_id = create_resp["task_id"]
    # 轮询逻辑同上...

6.3 首尾帧模式（最稳定的连贯视频方案）

def first_last_frame_video(
    first_frame_path: str,
    last_frame_path: str,
    prompt: str = "",
    model: str = "kling-v2"
) -> str:
    """
    首尾帧模式：提供起始和结束画面，模型生成中间过渡
    稳定性极高，强烈推荐用于商用场景
    """
    with open(first_frame_path, "rb") as f1, open(last_frame_path, "rb") as f2:
        first_b64 = base64.b64encode(f1.read()).decode("utf-8")
        last_b64 = base64.b64encode(f2.read()).decode("utf-8")
    
    resp = requests.post(
        f"{BASE_URL}/video/generations",
        json={
            "model": model,
            "mode": "first_last_frame",
            "first_frame": f"data:image/png;base64,{first_b64}",
            "last_frame": f"data:image/png;base64,{last_b64}",
            "prompt": prompt,
            "duration": 5
        },
        headers={"Authorization": f"Bearer {API_KEY}"}
    ).json()
    
    # 返回任务并轮询...

七、一条完整的电商AIGC工作流拆解

理论讲了这么多，最后我把自己用这套方案做过的一条真实电商工作流完整拆解给你。

7.1 需求背景

客户是一个新锐家居品牌，需要在一周内完成新品"北欧风藤编椅"的全套视觉物料：

10张不同场景的产品主图
5张搭配场景氛围图
3支10秒短视频（详情页用）
1支30秒品牌短片

传统做法：外包摄影+视频，预算起步15万，周期3周。

AIGC做法：我一个人干完，3天，总成本不到500块。

7.2 工作流拆解

Step 1：基础素材生成（Flux 1.1 Pro）

prompts = [
    "商业摄影，北欧风藤编单人椅，纯白色无缝背景，柔和左侧打光，产品正面45度视角",
    "商业摄影，北欧风藤编单人椅，纯白色无缝背景，正上方俯视角度",
    # ... 8个角度的产品图
]

for i, p in enumerate(prompts):
    generate_image(prompt=p, model="flux-1.1-pro", save_dir=f"product/{i}")

Step 2：场景融合（GPT-4o Image）

把白底产品图融入真实家居场景：

edit_image(
    image_path="product/0/flux-1.1-pro_0.png",
    mask_path="background_mask.png",
    prompt="a cozy scandinavian living room, warm sunlight from window, minimalist decor",
    model="gpt-4o-image"
)

Step 3：氛围图（Midjourney V7）

用于品牌营销位：

generate_image(
    prompt="cinematic lifestyle photo of a wicker chair in a sunlit scandinavian living room, cozy atmosphere, morning light, shot on film --ar 16:9 --style raw --v 7",
    model="midjourney-v7",
    size="1792x1024"
)

Step 4：产品动态图（可灵2.0 图生视频）

image_to_video(
    image_path="scene_merged.png",
    prompt="镜头缓慢推进，阳光角度微妙变化，椅子上的抱枕微微晃动",
    model="kling-v2",
    duration=10
)

Step 5：品牌短片（Sora 2）

text_to_video(
    prompt="""
    A 30-second cinematic brand film:
    Scene 1 (0-8s): A young woman walks into her sunlit scandinavian apartment, 
    slow dolly-in, warm morning light.
    Scene 2 (8-18s): She sits down on the wicker chair with a cup of coffee, 
    close-up on her relaxed expression.
    Scene 3 (18-30s): Camera pulls back to reveal the whole cozy living room, 
    brand logo fades in.
    Style: minimalist, warm tones, film grain, 4K
    """,
    model="sora-2",
    duration=30
)

7.3 总成本结算

环节	模型	调用次数	成本
基础产品图	Flux 1.1 Pro	30次（含重抽）	¥4.5
场景融合	GPT-4o Image	20次	¥6
氛围图	Midjourney V7	15次	¥6
产品动态	可灵2.0	5条	¥40
品牌短片	Sora 2	3条（含重跑）	¥120
合计			¥176.5

整整一套电商物料，176块钱搞定。这个成本结构以前是不可想象的。

7.4 学到的关键经验

做完这个项目我总结了几个关键经验：

经验1：批量出图后一定要做人工筛选。就算模型可用率70%，商用图还是需要人眼把关。我的流程是每个场景跑5-8张，挑1-2张最好的进入下一步。

经验2：先定好色彩方案再出图。品牌视觉有自己的色系，在Prompt里明确写"warm tones, cream and sand palette"比后期调色效率高10倍。

经验3：视频千万别一口气生30秒。先生5秒试效果，确认方向对了再加长度。Sora 2的30秒视频一次约¥40，失败一次就是实打实的钱。

经验4：动静结合最有感染力。静态产品图做成品主图，动态5秒图做详情页"动图"吸引点击，30秒短片做品牌故事页。三个层次配合，转化率比纯静态图高40%以上。

经验5：一定要做A/B测试。我们用同一个产品出了3套不同风格的主图（极简白底、场景融合、氛围暗调），投放后极简白底的点击率最高，但氛围暗调的转化率最高。AIGC让你能低成本试多个方向，别浪费这个优势。

八、Prompt工程进阶：让出图率从30%提升到90%的12个心法

做AIGC的人都知道，模型出图"可用率"是核心指标。可用率越高，意味着你单位成本能产出的可商用素材越多、无效抽卡的损耗越少。我总结了12个让可用率从30%干到90%+的实战心法：

8.1 Prompt结构化

好的Prompt应该具备5个要素，缺一不可：

[主体 Subject] + [场景 Scene] + [风格 Style] + [镜头 Camera] + [参数 Parameters]

例如：

[a ginger cat] + [sitting on a sunlit windowsill] + 
[photorealistic, film grain] + [shallow depth of field, 85mm lens, f/1.4] + 
[--ar 3:2 --v 7]

8.2 负向Prompt要写全

大多数人知道写想要什么，但不写不要什么。好的负向Prompt能挡掉80%的废图：

negative_prompt: "blurry, low quality, deformed hands, extra fingers, bad anatomy, watermark, signature, text, cropped, out of frame"

8.3 用"参考大师"快速获取风格

直接在Prompt里引用知名摄影师、导演、画家的名字：

- 写实摄影 -> "in the style of Annie Leibovitz"
- 电影感 -> "shot by Roger Deakins, cinematic"  
- 插画 -> "illustrated by Hayao Miyazaki, Studio Ghibli style"
- 油画 -> "in the style of John Singer Sargent"

8.4 权重分配

Flux和SD支持括号加权，优先强调最重要的元素：

(majestic lion:1.5), (golden mane:1.3), savanna sunset, cinematic

8.5 光线是魔法

同一个主体，换个光就是另一个世界：

golden hour - 温暖梦幻
blue hour - 忧郁电影感
rim lighting - 人像必备
rembrandt lighting - 经典油画质感
neon lighting - 赛博朋克
volumetric lighting - 史诗感

8.6 "质感词"清单

这些词能瞬间提升画面质感：

ultra-detailed / hyperrealistic / 8k resolution
professional photography / award-winning
shot on Phase One / medium format film
HDR / dynamic range

8.7 摄影参数专业化

用真实的摄影参数让模型"更像相机拍的"：

镜头焦距：35mm / 50mm / 85mm / 135mm
光圈：f/1.4 / f/2.8 / f/8
快门感：1/1000s for sharp / 1/30s for motion blur
机身：Canon EOS R5 / Sony A7R IV / Hasselblad X2D

8.8 避免"万能词堆砌"

不要滥用"beautiful、amazing、masterpiece"，模型见多了已经脱敏。用具体的描述替代抽象的赞美。

8.9 "反直觉"技巧：少即是多

有时候Prompt越长反而效果越差。Flux和MJ对30-60个词的Prompt响应最好，超过120词就开始失焦。

8.10 中文Prompt的特殊处理

如果你用中文Prompt：

可灵、即梦、GPT-4o原生支持
Flux和MJ建议翻译成英文再送（或在聚合站用他们的"自动翻译"功能）

8.11 Seed锁定保证一致性

批量生成时锁定seed能保证连续画面风格一致：

generate_image(prompt="...", seed=42)   # 同seed同风格

8.12 用模型链（Model Chain）兜底

单模型出图率有限，建议用2-3个模型并跑，选最优：

models = ["flux-1.1-pro", "midjourney-v7", "gpt-4o-image"]
results = [generate_image(prompt=p, model=m) for m in models]
# 人工挑选最佳

九、商用避坑指南：合规、版权、审核全流程

AIGC商用不是"生成出来就能用"，背后有一堆雷。做AIGC产品这半年，我见过太多人因为忽视合规问题，辛辛苦苦做的项目上线没几天就被投诉下架，白白浪费了前期投入。我按真实踩坑记录梳理如下：

9.1 版权归属问题

关键点：不同平台对AI生成内容的版权规则不一样。

OpenAI：生成内容归用户所有，可商用
Midjourney：基础版订阅限制个人使用，Pro及以上才能完全商用
Flux Pro（通过API）：商用无限制
Stable Diffusion：模型开源，生成内容自由
国产模型：通常需要看具体服务条款，主流几家都支持商用

建议：商用前一定要去模型方的Terms of Service页面确认最新条款，并保留生成日志作为证据。

9.2 肖像与人物授权

生成人脸时要特别小心：

不要生成明确可识别的公众人物（明星、政治人物）
不要基于真实他人照片做衍生（除非有授权）
商用人像建议：要么纯AI虚构面孔，要么和真人模特签授权合同

9.3 平台审核规则

各大内容平台（抖音、小红书、B站、视频号）在2025年都加强了AIGC内容审核：

大部分平台要求AI生成内容必须打标
抖音：发布时勾选"AI生成内容"
小红书：在文案里注明"AI生成"或带#AI创作#标签
微信视频号：后台自动检测并打水印

重要提醒：不打标可能被限流甚至下架。合规是长期主义。

9.4 内容审核

聚合站（比如前面提到的 https://178.nz/aigc）通常会做一层内容安全过滤，确保生成内容符合国内监管。但作为使用者，你自己也要做二次检查：

成人内容、暴力、血腥画面
违反公序良俗的内容
政治敏感符号

9.5 数据合规

如果你的业务涉及用户上传照片（比如写真生成类App），还要注意：

个人信息保护法：明确告知用户数据用途
网络安全法：留存必要日志
未成年人保护：不为未成年人生成真人改造类内容

9.6 企业内部审核流程

如果你是在公司内部做AIGC项目，建议搭建一个简易的审核链路：

生成时自动过滤：在聚合API层加一层关键词过滤，明显违规的直接拦截
入库前人工抽检：大批量生成后随机抽查5-10%
发布前法务review：核心营销物料必须经过法务确认
上线后监控反馈：关注用户举报、平台通知
定期风险复盘：每月做一次合规复盘会

这套流程看起来复杂，但等你真遇到一次合规事故就知道多值得。

9.7 特殊行业的额外注意

有几个行业对AIGC的合规要求更高，需要特别小心：

医疗健康：不能用AI生成的图片做诊断暗示
金融理财：任何"收益"相关的视觉元素都要极其谨慎
教育培训：面向未成年人的内容需要额外审核
美妆医美：效果图必须明确标注"仅供参考"
食品饮料：生成的食物图不能与实际商品差异过大，否则涉嫌虚假宣传

十、5个真实商业落地场景拆解

最后给你5个我或同行做过、已经在赚钱的商业场景，每个都有具体的模型组合和成本结构：

10.1 电商详情页视觉升级

痛点：拍摄成本高、周期长、风格单一
方案：Flux出主图 + GPT-4o换场景 + 可灵做动态图
单品成本：从原来的800-1500元/套 → 降到15-30元/套
适合团队：电商卖家、品牌方
真实案例：我认识一个做女装独立站的朋友，过去每个新款要花1200元找模特拍摄，现在用AIGC做虚拟模特+产品平铺动态图，单款成本控制在20元以内。半年上新量从30款提升到200款，GMV增长了3倍。

10.2 社交媒体内容工厂

痛点：日更压力大、原创难、剪辑慢
方案：GPT-5写文案 + 即梦生图 + Vidu生视频 + 剪映拼接
日产能：从3条 → 20条
适合团队：自媒体、MCN、新媒体运营
真实案例：一个做知识付费的团队，3人小组原来日产10条视频，用AIGC工作流后日产60条，单条制作成本从80元降到5元以内。账号矩阵从5个扩到30个，半年广告收入翻了4倍。

10.3 AI写真/IP头像服务

痛点：传统写真贵且慢
方案：Flux Redux做角色一致性 + SD LoRA训练 + GPT-4o精修
客单价：59-199元/套
适合团队：个人开发者、小工作室
真实案例：一个独立开发者做了个"AI婚纱照"小程序，上传5张情侣照生成20张不同场景的婚纱写真。上线3个月累计付费用户破万，纯收入过60万。

10.4 品牌广告创意辅助

痛点：创意枯竭、提案效率低
方案：Midjourney快速出多版分镜 + Sora 2生成demo短片
提案效率：从1周/版 → 1天/多版
适合团队：广告公司、品牌策划
真实案例：一家中型4A广告公司，用AIGC辅助提案后，每次比稿能带5-10个视频demo，以前只能带文字脚本。比稿中标率从18%提升到42%。

10.5 游戏美术快速原型

痛点：概念图迭代慢
方案：Flux/SD做角色设定 + 可灵生成动作演示
迭代速度：从3天/版 → 1小时/版
适合团队：游戏美术、独立开发者
真实案例：一个独立游戏团队，原本美术外包预算40万，用AIGC做80%的概念图+环境图后，美术预算压缩到12万，剩下的钱投入到程序和测试上，游戏品质反而提升。

十一、深度解析：6个生图进阶技巧

聊完应用场景，再给你6个能让你的出图质量碾压同行的进阶技巧。这几个技巧在社区里基本没人系统讲过，但对实战效果影响极大。

11.1 ControlNet风格控制

ControlNet是Stable Diffusion生态里的神器，能精确控制生成图的构图、姿势、边缘、深度。主流ControlNet类型：

Canny：基于边缘检测，用于保留原图结构
Depth：基于深度图，控制空间感
Pose：基于人体骨骼，控制人物姿势
Scribble：基于草图，把简笔画变成精修图
Segmentation：基于语义分割，精细控制每个区域

在聚合API里调用ControlNet的示例：

def generate_with_controlnet(
    prompt: str,
    control_image: str,
    control_type: str = "canny",
    model: str = "sd-3.5-large"
):
    with open(control_image, "rb") as f:
        img_b64 = base64.b64encode(f.read()).decode("utf-8")
    
    resp = requests.post(
        f"{BASE_URL}/images/generations",
        json={
            "model": model,
            "prompt": prompt,
            "controlnet": {
                "type": control_type,
                "image": f"data:image/png;base64,{img_b64}",
                "weight": 0.8
            }
        },
        headers={"Authorization": f"Bearer {API_KEY}"}
    ).json()
    return resp["data"][0]["url"]

实战心得：ControlNet的权重（weight）一般设0.6-0.85最合适，太高会锁死构图，太低等于没用。

11.2 LoRA：打造专属风格

LoRA（Low-Rank Adaptation）是轻量级的模型微调方案，能让生成图具备特定的"风格指纹"。

常见LoRA应用：

人物LoRA：训练某个角色/明星脸，生成时保持一致
风格LoRA：训练某种画风（比如某个插画师的风格）
场景LoRA：训练特定场景（比如赛博朋克、废土风）
服饰LoRA：训练特定服装款式

训练一个人物LoRA只需要20-30张图、2小时训练时间，成本在几十块钱。这是AI写真类产品的核心技术。

11.3 图像超分与修复

生成的图片分辨率有限，商用通常需要放大到4K甚至8K。主流方案：

Real-ESRGAN：通用超分，快而稳
SwinIR：细节保留更好
GFPGAN：人脸专项修复
Topaz Gigapixel：商用级，质量最高

用API调用超分：

def upscale_image(image_path: str, scale: int = 4):
    with open(image_path, "rb") as f:
        img_b64 = base64.b64encode(f.read()).decode("utf-8")
    
    resp = requests.post(
        f"{BASE_URL}/images/upscale",
        json={
            "model": "real-esrgan-x4",
            "image": f"data:image/png;base64,{img_b64}",
            "scale": scale
        },
        headers={"Authorization": f"Bearer {API_KEY}"}
    ).json()
    return resp["data"][0]["url"]

11.4 图像风格迁移

把A图的风格应用到B图的内容上。经典应用：给自拍照加上梵高星空风格、给建筑加上国画质感。

def style_transfer(content_image: str, style_reference: str, prompt: str = ""):
    """
    content_image: 内容图（保留结构）
    style_reference: 风格图（提取风格）
    """
    # 实现省略，核心是用IP-Adapter或InstantStyle
    pass

11.5 Inpainting与Outpainting

Inpainting（内补）：擦除图中某部分，模型补全
Outpainting（外扩）：扩展图片边界，模型延伸内容

Outpainting特别适合把竖版图扩展成横版海报，把正方形Logo扩展成banner。

def outpaint_image(image_path: str, direction: str = "all", prompt: str = ""):
    """
    direction: 'all' | 'left' | 'right' | 'top' | 'bottom'
    """
    # 使用DALL-E或Flux的outpaint模式
    pass

11.6 多图融合

把多张图合成一张新图。常见场景：

把产品图放到模特手里
把人物放到某个场景里
把多个元素组合成一张海报

技术上通常用Flux Redux + 多图Reference实现。

十二、我对2025下半年AIGC的5个预判

作为长期在一线踩坑的从业者，给你分享5个我判断会发生的趋势：

1. 视频一致性突破10分钟：目前主流模型最多生成1分钟连贯视频。下半年会看到能连续生成5-10分钟、多场景切换、角色稳定的长视频模型。一旦这个能力出现，整个短剧、广告片、教育视频行业都会被重塑。

2. 3D生成进入生产级：Meshy、Tripo、Trellis等3D生成模型在2025年下半年会达到可直接用于游戏/AR的精度。未来3D素材的生产成本会从每个几百块降到几块钱，独立游戏开发者是最大受益者。

3. 实时生成普及：当前生成一张图要2-5秒，下半年在消费级显卡上可能实现"秒出"。直播间实时换装、实时换背景将成为标配。这对电商直播是颠覆级的能力。

4. 多模态混合生成：一条指令生成"图+视频+音频"一体化内容，不用再分开调用。比如你说"给我一段关于夏日海边的15秒视频，配上舒缓的海浪声音乐"，模型一次性给你完整成片。

5. AIGC工作流平台爆发：类似n8n + ComfyUI的"拖拽式AIGC工作流"平台会大量涌现，非技术人员也能搭建复杂生成pipeline。这会进一步降低AIGC的使用门槛，让运营、设计、营销岗位人人都是"AI工程师"。

除了这5个主线趋势，还有几个值得关注的细分方向：

Agent + AIGC：智能体自主调度多个生图/生视频模型，完成端到端的内容生产
定制化LoRA服务：C端用户一键训练自己的专属模型
真人影视级合成：AI合成人物达到电影级别，替代部分群演
虚拟数字人直播：AIGC生成虚拟主播+AI配音，24小时无人直播
个性化AIGC电商：根据每个用户生成专属商品展示图

十三、一份给不同角色的行动清单

不同角色在AIGC浪潮里应该做不同的事。给你分角色整理一份行动清单：

13.1 如果你是产品经理

立刻搭建一个AIGC能力评估小组，每月跑一次主流模型测评
重新梳理产品功能，找出3个可以用AIGC重做的核心模块
和技术团队一起定义"AI效果指标"，别只看"调通"而要看"可用"
学会写好的Prompt，这比学会任何框架都重要

13.2 如果你是开发工程师

至少深度用过一个聚合API平台（比如 https://178.nz/aigc），理解统一接入的价值
把生图/生视频/生3D都跑一遍，建立对各模型能力的直觉
学LangGraph或类似框架，能搭建多步骤的AIGC Agent
保持对开源模型的敏感度，Flux Dev、SD 3.5、Wan这些开源版本是你的长期伙伴

13.3 如果你是设计师

把AIGC当放大器，不是替代品。你的审美和创意仍然是核心
学会用Midjourney的–sref、Flux的Reference实现"风格一致性"
建立自己的Prompt库，积累1000+可复用的Prompt
学一点ComfyUI，它是设计师的Photoshop Plus

13.4 如果你是内容创作者

建立自己的AIGC素材库，批量生成备用
学会用AI做脚本（GPT-5）+ 分镜（MJ）+ 视频（可灵）全链路
关注平台规则，内容打标+适度AI+人工精修的组合最稳
日更量翻3倍，但每条内容的质量必须保住底线

13.5 如果你是创业者

不要做通用AIGC工具（红海），找垂类场景
优先选能产生真实订单的场景（电商、教育、广告）
技术栈尽量轻量化，用聚合API（比如 https://178.nz/aigc）替代自建
数据和工作流是护城河，模型本身不是

13.6 如果你是企业管理者

把AIGC纳入公司数字化战略的核心模块
给核心团队配置AIGC资源池，不要让人去抢公司账号
建立内部AIGC最佳实践库，把个人经验沉淀为团队资产
对员工进行AIGC基础培训，这是未来3年最值得的投资

十四、8个常见问题答疑

这部分收录我过去半年被问过最多的问题，按顺序解答：

14.1 Q：调用海外模型（Sora、MJ、Flux）需要翻墙吗？

A：如果直连官方需要。但如果用像 https://178.nz/aigc 这样的国内聚合站，不需要，直接国内网络访问，稳定性还更好。很多国外官方API在国内会有IP限制，直连经常断连，聚合站都做了专线优化，这也是大家都选聚合方案的核心原因之一。

14.2 Q：聚合站会不会比官方慢？

A：不会。正规聚合站会做国内多节点CDN+直连优化，实测延迟比直连官方低20-40%。我自己的生产项目全走聚合，没出过问题。

14.3 Q：单图成本¥0.05-0.2是怎么算出来的？

A：以Flux 1.1 Pro为例，官方价格约0.04美元/张，聚合站通常在官方价基础上加10%-30%倍率，换算成人民币就是¥0.12-0.18/张。国产模型更便宜，¥0.03-0.08/张常见。这个价格相比传统摄影（单张几百到上千）已经是白菜价，但如果你日生成量上万张，成本也不容小觑，所以一定要做好模型选型和可用率优化。

14.4 Q：生成的内容商用安全吗？

A：用主流模型（Flux Pro、MJ Pro订阅、Sora、可灵付费版）生成的内容一般可商用，但要看模型方具体条款。敏感行业（广告、金融）建议让法务过一遍。

14.5 Q：AI生成的图能申请版权吗？

A：目前国内法规尚在完善，但2024年北京互联网法院已有判例——AI生成图片在满足"独创性+人类智力投入"的情况下可获得著作权保护。关键是保留生成记录+人工修改记录。

14.6 Q：本地部署和用API哪个划算？

A：看规模。日生成量<500张，用API更划算。>5000张的规模，自建GPU集群可能更经济。中间的1000-5000张，混合方案最优。

14.7 Q：Prompt写得很详细但效果还是不好，怎么办？

A：先检查是不是选错模型。比如你写一个写实摄影的Prompt，给了Midjourney但它老出插画风，就该换Flux。很多人死磕Prompt其实是模型选错了。

14.8 Q：AIGC会不会让设计师失业？

A：不会，但会淘汰"只会重复性工作"的设计师。未来设计师的核心价值是"创意判断+AI协作+审美把关"。会用AI的设计师产能是传统设计师的5-10倍。与其担心被替代，不如主动拥抱AI工具，让自己成为那个"会用AI的设计师"，这样你的市场价值反而会更高。每一次技术革命淘汰的都是不愿改变的人，而不是职业本身。

十五、写在最后

AIGC这个赛道，2023年像是大家集体在玩新玩具，2024年有人开始做工具，2025年真正的商业化正在加速落地。

对于技术人来说，今天面临的是一个窗口期：工具链已经成熟到能真正干活、但大部分人还没真正理解怎么用。谁先把工作流跑通、谁先拿到真实的商业结果，谁就能在下一波AI红利里吃到肉。

这篇文章里的所有代码和工作流，都是我自己实战跑通过的。你只要有一个能调所有模型的入口（我用的是 https://178.nz/aigc ），照着复制粘贴就能跑起来。

你不需要什么都懂，但一定要先动手做。从今天开始，选一个小场景（哪怕只是"给自己的公众号配图"），跑通一条完整的pipeline。一周之内你就会对AIGC有完全不同的理解。

我见过太多人停留在"看教程、收藏文章、加群潜水"的阶段，永远不动手。AIGC这个领域变化太快，你今天不动手，三个月后再想入场，门槛又高了一截。最好的学习方式就是立刻开始做一个真实项目，哪怕只是给自己的小红书账号批量生成配图，也比看十篇教程有用。

另外，AIGC不是"学会了就一劳永逸"的技能。模型每个月都在更新，新的能力每周都在涌现。保持学习习惯、保持对新模型的敏感度、保持实验精神，这比掌握任何一个具体工具都重要。

最后附上一些资源：

推荐资源清单：

统一API入口：https://178.nz/aigc（含Flux、MJ、Sora、可灵等600+模型）
Flux官方文档：blackforestlabs.ai
Midjourney文档：docs.midjourney.com
OpenAI文档：platform.openai.com/docs
可灵官方：kling.kuaishou.com
Civitai（SD模型社区）：civitai.com

Prompt学习社区：

PromptHero
Lexica
OpenArt

工作流工具：

ComfyUI（SD可视化工作流）
Dify（LLM编排）
n8n（通用自动化）

如果这篇文章帮你少走了弯路，欢迎点赞收藏。有问题欢迎评论区交流，我看到都会回。

下一期计划写《从0搭建一个AI写真工作室：Flux LoRA训练 + 一键出片完整教程》，感兴趣的可以关注。

共勉，一起在AIGC这个黄金赛道里站稳脚跟。

一句话总结这篇文章的核心思路：选对模型、用对工具、跑通工作流、规避合规风险、持续迭代优化。听起来简单，但真正从头到尾跑过一遍的人不超过5%。而正是这5%的人，在2025年吃到了AIGC的第一波红利。

你是选择继续观望，还是今天就开始？答案在你自己手里。无论你选择哪种方案，请记住：真正决定胜负的不是工具本身，而是你是否愿意立刻开始。把这篇文章收藏起来没用，照着里面的代码跑一遍才有用。走起。

免责声明：AIGC模型版本更新频繁，具体API参数以官方文档为准。商用前请仔细阅读模型方条款。

关于笔者：深耕AIGC工作流方向的全栈开发者，专注将AI能力

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

告别 AI 失忆！基于 Harness 记忆模型，解密 SpreadContext 多实例同步引擎

AtomGit开源社区

一颗10W小模块，为什么能撑起Physical AI的未来？

AtomGit开源社区

知识蒸馏在 sVLM 中的作用及实现方式

小型视觉语言模型（sVLM）知识蒸馏技术综述 sVLM通过视觉编码器+多模态适配器+小型LLM组成，旨在将大模型的多模态能力压缩至移动端设备。知识蒸馏的核心在于利用大模型Teacher的输出、特征和推理偏好训练小模型Student，使其在更低资源下保持视觉问答、OCR和复杂指令跟随等能力。关键技术包括：多模态蒸馏：同时迁移视觉和语言模态表示，改善视觉-语言对齐渐进式训练：采用DPT→SFT→D