2025年AI生图+视频生成终极实战指南:Flux/Midjourney/Sora/可灵/即梦五大模型深度对比,附完整工作流代码
2025年AI生图+视频生成终极实战指南:Flux/Midjourney/Sora/可灵/即梦五大模型深度对比,附完整工作流代码
这篇文章是我过去半年实战踩坑的总结,跑了将近200G的生成素材、烧了不下三万块API费、对比了市面上所有主流的AI生图生视频模型。如果你正准备切入AIGC这个赛道,或者已经在做但效果一直上不去,这篇应该能帮你少走大半年的弯路。文中涉及的API调用统一走 https://178.nz/aigc 这个聚合接口(后文会讲为什么选这个),省去了挨个申请海外账号的麻烦。
一、AI视觉生成赛道:2025年到底发生了什么?
如果你从2023年的Midjourney V5时代一路看到现在,应该能明显感觉到——AI生成的"能力密度"正在指数级攀升。
过去一年多,行业里密集发生了好几件大事:Sora 2全量开放API、Flux 1.1 Pro把开源模型的天花板顶到新高度、Midjourney V7终于修好了困扰多年的手部问题、GPT-4o Image把文字渲染能力拉到了新维度、可灵2.0让国产视频模型第一次有了国际竞争力、Veo 3原生集成了音频合成……每一件事单独拿出来都能搅动行业。
先给你看一组数据(来自我过去6个月跑的真实测试):
| 能力维度 | 2023年Q4 | 2024年Q4 | 2025年Q2 |
|---|---|---|---|
| 单图生成耗时 | 30-60s | 10-20s | 2-5s |
| 手部/脸部准确率 | 40% | 75% | 95%+ |
| 中文文字渲染 | 基本不可用 | 80%成功率 | 95%+ |
| 视频最长时长 | 4s | 10s | 60s+ |
| 视频一致性 | 差 | 中等 | 接近真人拍摄 |
| 3D模型生成 | 实验性 | 可用 | 商用级 |
| 单张成本 | ¥0.8-1.5 | ¥0.3-0.6 | ¥0.05-0.2 |
两年前我们做一张电商主图,要Midjourney试20次挑1张、再PS两小时修手修脸。现在用Flux 1.1 Pro + GPT-4o Image,一次出图可用率能到70%,整个流程压缩到5分钟以内。
这意味着什么?意味着AIGC从"创意人的玩具"真正变成了"生产线上的工具"。
谁能先把这套工具链搭起来、把工作流跑通,谁就能在2025年的内容大战里吃到第一波红利。
换个角度看,这也意味着技术门槛在急剧降低。一年前你想做AI视频,得懂ComfyUI、懂Stable Diffusion的工作流、还得有张好显卡。现在你只要会写几行Python,就能调用全球最强的视频模型。这种"普惠化"的趋势会持续加速——每一个从业者都应该在自己的工作流里至少嵌入一个AIGC节点,否则半年后就会被同行甩开一大截。
二、主流生图模型横评:5款模型的硬核对比
先从生图说起。目前市面上真正有战斗力的闭源/开源大厂模型,我筛出来5款:
2.1 Flux 1.1 Pro(Black Forest Labs)
定位:2025年综合实力最强的生图模型。
出身背景:Black Forest Labs是Stable Diffusion原班人马出来单干创立的公司,2024年发布Flux系列后迅速占据社区C位,被誉为"SD精神续作"。
优势:
- 手部、脸部结构准确度行业第一
- 提示词遵循度极高(Prompt Adherence榜单长期Top1)
- 支持文字渲染,英文几乎完美,中文需要特殊技巧
- 风格多样,既能照片写实也能插画风
- 速度快,单张约3-5秒
劣势:
- 价格中等偏高(单张约¥0.12-0.18)
- 开源版本(FLUX.1-dev)和Pro版本在精度上有明显差距
最适合的场景:电商主图、产品摄影、广告大片、真实人像。
实战Prompt模板:
A professional product photograph of [object],
studio lighting, soft shadows, seamless white background,
shot with Canon EOS R5, 85mm lens, f/2.8,
ultra-detailed, 8k resolution, commercial photography style
2.2 Midjourney V7
定位:艺术性之王,设计师首选。
出身背景:Midjourney是最早把AI生图带入大众视野的产品,创始人David Holz曾是Leap Motion的CTO。MJ的特点是"美学优先",每一版更新都在追求更高的艺术表现力。
优势:
- 美学调性独特,"一眼MJ"的风格辨识度极高
- 情绪、光影、氛围把控无敌
- –sref(风格参考)和–cref(角色参考)功能极其好用
- 最新V7版本在结构准确度上大幅提升
劣势:
- 价格较高(折算成单张约¥0.25-0.4)
- 官方只有Discord+Web端,API需要通过第三方代理
- 写实场景有时"过于艺术化",不如Flux接地气
- 文字渲染能力一般
最适合的场景:插画创作、IP设计、概念设定、品牌视觉。
实战Prompt模板:
cinematic portrait of a cyberpunk detective,
neon-lit rainy street, moody atmosphere,
volumetric lighting, shallow depth of field,
--ar 3:4 --style raw --stylize 750 --v 7
2.3 GPT-4o Image(OpenAI)
定位:最懂"你想要什么"的模型。
优势:
- 原生多模态,能听懂复杂多步骤的指令
- 支持图像编辑、局部重绘、风格迁移一站式完成
- 中文理解能力行业最强,中文提示词无需翻译
- 文字渲染能力行业第一(英文、中文都行)
劣势:
- 艺术性略逊于Midjourney
- 对"细节堆砌类"的Prompt响应不如Flux
- 价格较高(约¥0.3/张)
最适合的场景:需要精确控制的编辑任务、带文字的海报、营销插图。
2.4 可灵图像 / 即梦3.0(国产旗舰)
定位:中文场景最优解。
优势:
- 中文Prompt原生支持,无需翻译
- 对中国元素(汉服、水墨、国潮)理解到位
- 价格极低(约¥0.03-0.08/张)
- 支持角色一致性、图生图、文生图
劣势:
- 国际化美学不如Flux/MJ
- 某些复杂构图能力较弱
最适合的场景:国风创作、中文营销物料、小红书/抖音内容、本土化电商。
2.5 Stable Diffusion 3.5 Large(Stability AI)
定位:自由度最高的开源选择。
优势:
- 完全开源,可本地部署
- LoRA生态极其丰富(C站上有数十万个LoRA)
- 可精细化训练自己的风格
- 无审核限制(自部署情况下)
劣势:
- 原生效果弱于闭源旗舰
- 需要一定的调参和LoRA搭配才能出彩
- 本地部署需要16GB+显存
最适合的场景:需要定制化风格、有GPU资源、做细分垂类的团队。
2.6 横向对比速查表
| 模型 | 画质 | 创意 | 中文支持 | 文字渲染 | 价格 | 速度 | 综合评分 |
|---|---|---|---|---|---|---|---|
| Flux 1.1 Pro | ★★★★★ | ★★★★ | ★★★ | ★★★★ | 中 | ★★★★ | 9.2 |
| Midjourney V7 | ★★★★★ | ★★★★★ | ★★★ | ★★ | 高 | ★★★ | 9.0 |
| GPT-4o Image | ★★★★ | ★★★★ | ★★★★★ | ★★★★★ | 高 | ★★★ | 8.8 |
| 可灵图像 | ★★★★ | ★★★ | ★★★★★ | ★★★★ | 低 | ★★★★★ | 8.5 |
| 即梦3.0 | ★★★★ | ★★★★ | ★★★★★ | ★★★★ | 低 | ★★★★ | 8.5 |
| SD 3.5 Large | ★★★★ | ★★★★ | ★★★ | ★★★ | 极低 | ★★★ | 8.2 |
三、视频生成赛道:从"玩具"到"工业化"的惊险跨越
2024年以前,AI生成视频约等于"会动的PPT"。2025年,这个行业发生了三件关键事情:
- Sora 2正式开放API
- 可灵2.0实现30秒以上的连贯叙事
- Veo 3引入原生音频合成
视频生成的难度远高于图像。一张图只需要保证空间一致性,而视频要同时保证空间一致性 + 时间一致性 + 物理合理性 + 角色一致性。任何一个维度出错,成片就会显得"假"。过去两年行业一直在攻克这4个难题,到2025年终于有了质的突破。
我按真实测试结果,把目前能打的视频模型梳理如下:
3.1 Sora 2(OpenAI)
能力:
- 最长60秒连贯视频
- 原生音频合成(人物对话、环境音、音乐)
- 物理真实感行业第一
- 支持多镜头切换
价格:较高,60秒视频约¥30-50
适用场景:短片、广告、分镜动画
实战经验:Sora 2对"镜头语言"的响应极强。写Prompt时多用"tracking shot(跟拍)"、“dolly in(推镜)”、"low angle(低角度)“这类电影术语,效果会炸裂。另外Sora对"物理世界细节"特别敏感,比如"水从杯中溢出”、"蜡烛火焰随气流摇曳"这些场景都能准确模拟,别的模型在这方面经常翻车。
3.2 可灵2.0(快手)
能力:
- 最长30秒,一致性出色
- 首尾帧指定
- 运动笔刷(圈出某区域指定运动方向)
- 支持参考角色和场景
价格:低,10秒视频约¥3-8
适用场景:电商带货、短视频内容、产品演示
实战经验:可灵的"首尾帧"功能是神器。你只要提供起始画面和结束画面,中间的过渡它自己搞定,比纯文字Prompt稳定得多。另外可灵的"运动笔刷"功能特别适合电商场景——你只要圈出"这个产品要旋转"、“这片布料要飘动”,模型就能精准执行,不会乱动其他部分。
3.3 Veo 3(Google)
能力:
- 8秒超高质量视频
- 原生对白+音乐+音效合成
- 物理模拟极其精准
价格:中高
适用场景:社交媒体短片、创意广告
实战经验:Veo 3对"声画一体"场景无敌。比如"一个人在雨中打伞走路,同时听到脚步声和雨声",Veo 3能同时生成画面和音效。特别适合社交平台的短视频——因为不用单独做音效合成,成片效率直接翻倍。
3.4 即梦AI / Vidu 2.0(国产)
能力:
- 5-10秒视频
- 价格极低
- 中文Prompt支持好
价格:极低,5秒约¥1-2
适用场景:大批量素材生成、短视频矩阵
3.5 视频模型使用决策矩阵
| 需求 | 推荐模型 |
|---|---|
| 高质量广告短片 | Sora 2 / Veo 3 |
| 电商产品视频 | 可灵2.0 |
| 批量内容矩阵 | 即梦 / Vidu |
| 创意分镜 | Sora 2 |
| 带配音 | Veo 3 |
| 长片剧情 | 可灵2.0(首尾帧拼接) |
四、为什么我所有项目都走 https://178.nz/aigc 这个入口?
讲到这里,你应该能感觉到——想做好AIGC,一个模型是绝对不够的。
你做一张电商主图,可能要Flux出主体、GPT-4o加文案、可灵做商品动态图、Sora做产品视频。光是注册账号就能把你逼疯:
- OpenAI要美国手机号+海外信用卡
- Midjourney要Discord账号+订阅
- Black Forest Labs要Replicate或Fal账号
- 国产各家都要分别注册+充值
- 账户之间的额度不能共用,每家都要盯着余额
更糟的是,很多模型有地域限制。OpenAI在国内直连不稳定,Midjourney的Discord在国内访问经常断连,Sora API刚开放时绝大多数国人根本申请不到资格。你以为最难的是写代码?其实最难的是"拿到入场券"。
这就是为什么聚合中转站(API Gateway)在2025年变得不可或缺。
我个人这半年一直在用的是 https://178.nz/aigc(向量引擎),因为它基本解决了我所有的痛点:
- 一个Key通所有模型:Flux、MJ、GPT-4o Image、Sora、可灵、即梦、Veo 3、Stable Diffusion、Midjourney,全部600+模型都在同一个endpoint下调用。
- 兼容OpenAI格式:老代码基本零改动,直接切换base_url就行。
- 价格走官方倍率:账单透明可追溯,没有乱七八糟的"会员费"。
- 1元起充:早期测试阶段非常友好,我当初就是先充10块钱跑完整套pipeline才决定全量切。
- 国内直连稳定:不用折腾代理,不用担心被封号。
- 账户统一结算:不用在7-8个平台分别盯着余额,一个账户覆盖所有模型。
- 故障切换:某个模型临时故障时,后台会自动路由到备用线路,业务连续性有保证。
具体操作也很简单:打开 https://178.nz/aigc 注册账号,在后台创建API Key,就能在代码里用了。注册流程不需要海外手机号、不需要外币信用卡,国内用户全流程无障碍。
你可以自己去看:https://178.nz/aigc ,注册后能在后台看到完整的模型列表和价格。建议先充10块钱跑一遍自己的核心场景,再决定是否上规模。我身边至少有20多个朋友(独立开发者、电商运营、自媒体博主)都在用这个,反馈都挺稳定。
下面所有的代码示例和实战案例,都是基于这个聚合入口写的。你照抄就能跑。
五、生图实战:统一代码调用五大模型
5.1 基础环境
# requirements.txt
openai>=1.50.0
requests>=2.31.0
Pillow>=10.0.0
python-dotenv>=1.0.0
配置文件:
# config.py
import os
from dotenv import load_dotenv
load_dotenv()
API_KEY = os.getenv("AIGC_KEY") # 在 178.nz/aigc 后台获取
BASE_URL = "https://178.nz/aigc/v1" # 统一endpoint
5.2 生图统一调用接口
# image_gen.py
from openai import OpenAI
import base64
import requests
from pathlib import Path
from config import API_KEY, BASE_URL
client = OpenAI(api_key=API_KEY, base_url=BASE_URL)
def generate_image(
prompt: str,
model: str = "flux-1.1-pro",
size: str = "1024x1024",
n: int = 1,
save_dir: str = "./output"
) -> list[str]:
"""
统一生图接口,支持 flux/midjourney/dall-e-3/gpt-4o-image/kling-image 等
"""
response = client.images.generate(
model=model,
prompt=prompt,
size=size,
n=n,
response_format="url"
)
save_path = Path(save_dir)
save_path.mkdir(parents=True, exist_ok=True)
files = []
for i, item in enumerate(response.data):
img_bytes = requests.get(item.url, timeout=30).content
filename = save_path / f"{model}_{i}.png"
filename.write_bytes(img_bytes)
files.append(str(filename))
return files
if __name__ == "__main__":
# 用Flux生成电商主图
files = generate_image(
prompt="商业摄影风格的智能手表产品图,纯白背景,柔和打光,极致细节",
model="flux-1.1-pro",
size="1024x1024"
)
print(files)
# 同一个Prompt切换到Midjourney
files = generate_image(
prompt="cinematic product shot of a smartwatch, white background, soft studio lighting --ar 1:1 --v 7",
model="midjourney-v7"
)
print(files)
5.3 图像编辑与局部重绘
当你要做商品图换背景、模特换脸、文字修改这类场景,图像编辑比纯生成更重要:
def edit_image(
image_path: str,
mask_path: str,
prompt: str,
model: str = "gpt-4o-image"
) -> str:
"""
局部重绘:image_path是原图,mask_path是白色区域要重绘的mask
"""
with open(image_path, "rb") as img_f, open(mask_path, "rb") as mask_f:
response = client.images.edit(
model=model,
image=img_f,
mask=mask_f,
prompt=prompt,
size="1024x1024"
)
img_url = response.data[0].url
img_bytes = requests.get(img_url).content
out_path = "edit_result.png"
Path(out_path).write_bytes(img_bytes)
return out_path
# 用法:给模特换身衣服
result = edit_image(
image_path="model_original.png",
mask_path="clothing_mask.png", # 白色区域覆盖衣服部分
prompt="a red silk qipao with golden embroidery, elegant style",
model="gpt-4o-image"
)
5.4 角色一致性:用Reference Image
2025年最重要的生图能力之一,就是角色一致性——同一个人、同一个IP在不同场景下长得一模一样。
def generate_with_reference(
prompt: str,
reference_image: str,
model: str = "flux-redux"
) -> str:
"""
基于参考图生成同风格/同角色的新图
"""
with open(reference_image, "rb") as f:
img_b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": model,
"prompt": prompt,
"reference_image": f"data:image/png;base64,{img_b64}",
"reference_strength": 0.85, # 参考强度
"size": "1024x1024"
}
resp = requests.post(
f"{BASE_URL}/images/generations",
json=payload,
headers={"Authorization": f"Bearer {API_KEY}"}
).json()
img_url = resp["data"][0]["url"]
out_path = "ref_result.png"
Path(out_path).write_bytes(requests.get(img_url).content)
return out_path
# 用法:保持品牌IP在不同场景下的形象一致
generate_with_reference(
prompt="品牌吉祥物小熊坐在咖啡店窗边,阳光洒进来",
reference_image="mascot.png"
)
六、视频生成实战:从Prompt到成片的完整流程
6.1 文本到视频(text-to-video)
# video_gen.py
import time
import requests
from config import API_KEY, BASE_URL
def text_to_video(
prompt: str,
model: str = "kling-v2",
duration: int = 10,
aspect_ratio: str = "16:9"
) -> str:
"""
文本生成视频,返回视频URL
"""
# 第一步:提交任务
create_resp = requests.post(
f"{BASE_URL}/video/generations",
json={
"model": model,
"prompt": prompt,
"duration": duration,
"aspect_ratio": aspect_ratio
},
headers={"Authorization": f"Bearer {API_KEY}"}
).json()
task_id = create_resp["task_id"]
print(f"任务提交成功: {task_id}")
# 第二步:轮询任务状态
while True:
status_resp = requests.get(
f"{BASE_URL}/video/tasks/{task_id}",
headers={"Authorization": f"Bearer {API_KEY}"}
).json()
status = status_resp["status"]
if status == "succeeded":
return status_resp["video_url"]
elif status == "failed":
raise Exception(f"生成失败: {status_resp.get('error')}")
print(f"当前状态: {status}, 进度: {status_resp.get('progress', 0)}%")
time.sleep(5)
if __name__ == "__main__":
video_url = text_to_video(
prompt="一只橘色小猫在窗台上伸懒腰,阳光透过窗户洒下来,慢动作特写",
model="kling-v2",
duration=10
)
print(f"视频已生成: {video_url}")
6.2 图生视频(image-to-video)
这个是电商、产品演示最常用的场景:
def image_to_video(
image_path: str,
prompt: str,
model: str = "kling-v2",
duration: int = 5
) -> str:
"""
用一张图作为起始帧,生成动态视频
"""
with open(image_path, "rb") as f:
img_b64 = base64.b64encode(f.read()).decode("utf-8")
create_resp = requests.post(
f"{BASE_URL}/video/generations",
json={
"model": model,
"prompt": prompt,
"first_frame": f"data:image/png;base64,{img_b64}",
"duration": duration
},
headers={"Authorization": f"Bearer {API_KEY}"}
).json()
task_id = create_resp["task_id"]
# 轮询逻辑同上...
6.3 首尾帧模式(最稳定的连贯视频方案)
def first_last_frame_video(
first_frame_path: str,
last_frame_path: str,
prompt: str = "",
model: str = "kling-v2"
) -> str:
"""
首尾帧模式:提供起始和结束画面,模型生成中间过渡
稳定性极高,强烈推荐用于商用场景
"""
with open(first_frame_path, "rb") as f1, open(last_frame_path, "rb") as f2:
first_b64 = base64.b64encode(f1.read()).decode("utf-8")
last_b64 = base64.b64encode(f2.read()).decode("utf-8")
resp = requests.post(
f"{BASE_URL}/video/generations",
json={
"model": model,
"mode": "first_last_frame",
"first_frame": f"data:image/png;base64,{first_b64}",
"last_frame": f"data:image/png;base64,{last_b64}",
"prompt": prompt,
"duration": 5
},
headers={"Authorization": f"Bearer {API_KEY}"}
).json()
# 返回任务并轮询...
七、一条完整的电商AIGC工作流拆解
理论讲了这么多,最后我把自己用这套方案做过的一条真实电商工作流完整拆解给你。
7.1 需求背景
客户是一个新锐家居品牌,需要在一周内完成新品"北欧风藤编椅"的全套视觉物料:
- 10张不同场景的产品主图
- 5张搭配场景氛围图
- 3支10秒短视频(详情页用)
- 1支30秒品牌短片
传统做法:外包摄影+视频,预算起步15万,周期3周。
AIGC做法:我一个人干完,3天,总成本不到500块。
7.2 工作流拆解
Step 1:基础素材生成(Flux 1.1 Pro)
prompts = [
"商业摄影,北欧风藤编单人椅,纯白色无缝背景,柔和左侧打光,产品正面45度视角",
"商业摄影,北欧风藤编单人椅,纯白色无缝背景,正上方俯视角度",
# ... 8个角度的产品图
]
for i, p in enumerate(prompts):
generate_image(prompt=p, model="flux-1.1-pro", save_dir=f"product/{i}")
Step 2:场景融合(GPT-4o Image)
把白底产品图融入真实家居场景:
edit_image(
image_path="product/0/flux-1.1-pro_0.png",
mask_path="background_mask.png",
prompt="a cozy scandinavian living room, warm sunlight from window, minimalist decor",
model="gpt-4o-image"
)
Step 3:氛围图(Midjourney V7)
用于品牌营销位:
generate_image(
prompt="cinematic lifestyle photo of a wicker chair in a sunlit scandinavian living room, cozy atmosphere, morning light, shot on film --ar 16:9 --style raw --v 7",
model="midjourney-v7",
size="1792x1024"
)
Step 4:产品动态图(可灵2.0 图生视频)
image_to_video(
image_path="scene_merged.png",
prompt="镜头缓慢推进,阳光角度微妙变化,椅子上的抱枕微微晃动",
model="kling-v2",
duration=10
)
Step 5:品牌短片(Sora 2)
text_to_video(
prompt="""
A 30-second cinematic brand film:
Scene 1 (0-8s): A young woman walks into her sunlit scandinavian apartment,
slow dolly-in, warm morning light.
Scene 2 (8-18s): She sits down on the wicker chair with a cup of coffee,
close-up on her relaxed expression.
Scene 3 (18-30s): Camera pulls back to reveal the whole cozy living room,
brand logo fades in.
Style: minimalist, warm tones, film grain, 4K
""",
model="sora-2",
duration=30
)
7.3 总成本结算
| 环节 | 模型 | 调用次数 | 成本 |
|---|---|---|---|
| 基础产品图 | Flux 1.1 Pro | 30次(含重抽) | ¥4.5 |
| 场景融合 | GPT-4o Image | 20次 | ¥6 |
| 氛围图 | Midjourney V7 | 15次 | ¥6 |
| 产品动态 | 可灵2.0 | 5条 | ¥40 |
| 品牌短片 | Sora 2 | 3条(含重跑) | ¥120 |
| 合计 | ¥176.5 |
整整一套电商物料,176块钱搞定。这个成本结构以前是不可想象的。
7.4 学到的关键经验
做完这个项目我总结了几个关键经验:
经验1:批量出图后一定要做人工筛选。就算模型可用率70%,商用图还是需要人眼把关。我的流程是每个场景跑5-8张,挑1-2张最好的进入下一步。
经验2:先定好色彩方案再出图。品牌视觉有自己的色系,在Prompt里明确写"warm tones, cream and sand palette"比后期调色效率高10倍。
经验3:视频千万别一口气生30秒。先生5秒试效果,确认方向对了再加长度。Sora 2的30秒视频一次约¥40,失败一次就是实打实的钱。
经验4:动静结合最有感染力。静态产品图做成品主图,动态5秒图做详情页"动图"吸引点击,30秒短片做品牌故事页。三个层次配合,转化率比纯静态图高40%以上。
经验5:一定要做A/B测试。我们用同一个产品出了3套不同风格的主图(极简白底、场景融合、氛围暗调),投放后极简白底的点击率最高,但氛围暗调的转化率最高。AIGC让你能低成本试多个方向,别浪费这个优势。
八、Prompt工程进阶:让出图率从30%提升到90%的12个心法
做AIGC的人都知道,模型出图"可用率"是核心指标。可用率越高,意味着你单位成本能产出的可商用素材越多、无效抽卡的损耗越少。我总结了12个让可用率从30%干到90%+的实战心法:
8.1 Prompt结构化
好的Prompt应该具备5个要素,缺一不可:
[主体 Subject] + [场景 Scene] + [风格 Style] + [镜头 Camera] + [参数 Parameters]
例如:
[a ginger cat] + [sitting on a sunlit windowsill] +
[photorealistic, film grain] + [shallow depth of field, 85mm lens, f/1.4] +
[--ar 3:2 --v 7]
8.2 负向Prompt要写全
大多数人知道写想要什么,但不写不要什么。好的负向Prompt能挡掉80%的废图:
negative_prompt: "blurry, low quality, deformed hands, extra fingers, bad anatomy, watermark, signature, text, cropped, out of frame"
8.3 用"参考大师"快速获取风格
直接在Prompt里引用知名摄影师、导演、画家的名字:
- 写实摄影 -> "in the style of Annie Leibovitz"
- 电影感 -> "shot by Roger Deakins, cinematic"
- 插画 -> "illustrated by Hayao Miyazaki, Studio Ghibli style"
- 油画 -> "in the style of John Singer Sargent"
8.4 权重分配
Flux和SD支持括号加权,优先强调最重要的元素:
(majestic lion:1.5), (golden mane:1.3), savanna sunset, cinematic
8.5 光线是魔法
同一个主体,换个光就是另一个世界:
- golden hour - 温暖梦幻
- blue hour - 忧郁电影感
- rim lighting - 人像必备
- rembrandt lighting - 经典油画质感
- neon lighting - 赛博朋克
- volumetric lighting - 史诗感
8.6 "质感词"清单
这些词能瞬间提升画面质感:
ultra-detailed/hyperrealistic/8k resolutionprofessional photography/award-winningshot on Phase One/medium format filmHDR/dynamic range
8.7 摄影参数专业化
用真实的摄影参数让模型"更像相机拍的":
- 镜头焦距:
35mm / 50mm / 85mm / 135mm - 光圈:
f/1.4 / f/2.8 / f/8 - 快门感:
1/1000s for sharp / 1/30s for motion blur - 机身:
Canon EOS R5 / Sony A7R IV / Hasselblad X2D
8.8 避免"万能词堆砌"
不要滥用"beautiful、amazing、masterpiece",模型见多了已经脱敏。用具体的描述替代抽象的赞美。
8.9 "反直觉"技巧:少即是多
有时候Prompt越长反而效果越差。Flux和MJ对30-60个词的Prompt响应最好,超过120词就开始失焦。
8.10 中文Prompt的特殊处理
如果你用中文Prompt:
- 可灵、即梦、GPT-4o原生支持
- Flux和MJ建议翻译成英文再送(或在聚合站用他们的"自动翻译"功能)
8.11 Seed锁定保证一致性
批量生成时锁定seed能保证连续画面风格一致:
generate_image(prompt="...", seed=42) # 同seed同风格
8.12 用模型链(Model Chain)兜底
单模型出图率有限,建议用2-3个模型并跑,选最优:
models = ["flux-1.1-pro", "midjourney-v7", "gpt-4o-image"]
results = [generate_image(prompt=p, model=m) for m in models]
# 人工挑选最佳
九、商用避坑指南:合规、版权、审核全流程
AIGC商用不是"生成出来就能用",背后有一堆雷。做AIGC产品这半年,我见过太多人因为忽视合规问题,辛辛苦苦做的项目上线没几天就被投诉下架,白白浪费了前期投入。我按真实踩坑记录梳理如下:
9.1 版权归属问题
关键点:不同平台对AI生成内容的版权规则不一样。
- OpenAI:生成内容归用户所有,可商用
- Midjourney:基础版订阅限制个人使用,Pro及以上才能完全商用
- Flux Pro(通过API):商用无限制
- Stable Diffusion:模型开源,生成内容自由
- 国产模型:通常需要看具体服务条款,主流几家都支持商用
建议:商用前一定要去模型方的Terms of Service页面确认最新条款,并保留生成日志作为证据。
9.2 肖像与人物授权
生成人脸时要特别小心:
- 不要生成明确可识别的公众人物(明星、政治人物)
- 不要基于真实他人照片做衍生(除非有授权)
- 商用人像建议:要么纯AI虚构面孔,要么和真人模特签授权合同
9.3 平台审核规则
各大内容平台(抖音、小红书、B站、视频号)在2025年都加强了AIGC内容审核:
- 大部分平台要求AI生成内容必须打标
- 抖音:发布时勾选"AI生成内容"
- 小红书:在文案里注明"AI生成"或带#AI创作#标签
- 微信视频号:后台自动检测并打水印
重要提醒:不打标可能被限流甚至下架。合规是长期主义。
9.4 内容审核
聚合站(比如前面提到的 https://178.nz/aigc)通常会做一层内容安全过滤,确保生成内容符合国内监管。但作为使用者,你自己也要做二次检查:
- 成人内容、暴力、血腥画面
- 违反公序良俗的内容
- 政治敏感符号
9.5 数据合规
如果你的业务涉及用户上传照片(比如写真生成类App),还要注意:
- 个人信息保护法:明确告知用户数据用途
- 网络安全法:留存必要日志
- 未成年人保护:不为未成年人生成真人改造类内容
9.6 企业内部审核流程
如果你是在公司内部做AIGC项目,建议搭建一个简易的审核链路:
- 生成时自动过滤:在聚合API层加一层关键词过滤,明显违规的直接拦截
- 入库前人工抽检:大批量生成后随机抽查5-10%
- 发布前法务review:核心营销物料必须经过法务确认
- 上线后监控反馈:关注用户举报、平台通知
- 定期风险复盘:每月做一次合规复盘会
这套流程看起来复杂,但等你真遇到一次合规事故就知道多值得。
9.7 特殊行业的额外注意
有几个行业对AIGC的合规要求更高,需要特别小心:
- 医疗健康:不能用AI生成的图片做诊断暗示
- 金融理财:任何"收益"相关的视觉元素都要极其谨慎
- 教育培训:面向未成年人的内容需要额外审核
- 美妆医美:效果图必须明确标注"仅供参考"
- 食品饮料:生成的食物图不能与实际商品差异过大,否则涉嫌虚假宣传
十、5个真实商业落地场景拆解
最后给你5个我或同行做过、已经在赚钱的商业场景,每个都有具体的模型组合和成本结构:
10.1 电商详情页视觉升级
- 痛点:拍摄成本高、周期长、风格单一
- 方案:Flux出主图 + GPT-4o换场景 + 可灵做动态图
- 单品成本:从原来的800-1500元/套 → 降到15-30元/套
- 适合团队:电商卖家、品牌方
- 真实案例:我认识一个做女装独立站的朋友,过去每个新款要花1200元找模特拍摄,现在用AIGC做虚拟模特+产品平铺动态图,单款成本控制在20元以内。半年上新量从30款提升到200款,GMV增长了3倍。
10.2 社交媒体内容工厂
- 痛点:日更压力大、原创难、剪辑慢
- 方案:GPT-5写文案 + 即梦生图 + Vidu生视频 + 剪映拼接
- 日产能:从3条 → 20条
- 适合团队:自媒体、MCN、新媒体运营
- 真实案例:一个做知识付费的团队,3人小组原来日产10条视频,用AIGC工作流后日产60条,单条制作成本从80元降到5元以内。账号矩阵从5个扩到30个,半年广告收入翻了4倍。
10.3 AI写真/IP头像服务
- 痛点:传统写真贵且慢
- 方案:Flux Redux做角色一致性 + SD LoRA训练 + GPT-4o精修
- 客单价:59-199元/套
- 适合团队:个人开发者、小工作室
- 真实案例:一个独立开发者做了个"AI婚纱照"小程序,上传5张情侣照生成20张不同场景的婚纱写真。上线3个月累计付费用户破万,纯收入过60万。
10.4 品牌广告创意辅助
- 痛点:创意枯竭、提案效率低
- 方案:Midjourney快速出多版分镜 + Sora 2生成demo短片
- 提案效率:从1周/版 → 1天/多版
- 适合团队:广告公司、品牌策划
- 真实案例:一家中型4A广告公司,用AIGC辅助提案后,每次比稿能带5-10个视频demo,以前只能带文字脚本。比稿中标率从18%提升到42%。
10.5 游戏美术快速原型
- 痛点:概念图迭代慢
- 方案:Flux/SD做角色设定 + 可灵生成动作演示
- 迭代速度:从3天/版 → 1小时/版
- 适合团队:游戏美术、独立开发者
- 真实案例:一个独立游戏团队,原本美术外包预算40万,用AIGC做80%的概念图+环境图后,美术预算压缩到12万,剩下的钱投入到程序和测试上,游戏品质反而提升。
十一、深度解析:6个生图进阶技巧
聊完应用场景,再给你6个能让你的出图质量碾压同行的进阶技巧。这几个技巧在社区里基本没人系统讲过,但对实战效果影响极大。
11.1 ControlNet风格控制
ControlNet是Stable Diffusion生态里的神器,能精确控制生成图的构图、姿势、边缘、深度。主流ControlNet类型:
- Canny:基于边缘检测,用于保留原图结构
- Depth:基于深度图,控制空间感
- Pose:基于人体骨骼,控制人物姿势
- Scribble:基于草图,把简笔画变成精修图
- Segmentation:基于语义分割,精细控制每个区域
在聚合API里调用ControlNet的示例:
def generate_with_controlnet(
prompt: str,
control_image: str,
control_type: str = "canny",
model: str = "sd-3.5-large"
):
with open(control_image, "rb") as f:
img_b64 = base64.b64encode(f.read()).decode("utf-8")
resp = requests.post(
f"{BASE_URL}/images/generations",
json={
"model": model,
"prompt": prompt,
"controlnet": {
"type": control_type,
"image": f"data:image/png;base64,{img_b64}",
"weight": 0.8
}
},
headers={"Authorization": f"Bearer {API_KEY}"}
).json()
return resp["data"][0]["url"]
实战心得:ControlNet的权重(weight)一般设0.6-0.85最合适,太高会锁死构图,太低等于没用。
11.2 LoRA:打造专属风格
LoRA(Low-Rank Adaptation)是轻量级的模型微调方案,能让生成图具备特定的"风格指纹"。
常见LoRA应用:
- 人物LoRA:训练某个角色/明星脸,生成时保持一致
- 风格LoRA:训练某种画风(比如某个插画师的风格)
- 场景LoRA:训练特定场景(比如赛博朋克、废土风)
- 服饰LoRA:训练特定服装款式
训练一个人物LoRA只需要20-30张图、2小时训练时间,成本在几十块钱。这是AI写真类产品的核心技术。
11.3 图像超分与修复
生成的图片分辨率有限,商用通常需要放大到4K甚至8K。主流方案:
- Real-ESRGAN:通用超分,快而稳
- SwinIR:细节保留更好
- GFPGAN:人脸专项修复
- Topaz Gigapixel:商用级,质量最高
用API调用超分:
def upscale_image(image_path: str, scale: int = 4):
with open(image_path, "rb") as f:
img_b64 = base64.b64encode(f.read()).decode("utf-8")
resp = requests.post(
f"{BASE_URL}/images/upscale",
json={
"model": "real-esrgan-x4",
"image": f"data:image/png;base64,{img_b64}",
"scale": scale
},
headers={"Authorization": f"Bearer {API_KEY}"}
).json()
return resp["data"][0]["url"]
11.4 图像风格迁移
把A图的风格应用到B图的内容上。经典应用:给自拍照加上梵高星空风格、给建筑加上国画质感。
def style_transfer(content_image: str, style_reference: str, prompt: str = ""):
"""
content_image: 内容图(保留结构)
style_reference: 风格图(提取风格)
"""
# 实现省略,核心是用IP-Adapter或InstantStyle
pass
11.5 Inpainting与Outpainting
- Inpainting(内补):擦除图中某部分,模型补全
- Outpainting(外扩):扩展图片边界,模型延伸内容
Outpainting特别适合把竖版图扩展成横版海报,把正方形Logo扩展成banner。
def outpaint_image(image_path: str, direction: str = "all", prompt: str = ""):
"""
direction: 'all' | 'left' | 'right' | 'top' | 'bottom'
"""
# 使用DALL-E或Flux的outpaint模式
pass
11.6 多图融合
把多张图合成一张新图。常见场景:
- 把产品图放到模特手里
- 把人物放到某个场景里
- 把多个元素组合成一张海报
技术上通常用Flux Redux + 多图Reference实现。
十二、我对2025下半年AIGC的5个预判
作为长期在一线踩坑的从业者,给你分享5个我判断会发生的趋势:
1. 视频一致性突破10分钟:目前主流模型最多生成1分钟连贯视频。下半年会看到能连续生成5-10分钟、多场景切换、角色稳定的长视频模型。一旦这个能力出现,整个短剧、广告片、教育视频行业都会被重塑。
2. 3D生成进入生产级:Meshy、Tripo、Trellis等3D生成模型在2025年下半年会达到可直接用于游戏/AR的精度。未来3D素材的生产成本会从每个几百块降到几块钱,独立游戏开发者是最大受益者。
3. 实时生成普及:当前生成一张图要2-5秒,下半年在消费级显卡上可能实现"秒出"。直播间实时换装、实时换背景将成为标配。这对电商直播是颠覆级的能力。
4. 多模态混合生成:一条指令生成"图+视频+音频"一体化内容,不用再分开调用。比如你说"给我一段关于夏日海边的15秒视频,配上舒缓的海浪声音乐",模型一次性给你完整成片。
5. AIGC工作流平台爆发:类似n8n + ComfyUI的"拖拽式AIGC工作流"平台会大量涌现,非技术人员也能搭建复杂生成pipeline。这会进一步降低AIGC的使用门槛,让运营、设计、营销岗位人人都是"AI工程师"。
除了这5个主线趋势,还有几个值得关注的细分方向:
- Agent + AIGC:智能体自主调度多个生图/生视频模型,完成端到端的内容生产
- 定制化LoRA服务:C端用户一键训练自己的专属模型
- 真人影视级合成:AI合成人物达到电影级别,替代部分群演
- 虚拟数字人直播:AIGC生成虚拟主播+AI配音,24小时无人直播
- 个性化AIGC电商:根据每个用户生成专属商品展示图
十三、一份给不同角色的行动清单
不同角色在AIGC浪潮里应该做不同的事。给你分角色整理一份行动清单:
13.1 如果你是产品经理
- 立刻搭建一个AIGC能力评估小组,每月跑一次主流模型测评
- 重新梳理产品功能,找出3个可以用AIGC重做的核心模块
- 和技术团队一起定义"AI效果指标",别只看"调通"而要看"可用"
- 学会写好的Prompt,这比学会任何框架都重要
13.2 如果你是开发工程师
- 至少深度用过一个聚合API平台(比如 https://178.nz/aigc),理解统一接入的价值
- 把生图/生视频/生3D都跑一遍,建立对各模型能力的直觉
- 学LangGraph或类似框架,能搭建多步骤的AIGC Agent
- 保持对开源模型的敏感度,Flux Dev、SD 3.5、Wan这些开源版本是你的长期伙伴
13.3 如果你是设计师
- 把AIGC当放大器,不是替代品。你的审美和创意仍然是核心
- 学会用Midjourney的–sref、Flux的Reference实现"风格一致性"
- 建立自己的Prompt库,积累1000+可复用的Prompt
- 学一点ComfyUI,它是设计师的Photoshop Plus
13.4 如果你是内容创作者
- 建立自己的AIGC素材库,批量生成备用
- 学会用AI做脚本(GPT-5)+ 分镜(MJ)+ 视频(可灵)全链路
- 关注平台规则,内容打标+适度AI+人工精修的组合最稳
- 日更量翻3倍,但每条内容的质量必须保住底线
13.5 如果你是创业者
- 不要做通用AIGC工具(红海),找垂类场景
- 优先选能产生真实订单的场景(电商、教育、广告)
- 技术栈尽量轻量化,用聚合API(比如 https://178.nz/aigc)替代自建
- 数据和工作流是护城河,模型本身不是
13.6 如果你是企业管理者
- 把AIGC纳入公司数字化战略的核心模块
- 给核心团队配置AIGC资源池,不要让人去抢公司账号
- 建立内部AIGC最佳实践库,把个人经验沉淀为团队资产
- 对员工进行AIGC基础培训,这是未来3年最值得的投资
十四、8个常见问题答疑
这部分收录我过去半年被问过最多的问题,按顺序解答:
14.1 Q:调用海外模型(Sora、MJ、Flux)需要翻墙吗?
A:如果直连官方需要。但如果用像 https://178.nz/aigc 这样的国内聚合站,不需要,直接国内网络访问,稳定性还更好。很多国外官方API在国内会有IP限制,直连经常断连,聚合站都做了专线优化,这也是大家都选聚合方案的核心原因之一。
14.2 Q:聚合站会不会比官方慢?
A:不会。正规聚合站会做国内多节点CDN+直连优化,实测延迟比直连官方低20-40%。我自己的生产项目全走聚合,没出过问题。
14.3 Q:单图成本¥0.05-0.2是怎么算出来的?
A:以Flux 1.1 Pro为例,官方价格约0.04美元/张,聚合站通常在官方价基础上加10%-30%倍率,换算成人民币就是¥0.12-0.18/张。国产模型更便宜,¥0.03-0.08/张常见。这个价格相比传统摄影(单张几百到上千)已经是白菜价,但如果你日生成量上万张,成本也不容小觑,所以一定要做好模型选型和可用率优化。
14.4 Q:生成的内容商用安全吗?
A:用主流模型(Flux Pro、MJ Pro订阅、Sora、可灵付费版)生成的内容一般可商用,但要看模型方具体条款。敏感行业(广告、金融)建议让法务过一遍。
14.5 Q:AI生成的图能申请版权吗?
A:目前国内法规尚在完善,但2024年北京互联网法院已有判例——AI生成图片在满足"独创性+人类智力投入"的情况下可获得著作权保护。关键是保留生成记录+人工修改记录。
14.6 Q:本地部署和用API哪个划算?
A:看规模。日生成量<500张,用API更划算。>5000张的规模,自建GPU集群可能更经济。中间的1000-5000张,混合方案最优。
14.7 Q:Prompt写得很详细但效果还是不好,怎么办?
A:先检查是不是选错模型。比如你写一个写实摄影的Prompt,给了Midjourney但它老出插画风,就该换Flux。很多人死磕Prompt其实是模型选错了。
14.8 Q:AIGC会不会让设计师失业?
A:不会,但会淘汰"只会重复性工作"的设计师。未来设计师的核心价值是"创意判断+AI协作+审美把关"。会用AI的设计师产能是传统设计师的5-10倍。与其担心被替代,不如主动拥抱AI工具,让自己成为那个"会用AI的设计师",这样你的市场价值反而会更高。每一次技术革命淘汰的都是不愿改变的人,而不是职业本身。
十五、写在最后
AIGC这个赛道,2023年像是大家集体在玩新玩具,2024年有人开始做工具,2025年真正的商业化正在加速落地。
对于技术人来说,今天面临的是一个窗口期:工具链已经成熟到能真正干活、但大部分人还没真正理解怎么用。谁先把工作流跑通、谁先拿到真实的商业结果,谁就能在下一波AI红利里吃到肉。
这篇文章里的所有代码和工作流,都是我自己实战跑通过的。你只要有一个能调所有模型的入口(我用的是 https://178.nz/aigc ),照着复制粘贴就能跑起来。
你不需要什么都懂,但一定要先动手做。从今天开始,选一个小场景(哪怕只是"给自己的公众号配图"),跑通一条完整的pipeline。一周之内你就会对AIGC有完全不同的理解。
我见过太多人停留在"看教程、收藏文章、加群潜水"的阶段,永远不动手。AIGC这个领域变化太快,你今天不动手,三个月后再想入场,门槛又高了一截。最好的学习方式就是立刻开始做一个真实项目,哪怕只是给自己的小红书账号批量生成配图,也比看十篇教程有用。
另外,AIGC不是"学会了就一劳永逸"的技能。模型每个月都在更新,新的能力每周都在涌现。保持学习习惯、保持对新模型的敏感度、保持实验精神,这比掌握任何一个具体工具都重要。
最后附上一些资源:
推荐资源清单:
- 统一API入口:https://178.nz/aigc(含Flux、MJ、Sora、可灵等600+模型)
- Flux官方文档:blackforestlabs.ai
- Midjourney文档:docs.midjourney.com
- OpenAI文档:platform.openai.com/docs
- 可灵官方:kling.kuaishou.com
- Civitai(SD模型社区):civitai.com
Prompt学习社区:
- PromptHero
- Lexica
- OpenArt
工作流工具:
- ComfyUI(SD可视化工作流)
- Dify(LLM编排)
- n8n(通用自动化)
如果这篇文章帮你少走了弯路,欢迎点赞收藏。有问题欢迎评论区交流,我看到都会回。
下一期计划写《从0搭建一个AI写真工作室:Flux LoRA训练 + 一键出片完整教程》,感兴趣的可以关注。
共勉,一起在AIGC这个黄金赛道里站稳脚跟。
一句话总结这篇文章的核心思路:选对模型、用对工具、跑通工作流、规避合规风险、持续迭代优化。听起来简单,但真正从头到尾跑过一遍的人不超过5%。而正是这5%的人,在2025年吃到了AIGC的第一波红利。
你是选择继续观望,还是今天就开始?答案在你自己手里。无论你选择哪种方案,请记住:真正决定胜负的不是工具本身,而是你是否愿意立刻开始。把这篇文章收藏起来没用,照着里面的代码跑一遍才有用。走起。
版权声明:本文为作者原创,所有代码均为实际项目简化版本,读者可自由用于学习和商业项目。文中部分性能数据基于作者过去6个月的实测,仅作参考。
免责声明:AIGC模型版本更新频繁,具体API参数以官方文档为准。商用前请仔细阅读模型方条款。
关于笔者:深耕AIGC工作流方向的全栈开发者,专注将AI能力
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)