建议收藏!Vidu Q3官方提示词指南:结构公式+速查模板(附避坑技巧)
前言
Vidu Q3 上线以来,我们收到最多的一类反馈是:
"为什么别人生成的效果那么好,我的总是差那么一截?"
答案几乎都指向同一个地方——提示词。
这篇文章是 Vidu 官方整理的 Q3 提示词使用指南,覆盖参考生视频、图生视频、文生视频三种模式,从基础结构到进阶技巧,附带可直接套用的模板,建议收藏!
1. 参考生视频(Reference-to-Video)
核心原则:
以参考图锁定风格或主体,用提示词描述新场景中的动作,实现"同一主体,全新故事"。
提示词结构公式:
1.1 风格迁移
将参考素材的视觉风格应用到新内容上:
-
动画风格迁移
主体图:

风格参考图:

Q3视频效果:
提示词:参考吉卜力动画风格,女孩在麦田中奔跑,风吹麦浪,蓝天白云,温暖治愈

-
摄影风格迁移
主体图:

风格参考图:

Q3视频:
提示词:参考胶片摄影风格,颗粒感,褪色,人物在咖啡馆窗边发呆

1.2 主体一致性(跨场景)
参考生视频最核心的能力:让同一主体出现在不同场景中。
-
IP形象应用:
提示词:参考品牌吉祥物形象,新场景:吉祥物在节日广场上挥手,彩带飘落,欢乐氛围

1.3 Q3 亮点功能
|
功能 |
说明 |
提示词关键词 |
|---|---|---|
|
自动切镜 |
模型根据内容自动安排镜头切换 |
加入"切镜"关键词 |
|
多视角切镜 |
打斗等复杂场景的多角度呈现 |
"多视角切镜" |
|
规划切镜 |
用数字明确列出每个镜头内容 |
"镜头一:… 镜头二:…" |
|
音画同步 |
台词精准对应画面 |
每个镜头对应台词 |
|
宫格叙事 |
上传分镜图/九宫格自动理解 |
上传分镜参考图 |
|
过肩镜头 |
双人对话的正反打 |
"xxx的过肩镜头" |
- 多视角切镜示例:
提示词:两个人出现激烈地打斗,画面出现多个视角切镜



2. 图生视频(Image-to-Video)
核心原则:
以图像为锚点,用提示词描述"从这张图出发,接下来发生什么",重点在于运动方向与幅度控制。
提示词结构公式:
[输入图像]
└─ [描述图中主体]
└─ [指定运动方向 / 动作]
├─ [运动幅度(轻微/明显/剧烈)+ 速度 + 节奏]
├─ [镜头运动(推/拉/摇/移/跟/环绕)+ 速度 + 起止状态]
└─ [氛围延续或转变(光照/色调/材质/情绪一致性)]
2.1 画面延续
核心原则:
-
描述图中已有元素的自然延伸,不引入图中没有的新主体
-
用"轻微""缓慢"控制幅度,避免画面崩坏
-
使用时序词表达变化过程:"起初……接着……后来……"
|
场景 |
弱提示词(容易翻车) |
强提示词(稳定出片) |
|---|---|---|
|
食物变化 |
冰淇淋在阳光下融化 |
冰淇淋草莓球表面逐渐变得湿亮,边缘轻微塌软,一滴粉色融化液沿着甜筒纹路缓慢下滑,整体不要完全坍塌 |
|
风景变化 |
窗外从晴天变成下雨 |
窗外光线由明亮转为灰暗,窗帘被风轻轻吹起,玻璃上出现少量雨滴并缓慢下滑,花园逐渐变得朦胧 |
|
人物情绪 |
老人表情从微笑变感伤 |
老人低头看着相册,原本淡淡的微笑逐渐收住,眼神停在照片上,眼眶微微泛光,手指轻轻按住相册边缘 |
规律:强提示词描述的是变化"过程",而非仅仅是"结果"。
-
人物情绪变化:
提示词:
上图:老人翻看相册,表情从微笑变得感伤。
下图:老人低头看着相册,原本淡淡的微笑逐渐收住,眼神停在照片上,眼眶微微泛光,手指轻轻按住打开的相册边缘,整体情绪安静克制。

2.2 运动控制
图生视频中运动幅度控制直接影响生成质量,需拆解动作的每个阶段:
-
多物体运动:
提示词:
上图:多米诺骨牌一个接一个倒下去。
下图:第一块骨牌推倒第二块,骨牌沿着S形曲线依次倒下,未碰到的骨牌保持直立,已经倒下的骨牌平躺在桌面上不乱滑,最后一块轻轻倒地后静止

2.3 主体一致性
图像本身已提供视觉锚点,提示词需与图像内容保持一致,不描述图中不存在的特征。
-
人物一致性:
提示词:
上图:女孩慢慢转头到侧面
下图:女孩保持短发、蓝色挑染、雀斑、红口红和黑色高领毛衣不变,头部缓慢转到侧脸,左耳环逐渐被头发遮住,表情始终平静。
2.4 运镜注意事项
-
推镜在图生模式表现优秀,特别适合产品展示
-
避免大幅度拉镜,容易导致图像边缘内容生成失真
-
环绕镜头需配合主体有足够细节的图像
提示词:
上图:推进镜头,焦点从花转移到后面的人。
下图:镜头缓缓前推,前景玫瑰从清晰逐渐变柔,后景长椅上的情侣从模糊轮廓变得清晰,花仍留在左下角形成粉色虚化,人物表情逐渐清晰。


3. 文生视频(Text-to-Video)
核心原则:
用"主体 + 动作"构成最小有效提示词,再按需叠加场景、运镜、光线、音效等元素。
提示词结构公式:
[主体描述]
└─ [主体动作 / 表情 / 状态]
├─ [场景 / 背景]
├─ [运镜方式]
├─ [光线 / 氛围]
├─ [背景音乐 / 音效]
└─ [对白 / Speech]
最小提示词公式:
主体 + 主体运动/表现
示例:
一只橘猫慵懒地伸了个懒腰
在此基础上,按需叠加其他元素,例如:
[运镜] 一只橘猫慵懒地伸了个懒腰,[场景] 阳光透过窗帘洒在木地板上,[音效] 轻柔的钢琴背景音
3.1 画面描述
画面描述决定视觉风格与构图质量,关键在于具体化。
|
要素 |
弱提示词 |
强提示词 |
|---|---|---|
|
风格 |
好看的画面 |
赛博朋克风格,霓虹灯反光,雨夜街道 |
|
光线 |
有光 |
黄昏侧逆光,金色光晕,长阴影 |
|
构图 |
人在中间 |
低角度仰拍,人物占画面三分之二 |
|
细节 |
穿着漂亮 |
身穿深蓝色丝绒礼服,领口有碎钻装饰 |
分场景示例:
-
城市街景:东京涩谷十字路口,夜晚,霓虹灯倒映在湿润的地面,行人撑伞穿行,电影感构图

-
微观特写:雨滴落在荷叶上,极致特写,水珠在叶面滚动,绿色背景虚化,高速摄影质感

3.2 运动描述
运动描述需明确谁在动、怎么动、动作幅度多大。
-
物体运动:FPV无人机贴地跟拍,一辆红色跑车在险峻的山路上极速狂飙,背景产生强烈的动态模糊

-
微小动作:半身特写,年轻女孩正在看书,食指在翻开的书页上顺着文字缓缓划过,夕阳照在纸面上,嘴角微微上扬

3.3 主体一致性
在多段生成或长视频中保持主体外观一致的技巧:
-
在提示词中固定主体外貌特征(发色、服装、体型等关键视觉特征)
-
使用角色标签锁定身份,如"同一名红发女孩"
-
避免使用模糊代词,始终重复主体描述
示例:
物品一致性:复古皮质棕色行李箱,特写箱扣;同一行李箱被放上行李架的全景

多人场景一致性:三人组合:高个子男生戴黑框眼镜、短发女生穿白色卫衣、卷发女生背红色双肩包,镜头一:三人并排走在校园小路;镜头二:同三人坐在草坪上聊天

3.4 运镜描述
|
运镜类型 |
关键词 |
效果 |
|---|---|---|
|
推镜 |
缓慢推进、zoom in |
聚焦主体,增强张力 |
|
拉镜 |
缓慢拉远、zoom out |
揭示环境,营造孤独感 |
|
环绕 |
360度环绕拍摄 |
展示主体全貌 |
|
跟随 |
跟拍、手持跟随 |
临场感、纪录片风格 |
|
俯拍 |
鸟瞰、俯视 |
宏观视角 |
|
仰拍 |
低角度仰拍 |
主体显得高大威严 |
运镜示例:
-
环绕:镜头360度环绕一棵百年老树,树干粗壮,枝叶繁茂,光线从叶缝间穿透

-
主观视角:第一人称视角,穿行于繁忙的东京街道,人群从两侧涌过,沉浸感强

4. 进阶技巧
4.1 提示词迭代策略
生成结果不理想时,按以下步骤系统排查:
Step 1:定位问题类型
|
问题现象 |
可能原因 |
调整方向 |
|---|---|---|
|
主体模糊/变形 |
主体描述不够具体 |
增加外貌细节,减少其他元素 |
|
动作不自然 |
动作描述过于复杂 |
拆分为单一动作,降低幅度 |
|
风格不对 |
风格词汇权重不足 |
将风格词移至提示词最前面 |
|
画面杂乱 |
元素过多互相干扰 |
删减次要描述,聚焦核心 |
|
多镜头混乱 |
时长/主体指代关系不清 |
时长跟分镜脚本要匹配 |
Step 2:最小化测试法
原始(失败):赛博朋克风格,霓虹灯雨夜,黑衣女子站在街头,镜头缓慢推进,背景音乐电子乐
→ 测试主体:黑衣女子站在街头
→ 叠加风格:赛博朋克风格,黑衣女子站在街头
→ 叠加运镜:赛博朋克风格,黑衣女子站在街头,镜头缓慢推进
→ 逐步叠加,精准定位导致问题的元素
Step 3:关键词替换参考
动作描述替换:
-
模糊 → 具体:
移动→缓缓向左转身 -
过大 → 适中:
剧烈奔跑→小跑前进 -
复合 → 单一:
边走边说话边挥手→缓步前行
风格描述替换:
-
泛化 → 精准:
好看的风格→胶片质感,颗粒感,冷色调 -
堆砌 → 精简:
超高清8K超写实电影级大片→电影质感,自然光
4.2 情绪一致性原则
画面、运镜、音效三者的情绪基调需保持一致,否则生成质量会明显下降。
|
情绪基调 |
画面元素 |
运镜 |
音效/音乐 |
|---|---|---|---|
|
孤独忧郁 |
冷色调,空旷场景,单一人物 |
缓慢拉远 |
大提琴,低沉 |
|
温暖治愈 |
暖黄光,自然场景,柔和细节 |
轻微推进 |
钢琴,鸟鸣 |
|
紧张刺激 |
高对比,快速切换,特写 |
手持抖动 |
电子音效,节奏快 |
|
史诗宏大 |
广角,宏观场景,强光效 |
鸟瞰,缓慢环绕 |
管弦乐,厚重 |
组合示例:
# 孤独忧郁
冷蓝色调,空旷的城市天台,一人独坐望向远处灯火,镜头缓缓拉远,背景音乐:大提琴独奏,低沉绵长
# 紧张刺激
夜晚城市,手持跟拍,主角在人群中快速穿行,镜头轻微抖动,高对比度,背景音效:急促脚步声,心跳声
# 史诗宏大
日出时分,鸟瞰雪山山脉,云海翻涌,金色光芒从山峰后喷薄而出,背景音乐:管弦乐,磅礴有力
4.3 音频提示词
Vidu Q3 支持音效与背景音乐描述,建议放在提示词末尾。
|
类型 |
格式 |
适用场景 |
|---|---|---|
|
背景音乐 |
|
氛围营造、情绪渲染 |
|
环境音效 |
|
增强临场感、写实感 |
|
人声/对白 |
|
叙事、角色表达 |
示例:
# 自然场景
清晨山间云海,薄雾流动,音效:鸟鸣声,远处流水声,微风拂过树叶的沙沙声
# 混合音频
咖啡馆室内,暖黄灯光,背景音乐:爵士钢琴轻柔流淌,音效:咖啡机研磨声,杯碟轻碰声,雨打窗户声
# 人物对白
女孩站在窗边望向远处,Speech:她轻声说"终于等到你了",语气温柔,略带哽咽
5. 常见问题 FAQ
Q1:提示词越长越好吗?
不是。最佳长度在 50–150 字之间。过长会让模型在多个描述之间分配注意力,核心元素反而被弱化。优先写清"主体 + 动作 + 风格"。
Q2:生成的人物面部模糊或变形怎么办?
常见原因:主体描述过于简单;提示词中其他元素过多分散注意力;运镜幅度过大。建议先用简短提示词单独测试人物生成,确认效果后再叠加其他元素。
Q3:如何让视频有更强的电影感?
三个关键点:
-
光线:使用"黄金时刻""逆光""丁达尔光效"等具体光线词汇
-
运镜:加入"缓慢推进""360度环绕"等描述
-
色调:明确色调方向,如"冷蓝色调""高对比度"
Q4:图生视频画面崩坏怎么办?
-
降低动作幅度:将"快速""剧烈"改为"缓缓""轻微"
-
避免引入图中不存在的新主体
-
避免大幅度拉镜,推镜更稳定
-
选择主体清晰、构图简洁的输入图像
Q5:参考图的质量有多重要?
非常重要。参考图的清晰度、风格鲜明程度直接决定迁移效果。建议使用分辨率高、主体清晰、风格鲜明的图片,人物建议正面或四分之三侧面。
附录:提示词模板速查
通用模板
文生视频
[风格] [主体描述],[主体动作],[场景/背景],[光线/氛围],[运镜],[音效]
图生视频
图中[主体],[动作描述],[运动幅度],[镜头运动]
参考生视频
参考[素材特征],新场景:[主体]在[环境]中[动作],[氛围],[运镜]
行业场景速查
|
场景 |
模板 |
|---|---|
|
电商产品展示 |
极简风格,[产品名称],[颜色/材质],缓慢旋转,纯白背景,顶部柔光 |
|
旅游目的地 |
电影质感,[目的地],[标志性景观],黄金时刻,无人机鸟瞰缓缓推进 |
|
社交媒体短视频 |
竖屏构图,[强视觉冲击开场],[主体动作],节奏感强,背景音乐:流行电子 |
|
影视创意短片 |
电影质感,[人物描述],[情绪状态],[场景],[戏剧性光线],[运镜] |
|
自然纪录片 |
纪录片风格,[自然场景],[自然运动],[自然光],固定镜头,音效:环境音 |
常用关键词速查
|
类别 |
推荐关键词 |
|---|---|
|
写实电影 |
电影质感、自然光、4K写实、纪录片风格 |
|
日系清新 |
胶片质感、颗粒感、柔和色调、日系小清新 |
|
赛博朋克 |
霓虹灯、雨夜、高对比度、蓝紫色调 |
|
中国古风 |
水墨质感、留白构图、古典美学、丹青风格 |
|
温暖光线 |
黄金时刻、暖黄灯光、烛光、夕阳逆光 |
|
冷酷光线 |
蓝调时刻、冷白光、月光、霓虹灯光 |
|
聚焦运镜 |
缓慢推进、zoom in、景深虚化 |
|
临场运镜 |
手持跟拍、轻微抖动、第一人称视角 |
|
宏观运镜 |
无人机鸟瞰、俯视、航拍、360度环绕 |
写在最后
技术持续迭代,方法论长期有效。
理解提示词背后的创作逻辑,
才能持续获得更稳定、更优质的生成结果。
未来,Vidu API开放平台将持续分享:
AI视频创作教程、最佳实践案例、行业解决方案及最新能力解析,
欢迎关注我们,与更多开发者和创作者共同探索AI视频的无限可能!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐








所有评论(0)