前言

Vidu Q3 上线以来,我们收到最多的一类反馈是:

"为什么别人生成的效果那么好,我的总是差那么一截?"

答案几乎都指向同一个地方——提示词。

这篇文章是 Vidu 官方整理的 Q3 提示词使用指南,覆盖参考生视频、图生视频、文生视频三种模式,从基础结构到进阶技巧,附带可直接套用的模板,建议收藏!


1. 参考生视频(Reference-to-Video)

核心原则

以参考图锁定风格或主体,用提示词描述新场景中的动作,实现"同一主体,全新故事"。

提示词结构公式:

1.1 风格迁移

将参考素材的视觉风格应用到新内容上:

  • 动画风格迁移

主体图:

风格参考图:

Q3视频效果:

提示词:参考吉卜力动画风格,女孩在麦田中奔跑,风吹麦浪,蓝天白云,温暖治愈

  • 摄影风格迁移

主体图:

风格参考图:

Q3视频:

提示词:参考胶片摄影风格,颗粒感,褪色,人物在咖啡馆窗边发呆

1.2  主体一致性(跨场景)

参考生视频最核心的能力:让同一主体出现在不同场景中。

  • IP形象应用

    提示词:参考品牌吉祥物形象,新场景:吉祥物在节日广场上挥手,彩带飘落,欢乐氛围

1.3 Q3 亮点功能

功能

说明

提示词关键词

自动切镜

模型根据内容自动安排镜头切换

加入"切镜"关键词

多视角切镜

打斗等复杂场景的多角度呈现

"多视角切镜"

规划切镜

用数字明确列出每个镜头内容

"镜头一:… 镜头二:…"

音画同步

台词精准对应画面

每个镜头对应台词

宫格叙事

上传分镜图/九宫格自动理解

上传分镜参考图

过肩镜头

双人对话的正反打

"xxx的过肩镜头"

  • 多视角切镜示例:

提示词:两个人出现激烈地打斗,画面出现多个视角切镜


2. 图生视频(Image-to-Video)

核心原则

以图像为锚点,用提示词描述"从这张图出发,接下来发生什么",重点在于运动方向与幅度控制。

提示词结构公式:

[输入图像]
    └─ [描述图中主体]
            └─ [指定运动方向 / 动作]
                    ├─ [运动幅度(轻微/明显/剧烈)+ 速度 + 节奏]
                    ├─ [镜头运动(推/拉/摇/移/跟/环绕)+ 速度 + 起止状态]
                    └─ [氛围延续或转变(光照/色调/材质/情绪一致性)]

2.1  画面延续

核心原则:

  1. 描述图中已有元素的自然延伸,不引入图中没有的新主体

  2. 用"轻微""缓慢"控制幅度,避免画面崩坏

  3. 使用时序词表达变化过程:"起初……接着……后来……"

场景

弱提示词(容易翻车)

强提示词(稳定出片)

食物变化

冰淇淋在阳光下融化

冰淇淋草莓球表面逐渐变得湿亮,边缘轻微塌软,一滴粉色融化液沿着甜筒纹路缓慢下滑,整体不要完全坍塌

风景变化

窗外从晴天变成下雨

窗外光线由明亮转为灰暗,窗帘被风轻轻吹起,玻璃上出现少量雨滴并缓慢下滑,花园逐渐变得朦胧

人物情绪

老人表情从微笑变感伤

老人低头看着相册,原本淡淡的微笑逐渐收住,眼神停在照片上,眼眶微微泛光,手指轻轻按住相册边缘

规律:强提示词描述的是变化"过程",而非仅仅是"结果"。

  • 人物情绪变化:

提示词:

上图:老人翻看相册,表情从微笑变得感伤。

下图:老人低头看着相册,原本淡淡的微笑逐渐收住,眼神停在照片上,眼眶微微泛光,手指轻轻按住打开的相册边缘,整体情绪安静克制。

2.2 运动控制

图生视频中运动幅度控制直接影响生成质量,需拆解动作的每个阶段:

  • 多物体运动

提示词:

上图:多米诺骨牌一个接一个倒下去。

下图:第一块骨牌推倒第二块,骨牌沿着S形曲线依次倒下,未碰到的骨牌保持直立,已经倒下的骨牌平躺在桌面上不乱滑,最后一块轻轻倒地后静止

2.3 主体一致性

图像本身已提供视觉锚点,提示词需与图像内容保持一致,不描述图中不存在的特征。

  • 人物一致性:

提示词:

上图:女孩慢慢转头到侧面

下图:女孩保持短发、蓝色挑染、雀斑、红口红和黑色高领毛衣不变,头部缓慢转到侧脸,左耳环逐渐被头发遮住,表情始终平静。

2.4  运镜注意事项

  • 推镜在图生模式表现优秀,特别适合产品展示

  • 避免大幅度拉镜,容易导致图像边缘内容生成失真

  • 环绕镜头需配合主体有足够细节的图像

提示词:

上图:推进镜头,焦点从花转移到后面的人。

下图:镜头缓缓前推,前景玫瑰从清晰逐渐变柔,后景长椅上的情侣从模糊轮廓变得清晰,花仍留在左下角形成粉色虚化,人物表情逐渐清晰。


3. 文生视频(Text-to-Video)

核心原则

用"主体 + 动作"构成最小有效提示词,再按需叠加场景、运镜、光线、音效等元素。

提示词结构公式:

[主体描述]
    └─ [主体动作 / 表情 / 状态]
            ├─ [场景 / 背景]
            ├─ [运镜方式]
            ├─ [光线 / 氛围]
            ├─ [背景音乐 / 音效]
            └─ [对白 / Speech]

最小提示词公式:

主体 + 主体运动/表现

示例:

一只橘猫慵懒地伸了个懒腰

在此基础上,按需叠加其他元素,例如:

[运镜] 一只橘猫慵懒地伸了个懒腰,[场景] 阳光透过窗帘洒在木地板上,[音效] 轻柔的钢琴背景音

3.1 画面描述

画面描述决定视觉风格与构图质量,关键在于具体化

要素

弱提示词

强提示词

风格

好看的画面

赛博朋克风格,霓虹灯反光,雨夜街道

光线

有光

黄昏侧逆光,金色光晕,长阴影

构图

人在中间

低角度仰拍,人物占画面三分之二

细节

穿着漂亮

身穿深蓝色丝绒礼服,领口有碎钻装饰

分场景示例:

  • 城市街景:东京涩谷十字路口,夜晚,霓虹灯倒映在湿润的地面,行人撑伞穿行,电影感构图

  • 微观特写:雨滴落在荷叶上,极致特写,水珠在叶面滚动,绿色背景虚化,高速摄影质感

3.2 运动描述

运动描述需明确谁在动怎么动动作幅度多大

  • 物体运动:FPV无人机贴地跟拍,一辆红色跑车在险峻的山路上极速狂飙,背景产生强烈的动态模糊

  • 微小动作:半身特写,年轻女孩正在看书,食指在翻开的书页上顺着文字缓缓划过,夕阳照在纸面上,嘴角微微上扬

3.3  主体一致性

在多段生成或长视频中保持主体外观一致的技巧:

  • 在提示词中固定主体外貌特征(发色、服装、体型等关键视觉特征)

  • 使用角色标签锁定身份,如"同一名红发女孩"

  • 避免使用模糊代词,始终重复主体描述

示例:

物品一致性:复古皮质棕色行李箱,特写箱扣;同一行李箱被放上行李架的全景

多人场景一致性:三人组合:高个子男生戴黑框眼镜、短发女生穿白色卫衣、卷发女生背红色双肩包,镜头一:三人并排走在校园小路;镜头二:同三人坐在草坪上聊天

3.4 运镜描述

运镜类型

关键词

效果

推镜

缓慢推进、zoom in

聚焦主体,增强张力

拉镜

缓慢拉远、zoom out

揭示环境,营造孤独感

环绕

360度环绕拍摄

展示主体全貌

跟随

跟拍、手持跟随

临场感、纪录片风格

俯拍

鸟瞰、俯视

宏观视角

仰拍

低角度仰拍

主体显得高大威严

运镜示例:

  • 环绕:镜头360度环绕一棵百年老树,树干粗壮,枝叶繁茂,光线从叶缝间穿透

  • 主观视角:第一人称视角,穿行于繁忙的东京街道,人群从两侧涌过,沉浸感强


4. 进阶技巧

4.1 提示词迭代策略

生成结果不理想时,按以下步骤系统排查:

Step 1:定位问题类型

问题现象

可能原因

调整方向

主体模糊/变形

主体描述不够具体

增加外貌细节,减少其他元素

动作不自然

动作描述过于复杂

拆分为单一动作,降低幅度

风格不对

风格词汇权重不足

将风格词移至提示词最前面

画面杂乱

元素过多互相干扰

删减次要描述,聚焦核心

多镜头混乱

时长/主体指代关系不清

时长跟分镜脚本要匹配

Step 2:最小化测试法

原始(失败):赛博朋克风格,霓虹灯雨夜,黑衣女子站在街头,镜头缓慢推进,背景音乐电子乐

→ 测试主体:黑衣女子站在街头
→ 叠加风格:赛博朋克风格,黑衣女子站在街头
→ 叠加运镜:赛博朋克风格,黑衣女子站在街头,镜头缓慢推进
→ 逐步叠加,精准定位导致问题的元素

Step 3:关键词替换参考

动作描述替换:

  • 模糊 → 具体:移动 → 缓缓向左转身

  • 过大 → 适中:剧烈奔跑 → 小跑前进

  • 复合 → 单一:边走边说话边挥手 → 缓步前行

风格描述替换:

  • 泛化 → 精准:好看的风格 → 胶片质感,颗粒感,冷色调

  • 堆砌 → 精简:超高清8K超写实电影级大片 → 电影质感,自然光

4.2  情绪一致性原则

画面、运镜、音效三者的情绪基调需保持一致,否则生成质量会明显下降。

情绪基调

画面元素

运镜

音效/音乐

孤独忧郁

冷色调,空旷场景,单一人物

缓慢拉远

大提琴,低沉

温暖治愈

暖黄光,自然场景,柔和细节

轻微推进

钢琴,鸟鸣

紧张刺激

高对比,快速切换,特写

手持抖动

电子音效,节奏快

史诗宏大

广角,宏观场景,强光效

鸟瞰,缓慢环绕

管弦乐,厚重

组合示例:

# 孤独忧郁
冷蓝色调,空旷的城市天台,一人独坐望向远处灯火,镜头缓缓拉远,背景音乐:大提琴独奏,低沉绵长

# 紧张刺激
夜晚城市,手持跟拍,主角在人群中快速穿行,镜头轻微抖动,高对比度,背景音效:急促脚步声,心跳声

# 史诗宏大
日出时分,鸟瞰雪山山脉,云海翻涌,金色光芒从山峰后喷薄而出,背景音乐:管弦乐,磅礴有力

4.3 音频提示词

Vidu Q3 支持音效与背景音乐描述,建议放在提示词末尾。

类型

格式

适用场景

背景音乐

背景音乐:[风格/乐器/节奏]

氛围营造、情绪渲染

环境音效

音效:[具体声音描述]

增强临场感、写实感

人声/对白

Speech:[内容],[语气/音色]

叙事、角色表达

示例:

# 自然场景
清晨山间云海,薄雾流动,音效:鸟鸣声,远处流水声,微风拂过树叶的沙沙声

# 混合音频
咖啡馆室内,暖黄灯光,背景音乐:爵士钢琴轻柔流淌,音效:咖啡机研磨声,杯碟轻碰声,雨打窗户声

# 人物对白
女孩站在窗边望向远处,Speech:她轻声说"终于等到你了",语气温柔,略带哽咽

5. 常见问题 FAQ

Q1:提示词越长越好吗?

不是。最佳长度在 50–150 字之间。过长会让模型在多个描述之间分配注意力,核心元素反而被弱化。优先写清"主体 + 动作 + 风格"。

Q2:生成的人物面部模糊或变形怎么办?

常见原因:主体描述过于简单;提示词中其他元素过多分散注意力;运镜幅度过大。建议先用简短提示词单独测试人物生成,确认效果后再叠加其他元素。

Q3:如何让视频有更强的电影感?

三个关键点:

  1. 光线:使用"黄金时刻""逆光""丁达尔光效"等具体光线词汇

  2. 运镜:加入"缓慢推进""360度环绕"等描述

  3. 色调:明确色调方向,如"冷蓝色调""高对比度"

Q4:图生视频画面崩坏怎么办?

  • 降低动作幅度:将"快速""剧烈"改为"缓缓""轻微"

  • 避免引入图中不存在的新主体

  • 避免大幅度拉镜,推镜更稳定

  • 选择主体清晰、构图简洁的输入图像

Q5:参考图的质量有多重要?

非常重要。参考图的清晰度、风格鲜明程度直接决定迁移效果。建议使用分辨率高、主体清晰、风格鲜明的图片,人物建议正面或四分之三侧面。


附录:提示词模板速查

通用模板

文生视频
[风格] [主体描述],[主体动作],[场景/背景],[光线/氛围],[运镜],[音效]

图生视频
图中[主体],[动作描述],[运动幅度],[镜头运动]

参考生视频
参考[素材特征],新场景:[主体]在[环境]中[动作],[氛围],[运镜]

行业场景速查

场景

模板

电商产品展示

极简风格,[产品名称],[颜色/材质],缓慢旋转,纯白背景,顶部柔光

旅游目的地

电影质感,[目的地],[标志性景观],黄金时刻,无人机鸟瞰缓缓推进

社交媒体短视频

竖屏构图,[强视觉冲击开场],[主体动作],节奏感强,背景音乐:流行电子

影视创意短片

电影质感,[人物描述],[情绪状态],[场景],[戏剧性光线],[运镜]

自然纪录片

纪录片风格,[自然场景],[自然运动],[自然光],固定镜头,音效:环境音

常用关键词速查

类别

推荐关键词

写实电影

电影质感、自然光、4K写实、纪录片风格

日系清新

胶片质感、颗粒感、柔和色调、日系小清新

赛博朋克

霓虹灯、雨夜、高对比度、蓝紫色调

中国古风

水墨质感、留白构图、古典美学、丹青风格

温暖光线

黄金时刻、暖黄灯光、烛光、夕阳逆光

冷酷光线

蓝调时刻、冷白光、月光、霓虹灯光

聚焦运镜

缓慢推进、zoom in、景深虚化

临场运镜

手持跟拍、轻微抖动、第一人称视角

宏观运镜

无人机鸟瞰、俯视、航拍、360度环绕


写在最后

技术持续迭代,方法论长期有效。

理解提示词背后的创作逻辑,

才能持续获得更稳定、更优质的生成结果。

未来,Vidu API开放平台将持续分享:

AI视频创作教程、最佳实践案例、行业解决方案及最新能力解析,

欢迎关注我们,与更多开发者和创作者共同探索AI视频的无限可能!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐