建议收藏！Vidu Q3官方提示词指南：结构公式+速查模板（附避坑技巧）

Vidu API开放平台

75人浏览 · 2026-06-12 19:33:54

Vidu API开放平台 · 2026-06-12 19:33:54 发布

前言

Vidu Q3 上线以来，我们收到最多的一类反馈是：

"为什么别人生成的效果那么好，我的总是差那么一截？"

答案几乎都指向同一个地方——提示词。

这篇文章是 Vidu 官方整理的 Q3 提示词使用指南，覆盖参考生视频、图生视频、文生视频三种模式，从基础结构到进阶技巧，附带可直接套用的模板，建议收藏！

1. 参考生视频（Reference-to-Video）

核心原则：

以参考图锁定风格或主体，用提示词描述新场景中的动作，实现"同一主体，全新故事"。

提示词结构公式：

1.1 风格迁移

将参考素材的视觉风格应用到新内容上：

动画风格迁移

主体图:

风格参考图：

Q3视频效果：

提示词：参考吉卜力动画风格，女孩在麦田中奔跑，风吹麦浪，蓝天白云，温暖治愈

摄影风格迁移

主体图:

风格参考图：

Q3视频：

提示词：参考胶片摄影风格，颗粒感，褪色，人物在咖啡馆窗边发呆

1.2 主体一致性（跨场景）

参考生视频最核心的能力：让同一主体出现在不同场景中。

IP形象应用：

提示词：参考品牌吉祥物形象，新场景：吉祥物在节日广场上挥手，彩带飘落，欢乐氛围

1.3 Q3 亮点功能

功能	说明	提示词关键词
自动切镜	模型根据内容自动安排镜头切换	加入"切镜"关键词
多视角切镜	打斗等复杂场景的多角度呈现	"多视角切镜"
规划切镜	用数字明确列出每个镜头内容	"镜头一：… 镜头二：…"
音画同步	台词精准对应画面	每个镜头对应台词
宫格叙事	上传分镜图/九宫格自动理解	上传分镜参考图
过肩镜头	双人对话的正反打	"xxx的过肩镜头"

多视角切镜示例：

提示词：两个人出现激烈地打斗，画面出现多个视角切镜

2. 图生视频（Image-to-Video）

核心原则：

以图像为锚点，用提示词描述"从这张图出发，接下来发生什么"，重点在于运动方向与幅度控制。

提示词结构公式：

[输入图像]
    └─ [描述图中主体]
            └─ [指定运动方向 / 动作]
                    ├─ [运动幅度（轻微/明显/剧烈）+ 速度 + 节奏]
                    ├─ [镜头运动（推/拉/摇/移/跟/环绕）+ 速度 + 起止状态]
                    └─ [氛围延续或转变（光照/色调/材质/情绪一致性）]

2.1 画面延续

核心原则：

描述图中已有元素的自然延伸，不引入图中没有的新主体
用"轻微""缓慢"控制幅度，避免画面崩坏
使用时序词表达变化过程："起初……接着……后来……"

场景	弱提示词（容易翻车）	强提示词（稳定出片）
食物变化	冰淇淋在阳光下融化	冰淇淋草莓球表面逐渐变得湿亮，边缘轻微塌软，一滴粉色融化液沿着甜筒纹路缓慢下滑，整体不要完全坍塌
风景变化	窗外从晴天变成下雨	窗外光线由明亮转为灰暗，窗帘被风轻轻吹起，玻璃上出现少量雨滴并缓慢下滑，花园逐渐变得朦胧
人物情绪	老人表情从微笑变感伤	老人低头看着相册，原本淡淡的微笑逐渐收住，眼神停在照片上，眼眶微微泛光，手指轻轻按住相册边缘

规律：强提示词描述的是变化"过程"，而非仅仅是"结果"。

人物情绪变化：

提示词：

上图：老人翻看相册，表情从微笑变得感伤。

下图：老人低头看着相册，原本淡淡的微笑逐渐收住，眼神停在照片上，眼眶微微泛光，手指轻轻按住打开的相册边缘，整体情绪安静克制。

2.2 运动控制

图生视频中运动幅度控制直接影响生成质量，需拆解动作的每个阶段：

多物体运动：

提示词：

上图：多米诺骨牌一个接一个倒下去。

下图：第一块骨牌推倒第二块，骨牌沿着S形曲线依次倒下，未碰到的骨牌保持直立，已经倒下的骨牌平躺在桌面上不乱滑，最后一块轻轻倒地后静止

2.3 主体一致性

图像本身已提供视觉锚点，提示词需与图像内容保持一致，不描述图中不存在的特征。

人物一致性：

提示词：

上图：女孩慢慢转头到侧面

下图：女孩保持短发、蓝色挑染、雀斑、红口红和黑色高领毛衣不变，头部缓慢转到侧脸，左耳环逐渐被头发遮住，表情始终平静。

2.4 运镜注意事项

推镜在图生模式表现优秀，特别适合产品展示
避免大幅度拉镜，容易导致图像边缘内容生成失真
环绕镜头需配合主体有足够细节的图像

提示词：

上图：推进镜头，焦点从花转移到后面的人。

下图：镜头缓缓前推，前景玫瑰从清晰逐渐变柔，后景长椅上的情侣从模糊轮廓变得清晰，花仍留在左下角形成粉色虚化，人物表情逐渐清晰。

3. 文生视频（Text-to-Video）

核心原则：

用"主体 + 动作"构成最小有效提示词，再按需叠加场景、运镜、光线、音效等元素。

提示词结构公式：

[主体描述]
    └─ [主体动作 / 表情 / 状态]
            ├─ [场景 / 背景]
            ├─ [运镜方式]
            ├─ [光线 / 氛围]
            ├─ [背景音乐 / 音效]
            └─ [对白 / Speech]

最小提示词公式：

主体 + 主体运动/表现

示例：

一只橘猫慵懒地伸了个懒腰

在此基础上，按需叠加其他元素，例如：

[运镜] 一只橘猫慵懒地伸了个懒腰，[场景] 阳光透过窗帘洒在木地板上，[音效] 轻柔的钢琴背景音

3.1 画面描述

画面描述决定视觉风格与构图质量，关键在于具体化。

要素	弱提示词	强提示词
风格	好看的画面	赛博朋克风格，霓虹灯反光，雨夜街道
光线	有光	黄昏侧逆光，金色光晕，长阴影
构图	人在中间	低角度仰拍，人物占画面三分之二
细节	穿着漂亮	身穿深蓝色丝绒礼服，领口有碎钻装饰

分场景示例：

城市街景：东京涩谷十字路口，夜晚，霓虹灯倒映在湿润的地面，行人撑伞穿行，电影感构图

微观特写：雨滴落在荷叶上，极致特写，水珠在叶面滚动，绿色背景虚化，高速摄影质感

3.2 运动描述

运动描述需明确谁在动、怎么动、动作幅度多大。

物体运动：FPV无人机贴地跟拍，一辆红色跑车在险峻的山路上极速狂飙，背景产生强烈的动态模糊

微小动作：半身特写，年轻女孩正在看书，食指在翻开的书页上顺着文字缓缓划过，夕阳照在纸面上，嘴角微微上扬

3.3 主体一致性

在多段生成或长视频中保持主体外观一致的技巧：

在提示词中固定主体外貌特征（发色、服装、体型等关键视觉特征）
使用角色标签锁定身份，如"同一名红发女孩"
避免使用模糊代词，始终重复主体描述

示例：

物品一致性：复古皮质棕色行李箱，特写箱扣；同一行李箱被放上行李架的全景

多人场景一致性：三人组合：高个子男生戴黑框眼镜、短发女生穿白色卫衣、卷发女生背红色双肩包，镜头一：三人并排走在校园小路；镜头二：同三人坐在草坪上聊天

3.4 运镜描述

运镜类型	关键词	效果
推镜	缓慢推进、zoom in	聚焦主体，增强张力
拉镜	缓慢拉远、zoom out	揭示环境，营造孤独感
环绕	360度环绕拍摄	展示主体全貌
跟随	跟拍、手持跟随	临场感、纪录片风格
俯拍	鸟瞰、俯视	宏观视角
仰拍	低角度仰拍	主体显得高大威严

运镜示例：

环绕：镜头360度环绕一棵百年老树，树干粗壮，枝叶繁茂，光线从叶缝间穿透

主观视角：第一人称视角，穿行于繁忙的东京街道，人群从两侧涌过，沉浸感强

4. 进阶技巧

4.1 提示词迭代策略

生成结果不理想时，按以下步骤系统排查：

Step 1：定位问题类型

问题现象	可能原因	调整方向
主体模糊/变形	主体描述不够具体	增加外貌细节，减少其他元素
动作不自然	动作描述过于复杂	拆分为单一动作，降低幅度
风格不对	风格词汇权重不足	将风格词移至提示词最前面
画面杂乱	元素过多互相干扰	删减次要描述，聚焦核心
多镜头混乱	时长/主体指代关系不清	时长跟分镜脚本要匹配

Step 2：最小化测试法

原始（失败）：赛博朋克风格，霓虹灯雨夜，黑衣女子站在街头，镜头缓慢推进，背景音乐电子乐

→ 测试主体：黑衣女子站在街头
→ 叠加风格：赛博朋克风格，黑衣女子站在街头
→ 叠加运镜：赛博朋克风格，黑衣女子站在街头，镜头缓慢推进
→ 逐步叠加，精准定位导致问题的元素

Step 3：关键词替换参考

动作描述替换：

模糊 → 具体：移动 → 缓缓向左转身
过大 → 适中：剧烈奔跑 → 小跑前进
复合 → 单一：边走边说话边挥手 → 缓步前行

风格描述替换：

泛化 → 精准：好看的风格 → 胶片质感，颗粒感，冷色调
堆砌 → 精简：超高清8K超写实电影级大片 → 电影质感，自然光

4.2 情绪一致性原则

画面、运镜、音效三者的情绪基调需保持一致，否则生成质量会明显下降。

情绪基调	画面元素	运镜	音效/音乐
孤独忧郁	冷色调，空旷场景，单一人物	缓慢拉远	大提琴，低沉
温暖治愈	暖黄光，自然场景，柔和细节	轻微推进	钢琴，鸟鸣
紧张刺激	高对比，快速切换，特写	手持抖动	电子音效，节奏快
史诗宏大	广角，宏观场景，强光效	鸟瞰，缓慢环绕	管弦乐，厚重

组合示例：

# 孤独忧郁
冷蓝色调，空旷的城市天台，一人独坐望向远处灯火，镜头缓缓拉远，背景音乐：大提琴独奏，低沉绵长

# 紧张刺激
夜晚城市，手持跟拍，主角在人群中快速穿行，镜头轻微抖动，高对比度，背景音效：急促脚步声，心跳声

# 史诗宏大
日出时分，鸟瞰雪山山脉，云海翻涌，金色光芒从山峰后喷薄而出，背景音乐：管弦乐，磅礴有力

4.3 音频提示词

Vidu Q3 支持音效与背景音乐描述，建议放在提示词末尾。

类型	格式	适用场景
背景音乐	`背景音乐：[风格/乐器/节奏]`	氛围营造、情绪渲染
环境音效	`音效：[具体声音描述]`	增强临场感、写实感
人声/对白	`Speech：[内容]，[语气/音色]`	叙事、角色表达

示例：

# 自然场景
清晨山间云海，薄雾流动，音效：鸟鸣声，远处流水声，微风拂过树叶的沙沙声

# 混合音频
咖啡馆室内，暖黄灯光，背景音乐：爵士钢琴轻柔流淌，音效：咖啡机研磨声，杯碟轻碰声，雨打窗户声

# 人物对白
女孩站在窗边望向远处，Speech：她轻声说"终于等到你了"，语气温柔，略带哽咽

5. 常见问题 FAQ

Q1：提示词越长越好吗？

不是。最佳长度在 50–150 字之间。过长会让模型在多个描述之间分配注意力，核心元素反而被弱化。优先写清"主体 + 动作 + 风格"。

Q2：生成的人物面部模糊或变形怎么办？

常见原因：主体描述过于简单；提示词中其他元素过多分散注意力；运镜幅度过大。建议先用简短提示词单独测试人物生成，确认效果后再叠加其他元素。

Q3：如何让视频有更强的电影感？

三个关键点：

光线：使用"黄金时刻""逆光""丁达尔光效"等具体光线词汇
运镜：加入"缓慢推进""360度环绕"等描述
色调：明确色调方向，如"冷蓝色调""高对比度"

Q4：图生视频画面崩坏怎么办？

降低动作幅度：将"快速""剧烈"改为"缓缓""轻微"
避免引入图中不存在的新主体
避免大幅度拉镜，推镜更稳定
选择主体清晰、构图简洁的输入图像

Q5：参考图的质量有多重要？

非常重要。参考图的清晰度、风格鲜明程度直接决定迁移效果。建议使用分辨率高、主体清晰、风格鲜明的图片，人物建议正面或四分之三侧面。

附录：提示词模板速查

通用模板

文生视频
[风格] [主体描述]，[主体动作]，[场景/背景]，[光线/氛围]，[运镜]，[音效]

图生视频
图中[主体]，[动作描述]，[运动幅度]，[镜头运动]

参考生视频
参考[素材特征]，新场景：[主体]在[环境]中[动作]，[氛围]，[运镜]

行业场景速查

场景	模板
电商产品展示	极简风格，[产品名称]，[颜色/材质]，缓慢旋转，纯白背景，顶部柔光
旅游目的地	电影质感，[目的地]，[标志性景观]，黄金时刻，无人机鸟瞰缓缓推进
社交媒体短视频	竖屏构图，[强视觉冲击开场]，[主体动作]，节奏感强，背景音乐：流行电子
影视创意短片	电影质感，[人物描述]，[情绪状态]，[场景]，[戏剧性光线]，[运镜]
自然纪录片	纪录片风格，[自然场景]，[自然运动]，[自然光]，固定镜头，音效：环境音

常用关键词速查

类别	推荐关键词
写实电影	电影质感、自然光、4K写实、纪录片风格
日系清新	胶片质感、颗粒感、柔和色调、日系小清新
赛博朋克	霓虹灯、雨夜、高对比度、蓝紫色调
中国古风	水墨质感、留白构图、古典美学、丹青风格
温暖光线	黄金时刻、暖黄灯光、烛光、夕阳逆光
冷酷光线	蓝调时刻、冷白光、月光、霓虹灯光
聚焦运镜	缓慢推进、zoom in、景深虚化
临场运镜	手持跟拍、轻微抖动、第一人称视角
宏观运镜	无人机鸟瞰、俯视、航拍、360度环绕