【AIGC】Wan开源系列模型说明

Wanderer X

298人浏览 · 2026-05-14 15:45:05

Wanderer X · 2026-05-14 15:45:05 发布

wan 2.1

https://huggingface.co/collections/Wan-AI/wan21

在 Wan 2.1 的开源家族中，这些模型后缀代表了不同的任务逻辑和输出规格。根据你提供的列表，我们可以将这些模型划分为四大核心类别：

1. T2V (Text-to-Video) —— 文生视频基座

这是最基础的“无中生有”模型，主要用于将文本描述直接转化为动态画面。

模型含义：用户输入一段 Prompt（如“赛博朋克风格的杭州街头”），模型根据语义理解生成一段全新的视频。
版本差异：提供了 1.3B（轻量级，适合个人显卡尝试）和 14B（旗舰级，画质与语义遵循度更高）两个参数量版本。

2. I2V (Image-to-Video) —— 图生视频

这类模型专门负责“让图片动起来”，在保持原图特征的基础上增加动态效果。

模型含义：输入一张静态图（Image）并配合文字指令，模型会预测图片中物体的运动轨迹。
分辨率规格：列表中的 480P 和 720P 代表了模型原生输出的纵向分辨率。720P 版本生成的画面更清晰、细节更丰富，但对计算资源的要求也更高。

3. FLF2V (First-Last-Frame to Video) —— 首尾帧生成

这是一个非常垂直且强大的补全模型，主要解决视频生成的“可控性”问题。

模型含义：顾名思义，你需要给它视频的第一帧和最后一帧，模型会自动“脑补”中间所有的过渡动作，确保视频的开头和结尾完全符合你的预期。
应用场景：它非常适合用于制作循环动画、精准的镜头衔接，或者将两个互不相关的画面平滑地连接在一起。

4. VACE (Video All-in-one Creation Engine) —— 视频全能编辑引擎

这是 Wan 2.1 家族中的“后期专家”，侧重于对已有视频内容的二次加工。

模型含义：VACE 并不只是简单的生成，它集成了多种编辑能力，比如：
视频重绘 (Inpainting)：抹除或替换视频中的某个特定物体。
风格迁移：在保留动作的同时，改变视频的整体视觉风格。
参数版本：同样提供了 1.3B 和 14B 版本，满足从快速预览到专业级后期制作的不同需求。

总结对照表

模型后缀	全称	核心输入	核心用途
T2V	Text-to-Video	纯文字	纯粹的创意生成
I2V	Image-to-Video	图片 + 文字	静态图动画化
FLF2V	First-Last-Frame to Video	起始图 + 结束图	精准控制启停的视频补全
VACE	Video All-in-one Creation Engine	视频/图片 + 指令	视频局部修改与高级编辑

wan 2.2

https://huggingface.co/collections/Wan-AI/wan22
Wan 2.2 相比 2.1 版本，最核心的进化在于引入了 MoE（混合专家模型）架构（体现在模型名中的 A14B）以及针对特定动态生成需求的深度垂直优化。

以下是 Wan 2.2 家族各版本的详细拆解：

1. 核心生成模型（MoE 架构版）

这组模型是 Wan 2.2 的中流砥柱，使用了“高噪专家”与“低噪专家”分工协作的模式，在保持 14B 参数量的同时，大幅提升了画面细节。

Wan2.2-T2V-A14B (Text-to-Video)
含义：纯文本驱动的基座模型。
特点：利用 MoE 架构优化了对复杂文本指令的物理模拟（如流体、碰撞等），动态效果比 2.1 版本更加自然、连贯。
Wan2.2-I2V-A14B (Image-to-Video)
含义：图片驱动生成视频。
特点：同样采用 MoE 架构，能够更精准地保持原图中的人物面部特征或物体纹理，同时支持更大规模的运镜变化。

2. 跨模态与高级控制模型

这组模型针对当前 AIGC 领域最火热的“数字人”和“动作克隆”任务进行了专门的训练。

Wan2.2-S2V-14B (Speech-to-Video)
含义：音频 + 图片驱动的视频生成。
功能：输入一张照片和一段语音，它能生成具有精确口型同步、自然面部表情和身体微动的视频。
研究相关：对于从事 3D 动作生成及跨模态蒸馏研究的人员来说，该模型在视听对齐（Audio-Visual Alignment）上的表现是其核心竞争力。
Wan2.2-Animate-14B (Video-to-Video)
含义：视频驱动的动作迁移模型。
功能：你可以给它一段舞蹈视频作为“动作参考”，再给它一张新照片作为“目标角色”，它能让照片里的人完美复刻视频里的动作。
区别：它比普通的 I2V 更强调对“动作序列”的保持，是制作高质量动画和虚拟偶像的核心工具。

3. 高效能混合版

Wan2.2-TI2V-5B (Text-Image-to-Video)
含义：文本与图片双重驱动的中量级模型。
定位：5B 的参数量在生成质量与计算效率间取得了极佳的平衡。
区别：它被设计为同时接收文本和图像输入（TI2V），非常适合需要“既要图片长相一致，又要文字指令精准控制动作”的场景，且能够在主流消费级显卡（如 24G 显存）上流畅运行。

总结：Wan 2.2 的升级逻辑

模型标识	核心进化点	适用场景
A14B (MoE)	高低噪专家协作，画质上限更高	追求电影级质感的文生/图生视频
S2V	语音与视觉的强对齐	数字人播报、歌唱视频生成
Animate	复杂的时序动作克隆	角色动画制作、动作迁移
5B (TI2V)	轻量化 + 多模态混合控制	个人创作者、快速迭代的工作流

简单来说，Wan 2.2 不再只是一个“会画画”的模型，它已经演变成了一个会说话（S2V）、会演戏（Animate）、且更聪明的（MoE）全能制作团队。对于正在探索 VLM 和 VLA 方向的研究者而言，2.2 版本的这些跨模态控制能力是非常有参考价值的工业级实现。

变化类型,具体表现,真实目的
重构升级,T2V/I2V → A14B 系列,引入 MoE 架构，提升画面物理特性。
战略新增,S2V、Animate,攻克数字人口型与精准动作迁移。
任务合并,TI2V-5B 出现,尝试用一个模型同时处理图+文两种控制信号。
暂时保留,VACE、FLF2V 停留在 2.1,维持 2.1 版本的编辑能力，2.2 侧重于生成能力的突破。