【AIGC】Wan开源系列模型说明
wan 2.1
https://huggingface.co/collections/Wan-AI/wan21
在 Wan 2.1 的开源家族中,这些模型后缀代表了不同的任务逻辑和输出规格。根据你提供的列表,我们可以将这些模型划分为四大核心类别:
1. T2V (Text-to-Video) —— 文生视频基座
这是最基础的“无中生有”模型,主要用于将文本描述直接转化为动态画面。
- 模型含义:用户输入一段 Prompt(如“赛博朋克风格的杭州街头”),模型根据语义理解生成一段全新的视频。
- 版本差异:提供了 1.3B(轻量级,适合个人显卡尝试)和 14B(旗舰级,画质与语义遵循度更高)两个参数量版本。
2. I2V (Image-to-Video) —— 图生视频
这类模型专门负责“让图片动起来”,在保持原图特征的基础上增加动态效果。
- 模型含义:输入一张静态图(Image)并配合文字指令,模型会预测图片中物体的运动轨迹。
- 分辨率规格:列表中的 480P 和 720P 代表了模型原生输出的纵向分辨率。720P 版本生成的画面更清晰、细节更丰富,但对计算资源的要求也更高。
3. FLF2V (First-Last-Frame to Video) —— 首尾帧生成
这是一个非常垂直且强大的补全模型,主要解决视频生成的“可控性”问题。
- 模型含义:顾名思义,你需要给它视频的第一帧和最后一帧,模型会自动“脑补”中间所有的过渡动作,确保视频的开头和结尾完全符合你的预期。
- 应用场景:它非常适合用于制作循环动画、精准的镜头衔接,或者将两个互不相关的画面平滑地连接在一起。
4. VACE (Video All-in-one Creation Engine) —— 视频全能编辑引擎
这是 Wan 2.1 家族中的“后期专家”,侧重于对已有视频内容的二次加工。
-
模型含义:VACE 并不只是简单的生成,它集成了多种编辑能力,比如:
-
视频重绘 (Inpainting):抹除或替换视频中的某个特定物体。
-
风格迁移:在保留动作的同时,改变视频的整体视觉风格。
-
参数版本:同样提供了 1.3B 和 14B 版本,满足从快速预览到专业级后期制作的不同需求。
总结对照表
| 模型后缀 | 全称 | 核心输入 | 核心用途 |
|---|---|---|---|
| T2V | Text-to-Video | 纯文字 | 纯粹的创意生成 |
| I2V | Image-to-Video | 图片 + 文字 | 静态图动画化 |
| FLF2V | First-Last-Frame to Video | 起始图 + 结束图 | 精准控制启停的视频补全 |
| VACE | Video All-in-one Creation Engine | 视频/图片 + 指令 | 视频局部修改与高级编辑 |
wan 2.2
https://huggingface.co/collections/Wan-AI/wan22
Wan 2.2 相比 2.1 版本,最核心的进化在于引入了 MoE(混合专家模型)架构(体现在模型名中的 A14B)以及针对特定动态生成需求的深度垂直优化。
以下是 Wan 2.2 家族各版本的详细拆解:
1. 核心生成模型(MoE 架构版)
这组模型是 Wan 2.2 的中流砥柱,使用了“高噪专家”与“低噪专家”分工协作的模式,在保持 14B 参数量的同时,大幅提升了画面细节。
-
Wan2.2-T2V-A14B (Text-to-Video)
-
含义:纯文本驱动的基座模型。
-
特点:利用 MoE 架构优化了对复杂文本指令的物理模拟(如流体、碰撞等),动态效果比 2.1 版本更加自然、连贯。
-
Wan2.2-I2V-A14B (Image-to-Video)
-
含义:图片驱动生成视频。
-
特点:同样采用 MoE 架构,能够更精准地保持原图中的人物面部特征或物体纹理,同时支持更大规模的运镜变化。
2. 跨模态与高级控制模型
这组模型针对当前 AIGC 领域最火热的“数字人”和“动作克隆”任务进行了专门的训练。
-
Wan2.2-S2V-14B (Speech-to-Video)
-
含义:音频 + 图片驱动的视频生成。
-
功能:输入一张照片和一段语音,它能生成具有精确口型同步、自然面部表情和身体微动的视频。
-
研究相关:对于从事 3D 动作生成及跨模态蒸馏研究的人员来说,该模型在视听对齐(Audio-Visual Alignment)上的表现是其核心竞争力。
-
Wan2.2-Animate-14B (Video-to-Video)
-
含义:视频驱动的动作迁移模型。
-
功能:你可以给它一段舞蹈视频作为“动作参考”,再给它一张新照片作为“目标角色”,它能让照片里的人完美复刻视频里的动作。
-
区别:它比普通的 I2V 更强调对“动作序列”的保持,是制作高质量动画和虚拟偶像的核心工具。
3. 高效能混合版
- Wan2.2-TI2V-5B (Text-Image-to-Video)
- 含义:文本与图片双重驱动的中量级模型。
- 定位:5B 的参数量在生成质量与计算效率间取得了极佳的平衡。
- 区别:它被设计为同时接收文本和图像输入(TI2V),非常适合需要“既要图片长相一致,又要文字指令精准控制动作”的场景,且能够在主流消费级显卡(如 24G 显存)上流畅运行。
总结:Wan 2.2 的升级逻辑
| 模型标识 | 核心进化点 | 适用场景 |
|---|---|---|
| A14B (MoE) | 高低噪专家协作,画质上限更高 | 追求电影级质感的文生/图生视频 |
| S2V | 语音与视觉的强对齐 | 数字人播报、歌唱视频生成 |
| Animate | 复杂的时序动作克隆 | 角色动画制作、动作迁移 |
| 5B (TI2V) | 轻量化 + 多模态混合控制 | 个人创作者、快速迭代的工作流 |
简单来说,Wan 2.2 不再只是一个“会画画”的模型,它已经演变成了一个会说话(S2V)、会演戏(Animate)、且更聪明的(MoE)全能制作团队。对于正在探索 VLM 和 VLA 方向的研究者而言,2.2 版本的这些跨模态控制能力是非常有参考价值的工业级实现。
变化类型,具体表现,真实目的
重构升级,T2V/I2V → A14B 系列,引入 MoE 架构,提升画面物理特性。
战略新增,S2V、Animate,攻克数字人口型与精准动作迁移。
任务合并,TI2V-5B 出现,尝试用一个模型同时处理图+文两种控制信号。
暂时保留,VACE、FLF2V 停留在 2.1,维持 2.1 版本的编辑能力,2.2 侧重于生成能力的突破。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)