wan 2.1

https://huggingface.co/collections/Wan-AI/wan21

在 Wan 2.1 的开源家族中,这些模型后缀代表了不同的任务逻辑输出规格。根据你提供的列表,我们可以将这些模型划分为四大核心类别:

1. T2V (Text-to-Video) —— 文生视频基座

这是最基础的“无中生有”模型,主要用于将文本描述直接转化为动态画面。

  • 模型含义:用户输入一段 Prompt(如“赛博朋克风格的杭州街头”),模型根据语义理解生成一段全新的视频。
  • 版本差异:提供了 1.3B(轻量级,适合个人显卡尝试)和 14B(旗舰级,画质与语义遵循度更高)两个参数量版本。

2. I2V (Image-to-Video) —— 图生视频

这类模型专门负责“让图片动起来”,在保持原图特征的基础上增加动态效果。

  • 模型含义:输入一张静态图(Image)并配合文字指令,模型会预测图片中物体的运动轨迹。
  • 分辨率规格:列表中的 480P720P 代表了模型原生输出的纵向分辨率。720P 版本生成的画面更清晰、细节更丰富,但对计算资源的要求也更高。

3. FLF2V (First-Last-Frame to Video) —— 首尾帧生成

这是一个非常垂直且强大的补全模型,主要解决视频生成的“可控性”问题。

  • 模型含义:顾名思义,你需要给它视频的第一帧最后一帧,模型会自动“脑补”中间所有的过渡动作,确保视频的开头和结尾完全符合你的预期。
  • 应用场景:它非常适合用于制作循环动画、精准的镜头衔接,或者将两个互不相关的画面平滑地连接在一起。

4. VACE (Video All-in-one Creation Engine) —— 视频全能编辑引擎

这是 Wan 2.1 家族中的“后期专家”,侧重于对已有视频内容的二次加工

  • 模型含义:VACE 并不只是简单的生成,它集成了多种编辑能力,比如:

  • 视频重绘 (Inpainting):抹除或替换视频中的某个特定物体。

  • 风格迁移:在保留动作的同时,改变视频的整体视觉风格。

  • 参数版本:同样提供了 1.3B14B 版本,满足从快速预览到专业级后期制作的不同需求。


总结对照表

模型后缀 全称 核心输入 核心用途
T2V Text-to-Video 纯文字 纯粹的创意生成
I2V Image-to-Video 图片 + 文字 静态图动画化
FLF2V First-Last-Frame to Video 起始图 + 结束图 精准控制启停的视频补全
VACE Video All-in-one Creation Engine 视频/图片 + 指令 视频局部修改与高级编辑

wan 2.2

https://huggingface.co/collections/Wan-AI/wan22
Wan 2.2 相比 2.1 版本,最核心的进化在于引入了 MoE(混合专家模型)架构(体现在模型名中的 A14B)以及针对特定动态生成需求的深度垂直优化。

以下是 Wan 2.2 家族各版本的详细拆解:

1. 核心生成模型(MoE 架构版)

这组模型是 Wan 2.2 的中流砥柱,使用了“高噪专家”与“低噪专家”分工协作的模式,在保持 14B 参数量的同时,大幅提升了画面细节。

  • Wan2.2-T2V-A14B (Text-to-Video)

  • 含义:纯文本驱动的基座模型。

  • 特点:利用 MoE 架构优化了对复杂文本指令的物理模拟(如流体、碰撞等),动态效果比 2.1 版本更加自然、连贯。

  • Wan2.2-I2V-A14B (Image-to-Video)

  • 含义:图片驱动生成视频。

  • 特点:同样采用 MoE 架构,能够更精准地保持原图中的人物面部特征或物体纹理,同时支持更大规模的运镜变化。


2. 跨模态与高级控制模型

这组模型针对当前 AIGC 领域最火热的“数字人”和“动作克隆”任务进行了专门的训练。

  • Wan2.2-S2V-14B (Speech-to-Video)

  • 含义:音频 + 图片驱动的视频生成。

  • 功能:输入一张照片和一段语音,它能生成具有精确口型同步、自然面部表情和身体微动的视频。

  • 研究相关:对于从事 3D 动作生成及跨模态蒸馏研究的人员来说,该模型在视听对齐(Audio-Visual Alignment)上的表现是其核心竞争力。

  • Wan2.2-Animate-14B (Video-to-Video)

  • 含义:视频驱动的动作迁移模型。

  • 功能:你可以给它一段舞蹈视频作为“动作参考”,再给它一张新照片作为“目标角色”,它能让照片里的人完美复刻视频里的动作。

  • 区别:它比普通的 I2V 更强调对“动作序列”的保持,是制作高质量动画和虚拟偶像的核心工具。


3. 高效能混合版

  • Wan2.2-TI2V-5B (Text-Image-to-Video)
  • 含义:文本与图片双重驱动的中量级模型。
  • 定位:5B 的参数量在生成质量与计算效率间取得了极佳的平衡。
  • 区别:它被设计为同时接收文本和图像输入(TI2V),非常适合需要“既要图片长相一致,又要文字指令精准控制动作”的场景,且能够在主流消费级显卡(如 24G 显存)上流畅运行。

总结:Wan 2.2 的升级逻辑

模型标识 核心进化点 适用场景
A14B (MoE) 高低噪专家协作,画质上限更高 追求电影级质感的文生/图生视频
S2V 语音与视觉的强对齐 数字人播报、歌唱视频生成
Animate 复杂的时序动作克隆 角色动画制作、动作迁移
5B (TI2V) 轻量化 + 多模态混合控制 个人创作者、快速迭代的工作流

简单来说,Wan 2.2 不再只是一个“会画画”的模型,它已经演变成了一个会说话(S2V)、会演戏(Animate)、且更聪明的(MoE)全能制作团队。对于正在探索 VLM 和 VLA 方向的研究者而言,2.2 版本的这些跨模态控制能力是非常有参考价值的工业级实现。

变化类型,具体表现,真实目的
重构升级,T2V/I2V → A14B 系列,引入 MoE 架构,提升画面物理特性。
战略新增,S2V、Animate,攻克数字人口型与精准动作迁移。
任务合并,TI2V-5B 出现,尝试用一个模型同时处理图+文两种控制信号。
暂时保留,VACE、FLF2V 停留在 2.1,维持 2.1 版本的编辑能力,2.2 侧重于生成能力的突破。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐