美团开源的数字人视频生成框架 LongCat-Video-Avatar 刚刚更新到 1.5 版本。

图片

是真能用。

这版更新把音频编码器换了,推理步数砍到8步,在770人、13240条主观评分的大规模评测里,雷达图面积全面领先。

图片

音频编码器换血,8步出图

LongCat-Video-Avatar 1.5 建立在 LongCat-Video 基础模型之上,第一件事就是把音频编码器从 Wav2Vec2 换成了 Whisper-Large。

这个替换让唇形动态明显更平滑、更自然。

做过数字人视频的人都知道,唇形同步是最容易穿帮的地方,嘴皮子跟音频对不上,观众一秒出戏。

Whisper-Large 本身在语音识别领域已经是标杆级模型,对音频时序信息的捕捉更细腻,迁移到视频生成任务里,唇形精度自然跟着上来。

第二件事,推理加速。v1.5 采用 DMD2(Distribution Matching Distillation 2)做步数蒸馏,把推理压到 8 NFE(Neural Function Evaluations)。

原来动辄几十步的去噪过程,现在8步搞定。推理成本下来了,视觉保真度没怎么掉。

对商业部署来说,推理速度和生成质量之间的平衡,直接决定能不能上线。8步推理让 LongCat-Video-Avatar 1.5 在服务端部署时更灵活,成本更可控。

原生支持的任务包括 AT2V(Audio-Text-to-Video,音频文本转视频)、ATI2V(Audio-Text-Image-to-Video,音频文本图像转视频)和视频续写,同时兼容单流和多流音频输入。

覆盖的场景也很广:新闻播报、表演、唱歌、电商营销、多人对话、动画角色、动物角色,基本把数字人视频的主流需求都包了。

有一个很关键的点:风格泛化。v1.5 不只在真人场景稳,对动漫、动物、多人交互、手持物体等复杂条件也能扛住。

一个模型打通多种风格,商用时不用为不同风格各训一套,部署成本进一步降低。

770人打分,性能全面领先

LongCat-Video-Avatar 1.5 基于 EvalTalker 构建了一套综合评测基准,覆盖新闻、教育、娱乐、商业等场景,按音频维度(语速、情绪)和视觉维度(人数、姿态、遮挡)设置不同难度。770名评估者完成了13240条主观评分,另有10名领域专家做结构化质量分析。

图片

雷达图面积全面领先。

具体看四个维度,物理合理性、时间稳定性、身份一致性、音视频协调性,LongCat-Video-Avatar 1.5 的雷达图面积在所有对比模型中处于领先水平,各维度表现更均衡。没有明显短板,这对商用来说比单点突出更重要。

用户偏好方面,数据更有说服力。

图片

对比 Kling Avatar 2.0,胜率 65.9%;对比 OmniHuman-1.5,胜率 61.1%;对比 HeyGen,胜率 54.3%。三个对手都是当前市场上能打的商业系统,LongCat-Video-Avatar 1.5 全部胜出。

数字人视频的难点其实分层。单人场景是基本功,多人场景是分水岭。

图片

单人场景,LongCat-Video-Avatar 1.5 得分 3.336,显著高于 HeyGen、OmniHuman-1.5 等产品。单人场景比的是自然度和真实感,嘴形对不对、表情自不自然、动作顺不顺,观众一眼就能看出来。3.336 这个分数说明基础体验已经站稳。

多人场景更考验模型的区分能力。谁在说话、谁在听、各自的动作和表情该怎么配合。LongCat-Video-Avatar 1.5 多人场景得分 2.730,大幅领先 InfiniteTalk 的 2.339。差距主要来自说话者和聆听者的区分,多人交互时谁该动、谁该静,模型判断更准确,画面才不会显得乱。

数字人视频最常见的翻车场景人变形、背景变形、画面跳帧,LongCat-Video-Avatar 1.5 在这些硬指标上也非常优异。

主体变形问题率 23.1%,低于所有对比模型。背景变形问题率 9.4%,同样保持在低水平。背景变形是长视频生成里的老问题,随着帧数增加,背景容易出现扭曲、闪烁、色偏,v1.5 把这个问题压到了个位数百分比。

跳帧问题率 0.8%,所有对比模型中最低。跳帧就是画面突然跳一下,像卡顿又不像卡顿,看起来很不舒服。0.8% 意味着在长视频连续生成中,画面流畅性得到了很好的保障,色调误差累积也控制得不错。

音视频协调方面,面部与身体同步问题率 5.1%,唇形同步问题率 29.8%,两项均低于其他对比模型。29.8% 的唇形同步问题率看着不低,但在当前技术水平下已经是最低值,说明音频、唇形、表情、动作的整体协同在 v1.5 上更自然。

唇形同步本身是数字人视频最难啃的骨头,全行业都在这个区间,LongCat-Video-Avatar 1.5 已经走在了最前面。

LongCat-Video-Avatar 1.5 在效率提升的同时,没让生成质量打折。

单人场景自然度和真实感保持 SOTA,多人互动、长时序稳定性、物理合理性、音视频协调性这些商用关键维度上,v1.5 也展现出更强的潜力。

官方还贴心给开发者们贴出了使用技巧:

这么好的免费本地数字人,又能省一笔Token费了。

参考资料:

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

https://github.com/meituan-longcat/LongCat-Video

https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐