真可用！美团数字人模型开源，MV、电商等统统拿下

SuaniCommunity

414人浏览 · 2026-05-25 12:20:46

SuaniCommunity · 2026-05-25 12:20:46 发布

美团开源的数字人视频生成框架 LongCat-Video-Avatar 刚刚更新到 1.5 版本。

是真能用。

这版更新把音频编码器换了，推理步数砍到8步，在770人、13240条主观评分的大规模评测里，雷达图面积全面领先。

音频编码器换血，8步出图

LongCat-Video-Avatar 1.5 建立在 LongCat-Video 基础模型之上，第一件事就是把音频编码器从 Wav2Vec2 换成了 Whisper-Large。

这个替换让唇形动态明显更平滑、更自然。

做过数字人视频的人都知道，唇形同步是最容易穿帮的地方，嘴皮子跟音频对不上，观众一秒出戏。

Whisper-Large 本身在语音识别领域已经是标杆级模型，对音频时序信息的捕捉更细腻，迁移到视频生成任务里，唇形精度自然跟着上来。

第二件事，推理加速。v1.5 采用 DMD2（Distribution Matching Distillation 2）做步数蒸馏，把推理压到 8 NFE（Neural Function Evaluations）。

原来动辄几十步的去噪过程，现在8步搞定。推理成本下来了，视觉保真度没怎么掉。

对商业部署来说，推理速度和生成质量之间的平衡，直接决定能不能上线。8步推理让 LongCat-Video-Avatar 1.5 在服务端部署时更灵活，成本更可控。

原生支持的任务包括 AT2V（Audio-Text-to-Video，音频文本转视频）、ATI2V（Audio-Text-Image-to-Video，音频文本图像转视频）和视频续写，同时兼容单流和多流音频输入。

覆盖的场景也很广：新闻播报、表演、唱歌、电商营销、多人对话、动画角色、动物角色，基本把数字人视频的主流需求都包了。

有一个很关键的点：风格泛化。v1.5 不只在真人场景稳，对动漫、动物、多人交互、手持物体等复杂条件也能扛住。

一个模型打通多种风格，商用时不用为不同风格各训一套，部署成本进一步降低。

770人打分，性能全面领先

LongCat-Video-Avatar 1.5 基于 EvalTalker 构建了一套综合评测基准，覆盖新闻、教育、娱乐、商业等场景，按音频维度（语速、情绪）和视觉维度（人数、姿态、遮挡）设置不同难度。770名评估者完成了13240条主观评分，另有10名领域专家做结构化质量分析。

雷达图面积全面领先。

具体看四个维度，物理合理性、时间稳定性、身份一致性、音视频协调性，LongCat-Video-Avatar 1.5 的雷达图面积在所有对比模型中处于领先水平，各维度表现更均衡。没有明显短板，这对商用来说比单点突出更重要。

用户偏好方面，数据更有说服力。

对比 Kling Avatar 2.0，胜率 65.9%；对比 OmniHuman-1.5，胜率 61.1%；对比 HeyGen，胜率 54.3%。三个对手都是当前市场上能打的商业系统，LongCat-Video-Avatar 1.5 全部胜出。

数字人视频的难点其实分层。单人场景是基本功，多人场景是分水岭。

单人场景，LongCat-Video-Avatar 1.5 得分 3.336，显著高于 HeyGen、OmniHuman-1.5 等产品。单人场景比的是自然度和真实感，嘴形对不对、表情自不自然、动作顺不顺，观众一眼就能看出来。3.336 这个分数说明基础体验已经站稳。

多人场景更考验模型的区分能力。谁在说话、谁在听、各自的动作和表情该怎么配合。LongCat-Video-Avatar 1.5 多人场景得分 2.730，大幅领先 InfiniteTalk 的 2.339。差距主要来自说话者和聆听者的区分，多人交互时谁该动、谁该静，模型判断更准确，画面才不会显得乱。

数字人视频最常见的翻车场景人变形、背景变形、画面跳帧，LongCat-Video-Avatar 1.5 在这些硬指标上也非常优异。

主体变形问题率 23.1%，低于所有对比模型。背景变形问题率 9.4%，同样保持在低水平。背景变形是长视频生成里的老问题，随着帧数增加，背景容易出现扭曲、闪烁、色偏，v1.5 把这个问题压到了个位数百分比。

跳帧问题率 0.8%，所有对比模型中最低。跳帧就是画面突然跳一下，像卡顿又不像卡顿，看起来很不舒服。0.8% 意味着在长视频连续生成中，画面流畅性得到了很好的保障，色调误差累积也控制得不错。

音视频协调方面，面部与身体同步问题率 5.1%，唇形同步问题率 29.8%，两项均低于其他对比模型。29.8% 的唇形同步问题率看着不低，但在当前技术水平下已经是最低值，说明音频、唇形、表情、动作的整体协同在 v1.5 上更自然。

唇形同步本身是数字人视频最难啃的骨头，全行业都在这个区间，LongCat-Video-Avatar 1.5 已经走在了最前面。

LongCat-Video-Avatar 1.5 在效率提升的同时，没让生成质量打折。

单人场景自然度和真实感保持 SOTA，多人互动、长时序稳定性、物理合理性、音视频协调性这些商用关键维度上，v1.5 也展现出更强的潜力。

官方还贴心给开发者们贴出了使用技巧：

这么好的免费本地数字人，又能省一笔Token费了。

参考资料：

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

https://github.com/meituan-longcat/LongCat-Video

https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Grok实时热点分析实战：用AI抓取行业动态，辅助技术决策

AtomGit开源社区

【顶刊复现】配电网两阶段鲁棒故障恢复研究（Matlab代码实现)

面向高比例分布式电源深度渗透背景下主动配电网故障恢复的强不确定性、弱可观性、高风险性难题，本文提出一种保守性可调、求解高效、工程适用的两阶段鲁棒故障恢复优化方法。该方法以区间型多面体不确定集统一刻画分布式电源出力间歇性、负荷需求时变性以及负荷估计误差带来的多重不确定性，完全摆脱对概率分布、模糊隶属函数等难以获取的先验信息依赖。模型采用两阶段嵌套决策架构：第一阶段以最大化停电区域负荷恢复总量为目标，