【论文阅读】Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

萌新一个啥都不会

282人浏览 · 2026-05-21 15:41:46

萌新一个啥都不会 · 2026-05-21 15:41:46 发布

快速了解部分

基础信息（英文）：

1.题目: Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
2.时间: 2025.10
3.机构: EPFL
4.3个英文关键词: Video Generation, Diffusion Transformer (DiT), Error Accumulation

1句话通俗总结本文干了什么事情

本文提出了一种名为 Stable Video Infinity (SVI) 的方法，通过“循环利用”模型自己犯的错误来训练视频生成模型，从而实现无限长度、高质量且画面连贯的视频生成。

研究痛点：现有研究不足 / 要解决的具体问题

现有长视频生成方法在生成长视频时会出现“画面漂移”（Drifting）和质量下降，这是因为模型在训练时只见过完美的干净数据，但在生成视频（测试）时却必须基于自己上一步生成的、带有瑕疵的画面进行预测，这种“训练与测试的假设不一致”导致错误不断累积放大。

核心方法：关键技术、模型或研究设计（简要）

提出 Error-Recycling Fine-Tuning (ERFT)，即在训练时故意将模型过去生成的错误（如模糊、色偏）重新注入到干净的训练数据中，让模型学会如何识别并纠正这些自己犯下的错误，从而适应无限长度的自回归生成。

深入了解部分

作者想要表达什么

作者认为解决长视频生成的核心不在于如何“避免”错误，而在于如何让模型学会“容忍并纠正”自己犯下的错误。通过打破“训练数据必须完美”的假设，让模型在训练时就习惯处理带有自身瑕疵的画面，从而在推理时能实现无限长度的稳定生成。

相比前人创新在哪里

前人工作多关注于修改采样器、增加锚点帧或调整噪声调度来“缓解”错误累积，这只能治标；本文创新在于直接针对“训练-测试假设不一致”这一根本病因，通过“错误循环利用”让模型具备了主动“修复”自身错误的能力，且不增加推理成本，支持无限长度。

解决方法/算法的通俗解释

这就像是教一个学画画的学生。传统方法是只让他临摹大师的完美作品（训练），但他一旦自己创作（测试）出现笔误就无法收场。本文的方法是在训练时，故意在他画错的画上继续让他练习，或者把他的常见错误（如画歪的眼睛）P到新的画纸上让他重画，逼着他学会如何修正错误，从而成为一个能独立完成长篇巨作的画家。

解决方法的具体做法

错误注入：在训练阶段，随机将模型过去生成的错误（存放在 Replay Memory 中）叠加到当前的干净视频帧、噪声和参考图上。
双向误差计算：通过单步积分快速估算模型在错误干扰下的预测偏差。
动态存储与采样：建立一个错误回放缓冲区，动态存储不同时间步的错误，并在训练时随机采样注入，模拟长期累积的复杂错误。
LoRA微调：仅使用 LoRA 对 DiT 模型进行微调，预测“错误回收后的速度”，使模型指向干净的潜在变量。

基于前人的哪些方法

基于 Video Diffusion Transformer (DiT) 架构；利用了 Flow Matching (流匹配) 理论；借鉴了 Federated Learning (联邦学习) 中的思路用于错误缓冲区的更新；兼容并扩展了现有的条件控制方法（如 Audio, Skeleton control）。

实验设置、数据、评估方式、结论

设置：建立了三个基准测试（一致性生成、创意生成、多模态条件生成），包含50秒至250秒的超长视频。
数据：使用了 MixKit, Hallo 3, TikTok 等数据集进行微调（数据量较小，约300-6k视频）。
评估：使用 Vbench++ 的6项核心指标（主题一致性、背景一致性、美学质量等）及特定指标（Sync-C, FVD）。
结论：SVI 在保持高质量和高动态性的同时，显著优于 Wan 2.1、StreamingT2V 等 SOTA 方法，实现了无限长度生成且无明显质量下降。