Sora发布后,视频扩散模型彻底火出圈了。很多研究者都想跟进,但一上手就发现这坑比图像扩散深多了。为什么视频生成比图像难?主要是时序一致性这道坎——不仅要保证单帧质量,还得让帧与帧之间流畅衔接、动作自然连贯,长视频更是难上加难。另外计算量爆炸式增长,128帧视频的token量是单张图的几十倍,显存和推理速度都是拦路虎。

想在这个方向发paper,创新切入点挺多的。时序建模是核心——3D U-Net、空时注意力、时序注意力这些模块怎么组合直接影响效果;高效采样也是热门赛道,Diffusion Transformer架构(DiT)替代传统U-Net后成为新主流;可控生成比如根据文本、动作序列、深度图等条件控制视频内容,实用性很强。审稿人现在特别关注时序连贯性生成效率,纯刷指标的论文越来越难中,最好能解决实际应用痛点。

为帮助更高效切入这个方向,整理了该方向核心baseline的复现教程 + 改进注释版代码,改几行就能跑自己的实验,含详细注释,需要可取~

标题: VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

  • 关键词: 视频蒸馏, 3D场景生成, 一步生成, 稀疏视图重建, 扩散模型

  • 单位: 清华大学

  • 方法:
    • 该论文针对现有视频扩散模型在从稀疏视图生成3D场景时,存在推理速度慢和缺乏3D几何约束的问题,提出了名为 VideoScene 的单步生成框架。其核心工作原理是:首先利用一个快速的前馈式3DGS模型(MVSplat)从两张输入图像生成一个粗糙但具备3D一致性的视频作为先验;然后,通过一种创新的“3D感知跨越流蒸馏”策略,直接跳过从纯噪声开始的低效去噪阶段,将一个预训练的视频扩散模型蒸明为一个单步即可将粗糙视频优化为高质量、3D一致性视频的生成器。

  • 创新点:

  1. 提出了 VideoScene,一个新颖的视频蒸馏框架,将视频扩散模型提炼为单步3D场景生成器,实现了高效生成。

  2. 创新地设计了 3D感知跨越流蒸馏 (3D-aware leap flow distillation) 策略,通过引入3D几何先验,有效解决了从纯噪声开始去噪所带来的信息冗余和耗时问题。

  3. 构建了 **动态去噪策略网络 (DDPNet)**,利用上下文赌博算法(contextual bandit)自适应地决定最优的去噪起始步长,从而在效率和质量间取得平衡。

  4. 首次将快速前馈式3D重建与视频扩散模型蒸馏相结合,实验验证了该方法在生成速度和3D结构一致性上均优于现有方法。

关键公式: 论文提出的3D感知跨越流蒸馏损失函数如下,其中 x_r 代表由3DGS模型渲染出的粗糙视频隐变量,模型的目标是基于此进行单步优化。


标题: Video Diffusion Models: A Survey

  • 关键词: 视频扩散模型, 综述, 文本到视频, 时间一致性, 模型架构

  • 单位: 比勒费尔德大学, 不列颠哥伦比亚大学

  • 方法:
    • 该论文针对视频扩散模型领域发展迅速、模型和应用层出不穷,导致缺乏系统性梳理的现状,提供了一篇全面的 综述。文章的核心工作是构建了一个清晰的知识框架:首先,基于输入模态(文本、图像、视频、音频等)对现有应用进行分类;接着,深入剖析了视频扩散模型的关键组成部分,包括核心架构(如UNet、Transformer)、时间动态建模机制以及训练和评估范式;最后,系统性地总结了该领域的关键挑战与未来发展方向。

  • 创新点:

  1. 构建了一个基于输入模态的 应用分类法 (Taxonomy of Applications),系统地梳理了从文本到视频、图像到视频、视频编辑等多样化的应用场景。

  2. 深入剖析了视频扩散模型的 关键技术组件,特别是模型架构和时间动态建模机制(如时空注意力),清晰地阐述了该领域的核心技术路径。

  3. 首次全面总结了该领域的 训练与评估体系,涵盖了主流的训练策略(如从零训练、联合训练、预训练-微调)和评估基准(数据集与指标),为后续研究提供了参考。

  4. 系统性地指出了当前领域面临的 核心挑战(如长视频生成、时间一致性、计算成本)并展望了未来方向(如流匹配模型),为领域发展提供了前瞻性洞察。

关键公式: 该综述回顾了扩散模型的数学基础,其中,DDPM(去噪扩散概率模型)的简化损失函数是该领域最核心和广泛使用的训练目标之一。

为帮助更高效切入这个方向,整理了该方向核心baseline的复现教程 + 改进注释版代码,改几行就能跑自己的实验,含详细注释,需要可取~

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐