(ICLR-2026)LONGLIVE:实时交互式长视频生成
LONGLIVE:实时交互式长视频生成
paper title:LONGLIVE: REAL-TIME INTERACTIVE LONG VIDEO GENERATION
paper是NVIDIA发表在ICLR 2026的工作
Code:链接
Abstract
我们提出了 LongLive,一个用于实时和交互式长视频生成的逐帧自回归(AR)框架。长视频生成在效率和质量方面都面临挑战。扩散模型和 Diffusion-Forcing 模型可以生成高质量视频,但由于双向注意力机制,其效率较低。基于因果注意力的 AR 模型支持 KV 缓存以加速推理,但由于长视频训练中的内存问题,在长视频上往往会出现质量下降。此外,除了基于静态提示的生成之外,交互能力(例如流式提示输入)对于动态内容创作至关重要,使用户能够实时引导叙事。这种交互需求显著增加了复杂性,尤其是在提示切换过程中保证视觉一致性和语义连贯性方面。为了解决这些挑战,LongLive 采用了一种因果的逐帧 AR 设计,其中集成了 KV-recache 机制,通过使用新提示刷新缓存状态,实现平滑且一致的切换;提出了 streaming long tuning,以支持长视频训练并对齐训练与推理(train-long–test-long);以及 short window attention,并结合逐帧注意力汇(frame-level attention sink,简称 frame sink),在实现更快生成的同时保持长程一致性。通过这些关键设计,LongLive 仅用 32 个 GPU-days,就将一个 13 亿参数的短视频模型微调至能够生成分钟级视频。在推理阶段,LongLive 在单张 NVIDIA H100 上可达到 20.7 FPS,在短视频和长视频的 VBench 测试中均表现出强劲性能。LongLive 在单张 H100 GPU 上最多支持 240 秒视频生成。此外,LongLive 还支持 INT8 量化推理,仅带来极小的质量损失。代码、模型和演示页面可在 https://github.com/NVlabs/LongLive 获取。

图 1:LONGLIVE 的工作流程。LONGLIVE 接收按顺序输入的用户提示,并实时生成对应的视频,从而实现用户引导的长视频生成。图中展示的 60 秒序列仅为示例,LONGLIVE 在单张 H100 GPU 上最多支持 240 秒的视频生成。
1 INTRODUCTION
长视频生成对于推动创意、教育和影视应用至关重要。相比短视频片段,它能够实现更连贯的叙事、更丰富的场景发展以及更复杂的时间动态。然而,一旦生成过程开始,基于静态提示的生成方式在适应性方面存在限制。用户很难在一步之内构思出高度详细的长文本提示。除了生成长视频本身,在生成过程中进行交互(例如在运行时流式输入提示)能够为自适应内容创作带来新的可能。这种交互式范式使用户能够引导叙事、调整视觉风格或动态引入新元素。因此,交互使长视频生成变得可控。
交互式长视频生成在质量和效率方面都面临挑战。从质量角度来看,在生成过程中切换用户提示时,很难保持平滑、一致且连贯的过渡。即便是视觉风格、运动连续性或场景布局中的细微不匹配,也会破坏叙事流畅性并降低整体真实感。从效率角度来看,计算和内存需求会随着视频长度迅速增长。例如,使用 Wan-2.1(Wan et al., 2025)模型生成一个 180 秒的视频需要处理超过一百万个 token,这在计算上是难以承受的。此外,在交互场景中,过长的用户等待时间会严重降低整体用户体验。
现有的视频生成方法在长视频生成方面存在局限。对于基于扩散的视频生成模型(Wan et al., 2025;Kong et al., 2024;Yang et al., 2025;Wei et al., 2025;OpenAI, 2024;Kuaishou, 2024)以及 diffusion-forcing 模型(Chen et al., 2024a;2025a;Zhang & Agrawala, 2025),尽管它们可以生成高质量的短视频片段,但由于依赖双向注意力机制,推理效率较低。双向注意力机制无法利用 KV(key–value)缓存技术,从而导致冗余计算和在长视频场景下难以接受的延迟。例如,SkyReels-V2(Chen et al., 2025a)在一张 H100 GPU 上生成 60 秒视频大约需要 50 分钟。对于采用因果注意力的自回归(AR)模型,虽然可以利用缓存的 KV 状态实现更快的推理,但在生成长视频时通常会出现质量下降。由于直接在长视频上训练成本高昂,现有 AR 模型(Huang et al., 2025;Teng et al., 2025)通常采用 train-short-test-long 策略。因此,随着视频长度增加,生成质量会逐渐下降。在涉及提示切换的交互场景中,误差累积以及时间一致性的丧失还会进一步导致视觉伪影和不一致。
在本文中,我们提出了 LONGLIVE,一个实时交互式长视频生成框架,如图 1 所示。LONGLIVE 是一种基于因果注意力的逐帧自回归视频生成模型,使其能够继承 KV 缓存机制以实现高效推理。我们的关键设计是 KV-recache(如图 2 所示),通过引入新的提示嵌入来更新缓存状态。该技术在交互场景中的提示切换过程中同时保证了平滑性和对提示的遵循。此外,为了实现高效微调,我们提出了 streaming long tuning 策略,在训练与推理之间保持一致性(train-long-test-long),以解决长视频 AR 生成中常见的退化问题。为了实现高效推理,我们引入了 short window attention,并结合逐帧注意力汇(frame-level attention sink,简称 frame sink),在显著加速推理的同时保持性能。

图 2:LONGLIVE 的框架。(左)LONGLIVE 处理按顺序输入的用户提示,并通过高效的短窗口注意力(short window attention)和帧汇(frame sink)生成对应的长视频。相比于常规 5 秒的注意力窗口,我们的短窗口仅使用其一半大小,并在帧汇的辅助下保持长程一致性。(右)为在提示切换时保持一致性,LONGLIVE 采用 KV-recache 技术,通过跨注意力层将先前视频与新的提示嵌入相结合,从而更新缓存的键值(key–value)状态。
在实验中,LONGLIVE 在交互式长视频生成任务中同时实现了高效率和高质量。在训练效率方面,我们仅用 32 个 GPU-days,就将一个 13 亿参数模型微调至能够生成高质量的分钟级视频。在长视频上训练至关重要:它不仅提升了长时范围的保真度,还使得能够采用显著加速解码的高效推理策略。在推理效率方面,LONGLIVE 在单张 NVIDIA H100 上可达到 20.7 FPS,支持实时交互,并在吞吐量上优于当前最先进方法。在质量方面,我们的方法在短视频和长视频设置下均取得了优异的 VBench 分数。LONGLIVE 在单张 H100 GPU 上可扩展生成最长 240 秒的视频,同时保持高视觉保真度和时间一致性,有效应对长视频生成中的退化问题。此外,我们还在 LONGLIVE 中支持 INT8 量化推理,仅带来极小的质量损失,详见附录 G。
2 RELATED WORK
我们在此介绍核心相关工作,并在附录 D 中提供更为详细的扩展讨论。越来越多的研究工作(Chen et al., 2024a;Song et al., 2025;Mao et al., 2025;Yuan et al., 2025;Zhang & Agrawala, 2025;Gao et al., 2025;Henschel et al., 2025;Gao et al., 2025)将扩散建模与自回归(AR)预测相结合,形成了一种介于纯扩散方法与纯 AR 方法之间的中间范式。SkyReels-V2(Chen et al., 2025a)将 diffusion forcing 与影片结构规划器以及多模态控制相结合。近期的一些工作(Yin et al., 2025;Huang et al., 2025;Gu et al., 2025;Teng et al., 2025)推动了基于因果自回归的长视频生成模型的发展。StreamDiT(Kodaira et al., 2025)通过窗口注意力训练扩散模型,但在长序列生成中可能出现漂移或细节丢失。最新的 Self-forcing(Huang et al., 2025)通过在训练过程中模拟推理条件、结合 KV 缓存进行滚动生成并以模型输出作为条件,来缓解 AR 视频扩散中的训练—测试不一致问题。MAGI-1(Teng et al., 2025)通过分块预测将 AR 视频生成扩展到大规模模型和数据集,但其提示切换需要在不同阶段手动调整 KV 缓存窗口。
3 METHOD
3.1 KV RECACHE
因果自回归(AR)模型天然支持交互式提示切换,但这种能力存在局限。在切换时丢弃所有先前的 KV 缓存可以提高对新提示的遵循程度,但会引入突兀的视觉变化和时间不连续性,如图 3(a)所示。相反,保留完整的 KV 缓存通常会阻碍模型遵循新提示,或者只能在延迟之后逐渐适应新提示,因为缓存中充满了来自先前提示的信息,如图 3(b)所示。基于这一观察,我们首先分析了为何提示切换对流式视频生成器而言是困难的。在 DiT(Peebles & Xie, 2023)架构中,交叉注意力层与自注意力层交替出现。在生成过程中,大量来自先前提示的信息通过交叉注意力层不断注入,并通过自注意力向前传播,使得这些提示信号被写入持续更新的 KV 缓存中。因此,当提示发生切换时,模型的缓存中仍然保留着旧提示的残余语义,在某些情况下会导致对新提示的遵循不一致。

图 3:不同 KV 缓存策略下的提示切换效果。(a)无 KV 缓存:新提示能够生效,但过渡突兀且视觉不一致。(b)使用 KV 缓存:连续性平滑,但无法遵循新提示(存在延迟或忽略)。(c)KV 重新缓存:在实现平滑且视觉一致的过渡的同时,完全遵循新提示。
为了解决这一问题,我们引入了 KV recache。在提示切换边界处,我们利用已经生成的帧和新的提示重新计算 KV 缓存,从而在保留保证时间连续性的运动和视觉线索的同时,有效清除先前提示的残余信息。具体而言,在切换后的第一帧,我们将已生成的视频前缀编码为视觉上下文,并与新的提示配对以重建缓存;随后步骤则基于这个更新后的缓存正常进行。通过这种方式,缓存保留了当前视频的视觉状态,而提示语义则与当前激活的提示保持一致,从而在避免视觉不连续的同时,实现更好的语义对齐。
为了确保训练与推理的一致性,我们将重新缓存(recache)操作集成到训练循环中(图 4)。当一次训练迭代包含提示切换时,我们(i)执行一次 recache,(ii)使用更新后的缓存继续展开生成,(iii)在蒸馏过程中,也将新提示输入教师模型,从而使学生模型在与推理时完全一致的切换后条件下进行监督。这种训练方案进一步消除了训练与推理之间的不匹配。因此,采用 recache 训练的模型在推理时既表现出较强的时间平滑性,又能快速在语义上收敛到下一个提示,如图 3(c)所示。在效率方面,每个训练样本仅调用一次 recache,因此额外开销很小;对于一个包含单次切换的 10 秒视频,相比不使用 recache,时间开销仅增加约 6%。
此外,尽管训练中每个长序列只包含一次提示切换,该机制在推理阶段仍具有良好的泛化能力。模型通过在每个切换边界执行一次 recache,支持包含多次提示切换的交互式推理。给定 n + 1 n + 1 n+1 个提示和 n n n 个切换点,生成器以因果方式展开,在每次切换时应用 KV 重新缓存,并在保持平滑过渡的同时,持续生成与当前激活提示在语义上对齐的帧。该过程的详细说明见附录算法 2。
3.2 STREAMING LONG TUNING
LongLive 建立在因果式、帧级自回归(AR)视频生成器之上。这些模型只在短视频片段上进行训练。在推理时,它们通过一个滚动的、固定长度的上下文窗口来生成长视频,该窗口会反复将模型自身的输出重新喂给模型。随着生成过程持续进行,微小的预测误差会不断累积,窗口内的上下文会逐渐变得更加嘈杂,因此模型实际上是在一个不断退化的、自生成的历史上进行条件生成。由于这种长程的、自生成的上下文在训练中并不存在,这种 train-short–test-long 的范式会导致内容漂移,并破坏长时间跨度上的一致性。为了解决这种不匹配,我们提出了一种 train-long–test-long 策略。在训练期间,模型通过以自身不完美的预测作为条件来合成长序列,并在整个展开过程中施加监督。这样一来,模型在训练时就已经接触到扩展的、自生成的、并且逐步退化的帧,从而使训练与推理保持一致,减轻误差累积,提高保真度和一致性。
自监督(Huang et al., 2025)方法能够避免收集大规模长视频数据集。它不需要真实视频数据:一个预训练教师模型提供合成监督,引导学生模型去匹配教师的输出分布。然而,这种方法会带来两个实际挑战。第一,教师模型本身通常也是在短视频片段上训练的,因此无法可靠地对整个长序列进行端到端监督。第二,直接对长序列进行朴素展开并反向传播,很容易触发显存溢出(OOM)问题,而且计算上也很浪费。
为了解决这两个挑战,我们引入了一种流式长程调优过程(图 4),它能够在长视频上学习,同时保持内存占用和监督信号都局部且可靠。在第一次迭代中,生成器从零开始采样一个短视频片段(例如 5 秒),我们在这个短片段上应用 DMD(Yin et al., 2024b;a)。在后续迭代中,生成器在前一次迭代得到的短片段基础上继续延长,并在之前保存的 KV cache 条件下生成下一个短片段;然后我们再次只对这个新生成的片段应用 DMD。我们重复这种滚动式扩展,直到视频达到预设的最大长度,随后取一个新的 batch,并从头重新开始。这样的调度方式模拟了推理时的展开过程,因此减少了训练—测试不一致。在每次迭代中,教师模型只为当前短片段提供可靠监督(因为这是它擅长的范围),而这些按片段施加的监督汇集起来,就为整个序列提供了全局引导。在实践中,我们会将已经生成的帧做 detach,使它们作为恒定的因果上下文。梯度只针对当前生成的片段进行计算。因此,显存使用量受限于片段时长,从而避免 OOM。该过程的详细示意见附录算法 1。

图4:流式长程调优流程。(a)短程调优:仅对 5 秒片段施加监督,类似于 Self-Forcing(Huang et al., 2025),这会导致长视频上的质量下降。(b)朴素长程调优:直接将训练扩展到长序列会导致教师监督不正确以及 OOM。(c)流式长程调优:我们的方法通过在每次迭代中复用历史 KV cache 来训练长序列,用其生成下一个 5 秒片段,然后再用教师模型对该片段进行监督。
我们的研究表明,在长视频上进行调优不仅对长视频生成性能至关重要,而且还是实现高效长程推理策略的先决条件。这些策略包括窗口注意力(window attention)和帧汇聚(frame sink),它们能够显著提升推理速度。
3.3 EFFICIENT LONG INFERENCE
短窗口注意力 在长视频生成中,稠密因果注意力的计算成本随序列长度呈二次方增长,导致在长视频上的朴素推理代价高得难以承受。受视频生成中时间局部性证据的启发——相邻帧对预测下一帧的贡献更大(Gu et al., 2025; Zhang & Agrawala, 2025)——我们在推理和流式调优过程中采用局部窗口注意力。将注意力限制在固定的时间窗口内,可同时降低计算量和内存占用。注意力复杂度变得与窗口大小成正比,而非随不断增长的序列长度增加;每层所需的KV缓存随窗口大小缩放,而非整个视频长度。然而,窗口大小引入了质量与效率之间的权衡。我们使用不同的注意力窗口设置生成20秒视频,如图5的第一行和第二行所示。更大的窗口保留更多时间上下文,产生更强的长程一致性,但会带来更高的延迟和内存开销。缩小窗口以一致性为代价提升效率,因为遥远但关键的线索会从感受野中消失。

图5:在20秒生成视频中,长窗口注意力(窗口21个潜帧)、短窗口注意力(窗口12)以及短窗口+帧汇聚(窗口9+汇聚3)的对比。更短的窗口提升了效率但削弱了长程一致性;添加帧汇聚可在保持效率增益的同时恢复一致性。
帧汇聚 先前工作指出,仅靠 attention-sink token 并不能阻止视频模型在长程展开时发生崩溃(Huang et al., 2025)。相比之下,我们通过实验发现,一旦通过流式长程调优解决了长程展开崩溃问题,attention sink 就会变得有效。作为持久的全局锚点,attention sink 能显著提升长程时间一致性,从而缓解使用短窗口注意力时的质量—效率权衡。如图5第三行所示,在短窗口条件下加入 frame-sink,能够在保持低成本的同时大幅提升长程一致性。具体而言,我们将视频的第一个帧块固定为全局 sink token;这些 token 会永久保留在 KV cache 中,并拼接到每个注意力块的 keys 和 values 上,使得即便在局部窗口注意力下,它们也始终可以被全局关注。KV cache 的其余部分使用一个短的滚动窗口,并按常规方式逐出。在实验中,带有 frame-sink 的短窗口能够在保持长视频高质量的同时,将单张 H100 GPU 上的端到端计算时间降低 28%,将峰值显存降低 17%。
训练与推理之间的一致性 我们将短窗口注意力和 frame sink 集成到流式调优中,以对齐训练—测试行为并提升效率。设局部注意力窗口为 W W W 帧,监督片段长度(来自教师模型)为 T T T 帧。在每个训练步中,我们保留:(i)前序上下文最后 W W W 帧的 KV cache,且不计算梯度;(ii)当前受监督片段的完整 T T T 帧 KV cache,且计算梯度。我们还维护 S S S 个 sink token(即最前面的两帧),它们永不被逐出,并会拼接到每一层的 KV 中,从而始终可被全局关注。因此,每一步常驻的 KV 大小为 O ( W + T + S ) O(W + T + S) O(W+T+S),并且不会随着视频总长度增长,从而避免在超长展开时出现 OOM。这些 sink 有助于稳定身份和场景语义,使我们能够在训练时使用与推理时相同的缩短窗口。对于 KV 的重新缓存,我们只根据最近生成的 W W W 帧重建 cache,这样既能刷新语义、保持局部连续性,又能节省重新缓存的开销。
4 EXPERIMENT
实现 我们基于Wan2.1-T2V-1.3B(Wan et al., 2025)构建LONGLIVE,该模型以16 FPS和832×480分辨率生成5秒的片段。我们首先使用VidProM(Wang & Yang, 2024)数据上的self-forcing(Huang et al., 2025)DMD管道将预训练模型适配为少步因果注意力模型,同时启用我们的短窗口注意力和帧汇聚(我们保留第一个帧块的所有token作为汇聚token)。然后,我们对包含单个提示切换的60秒序列进行流式长调优。为了构建这个切换提示数据集,我们提示Qwen2-72B-Instruct(Yang et al., 2024a)生成基于每个原始VidProM提示的后续提示。在训练期间,每次迭代通过生成下一个5秒视频片段来继续模型自身的展开,直到达到60秒的最大长度;每个批次恰好包含一个提示切换,切换时间从5秒到55秒均匀采样。当发生切换时,我们应用KV重新缓存。在流式长调优期间,我们还保持相同的短窗口注意力和帧汇聚设置。这个训练过程在64块H100 GPU上大约需要12小时。值得注意的是,LONGLIVE支持任何能够通过KV缓存进行自回归展开的模型。我们在线性注意力自回归模型SANA-Video(Chen et al., 2025b)上实现了LONGLIVE,在长视频生成上实现了进一步的加速。
4.1 SHORT VIDEO GENERATION

我们首先使用VBench的官方提示评估LONGLIVE的短视频生成能力,并将其与规模相近的相关开源视频生成模型进行比较,包括LTX-Video (HaCohen et al., 2025)、Wan2.1 (Wan et al., 2025)、SkyReels-V2 (Chen et al., 2025a)、MAGI-1 (Teng et al., 2025)、CausVid (Yin et al., 2025)、NOVA (Deng et al., 2025)、Pyramid Flow (Jin et al., 2025)和Self-forcing (Huang et al., 2025)。所有分数均使用与VBench相同的数值系统进行归一化。在5秒片段上,LONGLIVE的总分与最强基线模型持平,表现出优异的质量和稳定性,如表1所示。得益于短窗口注意力设计,LONGLIVE也是所有方法中最快的,实时推理达到20.7 FPS。这表明LONGLIVE并未降低短片段生成能力。

4.2 LONG VIDEO GENERATION

我们使用VBench-Long(Huang et al., 2024b)的官方提示集评估LONGLIVE的单提示长视频生成能力。对于每个提示,我们生成一个30秒的视频,并根据VBench-Long的官方脚本将其分割成片段。我们与三个具有代表性的开源模型进行比较:SkyReels-V2(Chen et al., 2025a)、FramePack(Zhang & Agrawala, 2025)和Self-Forcing(Huang et al., 2025)。由于FramePack是I2V模型,我们首先从相同的文本提示合成初始帧并将其输入FramePack;其他T2V模型直接从提示生成。我们在表3中报告了VBench-Long关于长时序质量和一致性的标准指标。LONGLIVE实现了最先进的性能,同时也是最快的。
4.3 INTERACTIVE LONG VIDEO GENERATION

图6:交互式长视频生成的定性比较。LONGLIVE表现出强大的提示遵循性、平滑的过渡以及高长程一致性,同时保持高吞吐量。与我们的方法相比,SkyReels-V2表现出较弱的长程一致性,而Self-Forcing在更长的视频上出现质量下降。
对于包含多个提示切换的交互式长视频,现有方法中很少有支持真正的流式生成。我们为两个具有代表性的基线模型实现了这一设置:SkyReels-V2和Self-Forcing。然后我们将我们的方法与它们进行比较。由于标准VBench协议不直接适用,我们精心策划了一组自定义的160个交互式60秒视频,每个视频包含六个连续的10秒提示,作为验证集。对于长时序质量,我们在支持自定义提示视频的VBench-Long维度上评估我们的60秒交互式视频,包括主体一致性、背景一致性、运动平滑度、美学质量和成像质量。对于语义遵循性,我们在提示边界处分割每个视频,并使用CLIP(Radford et al., 2021)分数计算每个片段的语义分数。定性和定量结果分别如图6和表2所示。LONGLIVE表现出强大的提示遵循性、平滑的过渡以及高长程一致性,同时保持高吞吐量。相比之下,Self-Forcing在更长的时序上性能下降,而SkyReels-v2表现出较弱的一致性。在速度方面,得益于我们的短窗口注意力设计,即使使用KV重新缓存,LONGLIVE也比SkyReels-v2快41倍以上,并且比Self-Forcing略快。请访问我们的项目页面,查看更多交互式长视频生成的定性比较。最后,一项用户研究中,参与者对整体质量、运动质量、指令遵循性和视觉质量进行了评分,即图1(右)进一步支持了我们方法的有效性。
4.4 KV RECACHE
在表4中,我们在10秒视频设置下(第5秒有一次提示切换)对提示切换时的KV缓存策略进行了消融实验。我们比较了三种策略:(i) 无KV缓存:切换时清空整个缓存;(ii) KV缓存:保持完整缓存不变;(iii) KV重新缓存(我们的方法):通过根据前序帧和新提示重新计算键值状态来刷新缓存。我们使用VBench的背景一致性和主体一致性评估视觉一致性,并使用CLIP模型测量语义分数。清空缓存会破坏长程一致性,导致视觉突变。保留缓存能维持连续性,但会引发提示惯性:模型坚持之前的提示,导致切换后的提示语义分数较低。我们的KV重新缓存在保持连续性的同时,恢复了对切换后提示的遵循性。关于KV重新缓存的更多定性比较,请参见图3、附录图D和演示页面。
4.5 SHORT-WINDOW ATTENTION AND FRAME SINK

图7:短窗口大小和帧池的消融研究。更小的窗口会降低一致性,而启用帧池可缓解这一下降。
在图7中,我们在10秒生成设置下对短窗口注意力和帧池进行了消融实验。我们将局部注意力窗口从3个潜在帧变化到27个潜在帧,并额外评估了一种配置:9个局部潜在帧加上3个池帧(有效窗口大小为12)。长程一致性使用VBench-Long(Huang等人,2024b)(背景一致性和主体一致性)进行测量。随着注意力窗口增大,一致性提升,并在24帧窗口左右趋于饱和,这揭示了明显的质量-效率权衡:更大的窗口保留更多时间上下文,但会增加延迟和内存消耗;而更小的窗口更高效,但一致性更差。我们的帧池机制通过在不关注完整历史的情况下恢复长程上下文来缓解这种权衡:9局部+3池的设置实现了接近21帧窗口的一致性,同时保持了短窗口的速度和内存占用。
5 CONCLUSION
在这项工作中,我们介绍了LONGLIVE,一个用于实时和交互式长视频生成的帧级AR框架。为了在交互设置中的提示切换期间保持视觉平滑性和语义一致性,我们提出了一种KV重新缓存技术。我们提出了一种流式长调优策略,能够直接在长视频上训练,确保高质量输出。我们进一步引入了短窗口注意力和帧池,以加速长视频生成同时保持视觉一致性。实验结果表明,LONGLIVE可以在仅32个GPU天内高效地为长视频AR生成微调模型。此外,在长视频上进行调优不仅对长视频生成至关重要,也是高效推理(例如,带帧注意力池的窗口注意力)的前提,显著提高了推理速度。在推理过程中,它在单张NVIDIA H100 GPU上实现了20.7 FPS的推理速度,并支持长达240秒的视频生成,同时保持高保真度和时间连贯性。使用INT8量化,LONGLIVE将模型大小从2.7 GB压缩到1.4 GB,性能下降极小。LONGLIVE还支持INT8量化推理,仅造成微小的质量损失。我们在附录中提供了进一步的结果、分析、实现细节和定性展示。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)