NVIDIA突破:单显卡实现图片驱动720p长视频世界模型生成能力提升

至顶头条

18人浏览 · 2026-05-21 21:01:04

至顶头条 · 2026-05-21 21:01:04 发布

这项由NVIDIA研究团队主导的研究成果于2026年5月以预印本形式发布，论文编号为arXiv:2605.15178，感兴趣的读者可通过该编号查阅完整原文。

给你一张照片，再给你一条摄像机的移动路线，然后电脑自动生成一段完整的一分钟高清视频，视频里的世界会随着摄像机的移动展开——草地、建筑、室内空间，所有细节都保持连贯，仿佛那个世界真实存在。这件事听起来像是科幻电影里的情节，但NVIDIA的研究人员已经把它做出来了，而且用的硬件普通玩家也买得起。

这个系统叫做SANA-WM，"WM"代表"世界模型"（World Model）。它有26亿个参数，能生成720p分辨率的视频，时长可以达到整整一分钟。更关键的是，训练它只用了64块H100显卡跑15天，生成视频只需要一块显卡，用消费级的RTX 5090配合特殊的压缩技术，34秒就能生成一段完整的60秒720p视频。

为什么这件事值得关注？因为在此之前，能做到类似效果的系统要么体量极其庞大（参数量达到十几亿乃至更高），要么需要八块乃至更多的高端服务器显卡同时运行，要么生成质量离真实差距明显。SANA-WM试图证明，花更少的钱、用更少的数据、在更便宜的硬件上，也能造出质量接近工业级的世界模型。

---

一、什么是"世界模型"，为什么研究人员要造它

在理解SANA-WM之前，先弄清楚"世界模型"这个词的意思。

普通的视频生成工具，比如大家熟悉的文字生成视频类产品，做的是"给一段文字描述，生成一段看起来合理的视频"。这本质上是一种创作工具，就像让AI按照剧本画连环画。而世界模型做的事情不一样：它试图模拟一个真实存在的三维空间，你告诉它摄像机要往左转20度、向前走5米，它需要生成一段视频，视频里展示的画面要和真实摄像机做这个动作之后看到的画面高度吻合。

这两者的区别有点像"画家"和"建筑师"的区别。画家负责创作漂亮的画面，建筑师需要在脑子里维持一个完整的三维空间，确保从任何角度看这栋建筑都是一致的、合理的。世界模型追求的是建筑师的能力——对场景的空间一致性和物理合理性的理解。

这种能力对机器人、自动驾驶、游戏引擎、虚拟现实等领域极其重要。机器人在真实环境里学习太贵也太慢，如果有一个逼真的虚拟世界，它可以在里面以极低的成本反复练习各种情境。自动驾驶的测试场景需要海量多样化的道路环境，一一实地拍摄成本高昂，用世界模型生成则便宜得多。

研究团队面临的核心问题是：现有的世界模型系统要么需要巨量的计算资源，要么视频时间太短（只能生成几秒到十几秒），要么无法精确跟随摄像机的移动指令。SANA-WM的目标就是同时解决这三个问题。

---

二、长视频为什么那么难生成：从"记笔记"的角度理解计算瓶颈

生成一秒钟的720p视频，需要处理大约30帧画面，每帧画面包含1280×720个像素点。生成一分钟就意味着要同时"想清楚"近1800帧画面，而且这些画面之间必须保持空间连贯性——如果第5秒看到一棵树在画面左侧，第45秒摄像机转回来，那棵树还得在左侧，而不是凭空消失或者跑到右边去。

传统的注意力机制（可以理解为AI"回忆"之前内容的方式）有一个致命的问题：它需要把之前看过的所有内容都存在记忆里，随着视频变长，这个记忆会以平方级增长。生成10秒的视频需要100单位的记忆，生成60秒就需要3600单位——这正是为什么大多数视频生成系统在60秒面前束手无策，不是算法不够好，是内存直接爆掉了。

SANA-WM解决这个问题的核心思路，可以用"随手笔记本"来理解。

传统注意力机制就像一个拍照记忆的学生，把遇到的每一帧内容都完整保存下来，考试的时候翻出来看。这当然准确，但笔记本会越来越厚，最后厚到根本翻不完。

SANA-WM使用的"门控增量网络"（Gated DeltaNet，简称GDN）机制则更像一个善于做总结的学生：它维护一个固定大小的笔记本，每次遇到新内容，就把新内容"消化"进笔记本里，同时淡化那些已经不那么重要的旧内容。笔记本永远只有一本，不管视频有多长，记忆的大小保持不变。

但仅仅靠这本"总结笔记本"还不够——有时候你需要精确回忆某个特定的细节，这不是总结能做到的，你得翻出原始记录。所以SANA-WM在大量使用GDN的同时，每隔几层就安插一个传统的精确注意力层，相当于在"总结笔记本"之外，每隔一段时间拍一张高清照片存档。这种混合设计在节省内存的同时，保留了关键细节的精确回忆能力。

具体来说，整个网络有20层，其中15层使用GDN做高效的记忆更新，第3、7、11、15、19层使用传统的精确注意力。这个比例经过了反复实验调整，在速度和质量之间找到了最优平衡点。

另一个加速生成的关键技术是视频压缩。SANA-WM使用了LTX2的视频编码器（VAE），这个编码器能把原始视频压缩到极小的体积——比同类系统小2到8倍。打个比方，原始视频是一部厚厚的词典，LTX2 VAE把它压缩成一张小卡片，AI只需要处理这张卡片，而不是整本词典。等生成完成之后，再把卡片还原成完整的词典。这个压缩率的提升直接把训练时间和推理时间大幅压缩。

---

三、摄像机控制：如何让AI精确听懂"往左转20度"

世界模型的另一个核心挑战是"动作控制"——你指定摄像机的移动轨迹，AI生成的视频必须忠实还原这个轨迹。这件事比听起来难得多。

想象一个导演告诉摄影师"把镜头缓慢向右平移3米"。摄影师不仅要移动摄像机，还要确保整个过程中焦距、构图、光线都保持合理，前一秒画面里的每个物体在下一秒出现的位置要符合三维空间的几何关系。AI需要做同样的事情，但它面对的是压缩后的、抽象的数学表示，而不是真实的三维空间。

SANA-WM采用了"双路摄像机控制"设计来解决这个问题，这两条路分别负责不同精度的控制信号。

第一条路负责"大方向"。它使用一种叫做UCPE（统一摄像机位置编码）的技术，把摄像机在每个时刻的完整6自由度姿态（位置X/Y/Z加上俯仰/偏转/滚转三个角度，合计6个数字）转化为一种特殊的几何信号，直接注入到AI处理信息的注意力层里。这就像给AI一个精确的GPS坐标，让它知道摄像机现在在哪、朝向哪里。

但这里有一个问题：视频编码器会把连续的8帧原始视频压缩成1帧潜在变量。也就是说，经过压缩之后，原本8个不同位置的摄像机姿态，在AI眼里只剩下1个代表性姿态，8帧之间的细微移动信息丢失了。

第二条路就是为了弥补这个损失而设计的。它使用"普吕克射线图"（Plücker Raymap）技术，在原始帧率（未压缩）下为每一帧生成一张描述每个像素视线方向的图。对于压缩成1个潜在帧的8个原始帧，系统把这8帧的射线图打包成一个48通道的信息，通过一个专门的处理模块注入到网络里，从而恢复那些被压缩丢失的精细摄像机运动信息。

两条路各司其职：大路负责全局轨迹，小路负责局部精度。实验证明，只用其中一条路的效果都不如两条路同时使用——特别是摄像机运动一致性这个指标，双路方案比单独用UCPE或者单独用普吕克方案都要好很多。

---

四、生成分两步走：先打草稿，再细细打磨

即使有了高效的骨干网络和精确的摄像机控制，SANA-WM的团队发现，单阶段生成的视频质量还不够理想——特别是在细节纹理、局部清晰度和长时间保持稳定方面。于是他们引入了"第二阶段精炼器"。

整个流程类似于先用铅笔打草稿，再用钢笔和水彩精细刻画。第一阶段的SANA-WM负责生成结构正确、动作连贯的草稿视频；第二阶段的精炼器则在这个草稿的基础上，大幅提升细节质量。

精炼器使用了一种叫做"截断-σ流匹配"的训练方式。简单解释：它学习的是如何把一段"加了大量噪点的草稿视频"还原成清晰的高质量视频，而不是从完全的噪点中凭空生成视频。这个区别很关键——因为它已经知道大致的内容是什么（草稿），只需要专注于"让画面更清晰"这件事，任务更专注，效果自然更好。

精炼器的基础是一个更大的模型——LTX-2，参数量高达170亿，是SANA-WM主体的将近7倍。但研究团队没有对这个巨大的模型进行全量训练，而是只训练了一小部分参数（称为LoRA适配器，秩为384），这让精炼阶段的训练成本保持在可接受范围内。

值得一提的是，精炼器是专门针对"一分钟长视频"场景重新训练的，而不是直接使用原版LTX-2的精炼器。实验对比表明，如果直接用原版短视频精炼器处理一分钟视频，效果非常差——视觉质量反而下降，摄像机控制精度也大幅劣化。专门适配过的长视频精炼器则在各项指标上都有明显提升，特别是视频后半段的画面稳定性（用ΔIQ指标衡量，从4.65降至0.31，越低越稳定）。

---

五、数据从哪来：从公开视频里"挖"出带坐标的训练集

一个常被忽视但同等重要的问题是：训练数据从哪来？

要训练摄像机控制能力，AI不仅需要看视频，还需要知道每个视频里摄像机在每一帧的精确位置和朝向——也就是6自由度的摄像机姿态标注。这种标注在工业界通常是花大价钱专门采集的，或者来自有GPS记录的专业设备拍摄的视频。

SANA-WM的团队选择了另一条路：从公开互联网视频里自动推算摄像机轨迹。他们开发了一套自动标注流水线，核心是把几个现有的工具组合起来使用。

这套流水线的工作方式可以类比成"从一段行车记录仪视频里推算出汽车的GPS轨迹"。系统首先用一个叫VIPE的工具做视觉跟踪和特征匹配（相当于找出视频里的路标），然后用Pi3X分析每帧之间的三维结构关系（相当于用路标位置推算汽车的移动），最后用MoGe-2来恢复真实的物理尺度（相当于确定路标之间的真实距离，而不只是相对比例）。

这套组合有一个之前版本没解决好的问题：原版VIPE使用的深度估计模型在长视频上表现不稳定。研究团队把深度估计模块换成了Pi3X（擅长处理长序列的三维一致性）和MoGe-2（擅长提供精确的真实尺度），并且把两者的结果通过加权最小二乘法融合，再用时间平滑处理消除帧间抖动。此外，他们还把原本固定焦距的假设改成了每帧独立优化焦距，这让系统能正确处理那些焦距会变化的互联网视频。

经过这套流水线处理，他们从多个公开数据集里筛选出了约21.3万段视频，涵盖真实室内外场景、游戏画面、合成场景等多种类型，每段视频都附带了经过验证的精确摄像机轨迹标注。

其中还有一个有趣的数据增强环节：对于那些只有静态3D场景扫描数据的数据集（DL3DV），团队用高斯散点绘制技术（3D Gaussian Splatting）把静态场景还原成可以"飞行"的三维模型，然后设计各种各样的摄像机运动路径，从中渲染出全新的视频。这相当于用一张建筑模型图，生成了在这栋建筑里从各种角度、用各种运动方式拍摄的视频，大幅增加了训练数据的多样性。

---

六、怎么训练：循序渐进，从简单到复杂

SANA-WM的训练不是一步到位的，而是分四个阶段循序渐进，每个阶段聚焦解决一个问题，稳定之后再进入下一阶段。

第一阶段：让AI学会说一种新的"压缩语言"。原始SANA-Video模型使用的是一种视频压缩格式，但SANA-WM要换用更高压缩比的LTX2格式。这两种格式的数据分布差异很大，就像一个习惯写繁体字的人要切换到简体字——内容相同，但书写规则完全不同。这一阶段对整个模型做了5万步的全量微调，约耗时3.5天。

第二阶段：引入混合注意力机制。把GDN块和传统精确注意力块交替组合的新架构替换进来，但只在短视频（5秒）上训练，原因是短视频训练更快、更容易调试、出问题也更容易定位。这一阶段约耗时2天。

第三阶段：真正的长视频训练。序列长度延伸到60秒（961帧），同时把双路摄像机控制也加进来。这是最耗时的阶段，约需8天，并且使用了"上下文并行"技术把长序列切分到多块GPU上并行处理。

第四阶段：生成质量的精细调优以及推理加速。从双向生成模型出发，训练一个逐段生成的自回归变体（用于边生成边输出的流式场景），然后用"自强迫蒸馏"技术把推理步数从60步压缩到4步，速度提升约27倍。为了让它能在内存较小的消费级显卡上运行，还加入了注意力锚点（Attention Sink）机制，把滑动窗口注意力的内存占用控制在常数级别。

---

七、横向比较：SANA-WM在同类系统中处于什么位置

为了公平评测，研究团队专门构建了一套全新的评测基准，因为现有的评测标准没有一个是专门为"一分钟世界模型"设计的。

他们用一个叫做Nano Banana Pro的图像生成工具生成了80张初始场景图片，覆盖游戏风格、室内、城市户外、自然户外四类场景，每类20张。每张图片配有两套摄像机轨迹：一套是"简单轨迹"（平滑的单向直线或弧线运动），另一套是"困难轨迹"（包含大角度旋转、垂直运动、螺旋、双重循环等复杂路径）。评测视频时长统一为60秒，帧率16fps。

评测指标分为两大类：视觉质量用VBench（一套业界认可的视频质量评测工具）来衡量，包含主体一致性、背景一致性、时间闪烁、运动流畅度、美学质量、图像清晰度等多个维度；摄像机控制精度则用Pi3X从生成视频里反推摄像机轨迹，再与输入的目标轨迹做比较，得到旋转误差（RotErr，单位度）、平移误差（TransErr）和摄像机运动一致性（CamMC）三个数字，越小越好。

在所有参与比较的系统中，被比较的包括：Infinite-World（13亿参数，480p，单GPU）、LingBot-World（14B加14B双模型，480p，需要8块GPU）、HY-WorldPlay（80亿参数，480p，需要8块GPU）、Matrix-Game 3.0（50亿参数，720p，需要8块GPU）。

摄像机控制精度方面，SANA-WM（加精炼器版本）在简单轨迹上的旋转误差为4.50度，在困难轨迹上为8.34度，这两个数字都比所有对比系统要好，其中最接近的竞争者在简单轨迹上的旋转误差是10.47度（LingBot-World），困难轨迹上是18.79度（Matrix-Game 3.0）。

视觉质量方面，SANA-WM加精炼器在简单轨迹上得到80.62分的VBench综合分，困难轨迹上是81.89分，与LingBot-World的81.82/81.89基本持平。考虑到LingBot-World使用的是两个14B模型串联、需要8块GPU、且分辨率只有480p，SANA-WM能在720p分辨率下单GPU运行并达到接近的视觉质量，这个对比相当有说服力。

推理效率方面，SANA-WM在8块H100上的吞吐量达到24.1个视频/小时（加精炼器后22.0个/小时），而最快的480p基准系统Infinite-World只有5.9个/小时，也就是说SANA-WM的生产效率比同等硬件下最快的480p竞品还快约4倍，比LingBot-World快约36倍。

另外还有一个专门测试"场景记忆"的指标：当摄像机转了一圈又回到接近原来的位置时，生成视频里的场景是否还能和出发时保持一致？SANA-WM加精炼器在困难轨迹上的PSNR（峰值信噪比）达到14.80分贝，在所有对比系统中排名第一。这意味着即使经历了60秒的复杂移动，SANA-WM生成的世界在"回访"时仍然最接近之前看到的样子。

---

八、在更小的设备上运行：从服务器到消费级显卡

从研究原型到实际可用，还有一段路要走。SANA-WM的团队花了不少精力把推理成本压缩到消费级硬件可以承担的范围。

从原始的60步推理开始，第一步是"蒸馏"——用一种叫做"自强迫蒸馏"的技术训练一个学生模型，让它只用4步就能完成原来60步的工作。这一步把推理时间从21.7分钟压缩到43秒（DiT部分），速度提升约30倍，而质量损失在可接受范围内。

之后加入注意力锚点机制，把软注意力层改成固定大小的滑动窗口，使得显存占用不随视频长度增加。这让系统能在RTX 5090上（消费级旗舰显卡，显存80GB以下）运行，总时间进一步降至48秒。

最后一步是NVFP4量化——把模型权重的数值精度从标准的BF16（每个参数16位）压缩到FP4（每个参数4位），数据量减少为原来的四分之一。这个优化把最终时间压到了34秒完成一段60秒的720p视频，约合实时速度的1.8倍（生成速度比视频本身的播放速度快80%）。

整个优化路径清晰展示了从"实验室原型"到"实际可用"的工程化过程，每一步的收益都有明确的数据支撑。

---

九、这项研究的局限和未来方向

研究团队在论文中坦诚地列出了SANA-WM目前的不足之处。

模型规模仍然有限——26亿参数对于捕捉复杂世界的多样性来说并不算多，在动态场景（有移动物体）、罕见视角、超过一分钟的超长视频这些情况下，质量会有明显下降。与此同时，SANA-WM目前没有显式的三维场景记忆：它通过神经网络隐式"记住"场景，而不是像游戏引擎那样维护一个明确的三维模型，这在非常长的视频或非常大角度的绕行场景里仍然会出现漂移。

在控制信号方面，SANA-WM目前只支持摄像机轨迹控制。未来的方向包括加入机器人关节控制、物体运动跟踪、点云追踪等更丰富的控制接口，以及支持实时流式生成（目前仍需要提前确定整段视频的轨迹）。

从数据的角度看，21.3万段视频的训练集规模相对较小——这是研究者在有限资源下做出的折衷，但也意味着模型在某些场景类型（特别是训练集覆盖不足的场景）上的泛化能力有待提升。

---

归根结底，SANA-WM要证明的核心命题是：大不一定好，聪明的工程设计可以用小模型做出接近大模型的事情。它在五个关键环节上都做了非平庸的选择——高压缩比的视频编码、混合记忆机制的长序列处理、双路摄像机控制的精度、两阶段生成的质量提升、以及从公开数据里自动挖掘姿态标注——每一个选择都直接作用于训练或推理成本的节省，而不是纯粹追求质量数字。

这对普通用户意味着什么？最直接的影响是：一年或两年之后，类似的世界模型技术可能出现在消费级游戏引擎、VR内容制作工具、乃至手机应用里。届时，你只需要拍一张照片并用手指划出一条移动路线，就能看到那个场景在你的路线下展开的样子。

当然，研究者们也提醒了潜在的风险：高质量的生成视频很容易被误认为真实记录，特别是在来源不明的情况下。这不是世界模型独有的问题，但随着质量的持续提升，这个问题会变得越来越值得认真对待。

对这个话题感兴趣的读者，可以通过arXiv编号2605.15178找到SANA-WM的完整论文，论文附有详细的技术细节、消融实验和附录数据，供有兴趣深入了解技术细节的读者参考。

---

Q&A

Q1：SANA-WM和普通的文字生成视频工具有什么区别？

A：SANA-WM是世界模型，需要输入一张图片加上摄像机移动轨迹，生成的视频要忠实还原指定的空间移动路径，注重三维空间的一致性。普通文字生成视频工具只需要文字描述，不需要精确跟随任何物理轨迹，更像创作工具而非空间模拟工具。两者的核心目标不同——SANA-WM要"模拟空间"，普通视频生成工具要"创作内容"。

Q2：SANA-WM生成视频需要什么硬件？

A：SANA-WM有多个版本适应不同硬件。基础版需要一块H100专业显卡，用60步推理生成一分钟视频约需22分钟。蒸馏加速版结合4步推理和FP4量化后，可以在消费级RTX 5090显卡上运行，34秒生成一段完整的60秒720p视频。训练阶段使用了64块H100运行15天，但推理只需单卡。

Q3：SANA-WM的摄像机控制精度有多准？

A：在官方评测基准的简单轨迹上，SANA-WM（含精炼器）的旋转误差为4.50度，明显优于所有对比系统，最接近的竞品旋转误差在10度以上。在包含大角度旋转、螺旋、双重循环的困难轨迹上，旋转误差为8.34度，同样排名第一。不过在极长视频或特别复杂的动态场景里，控制精度仍有下降空间。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

分层架构中的“防腐层”与 DTO 转换最佳实践

本文以电信性能监控系统为例，探讨领域驱动设计(DDD)在复杂系统中的应用。针对业务逻辑庞杂、外部依赖多的问题，提出通过防腐层(ACL)和DTO转换构建高内聚低耦合架构的解决方案。文章详细阐述了四层架构模型（用户接口层、应用层、领域层、基础设施层）及其数据流转机制，并以场景监控功能为例，展示了从领域模型定义、ACL转换到视图对象设计的完整实践过程。重点强调了领域模型应包含业务行为、使用MapStru

AtomGit开源社区

Mooncake：以 KVCache 为中心的分离式 LLM 服务架构

AtomGit开源社区

Solon框架模板漏洞深度剖析与修复实战

分析发现 Solon 框架在3.1.0版本上存在一个有意思的模板漏洞，对这个漏洞进行简单分析后，发现整个漏洞的利用链是非常有意思的。同时发现最新版的修复方式过于简单，询问 AI 后，AI 也认为修复也是不完善的安全修复，于是进行一系列的绕过尝试，最后还是没有利用成功，简单进行分享。Solon 是一个轻量级的 Java 应用开发框架，类似于 Spring Boot ，但更加轻量。支持多种模板引擎，包