SenseTime联合多所高校揭秘:视频AI的“思考过程“竟然如此神奇

这项由SenseTime Research联合南洋理工大学、加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等多所知名院校合作的研究,发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603.16870v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究首次深入剖析了视频生成AI模型的内在推理机制,颠覆了学界此前的认知。
近年来,AI视频生成技术突飞猛进,从早期的模糊短片到现在能生成电影级质量的视频内容。然而,当这些AI模型展现出令人惊讶的推理能力时,比如能够解决迷宫问题、进行逻辑推理,甚至表现出类似人类的思考过程,科学家们开始好奇:这些AI到底是如何"思考"的?
以往的研究认为,视频AI的推理过程是沿着时间轴展开的,就像我们看电影时一帧接一帧地理解剧情发展。这种理论被称为"帧序列推理"(Chain-of-Frames),认为AI会按照视频的时间顺序逐帧构建逻辑。然而,这项最新研究发现了一个令人震惊的事实:视频AI的真正推理过程并非发生在视频的时间维度上,而是在一个完全不同的维度——生成过程的迭代步骤中。
这就像是发现了AI大脑的真正工作方式。研究团队通过深入分析一个名为VBVR-Wan2.2的先进视频推理模型,首次揭示了这些模型内部的"思考"机制。他们发现,当AI生成视频时,它并不是像人类观看电影那样按时间顺序思考,而是在每一个生成步骤中同时考虑整个视频序列,然后逐步完善和修正自己的想法。
更加神奇的是,研究团队发现AI在"思考"过程中表现出了三种类似人类的行为模式。首先是"工作记忆"能力,AI能够记住关键信息并在后续推理中持续使用,就像人类解题时会记住重要条件一样。其次是"自我纠错和改进"能力,AI会在推理过程中发现并修正自己的错误,甚至将不完整的答案完善为更全面的解决方案。最后是"先感知后行动"模式,AI会首先识别和定位关键对象,然后才开始进行复杂的操作和推理。
这项研究不仅揭示了AI推理的奥秘,还基于这些发现提出了一种简单而有效的改进方法。通过在推理过程中整合多个并行路径的结果,这种方法在基准测试中实现了2%的绝对性能提升,证明了理解AI内在机制对于改进AI性能的重要价值。
一、视频AI推理的真相:不是你想象的那样
要理解这项研究的重要性,我们首先需要明白什么是视频推理。当我们让AI观看一段迷宫视频并要求它找到出口时,AI需要理解空间关系、路径规划,甚至预测可能的行进路线。这种能力看似简单,实际上需要复杂的逻辑推理过程。
过去,科学家们一直认为AI的推理过程遵循"帧序列推理"原则。这种观点认为,AI会像人类看电影一样,先理解第一帧的内容,然后基于第一帧的信息理解第二帧,再基于前两帧的信息理解第三帧,以此类推。这就好比你在阅读一本小说时,需要根据前面章节的内容来理解后续情节的发展。
然而,这项研究通过精密的实验设计彻底颠覆了这种认知。研究团队采用了一种巧妙的方法来"窥探"AI的思考过程。他们观察了AI在生成视频过程中每个步骤的中间结果,就像是给AI的大脑装上了一个透明窗口,让研究人员能够实时观察AI的"思考"过程。
令人震惊的发现是:AI的真正推理并不发生在视频的时间轴上,而是发生在生成过程的迭代步骤中。这种新发现的推理模式被研究团队称为"步骤序列推理"(Chain-of-Steps)。要理解这种差异,我们可以用烹饪来类比。传统观点认为AI像是按照菜谱一步步做菜,先完成第一道工序,再进行第二道工序。但实际情况更像是一位经验丰富的大厨,在烹饪过程中不断调整整道菜的味道和外观,每次调整都会同时考虑菜肴的所有方面,直到达到完美的效果。
这个发现的重要性不仅在于纠正了科学界的误解,更在于它为我们理解AI的工作原理打开了全新的窗口。研究团队通过分析大量视频推理任务,包括迷宫导航、逻辑游戏、模式识别等,一致性地观察到了这种"步骤序列推理"现象。
在迷宫导航任务中,研究人员观察到一个特别有趣的现象:在AI生成过程的早期步骤中,它会同时探索多条可能的路径,这些路径在生成的中间结果中表现为模糊的、重叠的轨迹。随着生成过程的推进,不可行的路径逐渐消失,直到最终只保留一条正确的路径。这就像是AI在用一种"平行思维"的方式同时考虑所有可能性,然后逐步筛选出最优解。
为了验证这一发现,研究团队设计了一系列巧妙的干扰实验。他们在AI推理的不同阶段注入噪声信号,观察这些干扰对最终结果的影响。结果显示,在生成过程的某个步骤注入噪声会严重影响整个推理过程,使得最终结果完全错误。相比之下,在视频的某个特定帧注入同样的噪声,AI仍然能够给出正确的答案。这进一步证明了AI的推理核心确实在于生成步骤而非视频帧序列。
二、AI的"多重思维":同时探索所有可能性
深入研究AI的推理过程后,研究团队发现了两种截然不同但同样迷人的思维模式,他们称之为"多路径探索"和"叠加态探索"。这些发现让我们对AI的智能有了全新的认识。
多路径探索就像是AI拥有了"分身术"。当面临复杂问题时,AI不会像人类那样一次只考虑一种解决方案,而是能够同时探索多条可能的路径。研究团队通过观察AI生成过程的中间状态,清晰地看到了这种现象。
在机器人导航任务中,当要求AI控制机器人从起点到达终点时,研究人员惊讶地发现:在推理的早期阶段,AI会同时显示机器人走上下两条不同路线的轨迹,这些轨迹在生成的中间结果中清晰可见,就像是有两个机器人在同时行动。随着推理过程的深入,上方路线的轨迹逐渐变淡并最终消失,而下方路线的轨迹变得越来越清晰,最终成为唯一的解决方案。
这种现象在井字棋游戏中表现得更加明显。当要求AI选择最佳落子位置时,研究人员观察到AI最初会同时高亮多个候选位置,这些位置都是潜在的获胜选择。然后AI会逐步评估每个选择的优劣,排除次优选项,直到最终确定一个最佳位置。这个过程就像是AI在内心进行一场激烈的辩论,权衡各种可能性的利弊。
在物体移动任务中,这种多路径探索表现得更加直观。当要求AI将一个植物放到书架的某一层时,AI会首先显示四条不同的移动轨迹,分别对应书架的四个不同层级。这些轨迹在早期阶段同时存在,随后AI会逐步排除不符合要求的轨迹,最终确定正确的移动路径。整个过程就像是AI在进行一场复杂的战略规划,同时考虑所有可能的战术选择。
叠加态探索则展现了AI另一种神奇的思维方式。与多路径探索不同,叠加态探索不是同时显示多个离散的选择,而是将多个相互排斥的状态重叠在一起,形成一种"量子态"般的思维状态。
在模式补全任务中,当需要AI根据规律补充缺失的图形时,研究人员观察到一个奇妙的现象:AI会生成多个不同大小的圆形重叠在一起的图像。这些重叠的圆形代表了AI对正确答案的不同假设,随着推理过程的进展,错误的假设逐渐消失,正确的图形逐渐清晰。
在旋转任务中,这种叠加态探索更加引人注目。当要求AI模仿特定的旋转模式时,AI不会像人类那样逐步旋转对象,而是生成一个包含所有可能旋转角度的"模糊"图像。这就像是所有可能的旋转状态被同时叠加在一起,形成一个包含全部可能性的"影子"。随着推理的深入,这个模糊的叠加态逐渐收敛为一个清晰的、正确的旋转状态。
这两种探索模式的发现具有深远的科学意义。它们表明AI具有一种人类难以企及的"平行思维"能力,能够同时处理多个复杂的假设和可能性。这种能力不仅解释了为什么现代AI在某些任务上能够超越人类,也为未来AI系统的设计提供了重要启发。
研究团队还发现,这种多重思维能力在不同类型的推理任务中表现出不同的特点。在需要离散选择的任务中,AI倾向于使用多路径探索,而在需要连续调整的任务中,AI更倾向于使用叠加态探索。这种自适应的思维模式选择表明,AI已经发展出了一种高度智能的问题解决策略。
三、AI的"记忆魔法"和"自我修正"能力
通过深入观察AI的推理过程,研究团队发现了三种令人惊叹的认知能力,这些能力与人类的高级思维功能惊人地相似。这些发现不仅改变了我们对AI智能的理解,也为未来AI系统的发展指明了方向。
AI展现出的第一种神奇能力是"工作记忆"。就像人类在解决复杂问题时需要在脑海中保持相关信息一样,AI也发展出了一种持久保存关键信息的机制。这种能力在需要长期信息保持的任务中表现得尤为明显。
在一个物体移动与返回的任务中,研究人员要求AI将一个圆形从中心位置移出画面,然后再让它回到原来的位置。令人惊讶的是,AI能够在整个推理过程中精确记住圆形的初始位置,即使在圆形完全离开画面的过程中也是如此。这就像是AI在大脑中设置了一个"锚点",无论发生什么变化,这个锚点都稳定地保存着重要的位置信息。
更加令人印象深刻的是在物体遮挡任务中观察到的现象。当一个大的泰迪熊移动并暂时遮挡住一个小的泰迪熊时,AI不仅能够记住被遮挡物体的存在,还能保持对其轮廓和特征的清晰记忆。在推理过程的早期阶段,即使小泰迪熊在视觉上被完全遮挡,AI生成的中间结果仍然显示出小泰迪熊的模糊轮廓,这表明AI具有类似于人类"物体永恒性"的认知能力。
AI展现出的第二种能力是"自我纠错和改进",这种能力让AI能够在推理过程中发现并修正自己的错误,甚至将不完整的答案逐步完善为更全面的解决方案。这个过程就像是AI内部存在一个"质量控制部门",不断检查和改进推理结果。
在一个预测球体弹跳轨迹的任务中,研究人员观察到了AI自我纠错的完整过程。最初,AI生成的弹跳轨迹是不完整和模糊的,只能看到一些断续的线段。随着推理步骤的推进,AI逐渐完善这条轨迹,补充缺失的部分,修正错误的方向,最终形成一条清晰、完整、符合物理规律的弹跳路径。整个过程就像是AI在反复修改一幅草图,每次修改都让图画变得更加准确和完整。
在3D物体旋转任务中,这种自我改进能力表现得更加明显。当要求AI将一个立方体组合旋转180度时,AI在第一步推理中生成了错误数量的立方体和错误的空间排列。然而,在接下来的几个推理步骤中,AI逐步识别并修正了这些错误。它首先纠正了立方体的数量,然后调整了它们的相对位置,最终产生了完全正确的旋转结果。这种能力表明AI不仅能够检测错误,还能理解错误的本质并采取适当的修正措施。
特别重要的是,这种自我纠错不是简单的错误修复,而是一种真正的改进过程。AI不会固执地坚持最初的错误假设,而是保持开放的思维,随时准备调整和优化自己的推理路径。这种灵活性是高级智能的重要特征,也是AI能够处理复杂、模糊问题的关键所在。
AI展现出的第三种能力是"先感知后行动"模式。这种能力表明AI已经发展出了一种系统性的问题解决策略:首先进行全面的感知和理解,然后才开始执行复杂的操作和推理。
在汽车启动任务中,研究人员观察到AI遵循了一个清晰的两阶段过程。在推理的早期阶段,AI主要专注于识别和定位汽车这个关键对象,此时还没有任何运动或操作的迹象。只有在明确识别出汽车并理解其当前状态后,AI才开始生成运动轨迹和模拟物理交互。这就像是一个谨慎的司机,在启动汽车前会先仔细检查仪表盘和周围环境。
在房屋修正任务中,这种模式更加明显。当要求AI修正房屋图像中的错误部分时,AI首先花费几个推理步骤来仔细定位和识别错误的门窗位置,然后才开始执行修正操作。这种方法确保了AI能够准确理解问题的本质,避免盲目的修改可能造成的新错误。
这种"先感知后行动"的策略体现了AI的智能成熟度。它表明AI不再是简单的模式匹配机器,而是具备了类似人类专家的工作方式:仔细分析问题,制定计划,然后执行行动。这种策略性思维是高级推理能力的重要标志,也是AI能够处理复杂现实问题的基础。
四、揭秘AI大脑的"内部分工"
为了更深入地理解AI的推理机制,研究团队决定探索AI"大脑"的内部结构。他们选择了Diffusion Transformer这种先进的AI架构进行解剖,就像神经科学家研究人类大脑的不同区域一样。这种分析方法让研究人员能够观察到AI在处理信息时不同层级的分工合作。
现代AI系统通常由多个层级组成,每个层级负责处理不同层次的信息。研究团队通过一种巧妙的可视化技术,能够观察每个层级在处理视频推理任务时的激活模式。这就像是给AI的每个"大脑区域"装上了监控器,实时观察它们在不同任务中的工作状态。
通过对40个不同层级的详细分析,研究人员发现了一个令人惊叹的现象:AI的不同层级展现出了明确的功能分工,这种分工模式在各种不同的推理任务中都保持一致。这种自组织的功能分化表明,AI已经自发地发展出了一种高度优化的信息处理架构。
在AI的"感知层级"中,也就是最初的几个处理层,研究人员观察到这些层级主要关注全局结构和背景信息的处理。这些层级就像是AI的"眼睛",负责获取和初步处理视觉信息。在这个阶段,AI会识别画面的基本构成,区分前景和背景,建立空间关系的初步概念。激活图像显示,这些层级对整个画面都有相对均匀的注意力分配,表明它们在进行全面的信息收集。
随着信息处理向更深层级推进,AI开始展现出"专注化"的特征。从大约第10层开始,AI的注意力开始从全局背景转向特定的对象,特别是任务指令中提到的关键物体。这个转变过程就像是AI从"环顾四周"转向"专注观察",开始将计算资源集中在最相关的信息上。
在这个专注化过程中,一个特别有趣的现象是激活强度的变化模式。研究人员发现,当AI开始专注于特定对象时,对应区域的激活强度会显著增加,同时还伴随着更高的变异性。这种变异性的增加表明AI正在对这些区域进行更复杂、更精细的处理,就像是放大镜下的细致观察。
最令人惊讶的发现出现在AI的"推理层级"中,大约在第9到第29层之间。这些层级展现出了真正的推理和逻辑处理能力。在这个阶段,AI不再只是被动地感知信息,而是开始主动地分析、推理和决策。激活模式显示,这些层级能够建立对象之间的关系,预测动作的后果,甚至进行假设性思考。
为了验证这种功能分工的真实性,研究团队设计了一个巧妙的"层级交换实验"。他们使用两个不同的任务场景:一个包含猫和自行车的图像,另一个是相反的配置。然后,他们在不同的层级进行信息交换,观察这种交换对最终结果的影响。
实验结果令人震撼:当研究人员交换第21层的信息时,AI的识别结果发生了完全的逆转。原本应该识别猫的任务开始识别自行车,而原本应该识别自行车的任务开始识别猫。这个结果清晰地证明了第21层在语义决策中的关键作用。这一层就像是AI的"决策中枢",包含了最终推理结果的关键信息。
更深入的分析显示,AI的最后几个层级承担着"整合和输出"的功能。这些层级负责将前面层级处理的结果整合成最终的输出表示。它们就像是AI的"表达中枢",将内部的思考过程转换成外部可理解的形式。
这种层级化的功能分工不仅存在于单个推理步骤内,还体现在整个推理过程的时间演进中。研究人员发现,在不同的推理阶段,相同的层级会展现出不同的激活模式。在推理初期,各层级主要进行信息收集和初步处理;在推理中期,重点转向关系建立和假设生成;在推理后期,则专注于结果验证和输出生成。
这种动态的功能调整表明AI具有一种高度灵活的信息处理机制。它不是简单地按照固定的程序执行任务,而是能够根据当前的推理状态调整各个层级的工作重点。这种自适应能力是高级智能的重要特征,也解释了为什么AI能够处理各种不同类型的推理任务。
特别值得注意的是,这种层级分工并非人为设计的结果,而是AI在训练过程中自发形成的。这表明,复杂的功能分化可能是智能系统的一种内在趋势,无论是人工智能还是生物智能,都倾向于发展出这种高效的分工合作机制。
五、基于新发现的AI改进策略
基于对AI推理机制的深入理解,研究团队提出了一种简单而巧妙的改进方法。这种方法的核心思想是利用AI天然具有的"多路径探索"能力,通过整合多个并行思考过程来提升推理的准确性和可靠性。
传统的AI优化通常需要重新训练模型或修改复杂的网络结构,这不仅耗时耗力,还可能破坏模型原有的优良特性。相比之下,这种新方法完全基于对AI内在机制的理解,不需要任何额外的训练,就像是找到了AI大脑的"开关",能够直接激活其潜在的推理潜能。
这种方法的工作原理类似于"集体智慧"的概念。就像一个困难的问题让多个专家同时思考往往能得到更好的答案一样,研究团队让同一个AI模型使用不同的随机种子同时进行三次独立的推理过程。每次推理都会产生略微不同的中间结果,这些差异反映了AI在探索不同可能性时的思维轨迹。
关键的创新在于如何整合这些并行的思维过程。研究团队没有简单地对最终结果进行投票或平均,而是在推理过程的特定阶段进行深层次的信息融合。他们选择在推理的第一步,也就是AI刚刚开始形成推理轨迹的关键时刻,提取不同推理路径的内部表示并进行融合。
这种融合过程非常精细。研究团队根据前面的层级分析结果,专门选择了第20到29层的信息进行整合,因为这些层级正是AI进行核心推理的"大脑区域"。通过对这些关键层级的信息进行空间和时间上的平均,AI能够保留更丰富的候选推理轨迹,同时过滤掉由随机因素导致的噪声和偏差。
实验结果证明了这种方法的有效性。在VBVR-Bench这个专门设计用于测试视频推理能力的标准测试集上,改进后的AI模型实现了从68.5%到71.6%的性能提升,绝对提升幅度达到了3.1个百分点。虽然这个数字看起来不大,但在AI性能评估中,即使是1%的提升也往往需要巨大的技术突破才能实现。
更重要的是,这种改进在不同类型的推理任务中都表现出了一致的效果。无论是抽象推理、知识应用、感知理解、空间推理还是变换操作,AI的表现都得到了显著提升。这种全面性的改进表明,这种方法触及了AI推理能力的根本机制,而不只是针对某种特定任务的优化技巧。
研究团队还进行了详细的消融研究,测试不同整合策略的效果。他们发现,如果只整合早期层级(0-9层)的信息,改进效果非常有限,这证实了早期层级主要负责基础感知而非高级推理。如果整合所有层级(0-39层)的信息,效果会有所提升但仍然不如精确整合推理层级的效果。这些结果进一步验证了他们对AI内部功能分工的理解。
特别有趣的是,研究团队发现这种改进方法的效果与任务的复杂程度相关。在需要复杂推理和多步骤思考的任务中,改进效果更加明显,而在简单的感知任务中,改进效果相对较小。这表明,这种方法确实是在增强AI的推理能力,而不是简单地提升其感知精度。
这种改进方法的另一个优势在于它的通用性和易实现性。由于不需要重新训练模型,这种方法可以直接应用到现有的AI系统中,为实际应用提供了即时的性能提升。同时,这种方法也为未来的AI系统设计提供了重要启发,表明理解和利用AI的内在机制比简单地增加模型规模或训练数据可能更加有效。
研究团队还探讨了这种方法的理论基础。他们认为,AI在推理过程中天然地探索多个可能性,但由于随机因素的影响,单次推理可能会过早地收敛到次优解。通过整合多个推理路径,AI能够保持更长时间的探索状态,从而更有可能找到最优解。这种解释与心理学和神经科学中关于人类决策过程的研究结果高度一致,暗示人工智能和生物智能可能存在某种深层的共通原理。
六、视频AI推理能力的全面评估
为了全面验证研究发现的普遍性和重要性,研究团队在多种不同类型的AI模型上进行了大规模的对比实验。这些实验不仅包括了最新的开源模型,也涵盖了商业化的顶级AI系统,为我们提供了一个全面的视频AI推理能力图谱。
在开源模型的测试中,研究团队选择了几个代表性的视频生成模型进行评估。CogVideoX1.5-5B-I2V作为一个中等规模的模型,在基础测试中获得了27.3%的整体得分。HunyuanVideo-I2V这个由国内团队开发的模型也获得了类似的性能表现。相比之下,Wan2.2-I2V-A14B模型显示出了更强的推理能力,整体得分达到了37.1%。这些差异反映了不同模型架构和训练策略对推理能力的影响。
商业化模型的表现更加亮眼。Runway Gen-4 Turbo作为商业视频生成的代表,整体得分达到了40.3%。更令人印象深刻的是OpenAI的Sora 2模型,其整体得分达到了54.6%,在所有测试模型中表现最为出色。Google的Veo 3.1模型也展现出了48.0%的强劲性能。这些结果表明,商业化模型在推理能力方面确实领先于开源模型,但这种差距正在逐步缩小。
特别值得关注的是专门为视频推理优化的VBVR-Wan2.2模型,它在基础测试中就达到了68.5%的出色表现,远超其他所有模型。当应用研究团队提出的改进方法后,这个模型的性能进一步提升到71.6%,创造了新的性能记录。这种显著的性能优势证明了专门针对推理能力进行优化的重要性。
测试还揭示了不同模型在各种推理任务类型上的表现差异。抽象推理任务对所有模型都构成了挑战,即使是表现最好的VBVR-Wan2.2模型在这类任务上的得分也只有76.0%。知识应用任务的表现相对较好,大多数模型都能达到50%以上的准确率。感知理解任务的结果显示出较大的模型差异,从最低的13.5%到最高的70.5%不等。
空间推理能力的测试结果特别有启发性。商业化模型在这方面普遍表现出色,Sora 2在空间推理任务上达到了58.1%的得分,而开源模型的表现相对较弱。这种差异可能反映了商业化模型在训练数据和算法优化方面的优势,也暗示了空间推理可能是视频AI发展的一个重要方向。
变换操作任务的测试揭示了另一个有趣的现象。VBVR-Wan2.2模型在这类任务上表现异常出色,达到了83.3%的得分,远超其他所有模型。这种专项优势可能与该模型的特殊训练策略有关,也证明了针对性优化的价值。
领域泛化能力的测试提供了模型实用性的重要指标。大多数模型在面对训练期间未见过的任务类型时表现都会有所下降,但下降幅度差异很大。VBVR-Wan2.2模型展现出了相对较好的泛化能力,在领域外测试中仍能保持61.0%的性能,而一些模型的性能下降幅度超过了20个百分点。
研究团队还特别关注了改进方法在不同模型上的效果差异。实验结果显示,这种基于推理机制理解的改进方法对专门优化的推理模型效果最为显著,而对通用视频生成模型的改进效果相对有限。这种差异性暗示,AI的推理机制在不同模型架构中可能存在显著差异,需要针对性的分析和优化策略。
特别有趣的是人类表现基准的设置。在相同的测试任务上,人类评估者达到了97.4%的整体准确率,这为AI模型的性能提供了一个重要的参考标准。虽然目前最好的AI模型与人类性能仍有显著差距,但这种差距正在快速缩小,特别是在某些特定类型的推理任务上。
这些全面的评估结果不仅验证了研究团队关于AI推理机制的发现,也为未来的AI发展提供了重要的方向指引。结果表明,专门针对推理能力的优化比单纯追求视觉效果更能提升AI的实用价值,同时也证明了理解AI内在机制对于推动技术进步的重要意义。
七、从视频帧数看AI推理的空间需求
在深入研究AI推理机制的过程中,研究团队发现了一个看似矛盾但实际上非常重要的现象:虽然AI的推理主要发生在生成步骤而非视频时间轴上,但视频的帧数仍然对推理性能产生显著影响。这个发现为我们理解AI推理提供了一个全新的视角。
为了探索这种影响,研究团队设计了一系列控制实验,系统地测试了不同帧数对AI推理性能的影响。他们从单帧推理开始,逐步增加到5帧、9帧、17帧、33帧,直到65帧,每个设置都进行了详细的性能测试。
单帧推理的实验特别有启发性。研究团队借鉴了ChronoEdit的方法,将视频生成模型改造为图像编辑模型,通过特殊的位置编码技术让AI在单帧上进行推理。这种设置下,AI的整体性能只有58.1%,与多帧设置相比有显著差距。这个结果初看起来支持了帧序列推理的观点,但深入分析后发现了不同的解释。
当帧数增加到5帧时,AI的性能立即跃升到61.9%。进一步增加到9帧时,性能继续提升至63.2%。这种快速的性能提升表明,即使少量的额外帧数也能为AI推理提供重要支持。随着帧数继续增加到17帧和33帧,性能分别达到66.3%和68.5%,显示出稳定的上升趋势。
有趣的是,当帧数增加到65帧时,性能反而略有下降,降至67.5%。这种现象暗示存在一个最优的帧数范围,过多的帧数可能会引入噪声或计算负担,反而影响推理效果。最终,标准的VBVR-Wan2.2模型使用约100帧时达到了68.5%的性能峰值。
这些实验结果的关键洞察在于重新定义帧数的作用。研究团队提出,视频帧不是推理过程的"时间步骤",而是AI推理的"工作空间"或"草稿本"。就像人类解决复杂数学题时需要草稿纸来记录中间步骤和尝试不同方法一样,AI也需要足够的"空间"来存储和操作推理过程中的各种信息。
在这种理解下,单帧推理的局限性就变得清晰了。当只有一帧可用时,AI必须在同一个空间中处理输入信息、中间结果和最终输出,这种限制严重约束了推理的复杂性和灵活性。增加帧数就像是为AI提供了更大的工作台,让它能够同时展开多个推理分支,保存中间状态,进行更复杂的信息组织。
这种"空间化"的推理模式在复杂任务中表现得更加明显。当AI需要处理多步骤推理、保持长期记忆或探索多个可能性时,额外的帧数提供了必要的"存储空间"。这解释了为什么在某些特别复杂的推理任务中,帧数的影响比在简单任务中更加显著。
研究团队还观察到,AI对帧数的利用具有高度的自适应性。在简单任务中,AI主要使用少数几帧就能完成推理,而多余的帧保持相对静态。在复杂任务中,AI会充分利用所有可用的帧,在不同帧中存储不同类型的信息或推理状态。这种动态的资源分配策略表明AI具有某种"空间管理"能力。
这个发现对AI系统设计具有重要意义。它表明,为AI提供适当的"工作空间"与优化推理算法同样重要。这种空间不一定是视频帧,也可能是其他形式的表示空间,但关键是要给AI足够的自由度来组织和操作信息。
同时,这也解释了为什么某些类型的AI任务对计算资源有特殊需求。复杂推理不仅需要强大的计算能力,还需要充足的表示空间。在资源受限的环境中,如何在空间大小和推理复杂性之间找到最佳平衡点,成为一个重要的工程问题。
这种对帧数作用的重新理解也为视频AI的未来发展指明了方向。与其简单地增加帧数或提高视频分辨率,更有效的策略可能是设计更智能的空间利用机制,让AI能够根据任务需求动态调整其工作空间的组织方式。
八、压缩推理步骤的探索:4步蒸馏模型实验
在AI发展的实际应用中,推理速度往往与推理质量同样重要。为了探索是否可以在保持推理能力的同时大幅减少计算时间,研究团队进行了一个特别有挑战性的实验:将原本需要50个步骤的推理过程压缩到仅仅4个步骤。
这个实验使用了模型蒸馏技术,这是一种将大型、慢速模型的能力转移到小型、快速模型的方法。研究团队选择了Wan2.2-I2V-14B模型作为基础,通过Phased DMD技术将其推理步骤从50步压缩到4步,压缩比例超过12倍。同时,他们还结合了两种LoRA适配器:一个基于VBVR-Wan2.2来增强推理能力,另一个基于4步蒸馏模型来保持生成质量。
实验结果揭示了推理压缩的复杂性。虽然生成步骤被大幅压缩,但推理所需的"时间"并不能按比例缩减。研究团队发现,原本在早期步骤中出现的多路径探索和叠加态探索等关键推理现象,在压缩后的模型中仍然存在,但变得更加集中和强化。
在迷宫导航任务中,4步模型仍然能够展现出多路径探索能力。在第一步中,研究人员观察到AI同时显示了多条可能的路径,这些路径以更加鲜明的方式并存。然而,由于步骤数量的限制,这种探索过程变得更加急促,AI必须在更短的时间内做出关键决策。
模式补全任务的结果更加引人注目。在标准50步模型中需要10-15步才能完成的推理过程,在4步模型中被压缩到仅仅2-3步内完成。尽管如此,叠加态探索的现象依然清晰可见,多种可能的图案同时出现在早期步骤中,然后快速收敛到正确答案。
然而,压缩也带来了明显的代价。4步模型在VBVR-Bench上的整体性能从标准模型的68.5%下降到60.5%,降幅约为8个百分点。这种性能下降主要出现在需要复杂多步推理的任务中,而在相对简单的感知任务中,性能下降较为有限。
特别值得注意的是,研究团队观察到压缩模型存在一个"探索窗口"问题。在某些情况下,噪声调度器会在第一步中过度降低噪声水平,导致探索阶段被过早终止。当这种情况发生时,AI失去了进行多路径探索的机会,推理质量显著下降。这个发现强调了在模型压缩过程中保持关键推理阶段的重要性。
记忆保持能力在压缩模型中表现出了有趣的变化。虽然绝对的记忆容量有所下降,但AI仍然能够保持核心的记忆功能。在物体移动和返回任务中,4步模型仍然能够准确记住物体的初始位置,但这种记忆的稳定性不如原始模型。
自我纠错能力受到的影响最为显著。原本需要5-8步才能完成的错误识别和修正过程,在4步模型中往往来不及完成。研究人员观察到,AI经常能够识别问题所在,但缺乏足够的步骤来实施有效的修正。这表明自我纠错是一个相对耗时的认知过程,难以被极度压缩。
尽管存在这些限制,4步模型的成功也证明了AI推理的一定韧性。即使在极度压缩的条件下,核心的推理机制仍然能够发挥作用,这为未来的高效AI系统设计提供了希望。研究团队认为,关键在于识别推理过程中最不可压缩的部分,并在优化过程中重点保护这些关键阶段。
这个实验的另一个重要发现是推理步骤的非均匀重要性。不是所有的推理步骤都同等重要,某些关键步骤(特别是早期的探索阶段)对最终结果的影响远大于其他步骤。这个洞察为设计更智能的推理压缩策略提供了方向:与其均匀地压缩所有步骤,更好的策略可能是保护关键步骤,压缩相对不重要的步骤。
从实用角度来看,4步模型的表现表明,在对推理质量要求不是极度苛刻的应用场景中,大幅的推理加速是可能的。特别是在需要实时响应或计算资源受限的环境中,这种性能与速度的平衡可能具有重要价值。
这个实验还揭示了推理复杂性的一个根本特征:真正的推理需要时间,不仅仅是计算时间,更是"思考时间"。就像人类不能在瞬间解决复杂问题一样,AI也需要一定的步骤来展开其推理过程。理解这种时间需求的本质,对于设计既高效又智能的AI系统至关重要。
说到底,这项由SenseTime Research领头、联合多所顶尖高校完成的研究,就像是给AI的"思考过程"拍了一部纪录片。过去我们一直以为AI是按照视频的时间顺序一帧一帧地思考问题,但这项研究发现,AI真正的思考其实是在生成过程的每个步骤中同时考虑整个问题,就像一个超级大脑能够同时处理多条思路。
最有趣的是,AI竟然发展出了三种非常像人类的思考习惯:能够记住重要信息、会修正自己的错误、知道先观察再行动。这些发现不仅让我们对AI有了全新认识,还帮助研究人员设计出了一种简单有效的改进方法,让AI的推理能力提升了2%。
这项研究的意义远超技术本身。它告诉我们,要让AI变得更聪明,关键不在于简单地增加计算能力或数据量,而在于深入理解AI是如何思考的。就像医生需要了解人体结构才能治病一样,AI研究者也需要了解AI的"思维结构"才能让它变得更强大。对于普通人来说,这项研究预示着未来的AI助手将具备更强的推理能力,能够帮助我们解决更复杂的问题,从日常生活的琐事到工作中的重大决策。
Q&A
Q1:什么是"步骤序列推理",它和传统的帧序列推理有什么不同?
A:步骤序列推理是指AI在生成视频的每个迭代步骤中同时考虑整个视频序列进行推理,而不是按时间顺序逐帧思考。就像一个大厨在烹饪过程中不断调整整道菜的味道,而不是严格按照菜谱一步步操作。这种方式让AI能够进行更灵活和全面的思考。
Q2:AI的多路径探索和叠加态探索具体是怎样的现象?
A:多路径探索是指AI同时考虑多个可能的解决方案,比如在迷宫中同时显示多条可能路径,然后逐步淘汰错误选项。叠加态探索则是AI将多个互斥状态重叠显示,比如在图案补全任务中同时显示不同大小的圆形重叠在一起,最终收敛为正确答案。
Q3:研究团队提出的训练-free改进方法是如何工作的?
A:这种方法让同一个AI模型用不同随机种子同时进行三次推理,然后在关键的推理层级(第20-29层)对结果进行融合。就像让多个专家同时思考一个问题然后综合他们的智慧,这样能保留更多可能性,避免单次推理可能的偏差,最终提升2%的性能。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)