【Video Agent】(NeurIPS 2025)VideoLucy: Deep Memory Backtracking for Long Video Understanding
【Video Agent】(NeurIPS 2025)VideoLucy: Deep Memory Backtracking forLong Video Understanding
写在前面:如果想了解更多关于长视频理解和视频智能体新工作,可以关注笔者的Github仓库:Awesome-Video-Agent。
论文简介 🍀
- 📖 题目:VideoLucy: Deep Memory Backtracking forLong Video Understanding
- 📅 来源:NeurIPS 2025
- 🏫 单位:1、 National Key Laboratory of Multispectral Information Intelligent Processing Technology, School of Artificial Intelligence and Automation, Huazhong University of Science and Technology;2、 NUS;3、 S-Lab, NTU;4、 Shanghai AI Lab
- 🌍 主页:https://videolucy.github.io/
- 💻 代码:已开源
- ✒️ 摘要:近期研究表明,利用大语言模型(LLMs)进行关键信息检索与整合的基于智能体的系统,已成为长视频理解的一种有前景的方法。然而,这些系统面临两大挑战。第一,它们通常在单个帧上进行建模与推理,难以捕捉连续帧的时间上下文。第二,为了降低稠密帧级描述的成本,它们采用稀疏帧采样,这有可能丢弃关键信息。为克服这些局限,论文提出了VideoLucy,一种用于长视频理解的深度记忆回溯框架。受人类由粗到细的回忆过程启发,VideoLucy采用具有渐进粒度的层次化记忆结构。该结构在不同层次深度上,显式定义了记忆的细节层级与时间范围。通过一种基于智能体的迭代式回溯机制,VideoLucy系统性地挖掘与问题相关、覆盖整个视频的深层记忆,直到收集到足够的信息以给出一个有把握的答案。这一设计在保留关键细节的同时,实现了对连续帧的有效时间理解。此外,论文引入了一个新的长视频理解基准EgoMem。EgoMem旨在全面评估模型理解随时间展开的复杂事件并捕捉超长视频中细粒度细节的能力。大量实验表明了VideoLucy的优越性。基于开源模型构建的VideoLucy,在多个长视频理解基准上显著优于现有最先进方法,其性能甚至超过了诸如GPT-4o等最新专有模型。论文的代码和数据集将公开提供。
一、论文阅读
1.1 引言(Introduction)
- 现有方法的不足:
- 一是通常基于单帧进行建模与推理,难以捕捉连续帧的时序上下文;
- 二是为降低稠密帧级描述成本,往往采用稀疏采样,容易丢失关键信息。
- 论文的核心思想(贡献):
- 提出了VideoLucy这一长视频理解的深度记忆回溯框架,核心是渐进粒度的层次化记忆结构和基于智能体的迭代回溯机制,用于系统性挖掘与问题相关的深层记忆,从而兼顾时序理解与细节保留;
- 同时提出了新的超长视频基准EgoMem,用于评测跨时间事件理解和细粒度细节感知;
- 实验表明VideoLucy在多个基准上显著优于现有方法,甚至超过部分最新闭源模型。
长视频理解是一项备受关注的任务,其核心目标是基于整个视频内容,准确且客观地回答各种用户问题。这一过程要求系统对视频中的几乎所有细节都具备全面的记忆与把握;否则,信息缺失可能导致不准确的回答。
这种对全面记忆的需求使人联想到电影《Lucy》中的一个场景。主人公Lucy因一次意外而获得了对其大脑潜能的完全访问能力,从而拥有了异常强大的记忆力。她能够回忆起自出生以来生命中的每一个细节,甚至包括婴儿时期母亲抚摸她额头时的感觉。这种回溯并精确捕捉所有信息的非凡能力,无论是瞬时画面还是连续事件,正是论文在长视频理解任务中所追求的目标。
近年来,基于智能体的系统已成为长视频理解的一种有前景的方法。与难以处理超长视觉输入的传统视频多模态大语言模型(MLLMs)不同,基于智能体的系统通常利用大语言模型(LLMs)的推理、规划和记忆能力。它们迭代地搜索并整合与问题相关的关键信息,从而促进对长视频更为高效的理解。然而,由于对全面记忆的建模效率不高,这些系统仍然面临两个重大挑战。
一方面,它们通常在单个帧上进行建模与推理,难以捕捉连续帧的时间上下文。本质上,它们利用一个预训练的字幕模型为视频中的每个指定帧生成文本描述。随后,以LLMs为核心,它们构建一个迭代式信息搜索循环,以获取与问题相关的关键帧及其补充描述。例如,DrVideo通过初始的视频帧级文档检索出一组关键帧。然后,它利用多阶段智能体交互循环,逐步更新这组关键帧的文本信息。然而,在长视频理解的真实应用中,许多用户问题都与连续帧的时间上下文紧密相关。这些依赖彼此孤立的单帧信息的系统,在时间理解能力方面相对较弱。
另一方面,它们通常采用稀疏帧采样来降低稠密帧级描述的成本,这有可能丢弃关键信息。显然,为长视频的每一帧生成描述需要大量计算资源和时间。例如,即使论文为一个一小时的视频按每秒1帧生成描述,随后也需要生成并处理总计3,600条描述。因此,这些系统采用一种折中措施,即稀疏帧采样。例如,VideoTree在Video-MME上通过以0.125 FPS对原始帧进行采样来预处理视频。显然,这种稀疏采样的折中将导致长视频理解中大量关键细节信息的丢失。
为了解决上述局限,如图1所示,论文提出了VideoLucy,一个用于长视频理解的深度记忆回溯框架。借鉴认知科学,人类回忆通常是由粗到细地进行,从总体印象开始,逐步检索更细致的细节。VideoLucy同样采用了一种具有渐进粒度的层次化记忆结构。该结构在不同层次深度上显式定义了记忆的细节层级和时间范围。随着记忆向更深层次推进,时间范围会动态收缩,而细节层级会逐步提高。此外,通过所提出的基于智能体的迭代式回溯机制,VideoLucy系统性地挖掘覆盖整个视频、与问题相关的深层记忆,直到收集到足够的信息以给出一个有把握的答案。本质上,正如人类在回忆过去时会从模糊记忆逐渐变得清晰一样,VideoLucy也从对整个视频的模糊记忆开始,并逐步深入到与问题相关的细节记忆中。这一设计使VideoLucy能够在保留关键信息的同时,召回整个视频的全面记忆,并实现有效的时间理解。正如电影中的Lucy一样,VideoLucy也可以说:“我能感觉到我的大脑,感觉到我记忆最深处的部分。”

图1:VideoLucy与现有的基于视频智能体的系统之间的比较。在(a)中,它们通常对稀疏采样的帧执行帧级字幕,然后搜索信息,导致大量信息丢失并妨碍时间理解。在(B)中,VideoLucy通过分层存储器结构和存储器回溯机制,有效地进行多层次的视频表示,实现全面的信息覆盖。
此外,论文还引入了一个新的长视频理解基准EgoMem。EgoMem构建于EgoLife[51]之上,全面评估模型在超长视频中的时间理解与细粒度细节感知能力。通过六种问答设计,它从多个维度评估模型对第一人称日常生活记录中复杂、随时间演化事件的理解能力。此外,EgoMem还衡量模型在长视频中检测转瞬即逝的细节视觉特征的能力,例如那些仅出现几秒钟的特征。该基准总计包含42个视频和504个问答,每个视频的平均时长约为6.33小时。
论文进行了大量实验以验证VideoLucy的优越性。基于开源模型构建的VideoLucy,在多个长视频理解基准上显著优于现有最先进方法,其性能甚至超过了GPT-4o等最新专有模型。例如,在LVBench上,以Qwen2.5-VL-7B作为描述器的VideoLucy取得了58.8%的准确率,相较于GPT-4o提升了9.9%。消融研究和分析进一步验证了层次化记忆结构的有效性,而“视频大海捞针”实验展示了其前所未有的细节感知能力。作为一个具有动态且全面记忆的智能体系统,VideoLucy能够为这一快速发展的长视频理解研究领域铺平未来道路。
1.2 方法(Method)
论文提出了VideoLucy,这是一个用于长视频理解的深度记忆回溯框架。该框架能够基于问题,动态回忆关于整个视频的全面且深入的记忆,从而实现准确回答。首先,论文提出了一种层次化记忆结构,它符合人类回忆过程中由粗到细的转变模式,因此能够高效地对长视频中的丰富信息进行建模。(第1.2.1节)接着,论文提出了通过提示工程赋予不同角色的多个智能体,这些智能体在记忆回溯过程中完成各自的任务。(第1.2.2节)最后,论文提出了一种迭代式回溯机制。通过一个多阶段的迭代循环流程,它动态探索与问题相关的深层记忆,从而在广度和深度两个方面高效收集足够的信息。(第1.2.3节)简言之,在对整个长视频具有模糊理解的基础上,VideoLucy被设计为通过不断扩展并深入其对视频的记忆,来实现准确的问题回答,就像人类回忆过去事件一样。
1.2.1 分层存储结构(Hierarchical Memory Structure)
论文论证了,一个能够有效表征整个长视频丰富信息的良好记忆结构应当具备如下特征。
1)多层级表征(Multi-level representation)
考虑到实际问题所对应的时间范围通常跨度很大。例如,有些问题关注某一瞬时的单帧理解,而另一些问题则需要对大时间范围内的视觉内容进行整体理解。那么,一个良好的记忆结构应当对这种多粒度的时间范围进行建模,换言之,它应当具备多层级表征的能力。
2)全面信息覆盖(Comprehensive Information Coverage)
长视频的一个显著特征是包含海量视觉信息。然而,现有基于稀疏帧采样的方法天然会导致严重的信息损失。考虑到实际应用中问题对信息量需求的不确定性,一个良好的记忆结构应当能够实现对整个视频信息的全面覆盖。
基于上述论证,论文提出了一种新的层次化记忆结构,该结构在有效表征多层级时间范围内视觉内容的同时,实现了对整体视频信息的全面建模覆盖。
具体而言,对于一个具有 N N N帧的视频 V V V,论文使用 f i y i f_i^{y_i} fiyi来表示每一帧,其中 i i i是该帧在视频中的索引, y i y_i yi是指示该帧属于哪个片段的标签。然后,论文将视频划分为 K K K个短片段,并用 v k v_k vk表示每个短片段,其中 k k k是短片段的索引。 f i ∈ v k f_i \in v_k fi∈vk当且仅当 y i = k y_i = k yi=k的含义是:如果 f i f_i fi的片段标签 y i y_i yi为 k k k,则该帧属于第 k k k个片段。接着,对于单个片段 v k v_k vk,其记忆被形式化为:
m k = V i d C a p ( v k , p k ) , ( 1 ) m_k = \mathrm{VidCap}(v_k, p_k), \quad(1) mk=VidCap(vk,pk),(1)
其中, V i d C a p \mathrm{VidCap} VidCap表示任何能够基于指令提示 p k p_k pk对给定视频提供整体文本描述的视频MLLMs。可以观察到,这个公式本质上通过显式约束每个片段中的帧数来确定记忆的时间范围。当 K = 1 K=1 K=1时,这种记忆退化为对整个视频的整体概览。当 K = N K=N K=N时,这些记忆表示对视频每一帧的详细描述。
随后,论文可以通过为 K K K指定不同的值来获得具有不同时间感知范围的记忆。论文显式定义了三种时间感知范围依次减小的记忆,以形成层次化记忆结构。一个玩具示例如图2所示。从浅层到深层,它们分别是长范围粗记忆、短范围细记忆,以及帧级超细记忆。随着片段划分变得更密集,对于相同长度的视频,这些记忆中的文本描述数量会增加,从而实现渐进式的记忆细节粒度。借助这样的记忆结构,论文不仅实现了长视频的多层级表征,也实现了全面的信息覆盖。

图2: 层次化记忆结构的一个玩具示例:对于某一时间片段的视频片段,随着记忆层级加深,每秒捕获的帧数增加,而记忆所覆盖的时间跨度缩短,从而实现具有全面信息覆盖的多层级视频表征。
1.2.2 赋予不同角色的多个智能体(Agents with Empowered Roles)
作为基于智能体的系统的一种常见实践,通过提示工程,一个MLLM和LLM被赋予各自的角色,以形成不同的智能体。这些智能体需要在后续的记忆回溯过程中完成各自的任务。为方便起见,论文将各个智能体的角色列举如下。更多细节可见附录。
描述智能体(Captioning Agent)。给定一个视频片段和一条用于引导关注重点的描述指令,这个以MLLM为基础的智能体能够提供满足要求的片段文本描述。它的作用是充当整个系统的“眼睛”。通过将视觉信息转换为文本内容,它使系统能够感知视频并提取记忆。
定位智能体(Localization Agent)。给定视频的当前记忆(包括各个时间段的文本描述)以及问题,这个以LLM强大的文本理解能力为核心的智能体,能够给出与问题最相关的指定数量的时间段。该智能体使系统能够滤除干扰性记忆,并进一步深入相关记忆,从而实现准确且高效的问答。
指令智能体(Instruction Agent)。给定视频的当前记忆、来自定位智能体的感兴趣相关时间段以及问题,这个智能体能够全面理解当前记忆,分析给定时间段中缺失的与问题相关的关键信息,并提供一条引导性的描述指令。随后,这条指令使描述智能体能够进一步深入记忆,从而补充与问题相关的信息。
回答智能体(Answering Agent)。给定视频的当前记忆和问题,这个智能体能够通过深入推理与思考,判断其是否能够基于当前记忆,严格且客观地对问题给出一个有把握的答案。如果能够回答,它将给出答案。如果不能回答,它将输出一个无把握标记。这个智能体不仅应当具备回答问题的能力,还承担着决定是否进一步探索记忆的任务。
1.2.3 迭代回溯机制(Iterative Backtracking Mechanism)
尽管论文提出的层次化记忆结构实现了对整个长视频信息的多层级和全面覆盖,但显而易见的是,如果系统只是简单地建立在完整记忆之上,必然会引入极高的计算和存储成本,而且也很可能超过LLM的上下文限制。此外,考虑到用户的问题通常聚焦于关键时间段,大量无关的深层记忆也会变成不可忽视的干扰信息,从而影响系统性能。
因此,论文提出了一种新的迭代式回溯机制。通过一个由智能体驱动的迭代循环,论文持续更新由稀疏粗记忆初始化得到的当前记忆,从而在广度和深度两个方面动态探索与问题相关的记忆。该机制模拟了人类的回忆过程,并以相对较低的资源成本,实现了对与问题相关信息的全面搜索与整合。

算法1 迭代式回溯机制
输入:视频 V V V,问题 Q Q Q,描述智能体 C a p A G T \mathrm{CapAGT} CapAGT,定位智能体 L o c A G T \mathrm{LocAGT} LocAGT,指令智能体 I n s A G T \mathrm{InsAGT} InsAGT,回答智能体 A n s A G T \mathrm{AnsAGT} AnsAGT,以及分别对应粗记忆、细记忆和超细记忆的指定时间范围 T c T_c Tc、 T f T_f Tf、 T u f T_{uf} Tuf。
- 1:执行稀疏粗记忆初始化,得到初始当前记忆列表 C M CM CM。
- 2:初始化相关时间段集合 S r t = { } S_{rt}=\{\} Srt={}。
- 3:基于当前记忆获得回答 R = A n s A G T ( C M , Q ) R=\mathrm{AnsAGT}(CM,Q) R=AnsAGT(CM,Q)。
- 4:当 R R R不自信时
- 5:定位不在 S r t S_{rt} Srt中的、与问题最相关的单个时间段 t = L o c A G T ( C M ∖ S r t , Q ) t=\mathrm{LocAGT}(CM\setminus S_{rt},Q) t=LocAGT(CM∖Srt,Q)。
- 6:将该时间段 t t t加入相关集合 S r t S_{rt} Srt中,即 S r t ← S r t ∪ t S_{rt}\leftarrow S_{rt}\cup{t} Srt←Srt∪t。
- 7:分析缺失的问题关键信息,并给出指令提示 p = I n s A G T ( C M , Q , t ) p=\mathrm{InsAGT}(CM,Q,t) p=InsAGT(CM,Q,t)。
- 8:从视频 V V V中获得与该时间段 t t t对应的视频片段 V t V_t Vt。
- 9:按 T d T_d Td将 V t V_t Vt划分为短片段 ( t i , V t i ) i = 1 L {(t_i,V_t^i)}{i=1}^{L} (ti,Vti)i=1L, ∣ t ∣ = T c ⇒ T d = T f |t|=T_c\Rightarrow T_d=T_f ∣t∣=Tc⇒Td=Tf, ∣ t ∣ = T f ⇒ T d = T u f |t|=T_f\Rightarrow T_d=T{uf} ∣t∣=Tf⇒Td=Tuf。
- 10:获得该时间段更新后的当前深度记忆 m c = C a p A G T ( V t , p ) m_c=\mathrm{CapAGT}(V_t,p) mc=CapAGT(Vt,p)。
- 11:获得该时间段的更深层记忆 m d i i = 1 L = C a p A G T ( V t i , p ) i = 1 L {m_d^i}{i=1}^{L}={\mathrm{CapAGT}(V_t^i,p)}{i=1}^{L} mdii=1L=CapAGT(Vti,p)i=1L。
- 12:更新 C M CM CM: C M ← C M ∪ ( t , m c ) ∪ ( t i , m d i ) ∣ i = 1 , ⋯ , L CM\leftarrow CM\cup{(t,m_c)}\cup{(t_i,m_d^i)\mid i=1,\cdots,L} CM←CM∪(t,mc)∪(ti,mdi)∣i=1,⋯,L。
- 13:基于更新后的当前记忆获得回答 R = A n s A G T ( C M , Q ) R=\mathrm{AnsAGT}(CM,Q) R=AnsAGT(CM,Q)。
- 14:结束循环
输出:对问题 Q Q Q给出有把握答案的最终回答 R R R。
稀疏粗记忆初始化(Sparse Coarse Memory Initialization)
论文维护一个动态更新的当前记忆列表 C M CM CM,它由稀疏粗记忆进行初始化。具体而言,对于单个视频 V = { f i } i = 1 N V=\{f_i\}_{i=1}^{N} V={fi}i=1N,论文首先设置一个对应粗记忆的相对较大的时间范围 T c T_c Tc。将描述智能体作为视频描述器,依据式1可以获得 K c K_c Kc个文本描述 { m c k } k = 1 K c \{m_c^k\}_{k=1}^{K_c} {mck}k=1Kc,其中 K c = ⌈ N T c ⌉ K_c=\lceil\frac{N}{T_c}\rceil Kc=⌈TcN⌉。同时,也记录视频中每个 m c k m_c^k mck所对应的时间段 t k t_k tk。然后,论文初始化当前记忆列表,得到 C M i n i t = { ( t k , m c k ) } k = 1 K c CM_{init}=\{(t_k,m_c^k)\}_{k=1}^{K_c} CMinit={(tk,mck)}k=1Kc。然而,如前所述,大多数记忆与问题无关。因此,论文也采用稀疏策略。具体来说,对于一个问题,论文利用定位智能体在 C M i n i t CM{init} CMinit中找到若干最相关的时间段,形成时间段集合 S t S_t St。随后,可依据时间索引进行筛选,从而得到更新后的当前记忆列表 C M s i n i t = C M i n i t ∩ S t CM_{sinit}=CM_{init}\cap S_t CMsinit=CMinit∩St。
在深度和广度上的问题引导式记忆探索(Question-guided Memory Exploration in Depth and Breadth)
&emsp一般来说,正如人类难以仅根据模糊记忆确定过去事件的细节一样,仅依赖粗粒度的初始当前记忆列表,不足以对问题给出一个有把握的回答。因此,论文设计系统在深度(同一时间段的细节层级)和广度(不同时间段)两个方面进行记忆探索,以进一步搜索全面的、与问题相关的信息。具体而言,给定一个问题和当前记忆列表,论文首先让定位智能体定位与问题最相关的单个时间段。然后,论文让指令智能体分析该时间段当前文本描述中缺失了哪些与问题相关的关键信息,从而给出一个描述指令。最后,论文指示描述智能体根据该时间段的视频片段和描述指令,生成两类文本描述。一方面,它为整个视频片段重新生成新的文本描述(更新当前深度记忆)。另一方面,它将该视频片段划分为更多短片段,并为其中每一个生成文本描述(探索更深层记忆)。这些描述将用于更新当前记忆列表。通过迭代执行这一过程,论文获得了由与问题相关文本描述增强的不同时间段的记忆。换言之,在深度和广度两个方面的记忆探索都得以实现。
由智能体驱动的迭代循环(Agent-driven Iterative Loop)
为了高效回答关于长视频的问题并持续收集与问题相关的深层记忆,论文提出了一个由多个智能体驱动的迭代循环。上述两个过程作为系统的核心功能,被用于这一由智能体驱动的迭代循环中。具体的算法流程如算法1所示。简而言之,论文首先通过所提出的稀疏粗记忆初始化方法,获得一个与问题强相关的记忆列表。然后,基于这一记忆列表,论文在问题的引导下开展多次迭代式记忆探索,从而充分搜索并整合视频中不同时间段上与问题相关的细节信息。只有当回答智能体认为更新后的记忆列表中所包含的信息足以使其有把握地回答该问题时,迭代循环才会停止。随后,它将输出相应的有把握答案。在实践中,论文设置了最大迭代次数,以防止陷入会导致超时的信息搜索链。通过多个智能体的协作,该迭代循环能够高效实现与问题相关的记忆回溯,从而通过尽可能搜索和整合客观线索来提供有把握的回答。
1.2.4 EgoMem基准(EgoMem Benchmark)
论文构建了一个新的超长视频理解基准,称为EgoMem,旨在衡量对长视频中瞬时性(细节感知)与连续性(事件理解)记忆进行建模的能力。基于EgoLife的视频资源,论文为每天的长视频人工标注了问答对,这些问答对特别关注对跨时间事件的理解以及对瞬时视觉特征的感知。如图3所示,对于事件理解,论文设计了六种不同的问题类型,以对模型的性能进行真实意义上的全面而有效的评估,并避免走捷径。此外,论文还人工标注了关于那些瞬时时间片段中细微视觉特征的问题,以评估模型是否能够有效覆盖详细信息。该基准包含42个视频,平均时长为6.33小时,共有504个问题。更多细节可见附录。

1.3 实验(Experiments)
1.3.1 任务与数据集(Tasks & Datasets)
Implementation Details. 作为一个基于智能体的系统,论文的VideoLucy仅需要一个LLM和一个MLLM来分别进行文本理解和视觉描述。不同于大多数调用昂贵闭源专有模型API的方法,若无特别说明,论文始终使用开源模型Qwen-2.5-VL-7B和DeepSeek-R1,以确保结果的可复现性和较低成本。时间范围 T c T_c Tc、 T f T_f Tf、 T u f T_{uf} Tuf针对不同视频基准具有不同设置。更多细节,尤其是各智能体的提示词,见附录。
Evaluation Benchmarks and Metrics. 遵循常见做法,论文主要在三个现有长视频基准上开展实验。MLVU是一个综合性基准,旨在评估全局和局部视频理解,涵盖九种多样任务。其视频时长范围为3分钟到2小时。Video-MME [11]包含900个不同视频的2,700个人工标注问题,视频时长分为短(< 2min)、中(4min~15min)和长(30min~60min)。论文报告其无字幕设置下的结果。LVBench [44]面向超长视频理解,包含99个视频的1,492个问题,平均时长为4,101秒。它包含6种多样任务,且全部由高质量人工标注支持。此外,论文还使用所提出的EgoMem基准进行进一步性能比较。默认设置下,论文使用准确率作为评测指标。
1.3.3 对比实验(Comparison with State-of-the-arts)




1.3.4 消融实验(Ablation Study)


二、论文理解&总结
暂时省略,用到再分析。
三、代码学习
暂时省略,用到再分析。
写在最后
由于笔者🖊️精力有限且本文更多的目的是通过📒博客记录学习过程并分享更多知识,因此文中部分描述不太具体,如有不太理解💫的地方可在评论区👀留言。非特殊赶deadline⏰或假期⛱️期间,笔者会经常上线回复💬。如有不便之处,请海涵~
如果想了解更多关于长视频理解和视频智能体新工作,可以关注笔者的Github仓库:Awesome-Video-Agent。
另外,创造不易,转载请注明出处💗💗💗~
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)