【Video Agent】（Arxiv2508）Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

若叶€枫璨

450人浏览 · 2026-03-17 08:56:35

若叶€枫璨 · 2026-03-17 08:56:35 发布

【Video Agent】（Arxiv2508）Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

论文简介 🍀
一、论文阅读
二、论文理解&总结
三、代码学习
写在最后

写在前面：如果想了解更多关于长视频理解和视频智能体新工作，可以关注笔者的Github仓库：Awesome-Video-Agent。

论文简介 🍀

📖 题目：Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

📅 来源：Arxiv

🏫 单位：City University of Hong Kong；University of Science and Technology of China；Tianjin University；Nanjing University；Zhejiang University；JD.com；The Institute of Artificial Intelligence (TeleAI), China Telecom

🌍 主页：https://arxiv.org/pdf/2508.09486

💻 代码：无公开链接

✒️ 摘要：视频大语言模型（Video-LLMs）已经展现出较强的视频理解能力，但其在长视频上的应用仍然受限于上下文窗口有限。一个常见的变通方法是通过检索或摘要将长视频压缩为少量具有代表性的帧。然而，现有大多数流程都是孤立地对帧进行评分，隐式地假设帧级显著性足以支持下游推理。这往往会导致冗余选择、时间证据碎片化，以及长视频问答中的叙事基础被削弱。论文提出Video-EM，这是一种免训练、以事件为中心的情景记忆框架，它将长视频问答重新表述为情景事件构建以及随后进行的记忆精炼过程。Video-EM不将检索到的关键帧视为彼此独立的视觉内容，而是使用大语言模型作为主动记忆智能体来编排现成工具：首先通过多粒度语义匹配定位与查询相关的时刻，然后将这些时刻分组并切分为时间上连贯的事件，最后将每个事件编码为具有显式时间索引和时空线索的具身情景记忆（捕捉何时、何地、发生了什么以及涉及的实体）。为了进一步抑制由上游信号不完美带来的冗长性和噪声，Video-EM集成了一个由推理驱动的自反思循环，该循环迭代地验证证据充分性和跨事件一致性，去除冗余，并自适应地调整事件粒度。其结果是一个紧凑而可靠的事件时间线——一组最小但充分的情景记忆集合，可以被现有视频大语言模型直接使用，而无需额外训练或架构修改。大量长视频理解基准实验表明，Video-EM在使用显著更少帧数的情况下，相比强检索式关键帧基线仍能取得极具竞争力的准确率。

一、论文阅读

1.1 引言（Introduction）

现有方法的不足：现有长视频方法大多把长视频压缩成少量关键帧，并将关键帧当作彼此独立的证据，这会带来三点问题：

一是忽视时间连贯性，导致场景转换和上下文连续性被削弱；
二是容易检索到重复帧，浪费有限上下文并稀释关键信号；
三是已有记忆类方法往往更强调“发生了什么”，但对“何时、何地、涉及哪些对象”的表达不足，因而削弱时空定位与叙事落地。

论文的核心思想（贡献）：

论文提出了一个以事件为中心的长视频理解范式，用情景记忆替代以帧为中心的采样；

提出了免训练框架 Video-EM，用大语言模型智能体结合现成工具完成相关时刻定位、事件组织和记忆精炼，生成最小但充分的事件时间线；

实验表明，该方法在多个长视频基准上用更少帧数取得了更好的 VideoQA 表现，并且可直接适配主流 Video-LLMs。

视频大语言模型（Video-LLMs）的快速发展已经在视频理解方面取得了显著进展，尤其是在视频问答方面，展现出对真实世界场景进行建模的强大潜力。然而，随着视频内容从几分钟延伸到长达数小时的序列，Video-LLMs 有限的上下文窗口成为长视频理解中的瓶颈，难以保留长时程证据和连贯叙事。

为弥合这一差距，越来越多的工作开始研究用于长视频理解的免训练帧采样与检索策略。这些方法将长视频压缩为一小组与查询相关的关键帧，将问题简化为静态的文本-图像匹配。尽管在实践中有效，这种以帧为中心的表述对于叙事推理引入了两个关键局限。第一，独立地选择并描述帧，未能充分利用时间连贯性，掩盖了场景转换并削弱了上下文连续性，而这两者对于长视频中的复杂多步问题至关重要。第二，查询驱动的采样由于长视频中重复场景或相似视角，常常返回冗余帧。这种冗余不仅浪费了稀缺的上下文预算，还会稀释显著线索并削弱下游推理，如图1所示。

在这里插入图片描述

在这项工作中，论文认为长视频问答应当被表述为以事件为中心的情景记忆构建，而不是以帧为中心的快照检索。人类之所以能够实现终身推理，并不是通过存储孤立的快照，而是通过将显著经历整合为情景记忆——嵌入在丰富时空上下文中的离散事件，这些事件支持“心理重演”。

受此启发，论文提出 Video-EM，这是一种免训练的智能体框架，它将长视频理解重新表述为一个动态的记忆构建与精炼过程。不同于将帧视为固定且独立输入的静态流程，Video-EM 将大语言模型作为主动记忆智能体，编排现成工具，对视觉证据进行迭代式规划、分组和落地。在此过程中，Video-EM 将这些证据组织为按时间排序的事件，并将每个事件编码为具有显式时间索引和落地线索的情景记忆，从而保留事件内的空间落地和事件间的时间结构。这种表示通过捕捉事件发生的时间和地点、发生了什么以及涉及哪些对象，提供了叙事落地能力，使 Video-LLMs 能够基于紧凑证据对长视频进行推理。然而，这类事件记忆仍然可能较为冗长，因此 Video-EM 进一步引入了一个由推理驱动的反思循环，自适应地剪除冗余，以为每个查询获得最小但充分的证据集。

具体而言，Video-EM 分为三个阶段运行：

第一，通过多粒度语义匹配识别相关时刻；
第二，通过围绕这些时刻进行分组与切分，提出连贯事件以保留上下文；
第三，通过迭代式工具编排对这些情景记忆进行精炼。

通过一个自反思循环，该智能体识别并缓解潜在幻觉或工具层面不一致，从而确保最终得到的记忆不仅有依据，而且在上下文上可靠。最终输出是一个紧凑的“事件时间线”，即一组最小但信息充分的情景记忆，可以直接输入现有 Video-LLMs 进行准确而高效的回答，而无需额外训练或架构修改。总体而言，论文的贡献有三点：

论文提出了一种用于长视频理解的以事件为中心范式，该范式利用情景记忆作为一种具有叙事落地能力的结构化表示，超越了传统的以帧为中心采样。
论文提出了 Video-EM，这是一种免训练的智能体框架，其中基于大语言模型的记忆智能体利用现成工具来定位相关时刻、将其组织为事件，并将有依据的情景记忆精炼为一个最小但充分的事件时间线。
在长视频理解基准上的大量实验表明，Video-EM 在使用更少帧数的情况下持续提升了视频问答性能，并且与主流 Video-LLMs 具有广泛兼容性。

1.2 方法（Method）

论文提出 Video-EM，这是一种免训练的智能体框架，其中，基于大语言模型的记忆智能体（LLM-based memory agent）利用现成工具：

（i）通过关键事件选择定位与查询相关的时刻；
（ii）通过将这些时刻组织为情景单元来构建时间上连贯的事件；
（iii）通过基于思维链的迭代精炼来优化有依据的情景记忆；

从而为下游 Video-LLMs 生成一条最小但充分的“事件时间线”（见图2）。

在这里插入图片描述

1.2.1 关键事件选择（Key Event Selection）

朴素的查询相关时刻定位通常依赖粗粒度的语义匹配，由于语义覆盖有限，往往会遗漏关键上下文，尤其是在长视频理解中。为了解决这一问题，关键事件选择模块首先执行多粒度语义检索，以识别稀疏但信息丰富的候选时刻；然后应用事件扩展与分割，以获得围绕检索锚点的时间上连续的时刻片段。这些片段作为与查询相关的证据，用于后续的情景事件构建。

多粒度语义检索（Multi-grained Semantic Retrieval）。给定一个由 $N$ 帧组成的视频 $V=\{f_i\}_{i=1}^{N}$ ，其中 $f_i$ 是第 $i$ 帧，目标是提取一组与给定自然语言查询 $q$ 最相关的代表性关键帧。为实现这一目标，首先将 $q$ 分解为一个多粒度查询集合 $Q=\{q_o,q_s,q_c\}$ ，其中， $q_o$ 是原始查询， $q_s$ 捕获对象级语义（例如“apple”）， $q_c$ 捕获场景级上下文（例如“kitchen”），从而实现鲁棒且语义对齐的检索。对于每个候选帧 $f_i$ ，其相似度分数计算如下：

$Sim(f_i)=\sum_{q_j\in Q}\omega_{q_j}\left(\tilde{\phi}_I(f_i)\cdot\tilde{\phi}_T(q_j)\right)$

其中， $\tilde{\phi}_I$ 和 $\tilde{\phi}_T$ 分别表示由 CLIP 图像编码器和文本编码器提取并经过 $L 2$ 归一化后的特征，因此二者的点积可直接计算余弦相似度。项 $\omega_{q_j}$ 表示每个查询组成部分的权重。为保证尺度不变性，这些权重被归一化，使其和为 1，即 $\sum_{q_j\in Q}\omega_{q_j}=1$ 。其中， $\omega_{q_o}$ 分配给原始查询，其余权重在结构化组成部分之间平均分配，即 $\omega_{q_s}=\omega_{q_c}$ 。

在这里插入图片描述

事件扩展与分割（Event Expansion and Segmentation）。为了获得时间上和语义上连贯的事件表示，首先围绕每个关键帧执行事件扩展，随后进行时间事件分割。给定一组关键帧 $V^*$ ，将每个关键帧视为一个时间锚点，并沿视频时间线对其进行扩展，以纳入周围上下文。具体而言，沿双向扩展该锚点关键帧，并采用 TransNetV2 作为具备边界感知能力的时间模型，以推断相邻帧之间潜在的事件边界。只要未检测到边界，扩展过程就持续进行；一旦 TransNetV2 指示出时间不连续性，则在相应方向上的扩展终止。通过这一过程，每个关键帧都会被补充上下文相关的帧，从而得到具有更丰富时间连续性的候选事件片段。

在扩展后的关键帧基础上，论文进一步根据时间戳对时间上相邻的帧进行分组，从而执行事件分割。事件边界通过对连续事件之间施加最小时间间隔 $\Delta t$ 来确定。时间戳差小于 $\Delta t$ 的关键帧被分配到同一事件 $E_i$ 中。形式化地，每个事件 $E_i$ 由一段帧序列 ${f_j^{E_i}\}_{j=1}^{n_i}$ 组成，其中 $n_i\leq N$ 表示 $E_i$ 中的帧数。事件 $E_i$ 的最后一帧与事件 $E_{i+1}$ 的第一帧之间的时间距离必须满足 $|t_1^{(E_{i+1})}-t_{n_i}^{(E_i)}|>\Delta t$ 。在具体实现中，论文经验性地将时间间隔 $\Delta t$ 设为 3 帧。通过对所有关键帧迭代地应用这一过程，得到一组时间上连贯的事件 $\bold{E}=\{E_1,E_2,\ldots,E_M\}$ ，其中 $M\leq K$ 。

哪里来的 K 啊？是 N 吗？

1.2.2 有依据的情景记忆构建（Grounded Episodic Memory Construction）

在获得关键事件集合 $E$ 之后，论文通过自适应地扩展每个已定位时刻的时间窗口，将其提升为一个情景单元，以恢复基于相似度的检索可能遗漏的、与查询相关的上下文。这种扩展有助于保留细微的转场和因果线索，从而得到时间上连贯的片段。随后，论文将每个扩展后的事件编码为一种有依据的情景记忆。受认知科学启发，这种记忆显式捕捉何时、何地、发生了什么以及所涉及的实体，从而支持对动态时空上下文的建模。

动态场景叙事（Dynamic Scene Relationships）。为了全面编码每个事件 $E_i$ 的何时、何地和发生了什么，论文利用公开可用的多模态大语言模型Qwen2.5-VL-7B，并结合一个定制的推理提示词（附录Prompt C）。该模型生成层次化、语义丰富且紧密锚定于时间结构的摘要。与以往逐帧描述的方法相比，这些方法常常产生冗余或碎片化的描述，而论文的方法提供了连贯的片段级叙事，能够捕捉时间演化。每个摘要 $N_{scene}$ 都显式编码了事件的时间位置（何时）、其空间上下文（何地），以及其中涉及的核心动作和实体（发生了什么）。除这些场景级摘要之外，复杂的视频理解还进一步要求对对象之间的动态交互和演化关系进行建模，而这对于更深层次的情境理解和因果推理至关重要。

动态场景关系（Dynamic Scene Relationships）。为解决这一问题，论文构建了以事件为中心的场景表示，使其超越孤立的对象描述。具体而言，为了显式捕捉“哪些对象”在每个事件过程中发生演化并相互交互，论文编码了细粒度的空间与关系结构，记作 $G_{scene}$ 。借助一个鲁棒的目标检测框架，论文以较高置信度识别显著对象，经验上将该阈值设为0.6，并通过两个核心组成部分来建模它们的动态空间属性：

（i）对象数量演化 $A_{cnt}$ ：该部分通过检测对象随时间的出现与消失来刻画对象数量的时间演化。其表示格式为：“对象{ID1}的数量演化如下：在 $t_1$ 时为{num1}，在 $t_2$ 时为{num2}，……，在 $t_n$ 时为{numn}。”
（ii）位置关系演化 $A_{loc}$ ：该部分捕捉对象之间成对空间位置随时间的变化，格式为：“对象{ID1}与对象{ID2}的位置演化：[ $t_1：<relation1>$ ] → [ $t_i：<relationi>$ ] → ··· → [ $t_n：<relationn>$ ]。”

这两个组成部分共同构成结构化的场景关系表示： $G_{scene}={A_{cnt},A_{loc}}$ ，该表示为视频推理中的演化场景提供了一种可解释、结构化的表达方式。通过这种方式， $G_{scene}$ 所捕捉的细粒度时空关系与 $N_{scene}$ 中的高层叙事相互补充，共同形成丰富的时空情景记忆，从而支持有效且具上下文感知能力的视频推理。

1.2.3 自反思记忆优化（Self-reflective Memory Refinement）

论文并不将所有检索到的关键帧或记忆直接输入下游 Video-LLMs，因为这往往会引入冗余并稀释显著线索。相反，论文采用以事件为中心的情景记忆表示，以及一种由推理驱动的思维链优化策略，为每个查询构建一个最小但充分的证据集。

从事件级情景记忆出发，这些记忆编码了：

（i）事件内的空间落地，即具有属性和关系的实体；
（ii）事件间的时间动态，即顺序与转场。

思维链智能体对这些记忆进行迭代式选择、过滤与组合，将其组织为一条紧凑的事件时间线。每一步都被约束为必须引用具体证据、特定事件（含时间跨度）以及被引用的实体，从而在避免帧级冗余的同时保留叙事连续性。

即便采用了以事件为中心的组织方式，情景记忆仍可能由于上游信号不完美而显得冗长或带有噪声，而且一个查询所需证据的粒度也可能不同。因此，论文在循环中加入了一个证据充分性与一致性验证器：在每一步中，智能体都会检查当前时间线是否足以回答查询，以及跨事件的证据是否自洽，例如是否存在属性冲突或时间冲突。如果检查失败，智能体会在同一层级内执行“细化或回退”：要么将一个粗粒度事件拆分为更细的子事件以获取特定线索，要么回退到更高层级的摘要以获得稳定上下文，从而实现回溯与去噪。更多细节见附录。

在这里插入图片描述

1.3 实验（Experiments）

1.3.1 任务与数据集（Tasks & Datasets）

基准。论文在四个流行基准上评估 Video-EM 的性能：

1）Video-MME，共包含 2700 个问答对，视频平均时长为 17 分钟。
2）LVBench 是一个小时级基准，平均长度为 4101 秒（68 分钟），包含 1549 个问答对和四个多项选择选项。
3）HourVideo，论文使用其 dev 集，其中包含 50 个视频，平均时长为 47.2 分钟，包含 1182 个高质量的五选一问题。
4）Egoschema 是一个流行的、源自 Ego4D 的基准。它由基于视频的五选一问题组成，视频长度为 180 秒。论文在其子集上进行了消融实验。

实现细节。对于基准评测，论文以 1 fps 采样帧（每个视频最多 1024 帧），并使用带有 ViT-G 主干的 CLIP 进行多粒度语义检索。论文的流程集成了四个基础模型：用于镜头边界检测的 TransNet v2，用于目标检测的 Grounding-DINO，用于片段级叙事建模的 Qwen2.5-VL-7B，以及作为 CoT 推理代理的 Qwen3-8B。所有实验均在一块 NVIDIA A100 GPU 上运行。

1.3.2 对比实验（Comparison with State-of-the-arts）

在这里插入图片描述

1.3.3 消融实验（Ablation Study）

在这里插入图片描述

二、论文理解&总结

暂时省略，用到再分析。

三、代码学习

暂时省略，用到再分析。

写在最后

由于笔者🖊️精力有限且本文更多的目的是通过📒博客记录学习过程并分享更多知识，因此文中部分描述不太具体，如有不太理解💫的地方可在评论区👀留言。非特殊赶deadline⏰或假期⛱️期间，笔者会经常上线回复💬。如有不便之处，请海涵～

如果想了解更多关于长视频理解和视频智能体新工作，可以关注笔者的Github仓库：Awesome-Video-Agent。

另外，创造不易，转载请注明出处💗💗💗～

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

收藏备用｜2026年AI大模型学习指南（小白+程序员必看，避坑+实操全干货）

AtomGit开源社区

进销存系统源码保姆级部署教程（附源码）+可二开：商家必备神器

从环境搭建到系统上线，从零部署到二次开发，这套保姆级教程已经把每一个坑都替你踩过了。进销存系统不是什么高深莫测的技术黑箱，它是每一个认真经营的商家都该拥有的效率武器。开源源码最大的魅力在于——你拥有完全的控制权，想怎么改就怎么改，想怎么用就怎么用。2026年了，别再用 Excel 管库存了，动手部署起来，让工作效率高起来！