【Video Agent】（CVPR 2026）LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling

若叶€枫璨

267人浏览 · 2026-03-11 20:07:40

若叶€枫璨 · 2026-03-11 20:07:40 发布

【Video Agent】（CVPR 2026）LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling

论文简介 🍀
一、论文阅读
二、论文理解&总结
三、代码学习
写在最后

写在前面：如果想了解更多关于长视频理解和视频智能体新工作，可以关注笔者的Github仓库：Awesome-Video-Agent。

论文简介 🍀

📖 题目：Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding

📅 来源：CVPR 2026

🏫 单位：1、 MiroMind AI 2、NTU 3、 HKUST(GZ) 4、 THU 5、LMMs-Lab Team

🌍 主页：https://evolvinglmms-lab.github.io/LongVT/

💻 代码：已开源

✒️ 摘要：多模态大模型（LMM）已经展现出利用文本思维链进行视频推理的巨大潜力。然而，它们仍然容易受到幻觉的影响，尤其是在处理长视频时，其中证据稀疏且在时间上分散。受人类理解长视频方式的启发——先进行全局浏览，再检查相关片段以获取细节——论文提出LongVT，这是一个端到端的智能体框架，通过交错式多模态工具思维链实现“用长视频进行思考”。具体而言，论文利用LMM固有的时间定位能力，将其作为原生的视频裁剪工具，以聚焦于特定视频片段并重新采样更细粒度的视频帧。这一从全局到局部的推理循环会持续进行，直到答案被检索到的视觉证据所支撑。鉴于面向长视频推理任务的细粒度问答（QA）数据稀缺，论文整理并将发布一个名为VideoSIAH的数据套件，以同时促进训练与评估。具体来说，论文的训练数据集分别由247.9K个用于工具集成冷启动监督微调的样本、1.6K个用于智能体强化学习的样本，以及15.4K个用于智能体强化微调的样本组成。论文的评测基准由1,280个QA对组成，这些样本通过半自动数据流水线并结合人工参与验证而被精心整理。凭借精心设计的三阶段训练策略和广泛的实证验证，LongVT在四个具有挑战性的长视频理解与推理基准上持续优于现有强基线。论文代码、数据和模型检查点全部开源。

图1. 交错式多模态工具思维链（iMCoTT）。与以往基于文本的思维链（CoT）推理相比，论文所提出的LongVT中的iMCoTT能够通过调用 $crop\ video(start\ time,\ end\ time)$ 工具原生地进行自我反思。它在全局预览之后提出一个时间窗口，主动获取相应的短视频片段，基于新证据重新思考，并决定是进一步细化还是直接作答。此类由工具增强的推理行为，使每一步都锚定在实际看到的内容之上，而不是在纯文本CoT中盲目地重新表述，从而缓解幻觉，并带来更强的时间定位能力和答案正确性。

一、论文阅读

1.1 引言（Introduction）

现有方法的不足：

现有长视频推理方法大多仍是以文本CoT为核心的R1-style流程，整体“language-centric”，会限制视觉推理并增加长视频场景中的幻觉；

均匀采样难以自适应捕捉关键视觉证据，容易错过细粒度或决定性时刻；

现有工具增强LMM又多基于粗粒度、clip-level数据训练，缺少对时间假设“形成、验证、修正”的监督；

不少已有基准还是多选题，可能在没有真实时间定位的情况下被做对，并且易受数据泄漏和选项偏置影响

论文的核心思想（贡献）：

论文提出了LongVT，通过iMCoTT把“全局浏览—局部验证—自我修正”的工具增强推理原生引入长视频理解；

构建了面向“Video Segment-In-A-Haystack”场景的VideoSIAH与VideoSIAH-Eval，补足训练和评测数据；

设计了“cold-start SFT + agentic RL + agentic RFT”的三阶段训练策略，其中联合答案-时间定位奖励显式提升时间定位与答案正确性；

理解长视频（ $> 15$ 分钟）是多模态智能中的一项重大挑战。与短视频片段相比，长视频包含复杂的事件结构，并且需要跨数千帧的持续理解，以支持诸如视频问答（QA）、时间定位以及密集描述等任务。这些能力还进一步支撑了现实世界中的应用，例如足球事件定位和长程电影理解。近期的大型多模态模型（LMM）展现出了有前景的短视频推理能力，然而大多数仍然依赖于R1风格的范式——使用文本思维链（CoT）进行监督微调（SFT），随后进行基于群体相对策略优化（GRPO）的强化学习（RL）。这类流程在很大程度上仍然以语言为中心，限制了视觉推理，并在长视频场景中加剧了幻觉。此外，它们的均匀采样无法自适应地捕获关键视觉证据，往往会错过对长视频推理至关重要的细粒度或决定性时刻。这促使论文提出核心问题：LMM能否通过执行类人的视觉操作来引导其推理，从而可靠地对长视频进行推理？

让我们考虑如下场景：一名受试者被要求仅凭一段无声的足球比赛视频来回答问题：“法国球员是用哪只脚完成那记将比分扳平的凌空抽射的？”在没有音频、元数据或时间线标记的情况下，受试者必须完全依赖视觉检查。根据常见的观看习惯，人类通常会以较粗的时间间隔在视频中跳转，寻找进球的强烈视觉指示，例如观众反应、球员庆祝、裁判手势或记分牌更新。在定位到一个可能的进球片段之后，受试者会稍微回退，并更仔细地检查周围帧，以精确找出扳平比分的时刻，然后利用特写镜头来确认射门用脚。值得注意的是，当论文用相同任务提示两个最先进的专有LMM（即GPT-5和Gemini 2.5 Pro）时，它们提出的策略与这种人类直觉式流程非常接近（见第7节）。

如图1所示，受试者为了节省时间，会避免逐帧扫描整个视频。相反，他们首先进行一次粗略的全局浏览，然后放大查看有希望的片段。当映射到LMM设定中时，这种从全局到局部的推理策略使得上下文长度有限的模型能够有效处理极长视频。为了实现这种策略，论文设计了交错式多模态工具思维链（iMCoTT），使LMM能够通过动态选择并重新检查感兴趣的视频片段，自然地将推理与按需时间检索交错进行。这类LMM行为源于其原生的时间定位能力，而无需辅助专家模型或外部检索器。论文所设计的iMCoTT能够通过提出一个更稳健的时间窗口、检查该片段，并在必要时修正其假设来实现“再次查看”。这种能力有助于减少幻觉，并揭示更细粒度的细节，类似于人类在意识到最初检查的片段有误之后进行自我反思。

这种受人类启发的“用长视频进行思考”范式天然适用于以下查询：要么需要聚合多个镜头中的线索，要么依赖于数小时长视频中一个短暂但承载证据的片段。然而，开源社区缺乏带有此类细粒度查询的训练和评估数据：大多数公开数据集强调一般性和高层次问题，却很少在“视频片段藏针”设定下训练和评估推理能力。论文通过构建VideoSIAH来应对这一重大挑战，该数据集包含高质量QA对和工具增强的推理轨迹。VideoSIAH分别包含用于SFT的247.9K个样本、用于智能体RL的1.6K个样本，以及用于强化微调（RFT）的15.4K个样本。此外，论文整理了一个专门的评测基准VideoSIAH-Eval，其中包含1,280个经过人工参与验证的QA对，并且每个问题的支撑证据都位于相对于完整视频时长而言的一个狭窄窗口内。

在本文中，论文提出了LongVT，这是一个端到端的智能体框架，通过一种三阶段训练策略以及来自VideoSIAH的大规模高质量工具增强数据，激发LMM“用长视频进行思考”的能力。第一阶段执行冷启动SFT，使基础LMM具备三项基本能力：（1）为相关事件提出精确时间窗口；（2）对窗口内密集重采样的帧进行推理；（3）当窗口次优时进行自我纠正。第二阶段采用智能体RL，以增强模型在开放式QA任务上的泛化能力。不同于现有工作依赖视频QA的仅答案奖励和时间定位的IoU奖励，论文设计了一种联合答案-时间定位奖励函数，它明确鼓励带有改进时间定位能力的探索性rollout，同时保持答案正确性。第三阶段利用智能体RFT，进一步通过使用其自身RL训练策略蒸馏得到的经过筛选的rollout轨迹来优化模型。该阶段稳定了在RL期间学习到的智能体行为，并巩固了细粒度时间定位和多步推理。

论文的贡献可以概括为三个主要方面。

第一，论文提出了一种端到端的智能体范式，该范式在数小时长视频上原生地交错进行多模态工具增强CoT与按需片段检查，从而使LMM能够进行更有效、更可靠的长视频推理。
第二，为了促进对证据稀疏长视频推理的训练与评估，论文构建了一个可扩展的数据流水线，用于生成多样且高质量的QA与工具集成推理轨迹，并在“视频片段藏针”设定下构建了一个专门的基准。
第三，论文针对数据配方、训练策略和设计选择进行了全面的消融实验，并结合对训练动态的广泛分析，建立了“用长视频进行思考”的一个最先进基线，并提供了宝贵见解。

1.2 方法（VideoSIAH: A Fine-Grained Data Suite for Evidence-Sparse Long-Video Reasoning）

长视频推理与以往视频QA设定存在根本不同的挑战：LMM必须在长达数小时的内容中定位稀疏、细粒度且在因果上起决定性作用的时刻。然而，现有工具增强LMM大多使用粗粒度和clip-level数据进行训练。这种不匹配使现代LMM缺乏所需的监督，无法学习时间假设是如何形成、验证或修正的——而这正是智能体式长视频推理中一种关键但尚未被充分探索的能力。此外，现有大多数视频理解基准仅提供多项选择QA，这类任务无需真正的时间定位即可完成，并且容易受到数据泄漏或捷径利用的影响。相关证据与讨论见第8节。

为了填补这一空白，论文提出VideoSIAH，这是一个大规模、多样化且高质量的数据套件，它同时作为训练数据集，用于捕捉segment-in-a-haystack问答所需的推理动态；同时也作为一个细粒度评测基准VideoSIAH-Eval，并通过human-in-the-loop验证用于长视频开放式问答。

1.2.1 数据pipeline（Data Pipeline）

如图2所示，VideoSIAH通过一个半自动、human-in-the-loop的数据流水线进行整理，该流水线构建了在证据稀疏的长视频推理过程中、与人类认知过程相一致的、具有时间定位基础的推理轨迹。论文首先对长视频进行自动场景检测，并将长度短于10秒的连续片段合并，以获得用于下游QA生成的语义稳定单元。对于每个片段，Qwen2.5-VL-72B 会生成详细描述，捕捉显著物体、空间关系和不断演化的事件。这些描述作为生成具有时间定位基础的QA对的语义基础。初始QA由这些描述生成，涵盖时间事件、空间布局、运动、物体属性和场景转换，从而确保大规模的广泛覆盖。

在这里插入图片描述

图2. VideoSIAH的数据管道。论文构建了一个半自动的数据管道，它集成了几个最先进的LMMs，以顺序执行长视频分割，视频剪辑字幕，segment-in-a-haystack QA生成，跨模态QA过滤和iMCoTT生成。带有人体轮廓的图标表示人在回路验证，其中注释器检查一小组代表性故障，以细化QA生成、QA过滤和iMCoTT生成的提示规则。请注意，iMCoTT跟踪仅针对冷启动SFT阶段生成，而RL训练仅对过滤后的QA对进行操作。

为确保质量，论文采用两个过滤阶段：

（1）基于文本的QA过滤，使用语言学启发式规则和模型一致性来去除低质量或不适定的QA（例如答案泄漏）；
（2）多模态QA过滤，在该阶段，GLM-4.5V 根据视频片段验证答案一致性，从而去除幻觉性的以及在视觉上缺乏支持的断言。

标注者反馈进一步改进了用于QA生成、过滤和iMCoTT构建的提示规则。这个提示-反馈改进循环在无需大量人工标注的情况下提升了可靠性，从而得到高保真、具有时间定位基础且可扩展的数据。

1.2.2 数据整理（Dataset Curation）

SFT数据整理（SFT Data Curation）。论文的SFT数据由三大类别构成：（1）工具增强的多轮数据，（2）图像推理数据，以及（3）视频推理数据，目标是同时增强工具调用能力和通用推理性能。论文遵循图2所示流程整理工具增强QA对。在处理数小时长的视频时，论文发现，单轮中的稀疏采样帧往往无法捕捉到正确的时间片段，这使得多轮工具调用成为必要。为解决这一局限，论文基于视频长度，以自适应方式生成多轮工具调用轨迹。具体而言，论文将一个样本被选中进行多轮整理的概率定义为：

$P_{multi}=1-\frac{L_{max}-clip(L_{video},L_{max},L_{min})}{L_{max}-L_{min}},$

其中， $P_{multi}$ 表示为多轮生成选择给定数据样本的概率， $L_{video}$ 表示视频长度，而 $L_{max}$ 和 $L_{min}$ 分别是视频长度的最大和最小阈值。函数 $c l i p (x, a, b)$ 将 $x$ 限制在区间 $[b, a]$ 内。依据这一标准被选中的视频会经历多轮数据生成，以确保更长的视频按比例获得更多轮的工具调用，从而提升时间覆盖率和推理完整性。论文还进一步收集了多样化的视频与图像推理数据集。

RL数据整理（RL Data Curation）。对于RL，该划分由前文的数据流水线生成的、经过过滤的segment-in-a-haystack QA对构建而成。每个QA都与其源视频的长度相关联，论文将候选样本划分为若干时长区间（短、中、长）。从这些区间中，论文采样出一个长度均衡的子集，以确保RL数据不会被非常短的片段主导，而是覆盖多样化的视频时长范围。在这一长度均衡池之上，论文还基于多轮工具运行应用了一个简单的难度感知过滤器。对于每个问题，论文从当前策略中抽取 $K$ 个rollout；如果全部 $K$ 条轨迹都回答正确（过于容易）或全部 $K$ 条都失败（过于困难），则丢弃该样本，仅保留结果有成有败的问题。这使RL聚焦于中等难度区间，并避免退化的奖励信号，从而带来信息量更高且更稳定的优化过程。

RFT数据整理（（RFT Data Curation）。为了构建RFT轨迹，论文从早期RL运行中过滤轨迹，并只保留高质量样本。具体而言，如果模型生成了正确的最终答案，且其预测的时间跨度与标注的真实窗口之间的交并比Intersection over Union（IoU）至少达到0.3，则保留该轨迹。这一双重标准同时约束语义正确性与足够准确的时间定位，确保整理后的轨迹反映的是真正成功的长视频推理，而不是奖励黑客行为或侥幸猜对。随后，论文将这些经过过滤的轨迹转换为用于RL后精炼的监督训练样本。在这一自生成、具备良好定位基础的子集上进行训练，能够提供高精度的分布内监督，稳定优化过程，并进一步增强模型的定位能力和工具调用行为，这是单靠SFT无法提供的。

1.2.3 数据统计（Dataset Statistics）

如表1所示，VideoSIAH包含228,835个带有普通（非工具）CoT标注的SFT样本、19,161个工具增强的SFT样本，以及17,020个用于RL和RFT的样本。在SFT划分中，非工具部分主要由长视频推理数据构成，并辅以Video-R1-CoT以及少量高难度的基于图像的CoT监督。工具增强子集结合了由Gemini 2.5 Flash 蒸馏得到的用于开放式QA的CoT轨迹（即iMCoTT），以及由Qwen2.5-VL-72B-Instruct 蒸馏得到的用于时间定位的轨迹，从而为工具使用和时间戳预测提供联合监督。对于RL划分，论文从第1.2.1节中筛选出一个高质量的QA样本子集。对于RFT，论文进一步选择高质量的RL rollout轨迹用于RL后的精炼，从而提供致密监督，使策略能够显著超越仅使用SFT时的性能上限。总体而言，这些组成部分形成了一个大规模且多样化的数据集，横跨SFT、RL和RFT，覆盖高层次推理、时间定位以及工具集成行为。对于评测，论文引入了VideoSIAH-Eval基准，其中包含244个视频和1,280个经过human-in-the-loop验证精心过滤的QA对。该基准专门为长视频推理而设计，平均视频时长约为1,688秒。其时长分布主要集中在15-30分钟区间（71.84%），其余28.16%的视频时长超过30分钟。

在这里插入图片描述

表1. VideoSIAH的数据集统计。论文提出的数据集包含非工具SFT数据、工具增强SFT数据、RL QA和自提取RFT轨迹。

1.3 训练策略（Training Strategy）

为了充分利用VideoSIAH并激发稳健的“用长视频进行思考”行为，LongVT采用了一个三阶段训练流程：（1）冷启动监督微调，用于教会基础模型提出时间窗口、调用视频工具并组合多模态证据；（2）智能体强化学习，用于优化联合答案-时间定位奖励，以改进工具使用式rollout；（3）智能体强化微调，用于将高质量的RL轨迹蒸馏回监督数据中，以稳定这些行为并巩固长程推理。

1.3.1 冷启动监督微调（Cold-Start Supervised Fine-Tuning）

如图3-(b)所示，论文使用Qwen2.5-VL-7B 作为基线模型进行的初步RL实验表明，该模型在RL过程中无法提升，并且随着训练持续最终发生崩溃。对训练动态的这一分析表明，基础LMM存在两个主要缺陷：（1）无法在长视频中正确定位相关的时间窗口；（2）在整合工具输出时推理能力不足。论文还在图14中给出了一个直接的示例，以说明冷启动SFT阶段的必要性。这些局限性凸显出，该模型原生的工具调用能力对于直接进行RL训练而言过于薄弱。因此，冷启动阶段对于建立可靠基础是不可或缺的。在施加SFT冷启动之后，模型的工具调用活跃性显著提升，并且在RL过程中持续稳步增加，这一点得到了表3结果的支持。

在这里插入图片描述

1.3.2 智能体强化学习（Agentic Reinforcement Learning）

在这一阶段，论文将模型视为一个使用工具的智能体，由其决定何时检查视频、裁剪多长时间，以及如何将检索到的证据整合进其推理之中。论文采用GRPO来实现这一目标。此外，论文引入了一种由三部分组成的奖励建模，它联合优化采样轨迹的答案准确性、格式合规性以及时间定位精度，即联合答案-时间定位奖励。以往工作通常只单独关注答案正确性或时间对齐中的一个。论文进一步朝着在开放式长视频QA中用单一奖励函数统一这些信号迈进。这样的耦合将答案选择与证据在时间上的位置联系起来，从而提高最终答案的正确性，并在推理时促进更有效的工具使用，得到更可靠且更精确的时间戳提议。

答案准确性（Answer Accuracy）。令 $K$ 为一组中采样得到的rollout数量。对于第 $k$ 个rollout（ $\in {1,\ldots,K}$ ），令 $\hat{a}^{(k)}$ 表示其生成的答案，令 $a^\star$ 表示真实答案。论文采用 LLM-as-a-Judge 来获得一个类别判定：

$J^{(k)} = \mathrm{JudgeLLM}!\left(\hat{a}^{(k)}, a^\star\right) \in {F, P, I},$

其中， $F$ = 完全一致（在语义上等价于 $a^\star$ ）， $P$ = 部分一致（包含一些正确信息，但不完整或不精确），而 $I$ = 不一致（错误或相互矛盾）。

随后，准确性奖励被定义为归一化得分:

$R_{\mathrm{acc}}^{(k)} = \begin{cases} 1, & \text{if } J^{(k)} = F,\\ 0.5, & \text{if } J^{(k)} = P,\\ 0, & \text{if } J^{(k)} = I. \end{cases}$

格式合规性（Format Compliance）。令 $y^{(k)}$ 表示第 $k$ 个rollout的完整文本输出，令 $S$ 表示所要求的输出模式。定义：

$R_{\mathrm{format}}^{(k)} = \begin{cases} 1, & \text{if } y^{(k)} \text{ matches } S,\\ 0, & \text{otherwise.} \end{cases}$

时间重叠（Temporal Overlap）。遵循以往的时间定位工作，论文使用标准的时间IoU作为时间定位的奖励函数。对于一个预测 $t_s, t_e]$ 和真实值 $t'_s, t'_e]$ ，

$\mathrm{IoU} = \frac{|[t_s, t_e] \cap [t'_s, t'_e]|}{|[t_s, t_e] \cup [t'_s, t'_e]|}.$

论文设定 $R_{\mathrm{time}}^{(k)} = \mathrm{IoU}^{(k)}.$

因此，仅当预测的时间跨度与真实区间完全一致时， $R_{\mathrm{time}}^{(k)} = 1$ ；当不存在时间重叠时， $R_{\mathrm{time}}^{(k)} = 0$ 。这一简单形式已被证明足以在工具使用期间驱动基于证据的裁剪以及更紧致的时间戳提议。

总体奖励（Overall Reward）：

$R^{(k)} = R_{\mathrm{acc}}^{(k)} + R_{\mathrm{format}}^{(k)} + R_{\mathrm{time}}^{(k)}.$

1.3.3 智能体强化微调（Agentic Reinforcement Fine-tuning）

近期工作认为，RFT已成为赋予大语言模型及其多模态对应体强推理能力的关键组成部分，因为它优化的是直接反映任务成功的序列级奖励，而不是token级似然，并且能够在多样的模态与任务上持续提升性能。受这些发现的启发，论文进一步利用RFT来稳定模型的智能体行为，并巩固多模态推理。具体而言，论文从早期RL rollout中选择同时展现出准确时间定位以及朝向最终答案的连贯推理的高质量样本，并将这些轨迹作为特权的、自蒸馏的示范重新纳入监督微调课程之中。从经验上看，论文发现，从这些分布内高质量轨迹中学习，有助于模型内化与大规模智能体RL互补的稳健定位与工具调用模式，从而有效地将优化引导到那些能够更好地对齐答案准确性、时间定位与工具使用的策略上。

1.3.4 整体框架（Overall Framework）

如图4所示，LongVT在一个迭代的“假设—验证”循环中运行。这种行为能力通过冷启动SFT得到激励，使模型能够浏览全局帧，并主动调用 $crop\ video$ 工具来重新采样细粒度证据。在初始检索（例如，在 $T 1$ ）被证明不足的情况下，模型利用所学到的自我纠正，以经过细化的参数再次调用该工具（例如，在 $T 2$ ）。关键的是，整个决策轨迹通过智能体RL得到巩固，该过程依据联合答案—时间定位奖励 $\left(R_{acc}+R_{format}+R_{time}\right)$ 来优化策略，从而增强模型的泛化能力，使其进一步与类人的验证策略保持一致。

在这里插入图片描述

图4. LongVT的整体框架。论文的方法以一种类人的两阶段方式处理长视频。具体而言，LongVT通过交错式多模态工具思维链（iMCoTT）得到增强：首先对采样的视频帧进行全局浏览，以形成关于证据可能出现时间的粗略假设；然后调用原生视频工具 $crop\ video(start\ time,\ end\ time)$ ，通过一个假设的时间窗口从短视频片段中重新采样更细粒度的帧，并再次进行推理。模型自身决定是在一轮（ $T 1$ ）之后直接回答，还是通过自我反思继续进行多轮（最多到 $T 5$ ）。在强化学习期间，论文联合优化答案正确性（ $R_{acc}$ ）、规范格式（ $R_{format}$ ）以及精确的时间定位（ $R_{time}$ ）。

1.4 实验（Experiments）

1.4.1 实验设置（Experimental Setup）

论文在所有实验中均使用Qwen2.5-VL-7B 作为基线模型。论文报告了基于不同训练阶段的三个LongVT变体相对于Qwen2.5-VL-7B以及其他开源视频中心LMM的性能，包括Video-R1-7B [8]、VideoRFT-7B 和Video-Thinker-7B，以及GPT-4o 和Gemini 1.5 Pro 等专有LMM。需要注意的是，论文没有将并行时期的工具增强视频中心LMM纳入直接比较，因为其模型检查点尚未公开，这阻碍了公平且可复现的实验。论文在四个长视频理解与推理基准上评估所有模型，分别是VideoMME 、VideoMMMU、LVBench，以及论文自行整理的VideoSIAH-Eval，并采用统一的评测框架以实现公平比较。结果在两种帧采样设置下报告：稀疏帧采样（64个均匀采样的视频帧）和稠密帧采样（512或768个均匀采样帧；报告两者中更好的结果）。Reasoning Prompt表示在提示中使用标准推理风格提示（✓）还是直接问答提示（✗）；Tool Calling表示在提示中是否启用原生工具调用（✓）或禁用（✗）。更多实现细节可见第12节。

1.3.3 对比实验（Comparison with State-of-the-arts）

在这里插入图片描述

1.3.4 消融实验（Ablation Study）

在这里插入图片描述

二、论文理解&总结

暂时省略，用到再分析。

三、代码学习

暂时省略，用到再分析。

写在最后

由于笔者🖊️精力有限且本文更多的目的是通过📒博客记录学习过程并分享更多知识，因此文中部分描述不太具体，如有不太理解💫的地方可在评论区👀留言。非特殊赶deadline⏰或假期⛱️期间，笔者会经常上线回复💬。如有不便之处，请海涵～

如果想了解更多关于长视频理解和视频智能体新工作，可以关注笔者的Github仓库：Awesome-Video-Agent。

另外，创造不易，转载请注明出处💗💗💗～