写在前面:如果想了解更多关于长视频理解和视频智能体新工作,可以关注笔者的Github仓库:Awesome-Video-Agent

论文简介 🍀

  • 📖 题目:VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
  • 📅 来源:Arxiv
  • 🏫 单位:Zhejiang University;Fudan University;Wuhan University;Shanghai AI Lab;Shanghai Innovation Institute
  • 🌍 主页:https://arxiv.org/pdf/2601.15724
  • 💻 代码:无公开链接
  • ✒️ 摘要:长视频理解仍然是当前视频大语言模型(VideoLLMs)面临的一项基础性挑战。现有大多数模型依赖于对均匀采样帧进行静态推理,这会削弱时间定位能力,并在长视频中导致大量信息丢失。具备智能体属性的工具,例如时间检索、空间缩放和时间缩放,为克服这些限制提供了一种自然的方式,因为它们能够对关键时刻进行自适应探索。然而,构建智能体式视频理解数据需要模型本身已经具备较强的长视频理解能力,这就造成了循环依赖。针对这一挑战,论文提出了 VideoThinker,这是一种完全基于合成工具交互轨迹训练得到的智能体式 VideoLLM。其核心思想是,先将视频转换为丰富的描述文本,再利用强大的智能体式大语言模型在描述文本空间中生成多步工具使用序列。随后,通过将描述文本替换为真实视频帧,把这些轨迹重新映射回视频,从而在无需底层 VideoLLM 具备任何长视频理解能力的情况下,构建出大规模交错式视频—工具推理数据集。在这一合成智能体数据集上进行训练后,VideoThinker 获得了动态推理能力、自适应时间探索能力以及多步工具使用能力。值得注意的是,VideoThinker 在长视频基准测试上显著优于仅基于描述文本的 LLM 智能体以及强大的 VideoLLM 基线,证明了工具增强的合成数据以及自适应的“检索—缩放”推理对于长视频理解是有效的。

在这里插入图片描述

  

一、论文阅读

1.1 引言(Introduction)

  • 现有方法的不足:
    • 123
  • 论文的核心思想(贡献):
    • 123

  视频理解是一项基础性任务,需要同时对视频的空间维度和时间维度进行推理。近年来,视频大语言模型(VideoLLMs)在这一领域取得了显著进展。尽管如此,现有模型在处理长视频时仍然面临困难,因为相关的视觉证据稀疏地分布在时间轴上。对均匀采样帧进行静态推理,往往会造成严重的信息丢失和较差的时间定位效果;同时,对于包含数百帧的长视频,这种方式的计算成本也较高。

  提升长视频理解能力的一个有前景方向,在于交错式多模态推理这一概念,即以动态且自适应的方式结合视觉感知与语言推理。受图像领域成功技术的启发,例如 OpenAI 的 o3 模型所展示的方法,同时期的一些工作尝试将这种交错式推理扩展到视频中,并提出了“用视频思考”的概念。然而,这些方法面临两个关键局限:(1)它们通常依赖 Gemini-Pro 之类的专有模型来构建智能体式视频理解数据,这需要大量提示工程和多阶段筛选;此外,尽管 Gemini-Pro 能够生成交错式视频推理轨迹,但它仍然缺乏 o3 在图像推理中所表现出的那种涌现式视频交错推理能力;(2)它们主要执行单次时间缩放操作,而缺少时间检索机制,因此在识别关键时间区间时效率较低。相比之下,Qwen3 和 DeepSeek 等开源大语言模型作为语言智能体,在长视频理解中展现出较强的工具增强推理能力。它们会使用多种工具,并由 VideoLLM 生成中间帧描述,作为支持视频推理的工具。然而,在这类框架中,VideoLLM 仅仅充当被动的描述模块,而大语言模型本身无法直接感知视觉信息。

  基于这些观察,论文提出 VideoThinker,这是一种完全基于合成工具交互轨迹训练得到的智能体式 VideoLLM。其核心思想是,先将视频转换为丰富的文本描述,再利用强大的智能体式大语言模型在这一描述空间中生成多步工具使用序列。为了实现有效的长视频推理,论文设计了两类互补的智能体工具:(1)时间检索(Temporal Retrieval),用于借助音频转写文本(作为字幕)、场景描述以及基于字幕的摘要,识别可能包含相关信息的候选时间区间;(2)时间缩放(Temporal Zoom),用于通过更细粒度的字幕或视频帧,对区间进行更精细的检查。通过将这些工具与大语言模型的工具增强推理能力相结合,论文构建了多轮工具交互轨迹。当大语言模型调用时间缩放工具时,VideoLLM 会生成中间文本描述,随后这些描述会被真实视频帧替换,从而形成完全交错式的视频推理数据。接着,论文利用这些轨迹对 VideoLLM 进行微调,使其能够在推理过程中主动检索并感知关键帧,从而有效弥合从文本与图像推理到真正视频推理之间的差距。此外,VideoThinker 还引入了一个基于置信度门控的工具控制器,并取得了显著的性能提升:相较于基础 VideoLLM,在 MLVU 上提升了 6.8%,在 LVBench 上提升了 10.6%;相较于配备论文工具的仅基于描述文本的 LLM 智能体,分别提升了 3.9% 和 3.5%。论文的主要贡献概括如下。

  • 论文构建了一个由基于大语言模型的工具推理所引导的高质量智能体式视频—工具推理数据集。这些合成数据捕捉了长视频理解所必需的多样化时间推理与工具使用行为。
  • 论文通过时间检索与时间缩放,为 VideoThinker 赋予了动态推理、自适应时间探索和多步工具使用能力,从而实现高效的长视频理解。
  • 大量实验表明,VideoThinker 在长视频基准上优于强大的 VideoLLM 基线和 LLM 智能体基线,验证了工具增强合成数据以及自适应“检索—缩放”推理的有效性。

  

1.2 方法(Method)

  在本节中,论文介绍 VideoThinker(VideoThinker),这是一种通过动态、工具增强推理(tool-augmented reasoning)来进行长视频理解的智能体式视频大语言模型。为了解决时间稀疏性(temporal sparsity)和信息丢失问题,论文设计了两种互补工具——时间检索(Temporal Retrieval)和时间缩放(Temporal Zoom)——以支持对关键时刻的自适应探索。随后,论文基于来自大语言模型的工具交互轨迹(tool-interaction trajectories)构建了一个合成训练数据集,使视频大语言模型能够学习多步推理和视频帧感知。

在这里插入图片描述

1.2.1 工具设计(Tools Design)

  论文设计了两类互补的智能体工具(agentic tools),用于对长视频(long-form videos)进行高效检索与推理。其包含两个功能组:

  • 时间检索工具(Temporal Retrieval tools)【片段检索(Clip Retrieval)、字幕检索(Subtitle Retrieval)、字幕摘要(Subtitle Summary)】,用于访问多模态内容;
  • 时间缩放工具(Temporal Zoom tools)【帧缩放(Frame Zoom)、字幕缩放(Subtitle Zoom)】,用于对某些时间区间进行细粒度检查。
      这种模块化设计使模型能够在保留全局上下文的同时,自适应地聚焦关键片段。在智能体搜索范式(agentic search paradigm)下,智能体会分解查询、组合工具调用,并通过迭代收集证据来不断完善理解,并在长视频中定位相关信息。
(1)时间检索(Temporal Retrieval)

  片段检索(ClipRetrieval) 该工具为长视频中语义相关的时间区域提供粗粒度访问。给定视频路径和文本查询后,视频首先被切分为时长 10 秒的视频片段,并使用 LanguageBind-Video 对每个片段进行编码,以获得片段级嵌入(clip-level embeddings)。随后,该工具检索与输入查询语义相似度最高的排名靠前片段,并返回其对应的时间区间。通过结合中间推理结果不断细化查询、迭代调用片段检索(ClipRetrieval),智能体能够逐步缩小到最相关的视频片段,从而高效缩减后续分析的搜索空间。

  字幕检索(SubtitleRetrieval) 该工具支持对自动转录字幕进行细粒度的文本级检索。给定视频路径和文本查询后,首先使用 Whisper 对视频音频流进行转录,随后该工具检索与查询语义最相关的字幕片段,并返回它们的时间戳。通过迭代细化,字幕检索(SubtitleRetrieval)使智能体能够将文本证据与视觉线索对齐,从而精确定位关键时间区间。

  字幕摘要(SubtitleSummary) 该工具生成简洁的、面向查询的摘要,以支持对视频全局内容的理解。该工具构建于 Qwen3-30B 之上,会处理完整的字幕转录文本,并提取与输入查询最相关的信息。生成的摘要使智能体能够高效把握长视频的整体叙事流程与上下文依赖关系,并作为下游推理的高层语义引导。

(2)时间缩放(Temporal Zoom)

  帧缩放(FrameZoom) 该工具通过提取指定时间区间内的原始视频帧,支持细粒度视觉检查。给定起始和结束时间戳后,它会检索相应帧用于详细分析。例如,如果一个视频总共包含 32 帧,但在区间 [0,10] 秒内仅有 2 帧,那么调用 FrameZoom(0,10) 会对该区间重新采样并返回 8 帧,从而提高视觉密度,并改善局部推理中的感知细节。

  字幕缩放(SubtitleZoom) 该工具提取与指定时间区间相对应的字幕片段。通过提供起始和结束时间戳,智能体能够获得与所选片段对齐的局部字幕文本,从而在时间边界明确的上下文中进行细粒度多模态推理。

  描述缩放(CaptionZoom) 该工具充当视觉帧与基于文本推理之间的语义桥梁。它首先调用帧缩放(FrameZoom)从给定区间提取视频帧,然后利用视频大语言模型(VideoLLM)生成自然语言描述(natural-language captions),以概括关键视觉事件、物体和交互。在工具推理数据合成(tool-reasoning data synthesis)过程中,大语言模型智能体(LLM agent)不是直接使用原始帧,而是通过查询描述缩放(CaptionZoom)来获取局部视觉语义的文本描述,从而通过基于工具的交互有效模拟感知落地(perceptual grounding)。在最终训练阶段,这些生成的描述会被视觉帧标记(visual frame tokens)所替换,使视频大语言模型(VideoLLM)能够内化直接扎根于视觉表征中的结构化推理模式。

  

1.2.2 使用智能体驱动的大模型进行数据合成(Data Synthesis with Agentic LLMs)

  给定训练数据集 D = { ( v i , x i , y i ) } i = 1 M \mathcal{D}=\{(v_i, x_i, y_i)\}_{i=1}^{M} D={(vi,xi,yi)}i=1M,其中 v i v_i vi 表示视频, x i x_i xi 是对应的问题, y i y_i yi 是真实答案,论文构建了结构化的工具系统提示,以诱导大语言模型产生基于工具的推理,如附录 A.1 所示。对于每个查询 x i x_i xi,首先使用 VideoLLM 为 v i v_i vi 生成视频描述 c i c_i ci。然后,将查询 x i x_i xi、描述 c i c_i ci 和工具系统提示模板 p p p 组合起来,形成模型输入。大语言模型 P P P 处理该输入,以生成推理轨迹 r ^ i \hat{r}_i r^i 和预测答案 y ^ i \hat{y}_i y^i。每条轨迹 r ^ i \hat{r}_i r^i 表示一条多轮推理路径,其中每一步都对应一个推理决策和一次工具调用。在数据合成过程中,CaptionZoom 是唯一的视觉访问入口:它将选定区间中的帧转换为具有时间落地性的描述文本,随后大语言模型基于这些描述进行推理。大语言模型并不是通过 FrameZoom 直接使用原始帧,而是与 CaptionZoom 交互,从而实现更强的、基于文本的视觉推理。为了增强推理多样性,论文将大语言模型的采样温度设置为 0.7,并为每个输入生成 5 条不同的推理轨迹。大语言模型迭代地执行推理和工具调用,直到得到最终答案或达到预设的步数上限 T T T。论文只保留那些预测答案 y ^ i \hat{y}_i y^i 与真实答案 y i y_i yi 一致的轨迹;如果没有任何轨迹满足这一条件,就从候选轨迹中随机选择一条。通过这一过程,论文获得了多样、可解释且具有时间落地性的推理轨迹,从而促进稳健的视频推理性能。

在这里插入图片描述
在这里插入图片描述

  

1.2.3 多模态工具推理训练(Multimodal Tool-Reasoning Training)

  基于由大语言模型生成的工具增强推理数据,论文构建了视频交错式思维链数据集 D tool = { ( v i , x i , r ^ i , y ^ i ) } i = 1 M \mathcal{D}_{\text{tool}}=\{(v_i, x_i, \hat{r}_i, \hat{y}_i)\}_{i=1}^{M} Dtool={(vi,xi,r^i,y^i)}i=1M。每条推理轨迹 r ^ i \hat{r}_i r^i 由一系列推理步骤及其对应的工具调用组成。在这些工具中,FrameZoom 替代了 CaptionZoom,并发挥核心作用,因为它是唯一能够直接访问视频内容的组件。它检索时间上局部化的视觉证据,为大语言模型提供推理所必需的感知落地。在数据集构建过程中,Caption Zoom 的文本输出被替换为由特殊 <video> 标记表示的对应视频片段。该转换将推理轨迹变为多模态交互序列,从而为视频大语言模型提供直接的视觉—文本监督。多模态学生视频大模型 f θ f_{\theta} fθ 通过最小化如下联合目标,被训练为同时复现推理过程和最终答案:

L = 1 M ∑ i = 1 M [ ℓ ( f θ ( 1 : T ) ( v i , x i ) , r ^ i ) ] , ( 1 ) L=\frac{1}{M}\sum_{i=1}^{M}\left[\ell\left(f_{\theta}^{(1:T)}(v_i,x_i),\hat{r}_i\right)\right], \quad(1) L=M1i=1M[(fθ(1:T)(vi,xi),r^i)],(1)

  其中 ℓ ( ⋅ ) \ell(\cdot) () 表示词元级交叉熵损失。通过这种训练,学生视频大模型学会将文本推理与视觉落地对齐,并内化教师模型结构化的工具使用逻辑。因此,它能够直接基于视频帧执行可解释的、具有时间落地性的推理。

1.2.4 自适应视频推理(Adaptive Video Reasoning)

  如图 4 所示,模型置信度与预测准确率表现出很强的相关性。置信度分数位于 0.9 到 1.0 之间的样本中,大约 90% 是正确的,而置信度低于 0.5 的样本中,超过一半是错误的。受这一观察启发,论文使用置信度作为控制信号,以触发多轮基于工具的推理。给定一个输入视频和一个查询,如果视频时长短于 600 秒,VideoThinker 首先采样 n n n 帧;否则,它会检索 k k k 个相关片段。随后,推理模型 VideoThinker( p θ p_{\theta} pθ)生成一个初始答案以及一个置信度分数 γ \gamma γ

γ = exp ⁡ ( 1 m ∑ t = 1 m log ⁡ f θ ( y ^ t ∣ v , x , y ^ < t ) ) . ( 2 ) \gamma=\exp\left(\frac{1}{m}\sum_{t=1}^{m}\log f_{\theta}(\hat{y}_t\mid v,x,\hat{y}{<t})\right). \quad(2) γ=exp(m1t=1mlogfθ(y^tv,x,y^<t)).(2)

  如果 γ > τ \gamma>\tau γ>τ,则直接返回答案;否则,VideoThinker 会启动一个工具增强的推理过程,使用工具推理提示来细化响应。这种自适应的两阶段设计通过在不确定情况下结合直接推理与更深层的、工具引导的推理,有效平衡了效率与准确性。

在这里插入图片描述

公式2本质上是在计算模型对“当前这条答案序列”的整体置信度。论文给出的公式是 γ = exp ⁡ ( 1 m ∑ t = 1 m log ⁡ f θ ( y ^ t ∣ v , x , y ^ < t ) ) \gamma=\exp\left(\frac{1}{m}\sum_{t=1}^{m}\log f_{\theta}(\hat{y}t\mid v,x,\hat{y}{<t})\right) γ=exp(m1t=1mlogfθ(y^tv,x,y^<t))可以按下面理解:

  • v v v 是输入视频, x x x 是问题, y ^ t \hat{y}_t y^t 是模型生成答案在第 t t t 个位置上的词元, y ^ < t \hat{y}{<t} y^<t 表示第 t t t 个词元之前已经生成的内容, m m m 是最终答案的总词元数。 f θ ( y ^ t ∣ v , x , y ^ < t ) f_{\theta}(\hat{y}_t\mid v,x,\hat{y}{<t}) fθ(y^tv,x,y^<t) 表示:在给定视频、问题以及前面已生成答案的条件下,模型对第 t t t 个词元赋予的条件概率。论文先对每个词元概率取对数,再在整个答案长度上求平均,最后再取指数。
  • 这样做以后, γ \gamma γ 就等价于“整条答案逐词元条件概率的几何平均值”。因此它不是看某一个词元有多自信,而是看整条答案整体上有多自信。若答案里多数词元概率都高,则 γ \gamma γ会高;只要其中不少词元概率偏低, γ \gamma γ就会下降。由于用了平均,答案长短带来的影响会被一定程度标准化,所以不同长度答案的置信度更容易比较。

  

1.3 实验(Experiments)

1.3.1 任务与数据集(Tasks & Datasets)

  基准。为了评估论文模型的性能,论文在四个不同的长视频基准上进行了测试:LongVideoBench、VideoMME、LVBench 和 MLVU。这些基准涵盖了多种任务,用于评估模型的视频理解和多模态推理能力。LongVideoBench是一个长视频理解基准,包含 3,763 个视频(最长可达 1 小时),带有字幕,并涵盖 17 个类别中的 6,678 个人工标注的多项选择问答对。论文使用其验证集进行评估。VideoMME包含 900 个视频(总计 254 小时),带有 2,700 个人工整理的问答对,覆盖六个领域和 30 个子类别。视频长度范围从 11 秒到 1 小时,并包含帧、字幕和音频,从而支持多模态推理。论文主要使用其中的长视频子集(超过 600 秒)进行评估。LVBench 聚焦于超长视频理解,视频长度从 70 秒到 4 小时不等。它包括单场景、多场景和全场景设置,覆盖时间、空间、因果、假设和外部知识等多种推理类型。MLVU 是一个多任务长视频理解基准,包含来自电影、监控、第一人称视频和动画等类型的多样化视频。论文使用其测试集进行评估。

  实现细节。论文基于 CG-Bench 构建了多模态视频交错式工具推理思维链数据,其中包含 1 万个多项选择问答样本。大语言模型智能体使用部署在 4 张 NVIDIA H200 GPU 上的 Qwen3-235B-A22B-MoE,而视频大语言模型使用 Qwen2.5-VL-7B。视频大语言模型在 1 万个视频交错样本上微调 3 个 epoch,最多使用 4 张 NVIDIA H200 GPU。训练和推理均使用 MS-Swift 完成。为实现高效推理,VideoThinker 使用 32 帧直接生成答案及其置信度,每帧的最大分辨率为 32,768 像素。在两阶段推理过程中,所涉及的总帧数不超过 64。论文将 VideoThinker 与若干基线模型进行比较,包括闭源模型和开源模型:

  • 闭源模型包括 GPT-4o、Gemini-1.5 Pro 和 Seed 1.5VL-Pro。
  • 开源模型包括 Qwen2.5VL-72B、LongVILA-7B、Video-XL-7B、Video-R1-7B 和 Qwen2.5VL-7B。
  • 智能体式大语言模型包括 VideoAgent(with GPT-4)、VideoAgent(with GPT-4)、VideoTree(with Qwen-plus) 和 VideoExplorer(Qwen2.5-7B-tuning + Qwen2.5-VL-32B)。

  对于 LVBench 和 MLVU 基准,音频字幕由 FFmpeg 和 Whisper 生成。所有解码都遵循官方配置,置信度阈值默认设为 0.7。

1.3.2 对比实验(Comparison with State-of-the-arts)

在这里插入图片描述

  

1.3.3 消融实验(Ablation Study)

在这里插入图片描述
在这里插入图片描述

  

二、论文理解&总结

  暂时省略,用到再分析。

  

三、代码学习

  暂时省略,用到再分析。

  

写在最后

  由于笔者🖊️精力有限且本文更多的目的是通过📒博客记录学习过程并分享更多知识,因此文中部分描述不太具体,如有不太理解💫的地方可在评论区👀留言。非特殊赶deadline⏰或假期⛱️期间,笔者会经常上线回复💬。如有不便之处,请海涵~

  如果想了解更多关于长视频理解和视频智能体新工作,可以关注笔者的Github仓库:Awesome-Video-Agent

  另外,创造不易,转载请注明出处💗💗💗~

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐