TPAMI 2025 | 基于在线密集时序 Token 学习的通用模态跟踪研究

01 论文信息
- 论文题目: Towards Universal Modal Tracking With Online Dense Temporal Token Learning
- 论文作者: Yaozong Zheng, Bineng Zhong, Qihua Liang 等
- 发表单位: Guangxi Normal University、Xiamen University 等
- 发表会议\期刊: IEEE TPAMI 2025
- 代码链接: https://github.com/GXNU-ZhongLab/ODTrack
02 论文主要贡献

传统方法的三个核心痛点
第一,image-pair sampling 太稀疏。
很多跟踪器只取一个参考帧和一个搜索帧。这样做的问题是:模型更像在做“瞬时匹配”,对目标长时间运动趋势、遮挡前后变化、视角连续变化理解不足。
第二,image-pair matching 只做局部匹配。
即便有些工作引入了时序信息,很多也只是把几帧额外塞进去,并没有真正建立跨 search frame 的持续关联。也就是说,模型知道“这两帧像不像”,但不一定知道“这个目标一路是怎么过来的”。
第三,多模态方法普遍 one-model-to-one-task。
RGB-T 一个模型,RGB-D 一个模型,RGB-E 再一个模型。这样虽然各做各的能 work,但训练成本高、泛化差、参数无法共享,也不适合做“通用跟踪器”
论文主要贡献
- 它把传统跟踪里“模板帧 + 搜索帧”的图像对匹配范式,改成了视频级建模。作者认为过去很多方法只看一对图,虽然简洁,但对目标的运动状态、时序变化、跨帧连续性理解不够,因此本文把输入从 image pair 扩展成 video clip,让模型从更长时间范围内学习目标轨迹信息。
- 它提出了一个在线密集时序 token 学习机制。作者把跟踪重新表述成一种“token 传播”任务:当前帧提炼出一个 temporal token,这个 token 继续传给下一帧,相当于把“目标长什么样、在哪、怎么动”浓缩进一个记忆向量里,后续帧推理时直接拿来用,减少传统在线更新那种复杂规则和额外优化步骤。
- 它进一步提出 UM-ODTrack,把单模态 ODTrack 扩展成通用多模态跟踪框架。关键做法是:共享模态 tokenizer、共享 universal modal encoder,再加两个 gated perceiver(Conditional Gate 和 GMP),最后通过 one-shot training 把 RGB-T、RGB-D、RGB-E 多任务一起学进一套参数里,实现 one-model-to-many-tasks。
03 论文创新点
- 从“图像对跟踪”升级到“视频级跟踪”
传统 tracker 大多只看一对图做匹配;本文把整段视频视作连续序列,让模型真正具备时序理解能力,而不是只做局部匹配。 - 提出 temporal token propagation,把历史信息变成可传播记忆
temporal token 不是普通特征,而是目标外观、位置、轨迹的压缩表示。它在帧与帧之间自回归传播,相当于让模型“边跟边记”。 - 提出通用多模态设计:共享编码 + gated perceiver + one-shot training
这不是简单把 RGB 和热红外/深度/Event 拼起来,而是通过门控机制判断“当前该更信哪种模态”,并在一个统一参数空间里完成多任务推理,减少多模型分别训练的成本。
04 方法

4.1 整体框架:UM-ODTrack
传统跟踪公式,传统 tracker 可以写成:
B = Ψ ( R , S ) B = \Psi(R, S) B=Ψ(R,S)
也就是:给参考帧 R R R 和搜索帧 S S S,输出当前帧目标框 B B B。
Transformer tracker 通常把参考图和搜索图切成 patch,变成 token,再做注意力建模。
作者把公式扩展成:
B = Ψ ( { R } k , { S } n , T ) B = \Psi(\{R\}^k, \{S\}^n, T) B=Ψ({R}k,{S}n,T)
这里 { R } k \{R\}^k {R}k 是多张参考帧, { S } n \{S\}^n {S}n 是多张搜索帧, T T T 是 temporal token。
如果进入多模态版本,还会把辅助模态的参考帧/搜索帧也一起送进来,形成统一多模态建模。
先取一小段视频,不是只取两张图
模型输入是一个 video clip。里面有若干张参考帧,也有若干张搜索帧,而且可以来自不同模态。作者这样做的原因很直接:如果只看两张图,模型只能知道“这一帧像不像上一帧”;但如果看一小段视频,它才能更好地理解目标的运动趋势、外观变化、遮挡前后变化。所以第一步的作用,就是把输入从“静态图像对”升级成“短视频片段”。
把每一帧变成模型能处理的 token
进入模型后,图像先要被变成 token。你不用把 token 想得太神秘,可以先把它理解成:把图像切成很多小块,再把每个小块变成一个向量。这样做的结果是,后面的 transformer/encoder 就能像处理“序列”一样处理整张图。对这篇论文来说,这一步很重要,因为后面要做的不只是看当前帧,还要把前后帧的信息放到同一个序列里一起算。
Universal Modal Encoder 提取统一特征
图2里绿色模块是 Universal Modal Encoder。它做的事情可以简单理解成:把输入帧里的有用信息提出来,变成更抽象、更适合比较的特征。为什么一定要有这一步?因为原始像素太杂,不能直接拿来比较目标。经过 encoder 之后,模型才能更容易知道“哪里像目标,哪里不像目标”。结果就是,后面的跟踪模块不是直接对着原图工作,而是对着“更有语义、更稳定”的特征工作。
Temporal Token Association 从当前片段里“提炼记忆
图2里紫色模块是 Temporal Token Association。这是整篇文章的灵魂。它不是只输出当前帧特征,而是额外提炼出一个 temporal token。这个 token 可以理解成一张很小的“记忆卡片”,里面浓缩了三类信息:
目标现在长什么样,目标现在大概在哪里,目标最近是怎么运动的。作者明确说,这个 token 的目的就是存储目标在视频里的外观和时空轨迹信息。
为什么要单独提炼这个 token?因为作者不想让模型每到新的一帧都“从零开始”。有了这个 token,当前帧处理完以后,不只是得到了当前结果,还顺手把“这一路看下来的经验”压缩成了一个可传播的记忆。结果是:后续帧推理会更稳。
把 token 继续传给下一帧
图2最关键的一根紫色箭头,就是 token propagation。当前帧得到的 T t T_t Tt,不会扔掉,而是传给下一帧,形成下一时刻的输入记忆。作者把这个过程写成一种自回归传播:当前 token 和下一帧的空 token 结合,生成新的 token,再参与下一帧推理。
这一步为什么重要?因为跟踪本来就是一个连续任务。目标上一帧在左边,下一帧大概率不会突然飞到完全无关的地方。token 传播的结果,就是模型把这种连续性真正利用起来了。所以你可以把它理解成一根“接力棒”:上一帧把对目标的理解,交给下一帧继续用。
Prediction Head 输出目标
最后,模型通过一个比较常规的预测头输出结果。作者这里没有把 head 设计得特别花哨,还是常见的分类分数图、框大小、偏移量三个分支。也就是说,这篇论文真正的创新重点不在“最后怎么出框”,而在“前面怎么把视频信息和多模态信息组织起来”。结果就是:预测头本身不复杂,但前面给它喂进去的信息更强了,所以最后框也更准。
4.2 多模态部分

第1层:Modality Tokenizer
图3左边你会看到三类输入:RGB+Depth、RGB+Thermal、RGB+Event。传统想法是:不同模态长得很不一样,所以每种模态都设计一个独立 tokenizer。作者设计了一个 shared modality tokenizer,用统一方式把不同模态都变成同一种 token 序列。具体做法上,用一个 2D 卷积层作为统一 tokenizer。
第2层:Conditional Gate
图3中间、encoder 里面那个黄色竖条,就是 Conditional Gate。你可以把它想成一个“调节阀”。它的作用不是简单把 RGB 和深度/热红外/事件特征直接相加,而是先对齐,再决定“这次该融合多少”。作者明确说,这个 gate 会根据不同模态的质量来动态控制融合强度。
f ^ = g a t e ( σ ( [ f t , f t ′ ] ) ) + f , f ∈ { f t , f t ′ } \hat{f} = gate\!\left(\sigma([f_t, f_t'])\right) + f, \quad f \in \{f_t, f_t'\} f^=gate(σ([ft,ft′]))+f,f∈{ft,ft′}
其中,( f_t ) 和 ( f’_t ) 分别表示在某一特定模态下,从第 ( t ) 帧视频中提取出的可见光模态特征和辅助模态特征。 ( \sigma(\cdot) ) 是一个用于调整维度的嵌入层。 ( gate(\cdot) ) 是一个门控网络。它会根据不同模态源之间的质量,自适应地控制多模态跟踪中的表征学习;这种质量由一个两层感知机和一个门控激活函数来评估。 ( \hat{f} ) 表示条件门控模块输出的特征。
因此,我们设计了一种新的模态可扩展感知器(modal-scalable perceiver),它基于一种门控注意力机制,用于进一步增强模型在多模态跟踪场景中的感知能力。更具体地说,学习得到的多模态表征会与两个时序模态 token进行交叉注意力计算,从多个视角构建通用的模态依赖关系。这个多模态关系可以表示为:
f p = U M - A t t n ( σ ( [ f t , f t ′ ] ) , [ T t , T t ′ ] ) , (6) f_p = \mathrm{UM\text{-}Attn}(\sigma([f_t, f'_t]), [T_t, T'_t]), \tag{6} fp=UM-Attn(σ([ft,ft′]),[Tt,Tt′]),(6)
f ^ p = g a t e ( f p ) + f p , (7) \hat{f}_p = gate(f_p) + f_p, \tag{7} f^p=gate(fp)+fp,(7)
f ~ p = U M - M L P ( f ^ p ) , (8) \tilde{f}_p = \mathrm{UM\text{-}MLP}(\hat{f}_p), \tag{8} f~p=UM-MLP(f^p),(8)
其中,(\mathrm{UM\text{-}Attn}(\cdot,\cdot)) 表示一个多模态交叉注意力层,其中前一个输入作为 query,后一个输入作为 key 和 value。 (\mathrm{UM\text{-}MLP}(\cdot)) 表示一个多模态前馈网络层。 (f_p) 表示 GMP 模块中经过 UM-Attn 操作后的输出特征。 (\hat{f}_p) 表示 GMP 模块中经过 gate 操作后的输出特征。 (\tilde{f}_p) 表示 GMP 模块最终输出的特征。
第3层:GMP(Gated Modal-scalable Perceiver)
图3右边的大模块是 GMP。这是多模态部分最关键的高层融合模块。它拿到的不只是普通特征,还拿到两边的 temporal token。也就是说,它不是只看“当前 RGB 特征”和“当前热红外/深度/事件特征”,还会看“两个模态分别记住的历史轨迹信息”。然后它用 gated attention 去做更高层的跨模态融合。
图4(a)是老的注意力方式:输入只有 reference frame 和 current search frame。这样做的问题是,模型只能在这一对图里找关系。它知道“这张模板图和这张搜索图像不像”,但它不知道“目标前几帧是从哪里移动过来的”。
图4(b)是 concatenated token attention。最简单理解就是:把多张参考帧、当前搜索帧、当前 temporal token 全部拼到一起,让它们一次性做 attention。这样做的原因是:大家一起算,跨帧关系最充分。结果是,模型可以更密集地学习“目标在不同时间的外观变化”和“运动轨迹关系”。
图4©是 separated token attention。它的思路是:不要一锅炖,而是拆成三小步。第一步先整合参考帧内部的信息,第二步做参考帧和搜索帧之间的关联,第三步再让 temporal token 和整个视频序列交互。为什么这么拆?因为这样更省算力,也更接近“先看历史,再看现在,再结合记忆”的过程。结果是,它在保留时序关联能力的同时,计算效率更好一些。
本文提出的拼接式 token attention 机制将输入扩展为前面提到的视频序列,从而能够对跨帧的时空关系进行更密集的建模。受到语言中“通过拼接形成上下文”这一特点的启发,我们也将拼接操作用于建立视频序列的上下文。其公式表示为:
f t = A t t n ( [ { R } k , S t , T t ] ) f_t = \mathrm{Attn}([\{R\}_k, S_t, T_t]) ft=Attn([{R}k,St,Tt])
= ∑ s ′ ′ t ′ ′ V s ′ ′ t ′ ′ ⋅ exp ⟨ q s t , k s ′ ′ t ′ ′ ⟩ ∑ s ′ t ′ exp ⟨ q s t , k s ′ t ′ ⟩ , (9) = \sum_{s''t''} V_{s''t''} \cdot \frac{\exp \langle q_{st}, k_{s''t''} \rangle} {\sum_{s't'} \exp \langle q_{st}, k_{s't'} \rangle}, \tag{9} =s′′t′′∑Vs′′t′′⋅∑s′t′exp⟨qst,ks′t′⟩exp⟨qst,ks′′t′′⟩,(9)
其中,(T_t) 表示第 ( t ) 帧视频的时序 token 序列。 ([\cdot,\cdot,\cdot]) 表示 token 之间的拼接操作。 (q_{st})、(k_{st}) 和 (v_{st}) 是对拼接后特征 token 做时空线性映射后得到的 query、key 和 value。
作者的实验说明,两种 attention 都有用,但 concatenation 略好一点;去掉 token association 后,AUC 会下降 1.2%。这说明 temporal token 不是“加了更好看”,而是这个方法真正生效的关键零件。
05 实验分析
损失函数
本文采用分类损失与边界框回归损失联合训练模型。总损失函数为:
L t o t a l = L c l s + λ 1 L 1 + λ 2 L G I o U L_{total} = L_{cls} + \lambda_1 L_1 + \lambda_2 L_{GIoU} Ltotal=Lcls+λ1L1+λ2LGIoU
其中,(L_{cls}) 为 Focal Loss,用于分类监督;(L_1) 和 (L_{GIoU}) 为边界框回归损失,用于约束预测框的位置和重叠质量。论文中设置 (\lambda_1 = 5),(\lambda_2 = 2)。由于模型采用视频片段建模方式,任务损失会对每个视频帧独立计算,最终在搜索帧维度上取平均。
单模态 RGB 的 SOTA
消融实验

表 X:不同 gated perceivers 的消融。也就是
Baseline → +Conditional Gate → +GMP 这一组最核心的多模态模块消融。

表 XI:Conditional Gate 放几层的消融。
表 XII:GMP 放几层的消融。
表 XIII:门控激活函数的消融,也就是 ReLU / Sigmoid / Tanh 对比。

表 XIV:多模态整体设置的消融,也就是
RGB-only / Not Share tokenizers / Adapter tuning / Single-task training / UM-ODTrack。
实验结果表明,本文提出的 ODTrack / UM-ODTrack 在单模态和多模态跟踪任务上都取得了很强的性能。单模态实验说明,将传统的图像对建模扩展为视频级建模后,模型能够更充分地利用目标的时序变化信息,因此在 GOT10K、LaSOT、TrackingNet 等多个基准上均表现出较好的精度和鲁棒性。多模态实验进一步说明,本文提出的 Conditional Gate 和 GMP 模块能够有效融合 RGB 与热红外、深度、事件等不同模态信息,使统一模型在 RGB-T、RGB-D、RGB-E 多个任务上都取得了领先结果。消融实验则验证了各个核心设计的有效性:temporal token association 能显著增强跨帧关联能力,合适的视频片段长度和采样范围有助于学习更稳定的目标轨迹信息,而 shared tokenizer、门控融合机制以及 one-shot multi-task training 共同保证了模型的通用性与性能。总体来看,这些实验充分证明了本文方法在时序建模、多模态融合和统一跟踪框架设计上的有效性
06 个人声明
本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)