TPAMI 2025 | 基于在线密集时序 Token 学习的通用模态跟踪研究

2501_93807737

386人浏览 · 2026-04-16 20:18:00

2501_93807737 · 2026-04-16 20:18:00 发布

在这里插入图片描述

01 论文信息

论文题目： Towards Universal Modal Tracking With Online Dense Temporal Token Learning
论文作者： Yaozong Zheng, Bineng Zhong, Qihua Liang 等
发表单位： Guangxi Normal University、Xiamen University 等
发表会议\期刊： IEEE TPAMI 2025
代码链接： https://github.com/GXNU-ZhongLab/ODTrack

02 论文主要贡献

在这里插入图片描述

传统方法的三个核心痛点

第一，image-pair sampling 太稀疏。
很多跟踪器只取一个参考帧和一个搜索帧。这样做的问题是：模型更像在做“瞬时匹配”，对目标长时间运动趋势、遮挡前后变化、视角连续变化理解不足。

第二，image-pair matching 只做局部匹配。
即便有些工作引入了时序信息，很多也只是把几帧额外塞进去，并没有真正建立跨 search frame 的持续关联。也就是说，模型知道“这两帧像不像”，但不一定知道“这个目标一路是怎么过来的”。

第三，多模态方法普遍 one-model-to-one-task。
RGB-T 一个模型，RGB-D 一个模型，RGB-E 再一个模型。这样虽然各做各的能 work，但训练成本高、泛化差、参数无法共享，也不适合做“通用跟踪器”

论文主要贡献

它把传统跟踪里“模板帧 + 搜索帧”的图像对匹配范式，改成了视频级建模。作者认为过去很多方法只看一对图，虽然简洁，但对目标的运动状态、时序变化、跨帧连续性理解不够，因此本文把输入从 image pair 扩展成 video clip，让模型从更长时间范围内学习目标轨迹信息。
它提出了一个在线密集时序 token 学习机制。作者把跟踪重新表述成一种“token 传播”任务：当前帧提炼出一个 temporal token，这个 token 继续传给下一帧，相当于把“目标长什么样、在哪、怎么动”浓缩进一个记忆向量里，后续帧推理时直接拿来用，减少传统在线更新那种复杂规则和额外优化步骤。
它进一步提出 UM-ODTrack，把单模态 ODTrack 扩展成通用多模态跟踪框架。关键做法是：共享模态 tokenizer、共享 universal modal encoder，再加两个 gated perceiver（Conditional Gate 和 GMP），最后通过 one-shot training 把 RGB-T、RGB-D、RGB-E 多任务一起学进一套参数里，实现 one-model-to-many-tasks。

03 论文创新点

从“图像对跟踪”升级到“视频级跟踪”
传统 tracker 大多只看一对图做匹配；本文把整段视频视作连续序列，让模型真正具备时序理解能力，而不是只做局部匹配。
提出 temporal token propagation，把历史信息变成可传播记忆
temporal token 不是普通特征，而是目标外观、位置、轨迹的压缩表示。它在帧与帧之间自回归传播，相当于让模型“边跟边记”。
提出通用多模态设计：共享编码 + gated perceiver + one-shot training
这不是简单把 RGB 和热红外/深度/Event 拼起来，而是通过门控机制判断“当前该更信哪种模态”，并在一个统一参数空间里完成多任务推理，减少多模型分别训练的成本。

04 方法

在这里插入图片描述

4.1 整体框架：UM-ODTrack

传统跟踪公式，传统 tracker 可以写成：
$\Psi(R, S)$
也就是：给参考帧 $R$ 和搜索帧 $S$ ，输出当前帧目标框 $B$ 。
Transformer tracker 通常把参考图和搜索图切成 patch，变成 token，再做注意力建模。

作者把公式扩展成：
$\Psi(\{R\}^k, \{S\}^n, T)$
这里 ${R\}^k$ 是多张参考帧， ${S\}^n$ 是多张搜索帧， $T$ 是 temporal token。
如果进入多模态版本，还会把辅助模态的参考帧/搜索帧也一起送进来，形成统一多模态建模。

先取一小段视频，不是只取两张图

模型输入是一个 video clip。里面有若干张参考帧，也有若干张搜索帧，而且可以来自不同模态。作者这样做的原因很直接：如果只看两张图，模型只能知道“这一帧像不像上一帧”；但如果看一小段视频，它才能更好地理解目标的运动趋势、外观变化、遮挡前后变化。所以第一步的作用，就是把输入从“静态图像对”升级成“短视频片段”。

把每一帧变成模型能处理的 token

进入模型后，图像先要被变成 token。你不用把 token 想得太神秘，可以先把它理解成：把图像切成很多小块，再把每个小块变成一个向量。这样做的结果是，后面的 transformer/encoder 就能像处理“序列”一样处理整张图。对这篇论文来说，这一步很重要，因为后面要做的不只是看当前帧，还要把前后帧的信息放到同一个序列里一起算。

Universal Modal Encoder 提取统一特征

图2里绿色模块是 Universal Modal Encoder。它做的事情可以简单理解成：把输入帧里的有用信息提出来，变成更抽象、更适合比较的特征。为什么一定要有这一步？因为原始像素太杂，不能直接拿来比较目标。经过 encoder 之后，模型才能更容易知道“哪里像目标，哪里不像目标”。结果就是，后面的跟踪模块不是直接对着原图工作，而是对着“更有语义、更稳定”的特征工作。

Temporal Token Association 从当前片段里“提炼记忆

图2里紫色模块是 Temporal Token Association。这是整篇文章的灵魂。它不是只输出当前帧特征，而是额外提炼出一个 temporal token。这个 token 可以理解成一张很小的“记忆卡片”，里面浓缩了三类信息：
目标现在长什么样，目标现在大概在哪里，目标最近是怎么运动的。作者明确说，这个 token 的目的就是存储目标在视频里的外观和时空轨迹信息。

为什么要单独提炼这个 token？因为作者不想让模型每到新的一帧都“从零开始”。有了这个 token，当前帧处理完以后，不只是得到了当前结果，还顺手把“这一路看下来的经验”压缩成了一个可传播的记忆。结果是：后续帧推理会更稳。

把 token 继续传给下一帧

图2最关键的一根紫色箭头，就是 token propagation。当前帧得到的 $T_t$ ，不会扔掉，而是传给下一帧，形成下一时刻的输入记忆。作者把这个过程写成一种自回归传播：当前 token 和下一帧的空 token 结合，生成新的 token，再参与下一帧推理。

这一步为什么重要？因为跟踪本来就是一个连续任务。目标上一帧在左边，下一帧大概率不会突然飞到完全无关的地方。token 传播的结果，就是模型把这种连续性真正利用起来了。所以你可以把它理解成一根“接力棒”：上一帧把对目标的理解，交给下一帧继续用。

Prediction Head 输出目标

最后，模型通过一个比较常规的预测头输出结果。作者这里没有把 head 设计得特别花哨，还是常见的分类分数图、框大小、偏移量三个分支。也就是说，这篇论文真正的创新重点不在“最后怎么出框”，而在“前面怎么把视频信息和多模态信息组织起来”。结果就是：预测头本身不复杂，但前面给它喂进去的信息更强了，所以最后框也更准。

4.2 多模态部分

在这里插入图片描述

第1层：Modality Tokenizer

图3左边你会看到三类输入：RGB+Depth、RGB+Thermal、RGB+Event。传统想法是：不同模态长得很不一样，所以每种模态都设计一个独立 tokenizer。作者设计了一个 shared modality tokenizer，用统一方式把不同模态都变成同一种 token 序列。具体做法上，用一个 2D 卷积层作为统一 tokenizer。

第2层：Conditional Gate

图3中间、encoder 里面那个黄色竖条，就是 Conditional Gate。你可以把它想成一个“调节阀”。它的作用不是简单把 RGB 和深度/热红外/事件特征直接相加，而是先对齐，再决定“这次该融合多少”。作者明确说，这个 gate 会根据不同模态的质量来动态控制融合强度。
$\hat{f} = gate\!\left(\sigma([f_t, f_t'])\right) + f, \quad f \in \{f_t, f_t'\}$
其中，( f_t ) 和 ( f’_t ) 分别表示在某一特定模态下，从第 ( t ) 帧视频中提取出的可见光模态特征和辅助模态特征。 ( \sigma(\cdot) ) 是一个用于调整维度的嵌入层。 ( gate(\cdot) ) 是一个门控网络。它会根据不同模态源之间的质量，自适应地控制多模态跟踪中的表征学习；这种质量由一个两层感知机和一个门控激活函数来评估。 ( \hat{f} ) 表示条件门控模块输出的特征。

因此，我们设计了一种新的模态可扩展感知器（modal-scalable perceiver），它基于一种门控注意力机制，用于进一步增强模型在多模态跟踪场景中的感知能力。更具体地说，学习得到的多模态表征会与两个时序模态 token进行交叉注意力计算，从多个视角构建通用的模态依赖关系。这个多模态关系可以表示为：

$f_p = \mathrm{UM\text{-}Attn}(\sigma([f_t, f'_t]), [T_t, T'_t]), \tag{6}$

$\hat{f}_p = gate(f_p) + f_p, \tag{7}$

$\tilde{f}_p = \mathrm{UM\text{-}MLP}(\hat{f}_p), \tag{8}$

其中，(\mathrm{UM\text{-}Attn}(\cdot,\cdot)) 表示一个多模态交叉注意力层，其中前一个输入作为 query，后一个输入作为 key 和 value。 (\mathrm{UM\text{-}MLP}(\cdot)) 表示一个多模态前馈网络层。 (f_p) 表示 GMP 模块中经过 UM-Attn 操作后的输出特征。 (\hat{f}_p) 表示 GMP 模块中经过 gate 操作后的输出特征。 (\tilde{f}_p) 表示 GMP 模块最终输出的特征。

第3层：GMP（Gated Modal-scalable Perceiver）

图3右边的大模块是 GMP。这是多模态部分最关键的高层融合模块。它拿到的不只是普通特征，还拿到两边的 temporal token。也就是说，它不是只看“当前 RGB 特征”和“当前热红外/深度/事件特征”，还会看“两个模态分别记住的历史轨迹信息”。然后它用 gated attention 去做更高层的跨模态融合。
在这里插入图片描述

图4(a)是老的注意力方式：输入只有 reference frame 和 current search frame。这样做的问题是，模型只能在这一对图里找关系。它知道“这张模板图和这张搜索图像不像”，但它不知道“目标前几帧是从哪里移动过来的”。

图4(b)是 concatenated token attention。最简单理解就是：把多张参考帧、当前搜索帧、当前 temporal token 全部拼到一起，让它们一次性做 attention。这样做的原因是：大家一起算，跨帧关系最充分。结果是，模型可以更密集地学习“目标在不同时间的外观变化”和“运动轨迹关系”。

图4©是 separated token attention。它的思路是：不要一锅炖，而是拆成三小步。第一步先整合参考帧内部的信息，第二步做参考帧和搜索帧之间的关联，第三步再让 temporal token 和整个视频序列交互。为什么这么拆？因为这样更省算力，也更接近“先看历史，再看现在，再结合记忆”的过程。结果是，它在保留时序关联能力的同时，计算效率更好一些。

本文提出的拼接式 token attention 机制将输入扩展为前面提到的视频序列，从而能够对跨帧的时空关系进行更密集的建模。受到语言中“通过拼接形成上下文”这一特点的启发，我们也将拼接操作用于建立视频序列的上下文。其公式表示为：

$f_t = \mathrm{Attn}([\{R\}_k, S_t, T_t])$

$\sum_{s''t''} V_{s''t''} \cdot \frac{\exp \langle q_{st}, k_{s''t''} \rangle} {\sum_{s't'} \exp \langle q_{st}, k_{s't'} \rangle}, \tag{9}$

其中，(T_t) 表示第 ( t ) 帧视频的时序 token 序列。 ([\cdot,\cdot,\cdot]) 表示 token 之间的拼接操作。 (q_{st})、(k_{st}) 和 (v_{st}) 是对拼接后特征 token 做时空线性映射后得到的 query、key 和 value。

作者的实验说明，两种 attention 都有用，但 concatenation 略好一点；去掉 token association 后，AUC 会下降 1.2%。这说明 temporal token 不是“加了更好看”，而是这个方法真正生效的关键零件。

05 实验分析

损失函数

本文采用分类损失与边界框回归损失联合训练模型。总损失函数为：

$L_{total} = L_{cls} + \lambda_1 L_1 + \lambda_2 L_{GIoU}$

其中，(L_{cls}) 为 Focal Loss，用于分类监督；(L_1) 和 (L_{GIoU}) 为边界框回归损失，用于约束预测框的位置和重叠质量。论文中设置 (\lambda_1 = 5)，(\lambda_2 = 2)。由于模型采用视频片段建模方式，任务损失会对每个视频帧独立计算，最终在搜索帧维度上取平均。

单模态 RGB 的 SOTA
在这里插入图片描述

消融实验

在这里插入图片描述

表 X：不同 gated perceivers 的消融。也就是
Baseline → +Conditional Gate → +GMP 这一组最核心的多模态模块消融。

在这里插入图片描述

表 XI：Conditional Gate 放几层的消融。

表 XII：GMP 放几层的消融。

表 XIII：门控激活函数的消融，也就是 ReLU / Sigmoid / Tanh 对比。

在这里插入图片描述

表 XIV：多模态整体设置的消融，也就是
RGB-only / Not Share tokenizers / Adapter tuning / Single-task training / UM-ODTrack。

实验结果表明，本文提出的 ODTrack / UM-ODTrack 在单模态和多模态跟踪任务上都取得了很强的性能。单模态实验说明，将传统的图像对建模扩展为视频级建模后，模型能够更充分地利用目标的时序变化信息，因此在 GOT10K、LaSOT、TrackingNet 等多个基准上均表现出较好的精度和鲁棒性。多模态实验进一步说明，本文提出的 Conditional Gate 和 GMP 模块能够有效融合 RGB 与热红外、深度、事件等不同模态信息，使统一模型在 RGB-T、RGB-D、RGB-E 多个任务上都取得了领先结果。消融实验则验证了各个核心设计的有效性：temporal token association 能显著增强跨帧关联能力，合适的视频片段长度和采样范围有助于学习更稳定的目标轨迹信息，而 shared tokenizer、门控融合机制以及 one-shot multi-task training 共同保证了模型的通用性与性能。总体来看，这些实验充分证明了本文方法在时序建模、多模态融合和统一跟踪框架设计上的有效性