摘要

大型视觉语言模型(LVLM)是近年来出现的强大架构,能够同时对视觉和文本信息进行理解与推理。这类模型通常依赖两大核心组件:**视觉Transformer(ViT)**与**大语言模型(LLM)**。ViT 将视觉内容编码为图像令牌序列,充当模型的感知前端,即模型的“眼睛”;而 LLM 则对这些令牌进行解析,以完成高级推理、生成回答,充当模型的认知核心,即模型的“大脑”。 然而,目前仍不明确:哪些视觉令牌对理解与推理贡献最大,以及这些信号从 ViT 传递到 LLM 的效率如何。现有工作大多聚焦于在 LLM 内部识别**注意力汇(attention sink)**——即那些获得过高注意力、但语义信息较低的令牌。我们则将研究重心转向视觉编码器,从 ViT 中识别出一类**范数较大的视觉令牌**,称之为 **ViT 注意力汇**。这一问题极少被研究,但对大型视觉语言模型而言至关重要。 研究结果表明,这些 ViT 注意力汇包含了来自图像的高级语义概念,能够让 LLM 更高效地完成理解与推理。尽管它们十分重要,但在现有的视觉语言模型架构中,这类令牌却常常被忽视。 为探究其作用,我们对这些注意力汇令牌中蕴含的信息进行了定性与定量分析。我们还分别提出了**无需训练**与**基于训练**的两类方法,以更好地利用 LLM 对这些信息的解读方式与利用程度。通过显式地使用这些令牌,我们在多种视觉语言模型和视觉推理任务上均实现了显著性能提升,包括但不限于数学解题、逻辑推理与几何理解。这一结果凸显了 ViT 注意力汇在增强视觉推理能力方面的巨大潜在价值。

1 引言

大型视觉语言模型(LVLM)将视觉Transformer(如ViT)的视觉感知能力与大语言模型(LLM)的生成能力相结合,在视觉问答、数学推理等广泛的多模态任务上展现出了优异的性能。随着这类模型不断发展并得到越来越多的实际部署,研究者们愈发关注其内在机理,尤其是**注意力动态机制**。注意力在视觉语言模型融合与对齐视觉、文本输入的过程中处于核心地位。具体而言,注意力权重决定了每个文本令牌(如输出令牌)受到对应视觉输入令牌影响的程度。 这类模型中一个值得关注的涌现行为是**注意力汇(attention sinks)**现象:模型会将过高的注意力不恰当地分配给一小部分令牌,且往往与输入内容无关。这些令牌通常对应语义信息低、信息量少的区域,例如图像空白区域(视觉端)或标点符号(语言端)。该现象在ViT和LLM中均被广泛发现,并由于架构的混合特性,自然地出现在视觉语言模型中。 现有研究普遍认为,视觉语言模型中的注意力汇会损害模型性能,相关方法也多聚焦于在推理阶段识别并弱化(甚至直接移除)这类令牌。然而,这些发现与近期大语言模型领域的结论看似矛盾:有研究指出,注意力汇具有潜在作用,能够编码不可或缺的偏置信息,有利于长上下文处理并减少特征过度混合。这引出了一个关键问题:**在视觉语言模型中,注意力汇令牌是否具有本质上的益处?如果有,能否被清晰理解并有效利用?** 为回答这一问题,我们首先系统研究了视觉语言模型中注意力汇令牌的产生来源,发现其由两部分构成:来自ViT主干并传播到LVLM的汇令牌,以及LLM自身产生的汇令牌——这一观测结果此前尚未被提出。随后,我们重点分析了研究较少的ViT注意力汇,并得到三项核心发现:

(1) 传播而来的ViT汇能够捕获**粗糙、高层的全局上下文信息**;

(2) 这类令牌对需要高层图像理解或推理的特定任务具有明显增益;

(3) 由于汇令牌与其他视觉令牌所编码的语义层级存在显著差异(全局 vs. 局部),使用同一套可学习投影层同时处理两类令牌,会在实际应用中降低各自的效果。

基于上述发现,我们提出一种动态提升视觉语言模型性能的有效策略:根据任务类型与图像内容,选择性地强化(或在部分情况下弱化)ViT注意力汇。 具体而言:

第一,基于发现(1)并利用LLM的因果结构,我们提出一种简单的**无需训练**方法,通过将ViT汇令牌移至序列前端提升模型表现,该方法在多种LVLM上均有效,尤其适用于需要高层理解与推理的任务。

第二,我们提出**DIYSink**框架,一种基于训练的方案,旨在让视觉语言模型更高效地利用ViT汇令牌。该框架采用**双MLP投影结构**,分别独立训练以让LLM更有效地使用ViT汇令牌与非汇令牌,从而解决发现(3)所指出的问题。在配备双MLP投影的LVLM变体基础上,我们进一步使用两种机制动态选择推理阶段应使用哪一类令牌(汇、非汇或两者兼顾)及其使用程度,以实现发现(2)的工程化落地。一种机制基于思维链(CoT)路由实现**硬选择**,另一种则通过少量跨任务数据训练一个轻量级**软加权模块**。 我们在四种ViT–LLM组合结构上验证了所提DIYSink方法,视觉主干使用SigLIP和CLIP-ViT,语言主干则使用不同规模的Qwen2、Qwen2.5、Phi-2以及Vicuna。实验结果表明,我们的方法在广泛的基准任务上持续带来性能提升。 **贡献**:总体而言,本文贡献主要分为两方面。一方面,我们通过分析揭示了ViT注意力汇在视觉语言模型中的角色与功能;另一方面,基于这些观测,我们为开源模型(基于训练)与闭源模型(无需训练)提出了简单、系统且有效的改进方案。

3 视觉语言模型中的 ViT 注意力汇

我们在此对视觉语言模型中的 ViT 注意力汇令牌展开分析,探究其在模型中的传播方式、编码的信息内容,以及对大语言模型行为产生的影响。我们基于 LLaVA-7B 进行分析,并在附录 A 中给出其他模型的分析结果。相关结论在不同视觉编码器(CLIP、SigLIP)上均保持一致。

3.1 传播至 LLM 的 ViT 汇的特性 

ViT 汇令牌向 LLM 的传播已有研究(Darcet 等,2024)指出,ViT 注意力汇具有较高的向量范数。鉴于多数相关工作通过注意力权重识别 LLM 中的汇令牌(Sun 等,2024;Kang 等,2025;Barbero 等,2025;Yu 等,2024),为定量验证这些高范数向量是否会作为汇令牌传播至 LLM,我们对 ViT 中计算的令牌范数,与其在输出生成阶段从 LLM 获得的注意力权重之间的关系进行可视化,结果在 300 对图像-问题样本上取平均。如图 3(A) 所示,横坐标为按范数分组后的令牌区间;左侧纵坐标与黄色曲线表示落入各区间的令牌平均数量;右侧纵坐标与紫色柱形表示生成过程中 LLM 分配给该区间内视觉令牌的注意力权重。 我们观察到 ViT 令牌范数与 LLM 在生成时分配的注意力权重呈**正相关**,由此得出结论: > ViT 中范数更高的令牌,更易获得更高的注意力权重,并在 LLM 中成为汇令牌。 具体而言,我们发现 ViT 中大多数令牌的范数低于 60;仅有少量令牌(通常每幅图像 3–5 个)范数超过 100,而这些高范数令牌获得的注意力权重显著更高,约为其余令牌的 7 倍。 我们强调这一相关性并非由模型结构强制保证,因此是一项重要发现。它表明 LLM 会隐式继承 ViT 内部的显著性信号,揭示出视觉语言模型中视觉与语言模块之间存在强烈的归纳偏置关联。

**传播至 LLM 的 ViT 汇在隐空间维度上的分布** 我们进一步探究来自 ViT 的视觉汇令牌如何传播到 LLM。在图 3(B) 中,我们绘制了 LLM 自身涌现的汇令牌 \(\hat{I}_{\text{llm}}\) 的隐维度幅值;在图 3(C) 中绘制了由 ViT 传播而来的汇令牌 \(I_{\text{vit}\to\text{llm}}\) 的隐维度幅值。数值取自 LLM 倒数第二层,并在 300 个样本上取平均。 在所有样本中我们观察到:无论输入图像或提示词如何,ViT 汇都会在 LLM 中**特定的隐维度上持续保持高激活**(如 982、2494、3263 维)。这些维度与 LLM 自身汇令牌的激活维度不同。综上: > 视觉汇令牌会以独立汇令牌的形式传播至 LLM,并激活与 LLM 原生汇不同的隐空间维度。 此外,这些高幅值汇维度仅在多模态训练后才会出现。在 LLaVA-7B 中,LLM 原始的汇维度为 {2533, 1415},而由 ViT 传播而来的汇令牌激活的维度为 {982, 2494, 3263}。这一区分至关重要: “现有研究(Kang 等,2025)依据 LLM 原始汇维度(Sun 等,2024)识别汇令牌,并发现重新分配其注意力可提升整体性能。但这一做法可能在无意中混淆了两种不同汇令牌的作用。” 我们认为,鉴于二者来源的结构基础截然不同,显式地将它们解耦对于理解其各自独特行为至关重要。 **ViT 汇令牌对 LLM 的影响** 基于上述观测,我们能够在 LLM 内部定位由 ViT 传播而来的汇令牌。

最后,我们通过分析其获得的平均注意力权重探究其重要性。在 1000 对图像-问题样本上计算从输出令牌到目标令牌的平均注意力权重后发现:平均而言,非汇令牌每个令牌获得 0.1532% 的注意力,LLM 自身涌现的汇令牌获得 1.27%,而 ViT 汇令牌获得 1.13%。这直观体现了 ViT 汇令牌的重要性。

3.2 ViT 汇中包含什么信息?LLM 如何解读它们?

上一节结果表明,ViT 汇对模型输出具有显著影响,说明其可能编码了对模型学习与推理至关重要的信息。为更好地理解这些令牌的内容与作用,我们分别对 ViT 和 LLM 中的注意力机制进行分析。 **通过注意力层中的相关性图解读汇令牌** 在 ViT 等 Transformer 模型中,注意力图可揭示模型聚合信息的方式(Kovaleva 等,2019;Reif 等,2019)。在注意力图中,纵向列表示某一令牌从其他所有令牌处获得的注意力大小,反映目标令牌在处理过程中的相关性或重要性。如图 4(A) 所示,我们在给定注意力图中对汇令牌对应的纵向列进行可视化。将该注意力列重塑并归一化后,可得到与图像块空间布局一致的二维图,称之为**相关性图(Relevance Map)**。

图 4(B) 展示了三幅图像上汇令牌与非汇令牌的相关性图。注意力图取自倒数第二层,其中 CLIP-ViT 的第 10 号头(H10)负责背景,第 12 号头(H12)负责前景。我们观察到:非汇令牌主要与其局部邻域具有高相关性;而汇令牌则从前景或背景区域广泛分布的令牌处获得注意力,这表明: > ViT 汇编码粗粒度、高层次的上下文特征,且与每个注意力头的特定聚焦目标对齐。 **将 ViT 汇令牌解码为词分布** 我们借助相关性图定性解读 ViT 汇令牌编码的信息。为进行定量分析,我们利用 LLM 将视觉令牌解码为词分布。结合相关性图,我们可对多幅图像进行分析,并收集与目标令牌关联的词分布。 受此前 ViT 概念发现相关工作启发(Rao 等,2024;Chen 等,2023a),我们在 LLM 中屏蔽所有令牌对视觉令牌的注意力(如图 4(A) 中修改后的注意力掩码所示),以阻止信息交换。将这些被隔离的视觉令牌前向传递穿过所有层后,便可将其嵌入映射到输出词表,为每个视觉令牌生成对应的词汇预测。 我们对 300 张猫的图像和 300 张人的图像的词分布进行可视化,结果如图 4(C) 所示。可以观察到:汇令牌与主体目标(如“猫”“人”)强相关,而非汇令牌产生的语义对齐词汇则少得多。多图像上的定量结果支持了我们的结论:**ViT 汇令牌编码粗粒度、高层次的上下文特征,且具备明确的语义含义**。

3.3 任务分类与初步实验 **解读与假设**。

基于上述观察——ViT 注意力汇令牌十分重要,且似乎携带粗粒度的高层上下文信息——我们对其用途提出一项假设。具体而言: (1) 我们假设这种紧凑的高层上下文信息,对需要全局信息的任务(如场景识别)非常有用;而在高度局部化、难以通过高层上下文捕捉的任务(如定位任务)中,则可能对模型产生干扰。 此外,(2) 由于这类令牌的容量固定,对于内容复杂、无法被有效概括的图像,其带来的增益会被削弱。 为验证这一假设,我们设计了一组简单实验。 **基于查询与图像属性的任务分类**。为验证假设,我们构建了一个包含 600 对图像-查询的数据集,均匀采样自一系列广泛使用的基准,包括 GQA、TextVQA、ScienceQA、MME、MathVista。每个样本由 GPT-4o 进行标注,包含两项评分: (i) **图像复杂度**,衡量场景的视觉密度与丰富程度; (ii) **查询全局性**,评估问题是否依赖高层上下文推理或细粒度空间线索。 基于这些连续标注(归一化至 [0,5]),我们将每个样本划分为三类(见图 5(A)): **全局任务**(低图像复杂度)、**局部任务**(高复杂度且低查询全局性),以及**混合任务**(其余样本)。 **ViT 汇令牌对下游任务的影响**。我们采用两种配置探究推理阶段 ViT 汇令牌的影响: (1) 仅使用汇令牌(Sink-only); (2) 仅使用非汇令牌(Non-sink-only),即推理时只向 LLM 输入 ViT 汇令牌或非汇令牌作为视觉信息。 从图 5(B) 的结果可以观察到:仅使用汇令牌的配置在**全局任务**上取得了很强的性能,说明 ViT 汇中紧凑的高层上下文信息对这类任务十分有用。与之相反,在局部任务中移除汇令牌能提升性能,表明汇令牌可能带来干扰。 这一观察证实了: > ViT 汇令牌编码了有用的语义概要信息,但仅在合适条件下有效。它们对视觉复杂度低、语义全局的任务有益,而在需要局部化、高细节视觉处理的任务上则可能降低性能。 这种依赖于上下文的特性,凸显了自适应使用汇令牌的重要性,并为后续面向任务感知的视觉令牌选择提供了设计动机。

4 大型视觉语言模型(LVLM)框架重构

4.1 免训练方法

适用于无法进行训练的场景 受第3.3节分析结果的启发,我们提出一种简洁且有效的推理阶段策略,名为**汇令牌前置(sink-to-the-front)**。该策略将ViT汇令牌重新放置到视觉令牌序列的起始位置,使得后续令牌能够引用汇令牌信息,在需要高层上下文的混合任务与全局任务上带来收益(见图5左侧),同时保持模型在局部任务上的性能。该方法**无需额外训练**,可直接应用于任意已有的大型视觉语言模型。 具体而言,在推理阶段,对于来自LVLM视觉编码器的视觉令牌序列,我们首先依据公式(1)的定义,通过令牌特征范数识别出ViT汇令牌。在将序列传入连接器与大语言模型之前,我们将这些汇令牌及其对应的位置编码一并移动到视觉令牌序列的最前端。

4.2 从头训练方案:

优化模型的信息流 分析中的发现(第3.3节)表明,ViT汇令牌是有用的语义概要信息,但仅在合适的条件下才能发挥作用。为充分且动态地利用汇令牌的“能力”,我们提出一种从头训练的方法**DIYSink**,以优化LVLM中的视觉信息流。 DIYSink包含两个核心设计组件: (1) **双MLP投影层**:独立处理ViT汇令牌与非汇令牌,避免两种表征相互混淆; (2) **动态令牌选择模块**:以输入信息作为门控机制,帮助LVLM在推理阶段决定使用哪一类视觉令牌(ViT汇令牌、非汇令牌,或两者同时使用)。

双MLP投影层

如第3.1节所述,汇令牌具有独特的特征,例如高激活值与大范数,与非汇令牌差异显著。因此,使用共享的MLP连接器很难将两类令牌有效投影到符合大语言模型预期的统一语义空间。为解决这一问题,我们在DIYSink中引入**双MLP投影器**。每个MLP仅针对汇令牌或非汇令牌进行专属训练,使其能够专精于将对应类型的令牌投影到适配大语言模型的嵌入空间。 形式化地,设 V_{\text{sink}} 和 V_{\text{non-sink}}分别为ViT汇令牌与非汇令牌这两个不相交的集合。我们定义两个独立的MLP连接器: f_{\text{sink}}: \mathbb{R}^{D'} \to \mathbb{R}^{D}用于投影汇令牌,f_{\text{non-sink}}: \mathbb{R}^{D'} \to \mathbb{R}^{D} 用于投影非汇令牌。 在预训练阶段,每个连接器仅使用其对应的令牌进行独立优化:\min_{\theta_{f_{\text{sink}}}} \mathcal{L}_{\text{LLM}}\big(E(I_{\text{sys}},\,f_{\text{sink}}(V_{\text{sink}}),\,I_{\text{txt}},\,I_{\text{out}})\big), \quad \min_{\theta_{f_{\text{non-sink}}}} \mathcal{L}_{\text{LLM}}\big(E(I_{\text{sys}},\,f_{\text{non-sink}}(V_{\text{non-sink}}),\,I_{\text{txt}},\,I_{\text{out}})\big)其中 \mathcal{L}_{\text{LLM}} 为预训练使用的语言建模损失。 借助独立训练的两个MLP,在微调阶段,我们分别用它们转换ViT汇令牌与非汇令牌,将全部汇令牌与非汇令牌拼接,并按照标准的大语言模型微调流程进行训练(Liu et al., 2023c)。

动态令牌选择

在双MLP投影的基础上,我们探究两种机制,以根据输入复杂度与任务需求,**动态选择**推理阶段应使用的令牌类型(汇令牌、非汇令牌或两者)。一种机制基于思维链(CoT)路由实现**硬选择**,另一种则利用轻量级的软加权模块,该模块仅需少量跨任务数据即可训练完成。 在第3.3节中,我们通过实验观察到:汇令牌对场景级、整体性理解任务效果显著,而非汇令牌更擅长捕捉细粒度细节。基于该观察,我们设计两步式思维链流程对给定任务进行预分类: (1) 判断图像是符号类图像(局部细节极少)还是真实场景摄影图像; (2) 判断问题查询需要整体推理还是局部视觉理解。 依据上述规则,如果任务面向符号/简单图像且需要整体推理,则推理阶段**仅使用ViT汇令牌**;如果任务面向真实/复杂图像且需要局部视觉理解,则**仅使用非汇令牌**;对于其余所有混合或模糊场景,则同时使用两类令牌生成最终答案。需要说明的是,该方式等价于硬[0/1]式的令牌选择。 除思维链方法外,我们还探索了一种可学习的**重加权机制**,在将令牌输入大语言模型之前,动态平衡汇令牌与非汇令牌的贡献度,如图2中的重加权MLP部分所示。 将输入问题传入冻结的句子编码器,得到文本问题嵌入 q \in \mathbb{R}^d,其中 d 为编码后句子特征的隐层维度。重加权MLP \(R\) 输出两个标量权重:[w_{\text{sink}},\,w_{\text{non-sink}}] = R(q) \in \mathbb{R}^2随后使用输出权重对汇令牌与非汇令牌进行加权,将拼接结果输入大语言模型:\min_{\theta_R} \mathcal{L}_{\text{LLM}}\Bigg(E\bigg(I_{\text{sys}},\, \underbrace{\big[\{w_{\text{sink}} \cdot f_{\text{sink}}(V_{\text{sink}})\};\,\{w_{\text{non-sink}} \cdot f_{\text{non-sink}}(V_{\text{non-sink}})\}\big]}_{I_{\text{vis}}},\, I_{\text{txt}},\,I_{\text{out}}\bigg)\Bigg)训练过程中,仅更新重加权模块 \(R\) 的参数,其余所有组件保持冻结,以避免额外信息泄露并保证评估的公平性。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐