摘要

本周主要阅读了《Text-Guided Visual Token Selection for Large Multimodal Models》论文,FlashVLM通过文本引导融合视觉显著性与跨模态相似度,动态选择关键视觉令牌,在超75%压缩下性能不降反升,显著提升多模态模型效率。


Abstract

This week, I mainly read the paper Text-Guided Visual Token Selection for Large Multimodal Models. The proposed FlashVLM integrates visual salience and cross-modal similarity under text guidance to dynamically select key visual tokens. It maintains and even improves model performance under a compression ratio of over 75%, greatly boosting the efficiency of multimodal models.


一、《Text-Guided Visual Token Selection for Large Multimodal Models》

1. 核心问题与动机

当前主流的视觉-语言模型在处理图像或视频时,会把每一帧切成大量的“视觉token”,例如576个甚至上千个。这些令牌连同文本一起输入到语言模型中,导致两个严重问题:

  • 计算爆炸:Transformer的自注意力复杂度与序列长度的平方成正比,视觉令牌越多,推理越慢、显存占用越高。
  • 信息冗余:用户的问题往往只关心图像中的一小部分区域(例如“左边的狗在干什么?”),但模型仍然要处理大量无关的背景、天空等token,不仅浪费计算,还可能引入噪声干扰推理。

已有的token缩减方法存在明显不足:

  • 与查询无关的方法只依赖图像本身的显著性,可能丢掉对问题很关键但视觉上不突出的区域。
  • 依赖注意力图的方法使用模型内部的注意力权重来判断重要性,但这些权重在深度剪枝下很不稳定,而且需要修改模型内部结构,无法兼容高效的FlashAttention等加速技术。

2. FlashVLM 的核心思路

作者提出了一种轻量级、与注意力解耦、在编码器与解码器之间一次性完成的token选择框架,名为 FlashVLM。它的基本思想是:

  1. 不依赖模型内部的注意力图,而是显式地在特征空间中计算图像token与文本查询的相似度
  2. 融合两类信号:一类是图像本身的内在显著性(比如注意力的热点),另一类是文本查询带来的外在相关性。
  3. 保留背景多样性:不仅要保留最相关的token,还要从剩余token中挑出一小部分互不相似的背景token,以维持全局上下文。

这样既保证了与查询的语义对齐,又避免了反复修改模型内部结构,还能与FlashAttention完美兼容。

3. 技术细节

3.1 两阶段流程

FlashVLM 在视觉编码器之后、语言模型之前插入一个选择模块,分两步走:

  • 第一步:计算每个视觉令牌的综合重要性分数
    将视觉token投影到语言模型的特征空间,同时对文本嵌入做门控(放大实词、抑制虚词)。然后计算图像token与所有文本token的点积相似度,再通过温度锐化、幂次增强、top-p稀疏化等操作,得到一个干净、稀疏的文本相关性分数。
    接着,将这个文本相关性分数与从视觉编码器最后一层注意力中提取的内在显著性分数,在对数域做加权几何平均融合(默认权重各半)。融合后的分数能同时反映“视觉上突出”和“与问题相关”两个维度。

  • 第二步:多样性保持的令牌选取
    设定一个要保留的令牌总数,一半分配给“重要token”(直接取融合分数最高的那些),另一半留给“背景token”。背景token的选择不简单取次高分,而是通过一个贪心的迭代算法,在剩余token中不断剔除那些非常相似的重复token,只保留彼此差异较大的代表性样本。这样可以在极端压缩下仍然覆盖图像中不同的语义区域。

3.2 为什么有效?

  • 显式相似度比隐式注意力更稳定:注意力图在深层网络中容易受到头稀疏性、位置偏置、查询长度等干扰,而直接做点积相似度则稳定可解释。
  • 对数域融合抑制噪声:几何平均比算术平均更能突出两种信号都高的token,避免单一信号主导。
  • 多样性保留防止语义塌缩:普通的Top-K选取会把所有预算压到最显著的几个区域,容易漏掉问题真正关心的次要物体;而保留多样化的背景token相当于给模型一个“概括性的场景快照”,在丢掉大量细节的同时依然保留必要线索。

4. 实验与结果(关键发现)

作者在 14 个图像和视频问答基准 上进行了全面评估,使用多种主流VLM架构(LLaVA、Qwen-VL、InternVL、CogVLM、Video-LLaVA等),并统一了比较协议。

4.1 图像任务上的表现

以LLaVA-1.5为例:

保留token数(原576) 剪枝比例 平均精度(相对原模型) 备注
128 77.8% 100.6% 略超原模型,实现“超越无损”
64 88.9% 97.9% 大幅领先第二名
32 94.4% 92.8% 极端剪枝下依然稳健
  • 在全部10个子任务中都取得最佳结果,一致性很强。
  • 相比之下,ToMe在32token时性能跌至61.4%,VisPruner为91.5%。

4.2 视频任务上的表现

Video-LLaVA,8帧 → 2048原始token:

保留token数 剪枝比例 平均准确率/分数 与原模型对比
455 77.8% 48.7% / 3.33 略超原模型(3.32)
227 88.9% 47.1% 保持领先
114 94.4% 44.7% 远高于FastV(42.4%)
  • 在三个视频QA基准上表现一致领先,显示出对时序冗余的鲁棒性。

4.3 深度有效性分析

VQAv2子集,500张带真实标注框的样本:

采用三个指标:

  • 注意力距离:模型聚焦区域与真实目标的空间偏差(越小越好)
  • 分数图熵:注意力分布的混乱程度(越小越集中)
  • 令牌-框IoU:选中的token与真实标注框的重叠度(越大越准)
方法 注意力距离↓ 熵↓ IoU↑
FastV 2.86 1.52 0.21
VisPruner 1.63 0.91 0.35
FlashVLM 1.08 0.76 0.46
  • 结论:FlashVLM 不仅聚焦更准、分布更集中,而且选中的token与真实物体重叠度最高。

4.4 效率对比

LLaVA-NeXT-7B,2880 → 160token:

方法 计算量 (T FLOPs) 延迟 (ms) KV缓存 (MB)
FastV 6.3 112 95
VisPruner 3.8 78 80
FlashVLM 3.6 74 78
  • 优势来源:FlashVLM仅做一次性外部选择,不反复修改内部注意力;而FastV等需要逐层稀疏化,开销更大。

4.5 消融实验 (128token)

去掉任一组件都会导致性能下降,其中:

  • 去掉文本引导(只用视觉显著性) → 下降0.7左右
  • 去掉多样性保留 → 下降0.4左右
  • 去掉对数域融合(改用线性加权) → 下降0.3左右

说明每个组件都有贡献,尤其是文本引导和多样性保留最关键。


总结

FlashVLM
优点

  • 简单有效:不需要修改模型内部,插拔式使用。
  • 超越无损:适当剪枝反而能提升性能(去噪声效应)。
  • 高度通用:在多种VLM、图像和视频任务上一致领先。
  • 工程友好:兼容FlashAttention,延迟和显存显著降低。

局限

  • 依赖投影后的视觉嵌入质量,如果投影本身很差,效果会受限。
  • 对于需要极高细节的细粒度任务,可能仍需要保留更多token。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐