【第四十四周】论文阅读

Chunyyyen

257人浏览 · 2026-05-10 10:08:18

Chunyyyen · 2026-05-10 10:08:18 发布

文章目录

摘要
Abstract
一、《Text-Guided Visual Token Selection for Large Multimodal Models》
总结

摘要

本周主要阅读了《Text-Guided Visual Token Selection for Large Multimodal Models》论文，FlashVLM通过文本引导融合视觉显著性与跨模态相似度，动态选择关键视觉令牌，在超75%压缩下性能不降反升，显著提升多模态模型效率。

Abstract

This week, I mainly read the paper Text-Guided Visual Token Selection for Large Multimodal Models. The proposed FlashVLM integrates visual salience and cross-modal similarity under text guidance to dynamically select key visual tokens. It maintains and even improves model performance under a compression ratio of over 75%, greatly boosting the efficiency of multimodal models.

一、《Text-Guided Visual Token Selection for Large Multimodal Models》

1. 核心问题与动机

当前主流的视觉-语言模型在处理图像或视频时，会把每一帧切成大量的“视觉token”，例如576个甚至上千个。这些令牌连同文本一起输入到语言模型中，导致两个严重问题：

计算爆炸：Transformer的自注意力复杂度与序列长度的平方成正比，视觉令牌越多，推理越慢、显存占用越高。
信息冗余：用户的问题往往只关心图像中的一小部分区域（例如“左边的狗在干什么？”），但模型仍然要处理大量无关的背景、天空等token，不仅浪费计算，还可能引入噪声干扰推理。

已有的token缩减方法存在明显不足：

与查询无关的方法只依赖图像本身的显著性，可能丢掉对问题很关键但视觉上不突出的区域。
依赖注意力图的方法使用模型内部的注意力权重来判断重要性，但这些权重在深度剪枝下很不稳定，而且需要修改模型内部结构，无法兼容高效的FlashAttention等加速技术。

2. FlashVLM 的核心思路

作者提出了一种轻量级、与注意力解耦、在编码器与解码器之间一次性完成的token选择框架，名为 FlashVLM。它的基本思想是：

不依赖模型内部的注意力图，而是显式地在特征空间中计算图像token与文本查询的相似度。
融合两类信号：一类是图像本身的内在显著性（比如注意力的热点），另一类是文本查询带来的外在相关性。
保留背景多样性：不仅要保留最相关的token，还要从剩余token中挑出一小部分互不相似的背景token，以维持全局上下文。

这样既保证了与查询的语义对齐，又避免了反复修改模型内部结构，还能与FlashAttention完美兼容。

3. 技术细节

3.1 两阶段流程

FlashVLM 在视觉编码器之后、语言模型之前插入一个选择模块，分两步走：

第一步：计算每个视觉令牌的综合重要性分数
将视觉token投影到语言模型的特征空间，同时对文本嵌入做门控（放大实词、抑制虚词）。然后计算图像token与所有文本token的点积相似度，再通过温度锐化、幂次增强、top-p稀疏化等操作，得到一个干净、稀疏的文本相关性分数。
接着，将这个文本相关性分数与从视觉编码器最后一层注意力中提取的内在显著性分数，在对数域做加权几何平均融合（默认权重各半）。融合后的分数能同时反映“视觉上突出”和“与问题相关”两个维度。
第二步：多样性保持的令牌选取
设定一个要保留的令牌总数，一半分配给“重要token”（直接取融合分数最高的那些），另一半留给“背景token”。背景token的选择不简单取次高分，而是通过一个贪心的迭代算法，在剩余token中不断剔除那些非常相似的重复token，只保留彼此差异较大的代表性样本。这样可以在极端压缩下仍然覆盖图像中不同的语义区域。

3.2 为什么有效？

显式相似度比隐式注意力更稳定：注意力图在深层网络中容易受到头稀疏性、位置偏置、查询长度等干扰，而直接做点积相似度则稳定可解释。
对数域融合抑制噪声：几何平均比算术平均更能突出两种信号都高的token，避免单一信号主导。
多样性保留防止语义塌缩：普通的Top-K选取会把所有预算压到最显著的几个区域，容易漏掉问题真正关心的次要物体；而保留多样化的背景token相当于给模型一个“概括性的场景快照”，在丢掉大量细节的同时依然保留必要线索。

4. 实验与结果（关键发现）

作者在 14 个图像和视频问答基准 上进行了全面评估，使用多种主流VLM架构（LLaVA、Qwen-VL、InternVL、CogVLM、Video-LLaVA等），并统一了比较协议。

4.1 图像任务上的表现

以LLaVA-1.5为例：

保留token数（原576）	剪枝比例	平均精度（相对原模型）	备注
128	77.8%	100.6%	略超原模型，实现“超越无损”
64	88.9%	97.9%	大幅领先第二名
32	94.4%	92.8%	极端剪枝下依然稳健

在全部10个子任务中都取得最佳结果，一致性很强。
相比之下，ToMe在32token时性能跌至61.4%，VisPruner为91.5%。

4.2 视频任务上的表现

Video-LLaVA，8帧 → 2048原始token：

保留token数	剪枝比例	平均准确率/分数	与原模型对比
455	77.8%	48.7% / 3.33	略超原模型（3.32）
227	88.9%	47.1%	保持领先
114	94.4%	44.7%	远高于FastV（42.4%）

在三个视频QA基准上表现一致领先，显示出对时序冗余的鲁棒性。

4.3 深度有效性分析

VQAv2子集，500张带真实标注框的样本：

采用三个指标：

注意力距离：模型聚焦区域与真实目标的空间偏差（越小越好）
分数图熵：注意力分布的混乱程度（越小越集中）
令牌-框IoU：选中的token与真实标注框的重叠度（越大越准）

方法	注意力距离↓	熵↓	IoU↑
FastV	2.86	1.52	0.21
VisPruner	1.63	0.91	0.35
FlashVLM	1.08	0.76	0.46

结论：FlashVLM 不仅聚焦更准、分布更集中，而且选中的token与真实物体重叠度最高。

4.4 效率对比

LLaVA-NeXT-7B，2880 → 160token：

方法	计算量 (T FLOPs)	延迟 (ms)	KV缓存 (MB)
FastV	6.3	112	95
VisPruner	3.8	78	80
FlashVLM	3.6	74	78

优势来源：FlashVLM仅做一次性外部选择，不反复修改内部注意力；而FastV等需要逐层稀疏化，开销更大。

4.5 消融实验 (128token)

去掉任一组件都会导致性能下降，其中：

去掉文本引导（只用视觉显著性） → 下降0.7左右
去掉多样性保留 → 下降0.4左右
去掉对数域融合（改用线性加权） → 下降0.3左右

说明每个组件都有贡献，尤其是文本引导和多样性保留最关键。

总结

FlashVLM
优点

简单有效：不需要修改模型内部，插拔式使用。
超越无损：适当剪枝反而能提升性能（去噪声效应）。
高度通用：在多种VLM、图像和视频任务上一致领先。
工程友好：兼容FlashAttention，延迟和显存显著降低。

局限

依赖投影后的视觉嵌入质量，如果投影本身很差，效果会受限。
对于需要极高细节的细粒度任务，可能仍需要保留更多token。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现）

基于元模型的优化算法是一种基于历史数据来驱动样本点的加入从而逼近局部或全局最优解的优化机制，能够改善传统启发式智能算法需要繁复数值模拟的缺陷，目前在飞行器设计等航空航天领域的应用[20]最为广泛，在电力系统方面也有初步的应用。提出基于 Kriging 元模型的博弈均衡算法，在求解过程中建立 Kriging 元模型替代 VPP 内部的能量管理模型，利用粒子群优化算法搜索优异采样点，更新修正 Krig

AtomGit开源社区

蒙特卡洛风光场景并通过削减法聚类法得到几个典型场景（包含Matlab代码和Python代码实现）

蒙特卡洛方法是一种基于随机抽样的数值计算方法，通过多次随机抽样来估计系统的行为，从而得到系统的统计性质。在风光模型中，蒙特卡洛方法可以用来模拟风速、风向和太阳光照的变化，进而评估风力和太阳能系统在不同条件下的性能。

AtomGit开源社区

完全免费、绿色免安装的Windows轻量级硬件检测工具，零依赖查看电脑配置

📌 摘要：推荐一款免费免安装的Windows硬件检测工具SysView，单文件便携、零依赖，兼容Win7/10/11系统。支持一键读取CPU、内存、显卡等硬件参数，无广告、不上传隐私。特点包括毫秒级启动、纯本地运行、无需管理员权限，适合普通用户、DIY玩家及运维人员。开源项目，提供32/64位版本下载，点击即用，彻底关闭无残留。 🔗 核心优势： ✅ 永久免费无阉割 ✅ 绿色免安装，U盘随身带