摘要

大型视觉语言模型(LVLMs)已展现出卓越的多模态理解与推理能力,却仍存在严重的目标幻觉问题。现有研究大多将这一缺陷归因于模型中视觉编码器与大语言模型(LLMs)的规模不匹配所引发的语言先验偏差。具体而言,当前的大型视觉语言模型均基于大语言模型构建,这类模型往往过度依赖文本提示词和大语言模型的内部知识,生成与视觉线索不符的描述内容。然而,通过对幻觉生成机制的深入探究,我们通过实证研究发现了一个此前被忽视的现象:大型视觉语言模型产生幻觉时,不仅会忽略视觉信息,还会忽略文本模态,我们将这种行为定义为模态偏差。这一现象表明,大型视觉语言模型难以同时关注视觉和文本两种模态,进而对用户给出的指令形成碎片化的理解。基于该发现,我们提出一种简洁且无需额外训练的方法,以缓解模型的目标幻觉问题。具体而言,我们对文本令牌和视觉令牌的注意力权重进行干预与调整,平衡跨模态的兼容性,从而让模型更好地贴合用户意图。此外,我们采用对比解码策略,降低大型视觉语言模型对自身参数化知识的过度依赖,与注意力调控手段形成协同效应,进一步提升效果。大量实验验证了模态偏差在大型视觉语言模型中广泛存在。值得注意的是,我们提出的方法能在多个开源大型视觉语言模型和基准任务上有效缓解幻觉问题,充分证明了该方法的通用性与有效性。

引言

近年来,大型视觉语言模型(LVLMs)(白等人,2023a;刘等人,2023;朱等人,2023;陈等人,2023)在多模态推理和人机交互方面展现出前所未有的能力与极强的通用性,受到学术界和工业界的广泛关注。这类模型能够处理文本 - 图像交错的输入,在自动驾驶(崔等人,2024;田等人,2024)、医疗健康(李等人,2024a;徐等人,2024)等众多领域具备巨大的发展潜力。尽管现有大型视觉语言模型已取得亮眼的性能表现,却仍存在严重的目标幻觉问题(李等人,2023;罗尔巴赫等人,2018;吴等人,2024)。具体而言,模型对于用户提供的图像中目标的存在性及属性往往存在较大的判断不确定性,会生成与实际不符的幻觉式描述,这一问题严重阻碍了其在实际场景中的落地应用。

现有研究已深入探究了大型视觉语言模型中目标幻觉的产生机制,且大多将其归因于细粒度表征不足(陈等人,2024c、2024a;赵等人,2022;安等人,2024)和语言先验偏差(刘、郑、陈,2024;陈等人,2024b;江等人,2024)。大型视觉语言模型的经典网络架构主要由视觉编码器和大语言模型(LLMs)构成,二者分别负责处理图像和文本信息。现有跨模态对齐技术往往无法有效捕捉细粒度的语义关联,导致模型对目标属性的准确表征与推理能力存在局限。此外,大语言模型的参数量远大于视觉编码器,例如 Vicuna(蒋等人,2023)的参数量是 CLIP(拉德福德等人,2021)的十倍以上。这种规模差异使得模型过度依赖语言知识而非视觉输入,最终生成与对应图像信息不一致的内容。但这些研究均将视觉信息的缺陷视为目标幻觉的主要成因,忽视了文本输入在决定模型生成结果质量中所起的关键作用

同时,研究人员也投入了大量精力研发缓解大型视觉语言模型幻觉问题的策略,这些策略主要通过在训练、推理和后处理三个不同阶段进行干预实现。其中最直接的方法是在后处理阶段开展干预(周等人,2023;庄等人,2024),对模型生成的幻觉结果直接进行事后修正;训练阶段的干预方法(李等人,2024b;贡贾尔、尹、巴斯,2024)则会融入额外的高质量人工标注数据,对模型进行重新训练或微调,以提升其指令遵循能力;当前主流的研究范式聚焦于推理阶段的干预(刘等人,2024c;赵等人,2024;陈等人,2024c;庄等人,2023),通过采用多样化的解码策略、对语言偏差进行惩罚,从而有效缓解幻觉问题。然而,这些方法均会产生显著的增量成本,包括需要额外的标注数据、增加推理时间,以及重新训练或集成外部工具和模型带来的计算开销。

本文旨在探究如何在不产生显著额外成本的前提下,有效缓解大型视觉语言模型的目标幻觉问题。本研究基于一项实证发现:大型视觉语言模型在生成与目标相关的幻觉描述时,会呈现出两种截然不同的注意力模式。第一种模式下,模型在令牌生成过程中主要关注视觉表征,第二种模式则表现出对文本信息的偏向性。与以往强调语言先验偏差的研究(王等人,2024;冷等人,2024;刘等人,2024b)不同,本文证明,大型视觉语言模型也会出现对文本信息的注意力不足问题,而这同样是幻觉产生的诱因之一。值得注意的是,研究中发现了一个有趣的现象,我们将其定义为大型视觉语言模型中的模态偏差(如图 1 所示):

模型生成不存在的目标幻觉时,会主要关注视觉输入而忽略文本信息;反之,在针对目标存在性生成错误回答时,则会过度依赖文本表征而无视视觉线索。这一发现与直观预期相符:当用户询问某一目标是否存在时,模型应优先关注文本输入中对该目标的具体描述细节;同理,当模型生成图像描述时,则应更偏向于用户提供的视觉信息。

我们将由这两种不同注意力模式引发的目标幻觉,分别定义为生成式幻觉判别式幻觉。具体而言,生成式幻觉指模型生成与图像实际内容不符的目标描述;判别式幻觉则指模型在回答特定目标是否存在的查询时,生成与实际场景相悖的二值化答案(是 / 否)。模型产生生成式幻觉时,会过度侧重视觉表征;而产生判别式幻觉时,则会更依赖文本信息。只有当模型能够同时有效关注文本和视觉表征时,才能生成符合指令的准确回答,避免幻觉的产生。

受上述分析启发,缓解目标幻觉问题的一个直观策略是:让大型视觉语言模型在令牌生成过程中实现文本与视觉信息的注意力分配均衡,从而消除单模态偏向性。为此,本文提出了TVAI—— 一种无需训练、通过文本与视觉注意力干预(Textual and Visual Attention Intervention)减少目标幻觉的方法。该方法聚焦于大型视觉语言模型解码层的自注意力机制,在推理阶段对分配给指令令牌的注意力权重进行调控。

具体来说,为缓解生成式幻觉,我们在令牌生成前沿原始方向增强文本令牌的注意力权重;同理,通过重新校准图像令牌的注意力权重,可使模型大幅减少判别式幻觉的产生。通过对注意力矩阵进行干预,模型能够获得更均衡的隐藏状态,进而有效降低目标幻觉的发生概率。从更宏观的角度来看,该方法为未来研发通用型智能助手迈出了重要一步:TVAI 提升了大型视觉语言模型对细粒度视觉和文本信息的综合融合能力,使其摆脱表面化、碎片化的表征方式。与现有研究不同,本文提出的方法不会产生显著的额外计算成本;此外,我们还突破了将目标幻觉仅归因于语言先验偏差的传统认知,从全新视角对该问题进行了解读。由于 TVAI 仅在推理阶段对注意力权重进行干预,因此可通用适配所有大型视觉语言模型的各类解码策略。

本文在四款主流的大型视觉语言模型上开展了大量实验,实验结果验证了所提方法在缓解幻觉问题上的优异性能。研究分别采用 CHAIR 和 POPE 基准数据集评估模型在长序列生成和视觉问答(VQA)任务中的准确率,并借助 MMBench 基准数据集评估模型的综合能力,以此全面验证 TVAI 的抗幻觉效果。综上,本文的主要贡献可总结如下:

  1. 发现了大型视觉语言模型产生幻觉时的两种截然不同的注意力模式 —— 以图像为中心和以文本为中心,揭示了模态偏差是引发目标幻觉的主要诱因;
  2. 提出了一种无需训练的幻觉缓解方法,通过在推理阶段调控注意力权重,确保模型的生成结果更贴合用户的指令要求;
  3. 大量实验验证,TVAI 能够在不增加数据需求、不产生显著计算开销的前提下,有效缓解大型视觉语言模型的幻觉问题

方法

预备知识

大语言视觉模型(LVLMs)通常由三个核心组件组成:视觉编码器(visual encoder)、投影器(projector)和语言解码器(language decoder)。在推理过程中,视觉编码器将用户提供的图像编码为图像 Token,随后通过投影器映射到文本表示空间。这些图像 Token 与文本 Token 拼接后送入语言解码器,以生成相应的回复。

目前最尖端的语言解码器主要由 n_L 个 Transformer 块组成,其中多头自注意力机制(multi-head self-attention)在生成准确遵循用户指令的回复中起着至关重要的作用。我们定义每个 Block 包含 $n_H$ 个注意力头,第 $l$ 层中第 $h$ 个头的自注意力操作可以公式化如下:

A_{l,h} = \frac{Q_{l,h}K^\top_{l,h}}{\sqrt{d_k}}

O_{l,h} = \text{softmax}(A_{l,h})V_{l,h}

在第 $l$ 层 Transformer 块中,每个注意力头 $h$ 都有其对应的查询矩阵 $Q_{l,h}$、键矩阵 $K_{l,h}$ 和值矩阵 $V_{l,h}$,其维度均为 \mathbb{R}^{n \times d_k},其中 $n$ 代表输入序列长度,$d_k$ 表示隐藏状态的维度。注意力矩阵 A_{l,h} \in \mathbb{R}^{n \times n} 由 $Q$ 和 $K$ 的乘积计算得出,其中每一行代表一个 Token 在信息整合过程中相对于所有其他 Token 的注意力权重。$V_{l,h}$ 的每一行封装了嵌入在 Token 中的表示,而注意力矩阵 $A_{l,h}$ 与 $V_{l,h}$ 的乘积则计算出每个独立 Token 对所有 Token 的加权和 $O_{l,h}$。

换句话说,在 LVLMs 的推理阶段,每个生成的 Token 都是基于对用户提供的文本 Token X_T、图像 Token X_V 以及历史生成 Token X_H 应用注意力权重后导出的特征融合。在多头注意力机制中,所有头的输出被拼接并使用权重矩阵 W^O 进行线性投影以产生最终结果。经过多次自注意力迭代后,得出最终隐藏状态 H。在生成第 k 个 Token 时,最终隐藏状态 H_k 通过全连接层 $W^H$ 映射到词表空间,产生条件概率分布 p \in \mathbb{R}^v

H_{1 \sim k} = \text{concat}(O_{n_L,1}, O_{n_L,2}, \dots, O_{n_L,n_H})W^O

p(y_k | y_{<k}) = \text{softmax}(H_k W^H)

其中 v 表示词表大小,$y_k$表示在第 k步生成的 Token。

生成型幻觉与判别型幻觉 (Generative and Discriminative Hallucinations)

在生成第 k个 Token 时,输入文本 $X_T = [x_{t1}, x_{t2}, \dots, x_{tT}]$、图像 $X_V = [x_{v1}, x_{v2}, \dots, x_{vV}]$ 和历史生成信息 $X_H$ 被输入语言解码器。为了实证研究与“生成型”及“判别型”幻觉相关的两种不同注意力模式,我们引入了两个指标:文本注意力占比(TAR)视觉注意力占比(VAR)

这些指标量化了在 Token 生成期间分配给指令中文本和图像 Token 的注意力,定义如下:

\text{TAR}_{l,h} = \sum_{i=t_1}^{t_T} A_{l,h}(k, i)

\text{VAR}_{l,h} = \sum_{j=v_1}^{v_V} A_{l,h}(k, j)

TAR 和 VAR 分别量化了新生成的第k个 Token 对输入文本和图像 Token 的累计注意力。在图 1 中,我们提供了两个示例来展示不同的注意力模式:以视觉为中心以文本为中心。为了更全面地验证这一现象在 LVLMs 中的普遍性,我们使用两个广泛认可的开源模型(LLaVA-1.5 和 Qwen-VL-Chat)在 COCO 数据集上进行了实验。

实验结果表明,LVLMs 中存在两种截然不同的注意力模式:一种主要关注视觉表示,另一种主要关注文本信息。这反映了模型倾向于独立处理不同模态,而非以整合的方式进行处理。这一现象符合直觉预期:即 LVLMs 应该对文本和视觉指令分配均衡且具备模态感知的注意力,而忽视任何一种模态都可能导致语义不一致和幻觉的发生


 

文本与视觉注意力干预 (Textual and Visual Attention Intervention)

受上述经验性分析结果的启发,一个直观的想法是在推理阶段调整 TAR(文本注意力占比)VAR(视觉注意力占比),从而减轻模型在生成 Token 时过度偏向单一模态的倾向。因此,我们的目标是确定用于操纵注意力权重的可靠方向和最佳激励位置。

Jiang 等人(2024)通过增加同层内所有注意力头的平均绝对值来增强视觉注意力分数,从而改善了不同注意力头对同一图像区域的对齐。Chen 等人(2024a)对图像区域应用高斯模糊以推导出激活偏移向量,随后训练一个额外的分类器来确定哪些注意力头需要激活干预。

相比之下,我们认为 LVLMs 的视觉编码器和语言解码器已经在海量数据集上进行了预训练,分别赋予了它们对图像和文本输入的强大理解能力。因此,通过沿原始注意力方向直接增强图像和文本 Token 的注意力权重,可以引导模型给出更可靠的回复。这种通过直接操纵文本和视觉注意力来减轻单模态偏见的方法,可以表示如下:

A'_{l,h}(k, i) = A_{l,h}(k, i) + \alpha |A_{l,h}(k, i)|, \quad i = t_1 \sim t_{n_T}

A'_{l,h}(k, j) = A_{l,h}(k, j) + \beta |A_{l,h}(k, j)|, \quad j = v_1 \sim v_{n_V}

其中$\alpha,\beta$ 分别控制 TAR 和 VAR 激励的步长。需要注意的是,我们在 Softmax 操作之前对注意力权重进行干预。

此外,当注意力分布是非冗余(non-redundant)时,增强文本和图像 Token 的注意力权重无法达到预期效果,因为大部分注意力已经主要集中在用户指令上。相反,在存在冗余注意力的情况下,LVLMs 中会出现明显的注意力汇聚(Attention Sink)模式。在浅层网络中,这种现象通常不存在,因为模型优先编码语义丰富的信息。然而,在深层网络中,随着隐藏状态逐渐趋于稳定,注意力汇聚模式随之出现,这标志着注意力冗余的发生。

因此,我们的注意力操纵专门应用于注意力汇聚现象出现之后,从而有效增强生成过程中文本和视觉 Token 的影响力。以 Qwen-VL-Chat 为例,图 4 显示了每个解码器层中 TAR 和 VAR 的平均值。文本与视觉注意力干预的最佳激励位置,是由生成型幻觉与判别型幻觉之间注意力模式的分歧点决定的。

对比解码 (Contrastive Decoding)

图 2 展示了我们提出的 TVAI 框架的概览。如图所示,当应用文本与视觉注意力干预(TVAI)时,正确 Token 的条件概率会增加,因为 LVLMs 在生成过程中能更有效地受到用户指令的引导。

然而,由于在海量数据上进行了预训练,LVLMs 仍然表现出对其内部参数化知识的过度依赖,这可能导致幻觉。为了解决这个问题,我们提出了一种对比解码策略,在推理过程中强化 TVAI 的效果,减少模型对错误常识先验的依赖,并进一步增强其缓解幻觉的能力。最终 LVLMs 在每个生成步的条件概率如下式所示:

p_{final} = \gamma \cdot p'(y_k|y_{<k}) + (1 - \gamma) \cdot p(y_k|y_{<k})

其中 $\gamma (\gamma > 1)$ 控制对比解码的强度,$p'(y_k|y_{<k})$ 表示采用 TVAI 后从修改后的注意力图 $A'_{l,h}$生成的 Token 概率,$p(y_k|y_{<k})$ 则对应于原始注意力权重 $A_{l,h}$ 导出的原始输出。

实验

实验设置

模型 为验证本文方法的有效性和泛化能力,采用4种主流开源大型视觉语言模型(LVLMs),分别为 LLaVA-1.5(Liu 等人,2024a)、通义千问视觉对话模型(Qwen-VL-Chat)(Bai 等人,2023a)、MiniGPT-4(Zhu 等人,2023)以及 Shikra(Chen 等人,2023)。

基线方法 基线模型选用原始大型视觉语言模型,同时引入3种当前最优的幻觉抑制方法:OPERA(Huang 等人,2024)、VCD(Leng 等人,2024)和 PAI(Liu、Zheng 与 Chen,2024)。具体实现细节参见补充材料。

评测数据集与指标 本文选取两套专门用于幻觉评测的经典数据集 **CHAIR**(Rohrbach 等人,2018)和 **POPE**(Li 等人,2023)作为基准,客观、全面地验证所提方法的效果。 CHAIR 用于评估图像描述任务中的目标幻觉问题。该指标统计生成描述中出现、但真实标注中不存在的目标占比。

如公式(10)、(11)所示,CHAIR 包含两个子指标,分别用于评估实例级和句子级幻觉。 此外,本文采用 **MMBench**(Liu 等人,2024d)评估模型的综合能力,兼顾幻觉抑制效果与模型整体性能的全面验证。  CHAIR 指标数值越小,说明基于图像描述的目标幻觉抑制效果越好。POPE 则评估大型视觉语言模型的目标判别能力,采用准确率和 F1 值作为评价指标(参照 Liu、Zheng 与 Chen,2024)。对于 MMBench,分别采用总体平均准确率、宏平均精确率、召回率和 F1 值评测其中文子集与英文子集。

实验结果

长文本生成任务 该任务要求大型视觉语言模型对输入图像生成完整、准确的描述。本文在 LLaVA-1.5、MiniGPT-4、Shikra 三款主流开源模型上验证所提 TVAI 方法。实验结果如表1所示:TVAI 在所有模型中均取得最优性能。 结合 CHAIR 指标可以看出,嵌入 TVAI 的模型,其实例级和句子级目标幻觉均大幅降低。

表1同时列出 TVAI 在不同参数设置下的多种组合方案。对比结果表明:TVAI 既能实现当前最优的幻觉抑制效果,又可以保留甚至小幅提升原始模型的综合能力。由此证明,该干预框架能够有效提升大型视觉语言模型生成内容的真实性,且鲁棒性良好。

视觉问答任务 该任务考验模型对图像的理解能力,以及针对视觉内容作答的能力。沿用图像描述任务的评测体系,在 LLaVA-1.5、MiniGPT-4、Shikra 三款模型上,对比现有最优方法与 TVAI 方法,结果如表2所示。

由表可见,TVAI 在视觉问答(VQA)任务中表现始终领先。实验基于 POPE 基准量化模型效果,采用准确率和 F1 值衡量模型判断图像中目标是否存在的能力。POPE 包含三种测试场景:随机场景、热门场景、对抗场景。其中对抗场景难度最高——样本包含与视觉场景强相关、但实际不存在的目标,容易诱导模型依赖固有知识作答、而非依托图像真实内容。表2仅列出对抗场景下的实验数据。结果显示:搭载 TVAI 的模型,性能显著优于原始模型及其他主流幻觉抑制方法。

综合能力评测 除验证 TVAI 的幻觉抑制效果外,基于 MMBench 基准测试该方法是否影响模型的基础能力。

如表3所示:TVAI 能够完好保留原始模型的固有能力,部分场景下还实现性能提升。原因在于 TVAI 引导模型同时关注用户指令中的多模态信息,强化模型感知能力。实验说明:大型视觉语言模型中的模态偏置,会严重削弱模型的感知效果。

消融实验

如表1所示,简化版模型与完整 TVAI 模型存在稳定性能差距。TVAI 同时调控文本注意力与视觉注意力,体现了多模态干预的互补性与协同性。模型输出依赖视觉信息与文本指令的双重约束,单一模态增强反而会加剧模态偏置。 为量化该规律,在 LLaVA-1.5 的长文本生成任务中调节文本/视觉注意力干预权重(表4左):固定视觉权重 β,增大文本权重 α,幻觉抑制效果逐步提升;但当 α=1 时,幻觉最少、F1 值却出现失衡(存在过度校正风险)。因此主实验中,LLaVA-1.5 设定参数 α=0.93、β=0.5。受模型结构、训练方式、视觉词数量差异(如 LLaVA-1.5 含576个视觉词,MiniGPT-4 仅32个)影响,其他模型最优超参数详见补充材料。 此外,针对 TVAI 中的对比解码模块开展实验。该模块在推理阶段强化注意力调控。在图像描述任务中,基于 LLaVA-1.5 和 MiniGPT-4,调节对比解码参数 γ(表4中、右)。结果验证模块有效性:γ 越大,幻觉抑制效果越好。但 TVAI 属于无训练推理优化方法(不微调基础模型),γ 过大会偏离模型原生生成逻辑,破坏精确率与召回率平衡,降低输出可信度。因此合理选取 γ,是保证 TVAI 稳定、有效的关键。 ## 泛化性分析 图1基于 LLaVA-1.5 展示大型视觉语言模型的模态偏置现象。为验证泛化能力,图4分析 Qwen-VL-Chat 中生成类、判别类幻觉词的注意力分布,发现该模型同样存在严重模态偏置。图3对比幻觉词与非幻觉词的注意力分布:非幻觉词的文本注意力与视觉注意力分布更均衡,模态偏置更低。基于普遍存在的模态偏置问题,TVAI 能够广泛提升各类大型视觉语言模型的输出可靠性。

结论

本文探究了大型视觉语言模型幻觉产生的底层机理,明确核心诱因——**模态偏置**,即模型过度依赖单一视觉或文本模态,是现有模型的共性问题。针对该问题,提出无需训练、简单高效的幻觉抑制方法 TVAI。该方法引导模型对齐用户指令,提升生成内容真实度,减少无效幻觉信息。实验证明,TVAI 可有效优化大型视觉语言模型的多模态推理能力,具备良好的实际应用价值。

评价

感觉吃了一个巧克力味的💩,这么好的发现做法就乘了个缩放系数,maybe实验很强?后续我会泡一下baseline。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐