BLIP前瞻：解析多模态对齐基石模型ALBEF

koharu123

246人浏览 · 2026-03-29 20:33:25

koharu123 · 2026-03-29 20:33:25 发布

深度对齐：ALBEF (Align Before Fuse)

论文标题：Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

作者：Salesforce Research (2021)

核心思想：在多模态融合之前，先通过对比学习对齐单模态特征，并引入动量蒸馏解决图文噪声问题。

1. 诞生背景

在 ALBEF 出现之前，VLP（Vision-Language Pre-training）主要面临两个瓶颈：

特征空间不一致 (The Modality Gap)：图像特征（通常由预训练的检测器提取）和文本特征（BERT 提取）处于完全不同的分布。直接进行深层融合（Heavy Fusion），模型很难在杂乱的特征中找到对应关系。
目标检测器的束缚：当时主流模型依赖 Faster R-CNN 提取 Region Features。这导致：
- 计算昂贵：检测器非常慢。
- 视野受限：检测器只能看到预定义的类别，会丢失背景等有用信息。
图文数据噪声：互联网爬取的图文对（如 Conceptual Captions）极其“脏”。文本往往并不是严谨的描述，这种弱相关性会误导传统的硬分类目标函数（One-hot labels）。

2. ALBEF 模型架构：三段式设计

ALBEF 采用了对称+非对称混合结构：

2.1 图像编码器 (ViT)

不再使用传统的检测器，而是直接采用 ViT-B/16（12层的transformer）。并用ImageNet-1k上预训练的权重初始化它。将图像切成 $16 \times 16$ 的 Patch，通过 Transformer 提取全局特征。

2.2 文本编码器 (Text Encoder)

使用 BERT 的前 6 层 $L_{6}$ 。它独立地处理文本，提取初步的语言语义。

2.3 多模态融合编码器 (Multimodal Encoder)

使用 BERT 的后 6 层 $L_{6}$ 。这里引入了关键的 Cross-Attention 层。每一层都会将图像编码器的输出作为 Key 和 Value，文本特征作为 Query，实现视觉信息对文本语义的注入。

ALBEF之所以采用图像编码器12层Transformer、文本编码器6层Transformer、多模态编码器6层Transformer的架构配置，核心原因可结合VILT论文对多模态模型结构的分类总结来解释：VILT已归纳出多模态模型的几类典型架构，并指出性能更优的模型普遍遵循“图像编码器足够深、多模态编码器足够强，而文本编码器无需过深”的设计原则，这类C类架构在效果上具备显著优势。ALBEF的整体结构与C类架构高度契合，正是基于这一规律进行的架构选型。

3. 三大核心训练任务（损失函数）

ALBEF 的强大在于其层层递进的训练目标：

3.1 图像-文本对比学习 (Image-Text Contrastive Learning：ITC)

目的：在融合前实现粗粒度对齐。

这一任务正是ALBEF 论文命名的核心依据。其中，ITC（Image-Text Contrastive）任务在多模态融合阶段之前执行，仅依赖图像编码器与文本编码器，不参与多模态编码器的计算。ITC 的核心目标是解决论文研究动机中的第一个关键问题：将图像编码器与文本编码器的特征向量空间进行显式对齐。

在 ITC 任务中，分别提取图像编码器的[CLS] token 作为全局图像特征，文本编码器的[CLS] token 作为全局文本特征，通过计算二者相似度构建对比学习目标：训练过程中不断拉大匹配图文对的相似度，缩小不匹配图文对的相似度，从而完成跨模态特征对齐。

受 MoCo 论文启发，ALBEF 在 ITC 中引入动量蒸馏（Momentum Distillation）机制，用以解决研究动机中的第三个问题 ——大规模网络图文数据存在噪声标注的问题。具体做法为：在预训练阶段，通过滑动平均（moving-average）维护两套动量编码器作为当前编码器的副本；利用动量编码器为当前图像 / 文本检索最相似的文本 / 图像，生成伪标签（pseudo-labels），并将其作为额外监督信号融入损失函数。

实验结果表明，动量蒸馏生成的 ITC 伪标签在一定程度上比原始 Ground Truth 更为可靠。借助该机制，模型可有效缓解数据集噪声问题，实现更鲁棒的预训练。

在单模态编码器输出端，计算图像特征 $I$ 和文本特征 $T$ 的余弦相似度。通过对比学习，拉近匹配对（Positive），推开不匹配对（Negative）。

直觉：让模型在进融合层之前，先在对比空间认出谁是谁的对象。

3.2 图像-文本匹配 (Image-Text Matching: ITM)

目的：执行细粒度的深层二分类任务，建立模态间的“强关联”。

如果说 ITC（对比学习）是让模型合照中模糊地认出对方，那么 ITM 就是让模型坐下来，通过多模态融合编码器（Multimodal Encoder）的 Cross-Attention 机制，仔细比对图像细节与文字描述是否完全吻合。

3.2.1 任务机制

在 ITM 阶段，模型将图像特征序列和文本特征序列同时输入融合编码器。取融合后输出序列的 [CLS] token，该 token 已经通过多层 Cross-Attention 充分吸收了双模态的信息。随后将其接入一个线性投影层和 Softmax，预测一个二分类概率： $P_{itm}$ （匹配或不匹配）。

3.2.2 核心痛点：难样本挖掘 (Hard Negative Mining)

简单的随机负采样（Random Negative Sampling）对模型来说太容易了。比如：一张“狗”的图片配上“波音747”的文字，模型闭着眼都能分出来。为了让模型学到更本质的特征，ALBEF 引入了难样本挖掘策略：

策略来源：利用同一 Batch 内 ITC 任务计算出的相似度矩阵。
做法：对于每一张图像，我们不随机选文本作为负样本，而是去选那些在 ITC 空间里相似度最高、但实际不匹配的文本（Top-K Hard Negatives）。
直觉：这些文本在语义上可能与图像非常接近（例如图像是“黑色的猫”，负样本文字是“黑色的狗”）。强迫模型在这种“极度相似”的干扰下做出正确判断，极大地提升了模型对细微差异的敏感度。