引言

在当今多模态大模型(Multimodal Large Language Models, MLLMs)飞速发展的时代,LLaVA和BLIP2作为两个极具代表性的工作,各自开创了不同的技术路线。一个追求简洁高效,一个讲究精巧设计;一个让语言模型“学会看”,一个让视觉特征“学会说”。

本文将深入剖析这两种模型在处理视觉和语言时的异同,从架构设计、融合方式、训练策略到实际应用,为你呈现一幅完整的技术对比图景。


一、核心思想对比

1.1 LLaVA:“让语言模型学会看”

LLaVA(Large Language and Vision Assistant)的核心思想非常直接:将强大的语言模型与视觉编码器连接起来,通过指令微调,让模型能够理解图像内容并按照人类的指令进行多轮对话

一句话概括:用简单MLP投影器将视觉特征映射到LLM的词嵌入空间,让LLM自己学会“看”图像。

1.2 BLIP2:“让视觉特征学会说”

BLIP2(Bootstrapping Language-Image Pre-training)则采用了另一种思路:用Q-Former作为信息瓶颈,从视觉特征中筛选最精华的信息,再输送给冻结的LLM

一句话概括:精挑细选,让Q-Former“翻译”视觉特征给LLM,LLM只负责“说”。

1.3 核心差异总结

维度 LLaVA BLIP2
设计哲学 简洁直接,端到端 精巧设计,模块化
核心思想 让LLM学会看图像 让视觉特征适配LLM
训练效率 需要微调LLM LLM全程冻结,只训练Q-Former
可训练参数量 较大 较小(约188M)

二、架构设计详解

2.1 LLaVA架构

LLaVA的架构由三个核心组件构成,整体设计非常简洁:

图像 → CLIP ViT (冻结) → MLP投影器 (可训练) → LLM (阶段2可训练) → 文本

组件详解

组件 作用 典型实现 训练状态
视觉编码器 提取图像特征 CLIP ViT-L/14(336×336) 冻结
投影器 视觉→语言的桥梁 两层MLP(1024→4096→4096) 可训练
语言模型 理解和生成 Vicuna/LLaMA系列 阶段2解冻微调

关键特点

  • 视觉Token数量:576个(图像被分割成24×24个Patch)
  • 信息传递方式:所有576个视觉Token直接作为前缀输入LLM
  • 无信息瓶颈,信息量最大但计算成本也高

2.2 BLIP2架构

BLIP2的核心是Q-Former(Querying Transformer),这是一个精巧设计的轻量级Transformer:

图像 → CLIP ViT (冻结) → Q-Former (可训练) → LLM (冻结) → 文本
                              ↑
                    32个可学习Query Token

组件详解

组件 作用 典型实现 训练状态
视觉编码器 提取图像特征 CLIP ViT(冻结) 冻结
Q-Former 筛选视觉信息 12层Transformer + 交叉注意力 可训练
Query Token 主动提问的“探针” 32个可学习向量 可训练
语言模型 生成文本 OPT/FlanT5/Vicuna 冻结

关键特点

  • 视觉Token数量:32个(经Q-Former压缩后的精华Token)
  • 信息瓶颈:强制将海量视觉信息压缩成32个Token
  • 主动提问:Query主动检索图像特征中与文本最相关的部分

2.3 架构对比图

LLaVA的信息流

图像 → [Patch1, Patch2, ..., Patch576] → MLP投影 → [Token1, ..., Token576] → LLM
                                                              ↑
                                                    直接作为前缀输入

BLIP2的信息流

图像特征 (K/V) ←→ 32个可学习Query (Q) ←→ Q-Former交叉注意力 → 32个精华Token → LLM
                              ↑
                      信息瓶颈:强制压缩

三、视觉-语言融合方式对比

3.1 融合方式的核心差异

维度 LLaVA BLIP2
融合方式 直接映射,MLP投影 可学习Query筛选,交叉注意力
视觉Token数量 576个(所有图像Patch) 32个(压缩后)
与LLM交互方式 视觉Token直接作为软提示前缀 Q-Former输出作为软提示前缀
信息瓶颈 有(32个Query强制压缩)
LLM训练状态 阶段2解冻微调 全程冻结

3.2 为什么BLIP2需要信息瓶颈?

BLIP2的设计者发现:直接将海量视觉Token(如576个)输入冻结的LLM,会导致两个问题:

  1. 计算效率低:LLM的上下文长度被视觉Token占据大量空间,影响处理长文本的能力
  2. 信息冗余:许多Patch Token携带的信息对语言生成任务并不重要,存在大量冗余

因此,Q-Former的32个Query通过交叉注意力机制,主动学习“该问什么”,只提取与文本最相关的视觉信息。这就像给LLM配了一个“秘书”,先帮它筛选出最重要的信息。

3.3 LLaVA的考量

LLaVA选择另一种思路:既然LLM本身有强大的理解能力,那就不需要中间筛选,直接把所有视觉信息给它,让它自己学会判断哪些重要。但代价是:

  • 需要微调LLM才能让它“学会看”
  • 推理时处理更多Token,计算成本更高

四、训练策略对比

4.1 LLaVA的两阶段训练

阶段 训练内容 训练对象 数据规模 损失函数
阶段1 特征对齐预训练 仅MLP投影器 558K图文对 对比学习
阶段2 端到端指令微调 MLP + LLM联合微调 665K指令数据 自回归语言建模

阶段1数据来源:LAION、CC、SBU等数据集的筛选子集
阶段2数据构成

  • 学术VQA数据集(GQA、OKVQA、A-OKVQA)
  • OCR和文本丰富图像数据集(OCR-VQA、TextVQA)
  • 区域级定位数据(RefCOCO)
  • 纯文本指令数据(ShareGPT,保持语言能力)

4.2 BLIP2的两阶段训练

阶段 训练内容 训练对象 损失函数 目标
阶段1 视觉-语言表示学习 Q-Former ITC + ITM + LM 让Query提取与文本相关的视觉信息
阶段2 视觉-语言生成学习 Q-Former微调 语言建模 让Query输出适配冻结LLM

关键设计:视觉编码器和LLM全程冻结,只训练Q-Former(188M参数),效率极高。

4.3 BLIP2阶段1的三个任务详解

任务 全称 作用 注意力掩码
ITC 图文对比学习 粗粒度对齐图文特征 Query和文本不能互相看见
ITM 图文匹配 细粒度判断图文是否匹配 Query和文本可以互相看见
LM 语言建模 训练图像到文本的生成能力 Query不能看文本(因果掩码)

这种多任务设计从不同角度锤炼Q-Former,是BLIP2成功的关键。

4.4 训练策略对比图

维度 LLaVA BLIP2
阶段1训练对象 MLP投影器 Q-Former
阶段1训练任务 对比学习(图像→标题) ITC + ITM + LM
阶段2训练对象 MLP + LLM联合微调 Q-Former微调
视觉编码器状态 全程冻结 全程冻结
LLM状态 阶段2解冻微调 全程冻结

五、性能与效率对比

5.1 效率对比

指标 LLaVA BLIP2
可训练参数 较大(LLM参与微调) 较小(仅Q-Former,188M)
训练成本 较高 较低(比Flamingo少54倍可训练参数)
推理效率 较慢(576个视觉Token) 较快(32个视觉Token)
部署灵活性 中(LLM固定) 高(可灵活更换LLM)

5.2 性能对比

任务 LLaVA BLIP2
多模态对话 ⭐⭐⭐ 擅长(端到端训练对话) ⭐⭐ 一般
视觉问答 ⭐⭐⭐ 优秀 ⭐⭐⭐ 优秀(零样本VQAv2领先)
图文检索 ⭐ 较弱 ⭐⭐⭐ 擅长(ITC/ITM任务)
看图说话 ⭐⭐ 良好 ⭐⭐⭐ 擅长(LM任务)
指令跟随 ⭐⭐⭐ 优秀 ⭐⭐ 一般(InstructBLIP提升明显)

BLIP2的标杆数据:在零样本VQAv2上,BLIP2比拥有80B参数的Flamingo模型高出8.7%,而可训练参数仅为其1/54。

5.3 关键性能洞察

一篇2025年的研究发现:将指令嵌入图像中测试时,Qwen2.5-VL性能提升(POPE准确率从80.2%提升到84.3%),但LLaVA-1.5和InstructBLIP性能大幅下降(从84%降至接近随机水平)。分析表明,CLIP-based编码器对嵌入文本区域存在过度注意力偏差。


六、家族演进对比

6.1 LLaVA家族演进

版本 发布时间 核心改进
LLaVA-1.0 2023年10月 首次提出视觉指令微调,开源150K指令数据集
LLaVA-1.5 2023年10月 升级MLP投影器、更高分辨率(336×336)、665K数据混合
LLaVA-v1.6 2024年12月 输入分辨率提升4倍,支持多种宽高比,OCR能力显著增强
LLaVA-o1 2024年11月 引入阶段级束搜索,多模态推理性能提升8.9%
LLaVA-OneVision-1.5 2025年10月 三阶段训练,8B版本超越Qwen2.5-VL-7B

6.2 BLIP家族演进

版本 发布时间 核心贡献
BLIP 2022年 提出MED架构(多专家编码器-解码器)+ CapFilt数据自举
BLIP-2 2023年 提出Q-Former,高效连接冻结的视觉编码器和LLM
InstructBLIP 2023年 引入指令微调,提升零样本能力
BLIP-3 (BLIP3-o) 2025年 采用“先理解后生成”策略,统一图像理解与生成

七、总结与选择建议

7.1 核心差异总结表

对比维度 LLaVA BLIP2
架构 CLIP ViT → MLP → LLM CLIP ViT → Q-Former → LLM
视觉-语言桥梁 简单MLP投影器 Q-Former(带交叉注意力的Transformer)
视觉Token数 576个(所有图像Patch) 32个(压缩后的Query输出)
LLM训练状态 阶段2解冻微调 全程冻结
核心优势 简洁直接,对话能力强 高效,信息瓶颈,灵活适配LLM
核心局限 计算量大,视觉Token多 检索能力虽强,但架构更复杂
代表应用 多模态对话助手 图文检索、VQA、看图说话

7.2 如何选择?

需求场景 推荐模型 理由
构建多轮对话助手 LLaVA 端到端指令微调,对话能力天然更强
资源有限、快速部署 BLIP2 可训练参数少,训练成本低
需要灵活切换LLM BLIP2 Q-Former可插拔,轻松适配不同LLM
图文检索任务 BLIP2 ITC/ITM预训练,检索能力更强
追求极致对话体验 LLaVA 简单直接,社区生态丰富
OCR密集型任务 LLaVA-v1.6 高分辨率支持,文字识别能力强

7.3 一句话总结

  • LLaVA让语言模型学会看——用MLP直接连接视觉和语言,架构简洁,对话能力强
  • BLIP2让视觉特征学会说——用Q-Former精挑细选后再喂给LLM,效率极高,检索和看图说话能力突出

两者殊途同归,但各有千秋,共同构成了当前多模态大模型的两大主流范式。理解它们的异同,有助于我们在实际应用中做出更合适的技术选型,也为进一步探索更优的视觉-语言融合方案提供了思路。


如果你对本文中的某个技术细节感兴趣,或者想了解更多的多模态模型知识,欢迎在评论区留言交流!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐