EVA:以 CLIP 特征重构驱动的可规模化视觉基础模型(Vision Foundation Model)

EVA(Evolutionary Visual pretraining / 视觉基础模型家族)是一条非常“干净”的路线:用纯 ViT 架构 + Masked Image Modeling(MIM)预训练,不依赖人工标注;但它并不是传统意义上“像素重建”的 MIM,而是把 CLIP 图像编码器的高层视觉特征当作重建目标,从而把“语义抽象能力”与“几何结构建模能力”合在同一个目标里,最终把 vanilla ViT 规模化到十亿级参数,并在分类、检测、分割、视频动作识别等多个下游任务上取得最优或近最优表现。


1. 为什么需要 EVA:视觉基础模型的 scaling 难题

1.1 视觉领域的“规模化障碍”

在 NLP 中,预训练语言模型通过掩码预测或自回归目标实现了参数与数据的持续 scaling,并在多任务迁移上出现明显的“涌现”提升。但视觉领域长期存在两个难点:

  1. 超大规模视觉模型往往依赖专有标注数据
    许多十亿级视觉模型(例如大型 Swin / ViT 变体)在训练时会依赖数量巨大的、不可公开复现的标注数据或强监督配方,这限制了可扩展性与可复现性。

  2. 纯 MIM 在“大模型 + 长训练”条件下不稳定或收益有限
    经典 MIM(例如重建像素、重建离散 token 等)在规模变大后并不总能带来稳定的迁移增益;尤其当模型上到十亿级参数、训练变长时,目标设计是否能持续提供有效学习信号成为关键。

EVA 的切入点很明确:用公开无标注图像,把视觉模型真正 scale 上去,并让迁移收益随训练时长持续增长。


2. EVA 的核心思想:重建 CLIP 视觉特征,而不是重建像素或离散 token

2.1 传统 MIM 的两个常见方向

视觉 MIM 常见目标大致分两类:

  • 像素/低层重建:让模型补全被遮蔽区域的像素或低层表征,偏向学习几何结构与局部纹理。
  • 语义 token 重建(如离散化表征):先把视觉特征量化成离散 token,再预测 token,偏向引入更“语义化”的监督,但会带来量化误差、训练复杂度,以及 token 设计的额外工程负担。

EVA 做了一个关键选择:直接回归 CLIP 视觉塔输出的连续特征

2.2 为什么“CLIP 特征重构”很关键

CLIP 视觉塔的特征来自大规模图文对比学习,本身已经带有丰富的高层语义抽象(如类别、属性、场景概念等)。如果把它当作“教师信号”,那么视觉模型在做 MIM 时就不仅仅是在补纹理/几何,而是在补一种“语义一致”的表示。

可以把它理解为一种“语义化的 MIM”:

  • MIM 的好处:对局部结构、形状、空间布局更敏感;
  • CLIP 特征的好处:对对象语义、跨域迁移、零样本能力更强。

EVA 的目标把二者叠加:在遮蔽条件下,模型必须利用可见 patch 的结构线索,去推断与 CLIP 语义空间一致的缺失 patch 表示。


3. EVA 的预训练目标:形式化定义与损失函数

3.1 记号与输入

将图像分割为 NNN 个 patch(例如 14×1414\times 1414×14 的 patch 网格),用 ViT 进行编码。引入掩码集合 M\mathcal{M}M 表示被遮蔽的 patch 索引集合,可见 patch 索引集合为 V\mathcal{V}V,满足:
M∪V={1,2,…,N},M∩V=∅ \mathcal{M} \cup \mathcal{V} = \{1,2,\dots,N\},\quad \mathcal{M}\cap \mathcal{V} = \emptyset MV={1,2,,N},MV=

EVA 使用 block-wise masking(块状遮蔽),常用遮蔽比例约为 40%40\%40%,使得模型必须依赖全局上下文推断缺失部分。

3.2 教师目标:CLIP 视觉特征

用一个冻结的 CLIP 图像编码器(例如 CLIP-L/14 的视觉塔)提取每个 patch 或对应位置的目标特征向量(概念上可理解为“对 patch 的语义表征”):
ti∈Rd,i∈M t_i \in \mathbb{R}^{d}, \quad i \in \mathcal{M} tiRd,iM
其中 ddd 是 CLIP 特征维度。

EVA 的 ViT 编码器对输入(可见 patch + [MASK] 占位)得到输出表示,经归一化与线性映射到同一维度:
t^i=W⋅Norm(hi),i∈M \hat{t}_i = W \cdot \text{Norm}(h_i), \quad i \in \mathcal{M} t^i=WNorm(hi),iM
其中 hih_ihi 为 ViT 在位置 iii 的输出,WWW 为线性投影矩阵。

3.3 损失函数:负余弦相似度(或等价的余弦距离)

对每个被遮蔽位置 i∈Mi\in\mathcal{M}iM,以余弦相似度作为匹配目标:
cos(t^i,ti)=t^i⊤ti∥t^i∥∥ti∥ \text{cos}(\hat{t}_i, t_i) = \frac{\hat{t}_i^\top t_i}{\|\hat{t}_i\|\|t_i\|} cos(t^i,ti)=t^i∥∥tit^iti

EVA 使用“最大化余弦相似度”等价的最小化负余弦相似度作为损失:
L=−1∣M∣∑i∈Mt^i⊤ti∥t^i∥∥ti∥ \mathcal{L} = -\frac{1}{|\mathcal{M}|}\sum_{i\in\mathcal{M}} \frac{\hat{t}_i^\top t_i}{\|\hat{t}_i\|\|t_i\|} L=M1iMt^i∥∥tit^iti

为什么这种损失稳定
余弦相似度对向量尺度不敏感,训练时更关注方向一致性,常见于表示学习与蒸馏场景;在超大规模、长周期训练中往往比直接做 L2L_2L2 回归更不易出现尺度漂移与梯度异常。


4. 预实验:为什么“直接回归 CLIP 特征”优于 token 化重建与传统蒸馏

EVA 的方法选择并不是拍脑袋,而是基于预实验的结论:

4.1 候选方案对比(概念层面)

  1. 语义 token 化重建
    先把视觉特征离散化成 token,再做分类式预测。问题在于:量化误差、tokenizer 设计成本、离散词表可能限制表达。

  2. 特征蒸馏
    让学生网络拟合强教师网络的全局特征。常见问题是:在长训练/大规模设置下,蒸馏信号可能“饱和”,提升不一定随训练继续增长。

  3. CLIP 特征回归 + MIM(EVA 选择):
    不做离散化,不做复杂蒸馏框架,直接在被遮蔽位置重建连续特征;实验显示更稳定,且随训练时长更能持续获益。

4.2 一个直观例子:为什么 token 化会“卡住表达”

假设图像里有一只“红色的鸟站在树枝上”。

  • token 化重建:可能把很多视觉细节压缩到有限 token 集合里,导致“红色鸟 / 棕色鸟”“树枝 / 电线”等细粒度差异在离散空间中被合并。
  • CLIP 特征回归:允许目标表征保持连续差异,模型更容易学习“语义相近但不相同”的区分边界,迁移到细粒度分类、长尾实例分割时更占优势。

5. 模型架构:坚持“vanilla ViT”以验证 scaling 本身

EVA 的一个重要设计态度是:尽量保持架构简单,减少工程 trick,用更清晰的方式回答“纯 ViT 能否在合适的目标与训练配方下 scale 到十亿级,并泛化到广泛任务”。

典型 EVA ViT(十亿级)配置可概括为:

  • Patch 大小:14×1414\times 1414×14
  • Transformer 层数:40 层
  • 隐藏维度:1408
  • 注意力头数:16
  • 不依赖相对位置编码、layer-scale 等复杂结构改动(保持简洁)

这使得 EVA 的结论更具有“可归因性”:提升主要来自 目标设计(CLIP 特征重构的 MIM)+ 规模化训练,而不是来自堆叠结构 trick。


6. 预训练数据:2960 万公开无标注图像,但“隐式借用”了 CLIP 的图文知识

6.1 数据组成(只用图像,不用标题)

EVA 训练使用公开数据源的图像集合,总计约 2960 万张图像,例如来自:

  • CC12M / CC3M:只取图像
  • COCO / ADE20K:只取训练集图像
  • ImageNet-21K / Object365:使用图像数据

关键点在于:EVA 自身不需要图文对,但因为目标来自 CLIP 视觉塔特征,所以 CLIP 在 4 亿图文对上学到的语义结构被“注入”进 EVA 的训练目标。这是一种非常典型的“间接利用多模态知识”的方式:数据仍然是纯图像,但监督信号具有多模态语义。


7. 训练流程:从“离线提特征”到“长周期 MIM”

EVA 的训练逻辑可以分为 3 步:

  1. 准备 CLIP 目标特征
    对训练图像用冻结的 CLIP 视觉塔提取目标特征(可理解为为每张图预先准备好“语义监督”)。

  2. MIM 训练(遮蔽 + 重建)
    输入图像 patch 序列,随机块状遮蔽一部分 patch,用 ViT 预测被遮蔽位置对应的 CLIP 特征,并用余弦损失训练。

  3. 长周期训练以触发 scaling 的质变
    EVA 通常训练很久(例如 150 epochs),并配合大规模分布式训练、混合精度等工程手段,让模型充分吸收数据与目标的监督信号。


8. 下游迁移:从分类到检测分割,再到视频动作识别

EVA 的价值不在于某一个任务的“刷分”,而在于它在多个任务范式上都表现出强迁移能力,说明其表示学习确实覆盖了视觉任务的核心需求。

8.1 图像分类:强精度 + 强鲁棒

在 ImageNet-1K 等分类任务上,EVA 可在高分辨率输入下获得非常高的 top-1 准确率(例如 560×560 输入的高精度结果)。更关键的是鲁棒性:在 ImageNet 的分布外变体(如更偏草图、不同采集条件)上也能保持较高准确率,说明其表征不仅拟合“原始分布”,还具备更强的语义稳定性。

直观例子(分布变化)

  • 训练集里“猫”的图片多是清晰拍摄;测试时变成“线稿猫”“低光照猫”。
  • 如果表征过度依赖纹理,性能会崩;如果表征更语义化,就更稳。
    EVA 的目标里包含 CLIP 的语义空间约束,因此天然更倾向于学习“语义一致但外观变化”的不变性。

8.2 检测与实例分割:大词汇量任务的关键突破

EVA 在 COCO(80 类)和 LVIS(1200+ 类,长尾更严重)等任务上都能取得强表现。特别值得注意的是:在大词汇量实例分割(LVIS)上性能不再显著掉队,与小词汇量任务的差距大幅缩小。

这意味着 scaling 后的 EVA 具备更强的长尾概念表达能力:不仅能识别“常见物体”,也能更好地区分大量细粒度类别。

直观例子(长尾类别)
在 COCO 里“杯子”可能就一个类;在 LVIS 里会细分到“wine glass / goblet / mug / tumbler …”。
模型如果语义表达能力不足,细分就会混淆。EVA 通过 CLIP 语义空间的重建目标,获得更细粒度、更可迁移的概念边界。

8.3 语义分割:结构理解能力的体现

语义分割要求模型理解像素级区域与类别对应关系,既依赖几何结构,也依赖语义识别。EVA 的目标把“结构推断”(MIM)与“语义对齐”(CLIP 特征)叠加,因此在语义分割任务上也能取得接近 SOTA 的表现。

8.4 视频动作识别:视觉表征的时间泛化

视频任务(如 Kinetics 系列)虽然多了时间维度,但优秀的视觉 backbone 仍然是关键组成。EVA 在视频动作识别上取得强结果,说明其表征不仅适合静态类别识别,也适合作为时序模型的视觉输入,为动作语义提供稳定的空间特征基础。


9. 多模态应用:EVA-CLIP 作为“视觉塔初始化”,加速训练并提升零样本能力

EVA 除了作为单模态视觉 backbone,还能成为多模态系统的关键组件:用 EVA 初始化 CLIP 的视觉塔(vision tower),得到 EVA-CLIP。

9.1 为什么初始化有效

从零训练 CLIP 往往需要海量图文对(例如 LAION-2B 级别)和较大的计算资源,并且训练过程可能不稳定。EVA 提供了一个已经在大规模图像上、以语义化目标训练好的视觉塔,使得 CLIP 训练可以:

  • 用更少图文对数据达到更好零样本表现(例如用 LAION-400M 级别)
  • 训练更稳定(工程上更容易收敛)
  • 收敛更快(减少训练成本)

9.2 一个直观例子:为什么能提升零样本分类

零样本分类在 CLIP 中通常表现为:给定类别文本 prompt,与图像表示做相似度匹配。其上限很大程度取决于图像表示是否具有“语义可对齐性”。

EVA 的预训练目标本质上是在逼近 CLIP 的语义表示空间,因此初始化后的视觉塔更容易与文本空间对齐,零样本分类自然更强,尤其在分布偏移或对抗扰动下会更稳。


10. EVA 相对已有方法的关键创新点(凝练总结)

10.1 创新点 1:把 CLIP 视觉特征作为 MIM 的重建目标

相比需要离散 token 或复杂蒸馏框架的做法,EVA 直接回归 CLIP 特征,目标更简洁、更稳定,并显式引入语义空间约束:

  • 不需要语义 token 化
  • 不需要显式图文对训练
  • 不需要额外蒸馏器结构
  • 在长周期训练中收益更持续

10.2 创新点 2:证明“vanilla ViT + 合适目标”可以稳定 scale 到十亿级

EVA 用简洁架构验证 scaling 的有效性,避免把提升归因到大量 trick 上;这对后续设计更通用的视觉基础模型训练范式很关键。

10.3 创新点 3:作为多模态枢纽(视觉塔初始化)的工程与性能价值

EVA 不仅自己强,还能显著改善 CLIP 的训练稳定性与数据效率,使其成为多模态模型训练的重要“起点”。


11. 结论:EVA 给视觉基础模型训练带来的范式启示

EVA 的整体贡献可以用一句话概括:

用“语义化的 MIM”(重建 CLIP 特征)把纯视觉 ViT 可规模化地训练到十亿级,并在多任务迁移与多模态初始化上同时收获高收益。

它带来的启示主要包括:

  1. 目标设计比架构花活更关键:当目标能同时提供语义与结构信号时,vanilla 架构也能释放 scaling 潜力。
  2. “公开无标注数据 + 强语义监督信号”是可行组合:监督信号不一定来自标注,也可以来自强表征空间(如 CLIP)。
  3. 视觉基础模型与多模态模型之间存在可复用的“中间枢纽”:EVA 这样的视觉塔可以显著降低多模态训练门槛,提升零样本能力并减少训练成本。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐