（2024|TMLR|Meta，DINOv2，ViT，自蒸馏，iBOT，SwAV 中心化，判别式自监督预训练，分类/分割，分辨率调整）无监督稳健的视觉特征学习

iBOT 是 DINO 的直接扩展：可以直接理解为 iBOT 是在 DINO 代码库上，为投影头增加了处理 “图像块” 的能力，并增加了一个损失函数项。
DINOv2 的集大成者：Meta 后续推出的 DINOv2 进一步融合了这两者的优点，它同时使用了 DINO 的图像级损失和 iBOT 的图像块级损失，成为了目前性能最强的视觉基础模型之一。

3. 数据处理

给定多个精选数据集中的图像，本文通过从一个大规模未精选数据池中检索与其相似的图像，来组装本文的精选数据集 LVD-142M。

数据源：精选数据集包括 ImageNet-22k、ImageNet-1k 的训练集、Google Landmarks 以及多个细粒度数据集。未精选数据源包含约 1.2B 张图像。

图像去重：本文首先对未精选数据源进行自去重，移除几乎相同的图像。然后，本文进一步进行相对去重，移除与评估数据集的训练集和测试集过于相似的图像，以保证评估的公正性。

检索系统：本文使用基于样本和基于聚类两种方法来增强数据集。

本文采用一种结合了 DINO 和 iBOT 损失函数，并融合 SwAV 中心化方法的判别式自监督方法来学习特征。此外，本文添加了正则化项以分散特征，并在训练末期加入了短的高分辨率训练阶段。

图像级目标：基于学生网络与教师网络从同一图像的不同裁剪区域提取的特征（ViT 的类别 token），计算交叉熵损失。

补丁（patch）级目标：对学生网络的输入图像块进行随机掩码，而教师网络则输入完整图像。

将学生网络的掩码 token 通过学生 iBOT 头，教师网络中对应位置的可见 token 通过教师 iBOT 头，经 softmax 和中心化后得到 p_ti 与 p_si。
损失函数为（其中 i 为被掩码图像块的索引）：

解耦头权重：

Sinkhorn-Knopp 中心化：

本文采纳了 Ruan 等人的建议，将 DINO 和 iBOT 中教师网络的 softmax 中心化步骤，替换为 SwAV 中使用的 Sinkhorn-Knopp（SK）批归一化方法。
本文运行 SK 算法 3 次迭代，而学生网络仍使用标准的 softmax 归一化。

KoLeo 正则化：

分辨率调整：

本文采用了几项改进来高效地训练大规模模型。相较于 iBOT 的实现，DINOv2 在相同硬件上运行速度提升约 2 倍，内存占用仅为其 1/3。

快速且内存高效的注意力机制：

本文实现了定制版的 FlashAttention，在自注意力层上提升了速度并降低了内存占用。该版本在各项测试中性能不逊于原始实现，且覆盖了更多使用场景和硬件。
受 GPU 硬件特性影响，当每个头的嵌入维度为 64 的倍数、总嵌入维度为 256 的倍数时效率最高。因此，为最大化计算效率，本文的 ViT-g 架构与原始设计略有不同：嵌入维度设为 1536，包含 24 个头（每个头 64 维），而非 1408 维、16 个头（每个头 88 维）。
实验表明，这一调整对最终精度无显著影响，调整后的 ViT-g 骨干网络参数量为 1.1B。

序列打包（Sequence packing）：

DINO 算法需同时处理大尺寸（分辨率 224）和小尺寸（分辨率 98）的裁剪图像。两者分割为图像块后，产生的 token 序列长度不同，无法在同一批次中并行处理。
为此，本文借鉴 NLP 领域的 “序列打包” 技巧：将需前向传播的多个序列拼接成一个长序列，传入 Transformer 模块，同时在自注意力矩阵上应用分块对角掩码，阻止不同序列间的相互注意力。这使得前向传播在数学上等价于分别处理各序列，但显著提升了计算效率。

高效随机深度：

全分片数据并行（FSDP）：

使用 AdamW 优化器进行训练需要维护 4 份 float32 精度的模型副本（学生、教师、一阶矩、二阶矩）。对于 ViT-g 这样的 1.1B 参数模型，这总计需要 16 GB 内存。
为降低单卡内存占用，本文利用 PyTorch 的 FSDP 实现，将这 16 GB 的模型副本分片到多张 GPU 上，使模型规模不再受限于单卡显存，而是由计算节点总显存决定。
此外，FSDP 还降低了跨 GPU 通信开销：权重分片以 float32 存储以满足优化器要求，但主干网络的广播权重与梯度规约操作在 float16 精度下进行（MLP 头的梯度仍在 float32 下规约以防止训练不稳定）。
相比其他自监督方法使用的 DDP 和 float32 梯度全局规约，FSDP 的通信成本降低了约 50%。因此，在扩展 GPU 节点数量时，使用 FSDP 混合精度的训练效率远超 DDP 搭配 float16 自动混合精度。

模型蒸馏：

本文对训练流程的改进主要面向大数据集上的大模型训练。
对于较小的模型，本文选择从最大的 ViT-g 模型进行蒸馏，而非从头训练。知识蒸馏的目标是让小型模型模仿大型模型的输出。
由于本文的训练目标本身已包含从教师网络到学生网络的蒸馏形式，因此本文沿用相同的训练流程，仅作少数调整：使用一个冻结的 ViT-g 作为教师，保留学生的指数移动平均（EMA）作为最终模型，移除掩码机制和随机深度，并在两个全局裁剪上应用 iBOT 损失。
消融实验表明，即使对于 ViT-L 模型，此蒸馏方法的效果也优于从头训练。