视觉大模型(CLIP、DINO、多模态应用)

一、整体技术路线

1.1 视觉大模型演进链路

整体发展顺序:DINO → 通用视觉大模型 → Transformer → ViT(视觉Transformer) → CLIP(图文模型) → 各类下游应用(GLIP、SAM、稳定扩散等)

1.2 核心统一思想

自然语言用单词作为基础单元,视觉任务用图像分块(Patch) 作为基础单元;二者均以 Transformer 注意力机制为核心架构,实现特征提取。

二、大语言模型基础(复习)

2.1 大语言模型定义与代表

2.1.1 基本概念

大语言模型(LLM)是基于海量文本训练的深度学习模型,具备文本理解、文本生成能力,可完成翻译、问答、摘要、对话等任务。

2.1.2 主流模型

代表模型:GPT-3.5、GPT-4、豆包、DeepSeek、文心一言、千问。

2.2 工作原理:逐词生成

  1. 模型本质是逐字/逐词接龙:给定上文,预测下一个概率最高的字词;
  2. 循环逻辑:将新生成的字词拼接回上文,反复迭代,输出完整语句;
  3. 问答逻辑:把用户问题当作上文,依托训练学到的知识与语言规则完成回答。

2.3 GPT 版本迭代

GPT 全称 Generative Pre-Trained Model(生成式预训练模型),版本能力随参数量、数据量提升:

模型 参数量 训练数据体量
GPT-1 1.17 亿 5G
GPT-2 15 亿 40G
GPT-3 170 亿 45T
GPT-4 万亿级别 >100T

2.4 大模型三阶段训练流程

2.4.1 阶段一:无监督预训练

使用海量无标注纯文本让模型自主学习语言规律,分为两类任务:

  • 语言建模:根据前文预测下一个单词;
  • 掩码语言建模:遮挡句子部分单词,让模型根据上下文补全。
2.4.2 阶段二:有监督微调

使用人工标注的标准问答数据训练,让模型学会规范对话、回答问题,适配真实交互场景。

2.4.3 阶段三:强化学习(RLHF)
  1. 奖励模型训练:输入「提示词+模型回答」,结合人工打分训练打分模型;
  2. 强化优化:用奖励模型对多个回答排序,借助 PPO 算法迭代更新模型,持续优化回答质量。

三、多模态大模型技术

3.1 多模态基本概念

3.1.1 什么是模态

模态指信息载体,常见类型:文本、图像、视频、音频。多模态模型可以同时处理、理解多种不同类型的信息。

3.1.2 技术现状与核心挑战
  1. 现状:业界主流做法是复用训练好的单模态模型(LLM 语言模型、ViT 视觉模型)组合搭建多模态模型,降低训练成本;
  2. 核心挑战:不同模态模型训练相互独立,特征格式不统一,无法直接协同;
  3. 解决方案:通过多模态预训练 + 指令微调,实现不同模态特征对齐、模型输出贴合人类意图。

3.2 多模态模型发展与主流产品

3.2.1 发展时间线
  • 2022:Flamingo 等早期多模态模型诞生;
  • 2023:BLIP-2、Kosmos-1、MiniGPT-4、PaLM-E 等大量模型涌现;
  • 2024 至今:LLaVA 系列、Gemini、CogVLM、Qwen-VL 等新一代多模态模型快速迭代。
3.2.2 主流多模态大模型汇总
模型名称 开发团队 核心优势
ChatGPT OpenAI/微软 综合能力强
Gemini Google Deepmind 全模态综合表现优秀
Claude Anthropic 代码编写能力突出
LLaMA Meta 纯自然语言能力顶尖
Grok xAI 综合交互能力强
DeepSeek 深度求索 通用场景表现稳定
Qwen(通义千问) 阿里 问答、NLP 表现优秀

3.3 多模态通用架构

3.3.1 整体模块

标准多模态模型由四部分组成:模态编码器 → 投影层 → LLM 主干 → 模态生成器

3.3.2 分模态实现
  • 图像/视频:使用 ViT、CLIP 作为视觉编码器;
  • 音频:使用 HUBERT、BEATS 等音频模型提取特征;
  • 投影层:统一不同模态的特征维度,完成特征对齐;
  • LLM 主干:作为模型“大脑”,负责逻辑推理、语言生成。
3.3.3 两大应用方向
  1. 多模态理解:看图答题、图文检索;
  2. 多模态生成:文生图、图生文、文生视频。

四、视觉Transformer(ViT)

4.1 ViT 概述

4.1.1 诞生背景

2020 年 CVPR 顶会,Google 发表论文 《AN IMAGE IS WORTH 16X16 WORDS》,首次将纯 Transformer 大规模应用在图像任务,打破 CNN 在视觉领域的垄断。

4.1.2 核心思路

整张图片切分为多个固定小块(Patch),将图像任务转化为序列任务,复用 NLP Transformer 架构做特征提取。

4.1.3 整体工作流程

图像分块 → 嵌入层处理 → Transformer 编码器提取特征 → MLP 分类头输出结果。

4.2 ViT 嵌入层(图像转序列核心)

4.2.1 图像分块(Patch)

以标准 224×224×3 图像为例:

  • 设定单块大小 16×16
  • 总块数:14×14=19614 \times 14 = 19614×14=196 个 Patch,每一个 Patch 等价于文本里的一个单词。
4.2.2 扁平化与线性映射

将每个 16×16×3 的图像块展平,再通过线性层统一映射为 768 维 特征向量。

4.2.3 类别Token(Class Token)

在 196 个 Patch 序列前额外增加一个专属 Token,用于聚合整张图片的全局特征,后续分类仅使用该 Token。最终序列长度:196+1=197196+1=197196+1=197

4.2.4 位置编码
  1. 作用:Transformer 无法感知图像空间位置,必须添加位置信息;
  2. 实现:沿用 NLP 一维正弦/余弦位置编码,向量与 Patch 嵌入直接相加;
  3. 补充:实验证明一维、二维、相对位置编码效果接近,因此 ViT 默认使用最简单的一维编码。

4.3 ViT 编码器

4.3.1 结构特点

整体和 NLP Transformer 编码器几乎一致,唯一区别:ViT 先做层归一化,再执行多头注意力

4.3.2 核心组件
  1. 层归一化(Layer Norm):标准化数据分布,加速训练、提升稳定性;
  2. 多头注意力:计算所有 Patch 之间的关联,捕捉图像全局、局部语义;
  3. MLP 前馈网络:两层线性层 + GELU 激活函数,增强模型表达能力,搭配 Dropout 防止过拟合。

4.4 MLP 分类头

  1. 提取序列中的 Class Token(全局图像特征);
  2. 预训练阶段:线性层 + tanh + 线性层;下游微调可简化为单层线性层;
  3. 训练:输出分类概率,结合交叉熵损失反向更新参数。

4.5 ViT 主流版本参数

分为 Base、Large、Huge 三个版本,参数量、精度依次提升:

模型 Patch尺寸 网络层数 隐藏维度 MLP维度 注意力头数 总参数量
ViT-Base 16×16 12 768 3072 12 86M
ViT-Large 16×16 24 1024 4096 307M
ViT-Huge 14×14 32 1280 5120 16 632M

4.6 ViT 微调与位置编码适配

4.6.1 问题

预训练、微调时图像分辨率不同,Patch 数量改变,固定位置编码无法直接使用。
例:预训练 224×224(196 个 Patch),微调使用 1024×1024(4096 个 Patch)。

4.6.2 解决方案

对原有位置编码做二维插值,缩放适配新的 Patch 数量,保证位置信息有效。

4.7 实验效果

在 ImageNet、CIFAR 等数据集上,大数据预训练后的 ViT 精度全面超越传统 CNN(ResNet、EfficientNet),同时训练算力开销更低。

五、CLIP 通用图文模型

5.1 CLIP 基本介绍

5.1.1 模型定位

CLIP 全称 Contrastive Language-Image Pre-training图文对比学习模型,是多模态领域的基础底座,核心实现图像与文本的特征对齐。

5.1.2 核心优势
  1. 无需大量人工标注图像标签,依靠图文配对数据即可训练;
  2. 具备强大零样本学习(Zero-Shot) 能力,不用微调就能完成图像分类、图文检索。

5.2 CLIP 训练数据与训练思路

5.2.1 训练数据集

使用 4 亿组图像-文本配对数据 训练,每张图片搭配一段描述文字。

5.2.2 双塔模型结构

CLIP 为经典双塔架构

  1. 视觉塔:使用 ViT/ResNet 作为图像编码器,提取图像特征向量;
  2. 文本塔:使用文本 Transformer 作为文本编码器,提取文字特征向量;
5.2.3 对比学习(核心训练方式)
  1. 正样本:一张图片 + 对应的描述文本(二者特征尽量接近);
  2. 负样本:一张图片 + 不相关文本(二者特征尽量远离);
  3. 训练目标:缩小正样本特征距离,拉大负样本特征距离,让模型学会“图片和对应文字相匹配”。

5.3 零样本学习(Zero-Shot)

5.3.1 概念解释

零样本学习:模型没有针对当前任务专门训练,仅依靠自然语言描述,就能完成任务。

举例:不用给模型标注“猫、狗”样本,只输入文字描述 a cat / a dog,模型就能识别图片里是猫还是狗。

5.3.2 推理流程
  1. 输入待识别图片,通过视觉塔得到图像特征;
  2. 输入各类类别文字描述,通过文本塔得到多个文本特征;
  3. 计算图像特征与所有文本特征的相似度,相似度最高的文字即为分类结果

5.4 Linear Probe 基线对比

Linear Probe:冻结预训练模型主干,仅训练最后一层分类头,是模型能力评测的常用基线。
实验证明:CLIP 零样本效果,在多数数据集上接近甚至优于传统有监督训练模型。

5.5 CLIP 典型应用场景

  1. 零样本图像分类;
  2. 以图搜图、以文搜图(图文检索);
  3. 作为多模态模型的视觉/文本基础编码器;
  4. 图文匹配、内容审核。

六、知识蒸馏与 DINO 算法

6.1 知识蒸馏(Knowledge Distillation)

6.1.1 通俗定义

一种模型压缩、知识迁移技术:

  • 教师模型:大模型、精度高、推理慢;
  • 学生模型:小模型、体量轻、推理快;
  • 目标:把大教师模型学到的知识,迁移到小学生模型中,做到小模型拥有接近大模型的效果
6.1.2 应用价值

让大模型落地到手机、嵌入式设备等算力有限的终端,降低部署成本与推理延迟。

6.2 DINO 算法

6.2.1 模型定位

基于知识蒸馏 + 自监督学习的视觉模型,训练不需要人工标注数据,是早期经典视觉自监督方案。

6.2.2 核心工作流程
  1. 数据增强:对同一张图片做多种随机裁剪、翻转、亮度变换,得到多张增强图;
  2. 师生模型分支:设置在线学生模型、目标教师模型,分别处理增强图像;
  3. 特征输出 + Softmax:两个模型输出特征后,通过带温度系数的 Softmax 生成概率分布;
  4. 损失约束:让学生模型的输出分布向教师模型对齐,完成知识蒸馏与自监督训练。
6.2.3 应用场景
  1. 无标注图像数据的预训练;
  2. 轻量化视觉特征提取;
  3. 为下游分类、检测任务提供预训练权重。

七、多模态拓展应用:GPT-V 视觉大模型与异常检测

7.1 GPT-V 模型简介

GPT-V 是面向视觉-语言的大模型,可融合图像、文本信息,广泛用于各类异常检测任务。

7.2 支持的异常检测场景

可处理多类型数据的异常识别:

  1. 二维图像:工业缺陷、医学影像异常;
  2. 三维点云:三维重构、SLAM 场景异常;
  3. 时间序列、逻辑文本异常等。

7.3 提示词设计(Prompt)

想要模型精准完成检测,需要设计有效提示:

  1. 任务提示:明确告知模型“判断图像是否存在异常”;
  2. 类别提示:补充异常类型、特征描述,提升识别准确率。

示例提示:请判断这张工业图像是否存在缺损、划痕等异常点。

7.4 点云异常检测适配方案

ChatGPT 原生点云数据不足,直接使用效果差,工程常用方案:
三维点云转换为深度图像,再使用 GPT-V 等视觉大模型完成异常检测。

7.5 常用数据集

MvTec 工业异常检测数据集,是视觉异常检测领域的标准测试数据集。

八、整体总结

8.1 核心技术脉络

NLP Transformer → ViT(视觉Transformer) → CLIP(图文对齐+对比学习) → DINO(自监督+知识蒸馏) → 多模态大模型、视觉下游应用

8.2 核心知识点汇总

  1. Transformer 是所有 NLP、视觉、多模态大模型的统一基础架构
  2. ViT 核心创新:用图像 Patch 替代文本 Token,把视觉任务转为序列任务;
  3. CLIP 核心:图文双塔 + 对比学习,强大零样本能力是多模态基石;
  4. 知识蒸馏 + DINO:实现无标注自监督训练、模型轻量化部署;
  5. 主流训练范式:预训练 + 微调,是当前大模型通用训练逻辑。

8.3 应用

各类模型可延伸至图像分类、目标检测、图文检索、工业异常检测、文生图、智能交互等实际业务场景。


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐