神经网络与深度学习 第5周课程总结
视觉大模型(CLIP、DINO、多模态应用)
一、整体技术路线
1.1 视觉大模型演进链路
整体发展顺序:DINO → 通用视觉大模型 → Transformer → ViT(视觉Transformer) → CLIP(图文模型) → 各类下游应用(GLIP、SAM、稳定扩散等)
1.2 核心统一思想
自然语言用单词作为基础单元,视觉任务用图像分块(Patch) 作为基础单元;二者均以 Transformer 注意力机制为核心架构,实现特征提取。
二、大语言模型基础(复习)
2.1 大语言模型定义与代表
2.1.1 基本概念
大语言模型(LLM)是基于海量文本训练的深度学习模型,具备文本理解、文本生成能力,可完成翻译、问答、摘要、对话等任务。
2.1.2 主流模型
代表模型:GPT-3.5、GPT-4、豆包、DeepSeek、文心一言、千问。
2.2 工作原理:逐词生成
- 模型本质是逐字/逐词接龙:给定上文,预测下一个概率最高的字词;
- 循环逻辑:将新生成的字词拼接回上文,反复迭代,输出完整语句;
- 问答逻辑:把用户问题当作上文,依托训练学到的知识与语言规则完成回答。
2.3 GPT 版本迭代
GPT 全称 Generative Pre-Trained Model(生成式预训练模型),版本能力随参数量、数据量提升:
| 模型 | 参数量 | 训练数据体量 |
|---|---|---|
| GPT-1 | 1.17 亿 | 5G |
| GPT-2 | 15 亿 | 40G |
| GPT-3 | 170 亿 | 45T |
| GPT-4 | 万亿级别 | >100T |
2.4 大模型三阶段训练流程
2.4.1 阶段一:无监督预训练
使用海量无标注纯文本让模型自主学习语言规律,分为两类任务:
- 语言建模:根据前文预测下一个单词;
- 掩码语言建模:遮挡句子部分单词,让模型根据上下文补全。
2.4.2 阶段二:有监督微调
使用人工标注的标准问答数据训练,让模型学会规范对话、回答问题,适配真实交互场景。
2.4.3 阶段三:强化学习(RLHF)
- 奖励模型训练:输入「提示词+模型回答」,结合人工打分训练打分模型;
- 强化优化:用奖励模型对多个回答排序,借助 PPO 算法迭代更新模型,持续优化回答质量。
三、多模态大模型技术
3.1 多模态基本概念
3.1.1 什么是模态
模态指信息载体,常见类型:文本、图像、视频、音频。多模态模型可以同时处理、理解多种不同类型的信息。
3.1.2 技术现状与核心挑战
- 现状:业界主流做法是复用训练好的单模态模型(LLM 语言模型、ViT 视觉模型)组合搭建多模态模型,降低训练成本;
- 核心挑战:不同模态模型训练相互独立,特征格式不统一,无法直接协同;
- 解决方案:通过多模态预训练 + 指令微调,实现不同模态特征对齐、模型输出贴合人类意图。
3.2 多模态模型发展与主流产品
3.2.1 发展时间线
- 2022:Flamingo 等早期多模态模型诞生;
- 2023:BLIP-2、Kosmos-1、MiniGPT-4、PaLM-E 等大量模型涌现;
- 2024 至今:LLaVA 系列、Gemini、CogVLM、Qwen-VL 等新一代多模态模型快速迭代。
3.2.2 主流多模态大模型汇总
| 模型名称 | 开发团队 | 核心优势 |
|---|---|---|
| ChatGPT | OpenAI/微软 | 综合能力强 |
| Gemini | Google Deepmind | 全模态综合表现优秀 |
| Claude | Anthropic | 代码编写能力突出 |
| LLaMA | Meta | 纯自然语言能力顶尖 |
| Grok | xAI | 综合交互能力强 |
| DeepSeek | 深度求索 | 通用场景表现稳定 |
| Qwen(通义千问) | 阿里 | 问答、NLP 表现优秀 |
3.3 多模态通用架构
3.3.1 整体模块
标准多模态模型由四部分组成:模态编码器 → 投影层 → LLM 主干 → 模态生成器。
3.3.2 分模态实现
- 图像/视频:使用 ViT、CLIP 作为视觉编码器;
- 音频:使用 HUBERT、BEATS 等音频模型提取特征;
- 投影层:统一不同模态的特征维度,完成特征对齐;
- LLM 主干:作为模型“大脑”,负责逻辑推理、语言生成。
3.3.3 两大应用方向
- 多模态理解:看图答题、图文检索;
- 多模态生成:文生图、图生文、文生视频。
四、视觉Transformer(ViT)
4.1 ViT 概述
4.1.1 诞生背景
2020 年 CVPR 顶会,Google 发表论文 《AN IMAGE IS WORTH 16X16 WORDS》,首次将纯 Transformer 大规模应用在图像任务,打破 CNN 在视觉领域的垄断。
4.1.2 核心思路
把整张图片切分为多个固定小块(Patch),将图像任务转化为序列任务,复用 NLP Transformer 架构做特征提取。
4.1.3 整体工作流程
图像分块 → 嵌入层处理 → Transformer 编码器提取特征 → MLP 分类头输出结果。
4.2 ViT 嵌入层(图像转序列核心)
4.2.1 图像分块(Patch)
以标准 224×224×3 图像为例:
- 设定单块大小
16×16; - 总块数:14×14=19614 \times 14 = 19614×14=196 个 Patch,每一个 Patch 等价于文本里的一个单词。
4.2.2 扁平化与线性映射
将每个 16×16×3 的图像块展平,再通过线性层统一映射为 768 维 特征向量。
4.2.3 类别Token(Class Token)
在 196 个 Patch 序列前额外增加一个专属 Token,用于聚合整张图片的全局特征,后续分类仅使用该 Token。最终序列长度:196+1=197196+1=197196+1=197。
4.2.4 位置编码
- 作用:Transformer 无法感知图像空间位置,必须添加位置信息;
- 实现:沿用 NLP 一维正弦/余弦位置编码,向量与 Patch 嵌入直接相加;
- 补充:实验证明一维、二维、相对位置编码效果接近,因此 ViT 默认使用最简单的一维编码。
4.3 ViT 编码器
4.3.1 结构特点
整体和 NLP Transformer 编码器几乎一致,唯一区别:ViT 先做层归一化,再执行多头注意力。
4.3.2 核心组件
- 层归一化(Layer Norm):标准化数据分布,加速训练、提升稳定性;
- 多头注意力:计算所有 Patch 之间的关联,捕捉图像全局、局部语义;
- MLP 前馈网络:两层线性层 + GELU 激活函数,增强模型表达能力,搭配 Dropout 防止过拟合。
4.4 MLP 分类头
- 提取序列中的 Class Token(全局图像特征);
- 预训练阶段:
线性层 + tanh + 线性层;下游微调可简化为单层线性层; - 训练:输出分类概率,结合交叉熵损失反向更新参数。
4.5 ViT 主流版本参数
分为 Base、Large、Huge 三个版本,参数量、精度依次提升:
| 模型 | Patch尺寸 | 网络层数 | 隐藏维度 | MLP维度 | 注意力头数 | 总参数量 |
|---|---|---|---|---|---|---|
| ViT-Base | 16×16 | 12 | 768 | 3072 | 12 | 86M |
| ViT-Large | 16×16 | 24 | 1024 | 4096 | 307M | |
| ViT-Huge | 14×14 | 32 | 1280 | 5120 | 16 | 632M |
4.6 ViT 微调与位置编码适配
4.6.1 问题
预训练、微调时图像分辨率不同,Patch 数量改变,固定位置编码无法直接使用。
例:预训练 224×224(196 个 Patch),微调使用 1024×1024(4096 个 Patch)。
4.6.2 解决方案
对原有位置编码做二维插值,缩放适配新的 Patch 数量,保证位置信息有效。
4.7 实验效果
在 ImageNet、CIFAR 等数据集上,大数据预训练后的 ViT 精度全面超越传统 CNN(ResNet、EfficientNet),同时训练算力开销更低。
五、CLIP 通用图文模型
5.1 CLIP 基本介绍
5.1.1 模型定位
CLIP 全称 Contrastive Language-Image Pre-training,图文对比学习模型,是多模态领域的基础底座,核心实现图像与文本的特征对齐。
5.1.2 核心优势
- 无需大量人工标注图像标签,依靠图文配对数据即可训练;
- 具备强大零样本学习(Zero-Shot) 能力,不用微调就能完成图像分类、图文检索。
5.2 CLIP 训练数据与训练思路
5.2.1 训练数据集
使用 4 亿组图像-文本配对数据 训练,每张图片搭配一段描述文字。
5.2.2 双塔模型结构
CLIP 为经典双塔架构:
- 视觉塔:使用 ViT/ResNet 作为图像编码器,提取图像特征向量;
- 文本塔:使用文本 Transformer 作为文本编码器,提取文字特征向量;
5.2.3 对比学习(核心训练方式)
- 正样本:一张图片 + 对应的描述文本(二者特征尽量接近);
- 负样本:一张图片 + 不相关文本(二者特征尽量远离);
- 训练目标:缩小正样本特征距离,拉大负样本特征距离,让模型学会“图片和对应文字相匹配”。
5.3 零样本学习(Zero-Shot)
5.3.1 概念解释
零样本学习:模型没有针对当前任务专门训练,仅依靠自然语言描述,就能完成任务。
举例:不用给模型标注“猫、狗”样本,只输入文字描述
a cat/a dog,模型就能识别图片里是猫还是狗。
5.3.2 推理流程
- 输入待识别图片,通过视觉塔得到图像特征;
- 输入各类类别文字描述,通过文本塔得到多个文本特征;
- 计算图像特征与所有文本特征的相似度,相似度最高的文字即为分类结果。
5.4 Linear Probe 基线对比
Linear Probe:冻结预训练模型主干,仅训练最后一层分类头,是模型能力评测的常用基线。
实验证明:CLIP 零样本效果,在多数数据集上接近甚至优于传统有监督训练模型。
5.5 CLIP 典型应用场景
- 零样本图像分类;
- 以图搜图、以文搜图(图文检索);
- 作为多模态模型的视觉/文本基础编码器;
- 图文匹配、内容审核。
六、知识蒸馏与 DINO 算法
6.1 知识蒸馏(Knowledge Distillation)
6.1.1 通俗定义
一种模型压缩、知识迁移技术:
- 教师模型:大模型、精度高、推理慢;
- 学生模型:小模型、体量轻、推理快;
- 目标:把大教师模型学到的知识,迁移到小学生模型中,做到小模型拥有接近大模型的效果。
6.1.2 应用价值
让大模型落地到手机、嵌入式设备等算力有限的终端,降低部署成本与推理延迟。
6.2 DINO 算法
6.2.1 模型定位
基于知识蒸馏 + 自监督学习的视觉模型,训练不需要人工标注数据,是早期经典视觉自监督方案。
6.2.2 核心工作流程
- 数据增强:对同一张图片做多种随机裁剪、翻转、亮度变换,得到多张增强图;
- 师生模型分支:设置在线学生模型、目标教师模型,分别处理增强图像;
- 特征输出 + Softmax:两个模型输出特征后,通过带温度系数的 Softmax 生成概率分布;
- 损失约束:让学生模型的输出分布向教师模型对齐,完成知识蒸馏与自监督训练。
6.2.3 应用场景
- 无标注图像数据的预训练;
- 轻量化视觉特征提取;
- 为下游分类、检测任务提供预训练权重。
七、多模态拓展应用:GPT-V 视觉大模型与异常检测
7.1 GPT-V 模型简介
GPT-V 是面向视觉-语言的大模型,可融合图像、文本信息,广泛用于各类异常检测任务。
7.2 支持的异常检测场景
可处理多类型数据的异常识别:
- 二维图像:工业缺陷、医学影像异常;
- 三维点云:三维重构、SLAM 场景异常;
- 时间序列、逻辑文本异常等。
7.3 提示词设计(Prompt)
想要模型精准完成检测,需要设计有效提示:
- 任务提示:明确告知模型“判断图像是否存在异常”;
- 类别提示:补充异常类型、特征描述,提升识别准确率。
示例提示:请判断这张工业图像是否存在缺损、划痕等异常点。
7.4 点云异常检测适配方案
ChatGPT 原生点云数据不足,直接使用效果差,工程常用方案:
将三维点云转换为深度图像,再使用 GPT-V 等视觉大模型完成异常检测。
7.5 常用数据集
MvTec 工业异常检测数据集,是视觉异常检测领域的标准测试数据集。
八、整体总结
8.1 核心技术脉络
NLP Transformer → ViT(视觉Transformer) → CLIP(图文对齐+对比学习) → DINO(自监督+知识蒸馏) → 多模态大模型、视觉下游应用
8.2 核心知识点汇总
- Transformer 是所有 NLP、视觉、多模态大模型的统一基础架构;
- ViT 核心创新:用图像 Patch 替代文本 Token,把视觉任务转为序列任务;
- CLIP 核心:图文双塔 + 对比学习,强大零样本能力是多模态基石;
- 知识蒸馏 + DINO:实现无标注自监督训练、模型轻量化部署;
- 主流训练范式:预训练 + 微调,是当前大模型通用训练逻辑。
8.3 应用
各类模型可延伸至图像分类、目标检测、图文检索、工业异常检测、文生图、智能交互等实际业务场景。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)