神经网络与深度学习第5周课程总结

m0_65589951

39人浏览 · 2026-06-08 00:34:13

m0_65589951 · 2026-06-08 00:34:13 发布

视觉大模型（CLIP、DINO、多模态应用）

一、整体技术路线

1.1 视觉大模型演进链路

整体发展顺序：DINO → 通用视觉大模型 → Transformer → ViT（视觉Transformer） → CLIP（图文模型） → 各类下游应用（GLIP、SAM、稳定扩散等）

1.2 核心统一思想

自然语言用单词作为基础单元，视觉任务用图像分块(Patch) 作为基础单元；二者均以 Transformer 注意力机制为核心架构，实现特征提取。

二、大语言模型基础（复习）

2.1 大语言模型定义与代表

2.1.1 基本概念

大语言模型（LLM）是基于海量文本训练的深度学习模型，具备文本理解、文本生成能力，可完成翻译、问答、摘要、对话等任务。

2.1.2 主流模型

代表模型：GPT-3.5、GPT-4、豆包、DeepSeek、文心一言、千问。

2.2 工作原理：逐词生成

模型本质是逐字/逐词接龙：给定上文，预测下一个概率最高的字词；
循环逻辑：将新生成的字词拼接回上文，反复迭代，输出完整语句；
问答逻辑：把用户问题当作上文，依托训练学到的知识与语言规则完成回答。

2.3 GPT 版本迭代

GPT 全称 Generative Pre-Trained Model（生成式预训练模型），版本能力随参数量、数据量提升：

模型	参数量	训练数据体量
GPT-1	1.17 亿	5G
GPT-2	15 亿	40G
GPT-3	170 亿	45T
GPT-4	万亿级别	＞100T

2.4 大模型三阶段训练流程

2.4.1 阶段一：无监督预训练

使用海量无标注纯文本让模型自主学习语言规律，分为两类任务：

语言建模：根据前文预测下一个单词；
掩码语言建模：遮挡句子部分单词，让模型根据上下文补全。

2.4.2 阶段二：有监督微调

使用人工标注的标准问答数据训练，让模型学会规范对话、回答问题，适配真实交互场景。

2.4.3 阶段三：强化学习（RLHF）

奖励模型训练：输入「提示词+模型回答」，结合人工打分训练打分模型；
强化优化：用奖励模型对多个回答排序，借助 PPO 算法迭代更新模型，持续优化回答质量。

三、多模态大模型技术

3.1 多模态基本概念

3.1.1 什么是模态

模态指信息载体，常见类型：文本、图像、视频、音频。多模态模型可以同时处理、理解多种不同类型的信息。

3.1.2 技术现状与核心挑战

现状：业界主流做法是复用训练好的单模态模型（LLM 语言模型、ViT 视觉模型）组合搭建多模态模型，降低训练成本；
核心挑战：不同模态模型训练相互独立，特征格式不统一，无法直接协同；
解决方案：通过多模态预训练 + 指令微调，实现不同模态特征对齐、模型输出贴合人类意图。

3.2 多模态模型发展与主流产品

3.2.1 发展时间线

2022：Flamingo 等早期多模态模型诞生；
2023：BLIP-2、Kosmos-1、MiniGPT-4、PaLM-E 等大量模型涌现；
2024 至今：LLaVA 系列、Gemini、CogVLM、Qwen-VL 等新一代多模态模型快速迭代。

3.2.2 主流多模态大模型汇总

模型名称	开发团队	核心优势
ChatGPT	OpenAI/微软	综合能力强
Gemini	Google Deepmind	全模态综合表现优秀
Claude	Anthropic	代码编写能力突出
LLaMA	Meta	纯自然语言能力顶尖
Grok	xAI	综合交互能力强
DeepSeek	深度求索	通用场景表现稳定
Qwen（通义千问）	阿里	问答、NLP 表现优秀

3.3 多模态通用架构

3.3.1 整体模块

标准多模态模型由四部分组成：模态编码器 → 投影层 → LLM 主干 → 模态生成器。

3.3.2 分模态实现

图像/视频：使用 ViT、CLIP 作为视觉编码器；
音频：使用 HUBERT、BEATS 等音频模型提取特征；
投影层：统一不同模态的特征维度，完成特征对齐；
LLM 主干：作为模型“大脑”，负责逻辑推理、语言生成。

3.3.3 两大应用方向

多模态理解：看图答题、图文检索；
多模态生成：文生图、图生文、文生视频。

四、视觉Transformer（ViT）

4.1 ViT 概述

4.1.1 诞生背景

2020 年 CVPR 顶会，Google 发表论文 《AN IMAGE IS WORTH 16X16 WORDS》，首次将纯 Transformer 大规模应用在图像任务，打破 CNN 在视觉领域的垄断。

4.1.2 核心思路

把整张图片切分为多个固定小块（Patch），将图像任务转化为序列任务，复用 NLP Transformer 架构做特征提取。

4.1.3 整体工作流程

图像分块 → 嵌入层处理 → Transformer 编码器提取特征 → MLP 分类头输出结果。

4.2 ViT 嵌入层（图像转序列核心）

4.2.1 图像分块（Patch）

以标准 224×224×3 图像为例：

设定单块大小 16×16；
总块数： $14 \times 14 = 196$ 个 Patch，每一个 Patch 等价于文本里的一个单词。

4.2.2 扁平化与线性映射

将每个 16×16×3 的图像块展平，再通过线性层统一映射为 768 维 特征向量。

4.2.3 类别Token（Class Token）

在 196 个 Patch 序列前额外增加一个专属 Token，用于聚合整张图片的全局特征，后续分类仅使用该 Token。最终序列长度： $196 + 1 = 197$ 。

4.2.4 位置编码

作用：Transformer 无法感知图像空间位置，必须添加位置信息；
实现：沿用 NLP 一维正弦/余弦位置编码，向量与 Patch 嵌入直接相加；
补充：实验证明一维、二维、相对位置编码效果接近，因此 ViT 默认使用最简单的一维编码。

4.3 ViT 编码器

4.3.1 结构特点

整体和 NLP Transformer 编码器几乎一致，唯一区别：ViT 先做层归一化，再执行多头注意力。

4.3.2 核心组件

层归一化（Layer Norm）：标准化数据分布，加速训练、提升稳定性；
多头注意力：计算所有 Patch 之间的关联，捕捉图像全局、局部语义；
MLP 前馈网络：两层线性层 + GELU 激活函数，增强模型表达能力，搭配 Dropout 防止过拟合。

4.4 MLP 分类头

提取序列中的 Class Token（全局图像特征）；
预训练阶段：线性层 + tanh + 线性层；下游微调可简化为单层线性层；
训练：输出分类概率，结合交叉熵损失反向更新参数。

4.5 ViT 主流版本参数

分为 Base、Large、Huge 三个版本，参数量、精度依次提升：

模型	Patch尺寸	网络层数	隐藏维度	MLP维度	注意力头数	总参数量
ViT-Base	16×16	12	768	3072	12	86M
ViT-Large	16×16	24	1024	4096	307M
ViT-Huge	14×14	32	1280	5120	16	632M

4.6 ViT 微调与位置编码适配

4.6.1 问题

预训练、微调时图像分辨率不同，Patch 数量改变，固定位置编码无法直接使用。
例：预训练 224×224（196 个 Patch），微调使用 1024×1024（4096 个 Patch）。

4.6.2 解决方案

对原有位置编码做二维插值，缩放适配新的 Patch 数量，保证位置信息有效。

4.7 实验效果

在 ImageNet、CIFAR 等数据集上，大数据预训练后的 ViT 精度全面超越传统 CNN（ResNet、EfficientNet），同时训练算力开销更低。

五、CLIP 通用图文模型

5.1 CLIP 基本介绍

5.1.1 模型定位

CLIP 全称 Contrastive Language-Image Pre-training，图文对比学习模型，是多模态领域的基础底座，核心实现图像与文本的特征对齐。

5.1.2 核心优势

无需大量人工标注图像标签，依靠图文配对数据即可训练；
具备强大零样本学习（Zero-Shot） 能力，不用微调就能完成图像分类、图文检索。

5.2 CLIP 训练数据与训练思路

5.2.1 训练数据集

使用 4 亿组图像-文本配对数据 训练，每张图片搭配一段描述文字。

5.2.2 双塔模型结构

CLIP 为经典双塔架构：

视觉塔：使用 ViT/ResNet 作为图像编码器，提取图像特征向量；
文本塔：使用文本 Transformer 作为文本编码器，提取文字特征向量；

5.2.3 对比学习（核心训练方式）

正样本：一张图片 + 对应的描述文本（二者特征尽量接近）；
负样本：一张图片 + 不相关文本（二者特征尽量远离）；
训练目标：缩小正样本特征距离，拉大负样本特征距离，让模型学会“图片和对应文字相匹配”。

5.3 零样本学习（Zero-Shot）

5.3.1 概念解释

零样本学习：模型没有针对当前任务专门训练，仅依靠自然语言描述，就能完成任务。

举例：不用给模型标注“猫、狗”样本，只输入文字描述 a cat / a dog，模型就能识别图片里是猫还是狗。

5.3.2 推理流程

输入待识别图片，通过视觉塔得到图像特征；
输入各类类别文字描述，通过文本塔得到多个文本特征；
计算图像特征与所有文本特征的相似度，相似度最高的文字即为分类结果。

5.4 Linear Probe 基线对比

Linear Probe：冻结预训练模型主干，仅训练最后一层分类头，是模型能力评测的常用基线。
实验证明：CLIP 零样本效果，在多数数据集上接近甚至优于传统有监督训练模型。

5.5 CLIP 典型应用场景

零样本图像分类；
以图搜图、以文搜图（图文检索）；
作为多模态模型的视觉/文本基础编码器；
图文匹配、内容审核。

六、知识蒸馏与 DINO 算法

6.1 知识蒸馏（Knowledge Distillation）

6.1.1 通俗定义

一种模型压缩、知识迁移技术：

教师模型：大模型、精度高、推理慢；
学生模型：小模型、体量轻、推理快；
目标：把大教师模型学到的知识，迁移到小学生模型中，做到小模型拥有接近大模型的效果。

6.1.2 应用价值

让大模型落地到手机、嵌入式设备等算力有限的终端，降低部署成本与推理延迟。

6.2 DINO 算法

6.2.1 模型定位

基于知识蒸馏 + 自监督学习的视觉模型，训练不需要人工标注数据，是早期经典视觉自监督方案。

6.2.2 核心工作流程

数据增强：对同一张图片做多种随机裁剪、翻转、亮度变换，得到多张增强图；
师生模型分支：设置在线学生模型、目标教师模型，分别处理增强图像；
特征输出 + Softmax：两个模型输出特征后，通过带温度系数的 Softmax 生成概率分布；
损失约束：让学生模型的输出分布向教师模型对齐，完成知识蒸馏与自监督训练。

6.2.3 应用场景

无标注图像数据的预训练；
轻量化视觉特征提取；
为下游分类、检测任务提供预训练权重。

七、多模态拓展应用：GPT-V 视觉大模型与异常检测

7.1 GPT-V 模型简介

GPT-V 是面向视觉-语言的大模型，可融合图像、文本信息，广泛用于各类异常检测任务。

7.2 支持的异常检测场景

可处理多类型数据的异常识别：

二维图像：工业缺陷、医学影像异常；
三维点云：三维重构、SLAM 场景异常；
时间序列、逻辑文本异常等。

7.3 提示词设计（Prompt）

想要模型精准完成检测，需要设计有效提示：

任务提示：明确告知模型“判断图像是否存在异常”；
类别提示：补充异常类型、特征描述，提升识别准确率。

示例提示：请判断这张工业图像是否存在缺损、划痕等异常点。

7.4 点云异常检测适配方案

ChatGPT 原生点云数据不足，直接使用效果差，工程常用方案：
将三维点云转换为深度图像，再使用 GPT-V 等视觉大模型完成异常检测。

7.5 常用数据集

MvTec 工业异常检测数据集，是视觉异常检测领域的标准测试数据集。

八、整体总结

8.1 核心技术脉络

NLP Transformer → ViT（视觉Transformer） → CLIP（图文对齐+对比学习） → DINO（自监督+知识蒸馏） → 多模态大模型、视觉下游应用

8.2 核心知识点汇总

Transformer 是所有 NLP、视觉、多模态大模型的统一基础架构；
ViT 核心创新：用图像 Patch 替代文本 Token，把视觉任务转为序列任务；
CLIP 核心：图文双塔 + 对比学习，强大零样本能力是多模态基石；
知识蒸馏 + DINO：实现无标注自监督训练、模型轻量化部署；
主流训练范式：预训练 + 微调，是当前大模型通用训练逻辑。

8.3 应用

各类模型可延伸至图像分类、目标检测、图文检索、工业异常检测、文生图、智能交互等实际业务场景。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

数以轻舟Agent：做表AI智能体与普通大模型直接处理数据的区别

AtomGit开源社区

Claude生成的html怎么导出？技术架构师深度测评：告别格式崩坏，AI导出鸭打通“最后一公里”

AtomGit开源社区

Claude与ChatGPT激战正酣，国内AI中转站却突破2000家

AtomGit开源社区

所有评论(0)

查看更多评论

m0_65589951

@m0_65589951

已为社区贡献2条内容

神经网络与深度学习 第5周课程总结

m0_65589951

视觉大模型（CLIP、DINO、多模态应用）

一、整体技术路线

1.1 视觉大模型演进链路

1.2 核心统一思想

二、大语言模型基础（复习）

2.1 大语言模型定义与代表

2.1.1 基本概念

2.1.2 主流模型

2.2 工作原理：逐词生成

2.3 GPT 版本迭代

2.4 大模型三阶段训练流程

2.4.1 阶段一：无监督预训练

2.4.2 阶段二：有监督微调

2.4.3 阶段三：强化学习（RLHF）

三、多模态大模型技术

3.1 多模态基本概念

3.1.1 什么是模态

3.1.2 技术现状与核心挑战

3.2 多模态模型发展与主流产品

3.2.1 发展时间线

3.2.2 主流多模态大模型汇总

3.3 多模态通用架构

3.3.1 整体模块

3.3.2 分模态实现

3.3.3 两大应用方向

四、视觉Transformer（ViT）

4.1 ViT 概述

4.1.1 诞生背景

4.1.2 核心思路

4.1.3 整体工作流程

4.2 ViT 嵌入层（图像转序列核心）

4.2.1 图像分块（Patch）

4.2.2 扁平化与线性映射

4.2.3 类别Token（Class Token）

4.2.4 位置编码

4.3 ViT 编码器

4.3.1 结构特点

4.3.2 核心组件

4.4 MLP 分类头

4.5 ViT 主流版本参数

4.6 ViT 微调与位置编码适配

4.6.1 问题

4.6.2 解决方案

4.7 实验效果

五、CLIP 通用图文模型

5.1 CLIP 基本介绍

5.1.1 模型定位

5.1.2 核心优势

5.2 CLIP 训练数据与训练思路

5.2.1 训练数据集

5.2.2 双塔模型结构

5.2.3 对比学习（核心训练方式）

5.3 零样本学习（Zero-Shot）

5.3.1 概念解释

5.3.2 推理流程

5.4 Linear Probe 基线对比

5.5 CLIP 典型应用场景

六、知识蒸馏与 DINO 算法

6.1 知识蒸馏（Knowledge Distillation）

6.1.1 通俗定义

6.1.2 应用价值

6.2 DINO 算法

6.2.1 模型定位

6.2.2 核心工作流程

6.2.3 应用场景

七、多模态拓展应用：GPT-V 视觉大模型与异常检测

7.1 GPT-V 模型简介

7.2 支持的异常检测场景

7.3 提示词设计（Prompt）

7.4 点云异常检测适配方案

7.5 常用数据集

八、整体总结

8.1 核心技术脉络

8.2 核心知识点汇总

8.3 应用

所有评论(0)

温馨提示：您尚未绑定手机号

m0_65589951

神经网络与深度学习第5周课程总结