1. Vision Transformer
1)ViT模型概述



  • 模型全称: Vision Transformer (ViT),即视觉领域的Transformer
  • 核心思想: 将NLP界的Transformer架构迁移到视觉领域使用
  • 创新点: 首次证明图片可以被离散化为token进行处理
2)Transformer在NLP中的应用原理
  • 交互机制: 通过qkv注意力计算实现token间交互
  • 输入无关性: 无论输入是文字/图片/声音,只要转换为向量即可处理
  • 向量维度: 典型维度包括768维、2048维或3500+维向量
3)图片输入ViT模型的处理方式



  • 离散化方法: 将图片分割为14×14的patch(补丁)
  • 典型配置: 实际应用中常采用16×16分块,产生196个token
  • 向量转换: 每个patch展平后通过线性层投影为768维向量
  • 位置编码: 每个patch添加位置embedding保持空间信息

4)ViT模型在分类任务中的应用与局限性
  • 基本流程: 图片→分块→Transformer特征提取→MLP分类
  • 初期表现: 分类效果不如CNN,主要因为:
    • 感受野缺失: 缺乏卷积的局部感受野优势
    • 分割风险: 关键物体可能被错误分割
  • 架构优势: 为后续多模态发展奠定基础
2. 多模态
1)多模态任务



  • 基本定义: 需要两种及以上模态信息(如图片+文字+声音)共同决策的任务
  • 典型场景:
    • 图文匹配判断
    • 视频分类(结合视频内容与标题文字)
    • 短视频平台内容分类
  • 例题:图文检索任务

    
    • 任务类型:
      • Image Captioning(图像描述生成)
      • VQA(视觉问答)
      • Referring Expression Comprehension(指代表达理解)
      • Visual Dialogue(视觉对话)
    • 交互特点: 模型需要同时理解视觉内容和语言表达
2)Bert(Transformer)与多模态



  • 架构优势: Transformer天然适合多模态处理
  • 核心原理: 只处理向量交互,不关心原始输入形式
  • 实现方式: 将不同模态数据统一转换为向量表示

3)ViltBert(以下都是多模态模型)



  • 预处理任务:
    • ITM:图文匹配判断
    • MLM:掩码语言建模(遮盖15%token)
    • WPA:词块对齐(word-patch alignment)
  • 技术创新:
    • 全词遮盖:对英文词根分词时保持完整词遮盖
    • 注意力可视化:验证文字token能正确关注相关图像区域

4)VisualBert



  • 关键区别: 使用目标检测提取图像区域作为token
  • token特性: 每个token对应一个语义实体(如人、球拍等)
  • 层间进化: 注意力对齐效果随网络层数加深而改善

5)ALBEF



  • 双编码结构:
    • 图像编码器(12层Transformer)
    • 文本编码器(6层Transformer)
  • 对比学习: 使用对比损失拉近匹配图文对的表示
  • 交叉注意力: 在深层进行跨模态注意力交互
  • 应用特点: 比赛刷榜专用模型,实际工业应用有限
3. 深度学习常见研究方向



16:26



1)文字生成类



16:36



  • 典型应用:
    • 写诗:如生成"君不见黄河之水天上来,奔流到海不复回"等古诗风格文本
    • 写文章:包括文学创作和学术写作,例如求解数学问题"设f(z)在0到正无穷上二阶可导..."
    • 聊天机器人:实现自然对话交互
    • 文本摘要:根据长文章生成精简摘要
  • 技术演进:传统由小模型完成的任务现已被大模型取代,导致部分研究方向失去原有价值
  • 风格转换:
    • 语气调整:如将"你是XX把?这事都不会"转换为更温和的表达
    • 文本复述:保持语义不变的情况下改变表达方式
2)命名实体识别



17:09



  • 基本概念:识别文本中特定类型的实体
  • 典型实体类型:
    • 时间表达式:如"1949年10月1日"
    • 地名:如"中国"、"北京"
    • 人名:如"毛泽东"
    • 组织机构:如"共产党"
  • 应用价值:在推荐系统等实际应用中具有重要作用
3)医学图像分类、分割、检测



17:29



  • 主要任务:
    • 分类:判断图像是否显示病理特征
    • 分割:精确划分解剖结构(如脑干、前额叶等)
    • 检测:定位病灶区域
  • 行业特点:
    • 数据稀缺:医学影像数据通常不共享,导致数据集规模小
    • 研究现状:不同机构使用私有数据训练模型,结果难以直接比较
  • 技术优势:是目前大模型尚未完全取代的传统研究方向
4)小样本



19:02



  • 核心挑战:在仅20个训练样本条件下实现良好效果
  • 解决方法:
    • 迁移学习:利用预训练模型进行知识迁移
    • 数据增广:通过变换扩充有限数据集
  • 研究意义:与大模型需要海量数据的特性形成鲜明对比
5)异常检测



19:36



  • 典型场景:
    • 金融交易:正常交易占99.9%,欺诈交易仅0.01%
    • 网络流量:异常流量占比极低
  • 技术难点:
    • 模型容易通过"全部预测为正常"获得虚假高准确率
    • 实际需要检测的恰恰是罕见异常样本
  • 研究价值:解决类别极度不平衡问题的有效方法
6)可解释性



21:15



  • 研究目标:揭示深度神经网络的黑箱机制
  • 学科特点:主要由数学背景研究者推动
  • 发展现状:实践应用领先于理论解释
7)分子结构预测



21:37



  • 研究内容:
    • 预测化合物的三维空间结构
    • 评估不同结构的药物性能
  • 技术基础:主要基于图神经网络
  • 实际应用:在药物设计领域具有重要价值
8)解微分方程



22:41



  • 应用背景:解决核工程、航天等领域的复杂微分方程
  • 技术挑战:深度学习处理数学问题的能力仍有局限
  • 方程示例:如

    ω′=[010070−6−50001002−10]ω+[0000.5]\omega' = \begin{bmatrix}0&1&0&0\\7&0&-6&-5\\0&0&0&1\\0&0&2&-10\end{bmatrix}\omega + \begin{bmatrix}0\\0\\0\\0.5\end{bmatrix}ω′=​0700​1000​0−602​0−51−10​​ω+​0000.5​​

9)颅面复原到人脸



23:03



  • 应用领域:
    • 刑侦:通过头骨复原嫌疑人面貌
    • 考古:重建古人面部特征
  • 技术特点:需要结合医学影像处理和生成模型
10)分布式训练



23:32



  • 主要形式:
    • 单机多卡:协调多GPU之间的数据流动
    • 多机训练:解决数据隐私限制下的模型训练
  • 联邦学习:
    • 核心思想:只传输梯度而非原始数据
    • 伦理争议:梯度仍可能泄露部分数据信息
  • 应用场景:移动设备数据训练等隐私敏感领域
11)大语言模型



25:26



  • 研究建议:需要大厂实习经历才能获得相关实践经验
  • 技术组成:包含编码器-解码器结构、注意力机制等组件
  • 关键参数:层数L、嵌入维度

    dmodeld_{model}dmodel​

    、多头数H
12)代码中用的细节之处



25:36



  • 优化重点:
    • 学习率设计:调整训练过程的收敛速度
    • 模型量化:用8位数表示原本32位的参数
    • 架构创新:改进注意力机制等核心组件
  • 行业现状:研究方向高度饱和,竞争激烈
4. 如何把学的内容写到简历之中



26:08



1)例题:回归任务写入简历方法



26:12



  • 数据处理重点:回归任务看似简单,但重点在于数据处理方式。需突出两个数据集的不同处理方法和特征选择技巧
  • 技术深度体现:即使使用简单回归,也要展示独特技术手段(如特征处理、训练技巧),可参考Kaggle比赛冠军方案
  • 案例佐证:2025年清华大数据比赛就是回归任务,获胜者使用了非常规特征处理方法
  • 关键问题准备:
    • 如何处理不同数据集?
    • 如何选择特征?
    • 使用哪些训练技巧?(如dropout、

      W2W^2W2

      正则项)
2)例题:分类任务写入简历方法



28:08



  • 模型对比写法:
    • 尝试不同模型(如ResNet、VGG)
    • 准备模型理解问题:ResNet为什么深?与VGG的区别?
  • 模型设计写法:
    • 根据数据集特点设计模型
    • 准备设计思路说明
  • 数据处理写法:
    • 数据增广方式选择(如MNIST不适合翻转)
    • 不同增广方式对比
  • 进阶写法:
    • 半监督学习实现原理
    • 迁移学习方法及对比实验
    • 科研思维体现:通过对比实验展示研究能力
3)例题:自然语言处理写入简历方法



29:24



  • 兴趣导向写法:
    • 表达对NLP方向的兴趣
    • 提前学习self-attention等核心技术
  • 模型架构理解:
    • 比较RNN、LSTM优劣
    • 解释self-attention流行原因及架构细节
  • BERT专项准备:
    • BERT原理及有效性原因
    • 预训练任务说明
    • 微调与下游任务区别
    • 训练细节(优化器选择、epoch数等)
4)例题:生成任务写入简历方法



30:12



  • 模型介绍:
    • BART模型背景(源自芝麻街动漫)
    • 与BERT的区别
    • 预训练任务说明
  • 技术细节准备:
    • 生成任务原理(自回归生成)
    • 训练与测试差异(批量vs逐字)
    • 输入输出处理方式
  • 对比实验:
    • 与GPT等模型的对比选择
    • 不同模型效果比较
5)写简历的其他方法



31:07



  • 直球法:
    • 如实说明自学经历(如"考研后寒假自学深度学习")
    • 强调快速学习能力和掌握程度
  • 兴趣导向法:
    • 明确研究方向兴趣(如对比学习、多模态)
    • 展示相关领域知识储备
  • 技术专项:
    • 不同激活函数比较(优缺点)
    • 优化器原理与选择
  • 注意事项:
    • 只写真正了解的内容
    • 避免虚假夸大
6)知网检索法

  • 操作步骤:
    • 搜索熟悉领域(如图像识别、目标检测)
    • 筛选硕士学位论文(内容最详细)
    • 学习论文中的项目背景、技术方案、改进方法
  • 优势:
    • 获取完整项目描述
    • 学习规范的研究方法
    • 掌握领域专业术语
  • 应用技巧:
    • 重点理解技术实现部分
    • 转化为自己的项目经验
    • 准备可能的技术细节问题
二、课程总结
1. 课程时长与学习安排

  • 课程结构: 共13节课,总时长约20小时
  • 学习周期: 建议15-20天完成(按每天学习4小时计算)
  • 学习要求: 必须亲自实践代码,仅听课无法掌握
三、知识小结

知识点

核心内容

考试重点/易混淆点

难度系数

ViT模型

视觉Transformer,将图片拆分为patch(如14×14)作为token输入,无需卷积层

与CNN的对比(ViT无卷积,依赖全局注意力)、patch嵌入方式

⭐⭐⭐

多模态任务

需结合多种数据类型(如图片+文字),典型应用:图文匹配、视频标题分类

模态融合技术(如拼接/交叉注意力)、预训练任务设计(MLM、对比损失)

⭐⭐⭐⭐

多模态模型(ViLBERT/VisualBERT/ALBEF)

- ViLBERT:图片分patch+文本联合输入

- VisualBERT:目标检测提取实体作为token

- ALBEF:双编码器+对比损失+交叉注意力

模型差异(ViLBERT vs ALBERT)、预训练任务(全词掩码/图文对齐)

⭐⭐⭐⭐

小样本学习

数据极少(如20样本)下的训练方法,依赖数据增广/迁移学习

与大模型对立(数据需求相反)、医学图像中的实际应用困境

⭐⭐⭐⭐

异常检测

处理极端不平衡数据(正常样本占99.9%),模型易陷入全预测正常陷阱

评估指标选择(准确率失效,需用F1/召回率)、损失函数设计

⭐⭐⭐⭐⭐

简历书写技巧

- 回归任务:突出特征工程/比赛排名

- 分类任务:对比不同模型/数据增广策略

- NLP项目:解释Self-Attention/微调方法

科研思维体现(对比实验/迁移学习)、避免编造(可参考硕士论文)

⭐⭐

研究方向案例

- 医学图像(数据私有化问题)

- 分子结构预测(图神经网络)

- 联邦学习(隐私与梯度传输伦理)

领域特殊性(如医学数据壁垒)、技术交叉应用(如Transformer解微分方程)

⭐⭐⭐⭐

课程学习建议

强调动手实践(如卷积维度计算)、避免被动输入,需结合代码理解

自学路径(20小时/10天攻坚)、与高阶课程(如李宏毅课)对比

⭐⭐

以下为AI生成的图文笔记的内容

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐