目录

  • 机器学习基础
  • 神经网络基础
  • 梯度下降与反向传播
  • 卷积神经网络(CNN)
  • 激活函数
  • 损失函数
  • 图像分类基础
  • 语义分割基础
  • 特征图与注意力机制
  • CAM可视化技术
  • 常用评价指标
  • 本周总结

1. 机器学习基础

机器学习的目标是寻找输入与输出之间的映射关系:


y=f(x)
 

其中:

  • (x) 为输入数据

  • (y) 为预测结果

  • (f) 为模型

机器学习本质上是利用数据学习规律。

常见任务:

  • 分类(Classification)

  • 回归(Regression)

  • 聚类(Clustering)


2. 神经网络基础

神经网络由大量神经元组成。

单个神经元表达式:

[ z=\sum_{i=1}^{n}w_ix_i+b ]

输出:
a=f(z)
其中:

  • (w) 为权重

  • (b) 为偏置

  • (f) 为激活函数

神经网络本质上是在不断学习最优参数。


3. 梯度下降与反向传播

训练神经网络的核心是优化参数。

参数更新公式:

[ \theta=\theta-\eta\nabla J(\theta) ]

其中:

  • (\theta)为参数

  • (\eta)为学习率

  • (J(\theta))为损失函数

目标:

[ J(\theta)\rightarrow \min ]

即让损失越来越小。


4. 卷积神经网络(CNN)

CNN是计算机视觉领域最经典的模型。

卷积运算:

[ Y=X*K ]

展开后:

[ Y(i,j)=\sum_m\sum_nX(i+m,j+n)K(m,n) ]

作用:

  • 提取边缘

  • 提取纹理

  • 提取目标特征

CNN能够自动学习图像特征。


5. 激活函数

ReLU

[ ReLU(x)=\max(0,x) ]

特点:

  • 计算简单

  • 收敛速度快

  • 当前最常用


Sigmoid

[ \sigma(x)=\frac1{1+e^{-x}} ]

输出范围:

[ (0,1) ]

常用于二分类任务。


6. 损失函数

均方误差(MSE)

[ L=\frac1N\sum(y-\hat y)^2 ]

适用于回归问题。


交叉熵损失(Cross Entropy)

[ L=-\sum y\log(\hat y)

适用于分类问题。

特点:

  • 分类任务最常见

  • 收敛速度较快


7. 图像分类基础

分类任务目标:

[ Image\rightarrow Class ]

例如:

猫 → Cat

狗 → Dog

分类流程:

图像
 ↓
CNN
 ↓
特征提取
 ↓
全连接层
 ↓
类别预测

最终输出概率:

[ P(y|x) ]


8. 语义分割基础

语义分割需要对每一个像素分类。

输入:

Image

输出:

Mask

即:

[ H\times W \rightarrow H\times W ]

每个像素都有类别标签。

应用场景:

  • 自动驾驶

  • 医学图像

  • 遥感图像


9. 特征图与注意力机制

卷积层输出称为特征图(Feature Map)。

表示:

[ F\in R^{C\times H\times W} ]

其中:

  • C:通道数

  • H:高度

  • W:宽度

特征图包含网络提取出的语义信息。

注意力机制的核心思想:

[ Attention(Q,K,V) softmax\left( \frac{QK^T}{\sqrt d} \right)V ]

让模型重点关注重要区域。


10. CAM可视化技术

CAM(Class Activation Map)用于观察模型关注区域。

计算方式:

[ CAM(x,y)=\sum_k w_kF_k(x,y) ]

其中:

  • (F_k) 为特征图

  • (w_k)为分类权重

作用:

  • 模型可解释性

  • 热力图可视化

  • 目标区域定位


11. 常用评价指标

Accuracy

[ Accuracy= \frac{TP+TN} {TP+TN+FP+FN} ]

衡量总体正确率。


Precision

[ Precision= \frac{TP} {TP+FP} ]

衡量预测为正样本中有多少正确。


Recall

[ Recall= \frac{TP} {TP+FN} ]

衡量真实正样本被找出多少。


Dice

[ Dice= \frac{2TP} {2TP+FP+FN} ]

医学图像最常用指标之一。


IoU

[ IoU= \frac{TP} {TP+FP+FN} ]

表示预测区域与真实区域重叠程度。


mIoU

  [ mIoU= \frac1K\sum_{i=1}^{K}IoU_i ]

语义分割领域经典评价指标。


12. 本周总结

       本周主要学习了机器学习与深度学习中的基础理论,包括神经网络、梯度下降、卷积神经网络、损失函数、图像分类、语义分割、特征图可视化以及评价指标等内容。通过对相关知识的学习,对深度学习模型的训练流程和计算机视觉任务有了更加系统的理解,也为后续学习高级网络结构和医学图像分析奠定了理论基础。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐