深度学习与神经网络
深度学习与神经网络入门笔记
文章前言
本文完全对照深度学习入门核心学习目标整理,覆盖机器学习/深度学习区分、逻辑回归、计算图、浅层/深层神经网络前向&反向传播全套知识点,所有数学公式、适合作为课堂复习、期末备考、入门梳理笔记。
一、基础概念区分
1. 深度学习与机器学习核心区别
- 传统机器学习:需要人工手动设计、提取数据特征,模型结构浅层,仅能完成简单数据拟合;
- 深度学习:依靠多层神经网络自动分层提取特征,高度依赖海量训练数据与硬件算力,无需人工设计特征。
2. 深度学习效果特点
- 性能随训练数据量增长显著提升,小数据集场景优势不明显;
- 原生适配图像、文本、语音等高维原始数据;
- 训练、推理算力消耗高;
- 支持端到端建模,输入原始数据可直接输出预测结果。
3. 神经网络基础结构
完整网络分为三层:输入层、隐藏层、输出层;
最小组成单元:神经元、权重矩阵WWW、偏置bbb、激活函数。
二、逻辑回归(单神经元基础模型)
逻辑回归是最简单的单神经元网络,二分类任务底层基础模型。
1. 预测输出计算公式
线性得分:z=WTX+bz=W^TX+bz=WTX+b
Sigmoid激活输出概率:a=σ(z)=11+e−za=\sigma(z)=\frac{1}{1+e^{-z}}a=σ(z)=1+e−z1
2. 损失与代价函数
- 单样本交叉熵损失:L(a,y)=−yloga−(1−y)log(1−a)\mathcal{L}(a,y)=-y\log a-(1-y)\log(1-a)L(a,y)=−yloga−(1−y)log(1−a)
- mmm个样本总代价函数:J=1m∑i=1mL(a(i),y(i))J=\frac{1}{m}\sum_{i=1}^m\mathcal{L}(a^{(i)},y^{(i)})J=m1∑i=1mL(a(i),y(i))
3. 梯度下降算法
- 向量化梯度求解
dw=1mX(A−Y)T,db=1m∑(a−y)dw=\frac{1}{m}X(A-Y)^T,\quad db=\frac{1}{m}\sum(a-y)dw=m1X(A−Y)T,db=m1∑(a−y) - 参数更新规则(α\alphaα为学习率)
W=W−α⋅dw,b=b−α⋅dbW=W-\alpha\cdot dw,\quad b=b-\alpha\cdot dbW=W−α⋅dw,b=b−α⋅db
4. 多样本向量化运算
抛弃逐样本for循环迭代,使用矩阵并行运算,大幅降低运算耗时,是深度学习代码标准写法。
三、导数计算图
核心依托链式求导法则;计算流程分为两步:正向代入数值计算函数结果,反向逐层求梯度,是神经网络反向传播算法的底层数学原理。
四、浅层神经网络(包含单神经元网络)
1. 单神经元网络
本质等价逻辑回归模型,仅含一层权重搭配Sigmoid激活函数,是二分类任务最基础模型。
2. 网络前向传播
逐层通用计算公式:
Z[l]=W[l]A[l−1]+b[l]Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}Z[l]=W[l]A[l−1]+b[l]
A[l]=σ[l](Z[l])A^{[l]}=\sigma^{[l]}(Z^{[l]})A[l]=σ[l](Z[l])
从输入层逐层计算,传递至输出层得到预测值。
3. 引入激活函数的核心原因
激活函数为网络引入非线性表达能力;
若不存在激活函数,多层网络会退化为单层线性模型,无法拟合非线性复杂数据分布。
4. 浅层网络反向传播完整推导
- 输出层梯度:dZ[2]=A[2]−YdZ^{[2]}=A^{[2]}-YdZ[2]=A[2]−Y
- 权重、偏置梯度通用式:
dW[l]=1mdZ[l]A[l−1]TdW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}dW[l]=m1dZ[l]A[l−1]T
db[l]=1m∑dZ[l]db^{[l]}=\frac{1}{m}\sum dZ^{[l]}db[l]=m1∑dZ[l] - 上一层隐藏层梯度:
dZ[l−1]=W[l]TdZ[l]⋅σ′[l−1](Z[l−1])dZ^{[l-1]}=W^{[l]T}dZ^{[l]}\cdot\sigma'^{[l-1]}(Z^{[l-1]})dZ[l−1]=W[l]TdZ[l]⋅σ′[l−1](Z[l−1]) - 利用求解得到的梯度,配合梯度下降更新全部权重与偏置参数。
5. 实战落地要求
搭建浅层神经网络完成分类任务,全程使用矩阵向量化运算加速训练,禁止单层循环迭代。
五、深层神经网络
1. 前向传播逻辑
完全复用浅层网络逐层计算Z、AZ、AZ、A的公式,堆叠多层隐藏层,网络可自动提取数据高阶抽象特征。
2. 反向传播逻辑
延续链式求导法则,梯度从输出层向输入层逐层反向传递,逐层求解每一层权重、偏置梯度并完成参数更新。
六、代码实操硬性要求
- 全部矩阵运算统一采用向量化写法,规避低效for循环;
- 可独立从零搭建单神经元网络、浅层分类神经网络。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)