深度学习核心概念培训课件
深度学习核心概念培训课件
适用对象
深度学习初学者、数据科学家、算法工程师
课件目标
- 理解深度学习训练过程中的核心概念:Loss曲线、参数调整、梯度函数、前向传播、激活函数、Acc曲线、正则化技术
- 掌握每个概念的通俗解释、数学公式和实际案例
- 能够综合运用这些知识诊断模型训练问题
目录
- 引言:深度学习训练流程概览
- 第一章:Loss曲线 – 模型的“错误温度计”
- 第二章:参数调整与梯度下降 – 模型的“学习机制”
- 第三章:梯度函数 – 优化的“指南针”
- 第四章:前向传播 – 数据流动的“流水线”
- 第五章:激活函数 – 神经网络的“开关与调节器”
- 第六章:Acc曲线 – 模型的“考试成绩单”
- 第七章:正则化技术 – 防止“死记硬背”的策略
- 总结与知识回顾
- 附录:常用公式与术语表
引言:深度学习训练流程概览
深度学习的训练过程可以概括为以下循环:
输入数据 → 前向传播(计算预测) → 计算损失(Loss) → 反向传播(计算梯度) → 参数更新(梯度下降) → 重复
整个过程中,我们会监控 Loss曲线 和 Acc曲线,并运用 正则化技术 防止过拟合。
核心目标: 找到一组模型参数,使得模型在训练数据上损失最小,并且在未见过的数据上也能表现良好(泛化能力强)。
第一章:Loss曲线 – 模型的“错误温度计”
1.1 什么是Loss(损失值)?
- 通俗解释: 衡量模型预测结果与真实答案之间“差距”的分数。数值越大,表示模型错得越离谱;数值越小,表示模型预测越准。
- 数学定义: 损失函数 L(ypred,ytrue)L(y_{pred}, y_{true})L(ypred,ytrue)是预测值与真实值的函数。
- 回归任务常用:均方误差 MSE=1n∑(ypred−ytrue)2MSE = \frac{1}{n}\sum (y_{pred} - y_{true})^2MSE=n1∑(ypred−ytrue)2
- 分类任务常用:交叉熵损失 CE=−∑ytruelog(ypred)CE = -\sum y_{true} \log(y_{pred})CE=−∑ytruelog(ypred)
1.2 什么是Loss曲线?
- 定义: 将训练过程中每个Epoch(或每个Batch)计算的平均Loss值按顺序连接而成的曲线。
- 横轴: 训练轮次(Epoch)或迭代次数(Iteration)
- 纵轴: 平均损失值
1.3 Loss曲线能告诉我们什么?
| 曲线形态 | 含义 | 应对策略 |
|---|---|---|
| 持续下降,趋于平稳 | 模型正常学习,效果良好 | 继续训练或早停 |
| 下降缓慢或停滞 | 学习率太小或模型能力不足 | 调大学习率或增加模型复杂度 |
| 剧烈震荡 | 学习率太大或数据噪声大 | 降低学习率,增加batch size |
| 训练Loss下降,验证Loss上升 | 过拟合 | 使用正则化、早停、增加数据 |
| 训练Loss和验证Loss都很高 | 欠拟合 | 增加模型容量、训练更久 |
1.4 案例:温度预测模型的Loss曲线
任务: 根据时间点(0=早上,1=中午,2=晚上)预测房间温度。
训练数据:
| 时间x | 真实温度y |
|---|---|
| 0 | 22℃ |
| 1 | 28℃ |
| 2 | 20℃ |
训练过程记录:
| Epoch | 平均Loss (MSE) |
|---|---|
| 1 | 86.0 |
| 2 | 25.7 |
| 3 | 2.0 |
| 4 | 0.8 |
| 5 | 0.5 |
绘制曲线: 横轴Epoch 1~5,纵轴Loss从86降到0.5 → 一条向右下倾斜的曲线,表明模型在进步。
💡 小结:Loss曲线是训练过程的“仪表盘”,帮助我们判断模型是否在有效学习。
第二章:参数调整与梯度下降 – 模型的“学习机制”
2.1 什么是参数?
- 神经网络中的权重(Weights, W) 和 偏置(Biases, b) 统称为参数。
- 可以把它们想象成机器上的“旋钮”,旋转这些旋钮会改变模型的输出。
- 初始时参数随机设置,模型预测很差(Loss很高)。
2.2 如何调整参数? – 梯度下降法
核心思想: 沿着Loss下降最快的方向,小步调整参数。
形象比喻: 你蒙着眼站在山上(Loss曲面),目标是下到谷底(Loss最小)。你用脚试探四周,找到最陡的下坡方向(梯度),然后朝那个方向迈出一小步(学习率 × 梯度),重复直到谷底。
参数更新公式:
θnew=θold−η⋅∇θL \theta_{new} = \theta_{old} - \eta \cdot \nabla_\theta L θnew=θold−η⋅∇θL
- $\theta):参数(权重或偏置)
- $\eta):学习率(步长,超参数)
- $\nabla_\theta L):Loss关于参数的梯度
2.3 学习率的影响
| 学习率 | 效果 | 风险 |
|---|---|---|
| 太小 | 收敛慢,训练时间长 | 可能陷入局部极小 |
| 太大 | 收敛快 | 震荡、不收敛、Loss爆炸 |
| 合适 | 平稳下降 | 最佳 |
2.4 案例:单参数线性模型
模型: ypred=w⋅xy_{pred} = w \cdot xypred=w⋅x,唯一参数 www。
数据: x=1,ytrue=28x=1, y_{true}=28x=1,ytrue=28。
当前 w=0.3w=0.3w=0.3,学习率 η=0.01\eta=0.01η=0.01。
- 前向:ypred=0.3y_{pred}=0.3ypred=0.3,Loss = $(0.3-28)^2 = 767.29)
- 梯度:$\frac{\partial L}{\partial w} = 2(y_{pred}-y_{true})x = 2 \times (-27.7) \times 1 = -55.4)
- 更新:$w_{new} = 0.3 - 0.01 \times (-55.4) = 0.3 + 0.554 = 0.854)
- 新Loss:(0.854−28)2≈737.5(0.854-28)^2 \approx 737.5(0.854−28)2≈737.5→ 降低了!
💡 小结:参数更新 = 旧参数 - 学习率 × 梯度。梯度告诉我们方向,学习率控制步长。
第三章:梯度函数 – 优化的“指南针”
3.1 什么是梯度?
- 梯度 是一个向量,包含Loss函数关于每个参数的偏导数。
- 它指向Loss增加最快的方向;我们沿着反方向走,就是Loss下降最快方向。
数学定义:
∇L=[∂L∂w1,∂L∂w2,…,∂L∂b1,… ] \nabla L = \left[ \frac{\partial L}{\partial w_1}, \frac{\partial L}{\partial w_2}, \dots, \frac{\partial L}{\partial b_1}, \dots \right] ∇L=[∂w1∂L,∂w2∂L,…,∂b1∂L,…]
3.2 梯度计算的核心:链式法则
在神经网络中,Loss通过多个复合函数传递,梯度计算使用链式法则。
例子(单神经元):
z=wx+b,a=σ(z),L=(a−ytrue)2 z = w x + b, \quad a = \sigma(z), \quad L = (a - y_{true})^2 z=wx+b,a=σ(z),L=(a−ytrue)2
则:
∂L∂w=∂L∂a⋅∂a∂z⋅∂z∂w \frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w} ∂w∂L=∂a∂L⋅∂z∂a⋅∂w∂z
3.3 案例:带偏置的线性模型
模型: ypred=wx+by_{pred} = w x + bypred=wx+b
Loss: L=(ypred−ytrue)2L = (y_{pred} - y_{true})^2L=(ypred−ytrue)2
梯度:
∂L∂w=2(ypred−ytrue)⋅x \frac{\partial L}{\partial w} = 2 (y_{pred} - y_{true}) \cdot x ∂w∂L=2(ypred−ytrue)⋅x
∂L∂b=2(ypred−ytrue) \frac{\partial L}{\partial b} = 2 (y_{pred} - y_{true}) ∂b∂L=2(ypred−ytrue)
数值实例: w=2,b=10,x=1,ytrue=28w=2, b=10, x=1, y_{true}=28w=2,b=10,x=1,ytrue=28
- ypred=12y_{pred}=12ypred=12
- ∂L∂w=2(12−28)×1=−32\frac{\partial L}{\partial w} = 2(12-28)\times 1 = -32∂w∂L=2(12−28)×1=−32
- ∂L∂b=2(12−28)=−32\frac{\partial L}{\partial b} = 2(12-28) = -32∂b∂L=2(12−28)=−32
- 梯度向量 [−32,−32][-32, -32][−32,−32],表示同时增加 www和 bbb 会降低Loss。
💡 小结:梯度函数是连接前向传播(预测)和反向传播(学习)的桥梁。反向传播算法利用链式法则高效计算所有参数的梯度。
第四章:前向传播 – 数据流动的“流水线”
4.1 什么是前向传播?
定义: 输入数据从输入层开始,依次经过每一层的计算(加权求和 + 激活函数),最终到达输出层得到预测结果的过程。
特点:
- 单向流动,不回头
- 使用当前模型参数
- 输出预测值和损失值
4.2 单层神经网络的前向传播
计算步骤:
- 加权输入:z=W⋅x+bz = W \cdot x + bz=W⋅x+b
- 激活函数:a=f(z)a = f(z)a=f(z)
- 如果是输出层,再计算损失:L=Loss(a,ytrue)L = \text{Loss}(a, y_{true})L=Loss(a,ytrue)
4.3 案例:两层网络(带激活函数)
任务: 根据两个特征判断猫/狗。
输入: x=[0.8,0.2]x = [0.8, 0.2]x=[0.8,0.2]
隐藏层: W1=[[1.2,−0.8],[0.5,1.0]]W1 = [[1.2, -0.8], [0.5, 1.0]]W1=[[1.2,−0.8],[0.5,1.0]], b1=[0.1,−0.2]b1 = [0.1, -0.2]b1=[0.1,−0.2],激活函数 ReLU
输出层: W2=[[0.8,−1.0],[1.5,0.5]]W2 = [[0.8, -1.0], [1.5, 0.5]]W2=[[0.8,−1.0],[1.5,0.5]], b2=[0.2,0.1]b2 = [0.2, 0.1]b2=[0.2,0.1],激活函数 Softmax
计算过程:
- z1=W1⋅x+b1=[1.16,−0.64]z1 = W1 \cdot x + b1 = [1.16, -0.64]z1=W1⋅x+b1=[1.16,−0.64]
- a1=ReLU(z1)=[1.16,0.0]a1 = \text{ReLU}(z1) = [1.16, 0.0]a1=ReLU(z1)=[1.16,0.0]
- z2=W2⋅a1+b2=[1.128,1.84]z2 = W2 \cdot a1 + b2 = [1.128, 1.84]z2=W2⋅a1+b2=[1.128,1.84]
- ypred=Softmax(z2)=[0.329,0.671]y_{pred} = \text{Softmax}(z2) = [0.329, 0.671]ypred=Softmax(z2)=[0.329,0.671]
- 表示猫的概率32.9%,狗的概率67.1%
💡 小结:前向传播是模型做出预测的唯一途径,也是计算损失和后续反向传播的基础。
第五章:激活函数 – 神经网络的“开关与调节器”
5.1 什么是激活函数?
- 位置: 放在神经元的输出端,作用在加权和 zzz上。
- 作用: 引入非线性,使神经网络能够拟合任意复杂函数。如果没有激活函数,多层线性网络等价于单层线性模型。
- 其他作用: 限制输出范围(如Sigmoid输出0~1)、稀疏激活(ReLU)。
5.2 常见激活函数详解
| 函数 | 公式 | 输出范围 | 优点 | 缺点 | 典型用途 |
|---|---|---|---|---|---|
| Sigmoid | σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e−z1 | (0,1) | 平滑,输出可解释为概率 | 梯度消失,非零中心 | 二分类输出层 |
| Tanh | tanh(z)=ez−e−zez+e−z\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}tanh(z)=ez+e−zez−e−z | (-1,1) | 零中心,比Sigmoid好 | 仍有梯度消失 | 隐藏层(RNN) |
| ReLU | ReLU(z)=max(0,z)\text{ReLU}(z) = \max(0,z)ReLU(z)=max(0,z) | [0, ∞) | 计算快,缓解梯度消失 | 神经元死亡 | 隐藏层默认选择 |
| Leaky ReLU | LeakyReLU(z)=max(αz,z)\text{LeakyReLU}(z) = \max(\alpha z, z)LeakyReLU(z)=max(αz,z) | (-∞,∞) | 解决神经元死亡 | 多一个超参数 | ReLU失效时替代 |
| Softmax | Softmax(zj)=ezj∑kezk\text{Softmax}(z_j) = \frac{e^{z_j}}{\sum_k e^{z_k}}Softmax(zj)=∑kezkezj | (0,1), 和为1 | 输出概率分布 | 计算量大 | 多分类输出层 |
5.3 激活函数选择指南
- 隐藏层: 首选 ReLU;若出现神经元死亡,尝试 Leaky ReLU。
- 输出层:
- 二分类 → Sigmoid(单个神经元)
- 多分类 → Softmax
- 回归 → 线性(无激活函数) 或 ReLU(预测非负值)
5.4 案例:ReLU的稀疏激活效果
输入 z=[−0.5,1.2,−3.0]z = [-0.5, 1.2, -3.0]z=[−0.5,1.2,−3.0]→ ReLU输出 [0,1.2,0][0, 1.2, 0][0,1.2,0]。两个神经元被“关闭”(输出0),只有中间神经元激活,增加了网络的稀疏性和计算效率。
💡 小结:激活函数是神经网络非线性的来源,ReLU因其简单高效成为现代深度学习的默认选择。
第六章:Acc曲线 – 模型的“考试成绩单”
6.1 什么是准确率(Accuracy)?
- 定义: 分类正确的样本数占总样本数的比例。
Accuracy=正确预测数总样本数 \text{Accuracy} = \frac{\text{正确预测数}}{\text{总样本数}} Accuracy=总样本数正确预测数
6.2 什么是Acc曲线?
- 定义: 训练过程中,验证集(或测试集) 的准确率随Epoch变化的曲线。
- 通常与训练集准确率曲线画在一起,用于诊断过拟合。
6.3 如何解读Acc曲线?
| 现象 | 含义 | 对策 |
|---|---|---|
| 验证Acc持续上升 | 泛化能力在提高 | 继续训练 |
| 验证Acc趋于平稳 | 学习饱和 | 考虑早停 |
| 验证Acc开始下降 | 过拟合 | 立即停止,使用正则化 |
| 训练Acc接近100%,验证Acc远低于训练Acc | 严重过拟合 | 加强正则化、增加数据 |
| 两者都很低 | 欠拟合 | 增加模型容量或训练时间 |
6.4 案例:手写数字识别(MNIST)
训练10个Epoch,记录验证集准确率:
| Epoch | Val Acc |
|---|---|
| 1 | 85% |
| 2 | 90% |
| 3 | 92% |
| 4 | 94% |
| 5 | 95% |
| 6 | 96% |
| 7 | 96.2% |
| 8 | 96.3% |
| 9 | 96.4% |
| 10 | 96.5% |
曲线解读: 前期快速上升,后期缓慢饱和。Epoch 6之后提升微小,可以在Epoch 6后早停。
6.5 过拟合案例:训练Acc vs 验证Acc
| Epoch | Train Acc | Val Acc |
|---|---|---|
| 1 | 88% | 85% |
| 2 | 94% | 90% |
| 3 | 97% | 92% |
| 4 | 98.5% | 93% |
| 5 | 99.2% | 93.5% |
| 6 | 99.6% | 93.3% |
| 7 | 99.8% | 93.0% |
| 8 | 99.9% | 92.8% |
结论: 从Epoch 6开始过拟合,应在Epoch 5停止训练。
💡 小结:Acc曲线直观反映模型泛化能力。训练Acc和验证Acc之间的“差距”是过拟合的晴雨表。
第七章:正则化技术 – 防止“死记硬背”的策略
7.1 什么是过拟合?为什么要正则化?
- 过拟合: 模型在训练集上表现极好(Loss很低,Acc很高),但在验证/测试集上表现差。就像学生死记硬背了所有练习题,但遇到新题就不会。
- 正则化: 一系列防止过拟合、提高泛化能力的技术。核心思想是给模型增加“约束”或“干扰”,迫使其学习更通用的模式。
7.2 常用正则化技术详解
7.2.1 L1正则化(Lasso)
- 公式: Ltotal=Loriginal+λ∑∣wi∣L_{total} = L_{original} + \lambda \sum |w_i|Ltotal=Loriginal+λ∑∣wi∣
- 效果: 使权重稀疏(很多权重变为0),自动进行特征选择。
- 案例: 房价预测中,L1会剔除“奶茶店数量”等无关特征。
7.2.2 L2正则化(权重衰减 / Ridge)
- 公式: Ltotal=Loriginal+λ2∑wi2L_{total} = L_{original} + \frac{\lambda}{2} \sum w_i^2Ltotal=Loriginal+2λ∑wi2
- 效果: 使所有权重整体变小,但不归零,提高模型稳定性。
- 案例: 图像分类中,L2抑制模型对背景颜色等干扰特征的过度依赖。
7.2.3 Dropout
- 原理: 训练时,每次前向传播随机丢弃一定比例的神经元(将其输出置0);测试时使用全部神经元(权重按保留概率缩放)。
- 效果: 打破神经元之间的共适应,迫使每个神经元学习独立有用的特征。
- 案例: 动物分类网络,Dropout迫使模型不依赖“尖耳朵”单一特征,也能识别圆耳朵的猫。
7.2.4 数据增强
- 原理: 对原始训练数据施加随机但合理的变换,生成新的训练样本。
- 常见方法(图像): 旋转、翻转、裁剪、缩放、调整亮度/对比度、添加噪声、MixUp、CutMix。
- 效果: 增加数据多样性,提高模型对光照、角度、背景等变化的鲁棒性。
- 案例: 猫狗分类中,对猫图片做水平翻转、旋转、亮度调整,让模型学会识别“猫”的本质特征而非背景或姿势。
7.2.5 早停法(Early Stopping)
- 原理: 监控验证集指标,当连续多个Epoch验证集Loss不再下降(或Acc不再上升)时,停止训练并回滚到最佳模型。
- 参数: 耐心值(Patience),如设置 patience=5,表示连续5个Epoch没改善就停止。
- 效果: 简单有效,几乎无额外计算成本,防止过拟合。
7.3 正则化技术选择指南
| 场景 | 推荐技术 |
|---|---|
| 通用首选 | L2正则化(权重衰减) + 早停 |
| 全连接网络过拟合严重 | Dropout (0.3~0.5) |
| 特征数量多,需要特征选择 | L1正则化 |
| 图像任务 | 数据增强(必备) + L2 + Dropout |
| 训练速度慢、数据量小 | 早停 + 数据增强 |
| 模型已经很大且过拟合 | 组合使用:L2 + Dropout + 数据增强 + 早停 |
7.4 案例对比:无正则化 vs 有正则化
任务: 二分类(猫/狗),训练集1000张,测试集200张。
| 方法 | 训练Acc | 测试Acc | 状态 |
|---|---|---|---|
| 无正则化 | 99.8% | 82% | 严重过拟合 |
| + L2 (λ=0.01) | 96% | 88% | 改善 |
| + Dropout (0.5) | 94% | 90% | 更好 |
| + 数据增强 | 93% | 91% | 最佳 |
💡 小结:正则化是让模型从“死记硬背”转向“理解本质”的关键技术,实际项目中应优先考虑。
总结与知识回顾
核心概念速查表
| 概念 | 一句话定义 | 主要作用 |
|---|---|---|
| Loss曲线 | 损失值随训练轮次变化的曲线 | 监控学习进度,诊断欠拟合/过拟合 |
| 梯度下降 | 沿梯度反方向更新参数的优化算法 | 最小化损失函数 |
| 梯度函数 | Loss对每个参数的偏导数向量 | 指明参数调整的方向和幅度 |
| 前向传播 | 输入经过各层计算得到输出的过程 | 产生预测值和损失值 |
| 激活函数 | 引入非线性的函数,作用在加权和上 | 使神经网络能拟合复杂函数 |
| Acc曲线 | 验证集准确率随训练轮次变化的曲线 | 评估泛化能力,诊断过拟合 |
| 正则化 | 防止过拟合的技术集合 | 提高模型在新数据上的表现 |
训练模型的标准流程
1. 准备数据(划分训练/验证/测试集,可做数据增强)
2. 定义模型结构(选择激活函数等)
3. 定义损失函数和优化器(如SGD、Adam)
4. 循环每个Epoch:
- 前向传播计算预测和损失
- 反向传播计算梯度
- 更新参数(梯度下降)
- 记录训练Loss和训练Acc
- 在验证集上评估,记录验证Loss和验证Acc
- 应用正则化(Dropout、L2等)
- 检查早停条件
5. 绘制Loss曲线和Acc曲线,诊断模型状态
6. 调整超参数,重复实验,直到满足性能要求
常见问题与解决方案
| 问题 | 可能原因 | 解决方案 |
|---|---|---|
| Loss不下降 | 学习率太小/模型太简单 | 增大学习率,增加层数/神经元 |
| Loss震荡严重 | 学习率太大 | 降低学习率,增大batch size |
| 训练Loss低,验证Loss高 | 过拟合 | 增加正则化(Dropout/L2),早停,数据增强 |
| 训练Loss和验证Loss都高 | 欠拟合 | 增加模型容量,训练更久 |
| 验证Acc早停后仍不提升 | 模型饱和或数据不足 | 尝试更复杂的模型,收集更多数据 |
附录:常用公式与术语表
常用公式
| 名称 | 公式 |
|---|---|
| 均方误差 | MSE=1n∑i=1n(ypred(i)−ytrue(i))2MSE = \frac{1}{n}\sum_{i=1}^n (y_{pred}^{(i)} - y_{true}^{(i)})^2MSE=n1∑i=1n(ypred(i)−ytrue(i))2 |
| 交叉熵损失 | CE=−∑iytrue(i)log(ypred(i))CE = -\sum_{i} y_{true}^{(i)} \log(y_{pred}^{(i)})CE=−∑iytrue(i)log(ypred(i)) |
| Sigmoid | σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e−z1 |
| Tanh | tanh(z)=ez−e−zez+e−z\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}tanh(z)=ez+e−zez−e−z |
| ReLU | ReLU(z)=max(0,z)\text{ReLU}(z) = \max(0, z)ReLU(z)=max(0,z) |
| Softmax | Softmax(zj)=ezj∑kezk\text{Softmax}(z_j) = \frac{e^{z_j}}{\sum_k e^{z_k}}Softmax(zj)=∑kezkezj |
| 梯度下降更新 | θ←θ−η∇θL\theta \leftarrow \theta - \eta \nabla_\theta Lθ←θ−η∇θL |
| L1正则化 | Ltotal=Lorig+λ∑∣wi∣L_{total} = L_{orig} + \lambda \sum |w_i|Ltotal=Lorig+λ∑∣wi∣ |
| L2正则化 | Ltotal=Lorig+λ2∑wi2L_{total} = L_{orig} + \frac{\lambda}{2} \sum w_i^2Ltotal=Lorig+2λ∑wi2 |
术语表
| 术语 | 英文 | 解释 |
|---|---|---|
| 损失函数 | Loss Function | 衡量预测与真实差距的函数 |
| 梯度 | Gradient | 损失函数关于参数的偏导数向量 |
| 学习率 | Learning Rate | 参数更新的步长 |
| 前向传播 | Forward Propagation | 输入到输出的计算过程 |
| 反向传播 | Backpropagation | 从输出到输入计算梯度的算法 |
| 激活函数 | Activation Function | 引入非线性的函数 |
| 过拟合 | Overfitting | 模型过度学习训练数据,泛化差 |
| 欠拟合 | Underfitting | 模型未能学习到数据规律 |
| 正则化 | Regularization | 防止过拟合的技术 |
| 泛化能力 | Generalization | 模型在新数据上的表现 |
| Epoch | Epoch | 完整遍历一次训练集 |
| Batch | Batch | 一次前向/反向传播使用的样本数 |
课件使用建议
- 每章配有案例和公式,建议结合代码实践加深理解。
- 重点关注 Loss曲线与Acc曲线的联合诊断 以及 正则化技术的组合使用。
- 培训时可穿插提问:例如“如果验证Loss上升但训练Loss下降,是什么问题?”(答案:过拟合)。
课件结束 – 祝学习愉快!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)