设总损失函数J(w)J(w)J(w)为数据集中NNN个独立样本的损失函数Li(w)L_i(w)Li(w)之和,即J(w)=∑i=1NLi(w)J(w) = \sum\limits_{i=1}^{N} L_i(w)J(w)=i=1NLi(w)。若每个样本的损失函数Li(w)L_i(w)Li(w)关于模型参数www均可导,则总损失函数J(w)J(w)J(w)关于参数www的导数(或梯度),等于各个样本损失函数Li(w)L_i(w)Li(w)关于参数www的导数(或梯度)之和。

用数学公式表示即为:
∂J(w)∂w=∂∂w(∑i=1NLi(w))=∑i=1N∂Li(w)∂w\frac{\partial J(w)}{\partial w} = \frac{\partial}{\partial w} \left( \sum\limits_{i=1}^{N} L_i(w) \right) = \sum\limits_{i=1}^{N} \frac{\partial L_i(w)}{\partial w}wJ(w)=w(i=1NLi(w))=i=1NwLi(w)


证明

这个结论的证明依赖于微积分中两个最基础的求导法则:求和法则与链式法则。

在机器学习中,总损失函数JJJ通常是所有NNN个样本的损失LiL_iLi的平均值或总和,即

J(w)=1N∑i=1NLi(w)J(w) = \frac{1}{N} \sum\limits_{i=1}^{N} L_i(w)J(w)=N1i=1NLi(w)
其中,LiL_iLi是第iii个样本的损失,它依赖于模型的预测值,而预测值又依赖于参数www

  1. 对参数www求导
    对总损失JJJ关于参数www求偏导数:
    ∂J∂w=∂∂w(1N∑i=1NLi)\frac{\partial J}{\partial w} = \frac{\partial}{\partial w} \left( \frac{1}{N} \sum\limits_{i=1}^{N} L_i \right)wJ=w(N1i=1NLi)

  2. 运用求和法则
    根据微积分的求和法则(和的导数等于导数的和),以及常数因子可以提取到导数外面的性质,可以把求导符号放进求和符号里面:
    ∂J(w)∂w=1N∑i=1N∂Li(w)∂w\frac{\partial J(w)}{\partial w} = \frac{1}{N} \sum\limits_{i=1}^{N} \frac{\partial L_i(w)}{\partial w}wJ(w)=N1i=1NwLi(w)

  3. 结论
    观察上面的等式,右边∑i=1N∂Li∂w\sum\limits_{i=1}^{N} \dfrac{\partial L_i}{\partial w}i=1NwLi正是各个样本损失对参数的导数之和。


这个数学性质是批量梯度下降(Batch Gradient Descent)和小批量随机梯度下降(Mini-batch SGD)能够成立的基石。

  • 并行计算的基础:因为它证明了总梯度可以拆分成独立的部分,所以可以把数据分成一个个 Batch,分别计算每个 Batch 的梯度,最后把它们加起来(或取平均),就能得到全量数据的真实梯度。

补充说明

  • 适用前提:该性质成立的核心前提是各个样本的损失LiL_iLi之间是相互独立的,并且都是关于参数www的可导函数。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐