总梯度是各样本梯度的线性叠加

phoenix@Capricornus

368人浏览 · 2026-05-21 11:58:38

phoenix@Capricornus · 2026-05-21 11:58:38 发布

设总损失函数 $J (w)$ 为数据集中 $N$ 个独立样本的损失函数 $L_i(w)$ 之和，即 $\sum\limits_{i=1}^{N} L_i(w)$ 。若每个样本的损失函数 $L_i(w)$ 关于模型参数 $w$ 均可导，则总损失函数 $J (w)$ 关于参数 $w$ 的导数（或梯度），等于各个样本损失函数 $L_i(w)$ 关于参数 $w$ 的导数（或梯度）之和。

用数学公式表示即为：
$∂J(w)∂w=∂∂w(∑i=1NLi(w))=∑i=1N∂Li(w)∂w\frac{\partial J(w)}{\partial w} = \frac{\partial}{\partial w} \left( \sum\limits_{i=1}^{N} L_i(w) \right) = \sum\limits_{i=1}^{N} \frac{\partial L_i(w)}{\partial w}$

证明

这个结论的证明依赖于微积分中两个最基础的求导法则：求和法则与链式法则。

在机器学习中，总损失函数 $J$ 通常是所有 $N$ 个样本的损失 $L_i$ 的平均值或总和，即

$\frac{1}{N} \sum\limits_{i=1}^{N} L_i(w)$
其中， $L_i$ 是第 $i$ 个样本的损失，它依赖于模型的预测值，而预测值又依赖于参数 $w$ 。

对参数 $w$ 求导
对总损失 $J$ 关于参数 $w$ 求偏导数：
$∂J∂w=∂∂w(1N∑i=1NLi)\frac{\partial J}{\partial w} = \frac{\partial}{\partial w} \left( \frac{1}{N} \sum\limits_{i=1}^{N} L_i \right)$
运用求和法则
根据微积分的求和法则（和的导数等于导数的和），以及常数因子可以提取到导数外面的性质，可以把求导符号放进求和符号里面：
$∂J(w)∂w=1N∑i=1N∂Li(w)∂w\frac{\partial J(w)}{\partial w} = \frac{1}{N} \sum\limits_{i=1}^{N} \frac{\partial L_i(w)}{\partial w}$
结论
观察上面的等式，右边 $∑i=1N∂Li∂w\sum\limits_{i=1}^{N} \dfrac{\partial L_i}{\partial w}$ 正是各个样本损失对参数的导数之和。

这个数学性质是批量梯度下降（Batch Gradient Descent）和小批量随机梯度下降（Mini-batch SGD）能够成立的基石。

并行计算的基础：因为它证明了总梯度可以拆分成独立的部分，所以可以把数据分成一个个 Batch，分别计算每个 Batch 的梯度，最后把它们加起来（或取平均），就能得到全量数据的真实梯度。

补充说明

适用前提：该性质成立的核心前提是各个样本的损失 $L_i$ 之间是相互独立的，并且都是关于参数 $w$ 的可导函数。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

多菜谱烹饪的统筹算法实现

要点核心原理代码对应函数逆向调度从完成时间倒推，让最长菜最先开始并行优化利用 wait 窗口插入其他任务冲突解决互斥任务按顺序排开，重叠时自动推后数据结构startOffset 区分开始时间，type 区分任务性质通过这套算法，原本需要串行执行的多道菜可以并行进行，总时长接近耗时最长的单道菜，大幅提升烹饪效率。