机器学习微积分--(8)小结

Zero

408人浏览 · 2026-03-14 09:54:19

Zero · 2026-03-14 09:54:19 发布

微积分是机器学习的数学基石，其核心思想、定理和方法在模型设计、训练和推断中无处不在。下面我们将结合之前讲解的各个概念，逐一总结它们在机器学习中的具体应用。

8.1 微积分基本思想

微积分的基本思想包括微分（研究瞬时变化率）和积分（研究累积总量）。

微分（导数与梯度）：机器学习中的优化问题本质上是寻找使损失函数最小的参数，这依赖于导数和梯度。梯度下降法及其变体（SGD、Adam等）直接利用一阶导数信息更新参数。
积分（累积）：在概率论中，积分用于计算连续随机变量的期望、方差、边缘概率等。例如，贝叶斯推断中的后验分布归一化常数、变分推断中的ELBO（证据下界）都涉及积分运算。

8.2 定积分

定积分 $\int_a^b f(x) \, dx$ 表示函数在区间上的累积效应。

概率计算：连续型随机变量的概率密度函数 $p (x)$ 满足 $\int_{-\infty}^{\infty} p(x) \, dx = 1$ 。任何概率 $\le X \le b) = \int_a^b p(x) \, dx$ 都是定积分。
期望与方差：期望 $\mathbb{E}[X] = \int x p(x) \, dx$ ，方差 $\text{Var}(X) = \int (x-\mu)^2 p(x) \, dx$ 都依赖定积分。
边缘化：在联合分布 $p (x, y)$ 中，边缘分布 $\int p(x, y) \, dy$ 通过对另一个变量积分得到，这是隐变量模型（如高斯混合模型）的基础。
核方法：某些核函数（如RBF核）涉及无穷积分，其性质可通过积分理论分析。

8.3 不定积分

不定积分 $\int f(x) \, dx = F(x) + C$ 是导数的逆运算，即寻找原函数。

在机器学习中，不定积分直接出现较少，但它是牛顿-莱布尼茨公式的基础，从而间接用于定积分计算。
在微分方程求解中，某些物理启发的模型（如神经常微分方程）会用到不定积分思想。

8.4 牛顿-莱布尼茨公式

该公式 $ \int_a^b f(x) , dx = F(b) - F(a) $ 将定积分与原函数联系起来。

它是变分法的基础之一。在变分推断中，我们优化一个泛函，其欧拉-拉格朗日方程的推导依赖于该公式。
在概率积分变换中，若已知累积分布函数 $F (x)$ ，则 $F (X)$ 服从均匀分布，这是采样方法（如逆变换采样）的理论依据。

8.5 泰勒公式

泰勒公式 $\sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!}(x-x_0)^k + R_n(x)$ 用多项式逼近函数。

梯度下降分析：泰勒展开用于理解梯度下降的收敛性。对损失函数 $J(\theta)$ 在 $\theta_t$ 处展开，可得到更新规则和步长选择的理论依据。
二阶优化：牛顿法利用二阶泰勒展开（包含Hessian矩阵）来加速收敛。
激活函数近似：某些激活函数（如sigmoid、tanh）的泰勒展开可用于简化计算或理论分析。
模型解释：泰勒展开可用于解释模型对输入的敏感性（如梯度乘以输入的特征归因方法）。
强化学习：在策略梯度方法中，价值函数的泰勒展开可用于推导更新规则。

8. 6 阶乘与阶数

阶乘 $n!$ 出现在泰勒展开的系数分母中，阶数指多项式或无穷小的次数。

泰勒系数：阶乘保证了展开式系数与函数在该点的高阶导数匹配，使得多项式逼近具有正确的局部行为。
组合计数：在机器学习中，阶乘出现在组合数 $\binom{n}{k}$ 中，用于特征选择、模型复杂度分析（如决策树的叶子节点数）等。
概率分布：泊松分布的概率质量函数 $\frac{\lambda^k e^{-\lambda}}{k!}$ 中包含阶乘，用于计数数据的建模。
无穷小阶数：在分析优化算法的收敛速度时，常用无穷小的阶数来描述误差衰减的快慢。

8.7 链式法则

链式法则 $\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$ 及其多变量形式是求复合函数导数的核心。

反向传播：神经网络训练的核心算法——反向传播，本质就是链式法则的反复应用。从输出层到输入层，每一层参数的梯度通过链式法则逐层计算。
自动微分：深度学习框架（TensorFlow、PyTorch）实现自动微分，其底层原理正是基于计算图和链式法则。
概率图模型：在隐变量模型中，证据下界（ELBO）对参数的梯度推导也依赖链式法则。
强化学习：策略梯度定理的推导中，对策略函数的梯度需要用到链式法则。

8.8 总结

微积分的各个概念在机器学习中相互交织，共同构成了模型训练与推断的理论基础：

概念	主要应用
微积分基本思想	优化（梯度下降）、概率积分
定积分	概率计算、期望、边缘化
不定积分	牛顿-莱布尼茨公式的基础，微分方程
牛顿-莱布尼茨公式	变分法、概率积分变换
泰勒公式	优化算法分析、函数近似、模型解释
阶乘与阶数	泰勒系数、组合计数、概率分布
链式法则	反向传播、自动微分、梯度计算

掌握这些概念，不仅能帮助理解现有算法的原理，还能为设计新模型和优化方法提供数学工具。微积分作为机器学习的“语言”，其重要性不言而喻。

上一章 机器学习微积分–(7)链式法则

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Prompt Engineering指通过设计和优化输入提示

Prompt Engineering指通过设计和优化输入提示（Prompt）来引导AI模型生成更准确、符合需求的输出。其核心在于理解模型的工作原理，利用自然语言构建有效的指令、上下文或示例，以提升模型在文本生成、问答、翻译等任务中的表现。

AtomGit开源社区

cover

2026年论文降AI如何实现？亲测DeepSeek+豆包+Gemini：去AI痕迹指令+工具测评，AIGC率80%降至5%

AtomGit开源社区

cover

2026年论文AIGC率高怎么办？收藏3款工具+DeepSeek免费降AI指令高效过关

AtomGit开源社区

所有评论(0)

查看更多评论

Zero

@weixin_43496589

已为社区贡献8条内容