机器学习微积分--(8)小结
微积分是机器学习的数学基石,其核心思想、定理和方法在模型设计、训练和推断中无处不在。下面我们将结合之前讲解的各个概念,逐一总结它们在机器学习中的具体应用。
8.1 微积分基本思想
微积分的基本思想包括微分(研究瞬时变化率)和积分(研究累积总量)。
- 微分(导数与梯度):机器学习中的优化问题本质上是寻找使损失函数最小的参数,这依赖于导数和梯度。梯度下降法及其变体(SGD、Adam等)直接利用一阶导数信息更新参数。
- 积分(累积):在概率论中,积分用于计算连续随机变量的期望、方差、边缘概率等。例如,贝叶斯推断中的后验分布归一化常数、变分推断中的ELBO(证据下界)都涉及积分运算。
8.2 定积分
定积分 ∫ a b f ( x ) d x \int_a^b f(x) \, dx ∫abf(x)dx 表示函数在区间上的累积效应。
- 概率计算:连续型随机变量的概率密度函数 p ( x ) p(x) p(x) 满足 ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \, dx = 1 ∫−∞∞p(x)dx=1。任何概率 P ( a ≤ X ≤ b ) = ∫ a b p ( x ) d x P(a \le X \le b) = \int_a^b p(x) \, dx P(a≤X≤b)=∫abp(x)dx 都是定积分。
- 期望与方差:期望 E [ X ] = ∫ x p ( x ) d x \mathbb{E}[X] = \int x p(x) \, dx E[X]=∫xp(x)dx,方差 Var ( X ) = ∫ ( x − μ ) 2 p ( x ) d x \text{Var}(X) = \int (x-\mu)^2 p(x) \, dx Var(X)=∫(x−μ)2p(x)dx 都依赖定积分。
- 边缘化:在联合分布 p ( x , y ) p(x, y) p(x,y) 中,边缘分布 p ( x ) = ∫ p ( x , y ) d y p(x) = \int p(x, y) \, dy p(x)=∫p(x,y)dy 通过对另一个变量积分得到,这是隐变量模型(如高斯混合模型)的基础。
- 核方法:某些核函数(如RBF核)涉及无穷积分,其性质可通过积分理论分析。
8.3 不定积分
不定积分 ∫ f ( x ) d x = F ( x ) + C \int f(x) \, dx = F(x) + C ∫f(x)dx=F(x)+C 是导数的逆运算,即寻找原函数。
- 在机器学习中,不定积分直接出现较少,但它是牛顿-莱布尼茨公式的基础,从而间接用于定积分计算。
- 在微分方程求解中,某些物理启发的模型(如神经常微分方程)会用到不定积分思想。
8.4 牛顿-莱布尼茨公式
该公式 $ \int_a^b f(x) , dx = F(b) - F(a) $ 将定积分与原函数联系起来。
- 它是变分法的基础之一。在变分推断中,我们优化一个泛函,其欧拉-拉格朗日方程的推导依赖于该公式。
- 在概率积分变换中,若已知累积分布函数 F ( x ) F(x) F(x),则 F ( X ) F(X) F(X) 服从均匀分布,这是采样方法(如逆变换采样)的理论依据。
8.5 泰勒公式
泰勒公式 f ( x ) = ∑ k = 0 n f ( k ) ( x 0 ) k ! ( x − x 0 ) k + R n ( x ) f(x) = \sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!}(x-x_0)^k + R_n(x) f(x)=∑k=0nk!f(k)(x0)(x−x0)k+Rn(x) 用多项式逼近函数。
- 梯度下降分析:泰勒展开用于理解梯度下降的收敛性。对损失函数 J ( θ ) J(\theta) J(θ) 在 θ t \theta_t θt 处展开,可得到更新规则和步长选择的理论依据。
- 二阶优化:牛顿法利用二阶泰勒展开(包含Hessian矩阵)来加速收敛。
- 激活函数近似:某些激活函数(如sigmoid、tanh)的泰勒展开可用于简化计算或理论分析。
- 模型解释:泰勒展开可用于解释模型对输入的敏感性(如梯度乘以输入的特征归因方法)。
- 强化学习:在策略梯度方法中,价值函数的泰勒展开可用于推导更新规则。
8. 6 阶乘与阶数
阶乘 n ! n! n! 出现在泰勒展开的系数分母中,阶数指多项式或无穷小的次数。
- 泰勒系数:阶乘保证了展开式系数与函数在该点的高阶导数匹配,使得多项式逼近具有正确的局部行为。
- 组合计数:在机器学习中,阶乘出现在组合数 ( n k ) \binom{n}{k} (kn) 中,用于特征选择、模型复杂度分析(如决策树的叶子节点数)等。
- 概率分布:泊松分布的概率质量函数 P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λke−λ 中包含阶乘,用于计数数据的建模。
- 无穷小阶数:在分析优化算法的收敛速度时,常用无穷小的阶数来描述误差衰减的快慢。
8.7 链式法则
链式法则 d y d x = d y d u ⋅ d u d x \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} dxdy=dudy⋅dxdu 及其多变量形式是求复合函数导数的核心。
- 反向传播:神经网络训练的核心算法——反向传播,本质就是链式法则的反复应用。从输出层到输入层,每一层参数的梯度通过链式法则逐层计算。
- 自动微分:深度学习框架(TensorFlow、PyTorch)实现自动微分,其底层原理正是基于计算图和链式法则。
- 概率图模型:在隐变量模型中,证据下界(ELBO)对参数的梯度推导也依赖链式法则。
- 强化学习:策略梯度定理的推导中,对策略函数的梯度需要用到链式法则。
8.8 总结
微积分的各个概念在机器学习中相互交织,共同构成了模型训练与推断的理论基础:
| 概念 | 主要应用 |
|---|---|
| 微积分基本思想 | 优化(梯度下降)、概率积分 |
| 定积分 | 概率计算、期望、边缘化 |
| 不定积分 | 牛顿-莱布尼茨公式的基础,微分方程 |
| 牛顿-莱布尼茨公式 | 变分法、概率积分变换 |
| 泰勒公式 | 优化算法分析、函数近似、模型解释 |
| 阶乘与阶数 | 泰勒系数、组合计数、概率分布 |
| 链式法则 | 反向传播、自动微分、梯度计算 |
掌握这些概念,不仅能帮助理解现有算法的原理,还能为设计新模型和优化方法提供数学工具。微积分作为机器学习的“语言”,其重要性不言而喻。
上一章 机器学习微积分–(7)链式法则
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)