微积分是机器学习的数学基石,其核心思想、定理和方法在模型设计、训练和推断中无处不在。下面我们将结合之前讲解的各个概念,逐一总结它们在机器学习中的具体应用。


8.1 微积分基本思想

微积分的基本思想包括微分(研究瞬时变化率)和积分(研究累积总量)。

  • 微分(导数与梯度):机器学习中的优化问题本质上是寻找使损失函数最小的参数,这依赖于导数和梯度。梯度下降法及其变体(SGD、Adam等)直接利用一阶导数信息更新参数。
  • 积分(累积):在概率论中,积分用于计算连续随机变量的期望、方差、边缘概率等。例如,贝叶斯推断中的后验分布归一化常数、变分推断中的ELBO(证据下界)都涉及积分运算。

8.2 定积分

定积分 ∫ a b f ( x )   d x \int_a^b f(x) \, dx abf(x)dx 表示函数在区间上的累积效应。

  • 概率计算:连续型随机变量的概率密度函数 p ( x ) p(x) p(x) 满足 ∫ − ∞ ∞ p ( x )   d x = 1 \int_{-\infty}^{\infty} p(x) \, dx = 1 p(x)dx=1。任何概率 P ( a ≤ X ≤ b ) = ∫ a b p ( x )   d x P(a \le X \le b) = \int_a^b p(x) \, dx P(aXb)=abp(x)dx 都是定积分。
  • 期望与方差:期望 E [ X ] = ∫ x p ( x )   d x \mathbb{E}[X] = \int x p(x) \, dx E[X]=xp(x)dx,方差 Var ( X ) = ∫ ( x − μ ) 2 p ( x )   d x \text{Var}(X) = \int (x-\mu)^2 p(x) \, dx Var(X)=(xμ)2p(x)dx 都依赖定积分。
  • 边缘化:在联合分布 p ( x , y ) p(x, y) p(x,y) 中,边缘分布 p ( x ) = ∫ p ( x , y )   d y p(x) = \int p(x, y) \, dy p(x)=p(x,y)dy 通过对另一个变量积分得到,这是隐变量模型(如高斯混合模型)的基础。
  • 核方法:某些核函数(如RBF核)涉及无穷积分,其性质可通过积分理论分析。

8.3 不定积分

不定积分 ∫ f ( x )   d x = F ( x ) + C \int f(x) \, dx = F(x) + C f(x)dx=F(x)+C 是导数的逆运算,即寻找原函数。

  • 在机器学习中,不定积分直接出现较少,但它是牛顿-莱布尼茨公式的基础,从而间接用于定积分计算。
  • 微分方程求解中,某些物理启发的模型(如神经常微分方程)会用到不定积分思想。

8.4 牛顿-莱布尼茨公式

该公式 $ \int_a^b f(x) , dx = F(b) - F(a) $ 将定积分与原函数联系起来。

  • 它是变分法的基础之一。在变分推断中,我们优化一个泛函,其欧拉-拉格朗日方程的推导依赖于该公式。
  • 概率积分变换中,若已知累积分布函数 F ( x ) F(x) F(x),则 F ( X ) F(X) F(X) 服从均匀分布,这是采样方法(如逆变换采样)的理论依据。

8.5 泰勒公式

泰勒公式 f ( x ) = ∑ k = 0 n f ( k ) ( x 0 ) k ! ( x − x 0 ) k + R n ( x ) f(x) = \sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!}(x-x_0)^k + R_n(x) f(x)=k=0nk!f(k)(x0)(xx0)k+Rn(x) 用多项式逼近函数。

  • 梯度下降分析:泰勒展开用于理解梯度下降的收敛性。对损失函数 J ( θ ) J(\theta) J(θ) θ t \theta_t θt 处展开,可得到更新规则和步长选择的理论依据。
  • 二阶优化:牛顿法利用二阶泰勒展开(包含Hessian矩阵)来加速收敛。
  • 激活函数近似:某些激活函数(如sigmoid、tanh)的泰勒展开可用于简化计算或理论分析。
  • 模型解释:泰勒展开可用于解释模型对输入的敏感性(如梯度乘以输入的特征归因方法)。
  • 强化学习:在策略梯度方法中,价值函数的泰勒展开可用于推导更新规则。

8. 6 阶乘与阶数

阶乘 n ! n! n! 出现在泰勒展开的系数分母中,阶数指多项式或无穷小的次数。

  • 泰勒系数:阶乘保证了展开式系数与函数在该点的高阶导数匹配,使得多项式逼近具有正确的局部行为。
  • 组合计数:在机器学习中,阶乘出现在组合数 ( n k ) \binom{n}{k} (kn) 中,用于特征选择、模型复杂度分析(如决策树的叶子节点数)等。
  • 概率分布:泊松分布的概率质量函数 P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ 中包含阶乘,用于计数数据的建模。
  • 无穷小阶数:在分析优化算法的收敛速度时,常用无穷小的阶数来描述误差衰减的快慢。

8.7 链式法则

链式法则 d y d x = d y d u ⋅ d u d x \frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} dxdy=dudydxdu 及其多变量形式是求复合函数导数的核心。

  • 反向传播:神经网络训练的核心算法——反向传播,本质就是链式法则的反复应用。从输出层到输入层,每一层参数的梯度通过链式法则逐层计算。
  • 自动微分:深度学习框架(TensorFlow、PyTorch)实现自动微分,其底层原理正是基于计算图和链式法则。
  • 概率图模型:在隐变量模型中,证据下界(ELBO)对参数的梯度推导也依赖链式法则。
  • 强化学习:策略梯度定理的推导中,对策略函数的梯度需要用到链式法则。

8.8 总结

微积分的各个概念在机器学习中相互交织,共同构成了模型训练与推断的理论基础:

概念 主要应用
微积分基本思想 优化(梯度下降)、概率积分
定积分 概率计算、期望、边缘化
不定积分 牛顿-莱布尼茨公式的基础,微分方程
牛顿-莱布尼茨公式 变分法、概率积分变换
泰勒公式 优化算法分析、函数近似、模型解释
阶乘与阶数 泰勒系数、组合计数、概率分布
链式法则 反向传播、自动微分、梯度计算

掌握这些概念,不仅能帮助理解现有算法的原理,还能为设计新模型和优化方法提供数学工具。微积分作为机器学习的“语言”,其重要性不言而喻。

上一章 机器学习微积分–(7)链式法则

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐