浅谈泰勒展开与优化

Matrix_11

2806人浏览 · 2024-03-24 14:38:42

Matrix_11 · 2024-03-24 14:38:42 发布

优化，可以说是最常见到的一类数学问题，尤其在深度学习时代，大部分的工作都是围绕着数据构建，模型设计，loss 设计来开展的，深度学习训练模型的目的是拟合训练数据，或者说让设计的 loss 最优，无论是拟合训练数据，还是让 loss 最优，这都涉及到优化问题。模型的最终性能取决于两个因素：一个是模型本身的设计；二是对模型的优化。

我们很早以前就接触过函数，有些函数很简单，比如线性函数，一元多次函数。有些函数很复杂，比如现在的 AI 模型，AI 模型本身也是一种函数，只是这个函数的表达式过于复杂，已经不能显式地将表达式写出来了。

函数或者说模型在优化问题中，一般是用来拟合当前的观测值，比如我们有一组观测值 $x_1,y_1),(x_2, y_2),...,(x_m,y_m)$ ，首先我们希望能找到一个函数或者模型，去拟合这组观测值：

$f_{\theta}(x) \tag{1}$

上面的 $f$ 就是函数的表达式， $θ\theta$ 就是函数的参数， $x$ 是我们的观测数据， $y^{'}$ 是函数根据观测数据做的预测，对于一个优化问题来说，就是希望 $y^{'}$ 要与 $y$ 尽可能地接近：

$\argmin_{\theta} \mathbb{E}(y',y) \tag{2}$

上式是一个常见的优化目标函数， $E\mathbb{E}$ 可以选择不同的形式，比如 $L 1, L 2$ 范数，如果是 $L 2$ 范数，那就是我们常见的最小二乘法的优化：

$\argmin_{\theta} \frac{1}{2} \sum_{i} (f_{\theta}(x) - y )^{2} \tag{3}$

对于这类优化问题，大家都知道可以用梯度下降结合链式法则去优化，现在的深度学习，本质上也是上面这种形式， $θ\theta$ 就是模型的参数， $f$ 就是模型的结构，或者说模型的表达式。

如果我们把上面的式 (3) 写成另外一种函数的形式：

$\mathcal{L}(\theta) = \frac{1}{2} \sum_{i} (f_{\theta}(x) - y )^{2} \tag{4}$

$L(θ)\mathcal{L}(\theta)$ 可以看成是关于 $θ\theta$ 的一个函数，理论上来说，我们取一系列的 $θ\theta$ 值，可以看到不同的 $L(θ)\mathcal{L}(\theta)$ 值，那么优化公式 (3) 就相当于在 $L(θ)\mathcal{L}(\theta)$ 这个函数下，找到一个最优的 $θ∗\theta^{*}$ ，使得 $L(θ)\mathcal{L}(\theta)$ 最小。

在优化这类问题的时候，一般我们会先对待优化参数 $θ\theta$ 做一个随机初始化，然后基于这个初始值开始优化。因为一般来说，这种优化函数的表达式都很复杂，很难直接求出解析解，需要通过迭代的方式慢慢收敛到最优值。初始化很好理解，但是后续的迭代是怎么做的呢。这个就要说到著名的泰勒展开。

泰勒展开：是用一个函数在某点的信息，描述其附近取值的公式。如果函数足够平滑，在已知函数在某一点的各阶导数值的情况下，泰勒公式可以利用这些导数值来做系数，构建一个多项式近似函数，求得在这一点的邻域中的值。

泰勒展开式的定义：

$\frac{f(x_0)}{0!} + \frac{f'(x_0)}{1!}(x-x_0) + \frac{f''(x_0)}{2!}(x-x_0)^{2} + ... + \frac{f^{n}(x_0)}{n!}(x-x_0)^{n} + R_n(x) \tag{5}$

如果我们把 $L(θ)\mathcal{L}(\theta)$ 看做是 $f (x)$ ， $x_0$ 看做是初始值，那么上面的泰勒展开式就是对 $L(θ)\mathcal{L}(\theta)$ 在 $x_0$ 附近的一个逼近，如果我们只考虑一阶近似的时候，上面的式子可以写成：

$\approx f(x_0) + f'(x_0)(x-x_0) \tag{6}$

上面的式子 (6) 是用一条直线去逼近当前函数在 $x_0$ 附近的邻域，迭代过程可以表示为：

$f(x_{n+1}) \approx f(x_n) + f'(x_n)(x_{n+1}-x_n) \tag{7}$

一阶泰勒展开到梯度下降

从上面的式子，可以推导出常见的梯度下降算法:

因为优化的目标是希望 $f (x)$ 越来越小，所以每一次迭代，都希望比前一次的值越小，

$f(xn+1)≤f(xn)⇒f′(xn)(xn+1−xn)≤0(8)f(x_{n+1}) \leq f(x_n) \Rightarrow f'(x_n)(x_{n+1}-x_n) \leq 0 \tag{8}$

为了让上面的式子 (8) 成立，令：

$x_{n+1}-x_n = -\alpha f'(x_n) \Rightarrow x_{n+1} = x_n -\alpha f'(x_n) \tag{9}$

二阶泰勒展开到牛顿法

如果是泰勒二阶近似，那么上的式子可以写成：

$\approx f(x_0) + f'(x_0)(x-x_0) + \frac{1}{2}(x-x_0)^{2}f''(x_0) \tag{10}$

公式(10) 就是用一条二次曲线去逼近当前函数在 $x_0$ 附近的邻域，如果 $x$ 为极值点，那么意味着 $f^{'} (x)$ 为 0，所以上式转化为求 $f^{'} (x) = 0$ 处的值，式 (10) 对 $x$ 进行求导，可以得到：

$\approx f'(x_0) + (x-x_0)f''(x_0) \tag{11}$
那么它的迭代优化过程可以表示成：

$x_{n+1} = x_{n} - \frac{f'(x_n)}{f''(x_n)} \tag{12}$

这个是我们常见的二阶梯度优化，也就是牛顿迭代法。

高维空间中的泰勒展开

上面介绍的一阶和二阶泰勒展开都是针对单变量的，如果是多变量的函数，也就是一个高维空间的函数，其泰勒展开要复杂很多，主要是高维空间的导数求解相对来说比较复杂，这里给出高维空间的二阶泰勒展开：

$f(\mathbf{x}) \approx f(\mathbf{x}_0) + (\mathbf{x} - \mathbf{x}_0)^{T}\bigtriangledown f(\mathbf{x}_0) + \frac{1}{2}(\mathbf{x} - \mathbf{x}_0)^{T } \bigtriangledown^{2}f(\mathbf{x}_0)(\mathbf{x} - \mathbf{x}_0) \tag{13}$

$▽f(x0)\bigtriangledown f(\mathbf{x}_0)$ 表示一阶导数，称为雅克比矩阵： $J(x0)\mathbf{J}(\mathbf{x}_0)$
$▽2f(x0)\bigtriangledown^{2}f(\mathbf{x}_0)$ 表示二阶导数，称为海森矩阵： $H(x0)\mathbf{H}(\mathbf{x}_0)$

对于高维空间的一阶梯度下降，可以沿用公式 (8)，(9) 的推导过程，同样可以得到：

$(\mathbf{x} - \mathbf{x}_0)^{T}\bigtriangledown f(\mathbf{x}_0) \leq 0 \Rightarrow \mathbf{x} - \mathbf{x}_0 = - \alpha \bigtriangledown f(\mathbf{x}_0) \tag{14}$