自回归模型(Autoregressive Models)
时间序列是随时间变化的同一变量(或变量集合)的一系列测量结果。通常情况下,这些测量是在均匀间隔的时间点上进行的,例如每月或每年。让我们首先考虑一个问题,我们有一个作为时间序列测量的y变量。例如,我们可能有y作为全球温度的测量结果,每年进行一次观测。为了强调我们对时间内测量值的存在,我们使用下标"t"代替通常的"i",即表示在t时间段内进行的测量。
自回归模型是指将时间序列中的一个值回归到该时间序列的先前值上。例如,回归到上:
在这个回归模型中,前一个时间段的响应变量已成为预测变量,而误差项符合我们在简单线性回归模型中对误差的通常假设。自回归模型的阶数是指用于预测当前时刻值紧邻之前数值的数量。因此,上述模型是一个一阶自回归模型,表示为AR(1)。
如果我们想要使用前两年的全球温度测量值来预测今年的温度(),那么用于这样做的自回归模型将是:
该模型是一个二阶自回归模型,记作AR(2),因为在时间t的值是通过时间t-1和t-2的值来进行预测的。更一般地,一个k阶自回归模型,记作AR(k),是一个多元线性回归模型,其中t时刻的数值是时间t-1、t-2、...、t-k的值的(线性)函数。
自相关和偏自相关
时间序列中两个值之间的相关系数称为自相关函数 (autocorrelation function ACF) 例如,时间序列的 ACF 由下式给出:
k的值是指被考虑的时间间隔,被称为滞后(lag)。滞后1的自相关性(即上述中的k=1)是指相隔一个时间段的值之间的相关性。更一般地,滞后k的自相关性是指相隔k个时间段的值之间的相关性。
自相关函数(ACF)是衡量时间t的观测值与之前时间的观测值之间线性关系的一种方法。如果我们假设一个AR(k)模型,那么我们可能希望仅测量和之间的关联,并滤除位于它们之间的随机变量的线性影响(即 ),这需要对时间序列进行转换。然后通过计算转换后的时间序列的相关性,我们得到偏自相关函数(partial autocorrelation function PACF)。
偏自相关函数(PACF)在确定自回归模型的阶数时非常有用。具体而言,显著不等于0的样本偏自相关性表明 的滞后项是 的有用预测因子。为了区分ACF和PACF,可以将它们视为先前讨论过的 和偏 值的类比。
通过绘制ACF和PACF的滞后图形,可以对自回归模型的滞后进行评估。在ACF与滞后之间的图中,如果看到大的ACF值和非随机的模式,那么很可能这些值是序列相关的。在PACF与滞后之间的图中,模式通常会呈现随机分布,但在特定滞后处出现大的PACF值表明该滞后可以作为自回归模型阶数的可能选择。选择适当的阶数非常重要。例如,假设过去两年中每天都有血压测量值。你可能会发现AR(1)或AR(2)模型适合用于建模血压。然而,PACF可能会在滞后为17的地方显示出大的偏自相关值,但这样大的自回归模型阶数很可能没有太多意义。
例子
Google股票数据集包含了从2005年2月7日到2005年7月7日的n=105个值,这些值是Google股票的收盘价。我们将分析这个数据集以确定自回归模型的阶数。下面的图中显示了股票价格随时间变化的情况。
连续的值似乎相互之间非常接近,这表明自回归模型可能是适合的。接下来,我们来看一下数据的偏自相关性图:
在这里,我们注意到在滞后为1的位置有一个显著的峰值,而在后续的滞后位置上则有较低的峰值。因此,对于这个数据集来说,一个AR(1)模型可能是可行的。
还可以为该图构建近似边界(如上图中的红线),以帮助确定较大的值。近似的显著性边界由给出。位于这些边界之外的值表明存在自回归过程。
接下来,我们可以创建一个滞后1期的价格变量,并考虑价格与该滞后1期变量之间的散点图:
这里似乎存在一个中等程度的线性模式,这表明第一阶自回归模型可能适用。
参考文章:https://online.stat.psu.edu/stat501/lesson/t/t.2/t.2.1-autoregressive-models
更多推荐
所有评论(0)