ARIMA 模型在云南省 GDP 预测中的应用

作者
作者

【摘要】从云南省经济发展的实际情况出发,以 1978~2013 年云南省 GDP 统计资料为依据,将这些数据进行平稳化、零均值化处理,并利用序列的自相关函数、偏自相关函数的性质确认序列应当适合的模型,利用时间序列模型中的 ARIMA 模型中的 Box-Jenkins 方法,对云南省 1978~2013 年的 GDP 数据序列进行建模分析,验证该序列的时间序列特性,研究并选择了序列的最佳 ARIMA(1,1,1)模型。模型实证分析的结果表明:在时间序列分析建模与预测方面 Box-Jenkins 方法是精度较高且切实有效的方法模型。

【关键词】时间序列分析 ARIMA 模型 Box-Jenkins 方法

一、前言

国内生产总值是反映一国国民经济的生产规模及综合实力的总量指标,在经济研究中发挥着重要的作用。而一个国家的国内生产总值又是由各省生产总值所构成的,因此研究各省生产总值对研究国内生产总值以及各省乃至全国经济都起着重要作用。国内生产总值(GDP)受经济基础、人口增长、资源、科技、环境等诸多因素的影响,这些因素之间又存在着错综复杂的关系,运用传统的结构法建立模型来进行分析和预测 GDP 往往比较困难。?譹?讹 GDP 的增长具有内在规律性,本文运用 Box-Jenkins 方法对云南省 GDP 数据建立 ARIMA 模型,建模过程主要包括模型的选择、模型的定阶、模型的检验和模型的预测。经过合理筛选,选择 ARIMA(1,1,1)模型作为最终模型,并以此预测了云南省 2014 国内生产总值,预测结果基本符合事实,可为云南省制定经济发展目标提供决策参考。

二、ARIMA 模型基本原理及建模方法

(一)基本原理

ARIMA(Autoregressive-integrated-moving average)时间序列模型又称博克斯-詹金斯模型,简称 B-J 模型,它是以美国着名统计学家 Box 和英国的 Jenkins 的名字命名的一种时间序列短期预测方法,寻找时间序列自身的变化规律,强调「让数据自己说话」。运用 ARIMA 模型的前提条件是用作预测的时间序列是平稳序列,反映在图形上就是所有的样本点都围绕某一水平直线上下随机波动。这里讲的平稳是指宽平稳,其特性是序列的统计特性不随时间的平移而变化,即均值和协方差不随时间的平移而变化。其模型的一般形式为 ARMA(p,q)模型,用算子形式表示为 Φ(B)yt=θ(B)et。ARMA(p,q)模型中,当 q=0 时,称为平稳可逆 p 阶自回归模型,记为 AR(p),当 p=0 时,称为平稳可逆 q 阶移动平均模型,记为 MA(q)。

在实际问题中,遇到的时间序列,大多数并不平稳,而是呈现出明显的周期性或趋势性。所以对于这些不平稳的序列需要经过差分变换。如果是 d 阶差分,记作 ARIMA(p,d,q)。这时模型就需要对 p、d、q 定阶。首先判定数据有无随机性、平稳性、季节性,然后要在预测之前实现最优拟合、建模,最后进行预测及评价。模型为 ARIMA(p,d,q),它将移动平均、自回归分析及差分结合起来。确定 3 个参数,即自回归阶数(p)、差分次数(d)、移动平均阶数(q)。它首先通过差分把时间序列的季节性消除之后达到数据平稳,然后建模,最后估计参数。自相关分析图将自相关系数和偏自相关系数绘制成图,并标出了置信区间,利用它可分析时间序列的随机性、平稳性和季节性。随机性是指时间序列各项之间没有相关关系的特性。判定准则:自相关系数基本上落在置信区间内。平稳性是指时间序列的统计特征不随时间推移而变化。判定准则为自相关系数 rk,在 k>3 时都落入置信区间内并逐渐趋于零。季节性是指在某一固定时间间隔上,重复出现的某种特性。判定准则为某一时间序列在 k=2 或 3 以后的自相关系数 rk 值存在着周期性的显着不为零的值,则有季节性。

(二)建模方法

1.数据平稳性检验。根据时间序列的时序图对序列平稳性进行初步判断,以及通过 ADF 单位根检验进一步对序列平稳性进行判定。如果数据序列是非平稳的,如存在一定的增长或下降趋势等,则需对数据进行差分或滑动平均法处理,使得数据平稳。

对于平稳序列还要进行白噪声检验,白噪声检验又称为纯随机检验,是用来专门检验序列是否为纯随机序列的一种方法。因为纯随机序列的序列值之间没有任何相关关系,我们不能根据过去的数据对未来的数据进行预测。所以,在建立时间序列模型过程中要求待处理序列为非白噪声序列。白噪声检验的一般方法有两种:一种方法是根据自相关图提供的信息,主观的判断模型阶数。具体方法是观察自相关图是否落在两倍标准差之内,如果全部落在两倍标准差内,认为序列为白噪声序列,反之不然。另一种方法是根据 Bartlett 定理,由统计量的 P 值判断序列是否为白噪声序列。

2.模型识别。通过自相关函数图和偏自相关函数图找出合适的 p、d、q 值。根据时间序列模型的识别规则建立相应的模型。若平稳时间序列的偏相关函数是截尾的,而自相关函数是拖尾的,则可断定此序列适合模型 AR(p),若平稳时间序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定此序列适合模型 MA(q),若平稳时间序列的偏相关函数和自相关函数均是拖尾的,则此序列适合模型 ARMA(p,q)。具体如表 1 所示:

表 1

3.模型定阶。模型定阶就是确定模型的阶数。模型定阶的一般方法,是通过观察自相关图,根据图中提供的信息,找出显着截尾的延迟阶数。显然这种方法具有很大的主观性,也正是因为这样的主观性,所以模型的选择具有多样性。一般我们会选择多个模型同时进行检验,再根据某些准则,如 AIC、SC 准则选取最合适的模型。

4.参数估计。一旦辨识恰当的 p、d、q 值,选取了合适的模型,便要对模型中自回归和移动平均项的参数进行估计,方法包括最小二乘法、非线性估计方法等。

5.诊断。选定 ARIMA 模型并估计其参数之后,下一步就是运用数据对模型进行拟合,为了选取正确的模型,需要对该模型估计出来的残差进行白噪声检验,如果是,就接受这个具体的拟合;如果不是,则需要重新选择。博克斯-詹金斯方法论是一个反复过程。

6.预测。利用所选择的模型对时间序列进行预测。一般是根据已知的时间序列数据观测值对未来的序列值做出估计,得到原时间序列的将来走势。

三、ARIMA 模型的运用

(一)数据来源与描述

本文选取的 1978~2013 年云南省国内生产总值数据来源于云南省统计年鉴,云南省 GDP 时间序列 Xt 数据(样本共 36 个)见表 2。

表 2 云南省 1978~2012 年 GDP 统计表(单位:亿元)

根据原始数据绘制时序图如下所示:

图一 图二

根据以上图形可知,原始数据是不平稳的,具有明显的增长趋势,通过取对数,再进行一阶差分可以基本消除趋势,初步判断该序列平稳。

(二)数据平稳性检验

为了对上述判断做出进一步的检验,记原序列为 Xt,取对数后序列为 lnXt,一阶差分后序列为 ΔlnXt。

对 Xt 进行 ADF 检验,结果如表 3 所示:

表 3

可知不平稳。

对 ΔlnXt 进行 ADF 检验,结果如表 4 所示:

表 4

由表 4 可知 t 统计量值在 5%、10% 显着水平下小于临界值,该时间序列不存在单位根,是平稳序列,即云南省 GDP 时间序列为 1 阶单整序列。

(三)模型识别与建立

通过对序列 ΔlnXt 的 ADF 检验,可以确定 ARIMA(p,d,q)模型中 d 应该取 1,为了进一步确定模型中的 p 和 q,作该序列滞后 16 阶的自相关(ACF)图和偏相关图(PACF),如图 3 所示:

图 3

ΔlnXt 序列的自相关图与偏相关图都拖尾的,可建立 ARIMA 模型。经过对不同参数重复拟合,利用 AIC 和 SC 准则可得最优模型为 ARIMA(1,1,1),模型拟合结果如图 4 所示:

图 4

由图四可得估计模型为:

ΔlnXt=(c=0.149860,AR(1)=0.648935,MA(1)=-0.167712)

t 统计量:7.019154 2.704168 -0.529468

ΔlnXt=0.149860+0.648935ΔlnXt-1+εt-0.167712εt-1

对上述模型进行回归拟合,模型的残差序列(Residual)以及 ΔlnXt 的实际值与拟合值序图如图 5 所示:

图 5

从上图可知,模型的拟合值与实际值变动具有很好的一致性,模型的残差值较小,消除了线性或者指数趋势,较为平稳,说明模型通过了适应性检验。同时对模型的残差序列作 16 阶的自相关(ACP)和偏自相关(PACP)图,如图 6 所示,自相关函数和偏相关函数都落在置信区间内,即残差序列为白噪声过程,模型具有很好的拟合效果。

图 6

(四)模型预测

根据时间序列 ΔlnXt 的 ARIMA(1,1,1)模型可得,Xt 序列的预测公式为:Xt=e■

用 ARIMA(1,1,1)模型对云南省 GDP 作预测见表 5:

表 5

四、结论

任何一项活动都存在一定的成本。当活动成本超过收益时,就缺乏经济价值,现实生活中,我们不可能把所有影响因素考虑周全,而 ARIMA 模型的优点正是不需要考虑影响因素的种类和个数,只需要考虑数据的过去值、现在值和误差值,利用数据本身的信息对未来进行预测。由于经典回归模型是建立在平稳数据变量基础之上,对于非平稳数变量,不能使用经典回归模型,否则会出现虚假回归等问题,由于许多经济变量是非平稳的,这给经典回归分析方法带来很多限制,对于 GDP 的预测,从预测效果来看,ARIMA 模型比传统因果关系模型更适合,本文对 1978~2013 年云南省 GDP 数据建立了 ARIMA(1,1,1)模型,经实证检验发现,模型预测精度较高,预测误差较小,可为云南省制定经济计划提供依据和参考。以上结论,再次突显了 ARIMA 模型在实证分析中的价值。

注释

?譹?讹龚国勇.ARIMA 模型在深圳 GDP 预测中的运用[J].数学的实践与认识,2008,38(4):53-57。

参考文献

[1]达摩达尔.N.古扎拉蒂.计量经济学基础(第五版)[M].费剑平,译.北京:中国人民大学出版社,2011:781-793.

[2]李子奈,潘文卿.计量经济学(第三版)[M].高等教育出版社,2010:275-291.

[3]云南省统计局.云南统计年鉴-2013[Z].云南:云南省统计局.2013.

[4]高铁梅.计量经济分析方法与建模(第二版)[M].清华大学出版社.2009:156-176.


作者 向云 侯亭 李振东