基于 SARIMA 组合模型的农产品生产价格指数的短期预测



摘要:为提高农产品市场价格的可预见性,本文以农产品生产价格指数为研究对象,首先运用 SARIMA 拟合序列的线性部分,然后分别采用 BP 网络、LSSVM 提取非线性信息,从而构造组合模型 SARIMA-BP 与 SARIMA-LSSVM。通过评价指标 RMSE 和 MAPE 的对比发现组合模型较单项模型具有更强的稳健性和更高的预测精度,其中 SARIMA-LSSVM 的预测效果最理想,故基于该模型预测未来 5 个季度的指数,并得出结论:该指数的波动范围有减小的微弱趋势,但总体波动较大,未来较短一段时间内该市场可能存在较大风险,国家应采取相应的应对举措。
关键词:农产品生产价格指数 组合模型 SARIMA BP 网络 LSSVM 短期预测
一、引言
农产品生产价格指数既能及时反映全国农产品生产价格水平和结构变动情况,以引导农村调整产业结构,也能帮助「国家测算农业支持水平」[1],从而「确定相关补贴政策或为补贴标准提供依据」[2]。近年来农产品价格波动幅度大,使得该市场存在不稳定因素,不利于经济社会的正常运行。因此预测其价格指数不仅有利于生产者和销售者对市场存在的风险及时作出反应,且有助于政府采取相关措施对市场进行宏观调控,具有双重重要意义。
实证分析中,本文根据季节性特征选取季节性差分自回归滑动平均模型(SARIMA)。但时序法本质上只能捕捉线性关系,其非线性关系的捕获能力很差,且该序列易受多种外界因素影响,故其中也包含非线性变化规律。本文针对不足之处提出基于 SARIMA 的组合模型:先用 SARIMA 提取线性信息,再通过非线性手段提取残差中的波动信息,即实现线性与非线性的结合。最后通过评价指标选择理想的组合模型进行预测。对于 SARIMA 的改进是本文的亮点之处。
二、理论基础
(一)SARIMA 模型
(二)「线性 + 非线性」组合预测模型
在实际中许多时序数据往往受到多因素的综合影响,其蕴含的变化规律无法简单地通过单一模型来全面描述。
J.M.Bates 和 C.WJ.Granger 提出的组合预测方法突破了单项模型在预测方面的局限性。对于单一预测模型,杨黄梅认为「只能预测线性变化规律的模型往往伴随着低预测精度;而基于经验风险最小化原则构建的模型虽具备很强的非线性预测能力,但泛化能力差」[4]。SARIMA 则属于前者,具有优良的线性信息提取能力却忽视数据中的波动信息。倘若只考虑 BP 网络或 LSSVM 这些泛化能力强的非线性模型,则易出现过拟合现象。
显然单一模型难以对数据作出合理有效的解释。同时注意到 SARIMA 的「取线性,舍非线性」特征与非线性模型的「取非线性,舍线性」特征是一种互补关系,故本文基于这一关系提出「线性 + 非线性」组合模型:SARIMA-BP 和 SARIMA-LSSVM。
三、实证研究
(一)数据选取
本文引用的是农产品生产价格指数的季度数据:2003 年第一季度至 2018 年第三季度,来源于国家统计局。
为了在训练过程中对模型的准确性进行检验,本文取后 10 个数据作为测试集,其余则为训练集。
(二)模型构建与评估
1.构建 SARIMA 模型。经季节性判定、差分处理、平稳性与白噪声检验、模式识别、参数估计及检验等操作后,根据 AIC 最小值准则选出最优 SARIMA:
2.构建「线性 + 非线性」组合模型。线性模型即为 SARIMA,针对非线性数据的提取,本文选取 BP 网络和 LSSVM 模型。以 SARIMA 的残差为输入数据,分别构建 BP 与 LSSVM 模型。
在 BP 模型构建过程中,设置 4 个输入节点 n,2 个隐层节点 m,1 个输出节点。在确定隐层节点数量时本文参照经验公式
为 1-10 之间的常数,经多次试验发现 a=10 时的效果最好。接着,以 S 型正切函数 tansig 作为隐层神经元的激励函数,且「由于网络的输出归一到[-1,1]范围内,故选 S 型对数函数 tansig 作为输出层神经元的激励函数」[5]。
在 LSSVM 构建过程中,首先设置优化程序为网格搜索,然后选择成本函数「交叉验证」并初始化参数,,内核函数选 RBF_内核。接着基于训练数据在交叉验证中优化初始化参数,然后训练模型。
最后分别将构建的 BP 模型和 LSSVM 与 SARIMA 结合,即得到 SARIMA-BP 与 SARIMA-LSSVM。
3.模型评估与选择。本文以均方根误差 RMSE 和平均绝对误差百分率 MAPE 作为评价拟合预测效果的标准。RMSE 侧重衡量偏差,MAPE 侧重衡量模型稳健性。
为样本数,为真实值,为预测值。
分别用构建的三个模型预测后 10 个数据,对比原数据与预测数据并计算相应 RMSE 与 MAPE,评结果如下:
对比单项模型,组合模型的预测精度明显提高,说明本文对 SARIMA 的改进有明显效果。且无论是在 RMSE 还是 MAPE 上的评比,SARIMA-LSSVM 的效果均是最好的。
(三)农产品价格指数的预测
据模型评估结果可知 SARIMA-LSSVM 的预测效果是最理想的,因此本章使用该模型预测未来五个季度的指数,结果如下:
四、分析与结论
(一)关于模型对比
在评估对比中可发现 SARIMA 在两种评价标准之下的效果都最不理想,这是因为受多种外界因素影响的农产品生产价格指数具有较复杂的变化特点,无法充分捕捉非线性信息的 SARIMA 难以对其全面描述,因而导致其效果并不理想。
相较之下,基于 SARIMA 提出的「线性 + 非线性」组合模型在注重线性信息的同时也充分考虑了波动信息,故其拟合预测精度显着提升,效果理想。且在这两种组合模型的比较中,SARIMA-LSSVM 的预测效果更胜一筹。本文初步认为,BP 具有高度非线性泛化能力,LSSVM 则「同时兼备逼近精度和泛化能力这两个方面的优良性能」[6],故 LSSVM 在非线性回归估计方面的综合性能比 BP 要更好,因而 SARIMA-LSSVM 组合模型所呈现出来的效果相较之下更为贴和实际发生数据。总体而言,这两种非线性模型都是拟合非线性回归函数的推荐选择。
(二)针对预测结果
根据预测结果,全国农产品生产价格指数仍延续以往的发展规律。该指数在 2018 年第四季度跌至谷底后又开始上升,变化规律与往年类似。纵观总体的波动情况,前期的指数波动较小,但中后期的波动勐然增大,即生产价格变动较大,彼时该市场存在较大风险,对生产者的经济收入有所影响,其价格指数也处于一个不稳定状态。后面可看到指数的波动范围有减小的微弱趋势,但总体来看其波动还是较大。
农产品生产价格指数是反映农产品「出厂价格」的一个环比数,过低则消费者物价指数 CPI 随之降低,造成通货紧缩,过高 CPI 也随之上升,可能发生严重的通货膨胀。由于 CPI 最好保持在 3% 以内且适当的通货膨胀有利于经济增长,因此,本文认为农产品生产价格指数的最好状态是稳定且稍微偏高。根据预测结果知该指数继续上升的可能性大,未来一段较短时间内农产品市场可能存在较大的风险,国家需据此采取应对举措,以最大限度防止国民经济的失衡。
参考文献:
[1]百度百科:https://baike.baidu.com/item/农产品生产价格指数/6003948?fr=aladdin.
[2]郝安民.国家统计局首次发布全国农产品生产价格指数——访国家统计局农村社会经济调查总队长鲜祖德[J].调研世界,2003(08):3-4.
[3]徐达宁.云计算环境下资源需求预测与优化配置方法研究[D].安徽省:合肥工业大学,2014.6.
[4]杨黄梅.人才需求组合预测的建模与仿真分析[J].计算机仿真,2013,30(10):253-254.
[5]朱梅.基于 BP 神经网络的等高线生成方法[J].电子元器件与信息技术,2018(06):51-56.
[6]王伟,王田苗,魏洪兴.LS-SVM 与多层向前网络的非线性回归性能比较[J].系统仿真学报;2008,20(1):258-259.
(作者单位:华南师范大学)
作者 陈佳珊 张丹