基于高频数据的波动率预测研究

作者
作者

【摘要】基于高频数据的金融分析与建模研究目前已成为金融工程研究领域的一大热点。在金融资产价格波动率的刻画上,金融高频波动率有着低频波动率无法比拟的信息优势,能够较为准确地刻画金融市场波动率的相关特征,并对金融市场波动率的变化做出较为精确的预测。本文选择基于高频数据的沪深 300 指数为样本,通过构建已实现波动率和已实现极差的长记忆性模型去研究高频数据建模预测中的方法,以对比研究的形式分析了已实现波动率和已实现极差在波动率预测中的能力大小,为高频数据波动率预测研究提供了参考和借鉴。

【关键词】高频数据 已实现波动率 已实现极差 波动率预测

一、引言

随着科技进步尤其是电子计算机技术的发展,对高频数据的记录、收集、存储和操作的时间和金钱成本都大大下降,20 实际 90 年代以来,高频数据的分析与建模得到了迅速的发展,并广泛运用与金融市场微观结构理论的实证研究中。高频数据能精确到交易日日内分时收盘价,充分保证重要的市场信息不被丢失,使得基于高频数据估计的波动率包含更加丰富的波动信息。高频波动率与低频波动率的特点不同,呈现出时间序列的负相关性、周期性 U 型日历效应和长记忆性等,而现有的基于低频数据的 ARCH 类或 SV 类模型并不能很好的描述这些统计特征。对高频波动率的研究已经成为计量经济学领域的一个热点。深入研究日内高频数据波动率的性质,选择合适的波动率预测模型和金融资产收益率分布来度量中国股票市场的风险,分析市场微观结构对高频波动率的影响,从而为金融机构和监管当局的风险监控提供一种有效的理论方法参考和政策建议具有重大意义。

本文通过选取沪深 300 指数 5 分钟交易数据,通过构建目前广泛用于高频数据分析的已实现波动率和已实现极差两个序列,通过 R/S 法计算 Hurst 指数,确定两个序列的长记忆性,进而对两者构建了长记忆性的 ARFIMA 模型,并用这一模型进行了波动率估计,再采用均方根误差和绝对平均误差两个指标对两个模型的预测结果进行了评价。

二、文献综述

Engle(2000)为超高频数据或交易的建模应用提供了新的思路。通过选取的 52144 条 IBM 股票的交易数据去为交易的时机建模并测量分析它对价格波动的影响,将 ACD 模型引入去估计到达比率的相关点过程,同时采用了半参数法去估计调和均数。实证结果说明对于更长的持续期和更长的预期持续期,其波动会相应的更小。Andersen(2001)等采用道琼斯工业指数中获取的日内高频交易数据对从已实现日股票收益波动率和相关系数进行研究,他们发现实现方差和协方差的非条件分布是高度右偏,然而实现对数标准差和相关系数却近似于高斯分布,已实现波动率与相关系数表现出了较强的短暂相关性,即所谓的长记忆性。Andersen(2003)等构建了一个集高频日内数据测量、建模和每日预测和低频收益波动与收益分布的体系,大部分有关金融资产收益波动率、相关性和分布的建模与预测是基于多元 ARCH 或者随机波动率模型的潜在限制性和复杂的参数,相比之下,使用由高频日内收益所计算得出的已实现波动率使得建模与预测允许采用传统时间序列方法。在构造连续时间无套利价格理论与二次方差理论的基础上,他们提出了已实现波动率与条件协方差矩阵的关系。通过德国马克兑美元和日元兑美元的 10 年以上的汇率数据的实证分析,他们发现简单的长记忆高斯向量回归对数日已实现波动率在预测上的表现优于许多 ARCH 类模型与更复杂的高频数据模型。近年来,许多学者开拓了新的研究高频数据的思路,成果也不断涌现。唐勇和张世英(2006)通过选取深圳成指的高频数据进行实证分析,通过对比已实现极差与已实现波动率这两个波动估计量,证明了实现极差在波动估计上优于已实现波动率。此外,在高频数据的「日历效应」问题上,提出了加权已实现极差,并与实现极差作比较,证实了加权已实现极差在估计波动方面更为优秀,为在高频数据中将极差应用于估计波动率拓展了一个新的思路。Sun(2009)等采用 ARMA(1,1)-GARCH(1,1)模型这一参数模型,选取了德国 DAX 指数的高频数据并融入于列维过程去计算风险价值,并将运用这一方法计算所得的 VaR 和标准的非参数法计算所得的 VaR 进行对比,结果显示这一参数法获得了更好的结果。Lu(2010)等分析了当 2005 年 7 月 21 日人民币再调整时相关货币兑美元的 1 分钟高频数据的变动,数据分析显示人民币再调整时汇率数据中存在一个大的跳跃,在这一跳跃之后,汇率的收益率存在着大的波动率,此外,外汇数据中一些大的跳跃伴随着这一跳跃发生。Thanos 和 Owain(2010)提出了一种处理超高频金融市场数据中样本外预测的多维算法。在数据统计分析中,对金融时间序列的统计特征采用稳健的平均绝对偏差法去分析,并提出将价位,价格波动和收益分布同时考虑进市场微观结构算法的原理中。唐勇和刘微(2013)推导出了已实现极差多幂次变差族中最优的波动估计量,根据无偏性和有效性原则作了相应的加权处理,得出了加权估计量,将这些估计量与已实现 GARCH 相结合,并对此模型进行了拓展。通过实证分析说明已实现极差四幂次变差是已实现极差多幂次变差族中最优的波动估计量,加权已实现极差四幂次变差能消除高频数据中的日内效应。雷井生和林莎(2013)改进了统计套利策略,设计了一个新的统计套利策略并进行了实证分析,在新的策略下,运用不同频率数据进行套利统计,分析并得出了新的策略在套利统计上具有良好的绩效,并且样本内的盈利对于样本外的盈利预测性明显增强。随着对金融高频数据研究的发展,由于高频数据本身所具有的特性如日历效应等,以及使得 GARCH 模型很难用于高频数据的分析,不同的学者提出与发展了新的适用于高频数据研究的成果,其中比较突出的成果要属已实现波动率和已实现极差这两个被广泛用于高频数据分析的研究成果。

三、方法简述

已实现波动率(Realized volatility,简记为 RV)由于其计算简便,无需进行模型参数估计(model-free),有助于研究多变量时间序列的波动特征。同已实现波动率 RV 一样,已实现极差波动(Realized Range volatility,简记为 RRV)也是具有无需模型(model free)和计算简便的波动率估计量,Parkinson(1980)提出了构造极差的表达式,在此基础上 Christensen(2005)提出了已实现极差波动。不同学者和研究人员经过理论和实证上的对比,认为已实现极差是比已实现波动率更为有效的波动率估计量。下面分别对两者进行定义。

令 Pclose(t,i)为日内观测的收盘价,R(t,i)=In(Pclose(t,i)-Pclose(t,i-1))

Ht,i=■lnp■,L■=■lnp■,

Sp■=H■-L■(t=1,2,,,T,i=1,2,,,N,j=1,2,,,N)

上式中,T 为研究天数,N 为在[t-1,t]内等时间间隔的观测次数,Δ=■,为将[t-1,t]等分为 N 个时间段的某个小时间段的时间间隔,N 取整数

则已实现波动率定义为:RV=■R2(t,i),为日内对数收益率平方和的累加。

已实现极差定义为:RRVt=■■Sptj2,为日内最高价和最低价对数平方和的累加。

判定波动率序列是否具有长记忆性的方法主要有时域和频域两个两个方法,本文选择时域角度,以重标极差法(R/S)计算的 Hurst 指数来度量波动率序列的长记忆性。当 H≤0.5 时,序列{Xt}呈现短记忆性;当 H>0.5 时,序列{Xt}呈现长记忆性。

针对已实现波动序列{Xt}所具有的长记忆性,本文采用分整自回归移动平均模型(Autoregressive fractionally moving average model,简称为 ARFIMA(p,d,q)模型)对已实现类波动率序列进行建模分析。

ARFIMA(p,d,q)模型的具体形式为:φ(L)(1-L)d(Xt-μ)= θ(L)εt

其中,μ 为序列{Xt}的均值,εt~i.i.d(0,σ2s),φ(L)为 P 阶平稳回归算子,θ(L)为 q 阶可逆移动平均算子,它们的根都在单位圆外。d 为分数维滞后阶数,反映的是序列{Xt}的长记忆性。ARFIMA(p,d,q)的特征主要在于用 p+q 个参数来刻画序列{Xt}的短记忆特性,用参数 d 来刻画{Xt}的长记忆特征。

对于 ARFIMA(p,d,q)模型的参数估计,可以采用两步参数法:

首先估计 ARFIMA(p,d,q)模型中的分数维滞后阶数 d,并对原序列取分数维差分,得到新的可用于估计的时间序列。d 确定好以后,ARFIMA 模型可以当作 ARMA 模型进行估计,确定剩下的参数 p 和 q。

由于参数 d 和 Hurst 指数满足:d=H-0.5,因此可以通过 R/S 法计算所得的 Hurst 指数确定参数 d,再将模型当作 ARMA 模型,进行剩下的参数估计。

四、实证过程

本文选择沪深 300 指数作为研究样本,样本选取的区间为 2011 年 4 月 1 日至 2014 年 3 月 5 日,选取的高频数据频率为 5 分钟的高频数据,数据来源于 Wind 资讯金融终端,在计算得到的已实现波动率 RV 和已实现极差 RRV 后,开始进行实证分析。实证部分主要用 matlab 软件进行。下表为已实现波动率 RRV 和已实现极差的描述性统计:

描述性统计结果

从上表可以看出,无论是已实现波动率 RV 还是已实现极差 RRV,都呈现出尖峰厚尾的特征,相应的 JB 统计量和括号内的 P 值都表明上述序列不服从正态分布,且根据偏度和峰度值来看,都呈现出右偏厚尾的特性。下面对两个序列进行单位根检验,结果如下:

单位根检验结果

从上表的结果来看,RV 和 RRV 两个序列检验的 t 统计量在 99% 的置信水平上都拒绝了原假设,其 P 值都是足够小的值,因此 RV 序列和 RV 序列都通过了检验,这两个序列都是平稳的。下面对两个序列进行长记忆性检验,结果如下

RV 和 RRV 的长记忆性检验

从上表可以看出,RV 和 RRV 的 Hurst 指数 0.5

RV 序列的估计过程中,通过 AIC 和 SC 准则确定的(p,q)为(1,1),则所得到的 RV-ARFIMA(1,0.264,1)的具体形式为:

(1-0.064L)(1-L)0.264(RV-μ)=(1-0.95L)εt

(1.466) (-66.643)

RRV 序列通过 AIC 和 SC 准则确定模型的(p,q)选择为(1,2),则得到的 RRV-ARFIMA(1,0.467,2)的具体形式为:

(1-0.62L)(1-L)0.467(RRV-μ)=(1-1.362L+0.4L2)εt

(7.689) (-12.71609)(5.1173)

括号内为相应参数的 t 统计量。

在构建完所有的模型后,我们对各模型进行波动率预测能力上的比较,比较的标准选择均方根误差(RMSE)和绝对平均误差(MAE)两个指标:

RMSE=■■(MV-FV)■■

MAE=■■(MV-FV)■

其中,MV 表示实际的波动率,FV 表示模型预测的波动率。设定预测期为 100,就可以得到向前预测 100 期的预测值,再采用上述两个方法对波动率预测的结果进行评价,两个模型预测的评价结果如下:

波动率预测评价

对比 RRV 和 RV 序列构建的 ARFIMA 模型在波动率预测上的结果,我们可以发现无论从均方根误差还是绝对平均误差的角度,RRV 序列的预测误差都小于 RV 序列的预测误差,这也从实证上印证了本文在理论上分析 RV 和 RRV 在波动率估计上的优劣区别。

五、结论

本文通过选取沪深 300 指数的高频交易数据,分别构建了目前高频数据研究中流行的已实现波动率和已实现极差两个方法变量,并对两个序列采用 R/S 法计算了序列的 Hurst,结果表明两个序列都呈现长记忆性。在随后构建长记忆性模型并进行波动率估计的对比研究中,通过 RMSE 和 MAE 两个指标的判定,表明已实现极差是优于已实现波动的波动率估计量,这主要是因为已实现极差是基于日内价格的最高价和最低价而构建的,包含的市场信息较多,而已实现波动率是基于日内收盘价而构建的波动率估计量,会在一定程度上遗漏市场信息。

从本文的研究可以发现,金融市场的交易连续不断,其日内高频数据包含的信息也有一定的差别,除了考虑收盘价这一要素外,日内观测到的最高价、最低价、成交量等因素也要纳入对金融市场的分析中,这样可以获得比单独采用收盘价这一因素进行波动率研究更准确的研究结果。

参考文献

[1]Torben G.Andersen,Tim Bollerslev,Francis X.Diebold,Heiko Ebens.The distribution of realized stock return volatility[J].Journal of Financial Economics,2001,61,43-67.

[2]Robert F.Engle.The Econometrics of Ultra- high-frequency data[J].Econometrica,2000,68(1):1-22.

[3]Torben G.Andersen,Tim Bollerslev,Francis X.Diebold,Paul Labys.Modeling and Forecasting Realized Volatility[J].Econometrica,2003,71,529-626.

[4]Wei Sun,Svetlozar Rachev,Frank J.Fabozzi. A New Approach for Using Levy Processes for Determining High-Frequency Value-at-Risk Predictions[J].European Financial Management,2009,15(2):340-361.

[5]XinHong Lu,Ken-Ichi Kawai,Koichi Maekawa. Estimating Bivariate GARCH-Jump model Based on High Frequency Data:The Case of Revaluation of The Chinese Yuan in July 2005[J].Journal of Operational Research,2010,27(2):287-300.

[6]Thanos Verousis,Owain ap Gwilym.An improved algorithm for cleaning Ultra High-Frequency data[J].Journal of Derivatives & Hedge Fundes,2010,15(4):323-340.

[7]Christian M.Hafner.Cross-correlating wavelet coefficients with applications to high-frequency financial time series[J].Journal of Applied Statistics,2012,39(6):1363-1381.

[8]雷井生,林莎.基于高频数据的套利统计策略及实证研究[J].科研管理,2013,6(34):138-146.

[9]唐勇,张世英.已实现波动和已实现极差波动的比较研究[J].系统工程学报,2007,22(4):437-443.

[10]邵锡栋,殷炼干.基于实现极差和实现波动率的中国金融市场风险测度研究[J].金融研究,2008,336(6):109-121.

[11]唐勇,张世英.高频数据的加权已实现极差波动及其实证分析[J].系统工程,2006,24(8):52-60.

[12]唐勇,刘微.加权已实现极差四次幂变差分析及其应用[J].系统工程理论与实践,2013,33(11):2766-2776.

[13]张瑞锋,汪同三.基于高频数据的金融市场波动溢出分析[J].财经理论与实践(双月刊),2013,34,21-26.

作者简介:陈杰(1990-),男,汉族,浙江财经大学金融学院研究生,研究方向:金融工程。


作者 陈杰