基于多尺度样本熵的时间序列复杂度研究

尚传福



摘 要: 对于三维空间中时间序列的复杂度分析,多采用多尺度样本熵(MSE),针对MSE方法随着时间序列复杂度的增加样本熵估计的准确率下降的缺陷,提出采用多尺度样本熵模型。对提出的MSE模型进行实验验证分析,根据时间序列复杂程度的不同,分别采用复合多尺度样本熵(CMSE)以及改进复合多尺度样本熵(RCMSE)对时间序列进行研究分析,得出不同的仿真结果。证明对于时间序列的复杂度研究,采用MSE的方法能达到提高准确率的效果。
关键词: 时间序列; RCMSE; 多尺度样本熵; 复杂度分析
中图分类号: TN911.6?34 文献标识码: A 文章编号: 1004?373X(2017)17?0040?04
Time series complexity research based on multiscale sample entropy
SHANG Chuanfu
(Institute of Mathematics and Information Engineering, Chongqing University of Education, Chongqing 400065, China)
Abstract: The multiscale sample entropy (MSE) is mostly used to analyze the time series complexity in 3D space. Since the time series complexity of MSE method can reduce the accuracy of the sample entropy estimation with the increase of time series complexity, a multiscale sample entropy model is proposed. The experiments were carried out to verify the multiscale sample entropy model. According to the different complexity of time sequences, the composite multiscale sample entropy (CMSE) and refined composite multiscale sample entropy (RCMSE) are used respectively to study and analyze the time series to obtain different simulation results. The result proves that the multi?scale sample entropy method can achieve the effect of improving the accuracy rate.
Keywords: time series; RCMSE; multiscale sample entropy; complexity analysis
0 引 言
随着科学的进步以及人们对混沌系统的研究,复杂度这个词眼越来越频繁地出现在科研工作者的报告以及著作中。人类生活的真实环境就是一个复杂系统[1],如人类社会错综复杂的社会关系,以及生物学中的生物圈、森林系统、海洋系统[2]等。对于时间序列的复杂度,最简单的是一维时间系统,接着还有二维、三维,目前研究到了四维时间序列[3],所以时间序列的复杂度在不断增多,更完善的时间序列研究算法也亟待科研工作者提出。
多尺度样本熵算法应用范围十分广泛,如非线性高阶系统、混沌分形系统以及时间序列复杂系统[4]。值得一提的是,RCMSE多用来衡量时间序列在不同尺度上的复杂度,对应时间的复杂度越高则其熵值就越高。
本文首先对多尺度样本熵的基本概念进行阐释,并对该算法进行实验验证以及分析,然后对时间序列的复杂度引入了多种干扰信号,如白噪声、粉红噪声(噪声)等,通过CMSE和RCMSE算法模型对掺杂了杂波的时间序列复杂度进行估计,大大提高了估计的准确率。
1 多尺度样本熵
1.1 多尺度样本熵计算
多尺度样本熵的方法是由Richman提出的,其与近似熵相似,但却能更好地提高复杂度估计值的准确率[5],因此本文采用该方法。其运算思路如下:
(1) 设原始数据为,长度是本文假设嵌入维数为矢量容量为则维向量可以表示为:
(1)
(2) 定义与之间的距离是两者对应时间点差值的最大值,为:
(2)
(3) 对每个值,计算与其余矢量间的距离统计小于的数目以及此值与距离总数的比值,记作,即:
(3)
式中。
(4) 求的平均值:
(4)
(5) 再对维数即对点矢量重复步骤(1)~步骤(4),得到,进而得到。
(6) 理论上此时间序列的多尺度样本熵为:
(5)
当为有限数时,式(5)可表示为:
(6)
由式(6)可知,SampEn的值与的取值有关,但是目前的研究还没有给出两个的明确值,一般取,SD为原始数据的标准差[6]。本文对时间系列复杂度进行研究时,取。
1.2 多尺度样本熵算法测试
为了验证所选用多尺度样本熵算法的正确性,分别选取了随机时间信号和规则正弦信号,其信号波形图如图1,图2所示。所选取随机信号和规则正弦信号的长度尺度维数阈值SD与上文中提到的含义相同,是复杂度(时间序列)的标准差。
对两组信号展开多尺度样本熵的算法仿真实验,其仿真结果如图3所示。总结可得:对于随机的时间序列信号,在任何时刻,其复杂度的熵值都大于正弦信号,由此恰恰能够说明熵值越大其复杂程度越高这一结论。并且对于不规则随机时间序列呈现递减的变化规律。此实验验证了该算法能够进行理论应用。
1.3 多尺度样本熵分析
本文利用该算法分析了先导过程的多尺度样本熵的问题。分别选取30次梯级和30次“不规则”先导过程进行运算,因为尺度的多少会影响数据量的变化,尺度越大数据量越少,而且在多尺度样本熵计算中进行了重构,重构时的算法在运行过程中维数不能完全被展开,所以本实验选用了10个尺度,计算分析其样本熵,其中维数阈值SD的定义与上文相同。仿真分析结果如图4所示。
由图4可知,从熵值的变化趋势来说,当尺度数小于4时,“不规则”先导的多尺度样本熵呈现递增的趋势;当尺度大于4时,变化趋势呈现不明显的状态。但对于梯级先导,其多尺度样本熵基本不随尺度的变化而变化,或者说变化不大,呈现不明显的递增状态。从熵值的大小来说,梯形熵值大小都没有超过1.5。对于“不规则”先导,尺度不超过4时,其值分布在0.8~2.5之间,且当尺度值小于3时较接近梯形熵值;当尺度大于4时,其熵值均分布在1.5~2.5的区间范围内。所以要区分梯形和“不规则”先导过程,将尺度值设定在大于4的范围中。
基于多尺度样本熵的分析,本文除了进行上述30次梯级和30次“不规则”先导求熵值外,还进行了最值、平均值以及标准差的求解,根据进行的数据处理结果可知,梯级先导在所有尺度状况下,其平均值范圍是;不规则先导在所有尺度状况下,其标准差范围是;当尺度范围是(3,∞)时,不规则先导熵的平均值较为稳定,并且不存在与规则先导熵重叠的区域。所以,一般情况下,特征熵表示的是尺度范围为(3,∞)的不规则先导熵,最大值的范围是最小值的范围是。
2 多尺度复杂性分析
2.1 分析方法介绍
在本节中,主要介绍用于研究时间序列的MSE模型,包括传统的MSE、复合的CMSE以及改进复合式的RCMSE算法。由于传统的样本熵系统在时间序列复杂度较高时,其估计准确率不高[7],本文采用改进的复合多尺度样本熵(RCMSE)方法。
2.2 传统MSE方法及其仿真实现
传统的多尺度样本熵(MSE)方法主要包括三个过程:
(1) 粗粒化过程:设定本文中的标度因子,把时间序列分成一个个宽度为的窗口,注意:窗口不重叠,分别求每个窗口的时刻平均值,得到的序列为:
(7)
(2) 对式(7)中的序列进行样本熵的求解:
(8)
(3) 取不同的值,重复过程(1)、(2),分别计算序列式(7)对应的样本熵,得到如图5所示的时间序列复杂度的熵分布曲线。
2.3 CMSE方法及其仿真实现
由于应用传统的MSE方法,式(7)中时间序列复杂度估计的准确性会随着的加大而变小[8],所以当较大时,应该采用更加优化的算法——CMSE方法。
在CMSE方法中进行了如下改进:
对于增大后的尺度因子粗粒化的时间序列优化为:
(9)
其中:
(10)
对于改进后的样本熵(CMSE)均值为:
(11)
式中表示时间序列复杂度为维时,对应样本熵的尺度个数。采用该方法的时间序列复杂度的熵分布曲线如图6所示。
2.4 RCMSE方法及其仿真实现
在CMSE算法中,对所有的进行粗粒化处理后,紧接着要进行与的比率对数化计算,然后取各个对数的均值,将这些均值作为时间序列复杂度的熵值。但是,的定义域是有限制的,即任一个都不能为零,否则复合多尺度样本熵算法失效。所以相对于传统的MSE方法,CMSE虽然能够提高运算的复杂度,但会出现无效熵值,于是,21世纪初,改进的多尺度样本熵(RCMSE)算法被提出[9]。本文中该算法实现过程如下:
(1) 本文中选择4个不同的尺度因子利用式(10)进行粗粒化序列计算。
(2) 分别找出每一个粗粒化序列的四维空间向量个数,逐个进行标记为。
(3) 在范围内,分别求解的平均值,并且逐个记作则RCMSE算法定义的比率对数值可以表示为:
(12)
式中:。采用RCMSE方法的时间序列复杂度的熵分布曲线如图7所示。
通过上述的理论改进和实验验证可知,RCMSE不会出现无效定义的情况,相比于MSE,CMSE算法,RCMSE方法不会出现无效熵值,对于时间序列复杂度的多尺度样本熵的估计值的准确率也大大提高了。
3 多尺度样本熵准确率统计
对时间序列复杂度的研究,采用样本熵的方法,通过以上研究发现,MSE存在复杂度提高时准确率会降低的缺点,CMSE的方法存在无定义的无效熵值点的缺陷,只有RCMSE方法才能够同时克服这些缺点,剔除无定义点,大大提高估计熵值的准确率。
基于以上三种方法,本节中分别采用不同复杂度的相同时间序列进行实验,分别得出准确率,其统计结果如表1所示。
4 结 语
本文研究了基于多尺度样本熵的时间序列复杂度,首先,对多尺度样本熵进行了理论定义;然后,在该算法完成优化设计的基础上进行了算法的验证和分析,证明了该方法的有效可行性;最后,针对传统的MSE算法存在复杂度提高时准确率会降低的缺点,以及CMSE方法存在无定义的无效熵值点的缺陷,提出RCMSE方法,该方法能同时克服这些缺点,剔除无定义点,大大提高估计熵值的准确率,并且通过实验统计数据更加深刻地说明了多尺度样本熵方法对于计算和衡量时间序列复杂度方面是极其有价值的。
参考文献
[1] 蔡瑞,卞春华,宁新宝.多尺度熵在心率变异信号复杂性分析中的应用[J].北京生物医学工程,2007,26(5):543?544.
[2] 陈建萍.多尺度熵方法用于电子器件噪声分析[D].西安:西安电子科技大学, 2007.
[3] 王晶.非平稳时间序列的多尺度分析[D].北京:北京交通大学,2015.
[4] 徐永红,李杏杏,赵勇.基于小波包和多元多尺度熵的癫痫脑电信号分类方法[D].生物医学工程学杂志,2013,30(5):1073?1078.
[5] 史文彬.时间序列的相关性及信息熵分析[D].北京:北京交通大学,2016.
[6] 李婵,张阳,张义军.地闪“不规则”先导的多尺度熵特征研究[C]//创新驱动发展 提高气象灾害防御能力—S11第十一届防雷减灾论坛.南京:中国气象学会,2013:64?70.
[7] 张佃中.非线性时间序列互信息与Lempel?Ziv复杂度的相关性研究[J].物理学报,2007,56(6):3152?3157.
[8] 杜实,宋宪勇.基于时间序列的航路随机交通流复杂度研究[J].综合运输,2016(4):39?42.
[9] 郑近德,程军圣,胡思宇.多尺度熵在转子故障诊断中的应用[J].振动、测试与诊断,2013,33(2):294?297.
[10] 葛家怡,周鹏,赵欣,等.脑电信号的多尺度熵分析[J].计算机工程与应用,2009,45(10):13?15.