使用时序技术对云平台基础费用数据的波动性分析

    于晓雷

    

    

    

    摘要:企业上云已经成为提高企业IT水平、增加IT效率的有效方式,本文以云平台管理中的基础费用为研究对象,结合现代统计方法中的ARIMA模型,综合运用现代统计方法,在对云平台基础费用结合ARIMA模型进行分析的基础上,实现对未来基础费用的预测和分析,为企业的决策提供可参考的方法和数据。本文拟从针对云平台数据进行分析预测的实际需求;目前学界使用ARIMA算法进行时序分析的现状和成果;传统和现代的一些主流的时序数据分析技术和方法;针对云平台的基础费用、使用时序预测技术的分析、预测和校验四部分进行探讨。

    关键词:时序预测;ARIMA模型;云平台;基础费用预测

    中图分类号:TP311? ? ? 文献标识码:A

    文章编号:1009-3044(2021)17-0028-03

    开放科学(资源服务)标识码(OSID):

    1 序言

    SAP云平台是基于CloudFoundry技术建立的新一代PAAS平台,可以帮助用户快速实现SAP产品的功能扩展和无缝集成,支持用户业务创新。作为SAP云平台的运营方,为了保障服务的高效性,节省云平台的运营成本,需要建立精细化、体系化的服务级云成本优化工具,为运维人员提供可视化的云成本分析和智能化的资源消耗预测和优化建议,并最终实现对资源的一键式优化执行,达到自动化、智能化降本增效的效果。

    在实际生产实践中,数据的波动性分析是很常见的一项工作。SAP云平台在阿里云是采用了“按使用的時长后付费+ 预留实例资源”的模式,这种模式需要提前向阿里云申请后付费配额,一旦用量超过信用额度限制,将无法实现基础资源扩容。因此,在这种情况下,提前预测服务用量及其阿里云资源消耗量就显得比较重要。

    时间序列分析是一种在各个生产领域有着广泛使用的数据预测和分析方法,该方法可以根据时间序列数据建立对未来数据进行预测是时序模型,并对未来的数据有着比较好的预测效果和结论,对于科学决策有着比较好的参考和辅助决策效果。本文研究探讨了如何使用时序分析技术来对云平台基础费用量进行预测,以便根据预测销量,及时调整技术方案,并做出可行的商业对策,为云平台更高效、平稳地运行打下良好的基础。

    2 时序数据分析方法

    2.1 时间序列数据分析的方法

    时间序列分析的一个主要目的就是根据已有的历史数据对未来进行预测,时间序列含有不同的成分,比如趋势、季节、周期性和随机性等。对于一个具体的时间序列,它可能只含有一种成分,也可能同时含有及几种成分,二者所用的预测方法是不同的。确定时间序列的成分,可以从绘制时间序列的线形图入手,或者利用回归分析拟合一条趋势线,然后对回归系统进行显著性检验。如果回归系数显著,就可以得出线性趋势显著的结论。

    2.2 现代的时间序列分析技术

    现代的时间序列分析典型代表是由Box-Jenkins提出的一系列预测方法,包括:AR模型、MA模型、ARMA模型、ARIMA模型等。

    1)AR模型,自回归模型,其优点是利用自身的历史数据进行预测,所需的数据不多。缺点是收到了一定限制,要求自回归系统必须小于0.5,否则不宜采用。这种模型只适合应用于预测与自身前期密切相关的时间序列数据,不能预测受外界影响较大的数据

    2)MA模型,滑动平均模型,是模型参量法高分辨率谱分析方法之一,也是现代谱估计中常用的模型。通常用于处理正弦信号,多用于机械零件的故障诊断和分析。

    3)ARMA模型,自回归滑动平均模型,是研究时间序列的最重要的方法之一,属于AR模型和MA模型的混合模型。

    4)ARIMA模型,差分整合移动平均自回归模型,是时间序列预测的现代方法之一。

    3 使用ARIMA模型进行时序数据分析

    3.1 数据来源及其分析选型

    本文的数据来自云平台的基础费用数据,以未经过RI(折扣优惠)的原始数据作为依据,按天排列的等时数据,分别以日期和对应的基础费用金额为横轴和纵轴坐标,进行绘图,如下:

    根据图1显示的数据,可以发现2020年6月-7月云平台基础费用总体趋稳,其间有若干小幅波动和一个比较明显的波动。长期趋势基本平稳,但是小幅向上。

    根据基础费用图形分析,本文拟采用基于ARIMA模型的时间序列分析方法来预测未来一段时间的平台基础费用。ARIMA模型只能处理平稳时间序列,所以使用ARIMA模型对序列进行处理的时候,首先需要将非平稳时间序列转化为平稳序列,然后进一步通过对因变量的滞后项进行回归,以及对随机误差进行回归处理从而建立起来预测模型。该模型的数学表达式为:ARIMA(p,d,q)。

    3.2 ARIMA模型对数据的处理、分析以及实证

    3.2.1 原始数据稳定性检验

    在对基础费用进行预测和分析的时候,前提是要求数据平稳,因此在对数据进行分析和处理之前首先要确定时间序列数据的平稳性。由图1可知,数据存在一定的小幅波动,2020年6月15日有稍大幅度波动,因此可以采用差分处理方法使数据保持平稳性。而检验序列数据是否平稳,可以采用时序图检验,自相关检验,单位根检验等方法来检验。

    1)时序图检验,从图1中可以发现,数据为非平稳系列,有一定幅度波动,并有向上趋势。判断为非平稳时序数据序列。

    2)ADF检验,也即单位根检验,来对数据的平稳性进行分析。本文使用Python中的statsmodels模块来检验原始数据的平稳性。

    结果显示,原始序列的ADF检验P值为:0.2144471525 5903202,显著大于0.05,因此可以判断该序列为非平稳序列。

    3)自相关和偏自相关检验:这里同样可以使用Python代码,来对数据序列进行自相关和偏自相关的检验,所得原始数据的自相关图和偏自相关图如下:

    观察图2的自相关图和图3 的偏自相关图,可以发现:自相关图显示自相关系数波动和振幅较大,呈倒三角分布,说明序列的相关性非常强,属于非平稳序列。同样偏自相关图也有类似特点。

    3.2.2 原始数据白噪声检验

    ARIMA模型对于时序数列的处理,必须是平稳且非白噪声序列,所谓白噪声,指完全随机,在任何两个时间点上的随机变量均没有任何关联,没有任何可以发现和利用的动态规律,不能通过历史数据推断和预测未来数据的数据系列。本文可以通过statesmodel中的acorr_ljungbox方法来判断原始处理的数据系列是否为白噪声。

    结果显示,原始序列的白噪声的p值为5.21711013e-08,不属于白噪声系列。

    3.2.3 原始数据的一阶差分处理

    综上结果,需要对数据进行平稳性处理,拟先采用差分方法。差分变换为通过对数据序列逐项进行相减来消除序列数据中的线性趋势。对数据进行差分,可以尝试采用一阶差分,如果线性趋势没有消除,则可以继续采用二阶差分,具体公式如下:

    同样可以使用Python代码进行一阶差分,print(u'差分序列的ADF检验结果为:', ADF(Difference_data[u'amount差分'])) #平稳性检测。

    3.2.4 一阶差分数据的稳定性校验

    对于一阶差分数据,同样可以进行时序图检验、ADF检验以及自相关、偏自相关检验。

    1)观察时序图(见图4),可以发现,数据序列趋于平稳,围绕均值做平缓波动,已经属于平稳系列。

    2)自相关检验

    观察自相关图(图5)和偏自相关图(图6),可以发现自相关和非自相关都有着较强的短期相关性,大部分值位于置信区间内。

    综上所述,可以明显判断出来,一阶差分之后的数列是平稳的。

    3.2.5 一阶差分数据的白噪声检验

    根据前述,由于ARIMA模型要求时序数列必须是非白噪声序列,因此我们还需要对差分之后的数据进行检验,确认差分之后的数据为非白噪声时序数据。本文同样通过statesmodel中的acorr_ljungbox方法来判断差分处理的数据系列是否为白噪声。

    结果显示,差分序列的白噪声的p值为5.61810719e-06,则经过差分处理之后的数据系列不是白噪声系列。

    3.2.6 AMRIA模型预测及结论

    经过差分处理之后,可以发现时间序列数据的平稳性已经符合ARIMA模型的要求,接下来要确定p、q的参数值,结合一阶差分后的ACF和PACF的图形观察,可以初步确定:

    ACF在一阶之后截尾,PACF在1阶之后拖尾,则可以暂定p=1,q=1。接下来,使用代碼得出了5天的预测结果(包含预测结果、标准误差、置信区间信息):

    (array([106297.67658519, 106280.45417936, 106315.839 85059, 106338.01452291,

    106363.50675599]), array([322.99742609, 324.82316709, 341.95101241, 353.25939582,

    365.35637135]),array([[105664.61326296,106930.73990742],

    [105643.81247051, 106917.09588821],

    [105645.62818179, 106986.05151938],

    [105645.63882989, 107030.39021592],

    [105647.42142661, 107079.59208536]]))

    这里获得的是一个元组,元组中一共有三个元素,分别是:预测结果、标准误差、置信区间。

    3.3 ARIMA预测模型的数据检验

    本文以八月份真实基础费用金额的前五天数据作为对比和验证数据,针对预测数据进行对比和雅正,考察数据模型的拟合度。

    针对表2数据进行检验,可以发现表2的真实基础费用均在预测的95%的置信区间内,并且预测均值和实际基础费用发生额相差很小。故可以认为ARIMA(1,1,1)模型能够满足实际企业云平台相关预测的需要。

    4 结语

    云平台基础费用具有一定的波动性,同时具有等时的时分性,同时数据之间具有相互的独立性,对此,本文采用统计学的方法建立了ARIMA模型,探讨了通过时间序列的ARIMA模型针对基础费用进行预测的可行性,并结合历史数据以及Python中的statsmodels模型对历史数据进行了分析和处理,得到了历史数据的预测结论。

    期待本文对企业的基础费用预测和销售策略选择,以及产业优化和布局的决策能提供一定的辅助手段,可以让企业有针对性地拓展云业务,为企业在云业务的大潮中站稳脚本提供一个有效的技术方法和手段。

    参考文献:

    [1] 贾俊平,等.统计学(第六版)[M].北京:中国人民大学出版社,2015.

    [2] 姚加林,皮珊.基于ARIMA模型的高铁浮动票价与票额分配优化方法[J].铁道科学与工程学报,2020,17(7):1655-1661.

    【通联编辑:李雅琪】