基于CRT-EL的海洋环境数据综合预测方法

    才迪 金宇悦 李志刚 孙晓川

    

    

    

    摘要:针对海洋生态环境受多种因素共同影响,现存模型不能较好反映因素间的关联关系,需建立一个集分析与预测于一体的海洋环境数据预测模型。利用交叉递归理论对海洋数据进行综合分析,选取对海洋生态环境影响较大的因素。将选择结果作为集成学习模型的输入,进一步对海洋生态环境状态进行预测。仿真结果证明,该模型具有较高的准确率,可以应用到实际工程中。

    关键词:海洋生态环境;数据分析;交叉递归理论;海洋序列预测;集成学习

    中图分类号:TP391? ? ? ? 文献标识码:A

    文章编号:1009-3044(2021)17-0004-03

    开放科学(资源服务)标识码(OSID):

    Comprehensive Prediction for Marine Environment Data based on CRT-EL

    CAI Di, JIN Yu-yue, LI Zhi-gang, SUN Xiao-chuan

    (North China University of Science and Technology, Tangshan 063210, China)

    Abstract:Ocean ecological environment is affected by many factors, and the existing models cant reflect the correlation between factors. An ocean environmental data prediction model combining analysis and prediction is established for this problem. Cross recurrence theory is applied to comprehensively analyze ocean data, aimed at selecting the factors that have great influence on ocean ecological environment. The result is used as the input of the ensemble learning model to predict ocean ecological environment state. The simulation results show that this model has high accuracy, and is applied to practical projects.

    Key words: ocean ecological environment; data analysis; cross recurrence theory; ocean sequence prediction; ensemble learning

    1 引言

    海洋生態环境是支撑经济发展与人类生活的重要支柱。近年来,海洋污染及海洋灾害频繁发生[1-2]。因此,实时预测海洋环境数据,对防治海洋污染及海洋灾害、保护海洋生态环境具有指导意义。海洋环境受多种因素共同影响,以往的数据预测研究中,大多数采用了单输入单输出的模式,未考虑影响海洋生态环境的多方面影响因素[3-4]。在海洋多因素预测领域的研究中,预测模型的精度还有待改善。交叉递归理论? ? ? ? ? ? ? ? ? ? ? ?(Cross Recurrence Theory,CRT)可以用于分析多个数据之间的相关性,从多方面考虑与海洋环境具有相关性的因素[5-6]。此外,集成学习(Ensemble Learning,EL)由于其优良的预测性能,已被广泛应用于时间序列预测领域,通过融合多个机器学习模型来改善单一模型的精度[7-8]。鉴于此,本文基于CRT分析算法和EL预测算法的优势,提出了新型的海洋环境数据综合预测模型CRT-EL,并应用于多输入单输出的海洋环境数据预测方面。结构上,该模型包含CRT分析器和EL预测器两个模块。EL预测器基于Stacking集成算法,以长短时记忆神经网络(Long Short–Term Memory Neural Network,LSTM)和多核支持向量机(Multi-kernel Support Vector Machine, Mk-SVM)为基预测器,以多层感知机(Multilayer Perceptron, MLP)为元预测器。仿真实验表明该模型可以找出与海洋生态环境相关性较强的因素,实现多变量海洋环境数据预测,具有较强的非线性逼近能力。

    2 海洋数据综合预测模型

    2.1 CRT-EL分析器

    CRT-EL分析器是以CRT为基础,对海洋环境数据进行综合分析,其包括四个阶段:相空间重构,构造递归矩阵,绘制交叉递归图,递归定量分析。首先,将一维海洋环境数据通过重构映射到高维相空间中。其次,计算高维相空间中轨迹之间的距离,将此距离与固定阈值进行比较,若此距离大于阈值,则递归矩阵中对应的值为0,反之,递归矩阵中相应的值为1。然后,基于递归矩阵中值的大小,进行交叉递归图的绘制。1对应交叉递归图中的白点,0对应交叉递归图中的黑点。最后,对交叉递归图中的图形结构进行定量计算,平均对角线长度(Mean Diagonal Length,MDL)是用来描述数据间相关性的主要指标,以此得出海洋环境数据中的定量分析结果,找出与海洋生态环境相关性最大的因素。MDL的计算公式如下:

    [MDL=l=lminSl?Pll=lminSPl]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)

    [Pl=i,j=1S1-CRi-1,j-11-CRi+l,j+lk=0l-1CRi+k,j+k]? ? ? (2)

    其中,S代表交叉递归图中对角线的个数,l代表交叉递归图中对角线长度的变量。

    基于CRT-EL分析器综合分析海洋环境数据之间的相关性大小,得出相关性较强的前50%因素,作为CRT-EL预测器的输入。

    2.2 CRT-EL预测器

    CRT-EL的预测器采用EL模型。为适应海洋环境数据的时序性和小样本特点,CRT-EL的预测器以Stacking算法为基础,采用擅长处理时间序列数据的LSTM和擅长处理小样本数据的Mk-SVM为基预测器,以训练时间较短的MLP为元预测器。

    LSTM是一个具有特殊门结构的神经网络,包括遗忘门,输入门,输出门。它的优势在于可以存储长期的数据信息。Mk-SVM是在SVM的基础上,通过线性加权求和的方式融合了多个核函数,提高了单一核函数的准确率。MLP模型结构简单,在预测精度满足要求的前提下又降低了训练时间。在模型训练中,CRT-EL的基预测器利用海洋环境原始数据进行训练,元预测器采用基预测器的预测值进行训练,最终得出海洋环境数据的预测结果。

    在CRT-EL的模型训练中,采用均方根误差(Root Mean Square Error, RMSE)和皮尔逊相关系数(Pearson Correlation Coefficient,PCCs)来评估模型的预测性能。

    3 仿真实验

    3.1 数据集说明

    实验中所用的数据为中国某海域浮标采集的数据,分别是有效波高、最大波浪高度、平均波浪周期、气温、气压、雨量、氨氮、磷酸盐、硝酸盐、盐度、水温、pH值。利用CRT-EL模型的分析器找出与海洋生态环境相关性较强的因素,同时作为CRT-EL模型预测器的输入。叶绿素a是衡量海洋生态环境状态的重要标准。为方便讨论,将叶绿素a作为CRT-EL的输出。将数据集以7:3的比例划分为训练集和测试集,从而对CRT-EL模型进行训练和评估。

    3.2 性能评估

    CRT-EL模型通过融合CRT分析法与EL预测理论实现对海洋环境数据的综合预测。CRT-EL模型包含两个模块,分别是CRT分析器和EL预测器。CRT分析器用于分析不同数据与海洋生态环境的相关性。表1给出了不同海洋环境数据的定量分析结果。表中给出了每个因素与叶绿素a进行分析后对应的MDL值。MDL的值代表两种数据在高维空间中轨迹的相似性大小,即数据的相关性程度。从表1可以看出,NIT与叶绿素a的相关性最大,值为18,其次是SalN,值为13.1111。依照此原则,选择MDL值较大的前50%因素作为下一步CRT-EL预测器的输入。

    CRT-EL预测器的输出为叶绿素a时间序列。图1给出了CRT-EL模型的预测结果。图中黑色曲线代表叶绿素a序列的真实值,红色曲线代表CRT-EL模型的预测值。从图中可以看出,两条曲线的拟合程度较高。为清晰的观察图中曲线的差异性,采用了图中图的方式。从小图中可以更清晰地看出两条曲线之间存在的较小差异性。综合来看,CRT-EL模型的预测性能较好,可以对海洋数据进行准确预测。模型的RMSE值为0.0041,PCCs值为0.9973。此结果表明,模型的误差较小,预测值和叶绿素a真实值的相关系数较大,模型的非线性逼近能力较强。

    此外,从统计分析的角度度量了模型的性能。利用累计分布函数比较真实值与预测值的数据分布特征。图2给出了预测值和叶绿素a真实值的累计分布函数图。黑色曲线表示叶绿素a真实数据的分布情况,红色线表示其对应预测值的分布情况。横坐标表示叶绿素a值的范围,纵坐标表示小于等于当前值的概率。红色曲线越接近黑色曲线时,模型的性能越好。从图中可以看出,黑色曲线和红色曲线近似重合,表明CRT-EL具有较好的预测效果。从小图中可以看出,两条曲线依然存在较小的差距。综上所述,CRT-EL模型在海洋环境数据预测领域具有优良的预测性能,能很好地应用到具体工程实践中。

    4 结论

    基于CRT分析算法和EL机制,提出了一种用于海洋环境数据综合预测方法CRT-EL。通过CRT-EL的分析器选取与海洋环境数据相关性较大的因素,并以此作为预测的输入。利用CRT-EL的预测器对叶绿素a序列进行多输入单输出预测。该模型通过融合综合分析与多变量预测的方法,对海洋环境数据进行精准预测。仿真实验证明,该模型适用于海洋生态环境数据的分析与预测任务,并能取得较好的效果,此结果对海洋污染或海洋灾害的防治具有重要意义。

    参考文献:

    [1] 李华,高强,丁慧媛.中国海洋经济发展的生态环境响应变化及影响因素分析[J].统计与决策,2020,36(20):114-118.

    [2] Loueipour M, Keshmiri M, Danesh M and Mojiri M. Wave filtering and state estimation in dynamic positioning of marine vessels using position measurement[J]. IEEE Transactions on Instrumentation and Measurement, 2015, 64(12): 3253-3261.

    [3] Kwon Y, et al. Monitoring coastal chlorophyll A concentrations in coastal areas using machine learning models[J].Water, 2018, 10(8): 1020-1036.

    [4] Park S and Seong R L. Red tides prediction system using fuzzy reasoning and the ensemble method[J].Applied Intelligence, 2014, 40(2): 244-255.

    [5] Takakura I T, Hoshi R A, Santos M A,et al. Recurrence plots: a new tool for quantification of cardiac autonomic nervous system recovery after transplant[J].Brazilian Journal of Cardiovascular Surgery, 2017, 32(4): 245-252.

    [6] Haneef S M, et al. Accurate determination of Brillouin frequency based on cross recurrence plot analysis in Brillouin distributed fiber sensor[C]. //25th Optical Fiber Sensors Conference (OFS)., 2017: 1-4.

    [7] 歐桐桐. 基于集成学习的在线广告转化率预估算法的研究[D]. 北京:北京交通大学, 2019.

    [8] Goudos S K and Athanasiadou G. Application of an ensemble method to UAV power modeling for cellular communications[J]. IEEE Antennas and Wireless Propagation Letters, 2019, 18(11): 2340-2344.

    【通联编辑:王力】