协同云计算下的差异区域数据挖掘平台设计与实现

韩冬 韩春庆



摘 要: 针对在协同云计算下差异区域数据挖掘偏差较大,准确度不高的问题,提出基于非线性时间序列分析且分层调度控制的差异区域数据挖掘方法。首先构建协同云计算下差异区域数据的信息传输模型,进行数据信息流的时间序列采样分析;然后采用非线性时间序列分析方法重构特征空间,在重构的特征相空间进行自适应分层调度控制,提取关联规则特征,有效挖掘数据;最后进行仿真测试,结果表明该方法的数据挖掘精度较高,抗扰性能较强。
关键词: 协同云计算; 数据挖掘; 调度控制; 平台设计
中图分类号: TN915?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)05?0118?04
Abstract: Since the difference area data mining has large deviation and low accuracy under collaborative cloud computing, a difference area data mining method based on nonlinear time series analysis and hierarchical scheduling control is proposed. The information transmission model of the difference area data under collaborative cloud computing was constructed to analyze the time series sampling of the data information stream. The nonlinear time series analysis method is used to reconstruct the feature space, in which the adaptive hierarchical scheduling control was conducted to extract the characteristics of the association rules and mine the data effectively. The method was performed with simulation test. The results show that the method has high data mining precision, and strong interference resistance.
Keywords: collaborative cloud computing; data mining; scheduling control; platform design
0 引 言
协同云计算平台是一个高度开放、异构、分布的信息空间,由于资源信息的特征差异性以及干扰作用,出现差异区域数据,对协同云计算下差异区域数据挖掘是进行云计算资源调度和优化分区学习的重要环节,研究协同云计算下差异区域数据挖掘方法具有重要意义[1]。
在以往的协同云计算差异区域数据挖掘中,采用子图同构检测技术,结合频繁项挖掘方法加强信息语义特征,提高数据挖掘的数据导向性。协同云计算下的差异区域数据具有非线性、自耦合性等特点[2],传统方法需要建立学习资源本体,采用非线性特征分析和自耦合控制进行信息特征空间采样和重构,结合特征压缩设计,降低数据挖掘的开销[3?4]。美国Washington大学开发的PROMPT数据挖掘平台,通过本体匹配方法构建协同云计算的资源本体匹配,结合数据核心集DCMS进行差异数据挖掘[5?6]。
为了提高协同云计算下差异区域数据挖掘的精度,提出一种基于非线性时间序列分析和分层调度控制的差异区域数据挖掘方法,通过仿真实验进行性能测试,验证了本文方法的优越性。
1 协同云计算的差异区域数据采样模型
在协同云计算环境下,差异区域数据采用区间概念格中的节点模型进行存储机制构架,采用有向图模型[G1=Mα1,Mβ1,Y1,][G2Mα2,Mβ2,Y2]描述差异区域数据的存储结构分布式层次模型,[G1?G2?Y1?Y2。]令[A=a1,a2,…,an]为信息采样时间序列,数据挖掘本体结构为一个五元组[O=(C,I,P,Hc,R,A0)],其中,[C]为数据语义本体模型的阶数,[I]是字符串实例集,协同云计算下差异区域数据挖掘的总体结构模型如图1所示。
3 性能测试
实验训练集和测试集协同云计算平台下的两个区域性特征大数据集,训练集记为set1,测试集记为set2,set1采用分区间隔特征频率为12.5 Hz,区域分区数据包大小为15.2 MB,初始校验频率[B=1 000]Hz,CSLOGS为实际数据集,包括两个大小为4.24 MB的分区。首先进行协同云计算下的差异区域数据采样,采样点[N=1 024],采样通道为3通道,得到协同云计算中出现差异区域数据时的特征采样结果如图3所示。
将训练样本输入到本文构建的协同云计算下差异区域数据挖掘平台中,图4为本文方法和传统方法在set1和set2数据集上进行数据挖掘时随不同数据点数变化的平均运行时间性能对比结果。从图4可知,两种方法的运行时间曲线均随差异区域数据点数的增大而增大,但本文方法运行时间随数据规模的增大相对平缓,运行时间的差异性随着数据规模的增大而增加,说明本文方法更适用于大数据规模下的差异区域数据挖掘。
见本文方法和传统方法随着数据维数变化的运行时间对比结果见图5。从图5可知,随着数据维数的增大,运行时间增长,这是因为在高维状态下,数据点相对分散,數据挖掘的计算开销较大,本文方法的运行时间低于传统方法,可高效完成数据的处理。
4 结 语
本文提出了一种基于非线性时间序列分析和分层调度控制的差异区域数据挖掘方法,构建协同云计算下差异区域数据的信息传输模型,采用非线性时间序列分析方法重构特征空间,在重构的特征相空间进行自适应分层调度控制,实现关联规则特征提取。结果说明,本文方法可以实现对差异区域数据的准确挖掘,效率较高,且具有较强的鲁棒性。
参考文献
[1] 郑海雁,王远方,熊政,等.标签集约束近似频繁模式的并行挖掘[J].计算机工程与应用,2015,51(9):135?141.
[2] 邢长征,刘剑.基于近邻传播与密度相融合的进化数据流聚类算法[J].计算机应用,2015,35(7):1927?1932.
[3] 杨来,史忠植,梁帆,等.基于Hadoop云平台的并行数据挖掘方法[J].系统仿真学报,2013,25(5):936?944.
[4] 张国良,姚二亮,汤文俊,等.一种自适应的GraphSLAM鲁棒闭环算法[J].信息与控制,2015,44(3):316?320.
[5] AGUILA?CAMACHO N, DUARTE?MERMOUD M A, GALLEGOS J A. Lyapunov functions for fractional order systems [J]. Communications in nonlinear science and numerical simulation, 2014, 19(9): 2951?2957.
[6] 张博雅,胡晓辉.一种基于全域子空间分解挖掘的QoS准确预测方法[J].计算机科学,2014,41(1):217?224.
[7] 孙超,杨春曦,范莎,等.能量高效的无线传感器网络分布式分簇一致性滤波算法[J].信息与控制,2015,44(3):379?384.
[8] 窦慧晶,王千龙,张雪.基于小波阈值去噪和共轭模糊函數的时频差联合估计算法[J].电子与信息学报,2016,38(5):1123?1128.
[9] 余晓东,雷英杰,岳韶华,等.基于粒子群优化的直觉模糊核聚类算法研究[J].通信学报,2015,36(5):74?80.
[10] 黄国顺,文翰.基于边界域和知识粒度的粗糙集不确定性度量[J].控制与决策,2016,31(6):983?989.