基于数据挖掘的信息系统安全态势估计

2022.08.08

张吉生　+张波　沈青
摘要：针对当前信息系统安全态势估计存在实时性差、误差高等问题，提出数据挖掘的信息系统安全态势估计方法。将数据发现和预处理输出的资产列表以及威胁列表反馈到安全态势分析评估阶段，在对安全态势进行分析评价时，先采集引发风险的各类威胁因子，采用泊松分布方法运算威胁产生的频率，对系统资产的脆弱性进行赋值，最后获取威胁频率，采用模糊数学方法得到信息系统安全态势估计的多因素以及单因素风险决策，分析风险的损耗程度，获取综合安全态势评估值。实验结果表明所提方法可对信息系统安全态势进行精准评估。
关键词：数据挖掘；信息系统；安全态势；威胁估计
中图分类号： TN915.08?34； TP309 文献标识码： A 文章编号： 1004?373X（2017）21?0077?03
Information system security situation assessment based on data mining
ZHANG Jisheng， ZHANG Bo， SHEN Qing
（Information and Communication Company， State Grid Ningxia Electric Power Company， Yinchuan 750001， China）
Abstract： Since the current security situation assessment of information system has the problems of poor real?time performance and big error， an information system security situation estimation method based on data mining is proposed. The assert list and threat list after data discovery and preprocessing output are fed back to the security situation analysis and evaluation stage. For the analysis and evaluation of the security situation， all kinds of the threat factors triggering the risk are collected， and the Poisson distribution method is used to operate the frequency generated by the threat to assign the vulnerability of the system assets， and get the threat frequency. The fuzzy mathematics method is adopted to obtain the multi?factor and single?factor risk decision of information system security situation estimation， analyze the risk loss degree， and acquire the comprehensive security evaluation value. The experimental results show that the method can evaluate the security situation of information system accurately.
Keywords： data mining； information system； security situation； threat estimation
随着信息技术的发展，信息系统在不同领域中的应用价值也逐渐提升，并且信息系统面临的风险也日益增加。安全态势评估成为检测信息系统安全的重要措施，能够为管理人员提供系统安全状态信息，确保管理人员实时获取系统中的异常事件，增强系统安全防护性能。而传统采用广义神经网络方法预测信息系统安全态势存在实时性差以及误差高的问题，因此提出基于数据挖掘的信息系统安全态势估计方法，具有重要应用价值。
1 基于数据挖掘的信息系统安全态势估计
1.1 信息系统安全态势估计框架
基于数据挖掘的信息系统风险评估理论框架是信息系统安全态势估计对随机事件的评估和分析的过程[1]，如图1所示。
（1）数据发现和预处理。该部分对信息系统内外部环境中的信息实时处理，采集同信息系统资产安全态势估计相关的数据以及威胁数据，对数据实施采集、划分以及融合等操作[2]，将数据变换成可实施数据挖掘的数据格式，获取同信息系统安全态势估计相关的资产列表以及威胁列表。
（2）安全态势分析和评估。该部分需要获取信息系统的资产脆弱性和漏洞，明确威胁的类型以及威胁产生的概率，研究总体信息系统的风险防范性能，获取系统安全态势的综合评估结果。
（3）风险决策。该过程按照信息系统面临的威胁大小排序表以及风险防范性能[3]，明确信息系统可使用的风险防范手段。
1.2 数据發现和预处理
信息系统资产由系统内部以及网络互联外部的信息构成，组成大规模的异构数据库。异构数据库中的数据存在脏数据，具有杂乱性、重复性以及缺陷性问题。需要对脏数据实施预处理，通过统一数据格式解决不同数据格式间的差异[4]。
图2描述的数据预处理形式包括数据清理、数据集成、数据变换以及数据归约四部分。总体信息系统的数据预处理由资产数据预处理、威胁数据预处理、Web数据预处理以及Web服务器子文件预处理构成，数据预处理过程输出资产列表以及威胁列表。
1.3 安全态势分析评估
信息系统安全态势分析需要运算系统的风险损失、威胁产生的频率以及可能性。将数据预处理输出的资产列表以及威胁列表反馈到安全态势分析评估阶段。该阶段应对系统威胁形成的可能性以及频率实施运算，获取威胁损失指数，对威胁进行排序，对信息系统抵抗威胁的性能以及脆弱性进行分析。
1.3.1 系统脆弱性及安全态势分析
信息系统安全态势评估过程中的关键部分是对系统资产脆弱性实施评估。信息系统资产存在弱点，威胁会采用弱点产生资产损失。信息系统脆弱性包括系统内外部信息、物理因素、控制因素等不同信息资产的弱点[5]。应依据威胁频率的大小对资产脆弱性实施赋值。
信息系统安全威胁因素包括系统安全风险、数据信息风险、运行风险、链接风险以及人为原因风险。将信息系统中的威胁因子划分成威胁传递路径、面向威胁的防范手段以及资产损失三部分[6]，设置威胁因子为[T，]威胁损失因子RE为：
[REi=MPLi×PCFij×EFi] （1）
式中，[REi]是固定时间内，由威胁[i]产生的信息系统资产损失；[MPLi]是威胁[i]未被防范时对资产产生的损失；[PCFij]是资产的安全措施[j]对威胁[i]不起作用的概率；[EFi]是威胁[i]形成的概率。
若信息系统资产[v]的价值为[Av，][AAvv=1，2，…，p；][M]为单位威胁指数损失；[RTIi]是威胁的相对威胁指数，则存在：
[MPLi=RTIi×v=1pAv×M] （2）
則有：
[REi=RTIi×v=1pAv×M×PCFij×EFi] （3）
基于信息系统面临的威胁[ti，]分析历史统计数据、相关报告以及专家经验[7]，可获取最高潜在损失[MPLi]值以及[PCFij]值。
采用泊松分布方法运算威胁产生的频率[EFi]。若随机变量[X]的概率分布为：
[P（X=k）=λkk！e-λ， k=0，1，2，…，λ>0] （4）
在时间段[t]中产生时间数[Pk（t）]服从泊松过程，则有常数[λ>0，]使得对全部[t>0]有[8]：
[Pk（t）=（λt）kk！e-λt， k=0，1，2，…] （5）
对于不服从泊松分布的威胁发生频率为：
[EFi=ktt] （6）
1.3.2 综合安全态势估计
采用模糊数学方法得到信息系统安全态势估计的多因素以及单因素风险决策，分析风险的损耗程度，获取综合安全态势评估值。
（1）多个信息系统安全态势模糊综合评估。通过模糊数学方法获取信息系统安全态势估计的多因素安全决策。基于信息系统风险评估安全态势估计的递阶层次结构，获取两个层次的信息系统安全态势集以及风险赋值评语集。先对全部信息系统安全态势进行综合评估，基于1.3.1节系统脆弱性及安全态势分析获取的威胁产生的频率[EFi，]获取信息系统安全态势集[T=EFT1，T2，…，Tx，]对应的权重集为[A=a1，a2，…，ax；]再对单个信息系统安全态势进行综合评估[9]。信息系统安全态势集为[Ti=EFiTi1，Ti2，…，Tin]，对应的权重集为[Ai=Ai1，Ai2，…，Ain]，如果模糊集信息系统风险赋值评估集是[V=V1，V2，…，Vm]，基于信息风险评估安全态势估计的特征，设置[m=5，]用于描述信息系统风险水平。
（2）单个信息系统风险模糊综合评估。要对各信息系统安全态势进行单因素评判，明确信息系统各安全态势对不同评估信息系统风险赋值等级的隶属度[10]，对于各[Ti，]关系[Ri]可采用模糊隶属矩阵描述：
[Ri=（rjk）nim=r11r12…r1mr21r22…r2m????rni1rni2…rnim] （7）
式中：[rjk]用于描述信息系统安全态势[Tij]对于第[k]级信息系统风险赋值评语的隶属度，通过专家打分方法获取[rjk]值。如果信息系统安全态势[Tij]中存在[si]个第[vi]级信息系统风险赋值，[sn]个第[vn]级信息系统风险赋值，则对于[j]存在：
[rjk=skk=1msk] （8）
（3）所有信息系统安全态势的综合评估。综合评判信息系统不同的安全态势[Ti，]采用单信息系统安全态势评判[Bi]构成模糊矩阵[R：]
[R=B1?Bm=b11…b1n???bm1…bmn] （9）
对[R]实施模糊矩阵运算，获取信息系统安全态势集[T]对于信息系统风险赋值评语集[V]的隶属向量：
[B=A?R=（b1，b2，…，bm）] （10）
如果[j=1mB=bj≠1，]应实施归一化操作。设置[bj=bjj=1mbj，]获取[B=（b1，b2，…，bm）]。
2 实验分析
2.1 实验环境
通过模拟实验环境检测本文方法的性能。模拟环境中存在7台服务器，其中包括1台邮件服务器以及1台网站服务器，采用Windows Server 2003操作系统，各服务器中存在Nessus漏洞扫描软件。模拟实验将LOIC.exe当成攻击产生的工具。实验包括6个过程：过程1在不存在攻击状态下采集威胁因子；过程2通过LOIC.exe模拟DDos攻击，设置攻击频率为25次/s，过程3使攻击频率提升到75次/s；过程4在过程2中实施漏洞扫描，并入侵到Web服务器采集其中的数据；过程5在过程2中实施漏洞扫描，并入侵到邮件服务器采集其中的数据；过程6在过程4中中断DDos攻击。
2.2 实验结果及分析
实验分别检测本文方法和传统广义神经网络方法，在不同实验过程中信息系统总安全态势的估计值见表1。
基于表1绘制实验信息系统安全态势曲线图，如图3所示。对比分析图3中的态势值波动情况可得，本文方法可有效反映出总体信息系统的安全状态，并且同实际曲线基本一致，而且广义神经网络方法估计的安全态势曲线同实际曲线差异较高。说明本文方法在确定模糊判断矩阵时能够充分调动专家的主动性，确保获取的安全态势估计值更符合实际值，态势评估更加精准。
为了对本文方法和广义神经网络方法对信息系统风险控制效果进行量化分析，实验先运算安全态势估计后对风险造成损失的减少量，再运算损失减少量同控制成本间的比值。实验设置RC以及RCO两种控制效果评估参数，则有：
[RC=风险控制前损失-风险控制后损失] （11）
[RCO=RC控制成本] （12）
为了获取两种方法的风险控制直观效果，实验将本文方法所部署的业务流程通过模拟攻击后的RC以及RCO参数当成参照标准，设置量化数值是100。DDos模拟攻击结束后，两种方法的RC以及RCO参数值分别用表2描述。
分析表2中的数据可得，本文方法在降低信息系统安全损失以及调控成本方面的性能优于广义神经网络方法。
3 结语
本文提出基于数据挖掘的信息系统安全态势估计方法，实验结果说明，所提方法可对信息系统安全态势进行精准评估，具有重要应用价值。
参考文献
[1] 徐浩.基于大数据分析的电信基础网安全态势研究[J].信息安全研究，2015，1（3）：253?260.
[2] 蓝湾湾，薛丽敏，赵秦豫.基于广义RBF神经网络的网络安全态势预测方法[J].指挥信息系统与技术，2015，6（1）：6?9.
[3] 陈良维.云计算环境下的网络安全估计模型态势仿真[J].现代电子技术，2015，38（20）：15?19.
[4] 余小游，曹守富，陈铁军，等.基于Rough?Vague集與证据理论的态势估计方法[J].计算机工程与应用，2016，52（10）：50?54.
[5] 高杰，龙华，邵玉斌，等.基于专利数据挖掘的我国烟草产业发展态势分析[J].安徽农业科学，2016，44（26）：240?243.
[6] 李明桂，肖毅，陈剑锋，等.基于大数据的安全事件挖掘框架[J].通信技术，2015，48（3）：346?350.
[7] 朱利鹏，陆超，孙元章，等.基于数据挖掘的区域暂态电压稳定评估[J].电网技术，2015，39（4）：1026?1032.
[8] 孙越恒，王文俊，迟晓彤，等.基于多维时间序列模型的社会安全事件关联关系挖掘与预测[J].天津大学学报（社会科学版），2016，18（2）：97?102.
[9] 杨浩，谢昕，李卓群，等.多样性入侵环境下网络安全态势估计模型仿真[J].计算机仿真，2016，33（6）：270?273.
[10] 顾兆军，王蕊莉.基于改进的模糊层次分析法的信息系统安全态势评估模型[J].计算机工程与科学，2016，38（10）：2010?2017.