基于粗糙集的公共网络入侵检测方法研究

2022.10.11

庞帮艳+张艳敏

摘要：传统方法在对公共网络入侵数据检测时存在冗余度高、维数大、精确度差等问题。为了提高公共网络安全防护的实时性和有效性，提出一种基于优化粗糙集理论的公共网络检测方法。针对有入侵风险的数据进行检测和筛选，在粗糙集（RS）概念基础上对其精度进行优化，减少信息的丢失，运用MDLP运算准则完成对数据的离散化处理，使用遗传算法进行数据约简，导出数据分类规则并识别出入侵数据。仿真试验结果表明，所提出的入侵数据检测方法，在入侵检测率和误差率方面传统算法更为有效。
关键词：网络入侵数据检测；离散化处理；遗传算法；数据约简
中图分类号： TN711?34； TP393 文献标识码： A 文章编号： 1004?373X（2017）04?0028?04
Research of public network intrusion detection method based on rough set theory
PANG Bangyan， ZHANG Yanmin
（Basic Teaching Department， Shangqiu Institute of Tecnology， Shangqiu 476000， China）
Abstract： Traditional method exists high redundancy， large dimension， poor accuracy and so on in the process of public network intrusion data detection. In order to improve the real?time performance and effectiveness of public network security protection， a public network detection method based on the improved rough set theory is put forward to detect and screen the data which has invasion risk， optimize the detecting accuracy based on rough set concept， and reduce the information loss. The MDLP operational criterion is adopted to complete the discretization processing of the data. The genetic algorithm is used to carry on the data reduction， derive data classification rules and identify the intrusion data. The simulation results show that the proposed intrusion data detection method is more effective in the aspects of intrusion detection rate and error rate in comparison with the traditional algorithm.
Keywords： network intrusion data detection； neural network； genetic algorithm； data reduction
0 引言
近年来信息技术迅猛发展，公共网络已逐渐成为全世界范围内最重要的基础设施之一，对社会各个方面及人类的生产生活方式产生了巨大的影响。网络代表的开放式信息平台是现代信息社会的发展趋势，但网络的开放性同样会带来风险，尤其是和大众联系紧密的公共网络。公共网络攻击行为时有发生，客观上迫切要求建立有效的入侵检测系统。入侵檢测技术经过几十年的发展，有一定的进步，但传统方法存在时效性和精简性不足的问题。文献[1]提出入侵检测系统的基础是抽象模型模式匹配，尽管在某些领域内也取得了一些进步，但是随着公共网络的发展和壮大及恶意入侵方式的多样化，这种方法已经不适应目前公共网络的发展趋势要求。本文提出的方法基于优化粗糙集理论对网络入侵原始数据进行处理和分析[2?4]。运用MDLP运算准则完成对入侵数据的离散化处理[5?6]，使用遗传算法对数据进行属性约简，降低维数、去除冗余[7?8]，将导出数据分类规则并对入侵数据进行报警处理，试验证明了本文提出方法能够提高数据的检测率，降低误报警次数，运算简捷同时易于理解[1]。
1 基于优化RS入侵检测方法研究
1.1 优化粗糙集理论
本文将基于优化粗糙集理论用于实现对公共网络入侵数据的检测。粗糙集理论是一种数学工具，主要描述不完整性和不确定性。可以有效地对各种不完整、不一致、不精确数据信息进行处理，还能够通过分析和推理数据信息，揭示出潜在规律和隐含其中的知识。粗糙集理论最显著的特点是不需要其他任何的先验知识，仅利用数据本身提供的信息可以完成检测。粗糙集理论开辟了一条全新的路径来处理攻击检测样本数据中不易分辨的数据。通常粗糙集方法和模型包括条件属性和决策属性，在不丢失信息前提下对数据进行预处理，应用同样知识进行最小条件属性集约简，保持决策系统相同分类能力的最简形式本文。优化粗糙集相关原理如下：
（1）给定公共网络数据集合X和数据集合Y，其中集合Y是集合X的是等价关系，在X基础对Y进行划分，命名为知识，记为。设定四元组表达系统，U为对象的非空有限集合为论域；R是属性的非空有限集合；V：Va，Va，Va是属性a的值域；f 是一个信息函数，aR，xU，f（x，a）Va。
（2）给定基于公共网络数据的关系系统L=（X，Y）是知识库，Y是X上等价关系的一个族集，X 为论域；令ZX，Y为X上的一个等价关系。Z的X下近似值：
YZ={H}
Z的Y上近似值：
YZ={HQ≠}
（3）集合EF，如果E独立，ind（E）=ind（F）， E为F的一个约简。F中所有必要关系集合记作CORE（F）。核与约简有如下关系：
CORE（F）=RED（N）
（4）设定W=（K，R，V，f）为知识系统，O=PQ，
PQ= ，Q是条件属性集，O是决策属性集，P和Q构成决策表。若Q和T是公式，则QT，QT。令公式 P→Q为决策规则，Q和T表达一种因果关系成为规则前、后件。
（5）对粗糙集优化的实现流程是通过修正和调整阈值各项参数，对传统粗糙集理论的近似边界的严格定义进行宽泛化处理。量度不确定是优化粗糙集最大特点，评价一个决策规则是否有效，可以使用两个指标来评价其优劣：覆盖度和准确度。其定义式分别为式（1）和式（2）：
对粗糙集的优化处理能够使其覆盖度和准确度提高。
在上述优化粗糙集原理中，属性知识和数据集合被认为是分类能力。粗糙集理论的主要思想是在保持分类能力不变的前提下利用等价关系来对对象集合进行划分，通过对数据的预处理、离散化、知识约简，得出问题的分类规则和决策。由于粗糙集边界经过优化即宽泛化处理，覆盖度和准确度都有所提高，能够更好地实现对入侵数据检测和识别。
1.2 公共网络入侵检测方法研究
基于优化粗糙集的公共网络入侵检测实现流程，如图1所示，主要是根据获取的网络数据连接通过对公共网络数据进行筛选和分析，将进入数据库的原始数据进行离散化处理和遗传数据约简，产生规则集来检测实时的网络数据是攻击数据还是正常连接。
公共网络数据入侵检测流程中对原始数据进行离散化处理和属性约简是最为重要的步骤。包含入侵风险原始数据从公共网络进入数据接收器是不完备和缺失的，由于原始数据的不完备和缺失导致数据信息系统不完备，进入数据库的各种不同的待处理的数据以离散的表现形式存在。运用基于优化的粗糙集方法首先需要对这些原始数据进行预处理然后对数据进行属性约简。对数据的预处理即根据原始数据的数值缺失和不全是离散值的情况特点对数据进行离散化处理。
在对公共网络数据进行入侵检测过程中，MDLD是一种有效的数据信息离散化处理方法，该方法相对独立地按照每个属性的作用，将其持续地获取数据值范围分成合适数量和宽度的子区间，分类嫡设定包含m个类别的数据集U，分布概率分别为数据集U的m个类别分类嫡如下：
（3）
分类嫡是描述上述数据集类别的精度，属性A对S划分后的嫡设属性W将U分为n个子集分类嫡为每个子集U′的嫡加权和比较如式（4）～式（7）所示：
（4）
其中：
（5）
（6）
（7）
从以上数学公式可以推理得出拥有最高信息增益的数据属性是给定集合中具有最高区分度的属性，具有最高增益的离散域值也具有最高的区分度。通过以上的数学方法就完成对粗糙集的数据缺失和非全部离散值的问题进行了离散化处理。
预处理完毕后对数据属性约简是实现入侵数据检测的下一个重要步骤，数据约简可以减少信息的处理量和存储量。基于优化粗糙集的数据约简是通过对属性排序并计算其重要性而实现的。在复杂的数据关系中找出与原始数据具有相同或相似辨别能力的相关属性的最小集合，实现信息约简找出数据库中最简洁、最适用的知识规则。运用遗传算法作全局最优点搜索，识别最优算法参数和初始状态，可以以更短的时间得到更优的属性集约简。
本文采用遗传算法对数据集进行约简，其基本流程把控制序列编码为一个染色体，通过遗传算法来产生控制序列。由于遗传搜索是从决策表的属性核出发，并在整个进化过程中保持不变。选取适应度函数：需要满足条件属性对决策属性依赖度最大和条件属性个数最少这两个条件，才能在属性集是最小约简。对应的函数关系如下：
（8）
式中：A为二进制串长度；CARD（x）表示個体数量；B（x）表示条件属性对决策属性的依赖度。通过对算子的选择、交叉和变异，最终实现稳态繁殖，将属性核加入初始种群，减小了搜索范围，同时交叉和变异不会破坏基因位并可以加快收敛速度，保证入侵数据属性集是最小约简。
通过优化粗糙集对数据进行分辨和规则提取后，数据的准确度和覆盖度都有所提高，证明粗糙集经过优化的有效性，对生成的规则进行过滤和提取，去除置信度低的、冗余的规则。提取规则的流程是从经过处理的决策表中抽取出以规则形式表述的知识，将某些去掉后不影响决策结果生成的规则过滤掉。按照以上的流程和最终提取的规则就完成了对公共网络数据入侵数据的入侵检测，按照形成的规则检测出可疑数据并对入侵报警。
2 试验结果与分析
本文通过仿真试验分别对基于优化粗糙集公共网络入侵检测方法和主成分分析（PCA）入侵检测算法进行了效果对比。
通过试验证明本文提出的设计方法有较高的检测率、更加低的误报率，同时训练时间上要比其他算法要低，本文提出的算法具有精确性和有效性。试验数据来自网络入侵检测评判数据库，包含了30余种数据攻击类型如PROBING类型，U2R类型，DDoS等类型。将实验数据分成3组，数据的选择如表1所示。
表1 试验数据
为了验证本文算法对网络入侵检测性能具有更明显的有效性，试验对PCA算法和基于优化粗糙集公共网络入侵检测方法的有效性进行了充分的数据对比。实验结果如表2～表4 所示。
在U2R型数据入侵检测中PCA方法的检测率、误差率和训练时间分别为86.93%，44.81%，0.51 s；而基于优化粗糙集的公共网络检测系统在这三个指标的对比中都具有优势，检测率提高到95.28%，误差率大幅度降低到28.23%，时间缩短到0.29 s。通过数据对比，本文提出的方法在应对U2R型数据攻击时具有优势。
应对PROBING型数据入侵检测中PCA方法的检测率、误差率和训练时间分别为82.26%，40.23%，0.56 s。而基于优化粗糙集的公共网络检测系统在这三个指标的对比中都具有优势，检测率也同样具有优势，三个指标分别可以达到93.12%，27.96%和0.21 s。
DDoS是一种新型的更具破坏性的攻击方式，是利用更多的傀儡机来发起进攻，以比以前更大的规模来进攻公共网络。从表4的数据来看，在应对新型的数据入侵传统的PCA算法在检测率、误差率和训练时间上显示出的时效性更差。而相反基于优化粗糙集的神经网络算法在以上指标表现时更为有效。
从以上 3个表中可以很明显看出，不论是3种数据类型中的哪一种，本文所提出的基于优化粗糙集神经网络入侵检测算法模型的检测率比PCA算法模型在效率和精确度方面有明显的提高，而且模型的误报率以及平均检测时间也要比PCA模型要低，仿真试验表明本文提出基于优化RS入侵检测方法能够在很大程度上提高公共网络的安全入侵检测可靠性，将提出的基于优化RS的公共网络入侵方法用于公共网络入侵行为是一个行之有效的方案。
入侵检测率指标是衡量入侵检测方法是否行之有效的最重要指标，通过仿真试验对本文提出的方法和PCA方法应对常见的攻击方式得出的数据进行统计绘制成检测率综合比较图，如图2所示，本文提出的方法综合检测率在90%以上，在应对常见网络数据攻击行为时具有良好的有效性。
基于粗糙集的公共网络入侵检测系统利用网络工具箱进行测试和训练，实验得到的均方根误差如图3所示。
从实验的仿真结果可以看出，将基于优化粗糙集公共网络入侵方法用于数据入侵检测，较为明显地降低了系统的误报率，提高了各种攻击类型的检测率和目标精度，而且速度较快、收敛容易，有效地改进了公共网络入侵检测系统的性能。
本文的试验分别对基于优化粗糙集公共网络入侵检测方法和主成分分析（ PCA）入侵检测算法进行了数据对比可以看出本文提出的设计方法有高检测率、低的误报率，和更短的训练时间。试验证明本文提出的方法更加实用和有效。
3 结语
伴随公共网络数据入侵问题的凸显，有效入侵检测成为公共网络安全中一个极为重要的课题。针对传统公共网络入侵检测原始数据精确度低、数据量大、维数多、入侵检测系统误报率、漏报率偏高的现状，在深入研究入粗糙集理论的基础上，本文提出将优化粗糙集理论应用于公共网络入侵检测系统设计。经过大量仿真实验结果证明本文提出的方法是一种高效率、高检测率的网络入侵检测方法，这种优化设计入侵检测系统将会有广泛的应用前景。
参考文献
[1] ZHANG Lianhua， ZHANG Guanhua， YU Lang， et al. Intrusion detection using rough set classification [J]. Journal of Zhejiang University Science， 2004， 5（9）： 1076?1086.
[2] LEE W， STOLFO S J， MOK K. Data mining in workflow environments： Experiences in intrusion detection [C]//Proceedings of the 1999 Conference on Knowledge Discovery and Data Mining（KDD99）. AC： CAM Press，1999： 111?120.
[3] 王永全.入侵检测系统（IDS）的研究现状和展望[J].通信技术，2008，41（11）：139?143.
[4] WELCH C D J， LATHROP M S D. A Survey of 802： Wireless security threats and security mechanisms [R]. West Point， NewYork： United states Military Academy， 2003.
[5] 马海峰，宋进峰，岳新.遗传算法优化的混合神经网络入侵检测系统[J].通信技术，2009，42（9）：106?108.
[6] 王文莉，侯丽敏.基于领域粗糙集的入侵检测[J].传感器与微系统，2010，29（6）：36?38.
[7] 薛潇，刘以安，魏敏.一种入侵检测的分类方法研究[J].计算机工程与应用，2010，46（30）：98?100.
[8] 刘道群，孙庆和.基于遗传神经网络的入侵检测模型[J].激光杂志，2005，26（6）：73?74.