基于模糊关联规则挖掘的网络入侵检测算法

潘大胜



摘 要: 为了有效解决当前网络入侵检测算法存在的缺陷,提高网絡的安全性,提出基于模糊关联规则挖掘的网络入侵检测算法。首先收集网络数据,提取网络入侵行为的特征;然后采用模糊关联规则算法对入侵行为特征进行挖掘,选择入侵行为最有效的特征,减少特征之间的关联度;最后支持向量机根据“一对多”的思想建立网络入侵检测的分类器,以KDD CUP数据为例对网络入侵检测性能进行分析。结果表明,该算法的网络入侵检测正确率超过了95%,检测结果要明显好于其他检测算法,易实现,可以用于大规模网络的在线入侵检测分析。
关键词: 网络安全; 入侵检测; 关联规则; 数据挖掘
中图分类号: TN915.08?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)09?0086?03
Abstract: In order to solve the shortcomings existing in the current network intrusion detection algorithm effectively, and improve the network security, a network intrusion detection algorithm based on fuzzy association rules mining is proposed. The network data is collected to extract the features of the network intrusion behavior. The fuzzy association rules algorithm is used to mine the intrusion behavior features, select the most effective feature of intrusion behavior, and reduce the correlation among the features. The support vector machine is used to establish the classifier of the network intrusion detection according to the thought of "one?to?many". The KDD CUP data is taken as an instance to analyze the performance of network intrusion detection. The results show that the network intrusion detection accuracy of this algorithm is higher than 95%, its detection result is obviously better than that of other detection algorithms, the algorithm is simple to implement, and can be used to the online intrusion detection analysis of the large?scale network.
Keywords: network security; intrusion detection; association rule; data mining
0 引 言
随着网络技术的不断普及以及应用的不断深入,网络安全事件发生的概率日益增加,网络安全问题成为困扰人们生活和工作的一个难题[1?2]。为了解决网络入侵带来的安全问题,最初有学者采用网络加密、水印技术、杀毒软件等措施保证网络的正常工作,但它们只能对非法网络行为进行主动防范,当入侵行为发生变化时,它们就无能为力,缺陷十分明显,实际应用价值低[3?5]。在该背景下,入侵检测应运而生,其可以对网络的历史数据以及当前数据进行对比和分析,发现其中的非法行为,并进行实时拦截,成为当前一个重要研究课题[6]。
为了防止非法用户进入网络系统,研究人员设计了许多种类型的网络入侵检测算法,在一定程度上保护了网络的安全,使人们能够正常、放心的工作和学习[7]。在网络入侵检测过程中,要收集数据和提取特征,由于网络数据增长的速度非常快,使得特征之间的重复十分严重,影响入侵的检测效果,网络入侵的实时性也相当差,因此需要对特征之间的关联进行有效挖掘,分析特征之间的关系,但传统挖掘算法很难准确找到特征之间的联系,不适合于网络入侵检测的研究[8]。模糊关联规则算法通过引入模糊理论建立入侵检测行为规则,有效提高了特征之间的关联,具有较强的适应性,为网络入侵检测特征分析提供了一种新的研究工具[9]。在网络入侵过程中,还需要设计入侵行为的分类器,当前主要基于支持向量机、神经网络等[10?11]进行设计,神经网络的结构十分复杂,尤其当特征的数量大时,易出现“维数灾”等难题,入侵检测结果变得很差,而且检索结果不可靠;支持向量机可以较好地克服神经网络的不足,入侵行为检测效果明显增强,但检测效率低,这是因为特征太多,入侵行为分类过程太复杂[12]。
为了提高网络的安全性,提出基于模糊关联规则挖掘的网络入侵检测算法。首先提取网络入侵行为的特征,并采用模糊关联规则算法对特征进行挖掘,减少特征之间的关联度,然后用支持向量机建立网络入侵检测的分类器,KDD CUP数据的测试结果表明,本文算法的网络入侵检测结果要明显好于其他检测算法,能够满足大规模网络的在线入侵检测分析。
1 网络入侵检测的基本原理
在网络入检测系统中,包括硬件系统和软件系统两部分。其中软件系统是网络入侵检测的重点,直接决定了网络系统的工作性,而软件系统中网络入侵检测算法最为关键,网络入侵检测算法包括数据采集、特征提取、入侵分类、输出入侵检测结果,并根据入侵检测采取相应的措施,其工作原理如图1所示。
2 模糊关联规则和支持向量机
2.1 模糊关联规则
由于传统挖掘算法很难对数据进行有效分析,无法有效找出数据之间的关联,因此普遍存在检测正确率低等不足。模糊关联规则挖掘技术能够从海量数据中发现规律,找出一些对问题求解结果有重要贡献的数据,为此,本文将其引入到网络入侵检测的特征分析中,提取重要的入侵行为特征,以获得更好的入侵检测结果。模糊关联规则挖掘首先引入模糊理论对入侵检测数据的特征进行处理,然后给每个特征赋一个模糊值,并根据模糊隶属度函数得到每一个特征的模糊隶属值,工作流程如图2所示。
模糊关联规则算法的网络入侵检测数据挖掘过程如下:
Step1:根据相应研究以及有关专家设置最小置信度和最小支持度
Step2:计算网络入侵检测数据集特征的模糊隶属度参数值。
Step3:构建模糊隶属度函数,并根据模糊隶属度函数得到相应的隶属度。
Step4:估计各模糊属性的支持度,得到频繁1?项目集
Step5:根据生成项目集从而得到候选项目集根据得到频繁集
Step6:若为空,增加否则进入下一步。
Step7:根据最大的得到置信度值,得到网络入侵检测特征之间的关联规则。
2.2 支持向量机
对于一个两分类问题,设满足条件那么正类和负类分别定义为:
(1) 正类,个正类样本的集合为对于全部均有
(2) 负类,个负类样本的集合为,对于全部均有。
3 模糊关联规则挖掘的入侵检测步骤
Step1:收集网络状态信息,提取网络的状态特征。
Step2:采用模糊关联规则挖掘算法对原始特征进行处理,得到每一种特征的模糊隶属度函数值。
Step3:根据隶属度函数值对网络入侵的特征进行处理,减少学习样本的规模。
Step4:支持向量机对训练样本进行学习,建立最优网络入侵检测的分类器。
Step5:采用测试样本对网络入侵检测分类器的性能进行分析。
4 实验结果与分析
采用当前通用的网络安全分析数据集——KDD CUP 99作为实验对象,该数据集中包括四种网络入侵行为,分别为:Probe,DOS,U2R,R2L,它们包含了大量的数据记录,每一条记录均含有41个特征属性,其中有离散的,也有连续特征,因此对它们要进行预处理,使支持向量机可以直接识别和学习数据。选择传统数据挖掘算法的入侵检测算法进行对比实验,对平均检测正确率、误报率和平均执行时间进行测试与分析。
网络入侵检测的正确率和误报率如图4,图5所示。从图4和图5可知,与传统数据挖掘算法的入侵检测算法相比,模糊关联规则挖掘算法的网络入侵检测正确率得到了显著改善,平均检测正确率超过95%,而且网络入侵检测的误报率也得到了降低,这是因为通过引入模糊理论对网络入侵数据之间的关系进行分析,找出它们之间存在的一些关联规则,获得了更加理想的網络入侵检测结果。
从表1可以看出,模糊关联规则挖掘算法的执行时间更短,加快了网络入侵的检测速度,这主要是因为通过模糊关联规则挖掘,减少数据量,支持向量机的分类器结构更加简单,网络入侵的应用范围更广。
5 结 语
为了解决网络入侵检测中的数据量大,执行效率低的难题,本文提出了基于模糊关联规则挖掘的网络入侵检测算法,通过引入模糊关联规则挖掘算法对网络入侵检测样本数据进行分析,提取最有效的特征,去除大量无用的特征,通过具体实验可知,相对于其他网络入侵检测算法,本文算法的网络入侵检测正确率提高了3%左右,远远超过实际应用的85%,同时网络入侵的平均漏检率也有了大幅下降,加快了网络入侵的检测速度,能迅速对网络入侵做出响应,有效保证了网络的正常工作,具有良好的实用价值。
参考文献
[1] 唐正军,李建华.入侵检测技术[M].北京:清华大学出版社,2004.
[2] 井小沛,汪厚祥,聂凯,等.面向入侵检测的基于IMGA和MKSVM的特征选择算法[J].计算机科学,2012,39(7):96?99.
[3] DENNING D E. An intrusion detection model [J]. IEEE transactions on software engineering, 2010, 13(2): 222?232.
[4] HANG C L, WANG C J. A GA?based feature selection and parameters optimization for support vector machines [J]. Expert systems with applications, 2009, 36(2): 231?240.
[5] 何绍荣,梁金明,何志勇.基于互信息和关系积理论的特征选择方法[J].计算机工程,2010,36(13):257?259.
[6] 陈友,程学旗,李洋,等.基于特征选择的轻量级入侵检测系统[J].软件学报,2007(7):1639?1651.
[7] 郭文忠,陈国龙,陈庆良,等.基于粒子群优化算法和相关性分析的特征子集选择[J].计算机科学,2008,35(2):144?146.
[8] 高海华,杨辉华,王行愚.基于BPSO?SVM的网络入侵特征选择和检测[J].计算机工程,2006,32(8):37?39.
[9] 陈仕涛,陈国龙,郭文忠,等.基于粒子群优化和邻域约简的入侵检测日志数据特征选择[J].计算机研究与发展,2010,47(7):1261?1267.
[10] HONG J, SU M Y, CHEN Y H, et a1. A novel intrusion detection system based on hierarchical clustering and support vector machines [J]. Expert systems with applications, 2011, 38(1): 306?313.
[11] 陈友,沈华伟,李洋,等.一种高效的面向轻量级入侵检测系统的特征选择算法[J].计算机学报,2007,30(8):1398?1408.
[12] 魏德志,吴旭,林丽娜,等.基于云计算的模糊规则挖掘算法在入侵检测中的应用[J].吉林师范大学学报(自然科学版),2012(1):115?118.