基于粗糙集的分布式网络异常检测方法研究

2022.10.15

张艳敏+杨娜

摘要：随着互联网应用技术的发展，网络安全问题一直是人们重点关注的问题。网络入侵的检测可以分为对网络误用的检测和对网络异常的检测，网络误用检测仅仅适用于已知类型的网络攻击，对于新型攻击行为无法达到检测目的，而网络异常检测则可以通过模型判别出攻击行为，具有更精确的检测精度和更广泛的检测范围。传统的网络异常检测方法检测效率较低，需要处理的数据量较大，为此本文提出一种采用支持向量机的基于粗糙集的分布式网络异常检测方法，采用该方法对KDD99数据集中的数据进行了仿真实验。结果表明，该方法可以对网络异常进行及时的检测，在保证检测精度的同时，可以有效缩短检测时间，网络异常检测性能良好。

关键词：粗糙集；分布式；网络异常检测；支持向量机

引言

当前互联网应用技术的发展日渐趋于成熟，各种基于互联网技术的应用程序逐步融合到人们的日常生活当中。由于互联网的普及性和使用的频繁性，网络安全问题面临着巨大挑战。网络攻击严重影响了使用者对计算机网络的使用，严重时甚至会造成不可挽回的巨大的经济损失。目前经常采用的安全防护方法是防火墙技术，但随着网络攻击手段和类型的多样性变化，单一的防火墙技术已无法满足现有网络安全要求。在防火墙后设置第二道安全保障，即网络入侵检测，可以有效地解决这个问题。网络入侵的检测可以分为对网络误用的检测和对网络异常的检测，前者仅仅适用于已知类型的网络攻击，无法对新出现的网络攻击形式进行检测，而后者则可以通过模型判别出攻击行为，具有更精确的检测精度和更广泛的检测范围。本文提出了一种采用支持向量机（SVM）的基于粗糙集的分布式網络异常检测方法，对检测时间和精度进行了研究。

1基于粗糙集的检测方法

1.1粗糙集

粗糙集作为一种对不完整性、不确定性进行描述的数学手段，在数据挖掘中得到普遍应用。这种理论可以对精确性、一致性和完整性较差的信息进行高效处理并分析，进而发掘出隐藏的知识和规律。粗糙集理论的一个信息系统由四元组进行表述，如式1所示：

假定X U，R属于U上等价，那么A=（U，R）则为近似的空间，可以得到X的R上近似和下近似，分别如式2和式3所示：

假设P和S在U中的关系为等价，S为P的正域，以

1.2支持向量机

支持向量机（SVM）分为线性支持向量机和非线性支持向量机，当训练样本为线性时，分类判别函数如式6所示：

式中a是拉格朗日乘子。

对于非线性的分类，核函数K（X，X）与输入空间变化到高维特征空间后的内积，而函数w：X-F则表示非线性的输入空间映射到高维特征空间。将式6重写可得式7：

1.3检测方法的原理

本实验采取的检测方法其原理是利用粗糙集约简数据，获取条件最小的属性集，由此对训练样本进行约简获得新训练样本，归一化处理后以SVM训练，之后仍采用上述属性集约简测试样本获取新样本，归一化后以已经完成训练的SVM检测。具体过程为首先对数据进行离散化处理，之后基于约简算法约简训练样本获取新样本，构建检测模型，获得测试数据集，最后采用完成训练的检测模型预测数据集。

2检测系统的结构

图1所示为基于粗糙集的分布式网络异常检测系统的结构图，其结构由网络内呈现分布式的节点和网络外部的服务器构成。外部服务器包括控制、数据挖掘规则和日志等。对于网内节点来说，其主要作用是保存不同种类的异常检测，各节点协作通过对进出该子网的流量进行分析，进而识别出异常行为，将结果发送至日志服务器，当异常现象严重时，由节点发出警报。同时分析器以外部挖掘规则库为依据定时更新本身规则库，然后反馈检测结果至日志服务器。网络外部的挖掘数据规则服务器将基于粗糙集的规则进行保存，而控制服务器则负责运行整个网络。

3结果分析

本实验采用的数据选自KDD99数据集为采用量约占总数据量的10%左右，主要选取了5种类型，分别为Normal、Probe、Dos、R2L和U2R等。表1基于粗糙集的分布式网络异常检测方法和传统方法的检测结果，与传统方法相比，采用本实验提出的方法进行网络异常检测，在训练和检测方面的耗时均较小，这是因为本方法的特征维度数目较少，导致SVM需要处理的计算量减少，从而缩短了耗费的时间；对于检测率方面采用本实验提出的方法，Dos、R2L和U2R三种类型的攻击检测率高于传统方法，这是由于粗糙集特征简约可以去掉冗余的样本特征，因而检测精度较高。图2为两种方法的迭代次数和预测精度之间的关系图，从图中可以看出，随着迭代次数的增加两种方法的预测精度均有所上升，但基于粗糙集的分布式网络异常检测方法预测精度要高于传统方法，当迭代次数超过100次后预测精度趋于平缓，而传统方法在迭代次数超过100次后，预测精度仍有波动。

4结束语

本文提出采用支持向量机（SVM）的基于粗糙集的分布式网络异常检测方法，对KDD99数据集中的数据进行仿真，与传统方法相比在样本训练时间和检测时间方面均有缩短，同时在检测精度方面也有所提高。从结果分析中可以看出，本文提出的方法具有良好的分布式网络异常检测性能，是一种快速有效的网络异常检测方法。