关联规则中基于模糊遗传算法的研究与改进挖掘技术

张军+刘文杰



摘 要: 网络数据通常以爆炸式的聚集形式出现,导致曾提出的关联规则挖掘方法挖掘性能不好。基于上述原因,提出一种关联规则中基于模糊遗传算法的挖掘方法,此方法通过构建挖掘模型,将关联规则与模糊遗传算法融合在一起,进而给出待挖掘数据的适应度函数,并使用阈值对其进行限制。模糊遗传算法将对适应度函数进行交叉分配和编译分配,以改进方法的隶属度线性状态,获取更为有效的挖掘结果。实验结果表明,改进后的方法挖掘稳定性较强,挖掘精度较高,且挖掘时间较少。
关键词: 关联规则; 模糊遗传算法; 挖掘技术; 挖掘精度
中图分类号: TN911?34; TP311.13 文献标识码: A 文章编号: 1004?373X(2017)14?0023?03
Abstract: Network data usually appears in the form of explosive gather, which may lead to a bad performance of the association rule mining method proposed in the past. Based on the above reasons, a kind of association rule mining method based on fuzzy genetic algorithm (GA) is put forward in this paper, in which the mining model is built to fuse association rules and fuzzy genetic algorithm, and then give to the fitness function of the waiting mining data, and use threshold to limit it. Fuzzy genetic algorithm is used for cross distribution and compiling allocation of the fitness function to improve the method′s membership degree linear state, and get more efficient mining results. The experimental results show that the improved method has strong mining stability, high mining precision and less mining time.
Keywords: association rule; fuzzy genetic algorithm; mining technology; mining accuracy
隨着数据库技术的迅猛发展,网络用户手中的数据不断增多。数据库系统通常只能对数据进行统计和查询,为了充分利用这些数据中所蕴含的有用信息,网络用户渴望一种能够进行数据信息高效提取的技术的出现[1]。上述情况激发了数据挖掘技术的出现,而关联规则是数据挖掘技术中最为重要的分支之一。网络数据通常以爆炸式的聚集形式出现,导致曾提出的关联规则挖掘方法的挖掘性能不好,高性能的关联规则挖掘方法仍待开发[2]。
1 关联规则中基于模糊遗传算法的挖掘技术研究
数据挖掘技术中的关联规则是一种能够从网络用户数据中提取高频特征集群,并从中挖掘出重点关联项目的方法[3]。模糊遗传算法则是一种高能、全面的项目搜集算法。为此,利用构建挖掘模型的方式将关联规则与模糊遗传算法融合在一起,并对模型进行研究。图1为所提关联规则中基于模糊遗传算法的挖掘方法模型结构。
图1中,将网络用户的待挖掘数据输入到所提关联规则基于模糊遗传算法的挖掘方法模型中,数据库会首先对其进行接收,并给结构化查询器发出挖掘信号。随后,模型中的处理芯片开始使用关联规则计算待挖掘数据的支持度,数据列表将以数字编码的形式显示这一计算过程。
用表示网络用户待挖掘数据中的正数,表示负数,,的取值范围均为。在网络用户待挖掘数据中选取一个数据集群,将其设为映射集群,那么,和在映射集群中同时出现的几率可表示为:
便可用来表示待挖掘数据的初始支持度,为了更好地进行数据挖掘,需要对初始支持度进行加权,用来突出待挖掘数据的各项特征,增强所提关联规则中基于模糊遗传算法的挖掘方法的挖掘精度。
赋予待挖掘数据中所有项目一个权值,并且,用表示所提方法中最终的支持度,其函数表达式为:
使用模糊遗传算法根据式(2)中给出的支持度,对网络用户待挖掘数据的适应度进行计算,适应度计算公式可表示为:
再综合利用关联规则和模糊遗传算法对式(3)中的适应度进行优化,便可挖掘出网络用户待挖掘数据中的关联规则。首先使用模糊遗传算法将待挖掘数据转换成遗传基因,并对其进行编码,此时将产生个位数为的模糊遗传项目,将这些项目以染色体的规则串联成一个新的集群,此时的待挖掘数据适应度可表示为:
2 关联规则中基于模糊遗传算法的挖掘技术改进
隶属度线性状态是评价关联规则挖掘方法稳定性的重要指标。曾提出的关联规则挖掘方法挖掘性能不好的一项重要原因是,这些方法所给出的待挖掘数据适应度没有对模糊区间中的重复数据进行合理筛选,导致自身的隶属度线性状态过于分散或分布不均,且线条数不多,方法稳定性不高。为此,任意给定一个待挖掘数据集群,使用第1节中未进行改进的方法进行数据挖掘,并使用处理芯片对挖掘结果的隶属度线性状态进行虚拟输出,如图2所示(图中隶属度的单位为1)。
由图2可知,所提方法的隶属度线性状态为(213,461,730),该状态虽然分布较为均匀,但过于分散,故应对所提关联规则中基于模糊遗传算法的挖掘方法进行改进,以使方法的隶属度线性能够呈现出一种平均并适度紧凑的分布状态。
将第1节中的挖掘结果设置为含有个染色体的数据遗传集群,集群中的每个数据均可被看作一个隶属度编码。使用式(4)计算出数据遗传集群的适应度,再通过模糊遗传算法对其适应度进行交叉分配和编译分配,以获取适应度的最大和最小值。交叉分配是指将遗传集群适应度看作一维直线,令任意两个一维直线进行交叉的过程;编译分配则是对交叉分配中获取到的交叉点进行编码重组的过程。
将适应度的最大和最小值逆向输入到式(4)中,得出一个与数据遗传集群相对应的集群。则为改进后的挖掘结果,使用处理芯片挖掘结果的隶属度线性状态进行汇总和输出,如图3所示,可以看出,改进后方法的隶属度线性状态已变成(98,312,579,853),比改进前分布更加均匀、紧凑,并且隶属度线性状态的线条数(即图中的垂直虚线)更多。
3 实验分析
3.1 实验环境
对关联规则挖掘方法来说,其挖掘性能主要包括挖掘稳定性、挖掘精度和挖掘时间三个方面。现给出一组大型自然界噪音数据集群,对本文改进方法、关联规则中基于结构化研究的挖掘方法和关联规则中基于特征加权的挖掘方法的挖掘性能进行实验对比分析,实验环境如图4所示。所给集群中含有15个监控节点,共监控到600条噪音特征[4?5]。
3.2 方法挖掘稳定性分析
关联规则挖掘方法的挖掘稳定性主要体现在方法的隶属度线性状态,过于分散并且分布不均的隶属度线性状态均是不佳的,由此可确定出方法的挖掘稳定性。使用本文改进方法、关联规则中基于结构化研究的挖掘方法,以及关联规则中基于特征加权的挖掘方法对大型的自然界噪音数据集群进行数据挖掘。
为了方便记录,将实验结果中隶属度线性状态的分散程度标记为1级、2级、3级、4级和5级,级数越高,隶属度线性状态就越分散[6?7],方法的挖掘稳定性就越强,最佳的分散程度为4级。并且隶属度线性状态的线条数越多,方法的挖掘稳定性也会相应变强。表1为三种方法隶属度线性状态对比表。
由表1可知,與其他两种方法相比,本文改进方法的隶属度线性状态分散程度最佳,并且线条数最多,证明本文改进方法拥有挖掘稳定性强的优点。
3.3 方法挖掘精度和挖掘时间分析
实验中,使用相同规格、型号的处理芯片将三种方法所挖掘出的噪音特征,与大型自然界噪音数据集群中固有的噪音特征进行对比,并输出三种方法的挖掘精度(单位为1)对比曲线,如图5所示。与此同时,使用计时器对三种方法的挖掘工作计时,并记录于表2中。
由图5和表2可知,与其他两种方法相比,本文改进方法的挖掘精度更高、挖掘时间更少。
分析实验结果能够得知,本文改进方法拥有较高水平的挖掘性能。
4 结 论
本文提出一种关联规则中基于模糊遗传算法的挖掘方法。数据挖掘技术中的关联规则是一种能够从网络用户数据中提取高频特征集群,并从中挖掘出重点关联项目的方法。模糊遗传算法则是一种高能、全面的项目搜集算法。本文方法利用构建挖掘模型的方式将关联规则与模糊遗传算法融合在一起,并对模型进行了重点研究。方法还使用模糊遗传算法改进了自身的隶属度线性状态。实验通过对比本文改进方法、关联规则中基于结构化研究的挖掘方法和关联规则中基于特征加权的挖掘方法的各项挖掘性能,证明了本文改进方法拥有较高水平的挖掘性能。
参考文献
[1] 黄宏本.基于改进关联规则的危险Web信息挖掘技术研究[J].现代电子技术,2016,39(6):14?17.
[2] 杨启昉,马广平.关联规则挖掘Apriori算法的改进[J].计算机应用,2008,28(z2):199?200.
[3] 黄毅杰,张艺雪.基于遗传算法的关联规则挖掘研究[J].九江学院学报(自然科学版),2014,29(3):45?48.
[4] 郑玉柱,李建,李珂.基于改进遗传算法的关联挖掘方法研究[J].重庆科技学院学报(自然科学版),2015,17(5):72?76.
[5] 陈艳,褚光磊.关联规则挖掘算法在股票预测中的应用研究:基于遗传网络规划的方法[J].管理现代化,2014,34(3):13?15.
[6] 王慧,张翠羽.基于改进遗传算法的网络差异数据挖掘算法[J].计算机仿真,2015,32(5):311?314.
[7] 郝海涛,马元元.应用Aprion算法实现大规模数据库关联规则挖掘的技术研究[J].现代电子技术,2016,39(7):124?126.