基于Web的数据挖掘技术及应用问题探讨

    孙兴富

    摘要:随着Internet的发展,必然要求对Web信息进行深层次的分析。而有效运用Web数据挖掘技术可以从海量数据中快速、准确地获得有价值的网络信息,并提供个性化的服务。因此,本文通过分析Web数据挖掘的特点及分类,针对常用技术和主要应用方向进行探讨,以其充分发挥web数据挖掘的作用,服务信息化社会。

    关键词:web;数据挖掘;信息服务;常用技术

    1 Web数据挖掘的特点

    万维网目前是一个巨大的、分布广泛的和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web还包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。然而,Web挖掘不仅仅是数据挖掘算法在Web数据上的应用,同传统的数据库数据相比,Web数据具有其特殊性,其特点就是数据没有严格的结构模式,含有不同格式的数据(文本、声音、图像等),面向显示的Html文本无法区分数据类型,并且存在大量的冗余和噪声,同时Web是一个动态性极强的信息源,所以面向Web的数据挖掘研究极具挑战性。

    2 Web数据挖掘的分类

    2.1 web结构挖掘

    Web结构包括不同网页之间的超链接结构和一个页面内部的树形结构,以及文档URL中的目录路径结构等。Web结构可以用有向图表示,页面对应图中的点,超级链接对应图中的边。通过把Web表示成有向图,可以得到从一个站点的主页到它任意一个定点的最短路径,Robot沿最短路径浏览Web站点,就可以以较小的代价发现较多的文档。HITS、PageRank,以及在链接结构中增加了Web内容信息的HITS改进算法等,主要用于模拟Web站点的拓扑结构,计算Web页面的等级和Web页面之间的关联度,典型的例子是CleverSystem和Google等。

    2.2 Web内容挖掘

    Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程,它分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘可以对Web上大量的文档集合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势分析等。Web多媒体挖掘主要是指通过对Web上的音频、视频数据和图像进行预处理,应用挖掘技术对其中潜在的、有意义的信息和模式进行挖掘的过程。

    2.3 Web访问挖掘

    对于一个网站而言,网页浏览量、点击数、独立IP访问数等参数是反映这个网站用户访问情况的重要指标,通过对网站LOG文件的分析,可以获得网站访问情况的详细统计数据。针对这些统计数据进行的数据挖掘,属于静态的Web访问记录的数据挖掘,可以有效地提高网站的服务。例如:通过分析访问者的来源,可以使一个网站有针对性地提供内容;通过分析每天各个时段访问者人数的变化,网站可以调整每天内容更新的时间。

    3 Web数据挖掘的常用技术

    Web数据挖掘中常用的技术有数据挖掘领域常用的分类聚类技术、关联规则技术 序列模式技术和Web特有的路径分析技术等。

    3.1分类聚类技术

    数据分类技术可以通过挖掘数据中的某些共同特性从而对数据项进行分类。在Web数据挖掘中,分类技术可以根据捕获的Web访问用户的个人信息或共同的访问模式得出访问某一服务器文件的用户特征。常用的数据分类技术有:判定树归纳、贝叶斯分类和贝叶斯网络、神经网络、基于案例的推理、遗传算法、粗糙集方法和模糊集方法。

    聚类是一个将物理或者抽象对象的集合分组成由类似的对象组成的多个类或簇的过程。聚类分析技术能用于对Web上的文档进行分类,已发现信息。聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对某些簇做进一步的分析。常用的聚类算法大体上可以划分为几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。

    3.2 关联规则挖掘技术

    关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。在Web挖掘中,关联规则挖掘就是要挖掘出用户在一个访问会话期间从服务器上访问的页面或文件之间的联系,这些页面之间可能并不存在直接的引用关系。最常用的算法是Aprior算法,它从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。

    3.3 时间序列模式挖掘技术

    时间序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,用户的访问是以一段时间为单位记载的。经过数据净化和事件交易确认得到一个间断的时间序列,这些序列所反映的用户行为有助于帮助商家印证其产品所处的生命周期阶段。

    3.4 路径分析技术

    用路径分析技术进行Web数据挖掘时,最常用的是图。因为Web可以用一个有向图来表示,G=(V,E),V是页面的集合,E是页面之间的超链接集合。页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点V的入边表示对V的引用,出边表示V引用了其它的页面。

    4 Web数据挖掘的主要应用

    4.1 Web数据挖掘在电子商务方面的应用

    Web挖掘这方面的应用可以为企业更有效的确认目标市场、改进决策获得更大的竞争优势提供帮助,从中可得到商家用于特定消费群体或个体进行定向营销的决策信息。电子商务方面的Web挖掘功能主要是如下几个方面:首先,客户分类和客户聚类。对Web的客户访问信息进行挖掘。对客户进行分类分析。应用聚类分析对客户进行分组,并且分析组中客户的共同特征,这样就可以让商家更好了解自己的客户,向客户提供更有针对性的服务。其次是找到潜在的客户。在对Web的客户访问信息的挖掘中,利用分类技术可在因特网上找到未来的潜在客户。最后保留客户的驻留时间。对于客户而言,在网上每个销售商对于客户来说都是样的,如何尽量使客户在自己的网上驻留更长的时间,这样对于商家才能有更多客户和更大的利润空间。

    4.2 Web数据挖掘在网络教育中的应用

    教育网络化的趋势不仅为学生提供了便利的学习方式和广泛的选择,也为学校提供了更加深入了解学生需求信息和学生行为特征的可能性。由于受教育对象个体之间存在着极大的差异性,网络教学也必须是一种适应个别化学习需求的个性化教学。这种个性化教学的提供。是通过将传统的数据挖掘M Web结合起来。进行Web数据挖掘,即从Web文档和Web活动中抽取学生感兴趣的潜在的有用模式和隐藏的信息,作为对学生提供个性化教学服务的依据,协助管理者优化站点结构。提高站点效率,更好地为网络教育服务。

    4.3 在网站设计中的应用

    在网站设计方面中的应用,主要是通过对网站内容的挖掘。特别是对文本内容的挖掘,可以有效地组织网站信息。如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户感兴趣的信息。从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。

    结束语

    社会的发展离不开信息的传播与使用,在数据急剧增长的情况下,如何高效的检索到用户需要的信息显得更加重要。Internet作为世界上最大的信息库,分布于世界各地数以亿计的网页以及站点,为Web挖掘大发展提供了前提条件。 随着Internet的进一步发展,Web挖掘在信息的准确检索、个性化的信息服务、开展有针对性的电子商务、构建智能化的web站点起到重要作用,Web挖掘技术在实际生活中也会越来越重要。

    参考文献

    [1]毛国君等著.数据挖掘原理与算法,2005,7

    [2]范明等译.数据挖掘--概念与技术[M].机械工业出版社.2004

    [3]李琳等.基于web的数据挖掘技术.自动化与仪表.2007,2