高相似度英语词语自主选取系统设计

李芳
摘 要: 针对传统的基于支持向量机的高相似度英语词语自主选取系统一直存在选取效果差、精度低的问题,提出一种基于数据挖掘的高相似度英语词语自主选取系统设计方法。首先根据英语词语的相似度概念,计算出两个英语词语义项的最短路径与其距离最近的公共父节点之间的深度。利用数据挖掘法将英语词语文本特征选择转换为一个多目标优化问题;然后以英语词语特征维数最少、分类正确率相对最高为选取标准,采用蚁群算法找到英语词语的最优特征子集;最后通过建立神经网络分类器完成高相似度英语词语自主选取系统设计。实验结果证明,所提方法可以精确地选取出高相似度英语词语,且选取时间较短,实用性广泛。
关键词: 高相似度英语词语; 数据挖掘; 自主选取; 系统设计
中图分类号: TN02?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)23?0147?04
Abstract: Since the traditional high?similarity English words autonomous selection system based on support vector machine has the problems of poor selection effect and low accuracy, a design method of high?similarity English words autonomous selection system based on data mining is put forward. According to the similarity concept of English words, the shortest path of the semantic item between the two English words and its nearest depth among the common parent nodes are calculated. The data mining method is used to convert the text feature selection issue of English words into a multi?objective optimization problem. Taking the least English words feature dimensions and relatively?high classification accuracy as the selection standards, the ant colony algorithm is adopted to find out the optimal feature subset of English words. The neural network classifier is established to complete the design of the high?similarity English words autonomous selection system. The experimental results show that the proposed method can select the English words with high similarity accurately, and has short selection time and broad practicability.
Keywords: high?similarity English word; data mining; autonomous selection; system design
0 引 言
英语词语之间的语义相似度研究课题作为自然语言处理和计算机人工智能的基础性研究[1?3],如选取、搜索、分类以及歧义消除等,需要依赖于包含现实世界概念的知识体系[4]。英语词语的相似度是对英语词语之间语义相似紧密程度的度量,在机器翻译、数据信息检索等方面具有重要的实用价值[5]。在不同的实际应用场景中,英语词语相似度具有不同的用途[6]。另外,在构造统计英语词语语言模型的过程中,由于数据分布稀疏导致未登录英语词语的统计信息无法计算的问题[7],需要进行高相似度英语词语自主选取系统设计。在国内,随着计算机人工智能的不断发展,更准确地进行高相似度英语词语自主选取系统设计引起了很多国内外专家与学者的重视。
文献[8]提出基于朴素贝叶斯的高相似度英语词语自主选取系统设计,首先介绍知网中的英语词语相似度基本概念和体系结构,利用知网的义原层次体系结构计算得到英语词语的义原相似度,计算出英语词语概念的相似度;然后通过支持向量机分类器完成自主选取系统设计。该方法较为简单,但是存在英语词语相似度计算不清的问题,导致在自主选取過程中准确率不高。文献[9]提出基于Corpus库的高相似度英语词语自主选取系统设计,首先构建英语词语语义关联库,利用该库使英语词语空间与关系空间结构化,保存英语词语与其上下文之间的总体信息,通过阅读大量的英语词语语料数据来训练相似度英语词语的相关数据,并对训练过程中涌现的大量英语词语关系进行剪裁,利用朴素贝叶斯分类器完成对高相似度英语词语的自主选取。该方法存在对高相似度英语词语的自主选取时间过长,且英语词语的相似度计算准确率较低的问题。
针对上述问题,本文提出一种基于数据挖掘的高相似度英语词语自主选取系统设计方法,所提系统设计方法可以精确地选取出高相似度英语词语,且选取时间较短,实用性广泛。
1 高相似度英语词语自主选取系统设计
1.1 高相似度英语词语选取系统设计
考虑到人们对高相似度英语词语自主选取系统设计需求的精准性与灵活性[10],将英语词语的相似度计算结果与数据挖掘特点相结合,设计出一种高相似度英语词语自主选取系统,如图1所示。
本文高相似度英语词语的自主选取系统设计对硬件系统设计不作考量,主要研究软件和算法。
1.2 基于路径和深度的英语词语高相似度计算方法
1.3 基于数据挖掘的高相似度英语词语自主选取
为了能够有效地在网络中挖掘出高相似度英语词语,在处理两个英语词语义项的最短路径与其距离最近公共父节点的基础上,利用数据挖掘将英语词语文本特征选择转换为一个多目标优化问题;然后以英语词语特征维数最少、分类正确率相对最高为选取标准,采用蚁群算法找到英语词语的最优特征子集;最后通过神经网络建立英语词语相似度文本自动分类器。具体描述过程如下:
式中:[σ]为英语词语神经网络隐节点宽度;[c]表示英语词语第[r]个神经网络隐节点中点;[w]为英语词语神经网络输出权值。参数[w,][c,][σ]对神经网络分类起决定性作用,要想获得高性能神经网络,需要对参数进行优化。在此基础上完成对高相似度英语词语的自主选择。
2 实验结果与分析
实验环境建立的PC机配置为:CPU Core i7?4790 3.60 GHz,RAM=4 GB,Windows7操作系统,通过Java语言编写实现。实验过程中设置32个存储节点,每个节点的最大存储容量为1 TB,数据通道为2 000 Mb/s,英语词语文本采集与数据存储均为10 TB。根据参与对比的系统设计使用的英语词语语义资源所收录的英语词语情况,本文从该英语词语测试集中筛选出一些无法计算的英语词语对,最终结果保留10对英语词语用于测试,如表1所示。
从表1中可以看出,[S1]的英语词语相似度计算结果在数值上普遍较低,主要是由于基于Corpus库的高相似度英语词语自主选取系统设计方法考虑众多英语词语特征,加上一些其他干扰因素的影响,从而造成英语词语特征高维向量的相似度普遍偏低;[S2]数值跨度较大,这是由于基于百度百科的高相似度英语词语自主选取系统设计方法通常情况下在某些方面与人工思维没有较好的符合。
利用1.3节中的平衡最大英语词语特征识别率与英语词语特征维数的权值[λ,]对高相似度英语词语自主选取系统设计方法的选取效率影响,如图2所示。
由图2可知,选取参与测试的英语词语数据集为700个,选取英语词语测试数据为200,400,600时对应的高相似度英语词语自主选取系统设计的选取效率,其中,当[λ=1]时,高相似度英语词语自主选取系统设计的选取效率分别为30%,38%和60%;当[λ=3]时,高相似度英语词语自主选取系统设计的选取效率分别为42%,48%和72%;当[λ=5]时,当高相似度英语词语自主选取系统设计的选取效率分别为60%,70%和90%。通过分析可知平衡最大英语词语特征识别率与英语词语特征维数的权值[λ]在区间[1,5]时,本文所提系统设计方法的选取效率最高。
3 结 语
采用当前系统设计方法对高相似度英语词语进行自主选取时,存在选取效率低、选取时间过长等问题。本文提出基于数据挖掘的高相似度英语词语自主选取系统设计方法。通过实验证明,所提系统设计方法可精确地对高相似度英语词语进行自主选取,具有良好的应用价值。
参考文献
[1] 黃宏涛,程清杰,万庆生,等.基于语义信息内容的FCA概念相似度计算方法[J].计算机应用研究,2015,32(3):731?735.
[2] 陈海燕.基于搜索引擎的词汇语义相似度计算方法[J].计算机科学,2015,42(1):261?267.
[3] 王立印,张辉,陈勇.一种基于Dice?Euclidean相似度计算的协同过滤算法[J].计算机应用研究,2015,32(10):2891?2895.
[4] 李中,刘洋洋,张铁峰.基于形态相似距离的时间序列相似度计算[J].计算机工程与设计,2016,37(3):679?683.
[5] 王涛,覃锡忠,贾振红,等.基于相似度和信任度的关联规则微博好友推荐[J].计算机应用,2016,36(8):2262?2267.
[6] 郭胜国,邢丹丹.基于词向量的句子相似度计算及其应用研究[J].现代电子技术,2016,39(13):99?102.
[7] 于蕾,吴强.一个基于社区相似度分析的物流网络优化算法[J].现代电子技术,2016,39(6):45?48.
[8] 薛苏琴,牛永洁.基于向量空间模型的中文文本相似度的研究[J].电子设计工程,2016,24(10):28?31.
[9] 王俊华,左万利,闫昭.基于朴素贝叶斯模型的单词语义相似度度量[J].计算机研究与发展,2015,52(7):1499?1509.