基于数据挖掘技术的微博热点话题预测

张贵红+李中华
摘 要: 微博热点话题受到多种因素的影响,具有强烈的非线性变化特点,为了获得理想的微博热点话题预测结果,提出基于数据挖掘技术的微博热点话题预测模型。首先对当前微博热点话题的研究现状进行分析,指出当前微博热点话题预测模型的局限性,然后采用数据挖掘技术,即支持向量机对微博热点话题进行建模与分析,最后采用仿真实验对微博热点话题的预测性能进行分析。结果表明,数据挖掘技术可以描述微博热点话题的变化特点,提高了微博热点话题的预测准确性。
关键词: 数据挖掘; 网络技术; 微博话题; 预测模型
中图分类号: TN911.1?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)15?0052?04
Abstract: The micro?blog hot topic affected by various factors has the characteristic of strong nonlinear change. In order to obtain the ideal forecasting results of micro?blog topic, a micro?blog hot topic forecasting model based on data mining technology is proposed. The current research status of micro?blog hot topic is analyzed to point out the limitations of the current micro?blog hot topic prediction model. The data mining technology (support vector machine) is used to analyze and model the micro?blog hot topic. The simulation experiment is used to analyze the forecasting performance of the micro?blog hot topic. The results show that the data mining technology can describe the change characteristic of micro?blog hot topic, and improve the forecasting accuracy of the micro?blog hot topic.
Keywords: data mining; network technology; micro?blog topic; forecasting model
0 引 言
随着互联网的不断发展,出现了微博热点话题,指人们对某个问题的议论和评价。微博热点话题有直接性、突发性、偏差性等变化特点,传播速度快,影响大[1]。一些负面的微博热点话题会对国家安全、社会稳定性产生不利影响,而微博热点话题预测可以了解将来变化态势,因此微博热点话题的预测成为网络舆情研究领域中的重要研究方向[2?3]。
微博热点话题建模与预测主要采用时间分析方法,它们将微博热点话题历史样本看作按时间变化的数据,可以划分为传统方法和现代方法两种类型[4],传统方法有指数平滑、线性回分、灰色模型等[5?7],微博热点话题预测精度低,这主要是因为微博热点话题受到多种因素的作用,其中人为因素影响最为严重,具有强烈的时变性,传统模型无法准确描述该变化特点,其应用范围受到一定的限制[8]。现代方法主要采用数据挖掘技术,有神经网络、支持向量机等[9?11],获得比传统模型更加理想的预测结果。神经网络要求收集大量的微博热点话题历史数据,否则预测结果不可靠;相对于神经网络,支持向量机要求的微博热点话题样本相对较少,且预测结果要优于神经网络,实际应用范围更广[12]。在实际应用中,要获得理想的微博热点话题预测结果,首先选择支持向量机核函数,并且估计其参数,当前采用遗传算法、粒子群优化算法等进行参数估计,但它们自身存在不可克服的缺陷,如收敛速度慢、易找到局部最优解,对微博热点话题预测结果产生不利影响[13]。
为了获得理想的微博热点话题预测结果,提出基于数据挖掘技术的微博热点话题预测模型,采用支持向量机构建微博热点话题预测模型,并采用量子粒子群优化算法确定支持向量机的参数,结果表明,本文模型提高了微博热点话题的预测精度。
1 量子粒子群优化算法和支持向量机
1.1 量子粒子群优化算法
设粒子的位置和速度向量分别为和粒子和种群的最优位置分别为和在粒子对问题求解过程中的第代,粒子的位置和速度向量更新方程为:
为了分析量子粒子群算法的优越性,采用两个函数进行仿真测试,函数具体定义为:
两个函数的仿真测试结果如图1所示。可以发现,相对于粒子群优化(PSO)算法,QPSO算法的速度显著加快,获得了较高的收敛精度。
1.2 支持向量机
采用函数将训练样本映射到高维空间中,支持向量机的回归方程为:
2 数据挖掘技术的微博热点话题预测步骤
Step1:采集具体一个微博热点话题变化的历史样本,并去除一些奇异的数据点。
Step2:初始化粒子群,每一个粒子的位置表示支持向量机参数。
Step3:将微博热点话题的训练样本输入到支持向量机进行学习,估计粒子的适应值得到粒子群的最优位置
Step4:对粒子群进行分群,最优适应值的序号为相应的最优解为,。
Step5:更新和(),计算并与比较,确定
Step6:更新粒子的适应值,更新子群的与种群的最优解。
Step7:根据最优粒子群位置得到支持向量机的最优参数。
Step8:根据最优参数建立微博热点话题预测模型。
基于数据挖掘技术的微博热点话题预测流程如图2所示。
3 仿真测试
3.1 数据源
为了分析基于数据挖掘技术的微博热点话题预测性能,采用VC++ 6.0编程实现微博热点话题预测模型,选择“薄熙来案”作为微博热点话题预测对象,选择最后50个微博热点话题对模型的泛化能力进行测试。
对微博热点话题数据进行归一化处理,具体为:
式中和为最小值和最大值。
选择BP神经网络和粒子群优化支持向量机(PSO?SVM)进行对比实验,采用微博热点话题预测精度作为性能分析指标。
3.2 结果与分析
本文模型的微博热点话题预测结果如图4所示,从图4可以发现,本文模型能够对微博热点话题的变化特点进行精确刻画,微博热点话题的预测误差很小,预测结果十分稳定,而且预测结果可靠,预测结果可以为网络舆情管理者提供有用的信息。
本文模型与对比模型的微博热点话题预测精度见表1,对比发现:
(1) BP神经网络的微博热点话题预测误差最大,这表明BP神经网络不能对微博热点话题的变化特点进行准确建模,预测精度低。
(2) 相对于BP神经网络,PSO?SVM的微博热点话题预测误差下降,主要是由于支持向量机的非线性建模能力更优。
(3) 相对于BP神经网络和支持向量机,本文模型的微博热点话题预测结果有了明显的改善,有效降低了微博热点话题的预测误差,获得了十分理想的微博热点话题的预测结果。
4 结 语
微博热点话题是当前网络舆情研究中的焦点,由于受到多种因素的作用,变化十分复杂,导致当前微博热点话题预测精度低,为此,提出基于数据挖掘技术的热点话题预测模型,采用数据挖掘技术中的支持向量机对微博热点话题进行分析和建模,并对支持向量机的参数进行优化,实验结果表明,本文模型获得了十分理想的微博热点话题预测结果,预测结果可靠,具有广泛的应用前景。
参考文献
[1] 王来华.舆情研究概论:理论?方法和现实热点[M].天津:天津社会科学院出版社,2007.
[2] 刘志明,刘鲁.微博网络舆情中的意见领袖识别及分析[J].系统工程,2011,29(6):8?16.
[3] 毛佳昕,刘奕群,张敏,等.基于用户行为的微博用户社会影响力分析[J].计算机学報,2014,37(4):791?798.
[4] 许晓东,肖银涛,朱士瑞.微博社区的谣言传播仿真研究[J].计算机工程,2011,37(10):272?274.
[5] 张一文,齐佳音,方滨兴,等.基于贝叶斯网络建模的非常规危机事件网络舆情预警研究[J].图书情报工作,2012,56(2):76?80.
[6] 郭浩,陆余良,工宇,等.基于信息传播的微博用户影响力度量[J].山东大学学报,2012,47(5):78?83.
[7] 韩忠明,张玉沙,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件,2012,29(10):89?93.
[8] 傅向华,刘国,郭岩岩,等.中文博客多方面话题情感分析研究[J].中文信息学报,2013,27(1):47?55.
[9] 方薇,何留进,宋良图.因特网舆情传播的协同元胞自动机模型[J].计算机应用,2012,32(2):399?402.
[10] 聂恩伦,陈黎,王亚强,等.基于K近邻的新话题热度预测算法[J].计算机科学,2012,39(6):257?260.
[11] 张晨逸,孙建伶,丁轶群.基于MB?LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795?1802.
[12] 廉捷,周欣,曹伟,等.新浪微博数据挖掘方案[J].清华大学学报(自然科学版),2011,51(10):1300?1305.
[13] 路荣,张肠,杨青.社交网络中新闻趋势的预测分析[J].中文信息学报,2012,26(6):85?90.