基于机器学习技术的网站用户行为预测

徐冬 肖莹慧



关键词: 行为预测; logistic回归; 用户行为; 数据集分类; 机器学习; 留存分析
中图分类号: TN919?34; TP391 ? ? ? ? ? ? ? ? 文献标识码: A ? ? ? ? ? ? ? ? ? ?文章编号: 1004?373X(2019)04?0094?03
Website user behavior prediction based on machine learning technology
XU Dong, XIAO Yinghui
(Wuhan College, Wuhan 430212, China)
Abstract: In allusion to the problems of low user retention degree, conversion rate and loyalty in the website, taking a tourist website as an example, an accessing user behavior prediction model is proposed for the tourist website on the basis of the machine learning technology of logistic regression. The behavior data sets of website users are preprocessed by means of the model. The data sets are classified according to the fixed proportion. It is verified that the data set classification follows the same statistical distribution. The model corresponding to the logistic regression machine learning algorithm is established to predict the behavior of website users. The prediction results show that the model can predict website users′ behavior accurately.
Keywords: behavior prediction; logistic regression; user behavior; data set classification; machine learning; retention analysis0 ?引 ?言
随着经济和社会的快速发展,我国的旅游业市场异常繁荣,从业的旅游网站迅速增加,这也导致旅游网站之间的竞争日趋激烈。在旅游网站的经营中,源源不断的用户来源是其存在的前提和基础。诸多旅游网站每天均有海量的用户访问,但在这些访问行为中,绝大多数的用户最终均会流失。通过提取访问用户的消费等信息,使用机器学习技术预测用户的留存情况,旅游网站便可充分了解用户的流失原因和消费喜好,从而提高用户的体验与网站的服务水平。所以,如何使用机器学习技术留存和转化大量的用户,成为了旅游网站所面临的重大问题。
目前,众多研究者对网站的用户流失问题进行了深入的研究[1?4],这一问题的研究也有较多可以参考的方法[5?8]。为了解决旅游网站的用戶流失问题,基于logistic回归算法[9?10],本文建立用户行为预测模型,该模型可以准确地预测用户的行为。通过软件的计算结果可知,使用logistic回归算法的预测模型具有更加准确的预测效果。1 ?机器学习
机器学习是使用计算机模拟人类学习行为,从而使机器也具有认知和理解能力的一种技术。其基本原理如图1所示。
在一般的系统流程中,系统接收输入的信息之后,输出被处理过的信息。而使用机器学习的系统,是在常规的系统之外,添加一个可以影响系统处理设备的学习机。该设备可以使用一定数量的训练数据估计系统输入和输出之间的关系,当接收到正常的输入数据之后,学习机预测得到未知的输出结果。
一般而言,机器学习可分为监督学习和自主学习。其中,监督学习是使用具有目标变量的训练数据进行训练,可以比较精确地预测训练以外数据的目标变量。监督学习技术主要有logistic回归、随机森林算法和神经网络算法等。自主学习是使用没有目标变量的训练数据训练,寻找数据的内部规律,即目标变量是模糊的,常见的算法有k?means聚类分析、系统聚类法等。因只涉及到logistic回归,所以本文不再介绍自主学习算法。2 ?logistic回归
logistic回归是常被用于因变量分类的统计分析算法,logistic回归的因变量既可以是二分类,也可以是多分类,这里简要介绍多分类的logistic回归模型。
2.1 ?logistic函数
1838年,统计学家P.F.Verhuist在研究人口数量的统计中,首次提出logistic函数。令[p]表示事件[y=1]的概率,则logistic变换的表达式为:
[z=logitp=lnp1-p]
使用这一公式便可得到logistic函数(也被称为Sigmoid函数)的公式,即:
[p=11+e-z]
式中,[p∈0,1]。
2.2 ?逻辑回归模型
首先,已知:
[lnp1-p=β0+β1x1+…+βpxp+ε]
根据上式可以建立线性回归模型,而变量[x1,x2,…,xp]可以取任意值,令[gx=β0+β1x1+…+βpxp],可知:
[py=1=11+e-z]
[py=0=1-11+e-z=11+ez]3 ?用户行为预测模型
在本文中,以某旅游网站为研究对象,使用logistic回归和随机森林算法对该旅游网站的用户购买行为进行分析及预测,从而挖掘用户的流失原因。最终完善网站的产品设计,提升用户的体验和忠诚度。本文使用该网站2016年7月15日—7月21日的用户访问数据,这些数据包含用户信息、酒店和浏览信息。其中,用户的总数为348 596,指标总数为35个。用户行为预测流程如图2所示。一般而言,logistic回归主要被用于目标变量和多个自变量之间关系的研究。基于spss 17.0的软件平台,本文使用logistic回归模型对网站用户的行为进行预测。
3.1 ?建模流程
首先,为了使用logistic回归模型进行预测,文中需要将训练数据导入spss 17.0软件中,依次点击“分析”“回归”和“二元logistic”,选择因变量“label”,确定“hotel_comment_nums”与“id”等其他协变量,点击“标准化”“偏差”和“杠杆值”等选项,然后点击“继续”。在选项中,需要选择“分类图”“ Hosmer?Lemeshow拟合度”“exp(B)”三项内容;输出选项中,选择“在最后一个步骤中”,步进概率选项中,选择默认设置即可。
设置完成所有的参数之后,点击软件的继续按钮,即可得到相应的结果。
3.2 ?模型结果
在软件运行之后,得到一系列的运行结果,包括分类表、显著性检验、模型汇总、预测方程和评估分析等。
1) 已知该模型在设置参数初始值之后,进行多次迭代,最终达到收敛状态。此时的参数值就是模型的参数。在运行完成之后,已知logistic回归模型的准确率为67.8%,其覆盖率是32.89%,其F值是43.76%。具體的分类如图3所示。
2) 本文对logistic回归模型的系数进行了显著性检验。经过软件的运行可知,若显著性水平[α=0.05],自由度[df=21],计算可知卡方统计量[χ2=4 714.658],其临界值为[χ2临=32.589 2],即[χ2]远大于[χ2临]且[p=0?α=0.05],所以logistic回归模型通过显著性检验。
3) 本文对该模型进行了汇总,得到3个统计值,其统计结果如表1所示。[ 已观测 已预测 label 百分比 0 1 步骤1 Label 0 24 298 3 536 87.6 1 10 879 5 198 32.8 总计百分比 67.8 ]
由表1可知,该模型的对数似然值52 829.756,远大于[χ2临=32.589 2],这表明该模型的最大对数似然值通过了统计检验。
4) 由[p<0.05]可知,变量对整体模型具有显著的影响,所以可得到模型的预测方程,其具体形式如下:
[py=1=1exp(0.644+0.566*visit_to_buy+1.402*nums_visit-0.09*]
[land_time+0.066*perfer_star-0.238*nums_order+0.054*]
[fir_order_bu-0.176*weight_cust_value-0.074*hotel_uv-]
[0.125*hotel_cr+0.075*low_price-0.086*weight_perfer_busi-]
[0.051*cr_prefer-0.385*cust_cr-0.103*weight_comment_num]
[0.075*last_order_diff-0.064*cust_visit_pages)]
5) 基于测试数据,本文还对该模型的预测结果[py=1]进行了计算,获取了用户留存的概率。表2列出了部分计算结果,需要说明的是,若概率大于0.5,则认为该用户的留存值是1,否则是0。
经过软件的统计,本文一共对14 630组测试数据进行预测,模型预测的准确率是67.59%。其中,正样本的预测准确率是32.99%,负样本的预测准确率是87.58%。综上所述,使用logistic回归算法的机器学习技术,可以较为准确地预测旅游网站用户的行为。
4 ?结 ?语
基于旅游网站中的大量用户数据,本文使用logistic回归的机器学习技术,建立能够预测网站用户留存的计算模型,并得到了相对准确的预测方程。经过软件的计算可知,该模型的预测准确率达到了67%。
参考文献
[1] 孟杰.基于用户行为的异常检测系统研究与实现[D].南京:东南大学,2009.
MENG Jie. Research and implementation of anomaly detection system based on user behavior [D]. Nanjing: Southeast University, 2009.
[2] 陆悠,李伟,罗军舟,等.一种基于选择性协同学习的网络用户异常行为检测方法[J].计算机学报,2014,37(1):28?40.
LU You, LI Wei, LUO Junzhou, et al. A network users′ abnormal behavior detection approach based on selective collaborative learning [J]. Chinese journal of computers, 2014, 37(1): 28?40.
[3] 张阔.基于机器学习的电信网络用户行为分析研究[D].北京:北京邮电大学,2014.
ZHANG Kuo. Analysis of user behavior in telecommunication networks based on machine learning [D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[4] 陈胜,朱国胜,祁小云,等.基于机器学习的网络异常流量检测研究[J].信息通信,2017(12):39?42.
CHEN Sheng, ZHU Guosheng, QI Xiaoyun, et al. Research on abnormal network traffic detection based on machine learning [J]. Information & communications, 2017(12): 39?42.
[5] 毕猛,王安迪,徐剑,等.基于离散马尔科夫链的数据库用户异常行为检测[J].沈阳工业大学学报,2018,40(1):70?76.
BI Meng, WANG Andi, XU Jian, et al. Anomaly behavior detection of database user based on discrete?time Markov chain [J]. Journal of Shenyang University of Technology, 2018, 40(1): 70?76.
[6] 许智,李红娇,陈晶晶,等.基于机器学习的用户窃电行为预测[J].上海电力学院学报, 2017,33(4):389?393.
XU Zhi, LI Hongjiao, CHEN Jingjing, et al. Prediction of user stealing behavior based on machine learning [J]. Journal of Shanghai University of Electric Power, 2017, 33(4): 389?393.
[7] 刘健岚.认知无线电中基于机器学习的频谱接入研究[D].北京:北京邮电大学,2017.
LIU Jianlan. Research on spectrum access based on machine learning in cognitive radio [D]. Beijing: Beijing University of Posts and Telecommunications, 2017.
[8] 刘鹏飞.客户网购行为分析及预测系统研究[D].唐山:华北理工大学,2016.
LIU Pengfei. The research of customer′s online shopping behavior analysis and prediction system [D]. Tangshan: North China University of Science and Technology, 2016.
[9] 张晓艳.基于机器学习的网络异常流量检测方法[J].现代电子技术,2015,38(23):76?79.
ZHANG Xiaoyan. Research on network anomaly traffic detection method based on machine learning [J]. Modern electronics technique, 2015, 38(23): 76?79.
[10] 王萍.基于大数据技术的网络异常行为分析监测系统[J].电子技术与软件工程,2017(24):172?173.
WANG Ping. Network anomaly behavior analysis and monitoring system based on big data technology [J]. Electronic technology & software engineering, 2017(24): 172?173.