用户行为数据分析下的信息推送系统的设计

沈军彩



摘 要: 针对在信息推送过程中难以计算出用户行为数据分析下信息推送指标的权重输出,存在信息推送针对性差,信息推广转化率低的问题,提出一种基于模糊遗传的用户行为数据分析下的信息推送系统设计方法。将互联网用户抽象为结构化数据信息本体,计算出用户行为数据下各词汇的TF?IDF指标,建立用户行为数据下的行为?主题分布模型和主题?词汇分布模型,得到用户行为数据下所有主题?词汇的联合分布,利用向量模型匹配关键词思想理论确定关键词在文档中的权重,通过用户查询与结果记录词条间的关联性计算,得到用户行为数据下不同信息推送指标的权重输出,由此完成用户行为数据分析下的信息推送系统设计。实验结果表明该方法能够有效提高信息推送的准确性,且可扩展性较强。
关键词: 用户行为; 数据分析; 信息推送; 系统设计
中图分类号: TN915?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)17?0158?04
Design of information push system under user behavior data analysis
SHEN Juncai
(Faculty of Information and Computer, Shanghai Business School, Shanghai 201204, China)
Abstract: The current method to push information is difficult to calculate the output weight of information push index under user behavior data analysis, and has poor pertinency and low percent conversion of information push. Therefore, a fuzzy genetic based design method of information push system under user behavior data analysis is proposed. The Internet users are abstracted as structural data information ontology by means of the method to calculate the TF?IDF index of each vocabulary under user behavior data. The behavior?theme distribution model and theme?vocabulary distribution model under user behavior data were established to get all theme?vocabulary joint distributions under user behavior data. The theory of vector model marching keyword is used to determine the weight of keyword in the file. The correlation between entries is calculated by means of user query and result recording to get the output weight of different information push indexes under user behavior data, so as to design the information push system under user behavior data analysis. Experimental results show that the method can improve the accuracy of information push effectively, and has strong scalability.
Keywords: user behavior; data analysis; information push; system design
0 引 言
近年來,随着我国科学技术的飞速发展,互联网和云计算等技术不断地影响和改变着人们的日常生活。当今社会互联网是人们日常生活中获取外界信息的主要来源,也是人们进行信息共享、赢得商机的重要媒介[1?2]。因此,人们对及时获取信息服务的需求随着信息技术的高度发展而逐渐增强,信息推送服务已经在京东、百度、亚马逊等互联网电商以及信息服务企业中得到了广泛的应用,有效的信息推送服务可以方便用户快速找到个人真正需要的信息,减少互联网的使用成本以及用户个人寻找有用信息时所花费的时间,但是由于现阶段的信息推送服务缺少对互联网用户个人的时间、喜好以及用户存在的购买能力等各方面因素的考虑,导致推送信息泛滥以及信息推送时缺乏精准性,且随着数据库技术的迅速发展,大量的网络信息如潮水般呈现在用户面前,使得信息用户感到无所适从[3?4]。在这种情况下,如何有效地从大量的信息数据中挖掘和提取对用户有用的信息,并对用户推送有针对性的信息服务,提高信息对用户的应用价值,成为该领域亟需解决的重要技术难题,受到了有关专家学者的高度关注[5]。
文献[6]提出一种基于用户画像的用户行为数据分析下的信息推送系统设计方法。该方法先获取用户行为数据下的详情表,并对所述用户行为数据下详情表中的用户画像进行数据分析与计算,得到用户行为数据下的特征权重表,根据用户行为数据权重表中的目标用户行为特征权重信息与反馈处理结果对用户兴趣信息进行修正,实时改进用户信息推送模型的精度。由此完成用户行为数据分析下的信息推送系统设计。该方法能够为用户搜索出相似产品从而缩短用户个人的搜索时间,但存在预测精度较低的问题。文献[7]提出一种基于ERP的用户行为数据分析下的信息推送系统设计方法。该方法先获取用户的历史行为数据,对获取的数据进行分析与计算,并预先设定用户行为数据下的角色规则,计算出用户的历史行为数据对应的用户系统角色,根据用户行为数据下预设的系统角色与用户关注信息类型的映射关系,将该项待推送的信息推送给被系统角色锁定的用户。该方法的信息推送准确性较高,但存在计算过程较为繁琐且消耗时间较长的问题。文献[8]提出一种基于相似度的用户行为数据分析下的信息推送系统设计方法。该方法先对用户历史行为数据进行分析,通过计算这些信息数据间的属性相似度,得到用户的兴趣信息类型,将未被用户浏览过的信息与用户浏览过的兴趣信息进行相似度匹配,进而判断该信息是否为用户感兴趣的信息,从而对该用户进行无人工干预的用户信息推送服务。该方法可以从侧面了解用户的需求,但存在预测局限性较大的问题。
针对上述问题,本文提出一种基于模糊遗传的用户行为数据分析下的信息推送系统的设计方法。实验结果表明,所提方法能够有效提高信息推送的准确性,且可扩展性较强。
1 用户行为数据分析下的信息推送系统设计
1.1 用户行为数据分析下的信息推送流程
在进行用户行为数据分析下的信息推送系统设计过程中,先对用户行为数据进行分析处理,计算出用户行为数据下各词汇的TF?IDF指标,建立用户行为数据下的行为?主题分布模型和主题?词汇分布模型,在此基础上对用户行为对应的词汇向量进行计算[9?10],提取用户随机行为数据下的信息本体,具体过程如下所述。
假设代表用户搜索的主题集合;代表用户行为数据集合;代表用户行为数据中所用的词汇个数;代表先验参数。首先对用户行为数据进行分析处理,将用户行为数据下的非文本信息进行过滤,利用式(1)计算出用户行为数据下各词汇的TF?IDF指标:
(1)
式中:TF代表用户行为数据下的词项频率;代表用户行为数据下的逆文档频率;代表用户行为数据下的词汇出现过的行为集;代表用户行为数据下的某一行为记录;代表用户行为数据下词汇在中出现的次数;代表用户行为数据下搜索的主题在中出现的次数。在先验参数为的Dirichlet分布中抽取用户行为数据下各文档对应的行为?主题分布模型,利用式(2)进行表示:
(2)
式中:代表用户行为数据下的行为?主题分布模型;代表用户行为数据下先验参数为的Dirichlet分布。假设代表用户第个行为中出现的词汇数,则利用式(3)计算出用户的整个行为库中生成主题的概率:
(3)
式中:代表拉普拉斯算子;代表用户第个行为下的主题生成概率。从先验参数为的Dirichlet分布中抽取用户行为数据下各主题对应的主题?词汇分布模型,利用式(4)进行计算:
(4)
式中:代表用户行为数据下的主题?词汇分布模型;代表用户行为数据下先验参数为的Dirichlet分布。利用式(5)计算用户行为数据下所有主题生成的词汇概率:
(5)
式中:代表用户行为数据下先验参数为的主题中生成的词汇概率,代表用户行为数据分析下主题中词汇的生成概率,通过对式(3)、式(5)进行分析,可以得到用户行为数据下的所有主题?词汇的联合分布,可利用式(6)进行表示:
(6)
假设代表用户行为数据下的主题隐含量,结合用户行为数据下的主题?词汇分布模型和行为?主题分布模型,计算出用户行为数据对应的第个词汇,利用下式进行计算:
(7)
(8)
式中:代表用户行为数据下特定词汇的获取量;代表用户行为数据下行为?主题分布模型的Multinomial共轭分布空间阈值;代表主题隐含量为的Multinomial共轭分布空间阈值。结合吉布斯采样法对用户行为数据下的主题隐含量进行求解,提取互联网用户随机行为数据下的信息本体,需计算用户行为数据下的权重。
1.2 用户信息推送的关键词搜索匹配
在进行用户行为数据分析下的信息推送系统的设计过程中,以1.1节获得的互联网用户随机行为数据下的信息本体为依据,计算出用户行为数据下词汇在主题中出现的次数概率,结合Dirichlet参数估计公式建立用户行为数据下的最终行为?词汇模型,在此基础上利用向量模型匹配关键词思想理论确定关键词在文档中的权重,得到用户行为数据下不同信息推送指标的权重输出,由此完成用户行为数据分析下的信息推送系统设计,具体过程如下所述。
假设代表用户行为数据中去除下标为的词汇,代表用户行为数据中第个词汇对应的主题,代表用户第个行为数据中去除主题中下标为的词汇,代表用户第个行为数据中去除文档中下标为的主题词汇,和代表相应的两个Dirichlet后验分布在贝叶斯框架下的参数估计,利用式(9)建立用户行为数据下的最终行为?词汇模型:
(9)
式中:代表用户行为数据下的最终行为?词汇模型;代表用户行为数据中的文档集合。假设代表用户行为数据下的关键词在第个文档中出现的概率,利用向量模型匹配关键词的方法对用户行为数据中索引词的选择和语义进行提取,得到用户行为数据下关键词在文档中的权重:
(10)
式中:代表用户行为数据下信息库中文档的个数;代表用户行为数据下包含关键词的文档个数;代表用户行为数据下文档中所有关键词的个数;代表用户行为数据下的主题在第个文档中出现的概率;代表用户行为数据下包含主题的文档个数。根据用户行为数据下关键词在检索中的使用情况,结合相似度函数通过分析用户行为数据判定用户查询记录与结果记录词条之间的关联性:
(11)
式中:代表用户查询行为字符串的第个词条的权重;代表用户行为数据下文档中第个词条的权重;代表用户行为数据下文档的长度;代表用户查询行为字符串的长度。
结合模糊集理论,对用户行为数据下文本的长度和用户查询行为字符串的长度进行分析,建立用户行为数据下不同的信息推送评价指标,然后对用户行为数据下不同的指标值进行模糊化,在此基础上对不同的信息推送指标进行加权平均反模糊化,计算出用户行为数据下不同的信息推送指标的权重输出:
(12)
式中:代表用户行为数据下信息推送评价指标集;代表用户行为数据下第个信息推送评价指标的规则权重;代表用户行为数据下输入的第个信息推送评价指标值的模糊度;代表用户行为数据下第个信息推送评价指标集合的容积;代表用户行为数据下第个信息推送评价指标集合权重。
2 实验结果与分析
为了证明提出的基于模糊遗传的用户行为数据分析下的信息推送系统设计方法的有效性,需要进行一次实验。实验在Windows Phone7的环境下搭建用戶行为数据分析下的信息推送实验平台,实验数据来源于SQL Server关系数据库,采用北京大学2015年用户行为数据分析下的信息推送应用数据作为实验数据。
分别利用模糊遗传方法和协同过滤方法进行用户行为数据分析下的信息推送系统设计实验。将两种不同方法进行用户行为数据分析下的信息推送精度对比,采用平均绝对误差MAE(%)作为度量不同方法用户行为数据分析下的信息推送系统的精度对比结果,利用式(13)进行计算:
(13)
式中:代表系统对推送的第个信息的预测评分值;代表用户对推送的第个信息的实际评分值;代表用户行为数据分析下的信息推送数据集的数据个数。比较两种不同方法进行用户行为数据分析下的信息推送的平均绝对误差,其结果如图1所示。
通过对图1进行分析可知,利用模糊遗传方法进行用户行为数据分析下信息推送的平均绝对误差要低于协同过滤方法,这主要是因为在利用模糊遗传方法进行用户行为数据分析下的信息推送系统设计过程中,先对用户行为数据进行分析处理,计算出用户行为数据下各词汇的TF?IDF指标,再结合先验参数的Dirichlet分布建立用户行为数据下的行为?主题分布模型和主题?词汇分布模型,在此基础上,利用向量模型匹配关键词思想理论确定关键词在文档中的权重,得到用户行为数据下不同信息推送指标的权重输出,使得利用模糊遗传方法进行用户行为数据分析下的信息推送系统设计的推送精度较高。
分别利用模糊遗传方法和协同过滤方法进行用户行为数据分析下的信息推送系统设计实验。对比两种不同方法进行信息推送的有用度(%)和召回率(%),召回率是指用户认为推送信息无用时所占总体的比率。有用度是指信息推送主动可用性的程度,利用对比结果来衡量不同方法进行用户行为数据分析下的信息推送系统设计的综合有效性,对比结果见表1,表2。
通过对表1,表2进行分析可知,利用模糊遗传方法进行用户行为数据分析下的信息推送系统设计的综合性能要高于协同过滤方法,这主要是因为在利用模糊遗传方法进行用户行为数据分析下的信息推送系统设计过程中,先将互联网用户抽象为结构化数据信息本体,再对用户第个行为对应的第个词汇进行计算,提取出互联网用户随机行为数据下的信息本体,在此基础上,用户通过查询与结果记录词条间的关联性计算,得到用户行为数据下不同信息推送指标的权重输出,使得利用模糊遗传方法进行用户行为数据分析下的信息推送系统设计的综合性能较优。
以表1,表2给出的统计结果为基础,分别利用模糊遗传方法和协同过滤方法进行用户行为数据分析下的信息推送系统设计实验。对比两种不同方法进行用户行为数据分析下的信息推送的查准率(%):
(14)
式中:代表推送的信息符合用户兴趣的数量;代表推送的信息不符合用户兴趣的数量。对比结果如图2所示。
通过对图2进行分析可知,利用模糊遗传方法进行用户行为数据分析下的信息推送的查准率要高于协同过滤方法,这主要是因为在利用模糊遗传方法进行用户行为数据分析下的信息推送系统设计过程中,以1.1节获得的互联网用户随机行为数据下的信息本体结果为依据,计算出用户行为数据下词汇在主题中出现的次数概率,再结合相似度函数计算出用户行为数据下文本的长度和用户查询行为字符串的长度,最后结合模糊集理论得到用户行为数据下不同的信息推送指标的权重输出,使得利用模糊遗传方法进行用户行为数据分析下的信息推送的查准率较高。
3 结 语
针对当前方法进行信息推送过程中难以计算出用户行为数据分析下的权重输出,存在信息推送针对性差、信息推广转化率低的问题,提出一种基于模糊遗传的用户行为数据分析下的信息推送系统设计方法。实验结果表明,所提方法能够有效提高信息推送的准确性,且可扩展性较强。
参考文献
[1] 朱晓林,邹宇,易琳,等.基于模型需求模板匹配的多源地理数据推送方法研究[J].地理与地理信息科学,2016,32(1):24?28.
[2] 邓志文,都平平,秦丽,等.面向社交网的图书馆信息主动推送方法研究:以“人人网”为例[J].图书馆杂志,2015,34(3):84?89.
[3] 陈伶娜.移动新闻客户端信息推送特点及问题分析:以凤凰新闻、今日头条等五大新闻客户端为例[J].今传媒,2016,24(10):17?19.
[4] 屈赟,陶晡,王克俭.基于Android的果树病虫害信息推送系统的设计[J].科技通报,2016,32(5):86?90.
[5] 尹延宁,劉太君,叶焱,等.基于Node.js,Sencha Touch和iBeacon信息推送系统的设计与实现[J].火力与指挥控制,2016,41(8):151?154.
[6] 路晔绵,李轶夫,应凌云,等.Android应用第三方推送服务安全分析与安全增强[J].计算机研究与发展,2016,53(11):2431?2445.
[7] 杨帆,何敏,施继红,等.基于LDA模型的网络党建信息推送策略[J].计算机工程,2016,42(9):286?291.
[8] 田林青,余成波,孔庆达,等.基于蓝牙技术的推送系统的设计和实现[J].微型机与应用,2016,35(20):61?64.
[9] 方耀耀,李同刚.面向Android系统的内容推送方法应用研究[J].电脑知识与技术,2016,12(7):28?31.
[10] 李欢.基于文化安全的微博信息推送技术的研究[J].现代电子技术,2016,39(8):41?44.