粗糙集属性约简在客户流失预测中的应用

    李惟肖

    

    

    【摘 ?要】客户流失预测作为客户关系管理的主要问题,一直受到研究学者们的关注。企业通过内部和外部的数据信息,对客户流失情况进行预测,针对还未流失但有流失倾向的客户采取相应的营销策略。大数据时代使得数据信息爆炸式增多,如何处理高维数据信息成为客户流失预测的难点。利用粗糙集理论进行属性约简可以降低数据维度,并有效地实现客户特征选择,从而降低客户流失预测的运算难度,提高预测性能。

    【Abstract】Customer churn prediction, as the main problem of customer relationship management, has always been the focus of researchers. Based on internal and external data information, enterprises can forecast customer turnover and adopt corresponding marketing strategies for customers who have not yet lost but have a tendency to lose. The era of big data makes data information increase explodes, and how to deal with high-dimensional data information becomes the difficulty of customer churn prediction. The attribute reduction using rough set theory can reduce the data dimension and effectively realize the customer feature selection, so as to reduce the operational difficulty of customer churn prediction and improve the prediction performance.

    【关键词】粗糙集;客户流失预测;属性约简;特征选择

    【Keywords】rough set; customer churn prediction; attribute reduction; feature selection

    【中图分类号】F274;TP18 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文献标志码】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章编号】1673-1069(2021)07-0120-02

    1 引言

    客户关系管理理论是20世纪90年代由营销管理理论衍生出的理论分支,一直备受从业者和学者的广泛关注。客户关系管理就是围绕客户,一个客户为中心进行的营销过程,这一过程通过客户获得管理、客户识别管理、客户保持管理3个阶段来实现客户与企业之间长期的合作关系。这样不仅有助于降低企业的交易成本和开发成本,也能提高营销效率,增强营销效果。

    客户流失管理是客户关系管理的重要组成部分,客户流失一般来说就是指客户不再消费本企业的产品或服务,也是每个企业都会面临的问题。客户流失是一个不确定事件,客戶流失的形成非一朝一夕,但是往往又悄无声息、无法察觉。因此,只能通过数据分析掌握这种不确定的流失规律,从而防范因客户流失产生的经营风险和收益损失。近年来,有许多因素都促成了客户流失预测的快速发展,大数据、人工智能、云计算等互联网技术和信息技术不断发展,使得企业可以通过收集客户信息,再运用大数据计算、机器学习、数据挖掘等技术手段处理数据,建立客户流失预测模型。通过模型可以提取客户的特征信息,分析预示客户流失的行为,计算客户在未来流失的概率。但同时,数据增多也造成了数据“维度灾难”,分析高维数据需要花费大量的时间和成本。因此,需要在高维的数据中提取出与客户流失相关的客户特征,并对这些特征进行属性约简,兼顾预测精度和预测效率。

    2 粗糙集理论

    粗糙集理论是1982年由波兰Pawlak教授提出的,用来处理模糊、不确定、不完整信息和知识的工具,它能在保持分辨能力不变的情况下,通过知识约简,实现决策或分类。与其他方法相比,粗糙集方法仅利用数据本身所提供的信息发现问题的规律。粗糙集理论可以与神经网络、遗传算法等机器学习技术相结合,实现更广泛、更强大、更优良的功能,在知识获取、智能算法、知识的不确定性度量、数据挖掘等方面都有成熟的应用。

    定义1:粗糙集理论的知识表达系统表示为S=(U,A,V,F),其中:U={u1,u2,…,u|U|}是研究对象的非空有限集合,称为论域;A={a1,a2,…,a|U|}是属性的非空集合;V=UVa,其中a∈A,Va是属性a的值域;f:U×A→V是一个信息函数,反映了每个研究对象每个属性的信息,即?坌a∈A,x∈U,f(x,a)∈Va。知识表达系统也叫信息系统,S=(U,A,V,f)可以简化为S=(U,A)。

    定义2:当集合A能被集合C和集合D表示,且满足A=C∪D,C∩D=?覫那么称集合C为条件属性集,集合D为决策属性集。

    属性子集C'?哿C关于D的重要性被定义为:σCD(C')=γC(D)-γC-C'(D)。

    当C'={a}时,属性a?哿C关于D的重要性被定义为:σCD(a)=γC(D)-γC-(a)(D)。

    定义3:对于给定的信息系统S=(U,A,V,f),若R?哿ind(K),X?哿U,则X的R上近似集和X的R下近似集被定义为:

    3 粗糙集属性约简

    粗糙集属性约简是粗糙集理论的一个核心内容。大数据时代,数据信息量的增大让学者们能更准确真实地进行知识发现,但高维的数据也让整个研究过程变得复杂和烦琐。在信息系统中,并不是所有的信息都对人们作出决策或进行预测有帮助,这其中包含了大量对目标问题毫无贡献的冗余属性。因此,在保证信息系统分类不变的情况下,从众多数据信息中去除冗余属性,不仅可以保持结果的准确性,还能降低运算的难度和减少运算的时间。这就是粗糙集属性约简的过程。

    给定一个信息系统S=(U,A,V,f),集合C为系统的条件属性集,集合D为系统的决策属性集。当A满足以下2个条件时,称A是条件属性C关于决策属性D的一个相对属性约简:

    ①posA(D)=posC(D)。

    ②对于A的任何一个真子集B,posB(D)=posC(D)。

    条件①保证了原有的相对正域不变,条件②说明了A这个相对属性约简中的属性不可再减少。设条件属性集C={ci|i=1,2,…,n},那么对于属性ci来说,如果满足posC=posC-{C},则说明属性ci对于决策是不重要的,可以删除。条件属性集C中的每一个属性都需要经过这一判断的过程,从而形成相对属性约简集合A。

    4 基于粗糙集属性约简的客户流失预测

    客户流失预测包含2个方面:一个是识别流失客户;另一个就是客户价值评估。识别流失客户就是识别潜在的流失客户,在客户流失之前采取行动挽留客户,这可以看作是一种“防御性”的营销方法。因为吸引新用户的成本比挽留老用户的成本要高3~8倍,但是老客户的利润贡献是新客户的10倍以上。客户价值评估是客户流失预测的另一关键任务,不是所有的客户都会给企业带来利益。实际上,根据80/20法则,大多数情况下,20%的关键客户为企业创造了80%的收入。那么这种情况下,企业就需要识别客户并对客户价值进行评估,形成具有相似特征的多個客户群体,向不同的客户群体分配不同的资源,这样才能以更少的成本支出获得更多的经济收益。进行客户流失预测的主要目的是希望根据预测结果有针对性地进行营销挽留,如果只有准确的预测而没有个性化的营销方案是不够的,所以识别流失客户和客户价值评估对于客户流失预测来说同等重要。粗糙集属性约简在客户流失预测中的应用也主要在这2个方面。

    粗糙集属性约简在识别流失客户中的应用主要体现在特征选择。在海量的数据中选择最有效的特征以降低数据维度,从而提高预测的性能。粗糙集属性约简常与机器学习方法结合进行客户流失预测,但高维数据会使机器学习的算法大幅增加。而且粗糙集特别适用于处理不确定性的问题,能够处理不完整、不确定的数据。粗糙集理论是在保证不丢失原始信息的情况下,对数据属性进行约简,约简过后的属性特征是剔除了冗余特征后具有代表性的属性特征,因为这些属性特征包含了全部的信息,所以预测的结果还是有很高的可信度,却可以大大降低机器学习的运算时间和运算量。

    粗糙集属性约简在客户价值评估中的应用主要体现在客户画像。通过粗糙集进行特征选择后,每个客户在这些特征中的表现不一样,因此可以得到全方位的客户画像。对于企业来说,看重客户选择自己的产品或服务时能给自己带来多少收益,这也就是企业眼中的客户价值,企业通常根据客户画像来评价和分析客户价值。对于有流失倾向的客户,需要通过客户画像才能制定出个性化的、精确化的、有针对性的客户挽留营销方法。有高流失风险同时又有高价值的客户,企业可以花费更多的成本进行挽留。同时客户画像也反映了客户需求、客户偏好、客户行为等信息,针对这些信息可以提前准备营销策略和产品配置,从而预防客户流失,尽可能地延长客户的生命周期,从而企业可以获得更长远更持久的利益。

    5 结语

    本文指出了在客户流失预测中采用粗糙集理论进行属性约简,可以有效地处理不确定、不完整的数据信息,在保证信息完全的情况下降低数据维度,减少预测时间。通过粗糙集属性约简可以对数据集进行特征选择,帮助企业构建客户画像、分析客户价值。粗糙集属性约简去除了冗余数据,保证了客户流失预测的准确性,让企业可以有针对性地对有流失风险的客户进行挽留。