基于文本挖掘的税政自动识别与分发系统研究

2022.07.11

姜亮张梅梅

【摘要】当前我国税收政策更新速度快，所涉部门多，仅靠财务部门人工搜集、分析、组织实施效率低下，导致企业错失应税减税机会，因此税收政策文本的实时学习和自動分发成为加强企业应税管理、降本增效的首要任务。文章设计税政文本挖掘系统来实现税政文本自动学习和分发：首先，分析税收政策文档;其次，利用分词系统和TF-IDF算法提取每个文本的特征，用贝叶斯、决策树和随机森林三种分类器进行文本分类，并将结果与人工标注结果进行对照;最后，计算三种分类算法的混淆矩阵、准确率和召回率。实验结果表明，随机森林算法文本识别正确率最高，税政文本挖掘系统采用该算法进行识别和自动分发，据此部署部门协同工作，能显著提升公司财税管理工作的全局性和协同性。

【关键词】随机森林; 部门协同; 税政文本

【中图分类号】 F263? 【文献标识码】 A? 【文章编号】 1004-5937（2021）10-0037-05

一、引言

企业实现业财联动、部门协同是降本增效、提升竞争力的新财税管理手段。但税收政策更新速度快，涉及企业部门多，目前仅靠财务部门人工搜集分析并学习税收政策，造成企业学习成本过高、效率低下，且缺乏部门高效协同方式，导致企业错失应税减税机会。如研发费用加计扣除政策执行情况，调查显示59.5%的企业希望税务或科技部门加强对企业财务或研发人员的宣传与辅导力度，且表示政策的宣传辅导服务对政策的落实有较大影响，另外跨部门联动机制还未形成，各部门对研发活动和研发项目的认定存在偏差，制约了相关政策的有效执行[ 1 ]。因此应由财务部门单独规划向集团整体部门协作转化[ 2 ]。

2019年4月，本研究联合调查了大型国企GW的财务部和科技部关于科研加计扣除税收优惠政策的应税问题，对“三新”项目的申请、评审、立项、执行及项目结束的全流程调研分析后可知，该企业科技部门希望普及“三新”项目认知规则，财务部门认为关键环节之一是在年度纳税申报前进行相关资料留存备查，“三新”项目的评审和资料留存备案需要财务部和科技部人员多次沟通确认，制度性成本显著增加。针对节能节水项目企业所得税优惠目录联合调研财务部和采购部负责人，主要问题是需协同运检部、物资部和物资公司对不同厂商、不同规格型号的设备空载损耗值、负载损耗值等性能参数进行检测，但因多部门协同困难，采购部门未能“应享尽享”该项优惠税政。

针对当前税政更新快、数量比较大、信息壁垒强的特点，建立实时税政协同工作机制是支撑实时反应和实时控制、提升财税实时管控能力、深化财务集约化的重要保证。实时税政学习工作依赖人工，效率和精度不能保障，则建立税政文本自动学习和分发机制成为首要任务。文本挖掘是从非结构化数据中提取有价值信息和知识的技术，主要通过关键词筛选和文本编码对政策文本进行规范的量化分析。宋英慧和黄麒[ 3 ]在分析财务报表附注时采用文本挖掘方法，先使用分词对财务报表附注的文本集合进行信息拆分，然后通过词频统计提取财务报表附注披露内容的特征，直观地看出披露内容重点集中于哪些信息。张志恒和成雪娇[ 4 ]建立不同的文本挖掘模型，对审计数据进行分析，进而发现审计疑点，最终形成可理解的审计证据和审计线索。其他政策文本挖掘探索还包括安全生产问责制度[ 5 ]、特色小镇专项政策[ 6 ]、广东省科技金融政策[ 7 ]、中央政府创新创业支持政策[ 8 ]等。

基于此，本文以促进企业多部门高效率协同应税为中心，提出一种“文本多分类+部门匹配”的自动识别与分发机制，将税政文本按照部门特征分类识别并自动分发给相应部门。根据自动分发结果，部署部门协同工作内容，预期将最新税政置于业务流程前端，实现税收筹划与协同部署。

二、税政文本挖掘系统

（一）税政文本自动识别分发与部门协同

税政文本自动识别分发系统负责税政文本的自动识别、分发，经部门协同处理之后进行价值分析和处理，科研部、财务部、人资部、采购部等部门协同工作，如图1所示。

（二）税政文本自动分发系统设计

税政文本分发系统包括数据爬取、文本挖掘和反馈系统，关键步骤是提取文本实用信息并自动分发给相应部门进行学习、协同工作来实现税前控制。企业税政文本主要来自国家税务总局官方网站、各省税务局网站及企业税收相关网站。文本来源众多，内容繁杂，人工收集、学习、分发低效且不能及时部门协同，采用基于Python语言的爬虫程序收集数据，企业可建税政文本数据库。税政文本自动识别分发系统主要过程如下：

1.关键词分析

根据文本特征值对文本进行多分类。建立一个分类模型，输入项为税收文本，输出项为该文本匹配部门。由于中文文本的特性，在特征建模前需要对文本进行分词处理。目前主流中文分词方法是基于理解的分词方法、基于字符串匹配的分词方法和基于统计的分词方法，本文采用开源jieba分词器。为了避免不含语义信息的噪声对最终分类造成影响，本文对分词结果进行了停用词过滤，使用的停用词表是《哈工大停用词表》，经过验证该表在中文停用词过滤上有较好的效果。特征工程方面，使用了词袋模型将文本表示为向量形式。词袋模型将文本数据集所有的词条构建成字典，并将每一篇文本表示为词条出现的频率集合。

税政文本使用TF-IDF算法进行关键词分析，通过计算词频和逆向文件频率来说明词条的类别区分能力，从而判断该词条是否为文本的关键词。

词频（TF）代表词条在文本中出现的频率，表示为：

其中ni，j是该词在文本中出现的次数，分母则是文本中所有词汇出现的总和。

逆向文件频率（IDF）代表出现该词条的文件在整个文件集合中的频率，表示为：

其中，D是语料库中的文件总数，分母表示包含词语ti的文件数目。最终TF-IDF值表示为公式（1）与公式（2）的乘积。某一特定文件中的高频率和该词语在整个文件集合中的低文件频率，可以产生高权重的TF-IDF。因此，TF-IDF倾向于选择重要且并不常见的词作为税政文本的关键词。

本文使用词袋模型对文本进行特征建模，再对数据集中的每个词条计算TF-IDF值，将文本表示为每个词条TF-IDF值的集合形式，得到的文本数据集是994*55 726的矩阵形式，去掉特征中不包含任何信息的数字和字母特征，最终得到的文本集合是994*53 109的矩阵形式。

2.人工标注

按企业部门进行人工标注，经对文本数据集预览和主题把握，制定分类标注依据，部门确定为财务部、管理层（职能部门、发展部门和办公室）、人力资源部、采购部等，如表1所示。

本文以国家税务总局官方网站2017年11月至2019年8月的994篇税收文本为数据源进行文本挖掘。文本标注关键词对应如表2所示。

3.文本多分类

为了提高分类准确度，采用三种常见的分类器来构建模型。

（1）贝叶斯分类器

贝叶斯分类器是在相关概率已知的情况下，找到误判损失最小的分类类别。对于N种可能的分类类别，文本x分错类带来的损失可以表示为：

其中λij是指将Cj误分为Ci时所产生的损失，为使损失达到最小，要求后验概率最大。贝叶斯分类器利用贝叶斯公式计算待分类项在某个条件下属于各类的概率，然后将待分类项归于后验概率最大的一类。

（2）决策树算法

决策树算法通过对特征进行选择，找出使数据集整体信息量下降最快的特征作为节点，并按照这一原则进行迭代，直至整体信息量下降为零。本文使用基于ID3算法的决策树，根据信息增益来寻找适合切分数据的特征。

（3）随机森林

随机森林是一种装袋算法，通过集成多个能力强、差异性强的同类型弱分类器来组成一个强分类器，使用训练出来的多个弱分类器对数据集进行分类，然后使用多数投票的方式来输出最终的分类结果。本文随机森林使用了CART树作为弱分类器，后者是一种以基尼系数作为特征选择标准的决策树模型，由于集成的作用，最终随机森林预测效果要优于决策树，且对噪音不敏感，适合用于特征较复杂且噪音较强的文本分类。本文使用sklearn标准化工具建立分类器并进行训练。

三、税政文本自动识别实验分析

（一）分类准确率

对994篇税政文本按3：1进行训练集和测试集切分，训练文本用于建立并训练分类器，测试文本用于对分类器进行效果测试。将模型对测试集分类的结果与人工标注的结果进行比较。针对税政文本多分类的实验结果，通过计算准确率、混淆矩阵和各部门文本召回率对效果进行评判，结果如表3。

结果表明，三种分类器准确率都超过了90%，说明常见的机器学习分类器对人工标注的实验税政文本都有较好的分类效果，其中随机森林算法的分类准确率最高。

（二）召回率

除采用准确率这一评判标准之外，还可以通过混淆矩阵和计算召回率对分类效果进行评估。混淆矩阵中，横轴是该文本人工标注结果，纵轴是模型预测结果，斜对角线上的数据代表分类正确的文本数量，其余坐标点上的数据代表了分类错误的文本数量。根据混淆矩阵可以按以下公式计算出部门对应召回率：

部门召回率Ri=■ （4）

其中i的区间是从1到4，且分别对应四个部门的ID。结果如表4所示。

表4可得，贝叶斯分类器分类错误的文本数量为66，其中财务部文本的召回率最低，原属于财务部却被误判为其他部门的文本为40篇，占错误文本的76%，而其他部门文本误判的数量不超过10%。决策树算法分类准确率为0.9759，分类错误的文本数量为18篇，各部门召回率均值处在高水平，且相差较小。随机森林算法的分类效果非常显著，准确率达到0.9919，只有6篇文本被分类错误。因随机森林算法集成了多个决策树算法并最终按照少数服从多数原则输出，故在结果上纠正了单棵决策树分类出现的错误，对管理层和人力资源部税政文本分类准确率達到100%。召回率比较如图2所示。

随机森林的混淆矩阵如图3所示。

综合三种算法的召回率和折线图来看，随机森林算法的准确率在各部门文本中都是最高的，并且表现较为平稳，不会受到文本自身的影响，则本文选择随机森林算法应用于企业税政文本自动学习和分发。

（三）反馈模块

文本多分类完成后，为确保每个文本的分类结果匹配到相应部门，且保证同一篇文本里包含的价值可以被多个部门使用，则需要在系统中设置反馈模块，以达到控制和优化系统的作用。该模块通过监测文本的去向以及被使用完后的状态来实现控制和反馈。本文定义三种文本在使用后的状态分别是“用完”“余值”和“无用”，含义及控制反馈见表5。

通过该控制方式，可实现对文本价值的高效利用，通过反馈达到优化系统的目的。

四、税政文本自动分发与部门协同

应用税政文本自动识别和分发系统，将位于业务末端的应税管理置于业务前端，通过部门协同学习构建业财联动机制，强化财税管理对业务的指导。以财政部、税务总局、科技部关于提高研究开发费用税前加计扣除比例的通知（财税〔2018〕99号）税政文本为例，简称为“三新”项目加计扣除政策。该项政策通过系统自动识别并分发到研发部、科技部、财务部等部门，多部门协同学习后部署标准化、流程化和范式化的管理机制，将位于研发业务流程末端的应税管理与科技部前端环节实现横向联动、部门协同，确保业务信息与税务信息高效传输。如图4所示。

通过业务流程分析，将税政规则前置于科研项目申报环节之前进行学习，因不同部门之间存在较强的知识壁垒，为了提高科研项目享受加计扣除的比例，提高管理效率，部署部门协同工作时设置财务助理和科研助理。该管理流程通过税政自动识别并分发到所涉部门，相关部门据此部署业财联动的协同工作流程，促进了税政文本的多部门高效学习，筹划了应税的业务细节。