商业银行大数据审计探索与思考

    李艳东

    

    

    导语:大数据审计的研究和应用是近年来审计领域的热点。大数据时代的到来给商业银行内部审计带来机遇和挑战。笔者首先介绍商业银行计算机辅助审计系统的演进过程,然后分析大数据审计的意义和特点。在此基础上,重点研究大数据审计在商业银行应用的创新思路,最后给出大数据审计的实施要点和相关建议,为今后大数据在商业银行内部审计的应用提供借鉴和参考。

    2020年10月发布的《中共中央关于制定国民经济和社会发展第十四个五年规划和二三五年远景目标的建议》明确提出,要发展数字经济,推进数字产业化与产业数字化。如何利用好大数据资源,全面揭示风险,推动商业银行的数字化转型,服务好实体经济,是商业银行内部审计部门一直研究和思考的课题。本文结合大数据审计系统的建设经验,探索大数据在商业银行内部审计的应用实践。

    商业银行计算机辅助审计发展回顾

    商业银行的计算机辅助审计系统建设经历了三个阶段。第一阶段是“配备装备”,将主要的账务数据、交易数据进行T+1日采集、转换和加载,实现了线上分析疑点数据,解决了传统审计人海战术的弊端。第二阶段是“推广装备”,改善系统可拓展性及可用性,增强数据加载和处理能力,接入包括对公信贷、零售信贷、国际业务在内的更多业务数据,并向审计分支机构进行推广。第三阶段是“升级装备”,借以A(人工智能)、B(大数据)、C(云计算)为标识的信息技术蓬勃发展之势,统筹行内外一切可用的数据资源,充分挖掘数据的内在价值,为实现内部审计的“风险警示、监督评价、管理增值”三大职能保驾护航。第三阶段的系统一般称为大数据审计系统,其逻辑如图1所示。

    大数据对商业银行内部审计的意义

    美国国家科学基金会(NSF)将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。大数据技术有四个基本特征(4V特征),即规模巨大(Volume)、类型巨多(Variety)、增长速度巨快(Velocity)、蕴含价值巨高(Value)。大数据审计是指依照法律权限采集各公共管理部门、社会公开的海量数据,利用跨领域、跨层次、跨行业、跨系统的全维度数据开展智能化的数据挖掘与分析,进行综合审计判断,形成审计结论。

    商业银行利用大数据进行审计的意义。一是借助更全面、更真实、更准确、更实时的大数据,形成新的审计模型,使审计更加科学、准确、客观、统一、公正,提高审计发现问题的广度和深度,提升审计能力和审计价值。二是解决传统审计简单重复劳动多、出差多、投入人力多的“三多”难题,实现对现场审计从支持、补充到替代的转型。三是探索科技强审的路径,推进审计工作的数据引领作用,增强风险防控的实时性、前瞻性和系统性,推动业务管理向信息化、精细化转型。

    商业银行具备实施大数据审计的优势。一是银行存储了客户基本信息、交易流水、信贷明细、客服电话录音、网点视频录像、网银地理位置、信息系统登录日志等多种格式、多种来源的数据。二是银行在交易处理、风险防范、管理决策等过程中积累了丰富的数据处理经验。三是银行富有竞争力的薪酬待遇能够吸引高端人才。四是银行非常重视高新技术在金融业的研究和应用。

    大数据背景下商业银行内部审计的转变

    大数据审计的特点有“五多”:一是数据来源多,如财务数据、业务数据、管理数据、监管数据、客户行为数据等。二是审计方式多,如既可与现场审计项目相结合,又可独自开展远程实时审计。三是技术手段多,如在数据采集、存储、管理、分析、演示等环节,需要多种技术配合协作。四是协调关系多,如需要协调跨部门的资源,多个被审计单位支持配合。五是分析维度多,既能客观、真实、实时对被审计单位画像,又能从全行甚至全行业的角度进行宏观判断。大数据审计为商业银行内部审计工作带来思维模式的重要转变,主要有以下几点。

    全样非抽样

    全体样本是指在大数据环境下,要分析与某事物相关的所有数据,而不再仅仅是依靠少量的样本数据。其优势是深入挖掘了数据的额外价值,避免了传统做法的抽样风险。

    大数据的这个特点不仅降低了商业银行内审部门的抽样风险,而且能够更具体、更精确、更全面、更及时、更多维度地分析和掌控审计对象,实现从“审计抽样模式向”向“总体审计模式”、从“间断性审计”向“持续性审计”的转型。

    相关非因果

    相关关系是指从大量数据中揭示事物之间的关联联系,虽然其无法准确告知事情发生的起因,但是会提示我们这件事情正在发生。如大额欺诈交易之前往往会有小额试探性交易出现,而且这些交易发生的时间往往是深夜,发生的地点往往人迹罕至。

    “寻找相关关系”这种思维方式,使得商业银行内部审计部门不再局限于寻找因果关系,不再等待事件发生后去亡羊补牢,而是改变视角,通过抓“苗头性”风险,推进审计关口前移,进而实现从“问题揭示型审计”向“价值增值型审计”的转型。

    轮廓非精确

    大数据中只有约5%的数据是结构化并适用于传统数据库进行处理的,剩下的95%數据都是诸如日志、视频、音频等非结构化(NoSQL)或半结构化的数据。这使得我们没有必要对每个细节刨根问底,只要掌握整体脉络方向即可。

    在微观层面上适当忽略精细度,使得商业银行内审部门能够从更加宏观的视角去把握系统性、趋势性、区域性的风险,为经营管理决策提供有价值的建议。

    长尾非二八

    传统帕累托法则指出,企业80%的利润来自20%的高价值客户。但互联网时代更信赖长尾理论,即只要能以足够低的成本覆盖足够广的客户,那么小众客户群对市场的贡献将不容忽视。

    由于资源有限,商业银行内审部门过去将80%的精力投入到20%的高风险领域。而被忽略的剩余80%领域往往能够带来前所未有的、爆炸性、灾难性后果的“黑天鹅”事件。依托大数据,商业银行内审部门可以进行“大胆怀疑”,辅以现场查证进行“小心求证”,才能控制好已知的未知,最大程度防范未知的未知带来的风险。

    柔性非刚性

    刚性生产是指为满足大量社会需求的规模化的生产方式;而柔性生产是指为了满足个性化需求而进行的多品种、小批量、智能化的生产方式。

    商业银行内部审计部门经常会面临各种领域、各种类型的审计任务,会有五花八门、纷繁复杂的疑点数据分析需求。利用分门别类的大数据资源和便利的工具,审计人员可以通过研发规则灵活的审计模型来提取针对性强的审计线索,实现“风险提示、监督评价、管理增值”的审计目标。

    远程非现场

    远程审计是指商业银行内部审计部门运用各种数据分析技术找出数据背后隐匿的规律,锁定疑点线索,确定需要深入排查的人和事,并最终交由现场审计人员进行面对面沟通和确认的审计过程。

    通过远程审计,商业银行大幅节约了投入到现场的审计资源,并且减少了对被审计单位的正常工作的影响。同时,在被审计单位没有察觉、没有准备的情况下开展分析与检查工作,商业银行内审部门会得到更加独立、客观、公正的结果。

    商业银行大数据审计创新应用

    伴随着大数据技术应运而生了诸如分类、逻辑回归、聚类、关联、决策树、神经网络、支持向量机、WEB数据挖掘等高级算法,使得商业银行内部审计人员可以通过研发更加复杂和深入的模型,来提取审计线索,降低审计机构与被审计机构的信息不对称。目前经典的大数据审计应用有以下几种。

    用网络爬虫技术实现审计对象全景画像

    在传统的审计中,审计人员通过登录国家企业信用信息系统或者启信宝、企查查等平台,手工查询企业信息。但当批量査查询企业信息时,这种做法将制约审计工作的时效性和审计人员的积极性。在大数据审计中,审计人员可以通过编写Python脚本,自动获取wbe页面信息,并将数据标准解析、存储和呈现,从而实现批量查询的功能。通过互联网爬虫获取的可供商业银行内部审计使用的数据还包括司法、公安、税务、公积金、国土资源、股票交易、社交活动、消费行为等数据。在遵循法律的前提下,利用互联网资源,拓展了审计的数据源,丰富了数据分析的维度,使得审计人员能够更加清晰地对审计目标进行画像。审计对象全景画像如图2所示。

    用关系图谱技术识别审计对象的资金流转情况

    传统数据库是基于二维表的关系型数据库。而当审计人员多次链接多个大表查询交易流水的对手时,传统数据库的笛卡尔积处理方式严重制约了交易对手的多手查询。

    而关系图谱技术引入了关系和节点的思想,把两两之间的关系以图的方式展现,再对两两关系图进行连接,直观地变成关系群组。除了识别各个主体之间的相互关系外,关系图谱技术还能将原来不存在直接关系的各个节点进行关系延伸,对当前节点的父节点、子节点、兄弟节点等多层次关系再进行深度挖掘拓展。

    商业银行内部审计通过运用关系谱图技术,生成资金流转网络图,能够轻松展现资金多层流转关系,发现重要节点之间存在的联系,揭露现象背后深层次的原因。

    用中文分词技术挖掘文本文件的关键信息

    审计人员经常会调阅被审计单位的会议记录、工作总结报告、贷前调查、贷中审查报告、贷后管理报告等电子文档资料,来分析和识别风险。这些文件的存储格式五花八门,肉眼查看费时费力,分析效果主要依赖于审计人员的职业判断能力,非常容易遗漏某些重要信息,造成审计风险。

    中文分词是一种将没有词的界限的中文句子切分成一个一个单独的词的语言处理技术,可以基于字典、词频度统计和知识理解来进行。通过该技术手段对文件进行识别和处理后,审计人员只要对需重点关注的名称、地址、事件或其他关键词进行词权重提取,便能够对文件的重要性进行排序,进而集中力量抓住重点文件进行突破,节省非结构化资料分析的时间和精力。

    使用地理位置信息识别欺诈事件

    地理位置定位是指通过特定的技术来获取用户的经纬度坐标信息,进而分析出其地理位置信息。定位技术有两种,一种是基于GPS/北斗卫星系统的定位,另一种是基于移动运营网的基站的定位。前者是利用手机上的定位模块将自己的位置信号发送到定位后台来实现手机定位的,后者是利用基站对手机的距离测算来确定手机位置的。

    传统审计手段难以对审计对象的动态轨迹进行跟踪分析。而借助于地理位置信息的变动,商业银行内部审计能够针对抵押品、客户、员工的行为信息开展进一步的分析并及时发起风险预警。如某单位规定员工如果在办公大楼附近租房,可每月获得固定金额的租房补贴。该机构内部审计部门可利用App定位功能发现员工虚假申报租房信息、违规获取补贴的行为。

    商业银行大数据审计的保障措施

    高素质队伍是大数据审计的关键。大数据审计首先需要既熟悉业务又精通技术,既善于沟通又乐于创新,既思维敏锐又敢于担当的人才。而这种综合性、复合型的人才的培养是非常缺失、无法速成以及难以招募的。商业银行内审部门一方面应当借助于培训、外招、外聘等手段,做好长远的人才储备;另一方面应加强对基础理论和新型风险领域审计方法的研究,促进审计人员专业素养的提高。此外,商业银行内审部门还需以审代训,在审计实战中通过不断摸爬滚打,持续推动审计人员的专业能力和实战能力的提升。

    高质量数据是大数据审计的基础。在信息化时代,数据是宝贵的资源。但无论是外部数据还是內部数据,都不同程度地存在重复、缺失、不一致等问题,严重制约了大数据审计工作的效果。商业银行应当按照《银行业金融机构数据治理指引》的要求,建立覆盖全部数据的标准化规划,遵循统一的业务规范和技术标准;持续完善信息系统,覆盖各项业务和管理数据;加强数据采集的统一管理,明确系统间数据交换流程和标准,实现各类数据有效共享;建立数据安全策略与标准,依法合规采集、应用数据,依法保护客户隐私。

    高性能系统是大数据审计的引擎。商业银行的大数据审计平台不仅囊括了银行的内外部数据,而且面向不同场景的数据需求配备了各种机器学习的复杂算法。因此,其应当构建企业级的数据平台,实现一、二、三道防线共商共建、共享共赢、联防联控。只有借助全行大数据平台的搭建,引进先进的数据分析工具,商业银行才能充分挖掘半结构化和非结构化数据的价值,才能按照数据化、线上化的审计创新理念,强化互联网时代信息技术对审计的引领和支撑作用。

    (作者单位:中国财政科学研究院)