区块链和人工智能技术在银行电子档案管理中的应用研究

    熊志正

    摘? 要:本文给出了利用这些新兴技术解决银行档案管理的现实问题的方法:采用区块链技术,保障了电子档案的安全可信性;采用智能OCR技术和知识图谱技术,实现了高级检索功能并充分挖掘了档案内蕴藏的价值,为客户营销和可疑用户分析提供了帮助和支撑。

    关键词:会计档案;电子档案;可信度;区块链;人工智能

    Abstract: This paper exploits these emerging technologies to handle problems faced in bank electronic Archives management. Block chain guarantees the safety and confidence of the electronic Archives. Combining AI-OCR and knowledge graph will provide advanced retrieval function and fully mine the internal value of these Archives.

    Keywords: Accounting Archives; Electronic Archives; Confidence level; Block chain; Artificial intelligence.

    本文侧重研究银行进行电子档案管理的方法以及面临的挑战和对策。

    1 银行电子档案管理功能框架

    电子档案管理功能框架包括档案分类、实物档案管理、电子档案管理、系统管理四大部分。其中,实物档案管理包括库房管理、档案入库、档案出库、档案借阅、档案鉴定、档案销毁等功能。电子档案管理部分包括电子档案采集、档案检索、档案调阅、电子文件存储、电子档案内容提取、档案数据挖掘和知识图谱分析、电子档案信息安全可信管理等功能。

    本文所述的电子档案系统所存储的电子文件包括业务归档时的实物凭证电子影像,也包括业务办理过程中的业务相关电子文件。相比常见电子档案管理功能,该功能架构增加了安全可信管理、档案内容提取、档案数据挖掘和知识图谱分析功能,以解决前述的档案可信度低及档案利用率低的问题;将在下面的章节中做详细阐述。

    2 利用区块链构建可信电子档案

    2.1 区块链与档案管理

    传统的真实性认证方法采取基于非对称密码学的技术,通过公钥基础设施(Public Key Infrastructure,PKI)的方式对文档的数字签名等信息加以认证。[1]这种操作离不开可信赖的第三方机构,即认证中心(Certificate Authority,CA)的支持。认证中心是一个高度集中化的管理机构,它通过对申请者进行全面验证之后为其提供数字证书,从而将其纳入中心的认证范围。多年以来,PKI/CA的解决方案已发展得较为成熟,也为档案的真实可信提供了一定的保障,然而其过度依赖于第三方机构,并且缺乏统一性标准等问题尚需解决。

    在电子档案管理方面,区块链得到了一定的关注和研究,[2][3]区块链技术中固有的可溯源、难以篡改等特性,使得其中的文件本身具有很高的安全保证和可信任度,不用再依赖于外部的认证机构,也无需考虑认证标准的具体细节。另外,区块链可以将多份文档的真实性进行关联,对任何一个的修改都会影响到其后续的文档,使得篡改难度大大增加。

    2.2 区块链技术平台

    目前区块链企业级应用主流平台朝着联盟链的方向发展,支持智能合约和多种共识算法。国内对区块链技术平台的研究尚处于起步阶段,已有平台大多集中在金融行业领域。

    区块链技术本身也存在一些应用挑战。其一,数据冗余问题。在利用去中心化特性的场景中,区块链技术提高了数据的并发查询访问效率,但存在数据冗余的问题,需要根据具体应用进行冗余调整。其二,共识效率不高。在利用不易篡改特性的场景中,区块链技术可以在去中心化的基础上提升数据安全级别,但存在共识过程计算量大引起的效率不高等问题,需要寻求安全和效率的最佳折中点。

    2.3 基于区块链的银行档案数据处理、查询与检索

    在区块链数据处理方面。当前区块链平台的吞吐量TPS(Transactions Per Second,每秒事务数)偏低,基于工作量证明(PoW)机制的比特币为7TPS,以太坊为30TPS,基于实用拜占庭容错(PBFT)算法的Hyperledger Fabric為2000TPS。

    事务确认时间方面。不同的区块链平台存在较大差异。Fabric事务确认时间短,适合银行电子档案管理企业级应用。基于区块链的档案管理系统可提供智能合约和IPFS(Interplanetary File System)接口,区块链存储电子档案的摘要信息,实现档案的存证,并增强数据保护,IPFS文件系统存有电子档案的原始信息,并通过分布式哈希表保障数据安全性。[4]

    在区块链数据查询、检索技术方面。银行电子档案管理等区块链应用中,需查询的关键字包括区块的哈希值、数据哈希值和应用相关关键词,使用倒排索引、大数据等技术可提高数据查询效率,缩短查询结果响应时间。[5]基于批注的方法进行数据溯源,通过构建三元组,其中s表示数据项源,d表示目标数据,i表示中间数据,通过三元组传递,支持数据溯源。[6]

    在区块链数据验证技术方面。银行电子档案管理等金融行业的应用场景中,链上记录数据的时候,需校验其合规性、正确性。验证是否有正确的数字签名,能否使用所输入的数字资产,是不是资产的拥有者在参与事务等。通过对每笔事务输出进行数字签名,在输出该笔数字资产时,需要提交相应的签名信息。

    应建立可信赖的银行电子档案存储库,综合应用区块链、可恢复性证明和开放档案信息系统等新技术,实现银行电子档案记录保存、记录存储、数据管理、访问记录、传播存证、迁移存据和数据溯源等应用。

    2.4 基于区块链技术的银行档案管理系统

    银行档案的使用具有一定的范围,一般不会对社会广泛公开,因此公有链的使用场景较少;对于仅限于银行内部的档案管理,可以采用私有链技术;而对于需要与外部企业或机构交流与共享的档案,则一般以联盟链为主。

    在数据管理的方式上,虽然区块链本身就是一个分布式的存储账本,可以将电子档案数据都放在链上进行保存,但采取这种方式往往效率不高,对于链上的运行速度和区块容量都有着较大的挑战。另外,这种做法使得区块链与原有的档案管理系统冲突较大,对业务和技术架构需要做大量改动,而且难以保证稳定性和日常运维。

    因此,可行做法是采用区块链和其它存储技术融合的方式,对于档案的元数据、文件摘要、关键性记录、数字签名、Hash值等重要信息上链,而基础数据和辅助数据则通过与区块链相关联的链下服务来完成。

    基于区块链的银行档案管理系统,对电子档案生成摘要,并将其存储于区块链分布式账本中,通过检索其GUID、数据哈希值、元数据、时间戳等信息,比对其生成的摘要信息与链上存储的摘要信息是否一致,验证其一致完整性和原始出处。

    将原始数据哈希值存储在区块链上,对原始数据的任何改变,都会导致其哈希值的变化,因此在与其链上哈希值比较时,就能发现其与原始记录的不一致,判别其新记录文件与原始档案相异,实现对电子记录真实性、完整性、可靠性的识别。

    利用智能合约对上链的电子档案数据进行合规性验证,只有通过验证的数据才能存储到区块链上。在电子档案查询、检索环节,利用智能合约做出档案一致性判断。基于去中心化分布式平台的电子档案管理,提升了电子档案的系统安全性、完整性和智能化。

    在生成电子文件时,同步生成电子文件的摘要信息,将这些摘要信息加上电子文件的元数据上链到区块链系统中。如果电子文件被篡改、伪造,那么其对应的文件摘要信息就会发生变化,与区块链系统中保存的原始文件摘要信息就不一致,从而能被识别出来。由于区块链中的数据是不可篡改的,从而保证了电子档案系统中数据的高度安全、高度可信性。

    3 利用人工智能技术构建智慧电子档案

    3.1 新一代智能OCR技术提升档案数据提取能力

    电子档案的另一大特点就在于可以利用先进的技术和算法对其内容进行提取和分析,以便于检索和利用,基于图像识别的OCR技术就是其中一个代表。

    以中国银行凭证影像综合应用系统中的OCR识别为例,利用基于人工智能技术的OCR引擎实现了各类常见凭证内容的识别,例如身份证的识别率达到99%以上,银行卡、存单、驾驶证、行驶证等票据的识别率均在95%以上,为信息的进一步利用提供了良好的基础。

    3.2 机器学习和知识图谱提升档案数据再利用能力

    构建基于档案的知识图谱能有效进行档案知识推理,是实现档案智能检索的关键技术和主要路径之一。基于编研人员的档案利用,通过对档案信息資源的深入挖掘,实现对档案信息资源的智能检索,提高了档案检索的查全率和查准率;同时基于数据挖掘技术,支持对检索结果中的知识图谱展示以及档案信息的自动聚类,为利用者提供了便捷、高效的档案利用服务。

    4 结论与展望

    银行的电子档案越来越多,然而电子档案的可信度却难以保障,特别是《会计档案管理办法》允许单位在满足一定条件时只保存电子文件而不需要对应的实物档案,就更需要采用科学的管理机制和技术手段来保障电子档案的可信度。本文采用区块链技术,特别是文件摘要和元数据上链的办法,提供了一条解决之道。此外,利用人工智能图像识别技术将沉睡的档案里面的内容提取出来,再借助知识图谱等技术手段,挖掘档案和档案之间的关系,为客户营销和可疑用户分析提供了支撑。

    参考文献:

    [1]谢宗晓,甄杰.公钥基础设施(PKI)国家标准解析[J].中国质量与标准导报,2018(012):? 18-21.

    [2]刘越男,张一锋,吴云鹏,等.区块链技术与文件档案管理:技术和管理的双向思考[J].档案学通讯,2020(01):? 4-12.

    [3]李春艳,乔超.区块链技术在大型企业集团电子文件管理中的应用——以中国石化为例[J].档案学通讯,2020(01):? 13-20.

    [4]谭海波,Haibo T ,周桐,et al.基于区块链的档案数据保护与共享方法[J].软件学报,2019,Vol.30Issue(09):? 2620-2635.

    [5]蔡维德,郁莲,王荣,等.基于区块链的应用系统开发方法研究[J].软件学报,2017,28(06):? 1474-1487.

    [6]钱卫宁,邵奇峰,朱燕超,等.区块链与可信数据管理:问题与方法[J].软件学报,2018,29(01):? 150-159.

    (作者单位:中国人民大学信息资源管理学院? 来稿日期:2020-09-27)