基于HanLP的档案智能检索系统研发与应用

    李宝玲 郭立鑫 李珂

    

    摘? 要:河南省数字档案馆选型HanLP工具包,采用NLP、OCR、全文检索等技术,开发档案智能检索系统,探索档案数据智能挖掘、智能关联、智能检索、智能学习的途径,对档案利用智慧检索模式进行了有益初探。

    关键词:智能检索;HanLP工具;数据管理

    Abstract: HanLP tool kit was selected in henan digital archives, and NLP technology, OCR technology, full-text retrieval and other technologies were adopted to explore the ways of intelligent mining, intelligent classification, intelligent retrieval and intelligent learning of archival data, develop the intelligent retrieval system of archives, and makes a beneficial exploration on the intelligent retrieval mode of archives utilization.

    Keywords: Intelligent retrieval; HanLP tool kit; Data management

    1 开发背景

    1.1 数字档案馆向智慧档案馆的转型发展。智慧档案馆是数字档案馆发展的新阶段。理论界这几年很多关注于智慧城市背景下数字档案馆或智慧档案馆的研究,实践层面上青岛市档案馆开始了智慧档案馆建设的探索。[1]

    河南省数字档案馆智能检索系统(简称“系统”)作为档案数据应用层面的初探,将NLP技术应用于档案数据和知识管理,旨在提高档案现代化管理和智能服务水平。

    1.2 海量数字档案资源知识管理的需要。随着档案数量的增多,历史存量档案数字化率逐步提升,增量电子档案比例连年提升,条目加全文关联对应的传统检索模式,已不能满足从海量档案中快速、有效、精准地获取信息,如何充分挖掘档案数据、汇聚关联信息,让档案检索功能更加人性化,做到档案数据专题汇总、实时统计和智能分析,这对档案检索系统而言是一个新课题。[2]

    河南省数字档案馆馆藏丰富,档案内容所涉及到的人物、地点、时间、建筑、事件等档案元素交叉重叠,如何以这些元素为切入点,在海量结构化和非结构化数据中,将有意义的档案元素挖掘出来,以准确有效的关联形式表达,组成完整的知识体系,这是探索智能检索系统的价值所在。[3]

    2 系统设计

    2.1 技术路线

    2.1.1 CES Coral框架。CES Coral是基于J2EE开发且具有自主知识产权的框架,采用Spring、Struts和hibernate开发技术,并集成公司强大的基础组件库产品,完全符合MVC开发模式的要求。表示层和控制层采用Struts,数据持久层采用hibernate。整个架构的整合以及事务处理主要采用Spring Framework,适合档案系统开发。

    CES Coral架构既包括逻辑层组件,也包括表示层组件,组件兼容目前主流浏览器,其应用可以大大提高档案搜索系统的性能和稳定性,并减少后期维护工作量。

    系统中,用户通过操作检索前台界面发送请求到检索后台,由后台总控制器分析请求并找到具体的控制层类以及方法,然后由控制层方法执行相应的操作,并调用服务层进行业务处理。服务层完成业务处理后,将结果推送给控制层进行判断。根据判断结果,控制层将结果返回給请求端,即用户浏览器进行视图展示。

    2.1.2 HanLP工具包。HanLP是由一系列模型与算法组成的NLP工具包,具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

    本系统在HanLP的基础上,结合河南省地名信息、人名信息、本馆制定的同义词库、近义词库以及本馆常用的档案词语形成基础词库,为后续中文分词和词组提取制定规则依据;基于HanLP工具包进行档案业务的工具制定,实现更贴近档案应用的语言处理工具集合。

    系统以河南省档案馆海量馆藏数字档案和资料为数据来源,通过数据同步的方式将数据放入到智能检索数据池,供智能检索系统分析应用。

    系统根据设定的检索模型(因果、条件、并列、转折等)以及设定的智能检索规则进行模型数据的填充;[4]按照关键词、词频、权重,按照时间、地点、人员、建筑、事件五个维度在各档案、资料之间进行语法、语义等关联关系的创建,形成本系统核心的数据模型图谱。上述工作均由系统后台执行,创建检索模型、数据模型图谱、知识图谱、标注拼音,形成各档案、资料之间的关联关系。

    2.1.3 全文检索技术。全文检索技术最显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索。

    检索过程分为索引、搜索两个过程,可以高效地管理档案资源海量非结构化数据。

    系统采用 Sorl全文检索软件,基于系统后台创建的各种智能检索模型和语法、语义关系,提供基本检索、拼音检索、同义词检索、联想检索、模型检索、热点排行、检索结果的图谱化展示,保证检索结果的准确性、全面性和智慧性。

    2.1.4 OCR技术。OCR技术是指针对印刷体字符,采用光学方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。本系统通过OCR工具对单层PDF文件进行文字抽取,并形成独立的文本文件,为全文检索提供条件。

    2.4.2.3 词典管理。词典管理模块具有基础词库管理、扩展词库管理、词性管理、同义词库管理、语料训练和在线学习等功能。

    基础词库管理用于从档案数据集合中进行关键词抽取形成基础词库。扩展词库管理用于维护不在基础词库中的关键词或短语等操作。词性管理用于标识词组或短语的不同词性,供档案检索模型进行使用。其他模块分别用于同义词库、语料管理的智能化和线语句补充学习等。

    3 系统评价

    3.1 检索指标。智能检索系统在系统正常运行的前提下,重点关注的是功能指标和性能指标。其中,功能指标包括系统的完备性、正确性和适合性,性能指标包括系统的关联率、查全率、查准率和响应时间。

    3.2 检索环境。档案检索系统就检索工具而言,主要依靠机检系统,即利用电子计算机和数据库检索档案文献信息资料。其组成包括计算机、数据库、管理软件、通信网络和检索终端,数据库是核心,检索的过程依赖计算机、网络和数据库,检索性能因运行环境的不同而不同。

    3.3 功能测试。为验证本系统的完备性、正确性和适合性,测试中主要对前台(数据挖掘、人名库、地名库、数据分析、词语联想、拼音联想、简拼联想、关键词检索、模型检索、智能检索、检索分类、搜索热点、知识图谱)13功能和后台(首页展示、系统管理、资源管理、角色管理、组织管理、用户管理、系统表管理、词库管理、同义词库、语料训练、检索配置、档案数据、档案词库、聚类管理、档案分类、档案模型、扩展词库、词性管理、在线学习、统计分析、统计配置)21个功能,经过3轮测试,查看执行结果,最终结果均能顺利完成相应功能测试指标任务。

    3.4 性能测试

    3.4.1 关联率。关联率是指智能检索系统搜索到的关联档案数据占传统检索数据的比例。测试以搜索“张仲景”关键词为场景,设置两种方式:a.通过河南省数字档案馆馆藏档案综合管理系统检索功能进行查询;b. 通过河南省数字档案馆智能检索系统检索功能进行查询。

    测试结果数据显示:a.馆藏档案综合管理系统共检索到包含“张仲景”的数据71条(序号1-71);b.智能检索系统共检索到包含“张仲景”的数据71条,且智能关联其它相关数据97条,共计168条(序号1-168)。检索到的档号呈现包含关系,关联率高达136%。

    3.4.2 查全率、查准率。查全率指系统在进行某一检索时检索出的相关资料量与系统资料库中相关资料总量的比率;查准率指系统在进行某一检索时检索出的有效资料数量与检索出资料总量的比率。参照搜索“张仲景”关键词,后续设定其它关键词搜索测试场景5次,与馆藏档案综合管理系统相比,智能检索系统的查全率能够达到100%。同时采取人工方式,对每次测试场景结果进行验证,查准率可以达到95%以上,能够符合档案用户的查询诉求。

    3.4.3 响应时间。响应时间指从提交检索请求到查出资料结果所需时间。响应时间测试是以独立虚拟机部署的测试环境为基础,使用馆藏档案数据为测试数据,测试结果根据测试工具执行结果分析得出。将测试数据与测试指标相比较,确定档案系统压力负载承受能力是否达到预期目标,以期发现性能瓶颈。

    测试方式按在线和并发方式分别增加虚拟用户数,在线方式运行5分钟(包含思考时间),并发方式循环10次执行脚本,测试场景如下:

    a.在线虚拟用户数分别为10、100;b.并发虚拟用户数分别为50、100。测试结果显示,10人在线用户检索时间小于1秒,100人在线用户检索时间小于3秒;50人并发检索时间小于3秒,100人并发检索时间为3.097秒。响应时间符合现有实际使用人数的检索体验。

    4 不足和展望

    4.1 系统不足。系统研发中采用的J2EE平台、oracle数据库均是甲骨文公司系列产品,服务器、操作系统及中间件高度依赖于微软等国外产品,网络安全和档案信息安全还有一定风险漏洞,这需要运用国产自主信息技术进行替代,优化配置,真正实现向国产智能检索系统的转型。同时,受人力、时间、技术、资金等因素限制,河南省数字档案馆数据来源不够广泛,数据总量还不够丰富,数据结构还比较单一,数据分类还不够完善,还不能较好满足档案用户智慧体验需求。[5]

    4.2 价值展望。首先,通过智能检索系统的探索与实践,将馆藏档案数据灌入到该系统,经过各种数据处理、分析,对原有通过档案类型分类无法定位的档案、因某些检索条件不全面、数据不规范造成的无法检索的档案,系统地进行了梳理和分析,客观全面地摸清了馆藏档案信息总量,有利于深入挖掘更多的有价值档案信息。

    其次,该系统为档案利用提供了一条更加便捷、快速的通道,特别是对于专题研究的人员,知识获取更加全面、利用效率更高。

    最后,系统不局限于对档案数据的智能分析利用,资料、现行文件以及其他行业文件都可以作为系统学习的语料,在不同的业务场景下有良好的适用性和实用性,并且系统预设了各种配置功能。

    随着人工智能技术的应用,智能化、网络化档案检索模式将逐渐成熟,档案智能检索系统的综合性能、用户的个性化体验将不断提升。同时,借助智能检索技术,档案资源共享水平将有一个质的跃升,智慧档案馆的理念也将变为现实。

    本文系国家档案局项目“数字档案資源共建共享研究”(批准编号:2017-X-22)

    参考文献:

    [1]杨来青.再信息化:档案馆发展战略的思考[J].浙江档案,2019(09):15-18.

    [2]冯珂.智慧档案馆体系构建初探[J].档案与建设,2016(01):18-21.

    [3]许惠玮.基于数据挖掘的数字档案信息管理研究[J].北京档案,2012(09):29-30.

    [4]周之诚.基于查询意图聚类的实时搜索建议[J].现代图书情报技术,2011(02):87-93.

    [5]梁晓诚,岳晓光,麦范金,赵子强,路英,王挺.基于NLP技术和相似度计算的智能搜索引擎研究[J].昆明理工大学学报(理工版),2010,35(04):76-79+88.

    (作者单位:河南省档案馆? ? 来稿日期:2020-08-20)