基于多源数据的档案知识问答服务研究

    徐彤阳 滕琦

    

    摘? 要:本文通过探析档案目前知识服务现状,提出基于档案大数据智能问答系统是处理档案大数据的最佳选择,针对档案多源数据的需求,构建了基于多源数据的档案知识服务智能问答模型。智能问答服务系统的建立为用户提供高效的档案问答环境,提升档案馆的资源利用率,扩大档案信息资源共建共享。

    关键词:多源数据;档案知识服务;智能问答

    Abstract:Through analyzing the current situation of archives knowledge service, it is proposed that the intelligent question-and-answer system based on archives big data is the best choice for processing archives big data. According to the requirements of archives multi-source data, an intelligent question-and-answer model of archives knowledge service based on multi-source data is constructed. The establishment of intelligent question-and-answer service provides users with an efficient file question-and-answer environment, improves the resource utilization rate of archives, and expands the co-construction and sharing of file information resources.

    Keywords:Multi-source data; Archives knowledge service; Intelligent question and answer

    1 引言

    大數据时代,网络方式成为用户满足个体需求的主要渠道。[1]面对井喷式的档案信息,用户经常需要查阅大量资料,整合阅读信息,提炼所需知识。为了促进平台的发展,满足用户咨询的需求,有必要提供更加优质的检索服务。

    智能化的发展,“智能+档案”[2]为档案工作优化和档案服务升级提供了技术支撑。基于大规模的档案数据准确提取相应信息,解决用户精准检索的难题已经成为未来发展的核心方向。

    智能问答系统随之出现,基于自然语言处理(natural language processing,NLP)技术,深入理解用户意图,精准回答用户需求,准确、简洁的方式更接近于用户的语言习惯。像苹果的siri等问答机器人属于通识型智能助手,是基于常用问题集的问答系统(FAQ),灵活性差,针对领域性问题难免会出错,精确度降低。

    自动问答不限于一般通识型知识问答,进一步向智慧化深度问答演化。智能问答系统的研究目前主要集中在基于深度学习与基于知识图谱的研究方向。深度学习使问答更加精准地理解用户查询意图,知识图谱使问答返回的结果更加精确化,符合用户的检索需求。

    智能问答利用自然语言对话,让用户感受到档案资源的查询与检索便捷性和准确性。利用档案馆知识服务构建智能问答,充分挖掘和利用档案资源价值,方便、快捷地解决用户关于日常服务、历史档案等问题,是满足用户需求的未来发展方向。

    2 探析传统档案服务问题

    2.1 档案知识库不完备。档案多以非结构化的形式存放,如办公自动化系统应用形成的各式电子档案,档案馆存放的纸质文件夹等,非结构化的电子档案相互独立、兼容性差,共享度低、数据冗余,造成信息孤岛现象。[3]如何有效地利用档案数据是目前亟待解决的问题。[4]

    2.2 档案利用率低。通过网络检索档案信息,检索速度慢,资料来源广泛,收集不够全面。

    档案基于关键词的检索模式检索精度低,无法了解用户的真正查询意图,检索全面性与准确性较低,也无法对档案知识进行深入的挖掘,对检索结果不进行处理与反馈,也不方便该问题的二次检索。

    档案馆(室)提供的档案利用率也较低。档案馆已公开的资料,用户也必须持有合法证件,造成了档案参考咨询的服务限制;有些用户甚至不了解档案馆(室)保存了哪些可以利用的资源。

    提高档案利用率最直接的方式就是最大限度地丰富数据库,实现档案信息管理数字化,辅以智能问答帮助用户以符合人类问答的方式迅速解决问题,打破用户档案利用的屏障,从而更好地为用户提供知识服务。

    2.3 档案咨询不便捷。档案馆的工作人员需要具备档案业务知识和相应的科学文化知识。但是,由于馆中专业人员的缺乏,管理人员履行职责的同时,往往没有多余的时间去应对用户档案咨询需求。用户提问可能是以往用户疑问的同类型的问题,馆员需要对该问题做出多次解答。

    用户也可能提问专业性知识,馆员只解释个人疑问,造成专业指导浪费。馆员也未对主要的问答问题进行统计与整理,导致问答咨询信息集成困难。智能问答的出现,减轻了馆员的工作压力,提高了馆员的工作效率,增强了服务效果,帮助馆员有充分时间掌握专业技能与研究能力,以保证数字档案文件真实完整。

    档案馆传统的参考咨询处于被动服务的阶段,而网络咨询服务的建设仍处于发展阶段。档案咨询是一项档案的基本服务,将参考咨询服务列入档案网站首页,随着用户咨询问题的深入,档案馆馆员已经不能快速地回答问题。借助于档案智能问答,解决用户的大量需求,帮助用户快速定位有用信息,提升了用户的咨询效率。

    2.4 用户需求不准确。大数据时代,用户处于一个需求导向、随时随地的泛在的信息环境,用户对档案需求较高,涵盖了生活、工作、学习各个方面。有人将数字档案用户的需求归结为档案资源获取、分析解决问题、用户需求定位等三方面。[5]

    用户表达咨询需求时,将用户的提问划分为本能需求、信息需求、表达需求、折中需求等四阶段。[6]为用户提供高质量的档案知识服务,必须及时、准确地了解与把握用户的需求。

    档案知识服务是以用户需求为中心,面向问题解决的,主动的服务方式。[7]智能问答的出现,将多数据源的档案信息整合,满足多主体用户共同的需求,大大提高了用户满意度。[8]

    3 智能问答系统的关键技术

    本文提出的模型是一个基于多源数据,通过知识库实现轻量级答案搜索,帮助用户获得准确档案信息的系统,而不是反馈用户提问的冗长答案信息。

    典型的智能问答系统包括问句理解、信息检索和答案生成三大模块,每阶段处理特定的问题。

    智能问答系统包含物理层、数据层、技术层、检索层和应用层。各层之间相互独立,易于扩展,分别承担后台管理、数据获取、知识组织、匹配答案、用户交互等功能。

    3.1 本体。采用本体建模的方式,对档案知识从概念、属性、关系上进行词性标注与句法分析,构建档案领域知识模型。一种可行的基于本体的问答系统是将语言处理与语义处理相结合的联合方法[9]。本体使用Protégé工具创建,通过Jena框架执行搜索,检索精度有所提高。

    3.2 档案知识库。智能问答系统通过知识库为用户提供的准确的答案。整合知识库,提高信息利用率。档案知识库涉及多个方面,优化档案类目,有效分类信息。对知识库内容的更新与补充,问答数据的不断增加,给语料库容量带来了不小的挑战。

    从档案内容视角,发掘档案知识单元之间的关联,将不同类型的知识单元关联聚合,形成供用户参考咨询的知识网络,实现资源的深度挖掘。

    构建档案智能问答系统应用的实际需求,需要考虑档案馆(室)的馆藏、档案文献、历史参考咨询数据集、互联网上碎片化信息等四类数据资源。[10]

    将多源档案数据存储在知识库中,用户输入的自然语言属于非结构化数据,结构化的知识图谱作为问答系统的知识库,知识以三元组的形式存储,关联档案实体概念,能够快速获取正确答案。

    处理流程包括底层数据的构建、数据清洗、分词与词性标注、利用机器学习方法进行档案实体识别与实体关系标注、利用Neo4j进行存储和呈现、利用开源的Spark技术进行实时动态更新等。

    3.3 智能档案知识问答的应用流程。用户输入问题后,将问题通过问题分析模块分类处理,利用相似度匹配问题集,寻找答案,若问答库中无模板,即从档案知识库中提取答案,存储进问答库,输出答案。

    3.3.1 问题分析

    (1) 问题分类。对于给定的问题,智能问答系统在于识别问题类型,预期答案的格式。

    文本采用统计学习的方式,一般问题的分类采用贝叶斯分类器。邻近算法(KNN)仅适合小样本的文本分类,支持向量机(SVM)算法小样本性能最优,克服了特征表示的维数灾难。一般利用源分类法中的隐含信息集成层次化的档案数据,加强了信息集成利用,利于用户检索所需的信息。[11]

    据此,将基于档案的智能问答系统能够处理的问题分为是/否型、定义型、列表型等三类。

    (2) 时间推理。档案中重要数据大部分以时间节点来记录。识别问题中的时间是问题焦点的一个重要环节。如果问题中含有任何包含时间信号,如问题中出现时间范围或具体日期,则由时间推理模块进行处理。

    TimeML[12]是一種用于自然语言文本中注释时间信息,如时间表达、事件及其关系的方案。当用户自然语言提出含有时间表达的问题时,答案必须满足时间限制。

    与时间描述有关的问题一般分为时间有关、时间描述的事件有关、时间序列相关或期间有关三类。为了证明包含问题中描述时间的答案合理性,需要一种时态推断方法。

    (3) 重复问题。重复问题的集成节省了数据库的资源与多次回答相似语义问题时间。当用户向系统提出问题时,系统自动判断问题是否重复,利用余弦相似度度量计算用户问题与存储在数据库中问题之间的相似性。若重复直接返回已保存的答案;若无重复,则调用档案知识库,抽取问题答案,并将问题答案存储在数据库中。

    3.3.2 问题匹配。简单的文本相似度匹配已无法满足目前的用户需求。从相似度的角度,考虑基于问题的文字与语义相似度的融合算法提高问题匹配的准确度,实验证明显著降低了误报率和漏报率。[13]一种基于一般词汇和领域词汇的词汇相似度算法,加强了词汇匹配领域的准确性。[14]

    但是都忽略了问句与关系细粒度相关性的研究,提出基于Bi-LSTM+CRF进行序列化标注,单词嵌入用于输入的句子与所有意图之间的相似性排序。HanLP不仅能够分词,还可以标注单词的词性。用户输入特定领域的术语,或者常见的拼写错误,不使用预先训练分类器。

    用户输入问题文本,对输入的自然语言进行问题分析,完成分词、词性标注、实体识别与实体消歧的工作,分类问题文本,通过构造标准的SPAQRL查询查询生成模板与问题类别,并返回相应的结果,转化为用户易于理解的形式。

    3.3.3 问答检索。智能问答的核心就是对问句进行理解,给出符合的答案。用户发出查询请求时,智能问答系统进行解析与推理,根据用户提问采用NLP的分词能力对描述问题智能分解,根据预先建立候选问题集,计算问题的相似度,查找相似度符合的问题-答案,对集合中相匹配的知识,将对应的结果直接输出给用户。问题重构将用户恰当或不恰当的问题转换为自然问题,指定到相关领域。用户的每次提问,问题集都会自动更新,写入数据库,若用户的提问与以往记录相符,省略了再次组织与匹配答案的过程,直接将对应好的答案提交给用户。

    传统问答系统通过计算文本相似度进行匹配,忽略了内容的句法结构与语义信息,而基于深度证据评分融合算法,对文本进行预处理,在文本比较评分之间挖掘更深层的文本特征,提高问答匹配的准确率。[15]基于深度学习的智能问答可以实现用户聊天内容上下文语义分析功能,与用户进行实时互动,模糊或有歧义的问题,系统交互式引导用户明确问题,使系统更深入地了解用户提问,更准确地回复用户。

    3.3.4 用户评价反馈。根据用户的问答实例,提取有价值的内容实体,补充图谱内容,丰富语义信息,使问答系统更贴合人的思维模式。同时,为相似内容问题提供语义模板,以便所有用户的再次检索,减少了人工服务的次数。

    强化学习(RL)的策略,机器学习与用户评价相结合,实现智能问答的自动改进,以及未登陆问题的发现与学习。建立多渠道的反馈机制,利用深度学习优化模型,提升咨询效率,改善咨询体验。

    基于上述讨论,利用IDEA的开发平台,以spring框架为主体,即可搭建一个小型的智能问答系统。

    4 总结与展望

    智能问答技术应用到各个领域,如电商、医疗等中的多个场景。在个人助手领域,智能问答技术增强了搜索设备的执行力,提升了检索效率。

    4.1 智能问答的发展。如何消除用户与计算机之间的交流障碍,提高计算机的查全率与查准率一直是智能问答系统的关键。目前,交互问答主要回答事实类问题,直接从数据库提取答案片段;而分析类问题的问答需要用户的参与,若要正确理解对话信息,必须考虑信息语义层和功能层的构建效果,扩大或缩小问题的范围,以便精确问题的回答。

    智能问答中加入图片、视频等多媒体信息,人机互动可视化能更生动地展示档案信息。针对用户输入的自然语言检索词,系统自动纠正用户词中的错别字,给出建议的推荐词予以继续问答。未来档案知识服务是基于场景的个性化智能问答的定制,更主动地了解与用户交互。

    4.2 档案服务的发展。档案的开放必须遵守国家档案管理的相关法律、法规和政策,同时,档案数字化对网络安全性提出了更高的要求,需加强保密档案的安全防范措施。大数据时代,从海量的档案数据中挖掘潜在价值的信息,实现档案服务创新。

    档案资源知识价值的需求增多。移动端的档案服务利用用户碎片化时间,不用专门去当地了解需求的档案信息,更符合现在的潮流倾向。用户个性化的档案推荐服务,可以让用户获得额外受益的档案资源。[16]档案推荐服务,主动地提供档案信息资源的线索,以用户的历史阅览信息为分析数据,加强信息预测,符合用户的访问习惯。

    数字档案以新的方式开发利用,促进了档案服务转向数据服务与知识服务。[17]

    4.3 档案知识的发掘。档案大数据对于知识的新颖、深度的挖掘,揭示知识数据之间的关联,使档案成为有价值的知识,从而更好地为用户服务。知识图谱所表示的知识是结构化数据,相互之间的转化必然存在模糊性。档案信息资源应该与时俱进,档案知识库的建立与后期的持续更新与维护,缺乏了对档案知识的不断探索,发布新问答模板与更新之间存在时间延迟,一种新的实时处理新问答对以维护档案知识库方法考虑到未来研究。

    智能问答系统在实现涵盖多个领域、添加更多的语义规则方面有很大的发展空间。推进这些技术的应用,能够不断实现效率高、针对性强、用户体验好的档案服务。

    参考文献:

    [1]杨强,张静文,朱滢.基于网络问答平台的公众档案需求研究[J].办公室业务,2012(13): 84-85.

    [2]曹航,王静.“智能+”视野下档案管理变革趋势初探[J].中国档案,2019(11): 72-73.

    [3]王志宇,赵淑梅.非结构化电子档案数据管理探析[J].档案学通讯,2014(05): 54-58.

    [4]胡振荣.历史档案数字化著录存在的问题与对策研究[J].档案学研究,2017(02): 91-95.

    [5]王毅,魏扣.优化用户体验的数字档案资源服务策略研究[J].档案学通讯,2017(01): 64-69.

    [6]王勤.咨询对话是联结民生与档案的纽带[N].中国档案报,2016-10-13(03).

    [7]张斌,郝琦,魏扣.基于档案知识库的档案知识服务研究[J].档案学研究,2016(03): 51-58.

    [8]孙莉.档案数字资源协同服务实现机制的探讨[J/OL].山西档案.

    http://kns.cnki.net/kcms/detail/14.1162.G2.20191108.1133.002.html

    [9]Albarghothi A,Khater F,Shaalan k.Arabic Question Answering Using Ontology[J].Procedia Computer Science,2017,117:183-191

    [10]趙彦昌,毛丽敏.“互联网+”环境下档案信息资源建设若干问题研究[J].档案学研究,2017(04): 31-35.

    [11]Wei Wei,Gao Cong,Xiaoli Li,et al.Integrating Community Question and Answer Archives[A]. Proceedings of the Twenty-Fifth AAAI Conference on Artificial Intelligence[C]2011:1255-1260.

    [12]James Pustejovsky,José M. Casta?o,Robert Ingria,et al. TimeML: Robust Specification of Event and Temporal Expressions in Text[A]. 2003 AAAI Spring Symposium[C]2003年.

    [13]Hua HU and Shi-zheng ZHU.Design of Intelligent Question Answering System Based on Semantic Web[A].2017 3rd International Conference on E-commerce and Contemporary Economic Devepment[C],2017.

    [14]Yongqiu Liu.Research and Design of Intelligent Question Answering System[A].2019 2nd International Conference on Mechanical Engineering,Industrial Materials and Industrial Electronics[C]2019.

    [15]Xiabing Zhou,Binglin Wu,and Qinglei Zhou.A Depth Evidence Score Fusion Algorithm for Chinese Medical Intelligence Question Answering System[J].Journal of Healthcare Engineering,2018:1-8

    [16]王兰成,刘晓亮.档案社会化媒体信息服务系统的开发与实现[J].中国档案,2019(11): 64-66.

    [17]赵跃.大数据时代档案数据化的前景展望:意义与困境[J].档案学通讯,2019(05): 52-60.

    (作者单位:山西财经大学? ? 来稿日期:2020-08-10)