基于数据化的历史档案编研路径探析

    蔺文卓

    摘 要:长期以来,档案的编研工作尤其是历史档案部分的编研工作信息量大、难出成果,一直成为档案编研工作的难点。与整个档案工作相比相对滞后。目前信息化、数据化时代的到来,为历史档案编研工作带来了全新的机遇。笔者从数据化的本质出发,将数据化引入到档案编研工作中来,提出了建立历史档案数据库,运用数据化、数据追踪、智能分析等手段开展历史档案编研的全新路径。

    关键词:历史档案;编研滞后;运用智能;全新途径

    DOI:10.12249/j.issn.1005-4669.2020.26.079

    历史档案一般是指明清以来,直至中华人民共和国新中国成立前所形成的具有保存价值的档案。它反映了我国近6百年的发展历史,由于历史时段长、资料数量大,人们在历史档案编研时,总是在浩如烟海的历史资料中,耗时、耗人、耗材的苦苦搜寻,在历经几多艰难后,方能查到一些有价值的资料。这种传统的资料查找和档案利用方式已严重制约了历史档案的编研工作。所以为破解这一难题,为档案的编研工作探寻更便捷的工作方式,笔者从数据化的入手,重新审视历史档案编研工作,提出了基于数据化,采用挖掘技术,建立数据化追溯数据库,实现档案资料文本、片段数据化等方法,打开服务编研工作的新路径。

    1 历史档案编研现状

    目前我国档案管理机构已经普遍开展了档案数字化工作,并且实现了部分历史档案的数字化。但是,数字化工作的有效开展,并不意味着编研工作进入了快车道,因为从辽宁省县级以上档案管理机构看,大多档案数字化只是将原有的档案实现了全文扫描,只是形成了一张具有编号、目录,而且是计算机编目下的图片,只能实现在知道本页基本信息的情况下的一种基本调阅。还没有开展运用数据化技术。所以我们很有必要掌握,运用数据化技术,推进档案编研工作发展的速度。档案数據化是指,将档案信息化转化为计算机可以阅读的档案信息资源的过程,并实现计算机自动分析、理解和处置档案信息,将利用档案的途径由“页面阅读”转变为“内容控制”“信息开发”,并可以进一步转化为可制表分析的数据态档案。就是说简单的图片模式的数字化不是数据化,只有可智能识读、可分析的数据信息,才是真正意义上的数据化。也就是说目前各个档案机大多数没有进行历史档案编研数据化工作。

    2 实现历史档案数据化编研的新路径

    1)建立可追溯档案数据库。实现历史档案的数字化,是进行数据化编研的首要条件。根据实际工作与研究预测,只有在实现了全文数字化之后,才能建立以数字化为基础的全文数据化数据库。这就需要我们以数字化为基础,建立历史档案数据库,这是实现档案数据化编研的第一步。对于历史档案的数字化图片,只要将其图像承载的内容进行著录并输入计算机,并按照一定的编码规律归类,并利用OCR技术对图片中的文字加以识别,转变为数字化的可处理的格式,从而实现历史档案从数字化到数据化的根本转变。

    2)采用挖掘技术,实现文字片段的数据追踪。文字片段的数据追踪,是数字化的终极目标。因为在数字化阶段,虽然我们的存量档案已经存入了电脑,但是在数字化图片模式下,计算机对其是不能识读的。当利用者要查找某一内容时,当输入关键字后,计算机并不会将相关的文字片段全部呈现在屏幕上。只有当你知道它在那本书上,这种检索才是准确有效的。正如黄强在《数字化与数据化》(见《住宅与房地产》2020年5期)一文中指出的那样,只有采用“能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。通过检索和查询,我们可以对它进行无穷无尽的文本分析;也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。”对于历史档案编研工作而言,多年来,档案工作者都是采用人工翻阅的模式开展编研工作,每篇文章、每部作品的出炉,由于资料的查找难度大,总要花费几个月甚至几年的时间。如果历史档案全部实现数据化,要想开展某个专项的研究,只要在计算机的搜索栏里输入关键词或某个文本片段,文献中关于这方面的内容就会全部显示在屏幕上。这样,我们查找资料就不再难了,编研工作也就轻松了许多,同时会节约大量的人力、物力。

    3)建立智慧数据模型和流程模型。智慧档案馆建设的核心是建设以数据为核心,以数据化为根本的档案资源体系和网络运行体系。在大数据时代,只有加强这两个模型的建设,才能更加有效地发挥档案的利用效果,才能使利用的社会化和最大化成为现实。这两个模型的建立,将使国家档案局原局长关于数字化的“图片转化为电脑可以识读的字,变成电脑可以任意检索的数据,让它和其他的大数据一样,进入到大数据系统,可以任意检索、主动的推送、深度的挖掘,变成人工智慧、人的外脑” 的规划蓝图变为现实。为了实现上述目标,作为档案工作者,在进行历史档案管理的过程中,就是要实现五个智慧——智慧数据导入、智慧识读、智慧检索、智慧文本字句段利用、智慧整理数据。

    4)以数据列表追溯历史渊源。对跨度较大且在历史上曾多次发生的事件的产生、发展和演变的历史进程的研究,一直是困扰档案编研人员的瓶颈,使得人们对某一事件的认识始终不能完全彻底。随着大数据和档案数据化时代的到来,困扰人类几百年甚至上千年的难题将迎刃而解。在历史档案全面实现数据化之后,如果我们想了解明清至1949年的580年间黄河决口和黄河迁移的历史,只要手指轻轻一动,在计算机上输入“黄河决口”之类的字段,关于黄河的字、词、句和段落等内容将全部显示在屏幕上,只要我们对取得的数据进行全面的梳理,形成规律性的编研信息就完成了一次十分有意义的编研。

    3 结束语

    历史档案编研具有资料浩繁,工作难度大、出成果慢,是困扰档案编研工作的历史性难题。将数据化引入历史档案编研工作中,不失为破解这一难题的有效途径。笔者通过数据化应用原理的分析,概括总结了历史档案数据化编研的实现路径和优势,提出了行之有效的办法。虽然这一构想还处在理论探讨阶段,但我们深信,在数字技术不断完善的未来,历史档案数据化编研将成为历史的必然,而被档案界所广泛采用,并取得累累硕果。