数字人文项目中档案数据开发工具及应用研究

    

    

    

    摘要:欧洲时光机是数字人文研究的典型项目,它充分运用档案数据来勾勒历史场景,还原了欧洲历史和文化源流。本研究采用案例分析法,对欧洲时光机项目展开调查,梳理其“孕育”和“成长”两个阶段的特征,揭示项目发展脉络。按照欧洲时光机的业务步骤,对档案数据收集、扫描识读、内容关联、分布存储、开发利用等环节进行工具技术分析。在实际项目开展中,除了对工具技术关注外,还应考虑项目应用场景、档案叙事功能和协同合作范畴,进而立体化实现档案资源价值。

    关键词:欧洲时光机 档案数据 数字人文 文本识读

    Abstract: European Time Machine (ETM) is a typi? cal project of digital humanities research. It makes full use of archival data to outline historical scenes and restore European history and culture. This study uses case analysis to carry out an investigation on the ETM, sorting out the characteristics of the two stages of“incubation”and“growth”, revealing the development context of the project. According to the business steps of ETM, it carries out tool technology analysis on archive data collection, scanning and read? ing, content association, distributed storage, develop? ment and utilization. During actual project develop? ment, in addition to paying attention to tool technolo? gy, project application scenarios, archive narrative functions, and collaboration scope should also be con? sidered to realize the value of archive resources thor? oughly.

    Keywords: European Time Machine; Archival da? ta; Digital humanities; Text understanding

    隨着数字转型升级和新技术环境变迁,档案管理对象由数字态转向数据态,[1]管理层级由案卷文件级转向内容语义级,资源重整由静态展示转向动态模拟,资源开发由档案实体保护转向内容挖掘。尤其在数字人文浪潮影响下,档案数据价值逐渐被发掘。[2]当前档案数据开发研究主要包括:第一,档案数据概念及其生成环境。于英香等[3]立足于大数据环境归纳了档案数据范畴,同时关注全过程形成的元数据。第二,运用数字人文技术展开档案数据挖掘。迈克尔·莫斯(Michael Moss)等[4]认为数字化历史档案也可作为数据被挖掘;郑金月[5]从数据态角度总结档案数据关联、挖掘和分析的价值。第三,数字人文项目中的档案数据应用。杨茜茜[6]从“威尼斯时光机”和“协作式欧洲数字档案研究基础设施”案例入手,探讨数字人文下历史档案资源整理和开发,尤其是档案数据层的挖掘与关联。由此可见,档案数据价值正在被验证和应用,具体表现在挖掘、加工、关联、利用等环节中,直接体现在数字人文项目中。其中“威尼斯时光机”作为档案数据发掘的代表,学界不乏介绍,[7-8]但是该项目新的动向和进展值得关注。尤其是在“泛欧洲数据库”推动下,全新的“欧洲时光机计划”旨在还原欧洲大陆的千年历史镜像,优化公民接触欧洲历史和文化源流的方式。笔者侧重于档案数据挖掘过程中的工具技术和场景应用,为今后开展数字人文项目提出思考。

一、欧洲时光机实践进展

    “欧洲时光机”(European Time Machine),吸纳了跨专业跨领域知识、多维数字技术,构建跨越千年的欧洲历史场景,并且经历了两个阶段。

    (一)典型孕育期——来自“威尼斯时光机”的探索

    “威尼斯时光机”始于2013年,是瑞士洛桑联邦理工学院(EPFL)和威尼斯大学的联合项目,它使用档案来展现这座历史名城的演变。[9]该项目以动态数字形式捕获1000多年的档案,包括了历史地图、专题论文、手稿、病历、法律文书和乐谱。项目负责人弗雷德里克·卡普兰(Frédéric Kaplan)表示,利用机器学习技术,向学者开放大量隐藏历史的档案,使研究人员能够搜索和交叉利用信息,[10]本质上是将海量的档案进行数字化、转录、建立索引和关联,形成了完整威尼斯文献数据库。在利用方面,它记录了过去成千上万普通公民留下的档案,这有助于揭示威尼斯金融市场的发展规律,或推演鼠疫之类疾病的传播方式。

    (二)燎原成长期——构建“欧洲时光机”的蓝图

    威尼斯时光机的成功,推动了对整个欧洲历史的重现挖掘。“欧洲时光机”的目标在于将欧洲历史悠久的文化和商业中心的时间机器连接起来,利用历史档案中的细节来揭示整个欧洲大陆数百年来社交网络、贸易和知识的发展情况。超过14 000个机构参与该项目,它纳入了10万余名专业人员,他们包括历史学家、建筑学家、档案管理员、博物馆和图书馆员、公民科学家、家谱学者,甚至业余爱好者。项目总部位于维也纳,在洛桑、阿姆斯特丹和布达佩斯均设有办事处,50多位宣传大使遍布欧洲各地,使得该计划牢固地立足于欧洲大陆。[11]截至2020年12月,欧洲时光机共有23个本地时光机处于在研状态(见表1),它已获得“欧盟Horizon2020研究与创新计划”资助,保障了资金来源。

    

二、对档案数据开发工具的技术分析

    数字人文项目主要由资源层、平台层和展示层构成(见图1),而工具技术是平台加工层的赋能点,档案数据又是实施对象。《欧洲时光机宣言》指出,在符合欧洲价值观的前提下,项目重点考虑将大数据、人工智能、VR/AR、3D/4D等纳入平台开发。[12]由于本文聚焦数字人文工具技术的施用,因此基于数字人文项目构建框架,按照“源头数据收集—中端内容集成—后端场景重现”的逻辑,重点对平台层的档案数据加工展开层次分析。

    (一)档案文本海量化收集

    构建时光机场景的基础在于拥有海量档案数据。据2018年威尼斯时光机项目报告显示,当地档案馆已捕获19万份档案、72万张图片、200万张扫描文档、16万条注释和300余本书籍等数字化档案。[13]又如阿姆斯特丹时光机(Amsterdam Time Machine)建立在荷兰主要学术和文化遗产机构(Adamnet)的链接数据基础架构上。其中最主要的基础数据是城市地图档案,仅阿姆斯特丹档案馆就提供4500余份地图档案。用户最终能实现时光倒流,并在社区、街道、房屋、房间的水平上导航城市,得益于见证城市更迭变迁的地图档案。

    (二)档案数据透视化扫描

    历史档案大多是纸质,需要通过数据化扫描并全文转录。时光机项目引入了高速扫描仪,实现数据“超速运转”。一台旋转扫描仪配有一个2米宽的转盘,每小时可生成数千张高清图像,将海量兆字节信息提供给存储器进行长期存储,再利用高性能计算机将这些数字图像进行标引著录。[14]值得一提的是,该项目运用了“断层扫描”,使其无须打开书本即可连接阅读仪器。该设计基于医学上普遍使用的计算机断层扫描技术,从不同角度拍摄的X射线会逐层构成3D图像,用于应对黏连成块、无法清理的“档案砖”。

    (三)识读内容细粒度关联

    档案数据处理的关键在于全文识读,而非简单的数字图像集合。欧洲时光机采用“机器学习识读+人工辅助识读”双重方式,用于克服传统OCR识别缺陷。因为历史档案大多是手写誊抄,与印刷打印型档案有较大差异。时光机借助机器学习来识别整个单词形状,并将其置于手稿数据库。全文识读之后,将每个单词进行“本体分析”,即每个单词都是一个核心,打破以往按照全宗或者案卷为整理单元的模式,按照语法、語义关系标记内容,随后开展社会网络分析。如威尼斯时光机中在里亚托(Rialto)档案中用家族企业的名称标记建筑物,用姓名标识人物,在人物关系网络中描绘社交节点。同样,杜布罗夫尼克(Dubrovnik)时光机[15]按照年份整理出大事记表(1400—1450),详细描述日期、地点、任务、事件,然后建立人物事件关系,编制长达586页的电子书,其中地图元素逐渐细颗粒化,每一个单元网格清晰可见。

    

    

    (四)档案数据分布式存储

    欧洲时光机相当于建立了一个大型模拟器,映射了两千年前的欧洲历史,将档案馆和博物馆的大量藏品存储于数字信息系统。为解决海量数据的高速存储运算,它创建了一个分布式数字信息系统,以映射欧洲跨时代的社会、文化和地理发展。这种大规模的数字化计算基础设施,将欧洲的悠久历史以及跨民族多语言知识转化为社会文化资源。在阿姆斯特丹时光机中,将档案数据分散存储在多台独立设备上,并上传在专题数据云ALi? Da。[16]该系统不仅存储了阿姆斯特丹各类历史档案资源,还规范了档案数据词汇表,以配合前序环节的关联数据。除了项目成员可上载档案数据资源,时光机用户也可灵活添加数据集。

    (五)历史场景可视化呈现

    时光机后端呈现在于,借助可视化工具展示欧洲城市变迁与发展,还原真实历史场景。呈现结果不仅让用户体验历史演化,还为人文社会科学领域提供了研究场景。具体包括:一是追溯了城市疆域和原始版图。在动态化演示过程中,城市随着河流、山脉变化而呈现散点式、条状式、集团式不同分布,见证运河改造和人口迁徙,再现城市规划和建筑设计。二是探索了流行病学新发现。流行病学家马塞尔·萨拉特(Marcel Salathé)在体验时光机时,通过查阅档案显示的死者姓名和位置,以及频繁出现的死亡情况描述,总结17世纪中叶瘟疫暴发的演化特征。这种原始的“健康档案”蕴含着大量的疫情传播路径数据,有助于攻克疾病治愈难题,也为当前新冠肺炎疫情防控档案利用提供思路。三是提供了文旅融合的新途径。在错综复杂的社会人物关系、角色分工网络中,寻找名人成长踪迹和祖先生活遗迹,以及沉浸式体验历史场景,如运河修建、战争防御、公约制定、环境保护和社区教育等。

三、应用于数字人文项目的建构启示

    数字人文项目的重要特征是将数字技术融入人文研究,将档案文本转化为可模拟、可关联、可重组的档案数据。除了施用工具技术,还应考虑其应用场景、实现功能和参与范畴,从而更好地发掘档案资源。

    (一)数字赋能,理性选择技术工具

    

    数字技术是整合档案数据的有效方式,掌握数字技术能够赋予档案以生命力,但同时也要理性选择技术工具,按需选取利用。关键工具和用途主要有:第一,档案数据需要经过编码转化为机器可读的语言。数据化后的历史档案大部分是非结构化状态,例如手稿、地图、绘图等,需要借助一些内容管理工具进行结构化加工(见表2)。第二,档案数据中的标记工具(Cited Tools),让档案数据融入计算机模型之中。欧洲时光机项目中的档案标记工具包括了网络工具Web tools:BatchGeo、Geo Extraction、Geo IP、Google Image Scraper、Google My Maps、Image Scraper、Open Refine、Palladio、Raw Graphs、TimeMapper、WorldMap;外挂工具Plugins:DownThemAll和软件工具Software:Gephi。[17]第三,还原历史场景中房屋、街道、港口等标注数据的场景重构,用3D/4D技术仿真模拟。通过定性近距离阅读和定量远读识别的模式,即“遥读+近触”来研究档案数据。

    (二)立足场景,积极构建城市记忆

    档案数据是欧洲时光机项目的基础,是构建城市记忆的真实素材,其首要应用场景就是档案资源的量化积累,以及数据化的质化加工。档案馆藏资源是实施记忆工程的原料,因而时光机项目都和地方档案馆建立合作关系,大量收集不同年代的档案资料,如雷根斯堡(Regens? burg)时光机积极寻求档案馆和历史遗迹保护的支持,利用数字档案实现“时光倒流”。与时光机有异曲同工之妙的还有“美国记忆工程”,该工程收藏了900多万件记载美国历史文化、战争解放、儿童妇女的馆藏,包括了手稿、口述、录音、影像、乐谱档案,组织了115类主题集合,并且利用数字技术转化为数字型记录,保证数字档案资源来源广泛。[18]因此,海量且丰富的数字档案是执行类似项目的必要条件,而数据态环境是执行的充分条件。

    (三)挖掘数据,发挥档案叙事功能

    档案数据是数字人文项目的研究对象,不仅需要深入挖掘、关联和组合,还要回归人文关怀——更好地发挥档案叙事功能。档案叙事契合了人们多维视听融合的需求,超越了以往的机械化文字阅读。欧洲时光机将海量档案转化为高清格式数字图像、机器可计算的比特,把碎片化的图片与图库对比,勾勒出接近真实的街区图景,模拟穿梭千年的历史地图。从叙述表达角度来看,时光机在时间维度上将公众送至千年以前的刻度上,在空间维度上模拟出各时期地理、城乡、交通、建筑的变迁。用户可在时光机中体验来自千年以前生活情景,如见证运河枢纽新建、港口船舶贸易,浏览旅游向导记录、城市居民水上出行等逼真生活风貌。在这场时光旅行中,叙事可按照档案主题需求采用不同表达方式,如电影的视听觉环绕、游戏的互动参与感、戏剧演出的触觉感、VR的虚拟交互。

    (四)项目协同,持续推进跨界合作

    数字人文项目中的档案数据研究需要跨界合作。欧洲时光机项目召集了来自45个国家/地区的600多个组织,超过14 000个行业机构和10万多名专业人员参与。它创建了一个交流知识、构建最佳实践和专业知识的平台,以实现各领域知识赋能社会,如城市历史、地理环境、信息系统、旅游策划,尤其推动了信息通信技术(ICT)和社会科学与人文科学(SSH)科学研究的前沿,将为欧洲城市规划,土地管理和发展智慧城市提供新视角。其中档案馆提供丰富的档案数据是资源保障,对未来档案机构参与数字人文项目提供启示:一方面,要主动发掘自身档案资源亮点、拓宽研究热点。档案工作者应该及时把握档案馆藏优势,纳入数字人文“伞状帐篷式”的研究范畴。另一方面,加强与档案系统外部环境的对接,积极参与各类数字人文项目。在保证档案机密性基础上,主动联合政府、高校、图书馆、博物馆、美术馆和其他文化机构,共同参与文化遗产的保存和重构。

    注释及参考文献:

    [1]钱毅.新技术环境下电子文件管理纵深发展关键问题分析[J].档案学通讯,2020(2):4-9.

    [2]龙家庆,王玉珏,李子林,等.数字人文对我国档案领域的影响:挑战、机遇与对策[J].档案学研究,2020(1):104-110.

    [3]于英香.大数据视阈下档案信息化建设新路向——基于《全国档案事业发展“十三五”规划纲要》的思考[J].北京档案, 2017(2):9-12.

    [4] MOSS M,THOMAS D,GOLLINS T. The Recon? figuration of the Archive as Data to Be Mined[J]. Archivaria, 2018,86(2):118-151.

    [5]郑金月.数据价值:大数据时代档案价值的新发现[J].浙江档案,2015(12):11-14.

    [6]杨茜茜.数字人文视野下的历史档案资源整理与开发路径探析——兼论档案管理中的历史主义与逻辑主义思想[J].档案学通讯,2019(2):17-22.

    [7]董聪颖.穿梭千年:数字人文对档案信息资源开发利用的影响[J].档案管理,2018(2):11-14.

    [8]翟姗姗,张纯,许鑫.文化遗产数字化长期保存策略研究——以“威尼斯时光机”项目为例[J].图书情报工作,2019(11):140-148.

    [9] Venice State Archives. Venice time machine proj? ect- current state of affairs [EB/OL].[2021-03-04].https:// www.timemachine.eu/venice- time- machine- projectcurrent-state-of-affairs/.

    [10]Alison Abbott. The‘Time MachineReconstruct? ing Ancient Venices Social Networks[EB/OL].[2020-09-17].https://www.nature.com/news/the- time- machinereconstructing- ancient- venice- s- social- networks-1.22147.

    [11]Time Machine EU. About Us : Explore the History of Time Machine [EB/OL].[2021- 03- 04].https://www. timemachine.eu/about-us/.

    [12]Time Machine EU. Time Machine Manifesto: Big Data of the Past for the Future of Europe[EB/OL].[2020-09- 18].https://www.timemachine.eu/wp- content/up? loads/2019/06/Time-Machine-Manifesto.pdf.

    [13]EPFL News.Time Machine in the running to be? come a FET Flagship[EB/OL].[2020-09-18]. https://actu. epfl.ch/news/time- machine- in- the- running- to- be? come-a-fet-flagsh/.

    [14]Alison Abbott.The‘Time MachineReconstruct? ing Ancient Venices Social Networks[EB/OL].[2020-09-17].https://www.nature.com/news/the- time- machinereconstructing- ancient- venice- s- social- networks-1.22147.

    [15] Dubrovnik Time Machine. Project [EB/OL].[ 2020-09-18 ]. https :// www.timemachine.eu/timema? chines/dubrovnik/.

    [16]Amsterdam Time Machine.AboutALida[EB/OL].[2020-09-19].https://amsterdamtimemachine.nl/data/alida/.

    [17]Amsterdam Time Machine. Category: Tools [EB/ OL].[2020-09-29].https://amsterdamtimemachine.nl/cate? gory/method/tools/.

    [18]Mission and History.American Memory from the Library of Congress[EB/OL].[2020-08-20].http://memo? ry.loc.gov/ammem/about/index.html.

    作者單位:1.中国人民大学信息资源管理学院2.中国人民大学数字人文研究中心