机关电子档案元数据体系构建及元数据库建设研究

    李芳芳 吴玉龙 米捷 陈成

    摘? 要:通过对数字档案室建设过程中实践经验进行总结,对机关电子档案管理过程中元数据的分类、元数据体系构建方面进行分析梳理并为机关元数据库建设提供经验借鉴。以自然资源部数字档案室建设为例从形成阶段、捕获方式、实体类型、通用及专用属性、聚合层次等方面分析元数据体系的组成部分,研究机关电子文件收集与电子档案管理过程中元数据体系构建及元数据库建设的关键环节并分析元数据在数字档案管理过程中的重要作用。

    关键词:元数据;电子文件;电子档案;数据库

    Abstract: Aims to summarize the practical experience of metadata classification, metadata system and metadata database in the electronic archives management information system. The Digital Archives Office of the Ministry of Natural Resources of China was approved by the National Archives Administration of China as the National Demonstration Digital Archives Office in 2018.Take the Digital Archives Office of the Ministry of Natural Resources of China as an example to analyze the components of the metadata system in terms of forming stage, capture mode, entity type, general and special attributes, aggregation level, etc.. ,Study the key link of metadata system construction and metadata database construction in the process of electronic file collection and electronic archives management, and analyze the important role of metadata in the process of electronic archives management.

    Keywords: Metadata; Electronic file; Electronic Archives; Database0 引言

    隨着机关办公自动化及电子政务建设的发展,以及信息技术在机关档案管理工作中的应用,电子文件归档是档案管理信息化建设和数字档案室建设的必然趋势和发展方向。元数据是指描述电子档案的内容、结构、背景及其整个管理过程的数据,因此元数据是电子文件归档的重要内容,元数据信息可应用于电子档案归档、移交、接收、利用以及长期保存数据检测过程中,是实现各个环节电子档案数据真实性、完整性、可用性和安全性的重要保障。本文以自然资源部为例,分析机关电子档案元数据体系的构建和组成结构,元数据在电子档案管理过程中的作用和实践经验。1 机关电子档案元数据体系构建

    机关电子档案元数据体系的构建与电子档案类别息息相关,既有传统的文书、科技、专业、照片、音像、会计等类别,还有电子邮件、网页信息以及专业数据库、空间图形数据等新兴的档案类别。

    

    如何科学合理地设置各类档案的元数据,构建机关电子档案元数据体系,需要综合考虑各个类别档案的通用性,形成通用元数据项,也要考虑各个类别的特殊性,针对特殊属性设置各个类别特有的元数据项;同时考虑到档案收集的方式和环节、描述的实体及档案整理的聚合层次,对各个元数据项进行分类聚合,共同形成机关电子档案元数据体系。[1]元数据体系构建示意图如图1所示。2 机关电子档案元数据组成结构

    2.1 按元数据的形成阶段,可分为电子文件的形成阶段、归档阶段、管理阶段。其中形成阶段可形成题名、日期、起草人、部门等元数据,以及审批人、审批部门、审批日期等元数据,整理归档阶段可形成档号、件号、保管期限、移交人员、接收人员、归档日期等元数据,管理阶段可形成存储位置、处置方式、处置日期等元数据。

    2.2 按元数据的捕获方式分,可分为从移出系统接收、默认赋值、自动捕获、半自动化赋值、手工录入等方式。其中从移出系统接收、默认赋值、自动捕获为主要获取方式。元数据的获取方式与业务流程、功能节点密切关联,应在电子档案管理系统总体设计时做统筹规划。

    从移出系统接收是指从原办公自动化系统与业务审批系统接收数据时与电子文件同时接收的元数据,例如电子文件的题名、文号、形成日期在从办公自动化系统向档案系统的推送过程中进行接收;默认赋值是指通过系统初始化设置对诸如全宗号、单位名称等元数据赋值;自动捕获是指在电子文件接收、挂接或管理过程中对元数据信息进行捕获,例如电子文件格式、大小、分辨率等信息在接收或者导入电子文件的同时进行自动捕获,电子文件移交、登记、销毁等业务行为元数据在业务行为发生的同时进行自动捕获。

    半自动化赋值是指在系统中为元数据设置词典,用户通过下拉菜单等形式选择元数据值并赋值,比如保管期限等元数据。手工录入方式主要是针对无法实现自动捕获的元数据,由整理人员进行手工著录,例如在电子文件整理过程中对题名、责任者等信息进行确认和修改的过程需要手工著录,对历史档案中缺失元数据需要手工著录或手工批量录入。

    2.3 按元数据实体类型分,可分为文件实体元数据、机构人员实体元数据、业务实体元数据和实体关系元数据等。其中文件实体元数据可分为档案信息元数据、内容描述元数据、形式特征元数据、电子属性元数据、数字化属性元数据、电子签名元数据、存储位置元数据、权限管理元数据等。以采矿权登记档案元数据方案为例,表1列出了各类元数据的主要元数据项:

    

    2.4 按元数据的通用属性分,可分为通用元数据和专用元数据。通用元数据是指各类电子文件都需要设置的且可获取的、符合档案管理一般要求的元数据,例如:档号、件号、保管期限、题名、电子文件格式、大小、存储地址等。专用元数据是指针对各个特殊类别特有的元数据项,例如:照片档案专用元数据包括摄影者、摄影时间、摄影地点、人物、水平分辨率、垂直分辨率、图像高度、图像宽度、色彩空间、设备制造商、设备型号等。音像档案专用元数据包括摄录者、摄录时间、时间长度、设备制造商、设备型号、色彩空间、分辨率、帧率等。

    专业档案专用元数据要依据专业档案的分类,针对各个类别特有的信息确定专用元数据,例如自然资源专业档案中矿产资源管理档案专用元数据包括类别、矿山名称、矿山地址、许可证号、开采矿种、矿区面积、开采方式、采矿权人、生产规模、矿区范围拐点坐标等,建设用地预审档案专用元数据包括申请单位、用地规模、行业分类、涉及省份、项目代码、批复文号等。网页类电子档案专用元数据包括栏目、网址、发布时间、发布单位等。[2]

    2.5 按聚合层次分,可分为案卷层元数据、文件层元数据以及电子文件层元数据。按照现有的有关标准,元数据聚合层次分为案卷层和文件层,但是实际管理工作当中,文件层电子文件往往不是由一个单一文件组成,而是由一组文件组成,例如文书类电子文件一件档案由正文、审批单、定稿、花脸稿以及来文审批单、来文组成,需要针对每一个电子文件描述文件大小、格式等信息。

    根据档案组件方式,如果是以案卷整理的档案,需要设计案卷层元数据和文件层元数据,其中案卷层元数据需要列出案卷题名、卷号、档号、保管期限等案卷信息属性,文件层元数据需要列出文件编号、文件题名、日期等信息。如果是按件整理的档案,则不需要设计案卷层元数据。

    如果文件层的电子文件数量大于1件,对每个电子文件还要分出电子文件层元数据,将电子文件的格式、大小、存储位置等信息列入电子文件层元数据。3 元数据体系构建与元数据库建设的几个关键环节

    如前文所述,元数据体系是一个复杂的系统,涉及电子文件形成到整理归档、档案管理的各个环节,因此元数据体系的设计与构建需要综合考虑档案分类体系,办公自动化系统、业务系统以及档案管理系统的流程,获取方式等方面,具体的关键环节如下:

    3.1 确定机关档案分类体系及各类档案通用元数据项、专用元数据项。档案分类体系的确立是实现档案科学规范管理的基础,根据国家有关要求,自然资源部机关档案可分为文书档案(WS)、专业档案(ZY)、照片档案(ZP)、音像档案(YX)、网页档案(WY)、科技档案(KJ)、会计档案(KU)等。其中专业档案、科技档案需要再细化进行分类。根据档案分类体系确定通用元数据项以及各类别专用元数据项,共同构成机关元数据体系构架。

    3.2 在档案系统中构建元数据库实现元数据统一配置和管理。在元数据库建设中需要考虑各元数据项设置规则,例如数据类型、填写格式、长度限制、编码规则、聚合层次、值域、权限控制等。将元数据实体以及实体之间的关系进行科学设计,例如业务行为实体元数据涉及整个拟文、歸档流程,分别在拟文、签发、用印、整理、检查、接收、移交等环节都需要设置,并且有一定的逻辑先后关系,以及各业务行为之间的关系。通过设置完整的元数据配置信息和数据字典等信息。在档案的门类管理模块根据元数据的聚合层次和各类档案的专有属性分别针对各类档案的卷、件层级设置相应的元数据项。

    3.3 确定元数据的获取方式并逐一细化实现元数据规范填写。元数据完整规范的收集是元数据体系构建和元数据库建设的难点。在元数据体系设计之初需要考虑可获得性。确定元数据体系后,在办公自动化系统、业务系统与档案系统的设计和建设中,系统之间接口开发以及数据收集、整理、扫描过程中逐一落实。例如成文日期元数据,需要与办公自动化系统中正文的落款日期一致,捕获节点以部发文为例是在部领导最后一次签批的节点进行捕获。责任者元数据的收集需要根据发文的文号类别、签报起草司局在数据字典中提前设置,自动判别和填报,收文的责任者需要在收文登记的环节通过办公自动化系统进行录入。照片以及扫描件的分辨率、图像高度、图像宽度、色彩空间等元数据在数据整理和数字化环节进行自动捕获。4 机关电子档案元数据作用分析

    随着电子文件的大量产生,元数据方案的确定、捕获与管理是电子文件归档和电子档案管理中不可缺少的一部分。对于实现电子文件的归档和电子档案的有效管理和利用,完整地记录电子文件的背景、内容、结构等信息,在保障电子文件的真实性、完整性、可靠性和可用性等方面发挥着重要作用。[3]

    4.1 元数据为电子文件的重要组成部分。电子档案与传统载体档案的一个重要区别就在于,电子档案既包括电子文件又包括描述电子文件的一系列元数据。元数据随着电子文件生成而生成,伴随着电子文件流转、归档和管理的各个环节,是电子档案不可或缺的组成部分。

    4.2 元数据是电子档案规范管理的保障。电子档案管理的过程中,收集阶段除了要完成电子文件收集外,还要完成元数据的捕获与收集。传统载体档案整理需要编制目录,目录数据可以理解为元数据的一部分,电子档案的元数据信息在传统载体档案目录的基础上进行扩充,在档案鉴定、整理、归档等管理环节,元数据作为重要的基础数据,是现实电子档案规范管理的重要依据。

    4.3 元数据为四性检测的信息来源和依据。电子档案归档规程中需要进行四性检测,分别检测电子档案的真实性、完整性、可靠性和可用性。元数据检测为四性检测的重要内容,四性检测的实现主要通过对各类元数据信息内容的检测进行实现。由于电子文件的可复制、可修改等特性,与电子文件伴生的能够说明电子文件性质的元数据是证明电子文件真实性的重要依据,包括电子文件产生时的电子文件自身属性、技术环境等。

    4.4 元数据是电子档案数据查询检索、编研利用的基础。电子档案利用过程中,对元数据的检索是实现电子档案查询与利用的基础功能,对文件名称、文号、机构、年度以及档号等信息填写完整和规范是实现快速准确检索的基础。同时电子档案的统计编研分析利用也是基于结构化的元数据信息实现的,需要各类档案元数据的设计与填写齐全完整规范。

    5 机关电子档案元数据体系及元数据库建设几点体会

    首先,各类档案元数据体系的设计与构建是元数据库建设的前提条件。需要针对各个类别的档案从电子文件形成开始,到整理、归档整个流程进行分析研究。电子文件起草单位和人员、审批流程、整理者、归档信息等元数据都需要收集,明确各个环节的元数据项和获取方式,制定元数据标准体系框架,作为电子文件归档和电子档案管理的重要内容和依据。

    其次,元数据收集齐全完整,有助于电子文件归档与电子档案的规范高效管理。例如,文书档案稿本信息元数据的收集,包括正文、定稿、花脸稿等各类稿本,这些信息收集齐全可以实现利用系统自动化判别文档是否收集齐全完整,排序是否规范等,大大减少了档案工作人员的工作量。业务行为元数据的收集,对于档案是由谁、在什么时间整理、登记、归档、移交等行为进行详细记录,可以实现电子档案全流程电子化管理与历史追溯。

    最后,元数据中对内容的描述信息,特别是对各类专业档案内容的描述进一步细化、分类合理对档案的利用和编研工作的开展非常重要。各类业务档案需要档案人员和业务人员一起,认真分析研究提出针對各类业务档案重要的、专有的元数据项。例如矿业权登记档案设立矿山名称、矿山坐标、所属省份、开采矿种、矿区面积、生产规模等元数据项,能够对今后档案利用、统计分析和编研提供丰富的内容,进一步对行政管理与政策研究提供支撑与服务。参考文献:

    [1]陶水龙.电子文件和电子档案元数据分类与方案设计[J].档案学研究,2016(6),83-90

    [2]田雷.电子文件元数据分类与方案设计对策研究[J].中国档案,2017(4),62-63

    [3]毛海帆.电子档案元数据方案设计与应用初探[J].档案学研究,2010(1),74-78