《版式电子文件长期保存格式需求》(DA/T 47-2009)解读

    钱毅 李雪彤

    

    摘要:《版式电子文件长期保存格式需求》(DA/T 47-2009)是为规范版式电子文件长期保存格式而发布实施的档案行业重要标准。标准首次提出长期保存概念及其功能定位,明确了弱依赖导向的长期保存工作指导思想,技术处理上注重“自力更生”,对其他门类电子文件格式管理同样具有很高的指导意义。本文介绍了规范编制的背景与意义,解读了版式文件格式管理的核心要点,并归纳总结了对电子文件长期保存工作的启示。

    关键词:版式电子文件 长期保存 格式需求

    Abstract: Format Requirements for Long-term Preservation of Fixed- layout Electronic Records(DA/T 47-2009) is an important documentary stan? dard issued and implemented to regulate the for? mat requirements for long- term preservation of fixed- layout electronic records. The specification that of great significance for other electronic re? cords format management, for the first time, puts forward the concept of long-term preservation and its functional orientation, establishes the weak -de? pendency guidelines of long-term preservation and emphasizes the independence of technical means. The paper introduces the background and signifi? cance of the specification, interprets the core points of format management and summarizes the inspiration on long-term preservation of electronic records.

    Keywords: Fixed- layout Electronic Records ; Long-Term Preservation ; Format Management

    2009年12月16日,國家档案局正式发布《版式电子文件长期保存格式需求》(DA/T 47-2009)(以下简称“本标准”),并自2010年6月1日开始实施。版式文档用页面化的形式固定呈现文本、图形、图像等信息,是最常见的电子文件类型,本标准的出台对于我国电子文件管理起步阶段形成的大量文书类电子文件提供了良好的格式保障。更为重要的是,本标准抽象总结了长期保存格式的诸多原则,这些原则几乎适用于所有档案门类,在电子文件数量激增、格式复杂多样的背景下,重新审视解读本标准,对于数字档案资源的长期保存具有现实的参考作用和借鉴价值。

一.本标准编制的背景与意义

    对电子文件进行全生命周期管理是理论与实践领域的共识,只有在存储端实现了对数字资源专业化的长期保存,才能有力支撑基于单轨制的数字转型工作。本标准核心起草人黄玉明曾说“电子文件是被软硬件关押着的人质”[1],只有解除包括格式在内的软硬件依赖才能读取文件内容,才能保证电子文件在未来能被完整地读取和理解。格式作为电子文件最为重要的属性,是数字信息的特殊编码方式,也是数字对象内容信息存储、交换和表示的标准。[2]格式本身可以独立作为被管理的对象,但其自身发展存在各种风险,如文件格式废弃不用、软硬件过时、存在私有或有专利保护等,这些在格式发展过程中是很普遍的情形,但对长期保存来说都是潜在威胁。

    本标准基于长期保存和利用需求确定了版式电子文件应具有的格式特征,不仅对规范版式电子文件的长期保存,保障电子文件长期可读、可解析、可理解具有指导意义,也为后续制订版式电子文件格式标准,开发相应的制作、阅读、打印等软件提供依据。本标准与《文书类电子文件管理元数据方案》(DA/T 46)和《基于XML的电子文件封装规范》(DA/T 48)是一并发布的,这三个标准之间也存在着较为密切的关系,三者作为一体代表着档案行业对文书类电子文件开展专业化管理的开端。

二.本标准主要内容

    本标准内容分为五部分,分别是“范围”“规范性引用文件”“术语和定义”“版式电子文件长期保存格式应满足的需求”“测试与评估”等,明确了“格式开放”“不绑定软硬件”等多达十一个方面的核心需求进行了提炼,见图1。

    本标准重点从版式电子文件格式的应用环境层面、格式内容层面、内容显示层面、性能层面提出相关要求。如在应用环境层面,明确要求从技术公开和不绑定软硬件两个层面保障格式的长期可用与稳定性,应有公开发表的相应标准和技术规范,避免格式存在私有专利,从而加大电子文件可读性风险。在格式内容层面要求实现文件自包含、格式自描述、持续可解释,提出电子文件在读取过程中应减少对外部对象依赖。在内容显示层面要求实现显示一致性,实现不跑版、高保真、所见即所得的显示效果,这也是版式格式在电子文件长期保存中的优势。在格式性能层面,要求文件格式稳定、前后兼容、支持不同版本及不同版本间的相互转化。

三.本标准格式要求核心要点解读

    本标准提出版式文件长期保存格式应满足的要求,计11条44项,表达简明,意义深刻。尤为可贵的是,该规范并没有简单罗列既有的格式选项,而是站在档案行业管理的高度,秉持可持续管理的理念,对数字档案资源长期保存的基本需求进行了抽象、归纳和总结,对于包含版式文件在内的几乎所有门类档案资源都具有指导价值。笔者拟从概念定位、指导思想和技术要点三个角度对核心需求条款进行解读。

    

    (一)首次提出长期保存概念及其功能定位

    本标准是档案领域首次明确长期保存概念及功能定位的档案行业标准,具有突出的理论贡献。标准在概念解释部分就“长期”以及“长期保存”进行了专门的术语解释,指出长期(Long-term)是指“虑及技术变化(包括支持新载体、新数据格式)和用户群体变化对典藏信息影响的足够长的时间段。这个时间段延伸到无限未来”。术语引自国际标准ISO14721(OAIS) ,该标准是数字资源长期保存领域的扛鼎之作,目前该标准尚未被我国采标,但在国际上已经成为事实标准,本标准是我国档案领域中最早参考引用OAIS的行业标准。标准提出的长期保存是指“用一种可靠的、科学合理的方式长期维护电子文件真实、完整、有效的行为”。此处使用“保存”(preservation)这个概念本身就代表了对传统档案保护思想的一次跃升,在此之前我们多用保护、保管来指代传统档案的保存工作。对于数字资源,特别是采用preservation术语也符合国际数字资源领域的理论实际。长期保存概念最早由美国保护与存取委员会和研究图书馆组织共同组建的数字归档特别工作组在1996年发表的《保存数字信息:数字信息归档特别工作组报告》中提出,OAIS参考模型认为数字信息长期保存是“一种长期地对信息进行维护,保持这些信息可以被指定用户团体独立理解,并且对数字信息真实性提供证据支持的行为”。[3]

    标准“引言”部分提出长期保存目的在于保证电子文件的长期可读、可解析、可理解,这几点综合构成了长期保存工作的总体功能定位。应该看到,这些表述与当时的理论发展,尤其是电子文件管理理论发展进程有关,“真实、完整、有效”的提法是在电子文件“四性”(真实性、完整性、可靠性、可用性)完整表达之前的惯用说法,这一点也明确表现在GB/T 18894的2002年版和2016年版的主要区别上。[4]应该说,这些功能定位要求对于非结构化的“版式文件”而言已经足够,可读是版式文件长期保存的基本要求,可解析乃至可理解就需要在格式规范中对文本的内容组织提供必要的手段,对版式文件也提出更高的要求。这些功能定位对于选择不同格式不同版本具有指导意义。

    (二)明确了弱依赖导向的长期保存工作指导思想

    本标准在梳理总结长期保存格式需求时秉持着非常明确的弱依赖导向,根据笔者粗略统计,包括4.1格式开放(5点)、4.2不绑定软硬件(3点)、4.6持续可解释(第2-5点)在内至少十余项具体条款都明确表达了减少依赖的观点。我们知道,数字资源以离散的二进制信号表达,具有人工不可识读性,需要通过多环节转换成人能识读的模拟信号,因而具有强烈的软硬件依赖性。而从长期的历史角度看,软硬件本身处于高频的乃至剧烈的变化之中,因而数字信号解读不可避免地带来复杂程度不等的依赖链条,因而如何认识与维护这个依赖链条成为长期保存工作的重点与难点所在。事实上,绝对破除依赖是不可能的,长期保存工作的目的是减少不可预期的、不可靠的、过度的依赖等。因而版式文件长期保存将减少与弱化依赖作为格式管理的指导思想。具体来说,本标准提出了以下几方面弱依赖的要求:

    1.开放透明。本标准在格式需求中首先提出格式开放(4.1)的要求,要求合规的长期保存格式应“有公开发表的相应标准和技术规范,且没有专利和许可的限制;不设置技术壁垒;厂商中立;有与产品无关的专家组、标准化组织和产业联盟等维护和支持该格式”。旗帜鲜明地提出减少各方面依赖的要求。格式开放(4.1)是稳健(4.7)、可转换(4.8)得以实现的基础。

    2.技术中立。本标准突出了技术中立的色彩,通篇没有出现特定厂家与具体格式,强调技术中立本身就在强调避免与厂商挂钩,在资源保存领域维系独立性。不绑定软硬件(4.2)要求“被多种操作系统和硬件平台支持;文件的阅读不依赖于特定的阅读软件;使用与设备无关的颜色规范实现准确打印和再现。”“固定呈现文件页面、章节、段落、字体、图形、图像、色彩等,呈现效果不因软硬件平台和阅读软件变化而变化”(4.5.1)等。

    3.其他弱依赖措施。标准多处都提出有关弱依赖的要求,包括回避专利算法(4.6.4)、不允许口令保护(4.6.2)、禁止加密(4.6.3),甚至要求“文件中引用的字体和运用的算法不应是知识产权保护对象”(4.6.5)。考虑到一些嵌入式文档,还提出禁用音频、视频等多媒体对象(4.5.3),禁用交互式表单和内部可执行代码(4.5.4),都盡可能地降低由于这些依赖导致的版式文件不可读等情形出现。

    (三)技术处理上注重“自力更生”

    版式文件是数字档案资源长期保存对象中最常见的形式,但其实其内部构成并不简单,包括字体、编码、文本、元数据、描述框架、验证信息等对象,这些对象本身都处于不同的技术发展曲线之中,与相关的厂商、设备都存在强弱不同的依赖,何况复杂的版式文档还包括音视频等其他对象形式。因而对这些重要的技术成分需要进行必要的约束,从而能对版式文档这个看似简单的对象的整体依赖性有所管控。具体来说,长期保存格式管理力争做到自描述、自包含、自校验、自解释等“四自”要求。

    1.自描述。自描述的本质是要求格式规范本身应具有高质量的自我说明文件,包括自身的技术标准说明、格式元数据、格式内部结构信息与语义关系,以便第三方根据格式说明解析数字对象。为此,本标准4.4列举了具体的格式自描述要求,典型的包括设置规范的元数据集用于描述文件和对象的属性特征(4.4.1),允许封装用户自定义的元数据(4.4.3),字符对象应声明编码标准(4.4.4)等。其中4.4.1条款特别推荐采用XML开放式的编码体系进行描述,这样可以在相当程度上摆脱对特定厂商内部结构的依赖,实现开放描述,在极端情况下甚至可以根据文档开放说明开发阅读器。如微软在OFFICE2007版开始采用基于OOXML进行编码,OFD格式也是基于XML描述的。

    2.自包含。自包含要求电子档案在读取利用过程中减少外部对象依赖,如要求包含完整地呈现信息、全部字体、颜色信息,必要条件下还应包含链接对象。本标准4.3部分提供了“文件自包含”的功能要求,提出文件呈现的全部信息完全自包含(4.3.1),文件中必须包括全部字体的字形描述信息或嵌入字体程序信息(4.3.2)。文件中还应包括光栅图像、矢量图形、颜色信息等其他需要呈现的信息(4.3.3)等等。

    3.自校验。自校验要求文件格式提供自评文件真实性、完整性的数据或工具。本标准“支持技术认证机制”(4.10)可视为自校验的功能要求。前已述及,真实性保障是档案资源长期保存工作的最为核心的基本要求之一,数字资源因为其构件的复杂性以及真实性保障技术自身的发展,导致本部分的技术要求一直是长期保存工作的难点所在。本标准在技术验证需求上也体现了较为明显的时代特征,突出了当时常用的数字签名验证手段,对数字签名在版式文件中的自校验提出了具体要求。如使用的数字签名被多种操作系统和硬件平台支持(4.10.2),数字签名的全部信息完全自包含,包括签名日期、摘要算法、签名算法、签名值、证书信息(4.10.3)等核心条款。这几条要求也非常具体地体现在《文书类电子文件元数据方案》(DA/T 46-2009)中,在该方案的电子签名块元数据元素(M57)中就包含M58-M64七项,即签名规则(M58)、签名时间(M59)、签名人(M60)、签名结果(M61)、证书(M62)、证书引证(M63)、签名算法标识(M64)等,其中M58就对电子签名方法、手段等相关信息进行了描述,著录了签名算法、被签名对象及其编码格式、验证签名和数字证书的简要说明,用于对电子签名进行了解和验证,这就为该电子档案日后的长期保存提供了技术自验证手段。

    4.自解释。本标准的“引言”部分曾提及需要保证电子文件的长期可读、可解析、可理解,可以看到“可理解”的功能要求与本标准大部分条款所追求的格式独立、显示一致性等形式要求有所不同,偏向于从语义和内容角度的功能定位,应该说这个要求是一个面向未来的更为高级的功能要求,超越了当时的基于馆藏管理的基本要求,对于当前档案信息化开始挖掘内容、走向智能具有非常现实的价值。比较典型的条款如“文件有必要且充分的结构信息和语义信息,用于解析数字对象”(4.4.5),将数字资源长期保存工作的关注点从载体依赖、格式依赖跃升到语义依赖。

四.本标准对长期保存工作的启示

    本标准不仅明确了版式电子文件长期保存格式的需求,从宏观上对电子文件的长期保存工作亦有诸多启示。

    (一)研制其他门类档案资源长期保存格式需求标准

    截至目前,本标准是唯一针对格式管理要求制定的专项档案资源长期保存格式标准,且仅限于版式文件这个基本门类,对于大量其他门类的格式管理要求则未有涉及。事实上不同门类电子档案在其长期保存中都有其需要特别关注的格式对象,如音视频格式中的压缩技术与处理算法等,随着技术发展,类似三维对象等新型档案对象还在不断涌现,这些存量门类与增量对象的长期保存都需要更为科学的格式管理,而非仅仅提供推荐采用的格式列表。应在借鉴版式文件格式标准基础上,研制其他门类档案资源长期保存格式需求标准。

    (二)需要开展长期保存格式的分级评价工作

    通过本标准“遴选归档保存版式电子文件格式”,这在本标准适用范围中有明确宣示,在第5部分“测试与评估”中也提及格式的测评工作,这些都需要在本标准的原则基础上推动格式评价工作,最终为档案部门提供合乎要求的版式文件格式。然而格式的遴选是一项非常专业的工作,可以看到即使出台了针对版式文件的较为明确的格式需求,但总体还是比较抽象,档案部门实际工作中还是难于直接操作,因而有必要跟进后续的格式评价,综合考虑文档保存需求、技术、成本等多种因素,为格式遴选提供依据。本项工作可以参考借鉴加拿大图书档案馆(LAC)的做法,该馆制定了一个非常详尽的数字文件格式评价指南,将长期保存格式的抽象原则进行细化与分级评价,从而为用户提供选择参考。以开放透明度为例,LAC将不同类别组织发布的标准划分为不同等级。像开放成员组织、国际标准组织、基于行业的开放成员组织发布的标准被评为A级;而仅在单一供应商或供应商的小集团的控制下的可用的规格仅为C级,规格更高、使用范围更广、更加开放透明的标准的推荐等级更高。这样就便于各资源主体直观地选择电子文件的归档格式,同时,细化评价标准也有助于格式的科学评价,为格式的优化与改善提供依据。

    (三)发展具有自主知识产权的数字文件归档格式

    通过明确长期保存格式需求,为后续开发版式电子文件格式标准提供参考也是本标准的重要功能。鉴于在近期芯片领域出现的科技封锁与脱钩风险,着眼于档案资源的长期安全可靠,我们应当未雨绸缪,积累发展一批重要门类的具有自主知识产权的数字档案长期保存格式,对于保障资源安全具有深远意义。因而需要在开放透明的基础上,在充分重视市场建设和技术生态的基础上,给予数字文件归档格式自主性以同样重视,积极发展具有自主知识产权的数字档案资源格式。2016年《电子文件存储与交换格式版式文档》(GB/T 33190)推出了我国自行研制的OFD格式,目前已陆续应用于电子公文、电子证照、电子发票、电子文件管理等领域,《国家税务总局关于增值税发票综合服务平台等事项的公告》中就明确了“增值税电子普通发票版式文件格式为OFD格式”。[5]

    *本文系国家社科重点项目《我国数字档案馆建设战略研究——基于生态系统的视角》(批准号:16AZD054)研究成果之一。

    参考文献

    [1]黄玉明.电子文件存档格式需求分析与战略研究[J].档案学通讯,2010(02):63-66.

    [2]钱毅.基于长期保存视角的电子档案格式管理研究[J].档案学通讯,2016(06):52-57.

    [3]Reference Model for an Open Archival Informa? tion System(OAIS) [EB/OL].[2021-03-10].http://public. ccsds.org/publications/archive/650 x0m2.pdf

    [4]注:2002版《电子文件归档与管理规范》4.1电子文件自形成时应有严格的管理制度和技术措施,确保其真实性、完整性和有效性。2016版《电子文件归档与电子档案管理规范》4.2“确保电子档案的真实性、可靠性、完整性与可用性”。

    [5]国家税务总局关于增值税发票综合服务平台等事项的公告. [EB/OL].[2021-03-10]. http://www.chinatax. gov.cn/chinatax/n810341/n810765/c101653/202001/ c5149326/content.html

    作者單位:1.中国人民大学信息资源管理学院2.中国人民大学电子文件管理研究中心