一种不可忽视的电子文件类型

    归吉官

    摘 要:从文件的定义着手,介绍了不同文件类型的特征及其变化过程,通过文件组成三要素重点阐述了数据库文件的内容、背景及结构特点,以便对数据库文件形成比较系统、科学的认识,并阐明了数据库文件管理在元数据管理、系统依赖性、“双套制”管理上遇到的难题,最后强调电子文件管理研究需要给予数据库文件更多的关注。

    关键词:数据库文件;电子文件;文件;元数据

    Abstract: Proceed from the definition file describes the characteristics and changes in the course of different file types, focusing on the three elements of the content of the database files, background and structural characteristics through files in order to form a more systematic, scientific understanding of the database file, and to clarify the puzzle database file management on metadata management, system dependencies, double sets of system management experience, and finally to emphasize electronic document management studies need to be given more attention to the database file.

    Keywords: Data; Electronic Records; Records; Metadata

    众所周知,电子文件是有别于纸质文件的新型文件。从形式上看,有文本文件、图形文件、音频文件、数据库文件等多种类型。然而,在以往的电子文件管理研究中,却忽视了一种重要的电子文件类型——数据库文件。长期以来,数据库文件在电子文件管理中未能得到应有的重视。作为国家标准《电子文件归档与管理规范》起草者之一的邱晓威先生也曾坦言:“《电子文件归档与管理规范》中所指的电子文件主要是公务活动中产生的电子文件,即公文类电子文件。”[1]很显然,在各业务信息系统中生成的数据库文件不包括在内,管理上存在标准规范的缺失。在一些基层档案部门甚至没有将数据库文件纳入电子文件管理范畴,更多的是将其视为一种电子数据,任其放任自流。为此,十分有必要进一步深化对数据库文件的认识。

    1 文件、电子文件与数据库文件

    国际档案理事会1984年出版的《档案术语词典》这样定义文件:一是由机关、团体、组织或个人,在履行其法定职责或处理事务中所形成、收到并保存的记录下的信息(文献),其形式和载体不论。二是指自动数据处理中,构成文件基本单元的数据单位,它本身又由若干相关数据字段所组成。[2]国内的文件定义与国外相比,在本质上是基本一致的。如陈兆祦教授在为《中国大百科全书》条目撰写的释文稿就将其定义为:“文件(record, document)组织或个人为处理事务而制作的记录有信息的材料,是人类记录、固定、传递和储存信息的一种工具。”[3]上述定义并未对文件的形式和载体作出限制,实质上也不应该限制,也就是不论是何种形式、何种载体均可视为文件。不过,这一时期主要是以纸质文件为主体,电子文件并未普及。

    1997年国际档案理事会电子文件委员会在《电子文件管理指南》中关于文件定义的表述是:文件是由机构或个人在其活动的开始、进行和结束过程中所产生或接收的记录信息,该记录信息由足以为其活动提供凭证的内容、背景信息和结构所构成,而不管其形式或载体如何。[4]此后,国内广泛认同文件是由内容、背景和结构三要素组成之说,也就是所谓的文件组成“三要素说”。[5]当然,这里所说的文件主要是指电子文件。由于电子文件不再具有纸质文件般的实体形态,所以人们逐渐改变以往认识纸张等有形物质载体文件的惯性思维,转向从文件的组成要素揭示这一新型文件的属性。

    数据库文件也可称为数据文件或数据库电子文件,“是指在事务处理系统中单独承担文件职责,或者作为文件的重要组成部分出现的数据库数据对象,也可以说是以数据库形式存在的具有文件属性的记录”。[6]随着计算机和网络技术的不断发展,电子文件及其结构随之也发生了很大变化,数据库文件的产生正是这种变化的结果。早期在计算机环境下生成的文件是线性的文本组织模式,传统意义上的“份”、“件”概念依然可以沿用,比如在办公系统中形成的公文类电子文件。然而,随着超文本等文件形式的出现,非线性的文本组织模式大大改变了我们早已形成认识习惯的文件结构。例如,数据库文件,一个数据库由若干记录组成,一个记录由若干字段(数据项)组成;既有单个关系数据库的信息,又有来自多个系统平台的有关数据。在薪资管理系统的工资报表、证券交易所的股市行情表等文件都属于该类型。这种复合型文件可能随来源数据的变化而不断变化,已经失去了传统意义上文件实体的概念,而只是一系列动态信息集合。[7]认识这种相对复杂的文件,已经不能沿用传统的思维和方法。

    假如说,从版式固定的公文类电子文件上还可以找到传统文件的身影(或者说形式),那么到数据库文件已经很难发现传统文件的痕迹了。从纸质文件到一般的电子文件再到数据库文件,其形式和载体已经发生了很大变化,很难再从形式和载体来判定或者认识一种新的文件类型。从文件类型的发展历程来看,变的是其外在形式,不变的是其内在本质。虽然数据库文件的定义比较抽象,而且文件结构复杂,多少令人产生一种难以认知的感觉,不过,我们可以通过文件组成三要素来进一步揭示其属性。

    2 数据库文件的组成三要素

    一般认为,文件是由内容、背景和结构三个要素构成,这可以从国际档案理事会电子文件委员会给文件下的定义看出。也有学者将元数据纳入文件的组成要素,我认为电子文件与元数据之间不是整体与部分的关系,而是一种映射关系。元数据只是对电子文件的一种描述,所以没有将其归入文件的组成要素。

    2.1 内容信息。内容信息是文件之所以成为文件的必要条件。文件的形成必定承载和传递着特定的内容信息,否则它将失去存在的价值。伍振华教授将单份普通公文等(包括简单的电子文件和非电子文件,但不是数据库形态的文件)文件的内容分为:外延最窄的内容(正文所表达的信息)、外延最宽的内容(文件原文信息)和外延居中的内容(文件定稿所表达的信息)三种类型。[8]一份完整的行政机关公文文件一般都会包含有发文机关标识、发文字号、签发人、标题、主送机关、公文正文、成文日期、抄送机关、印发机关等18项要素。普通公文中反映正文内容的核心信息和其他辅助性信息一目了然,很好辨别。而数据库文件不同于普通公文,首先,传统意义上“份”和“件”的概念已经被淡化,甚至不复存在;其次,其内容的呈现形式已大不同于版式固定、格式统一的公文类电子文件。数据库文件是一个动态信息集合,其内容信息的表现方式也相对灵活。所以,我们很难再区分什么是正文信息,什么是定稿信息。实质上,数据库文件中能够完整呈现的所有的动态信息集合体都应该是其内容信息,这也是构建数据库管理数据、文件的应有之义。

    2.2 背景信息。背景信息也是电子文件不可或缺的重要组成部分,是维护电子文件真实性、完整性和有效性的重要保障。国家标准GB/ T18894-2002《电子文件归档与管理规范》这样定义背景信息:“描述生成电子文件的职能活动、电子文件的作用、办理过程、结果、上下文关系以及对其产生影响的历史环境等信息。”对于内容和载体固化为一体的纸质文件而言,其本身就已经包含着背景信息。例如,通过纸张等载体信息就很容易判定文件材料形成时间、所反映的文化背景、是否被修改等背景信息。而包括数据库文件在内的电子文件的背景信息,其外延比较繁杂,主要有责任者、形成时间、形成地点、接收者、抄送者、传递日期、接收日期、形成的软硬件条件、系统数据,等等。[9]为了保证背景信息的完整性及其功能的正常发挥,需要特意从文件的制作形成、接收、存储到使用的整个文件生命周期中采集并保存。采集公文类电子文件的背景信息,对功能完善的电子文件管理系统来说是可以实现的。但是,如果处理的对象是结构相对复杂的数据库文件,对其背景信息的采集是有一定难度的。除了要解决异构数据库系统之间的衔接问题之外,还得理顺档案部门与业务部门之间的协作关系,毕竟绝大多数的数据库文件来自业务部门的业务信息系统,其系统独立性较强。如何更科学地确定电子文件背景信息的内容要素,如何根据不同电子文件的类型划定更具针对性的背景信息,如何将电子文件的背景信息推向标准化,这些都是今后亟待解决的问题。

    2.3 结构信息。“结构信息是指文件内容信息的组成表达方式”,[10]包括物理结构和逻辑结构两种结构形式。物理结构的具体表现形式:一是指电子文件线性文本信息在物理存储介质中的组织方式,二是指电子文件非线性文本的各个信息组成部分的不同物理位置。[11]前者主要是一般性的、简单的电子文件的物理结构,如普通公文类电子文件;后者主要是指结构相对比较复杂的电子文件的物理结构,如数据库文件等。通常情况下,我们不会太关注电子文件的物理存储位置,尤其是各个信息组成部分分散存储的数据库文件,其物理排列方式、存储位置对用户来说是不透明的,其实也没必要知道。相较于物理结构,我们更关注的是逻辑结构。逻辑结构即用户能够直接看到的文件信息的自身结构,这是最直观的。数据库文件的形成过程实际上是一种将分散的文件要素进行逻辑组合的过程,数据库文件的内容即数据,以数据文件的形式生成、保存,而数据结构的出生地和存储地点是数据字典,文件属性中的常规信息(如文件的创建时间、修改时间和存取时间)均由操作系统负责记录、生成和维护。[12]可见,数据库文件背后需要一个庞大的逻辑结构作支撑,才能完整地呈现其所表达的内容信息,否则所有的数据都处于无序状态。

    3 数据库文件的管理难题

    由于数据库文件自身的特殊性,相对于普通公文类电子文件来说,数据库文件更难以管理,常常游离于档案部门的管控之外。数据库文件管理除了遇到一般电子文件的管理难题外,还存在以下几个方面的问题。

    3.1 元数据管理研究比较滞后。元数据是保证电子文件真实性、完整性、有效性和维系文件间有机联系性的重要工具。人们可以借助元数据来帮助记录电子文件形成时的背景信息和相关的软硬件系统参数,记录文件管理业务活动的有关信息(如文件的起草、修改、定稿、分发)以及相对应的日期时间,等等。然而,面对数据库系统中的数据库文件,却很难进行有效的元数据采集和存储。虽然,有关国家标准对文件管理元数据划定了一个总体结构,规定了文件管理实体类元数据的类型和文件管理实体类元数据间的关系,但是,这毕竟是一个顶层的总体结构,无法直接用于数据库文件元数据管理。而且,现有的文件管理元数据研究成果大多是针对普通公文类电子文件,数据库文件元数据管理研究是相对滞后的。国家标准《文件管理元数据原则》将文件管理元数据定义为结构化信息与半结构化信息,其意义实际上就是为了更好地处理文件管理元数据在原则性与灵活性、普遍性与特殊性、通用性与专业性上的辩证关系。[13]然而在实际当中,我们并没有处理好这种关系。国家标准给了一个总体的固定结构——元数据的结构化信息,是所有文件类型都需要遵循的;但我们忽视了非结构化信息建设,无法满足不同电子文件类型进行各自具体描述的个性化需求。今后需要加大对数据库文件等不同电子文件类型元数据的管理研究,以实现元数据的标准化。

    3.2 对系统的依赖性更高。电子文件从生成、运转、处理、储存、检索到传输和利用的各个环节都必须依赖于计算机的软硬件系统。正是电子文件对系统的依赖性,加大了对其的管理难度。文件对系统的依赖性越高,其管理难度也越大。数据库文件的内容信息具有高集成性的特点,其多元信息的集成性使得文件的各个部分可以取自并存放在不同的数据库里、多次调用、反复组合,每一次新的集成都是不同的结果、生成不同的逻辑组合产品。[14]数据库文件之所以能够实现内容信息的高集成性,是因为背后有一个强大的系统在支撑,这也使得它对系统的依赖性更高,必须依附于专业的数据库系统才能完整地实现其功能。对普通公文类电子文件的管理,一般在系统设计之初就预先嵌入档案管理的功能模块,以便在电子文件管理系统中更好地实现前端控制和全程管理。而对数据库文件管理来说,目前还是个难题。其中一个很重要的原因就是,数据库文件对专业系统的依赖性很高,无法在通用系统中自由流通。也正因为如此,在对数据库文件进行物理归档、脱机保存时,需要将专用软件系统一并收集归档。

    3.3 难以进行“双套制”管理。对电子文件进行“双套制”管理,将计算机生成的文件转换成纸质文件,更多是反映了人们对电子文件生存环境的一种担忧,也是一种无奈的最佳选择。不然,在追求效率的文件管理领域,人们没有必要多此一举,采取“双套制”。需要强调的是,实行“双套制”的主要对象是普通公文类电子文件或者一些结构简单的电子文件,其他专业、专用电子文件一般不适用于“双套制”,也无法进行“双套制”。假如说“双套制”能使普通公文类电子文件很好地避开自身在技术上所遇到的诸如无法长久有效保持档案属性等一系列难题,那么当面对结构复杂、系统依赖性高的数据库文件时,却很难将其完整地转换成另一套——纸质文件。上文也提及过,组成数据库文件内容信息的各个部分是分散储存的,它通过系统强大的逻辑组合功能,可以多次调用、反复组合文件各部分要素,然后集成输出,而且每一次新的集成都可以输出不同的内容。显然,想要将数据库文件中的所有内容信息完整地输出到纸张上并与其数字显示一致是不太现实的。由此可见,“双套制”并不是一把万能钥匙,当遇到复杂的数据库文件时就显得无能为力。

    尽管业务信息系统能够处理与其业务相关的信息,但其主要功能并不是对这些信息进行管控。许多业务信息系统设计的目的仅是为了支持和满足当前业务活动对于信息的需求,其功能有限,并不具备对文件进行有效管理的能力,至多能够保存与它们所执行业务交流活动有关的当前文件。[15]再加上这些数据库文件大多来自专业性较强的行业或部门,涉及的内容广泛而专业,且相对比较重要。因此,必须加强对数据库文件的管控,这是档案部门的职责所在。其实,公文类电子文件与数据库文件之间的关系,恰如传统的文书档案与专门档案的关系一般,不可偏废一方。

    参考文献:

    [1]邱晓威.关于《电子文件归档与规范》的若干说明——兼与“对《电子文件归档与管理规范》中术语定义的几点建议”作者商榷[J].档案学研究,2004(4):55~57.

    [2][美]弗兰克·B·埃文斯,[法]弗朗索瓦·J·安利,[英]彼得·沃尔内.英汉法荷德意俄西档案术语词典[M].丁文进,何嘉荪,方新德,等.编译.北京:档案出版社,1988:83.

    [3]陈兆祦.档案学基础知识[J].档案学通讯,1991(4):72~73.

    [4][7][11]于英香.略论电子文件结构[J].档案学通讯,2005(5):50~53.

    [5][8]伍振华.文件组成“三要素说”献疑[J].档案学通讯,2006(3):32~37.

    [6][15]刘家真.电子文件管理——电子文件与证据保留[M].北京:科学出版社,2009:48,168.

    [9]唐小燕. 背景信息——电子文件管理不可或缺的元素[J].档案学研究,2001(5):51~53.

    [10]刘家真.电子文件管理理论与实践[M].北京:科学出版社,2003:5.

    [12][14]王健.对电子文件形成特点的再思考——兼议电子文件前段控制战略的实现[J].中国档案,2002(11):40~43.

    [13]张正强.国家标准《文件管理元数据原则》中文件管理元数据的结构化信息与半结构化信息的理解[J].档案学研究,2011(6):31~36.

    (作者单位:南京大学信息管理学院 来稿日期:2015-10-17)