数据管理大潮下电子文件管理的挑战与对策

    

    

    摘要:在国家大数据战略的强力推动和信息技术不断普及的背景下,数据大量形成,相关概念日益普及,数据管理领域迅速发展,形成时代潮流。文章首先解读数据管理大潮,其次梳理电子文件管理面临的挑战,最后尝试分析可能的对策。电子文件管理面临受到数据管理相关概念冲击、海量数据难以归档和管理、在数据管理框架中定位单薄、相关主管部门博弈艱难等挑战,需要建立电子文件与数据管理概念关联,坚定推动单轨制电子文件管理,锻造多元数据管理能力,构建协同发展的电子文件数据管理生态环境。

    关键词:数据管理 电子文件管理 数据治理 融合发展

    Abstract:In the context of the strong promo? tion of the national big data strategy and the contin? uous popularization of information technology, a large amount of data has formed, related concepts have become increasingly popular, and the field of data management has developed rapidly, which is forming a tide of the times. This paper first inter? prets the trend of data management, then sorts out the challenges faced by electronic records man? agement, and finally tries to analyze possible coun? termeasures. Electronic records management is faced with challenges such as being impacted by the concepts related to data management, difficul? ty to archive and manage massive data, poor posi? tioning in the data management framework, and dif? ficult gaming between relevant authorities. It is nec? essary to establish concept relationships between electronic records management and data manage? ment and firmly promote digital continuity, forging multiple data management capabilities, and build? ing a coordinated ecological environment for the in? tegrated development of electronic records and da? ta management.

    Keywords:Data management; Electronic re? cords management; Data governance; Integrated development

    21世纪20年代,在大数据技术快速发展和国家大数据战略的强力推动下,数据概念日益普及,走入中央政府的文件里,走入大众媒体的话语体系中,“数据资产”的价值已经获得广泛共识。数据管理相关政策标准先后出台,行业组织和实践活动日益活跃,围绕着数据展开的管理已经形成了非常大的一股潮流,电子文件管理既是这个大潮的一部分,又受到其强烈的影响。本文首先解读数据管理大潮,其次梳理电子文件管理面临的挑战,最后尝试分析可能的对策。

一、数据管理大潮已经来临

    (一)数据海量生成

    联合国官方网站指出:“世界上的数据量呈指数增长,约90%的数据是过去两年创造的,预计数据量每年将增长40%。”[1]希捷与IDC预计,2025年全球的数据量将是2016年数据量的十倍,达到163ZB。[2]这预示着电子文件的数量正以惊人速度增长。与此同时,越来越多的新增数据是过去没有的新型形式,换言之是档案部门不熟悉的数字对象,如机器自动采集的科学观测数据、关系复杂的社交媒体数据、内容极为丰富的3D数据等。“大”数据时代已经来临。

    (二)数据管理大军集结

    在手工管理环境下,图书馆,档案部门(档案馆、档案室)以及传统的情报分析机构是集中保管数据的主力军,处于中心位置。随着信息技术的应用,数据管理主体迅速多元化,单位内部的信息技术中心、数据中心,大数据管理机构、电子政务管理部门、第三方信息服务商等不断出现。[3]在工信部《关于工业大数据发展的指导意见》(工信部信发〔2020〕67号)、国资委《关于加快推进国有企业数字化转型工作的通知》[4]等政策推动下,一些企业设置了新型数据管理部门,大力推动数据治理。在此情况之下,业务数据管理格局已经改变,哪怕是历史业务数据管理领域,档案部门也已经不是独行者,核心位置受到了很大的冲击。比如,全国有20家国家级的科学数据中心,管理着国家最为重要的新型科技电子文件、电子档案——科学数据,但显然已经和档案部门甚少交集。[5]

    (三)数据管理技术推陈出新

    信息技术的发展可谓推陈出新,新技术不断涌现和迭代,比如版本控制、文档协作、图文转录、自动采集等数据生成技术,数据库、数据仓库、数据湖、数据中台等数据集中存储处理技术,数据挖掘、文本分析、知识图谱等数据分析和开发技术,数字签名、数字摘要、时间戳、区块链等数据真实性维护技术等。近年来机器学习技术的突破性发展带动了人工智能应用的热潮,涉及文件档案管控决策、知识服务和数据化处理的方方面面。这些技术相互叠加融合,呈现出一幅非常复杂的图景。为何新出现的数据管理部门都是技术实力雄厚之主体?原因很简单,新型的、海量的数据管理需要使用与数据特性相匹配的新技术,唯有技术掌握者才能掌控资源。

    (四)数据管理政策法规汇拢

    在国家开启信息化战略之初,信息资源就被作为重要的要素之一。随着信息化推进,尤其是大数据技术的普及,数据的价值认同达到空前的高度,2020年前后,各类相关政策法规以“数据”为主题标识迅速汇拢。2020年4月9日,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》对外公布,数据作为一种新型生产要素写入文件中。2020年7月和10月,《数据安全法》《个人信息保护法》的草案先后公布,2021年4月《数据安全法》《个人信息保护法》二审稿面向社会公众征求意见,[6]这两部法律将为数据生产要素作用的发挥保驾护航。2016—2020年间,国家先后在政务、科技、工业、文化领域出台数据管理相关政策,包括《政务信息资源共享管理暂行办法》(国发〔2016〕51号)、《科学数据管理办法》(国办发〔2018〕17号)、《关于工业大数据发展的指导意见》(工信部信发〔2020〕67号)、《关于做好国家文化大数据体系建设工作的通知》(文改办发〔2020〕3号)等,推动各行各业数据管理的发展。

二、数据管理大潮下电子文件管理面临的挑战

    (一)“一统天下”的数据概念

    《数据安全法(草案)》第三条指出:“本法所称数据,是指任何以电子或者非电子形式对信息的记录。”这里的数据概念非常之宽,所有信息记录都是数据。长期以来,档案界一直在文件、档案概念之间争吵不休。毫无疑问,文件也好,档案也罢,都是电子或非电子形式的信息记录,都是数据。随着数据概念的流行,一方面,“文件档案究竟是什么样的数据”的问题日益突出,若回答不清楚这个问题,便无法明确档案部门在数据管理大潮中的定位;另一方面,数据管理的相关概念也随之流行,包括数据归档、数据治理等,将对档案界的概念理解造成冲击,比如数据归档多指不活跃数据的冷存储,与文件归档概念存在较大差异。[7]在这些数据概念的冲击下,档案专业概念面临被淡化、被误解的风险,档案工作的社会角色也面临挑战。

    (二)海量数据的归档与管理

    新增的海量数据会有多大比例归档?如何选择和留存?档案部门的技术支撑如何?这些是摆在我们面前的迫切问题,能否回答好这些问题,关系到档案部门在未来能否胜任留存数字时代留存社会记忆的法定职责。从大的方面来说,电子文件归档工作面临两大挑战。

    一是远超既往数量的海量数据,档案专业系统的底层技术能否支撑归档相关应用。在调研过程中,笔者听说过因归档文件数量达到千万级别导致系统崩溃的情况,这涉及系统技术架构和技术能力。业界此前对电子文件归档管理相关系统的讨论多聚焦于功能,而对技术的先进性、可拓展性则较少涉猎。世界上凡是有影响力的数据管理机构无不立足技术高峰。美国国会图书馆2010年获得twitter授权保存所有推文,历时多年仍无成果对外公布,技术掣肘乃重要因素,这值得我们所有传统数据管理部门重视。[8]

    二是缺乏传统档案对应物的新类型数据,这些数据很难“原样”归档,应如何决策。以电子发票为例,发票数据产生时为结构化数据,为了符合人们原来使用习惯的凭证,按照固定表单样式生成版式、加盖电子签名输出电子发票文档。事实上结构化数据已经保留了电子发票的所有内容信息,也可以生成数字签名,从功能而非形式来看完全可以履行交易凭证的作用,所以在电子发票技术界存在是否保留版式发票的争论。再如三维模型包含了之前多份二维图纸的信息,具有高度的复杂性和集成性,在归档时候是将其作为一个简单的对象收过来管,还是到模型的内部去做一些选择和加工?这些都是新时代的新问题,需要我们深入电子文件数据内部,认识数据构成,了解相关规则,逐个场景加以钻研判断。

    (三)层次单薄的文件管理定位

    文件管理在数据管理中定位如何?对这个问题的回答既有档案界的自我认知,也有外部认知。国际数据管理协会(DAMA International)的数据管理职能框架反映了技术主导的数据管理领域的基本认识。在图1中,一个单位内部所有的数据管理职能活动有三个层次,最高层次是监督层,主要包括对整个数据管理开展战略规划、建立原则和策略等内容的数据治理,以及推动适应数据管理的文化变革。中间层次是我们非常熟悉的生命周期管理,包含规划与设计、实现与维护、使用和增强三类活动。最下面的层次是支撑整个数据生命周期管理的基础活动,包括风险管理、元数据管理、数据质量管理等。“文件和内容管理”属于中间层次“生命周期管理”中的最后一个类别“使用和增强”。其中“内容”指非结构化数据,它是一个技术术语,现有文件档案管理系统大多为非结构化数据管理的产品或解决方案。而在档案界的认知中,文件档案管理贯穿数据整个生命周期,覆盖监督、生命周期管理和基础活动所有层次。目前内外认知差别巨大,层次单薄的定位对电子文件管理的深化发展造成巨大挑战。

    (四)艰难博弈中的国家数据治理的格局

    

    上文提及国家对数据和数据管理越来越重视,颁布了系列政策法规,全面覆盖政务、科学、工业、文化等多个领域,但是文件档案体现甚少,且缺乏衔接。比如,《促进大数据发展行动纲要》(国发〔2015〕50号)规定“加强数字图书馆、档案馆、博物馆、美术馆和文化館等公益设施建设,构建文化传播大数据综合服务平台”。但是《关于做好国家文化大数据体系建设工作的通知》(文改办发〔2020〕3号)并未涉及档案馆。这样的局面对于文件档案管理纳入数据管理极其不利。一些地方、个别行业开始寻求突破。如浙江、江西、上海等多地的档案部门将档案共享服务嵌入政务服务平台,启动跨部门跨地区的信息资源共享;2020年10月份颁布的《科学技术研究档案管理规定》(国家档案局、科技部第15号令),首次把科学数据纳入科研文件归档范围中。尽管如此,在国家数据治理的整体格局中,文件档案管理远未占据其应用的位置。

    

三、电子文件管理的可能对策

    (一)塑新思维:建立电子文件与数据的概念关联

    电子文件是什么样的数据对象?它与其他的数据对象有何区别?我们通常会说电子文件是电子化业务的信息记录,是业务凭证性、记忆性信息,会强调其固化特性,实际操作时会要求“版式文件”格式存档。然而,一方面,因为电子文件与计算机文件之间并不仅仅是一一对应的简单关系,还可能存在一对多、多对一、多对多的复杂关系;[9]另一方面,计算机文件中包含越来越多地依赖软件实现的功能性要素,比如电子签名、数字摘要、超级链接等。[10]因此,单一的版式格式并不能完全承载电子文件信息保存的历史重任,需要我们对电子文件数据对象有更为全面立体的认知。笔者认为电子文件在更多意义上是数据的逻辑组合,它可以被视作一个动态生长的业务数据体。“动态生长”的意义在于:第一,电子文件的构成和呈现方式并非一成不变,而是要随着环境的变化不断变化;第二,上述变化过程不是被动的转变,而是有规划、有设计的求变,从这个意义上来讲,档案部门参与电子文件的动态变化过程,换句话说参与构建了电子档案;第三,电子文件的归档,并不强求所有要素原封不动留存,而是要根据保存条件和相应规则去选择业务的真实数据,在选择的过程中,部分要素是可舍、可换、可变的;第四,需要用持续的元数据来描述和补充维系业务真实记录的价值;第五,电子文件数据体本身可能有相对灵活的组织和展示的方式,但是,不管具体的组织和展现方式如何,有机关联一直会是文件数据的血脉。在数据世界里,我们需要转换思维,重新认识管理对象,从数据流动生长的过程中观察和积累什么是文件档案管理视角,并以新思维来反哺推动电子文件管理方法的革新。

    (二)夯实基础:坚定推动电子文件单轨制管理

    文件档案管理是非常有特色、有传统、有积累的一个领域。若要在新兴数据管理中占得一席之地,得有自己的看家本事,即独特的数据管理视角、方法和技能。那么文件档案管理进入数据管理的看家本事是什么?笔者以为就是在单轨制进程中积累的电子文件管理知识技能和方法。一方面,档案界从凭证性保护的角度持续探索数据管理路径,没有其他领域像文件档案管理领域如此重视凭证性业务信息的管理和维护,本领域专注文件对象构成、元数据、四性维护、四性检测等问题,在反复应用和研究的过程中已经逐渐形成一套理论和方法体系。另一方面,档案界也在数字世界里传承和探索文件价值鉴定、维护文件关联的方式方法,这对于数据管理是有益的补充。这些独特的贡献将是我们进入数据管理的基础。在笔者和数据管理部门有限的交流中,也了解到在元数据方案、信息组织、数据真实性维护等方面信息技术领域亦在向文件档案领域学习。

    因此,应在国家层面坚定地推行单轨制电子文件管理,在此过程中夯实专业根基、积累经验,将我们的专长扩大化,而不是在犹豫观望中降低对电子文件的管理要求,延误专业知识更新和积累的良好时机。2021年开始实施的新《中华人民共和国档案法》,提出了电子档案“来源可靠、程序规范、要素合规”的法定条件,为电子文件单轨运行、单套保存提供了法律保障。根据调研结果,电子公文、电子发票、工程项目电子质检单等类型电子文件单套制归档正在加快试点,有铺开之势。

    (三)多元路线:锻造数据管理的能力

    电子文件管理需要依靠以系统为中心的综合体系。然而,摆在我们面前的一个事实是:档案部门普遍缺乏技术实力来接收一些特殊类型的数据实体,比如结构化数据、三维数据、社交媒体数据等对于形成软件有严重依赖的文件,这些文件即便脱离原始环境保存下来,看上去也极有可能在一定程度上丢失原件的风貌。在此背景下,我们管理数据的能力要得到进一步的锻造。笔者以为无论是总体技术路线,还是具体技术应用,都需要着力加强。

    电子文件归档的总体性技术路线有两个:一是将其物理归档到档案管理系统来加以管理,这种路线延续了传统档案实体管理的做法;二是电子文件实体仍然留在原来系统当中管控,其部分元数据可能同步传送至档案管理系统中,这种逻辑归档模式是新环境下的新路线,对档案部门的管控提出了很高的要求。比如中石油按照系统中所形成的数据类型将87个统建业务系统划分为综合管理型系统、经营管理型系统、生产运行型系统、连续监测型系统等四大类,对每类系统的数据归档范围、归档方式及长久保存模式制定不同方案。其中,综合管理型、经营管理型系统中的数据采用物理归档方式,而生产运行型系统、连续监测型系统中的数据归档后仍在原系统中保管。[11]逻辑归档提出多年,期间也受到质疑和挑战,目前的迫切任务是落地实施。但是,从长远来看,电子文件终将脱离其形成系统而保存。因此,我们一方面要探索逻辑归档方案中档案部门的管控之道,另一方面,面向电子档案长期保存的系统研发和技术选择将是解决问题的根本之道。

    随着大数据、人工智能、区块链等新技术的不断出现和持续应用,一个很自然的问题就是档案部门应该采用哪些数据开发和管理的新技术,强化文件档案数据资产的管理能力,活化文档资源开发?新技术在文件档案管理中应用有三个方向,[12]每个方向都有待探路:一为管控,即文件生命周期全过程的规范化管控提供决策支持,如自动分类、自动鉴定等,在文件数量激增且档案专业人员相对匮乏的情况下,管控智能化给出了破解难题的机会;二为利用,即开发档案内容服务利用需求,如智能推荐、关联检索等,现在的用戶逐渐会用一些互联网使用习惯、体验来要求文件档案服务,如在淘宝上购物时,当用户购买了某个产品之后系统会推荐另外类似或相关东西,那么就会对电子文件、电子档案管理系统抱有类似期待,即在用户利用了一份文件之后推荐相关材料;三为数据化,即将面向人工阅读理解的大颗粒文档加工转变为机器可以识读、理解和计算的小颗粒数据,为文档管控决策和内容开发提供数据基础。这是一个容易为人忽略的基础性领域,然而没有文档数据化,就不会有电子文件管控和内容开发利用的智能化。

    (四)推动协同:构建良性的电子文件数据管理生态环境

    在复杂的数据管理格局下,管理好电子文件,协同是唯一的选择。文件档案管理领域需要和其他的数据管理主体合作,在合作的过程当中一方面形成合力,联合更多力量推动电子文件管理工作,另一方面扩大自己的影响力,巩固专业领域,促进电子文件管理良好生态系统的养成。

    

    学界和业界非常关心档案部门和政府大数据部门之间的关系,认为应对两者职责分工进行合理的划分和协调。笔者调研过的一些地方档案部门对一网通办背景下政府数据能否以及如何归档表现出较大的担忧。浙江、广东等省份通过《浙江省公共数据和电子政务管理办法》《广东省政务数据资源共享管理办法(试行)》等政策文件对职责分工进行了较为明确的规定,夯实档案部门接收数据归档、保存档案数据的职责,[13]为其他地方类似问题提供了参考。根据调研,在科学研究领域,同样存在档案部门与科学数据管理部门之间关系需要理顺的问题,[14]国家档案局经济科技司牵头推动相关课题的研究,中科院档案馆积极探索科研档案和科学数据管理的协同,通过体制机制创新和技术手段的应用,发挥各自的专业特长,形成互补,成为夯实丰富科学数据档案化管理和科研档案数据化服务的关键。

    此外,产学研用全链条的深度合作,也将推动整个行业的发展。一方面,文件档案管理的标准化、规范化的管理方法是文件档案管理系统的良性输入,另一方面,良好的技术和工具是提升文件档案管理水平的數字化手段。这个行业中各类成员之间应加强对话和合作,相关服务商在盈利的同时成长,相关的用户单位在合规中发展,相关的科研教学单位在学科建设、人才培养方面拓展,形成相互支持、同向演进的良好局面。中国人民大学电子文件管理研究中心在此方面进行了初步尝试,2020年12月,该中心和上海鸿翼联合发布了《数据管理中的文件档案与内容管理》的白皮书,其目的是提供文件档案管理与非结构化数据管理涉及的基本概念、主要技术、系统实践等通识性知识,以加强文件档案管理领域和技术领域的对话和合作,推动文件档案管理事业与内容管理行业的共同发展。[15]

    在《数据管理中的文件档案与内容管理》白皮书中,课题组提出了文件档案管理框架,如图2所示。在这个框架中,文件档案管理的层次和范围都得到应有的扩展,自上而下包括价值实现层、文档治理层、管理活动层和技术实现层,并贯穿文件从生成到处置或保存的整个生命周期。这是档案界对于文件档案管理定位的描绘,图2和图1的差距就是我们需要着力弥补的地方。希望通过各方努力,我们能够在数据管理世界中从图1出发,构建图2,实现电子文件管理与数据管理的深度融合。

    注释及参考文献:

    [1]联合国.数据创新促进发展[EB/OL].[2021-02-25].https://www.un.org/zh/sections/issues- depth/bigdata-sustainable-development/index.html.

    [2]51CTO.2025年全球数据将攀升至163Z[EB/OL].[2021-02-25].https://www.sohu.com/a/140027985_655957.

    [3]刘越男.政策背景下政务文件归档面临的挑战[J].档案学研究,2018(2):107-114.

    [4]国资委.关于加快推进国有企业数字化转型工作的通知[EB/OL].[2021-02-25].http://www.sasac.gov.cn/ n2588020 /n2588072 /n2591148 /n2591150 /c15517908/ content.html.

    [5]科技部财政部关于发布国家科技资源共享服务平台优化调整名单的通知[EB/OL].[2021- 05- 20]. https://www.sohu.com/a/319669645_726570.

    [6]网经社.全国人大法工委披露数据安全法个人信息保护法二审稿修改内容[EB/OL].[2021-05-20]. http://www.100ec. cn/detail--6590734.html.

    [7]刘越男.数据治理:大数据时代档案管理的新视角和新职能[J].档案学研究,2020(5):50-57.

    [8]高晨翔,黄新荣.国外社交媒体文件归档的政策研究[J].图书馆,2017(7):6-11.

    [9] DURANTI L.THIBODEAU K.The Concept of Re? cord in Interactive,ExperientialandDynamicEnvironments:the Viewof InterPARES[J].. ArchivalScience,6(1):13-68.

    [10]刘越男,杨建梁,张洋洋.单轨制背景下电子签名的归档保存方案研究[J].档案学通讯,2019(3):26-35.

    [11]王强,高强.业务系统数据归档研究:以中国石油业务系统数据归档实践为例[J].浙江档案,2019(12):36-39.

    [12]刘越男,杨建梁,何思源,等.计算档案学:档案学科的新发展[J/OL].图书情报知识,2021:1-10[2021-05-09].http://kns.cnki.net/kcms/detail/42.1085.2.20210401.1122.002.ht? ml.

    [13]徐拥军,张臻,任琼辉.国家大数据战略背景下档案部门与数据管理部门的职能关系[J].图书情报工作, 2019,63(18):5-13.

    [14]何思源,刘越男.科学数据和科研档案的管理协同:框架和路径[J].档案学通讯,2021(1):49-57.

    [15]中国人民大学电子文件管理研究中心.数据管理中的文件档案与内容管理[EB/OL].[2021-02-25]. http://erm.ruc.edu.cn/filespath/1606635961.pdf.

    作者单位:1.中国人民大学信息资源管理学院2.中国人民大学电子文件管理研究中心