科研数据存档工作探析

    于喆 杜静 高祥刚

    

    

    

    摘 要:本文以海洋渔业类科研院所为例,对其科研项目结题验收后所产生的科研数据存档的问题进行了探讨。

    关键词:数据存档;科研数据;科研项目档案;数据质量;档案管理

    科研数据是重要的无形资产,应当得到规范的管理。数据存档(Data Archiving)是将不再经常使用的数据,迁移到一个单独的存储介质或系统中来进行长期保存的过程。[1]

    海洋和渔业类的科研院所涉及学科和专业广泛,包括海洋科学、海洋化学、物理海洋、海洋生物、地理信息、渔业资源、水产养殖、海洋经济等等,因此其在科学研究和业务工作中产生的数据也是包罗万象。本文以此类科研院所作为典型案例对科研数据的存档工作进行了探讨和分析。

    在传统的科研项目档案管理工作中,项目在结题验收后,其相应的立项文件、合同、技术报告、验收报告等一系列的纸质材料原件都将整理存档,而项目中产生的数据往往被忽略。数据作为科研项目的重要产出,对项目的工作、结论等起着重要的支撑作用,应得到规范的保存,以便后期相关科研工作的追溯查阅。

    围绕科研项目工作中产生的数据及其衍生数据为项目承担单位的重要成果,应作为无形资产妥善存储。国务院办公厅于2018年印发了《科学数据管理办法》的通知(国办发〔2018〕17号),对加强和规范科学数据的管理作出了重要的指导意见,科研项目的档案管理工作也应当与时俱进,在原始材料存档的同时,做好科研数据存档工作。[2]

    1 国内外相关工作的开展情况

    包括科研数据存档在内的科研数据管理工作需要管理制度先行、信息技术支撑、多方人员参与,才能顺利完成。美国的顶尖科研机构和管理机构,如,美国国家卫生研究院(NIH),美国科学基金会(NSF),美国国家海洋和大气管理局(NOAA),自2003年开始,就相继制定了科研项目中科学数据管理的相关制度,并在项目申请阶段就要求提交一份详细的数据管理报告。随后,各顶尖高校自2008年开始,均制定了科学数据管理的相关规定,采用了如DMP、DMP TOOL、DMP Online等开源软件来实现数据的管理,科研人员、教职工、学生等多方参与的同时管理团队也提供各类咨询和服务。[3]

    在我国的一些重点高校,相关的工作已经开展,一般由图书馆的“知识中心”作为牵头部门,高校的信息中心作为技术支持、相关院系作为数据的提供方来完成(图1),北京大学图书馆对社会研究、地球物理、大气科学、计算机科学等10余个学科的科研数据不仅实现了归类存储,而且已经有序地面向社会共享(https://opendata.pku.edu.cn)。[4]

    然而,在我国的一些中小型的科研院所未必有图书馆或文献中心这样的部门,同时科研数据是重要的科研成果产出,可归为科研成果管理的一部分,结题项目数据的保存,可归为数据档案管理工作的范畴,如图2,由科研管理部门牵头组织,科研数据由各业务部门在结题时或周期性的在档案管理部门的科研数据管理系统存档,由信息中心作技术支撑。[5]

    2 数据分类和特性

    海洋渔业类的科研院所涉及的数据类型较广,主要包含:水文数据、水产养殖数据、资源调查数据、地理信息和遥感数据、生物基因数据、海洋渔业经济数据、调查类影像数据等,单个数据文件所占计算机的存储的空间从几KB(如数据表格)到几GB(基因序列数据)不等。[6]对于科学数据并未作出详细的保密等级分类,一般根据科研项目委托方的要求进行处理,除委托方要求销毁的数据或机密数据外,均应存档。数据的存档与纸质原件的存档有着很大的不同,应采用妥善的信息技术手段完成。[7]

    科研项目完成后,数据的存档和管理方式有多种:个人计算机、档案室光盘、本地NAS、专线私有云等。

    表1为各存储方式表现指标的对照参考,普通光盘在妥善保存的情况下其数据可保存10年以上,如需查詢需提出申请去档案室借阅,整个过程不易监管,便利性差。个人计算机的硬盘(包括移动硬盘)断电的情况下数据最多保存5年,硬盘的物理特性导致其极易损坏,局域网NAS的磁盘阵列由于不断电和不间断的维护可以长期保存,建立数据管理系统后可根据角色分配权限,并授权数据的访问和使用。专线私有云的服务器可采用多种介质存储,对于数据档案存储多采用蓝光光盘,实现大容量、低功耗的长期存储。

    表1中的经济成本主要指电力、维护、人员等综合经济成本。光盘跟随项目纸质材料存档成本很低,项目组自行以磁盘存档成本会较高,且各项目组分散存储自行管理显然资源利用率更低。

    近些年,涌现了阿里云、E华录、浪潮等网络资源供应商。在有资质的专业运营商的支持下建立私有云的方式存储管理数据,要比本地自行建设的成本更低,同时专线的私有云与互联网物理隔绝可保证安全性。[8]

    3 科研数据管理系统信息技术部署方案

    科研数据管理系统(Science Data Management System)架构图如图3所示。系统运行在私有云(Virtual Private Cloud)中,连接有数据库,存储介质采用蓝光存储系统,保障其长期和低成本的存储。科研人员通过本地局域网的缓存系统中转向私有云内的SDMS汇交数据,同时SDMS也提供数据目录清单查阅,用户向管理人员申请即可授权获取查阅数据。[9]

    最简单的数据管理系统可以FTP服务的方式呈现,也可使用国外高校开发的开源工具如DMP(Data ManagementPlatform)或者自行研发。对于高敏感数据,可设置保密工作室、无盘工作站等手段来进行数据访问,避免数据泄露。[10]

    4 科研数据存档工作的协调和推进

    科研数据存档工作,需要管理部门、信息技术支持部门、科研业务部门多方参与。牵头部门要充分考虑本单位的实际情况,制定完善的管理制度,向科研业务部门解释清楚此项工作的目的和意义,避免误解。[11]此项工作要与科研绩效挂钩,使科研项目的结题要与数据的存档同步完成,避免科研部门的消极应付情况发生。管理部门和项目组应建立完善的数据质量评价体系,对数据在产生、流转、传输、存档的过程中起到监督作用。档案管理员应转变思维,理解新时代档案的新定义。