大数据时代科技档案借用件、共用件关联的思考

    杨世英

    摘 要:在海量科技档案数据中如何找准信息,如何使借用件、共用件关联有用的信息是科技档案工作者面临的一个重要课题,本文对企业科技档案管理面临的困难进行了论述和分析,提出有效解决遇到问题的一些建议,以期能为我国各科研单位的科技档案管理提供参考。

    关键词: 科技档案;管理;关联;信息

    1 引言

    当“互联网+”概念迅速走红,当“中国制造2025”正在推动制造业的智能化升级,当大数据和云计算正在推动形成新的消费理念、商业模式和产业形态,信息技术已经渗透到几乎所有的领域。随着研究院数字档案馆的建成和运行,几年来无论是传统载体的数字化,还是电子文件系统的建设,都产生了大量的档案数字信息,过去科技档案借用件、共用件的应用,无论在纸质档案或《档案管理系统》档案都无法实现关联,过去的传统档案管理已不适应目前研究院的档案信息化建设要求。通过加强对数据管理与数据的标准化、优化数据库性能,持续提高信息资源的传递和共享水平,从而做好科技档案数字化管理中信息关联问题,加强档案信息化建设,提高信息服务的自动化水平。

    2 科技档案

    科技档案是指产品在研制、生产活动中形成的具有保存价值的各种件。科技档案材料主要是由本单位自己编制形成的,但与本单位科技、生产活动有直接关系的其他单位提供的、转让的、引进的、移交的科技文件材料,也都视为科技档案材料。借用件、共用件是指从已定型(或鉴定)产品中借用的零、部、组件;共用件是指同一型号中共同使用的零、部、组件。

    近年来,我院档案主管部门非常重视档案信息化建设,随着科技信息技术的应用和数字档案馆建设,产生的大量科技电子文件(科技电子文档)形成一个巨大的档案数字资源。

    3 当前科技档案管理面临的困难

    3.1 快速而准确地找到所需的信息。如何在大量的科技档案中快速而准确地找到所需的信息,是档案服务要解决的首要问题。在大数据时代,科技档案数量急剧增长,在进行档案查询时,往往需要的信息会被埋没在大量的不需要的数据中,并且检索性能急剧下降,甚至无法响应,即:“找准信息”。

    3.2 科技档案数字化管理中借用件、共用件信息关联问题。档案凝结了企业在科研、生产及经营管理等活动中所创造的全部成果,具有重要的参考价值和借鉴作用。尤其在新产品的研制或产品的改进改型中,通过借鉴档案资料帮助企业快速、准确地设计产品尤为重要,借用件、共用件、关重件等使用非常常见。近年来,我院“档案管理”系统平台实现了与协同工作平台、PDM、OA等主要业务系统的集成,电子文件实现了实时在线归档和自动采集,加上馆藏档案的数字化,档案数据量的激增,不可避免地会导致用户从大量的档案中找到所需的消息并与之关联难度增大。目前在科技档案借用件、共用件关联运用中,工作界面程序就多,耗时过长,使用不方便。譬如某套科技图纸中有一张图纸是借用件需要关联,数据不在同一库节点,根本做不到数据消息关联,即使数据在同一库节点上,也需要在档案管理系统中进入2次界面,有时还出现对所需的资料检索不到或死机现象,最后还得逐条在成千的图纸中挑其中的这张图纸才能关联。

    4 大数据时代科技档案管理解决方案

    为了解决在大量科技档案中“找准信息”和“借用件、共用件信息关联”的问题,要做好以下工作。

    4.1 首先要全面收集和保存科技档案数据。只有全面收集和保存科技档案数据,才有可能在科技档案数据库中找到所需的信息。资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案,PDM、CAPP、OA等系统存储的各类电子档案,档案信息网建设和维护信息。在企业档案信息化建设过程中,如果我们具备保存海量数据的条件,首先要尽可能多地收集和保存数据,做到全覆盖,不能因为数据量大,处理复杂,保存代价高等一系列主客观原因,而放弃暂时对科研生产无关的数据。档案工作其实是一项繁琐的工作,尤其是科技檔案工作,我们永远不知道哪份科技档案哪一天要用,对哪个人有用,不知道这些数据可能就是明天科研人员需要关联的数据信息,因此,在科技发达到能够存储海量数据的今天,我们理应全面收集和保存好科技档案数据,需要保存的文件,确保得到及时收集、分类归档。对任何一份科技档案都要做到宁可一直用不到,也不能出现科研人员用到时不能方便找到的现象。

    4.2 加强对数据管理与数据的标准化。建立数据管理规范标准,严格规定科技档案各类信息的著录格式、著录细则。由于数据库存储和利用的特殊性,可能几年以前形成的数据现在已经无法利用,或者数据不能有效地读取。例如:受控文本的录入必须用半角格式,否则在全文批量挂接上传时,因格式不匹配而无法挂接全文。因此,我们要规定受控记录的范围、格式与填写要求,确保档案信息录入完整、准确、规范,培养时时更新意识,要派专门档案人员及时对数据库进行更新和核准,只有做到这些,才能提高数据质量,确保档案材料的齐全、完整和准确性。具体包括科技资料更改、替换、销毁的时间、依据、阶段标记、内容、责任者,确保文件的更改和现行修订状态得到标识,关联数据时就不会不同阶段的资料一股脑儿地全部跳出来,防止作废文件的非预期使用,而确因需要而保留作废文件时,对这些文件进行标识,以防误用;根据商业秘密的级别,对资料(含涉及商业密级的档案资料)密级做相应密级调整,将档案系统中文件条目“商业秘密级别”按要求标识“最重要”“重要”“一般”,PDM系统归至《档案管理系统》的电子档案,除PDF格式外,WORD格式也同样标识商业密级;科技成果补录成果完成人,确保使用者输入完成人的部分信息能够关联到该科技成果详细科研资料。做好记录的标识,以便使用者快速而准确识别、检索和使用。才能有效进行数据信息关联,进一步推动档案信息化进程。

    著录规则包含件、光盘、整套图纸、底图以及设计更改单、技术通知单、工程更改/偏离单等,数据库中所著录的标点符号都为英文半角格式。在著录数据库条目时,不允许覆盖,如有换版的情况产生,必须新建条目著录,并修改原条目中“文件状态”栏目的属性。图/文件号按归档资料上的实际图/文件号著录,著录要求完整,PDM系统数据此项为必录项并推送至档案管理系统;归档单位按资料归档单位填写,用中文著录,不可用数字或符号表示,两个以上单位合作归档的资料,几个单位全部著录,单位之间用“/”分隔;责任者指资料的编写者或建议者。外来资料如无明确“责任者”时,填写资料形成单位。归档资料无明确编写者,注明归档人或单位,例如:王君(归);某某单位(归)。译文资料根据情况要注明归档人或单位,例如:李四(译);形成时间指文件签署页的批准栏目中最后的日期,统一由8位阿拉伯数字组成,如2008.01.01;归档时间指文件或单据移交档案主管的交接时间,统一由8位阿拉伯数字组成,由系统自动生成;密级指归档文件或单据上所标识的密级,如内部、秘密、机密、绝密。外来文件未标识密级的,填写内部。密级变更后,应在备注中说明变更人、变更日期、变更依据文件;载体类型指文件资料存储介质,分为纸质、光盘、磁盘、硬盘、胶带等;文件状态指文件现在的状态,包含:现行、下架、作废、封存、撤销,文件发生换版等动作时应更改其状态。

    要快速而准确地关联到所需的信息,必须严格按科技档案各类信息的著录格式、著录细则规定操作。

    4.3 对数据库进行性能优化。原始数据往往由于在数据结构、数据组织、数据表达等方面与用户需求存在不一致的地方,需要进行数据信息转换与处理。数据信息转换后仍不能达到数据信息化关联的,则系统存在性能瓶颈,需要进行数据库性能优化,就必须部署新的技术,继续升级档案资源管理系统平台。

    5 结束语

    大数据时代,作为科技档案管理人员有责任、有义务主动思考科技档案管理中面临的问题,并提出解决遇到问题的相关建议,切实推动研究院科技档案工作的发展,同时我们将会积极参与到智慧研究院科技档案管理建设过程中。