基于共词聚类的我国档案信息化研究结构、趋势分析

    刘春年+陈通

    摘? 要:档案信息化是传统档案管理向信息化档案管理转型的突破口。对该主题相关研究文献的共词分析、聚类分析及多维尺度分析,有利于把握该研究领域的研究动态,探索新的研究方向。论文研究发现:档案信息化技术、档案管理人员素质、高校档案信息化、医院和健康档案、电子政务档案、企业档案、档案信息安全等方面构成了档案信息化研究主要结构,涵盖计算机科学、档案科学、信息科学、经济管理学等学科领域。通过进一步文献计量分析发现,目前档案信息化研究还面临诸多问题:缺乏国外档案信息化研究状况分析;理论研究偏多、实践应用研究偏少;研究方法偏主观定性;档案信息化评估方面研究太少。

    关键词:档案信息化,BICOMB 2,共词分析,聚类分析

    信息化背景下,档案利用方式也产生了深刻的变化。从传统档案到信息化档案的转变为满足人们日益增长的档案信息需求提供了新的渠道。从2000年开始,我国对档案信息化的研究逐渐展开,近些年来,档案信息化已然成为档案学科及档案学专业研究的热点问题。本文采用共词分析、聚类分析及多维尺度分析等方法,以CNKI中国学术期刊全文数据库为数据源,对现有以档案信息化为主题的文献进行定量分析,发现该主题研究结构及研究趋势,以求能客观反映我国档案信息化研究的整体状况。

    1? 数据来源与研究方法

    1.1? 数据来源与预处理。本文的数据来源是中国学术期刊全文数据库,检索策略为“主题=档案AND主题=信息化”,检索过程中设置时间为2005年至2015年,共检索到文献记录3169条。将记录导入查重软件NoteExpress中作预处理,通过剔除重复文献记录,最终得到有效文献2962篇,关键词4281个。

    1.2? 研究方法与工具。本文主要的研究方法是共词分析、聚类分析及多维尺度分析。通过观测一组词同时出现在一篇文献中的次数从而得出这组词之间的关系疏密程度的方法称为共词分析。[1]聚类分析可以得到两个个体间的紧密联系的程度,是描述两个个案间对应程度的有效方法。多维可以直观得到关键词之间的位置,从而反映出文献的研究结构。本文使用的软件工具有NoteExpress、BICOMB2、SPSS19.0以及Excel。

    2? 数据处理

    2.1? 高频词统计。在BICOMB2中进行词频统计,得到3912个不重复的关键词,并给出每个关键词的词频及所占总频次的百分比,结合文献总数、关键词总数等条件,将阈值定为95得到20个高频关键词及词频。如表1所示:

    

    2.2? 共词矩阵。BICOMB2的共现矩阵功能可以直接统计出高频关键词共同出现在同一篇文献中的频次,词频阈值确定10,统计得出30×30矩阵,用Excel宏工具箱结合余弦指数,做相关系数转换,利用余弦指数可以计算出各高频词之间相互的关联度。[2]余弦指数计算公式为

    

    

    3 ?数据分析

    3.1? 聚类分析。聚类分析是一种多元统计方法,主要针对研究样本或指标进行分类。按照变量的不同特征或者是一批数据的个案情况,可以依据关系的疏密程度作出分类。[3]本文聚类方法为Q型聚类,类与类之间距离的计算采用组内平均链锁法(Within-groups linkage)。将高频关键词的相似度矩阵作为数据源输入,运用SPSS 19.0软件进行聚类分析,得到结果如图1所示:

    

    聚类图结构分析。首先从宏观上观察聚类树图的结构。聚类树图中的最左边的一列标号(Label)和数字(Number)代表着高频关键词及其编号,本文采用凝聚聚类算法计算每两个关键词之间的相似程度,发现第15、21、48、32、30、31、29、40关键词的相似性在所有主题词词对之间是最小的,因此,它们首先聚集成为一个类。随着后续关键词之间的距离拉大,最终所有词构成一个大类。通过树图的结构可以看出,所有的关键词从整体上可以分为6个部分:由15、21、48、32、30、31、29、40号词组成类别A,由7、12、25、34、6、36、4、28、1、45、8号主题词组成类别B,由5、13、2、3、9、10、16、17、19、22、20、23、39号词组成类别C,由11、14、18、27、35、38、41号词组成类别D,由47、49、33、24、26、37、43号词组成类别E,由44、45、42号词组成类别F。

    3.2? 多维尺度分析。MDS(Multidimensional Scaling)即多维尺度法,是多元统计方法的一种,它通过样本在低维空间中的坐标分布来反映多个研究样本的特性与它们之间的相似程度。[4]每一个样本在空间分布图中都表示成一个点,两个点之间可以通过距离的远近来判断两个点之间的相似程度。以相似度矩阵作为SPSS多维尺度分析的输入,数据结构选择Square symmetric,数据测度水平选择Ordinal,尺度模型选择欧几里德模型(Eu?clidean Distance),对高频关键词进行多维尺度分析,得到结果如图2所示:

    

    从多维尺度分析图,再结合聚类分析的结果,把图中所有所列举高频关键词分成3块区域比较合理,每一块区域的关键词都表示出档案信息化研究的不同的结构。

    4? 结果与讨论

    从本文计量结果分析我们可以看出目前关于档案信息化研究的文献很多。当前档案信息化的研究主要涉及档案信息化技术、档案管理人员素质、高校档案信息化、医院和健康档案、电子政务档案、企业档案、档案信息安全等方面。同时,档案信息化也是涉及计算机科学、档案学、管理科学等诸多学科领域的问题。档案信息化研究发展至今,档案信息化的研究进程主要如下:

    ①萌芽阶段:该阶段主要对档案信息化的重要性及可行性展开了研究,如刘雅萍在1999年研究了档案信息化的重要性及可行性,是新技术革命的需要,是档案事业向前发展的必然途径,计算机技术的快速发展也为档案信息化工作提供了更多途径。此阶段是我国档案信息化的萌芽阶段,是档案信息化建设的出发点。

    ②起步及快速发展阶段:档案信息化的研究正处于快速发展阶段,建立在信息技术日新月异的基础之上,档案信息化的技术体系、应用领域及发展方向也在不断地进步,大量的研究成果显现出了巨大的价值。结合档案信息化研究的学术成果,目前档案信息化研究热点主要包括以下几个方面:档案信息化技术、人员素质、高校档案信息化、医院和健康档案、电子政务档案、企业档案、档案信息安全等。

    档案信息化技术方面,档案信息技术集成了计算机技术、数据库技术、网络技术、数据挖掘,还包括一些信息推送、网格技术等。张婧分析了计算机技术在档案信息化管理中应用的优势、存在的问题以及重要性,提出目前档案信息化硬件设施薄弱、电子档案信息安全也存在许多问题。[5]方昀总结云计算对档案信息化的影响,指出可以依托各级党政网络及互联网建设全国性云计算平台,档案部门利用这一平台提供数字档案管理系统,为档案管理信息化提供了新的方向。[6]

    人员素质方面,档案管理人员要充分认识到,当前信息化背景下,档案管理对人才素质的要求已然不同,档案管理人员要不断提升自我,来适应档案信息化的进程。倪丽娟认为高校在选择档案信息服务策略时应从高校管理信息化程度及发展现状等方面出发,注意服务的双向性、主动性和创造性,服务手段的现代化,明确服务重点,建立高校档案信息服务评价体系来检验档案信息化服务效用。[7]

    医院和健康档案方面,信息化在给档案工作带来便捷的同时也给传统档案管理带来了挑战,医院档案信息化是适应新时期管理工作的重要一环,是医院可持续发展的重要保证。目前医院档案信息化建设也存在人才建设、硬件设施、安全防范等诸多问题,研究者提出从依托局域网构建电子信息管理平台、加强高素质人才建设、构建健全的制度体系等方面做好医院档案信息化建设工作。

    电子政务档案方面,目前电子档案已经成为电子政务工作重要手段,是政务信息重要载体之一,保障电子档案的真实、完整和安全是档案信息化建设的重要建设内容。信息化环境下档案信息化建设要以电子文件归档和管理为重点,不断加快数字化建设步伐,建立数字档案信息资源库,加强档案应用系统建设。

    企业档案信息化方面,信息化背景下,企业档案信息化建设已初步成形,基础设施也在不断完善。应参照国家标准以及其他行业标准并结合自身行业特点,制定自身规范与制度标准;建设高质量的、以数据形式集合而成的档案信息数据库。除此之外,建设过程中还要考虑其他影响信息化建设的因素:信息安全、建设成本、应用范围等。具体来说,还要将信息化建设重点贯彻于企业会计档案及电子档案的管理之中。

    档案信息安全方面,在实现档案信息资源共享的过程中,就会遇到权限控制的问题,必须保证档案信息资源共享的安全即确保档案原件完整性、数字化档案准确性、保密档案保密性,要针对不同档案对安全保密的要求设置不同的权限。从管理层和奇数层两个方面采取措施保障档案信息资源共享时的安全。现有研究提出了档案信息共享的隐私保护技术方案:基于访问策略的档案信息访问控制和基于知识的信息匿名保护和隐私推理防范,不同内容的档案信息资源有不同的法规标准、组织方法和技术保护策略。

    我国档案信息化研究处于高速发展阶段,对档案信息化技术、档案信息化结构、高校档案信息化、医院和健康档案、电子政务档案、企业档案、档案信息安全等方面的研究构成了档案信息化研究的架构。从研究内容上看,既有管理组织方面的理论研究,也有信息技术应用方面的实践研究;从研究领域看,在高校、医院、政务、企业等领域已经进行了大量的研究,总体来看内容比较丰富,研究范围也比较广泛。但是也存在一些问题:第一,研究多涉及国内行业档案信息化建设研究,缺乏国外档案信息化研究状况分析比较;第二,理论研究偏多、实践应用研究偏少;第三,研究方法多以定性方法为主,多数以历史事实及研究者经验为主要参照,缺乏定量统计分析过程;第四,缺乏档案信息化评估评价方面的研究,档案信息化建设达到怎样的水平,如何构建评价指标体系,从哪些方面进行评价评估等研究较为缺乏。还需要更多的研究者从更高层次、更全面的角度展开研究,为我国档案信息化建设提供宝贵的理论指导和技术支撑。

    参考文献:

    [1]崔雷,郑华川.关于从MEDLINE数据库中进行知识抽取和挖掘的研究进展[J].情报学报,2003,22(4):425~433.

    [2]邱均平,王曰芬.文献计量内容分析法[M].北京:国家图书馆出版社,2008:343.

    [3]杨丹.SPSS宝典(第3版)[M].北京:电子工业出版社,2013:316~332.

    [4]Borg I,Groenen P. Modern Multidimensional Scaling[M].New York: Springer,1997.

    [5]张婧, 档案信息化管理中计算机技术的重要性[J],信息通信,2015(5):148~149.

    [6]方昀,郭伟. 云计算技术对档案信息化的影响和启示[J].档案学研究.2010(4):70~73.

    [7]倪丽娟. 信息化背景下高校档案服务策略研究[J].档案学通讯.2011(5):92~94.

    (作者单位:南昌大学管理学院? 来稿日期:2015-08-16]