档案学文献定量研究的问题与对策分析

    摘 要:为有针对性地查找我国档案学文献定量研究中存在的问题,通过对从CNKI收录的相关期刊论文中提取的差错进行统计和分析,发现信息检索问题明显、数据处理缺乏重视、经典定律盲目套用、定量分析创新不足、行文论述不够严谨是档案学文献定量研究的主要问题,提出了解决这些问题的对策和建议。

    关键词:档案学;文献定量研究;文献计量;问题;对策

    Abstract: In order to explore the problems in the literature quantitative research on Archival Science in China, this paper makes a statistics and analysis of the errors extracted from CNKI journal articles. It founds that the errors of information retrieval, data processing, application of the classical laws, innovation of quantitative analysis, writing and discussion are the main problems of the literature quantitative research on Archival Science. Based on those findings, this paper proposes corresponding strategies and suggestions to address those problems.

    Keywords: Archival science; Literature quantitative research; Bibliometrics; problems ; Countermeasures

    1 引言

    文献定量研究作为一种常用的研究方法,往往和定性研究结合使用。上世纪80年代后期,国内档案期刊开始刊发运用定量方法进行档案学文献研究的论文。随着网络和计算机技术的发展,各类可检索利用的数据库日益增多,文献定量研究的样本数据获取越来越便捷,定量研究得到了比较广泛的应用,相关的文章数量逐年增多。

    相关论文的增多在很大程度上表明文献定量研究方法已为档案学界认同和接受,但在活跃、认同和接受的背后,更应当冷静地分析和总结档案学文献定量研究中的得失,尤其是问题和不足,这对于提升档案学文献定量研究的水平更具现实意义,毕竟文献定量研究在档案学领域应用的时间还不长。然而,相关的专门研究极少,只在部分文中对有关问题有所涉及,李财富早在1997年就针对引文指出定量分析不准确[1]的问题;王新才、文振兴在计量分析档案学研究中计量法的运用时,提出统计分析之外的研究方法运用少等四个值得思考的地方[2];陈忠海、董一超在研究定量方法在档案学研究中的运用时,指出了文献检索存在的问题突出等三个方面的学术不规范行为,并提出了四个方面的建议[3];笔者也认为不少文献在信息检索、样本数量、数据收集和处理(包括数据清洗和加工)、图表制作、经典定律运用等方面也还有各类问题[4]。尽管这些研究指出了文献定量研究中的一类或几类问题,但对问题的分析大多比较宏观,不够全面、深入和透彻,似乎尚未引起研究者的足够重视,许多专家和研究者早已指出甚至多次指出的有关问题依旧不断出现,因此,开展针对档案学文献定量研究问题与对策的专门研究十分必要。

    2 分析数据来源

    要准确分析和梳理档案学文献定量研究的问题与不足,必须全面了解相关文献的基本情况。2017-2018年间,笔者针对1989年以来档案学文献定量研究的相关文献进行过专门分析,在对照原文进行数据核对、整理的过程中,明显感觉到有些论文在信息检索、数据处理等方面存在一些问题。近一年阅看新发表的相关文献时,相关问题依然不少。

    为减少文献检索和数据处理的工作量,本文以文献[5]分析的563篇文献作为原始数据(文献[5]中详述了检索、样本获取和数据处理过程),从全文中提取了检索项、检索表达式、数据处理、样本数量、经典定律使用、图谱效果等信息,并对有无明显问题作出判断,也通过检索、查找相关文献验证或核对了部分把握不准的判断。

    3 主要问题及原因简析

    3.1 信息检索问题明显。信息检索是获取分析样本的有效手段,包括早期仅能以手工方式收集数据在内的563篇论文中,有507篇是通过信息检索来获取分析数据的,可见信息检索是目前绝大多数文献定量研究必不可少的环节。但检索中的问题特别多,表1是主要问题的汇总,包括:(1)檢索中该使用同义词及相关词但未使用,或是使用不全面,这个问题最为突出,如检索“数字档案馆”的相关文献仅用该词显然会出现漏检,因为数字档案馆还有“电子档案馆、虚拟档案馆”等其他称谓;(2)使用偏长的词组、短语甚至句子检索,往往会造成较大量的漏检;(3)部分上下位概念词用“与”或“或”组配,如在CNKI中用“篇名=档案检索*检索”的检索结果与“篇名=档案检索”完全相同;(4)检索表达式书写不正确,布尔逻辑运算符运用不当;(5)不知“主题”检索项的准确内涵,误认为是主题词项,将“主题”当作“主题词”进行检索。

    此外,信息检索中还存在检索限定(精确或模糊、分类或专辑等)运用极少、可简化的检索式编制得过于复杂、无准确的时间范围、检索项名称使用混乱、位置检索等专业检索方式运用极少、专门检索期刊甚至一种期刊用跨库高级检索、检索过程描述错误或不准确等诸多问题。也有少量论文说明了来源数据库但没有提及检索或未清楚描述。

    出现信息检索中诸多问题的根源是有些作者未系统学习和掌握信息检索的基本技能和方法,对检索使用的数据库及其检索规则缺乏较深入的了解。

    3.2 数据处理缺乏重视。数据处理是对检索或以其他方式获取的样本数据进行清洗和加工的过程,对确保定量研究的质量至关重要。然而,相关论文中有关数据处理的描述却让人感受不到这种重要,除直接检索一种或多种期刊、专门数据库等不是必须进行数据处理的之外,有264篇无数据处理或未提及,有270篇仅有简单筛选,或是剔除新闻、一稿多投、不相关文献以及去重等简短叙述;有8篇论及机构的统一,有11篇对关键词作了规范,而逐一核对原文(包括引文)、清除或规范CNKI机标关键词、统一刊名、提取题录之外的数据项等处理更是少之又少。

    有数据处理的也多是手工删选方式,借助相关软件或自编软件的作者偏少,有25篇用到了Excel,有少数作者用到了E-learning等工具或自编软件进行数据处理,甚至进行数据格式的转换。工具利用少也反映出多数论文的数据处理效率不高。

    对数据处理重视不足大致有以下四个主要原因,一是有些作者不愿為数据处理花费大量时间和精力;二是有些作者不知如何处理或不清楚数据处理涉及哪些内容和要求;三是有些作者主观地认为检索获取的数据可以直接利用,不需要进行处理;四是有些作者运用现代技术手段的能力不强,处理有一定困难。当然,也不排除有些作者进行了数据处理,但限于篇幅而简单地一笔带过。

    3.3 经典定律盲目套用。在文献计量学中,布拉德福定律、洛特卡定律、普赖斯定律等是公认的经典定律,有些作者在分析文献数量时,用布拉德福定律进行文献分区,得出核心论文或核心期刊数量;在分析作者或机构时,用到了洛特卡定律、普赖斯定律,得出核心作者、核心机构,或验证作者分布与定律的结果是否一致,判断形成没形成核心作者群。在定量研究中运用经典定律本无可厚非,甚至能增加分析判断的可信度,但这些经典定律都是在样本数较多的情况下得出的,有些论文仅有百余个甚至几十个样本(有132篇样本数少于100)。更令人遗憾的是,定律公式的格式有很多是错误的,尤其是上下标不分地混排在一起。另外,公式中字母的大小写、正斜体也大都不符合数学公式的规范要求。值得注意的是,有多篇文章的差错完全相同,或许是引用、参考了有同样错误论文的结果。

    经统计,563篇论文中有129篇用到了经典定律,运用情况见表2,有些论文同时用到了这三个定律。盲目套用经典定律本身就表明有些作者对这些经典定律的由来、作用和可运用的范围缺乏了解,也不排除个别作者盲目跟风,胡乱引用。

    3.4 定量分析创新不足。文献定量研究,特别是文献计量学发展到今天,在图书情报之外的许多学科都得到了较为广泛的运用,同时也用到了科学计量学、可视化等方法和技术,并融入了学科特色。但档案学文献定量研究在方法和手段上还比较单一,文献计量近几年仍是主要方法,可视化分析、社会网络分析、聚类分析、h指数等方法和技术运用不多;时间分布、来源刊、作者、机构、关键词等可直接从题录中获取的数据项是定量研究中运用最多的计量元素,很少有作者自主地从文献中挖掘题录之外的计量元素;除年度分布外,各计量元素大多只有总量统计,鲜有体现数量动态变化特征的分时段数据、阶段性陡增数据等;定量研究的对象九成以上为期刊论文(或包含期刊论文),分析的文献类型比较单一。

    此外,针对外文文献、引文分析等的定量研究偏少;知识图谱工具运用中图的质量大多不高,节点和标签相互叠加,乱作一团;缺少结合档案学特点运用或修正经典定律的研究。在提取分析数据时,发现仅有极少数作者有能力利用计算机软件开发数据处理、数据格式转换、主要计量元素数据统计等的工具程序。

    3.5 行文论述不够严谨。行文论述严谨是文献定量研究的基本要求,但有些论文却缺失了这种严谨。这类问题主要包括:(1)对检索数据库或平台、经典定律、分析方法等不惜篇幅地加以说明或介绍;(2)列出了多种检索方法和结果,但分析时选用的是其中的一个检索结果,或是详细地介绍检索中的每一个操作细节;(3)简单地罗列统计数据,有几篇论文甚至将百余位发文作者、近百个机构按发文数量一一列示;(4)没有数据获取过程,直接进行分析;(5)有近一成的论文没有图表,超过两成的仅一张图表,甚至有2篇知识图谱分析的论文竟然没有一幅图;(6)超过半数的论文篇幅在3页之内,甚至有不少仅1页,太过“精练”的文字恐怕难以将研究过程和结论论述清楚;(7)部分论文分析样本数量过少。

    此外,一些论文中还有较明显的各种形式的差错,如:标题中有“20年”,但分析数据只有11年;分析“档案××”的检索词却是“图书××”;检索时选择期刊,分析时还有学位论文;分析中引用和被引不分,等等。

    出现这类问题是由于少数作者缺乏严谨的研究态度,对定量研究论文写作的重点甚或定量研究的目的是什么不太清楚,对定量研究缺乏较深刻的认识和理解;也不排除个别作者用无关的叙述达到增加篇幅的目的。

    4 对策和建议

    4.1 切实提高对定量研究的认识。提高对文献定量研究的正确认识是解决上述问题的关键。要充分认识到,档案学文献定量研究的目的,是要用定量的方法来揭示档案学及其各主题领域文献的结构和数量变化,从中发现其本质联系与发展变化规律。绝不能简单地认为定量研究只是按照已有的套路,统计几个数字,验证一下与经典定律是否一致,得出几条与统计结果“相符”的结论,人云亦云。更不该有文献定量研究是多出成果、快出成果的一条捷径这样狭隘的认识。事实上,档案学文献定量研究需要研究者具有良好的信息检索能力、较强的数据处理能力、较丰富的档案学专业知识,同时还需要严谨、细致、扎实、认真的研究态度。认识提高了,自然会去关注和进行系统学习,进而较好地掌握文献计量、科学计量、社会网络分析等文献定量研究的技术、方法。对于经典定律的学习,重要的是要学习这些定律的最初思想力量[6],学习文献计量学家研究问题的方法,而不该教条地照搬照套。同时,要加强文献定量研究相关软件工具的学习,掌握先进的技术,运用自己的各种专长去探索档案学文献定量研究,走出自己的研究之路。

    尽管文献定量研究者无须有深广的专业背景知识[7],但这并不意味着研究者不需要专业知识,对于不熟悉的主题领域进行文献研究时,仍应学习和了解相关知识,否则难以准确地总结出该领域研究的特点、前沿及其演进。

    4.2 学习掌握信息检索的技术方法。信息检索作为获取分析数据的最常用方法,是文献定量研究最重要的基础性工作之一。信息检索因看似简单而往往不为研究者重视,但它却是一项专门的技术,需要通过必要的学习来掌握,绝不是有些人自以为是的那样——和用百度等搜索引擎一样简单。事实上很多人并不会使用搜索引擎的一些检索技巧和高级检索功能。

    想要提高信息检索能力,首先要改变对信息检索狭隘或片面的错误认识;其次要花些时间和精力来学习检索的原理、方法、技术(包括布尔逻辑检索、截词检索、限制检索、位置检索[8]等)和程序,甚至要学习和理解概念及其逻辑关系,全面掌握信息检索技能;最后,要加深对数据库的了解,只有知悉了拟要检索数据库的方方面面(如收录范围、检索词的切分规则、检索项及其关系、检索语法要求、有无机标关键词等),勤于实践,反复调试,检索才能有的放矢,得心应手。

    对于某一主题领域文献的检索要从对主题领域蕴含的概念分析入手,找出其尽可能全的同义或相关词,以提高查全率(甚至可以通过获取施引文献等来提高查全)。文献定量研究最好采用专业检索,这样可很好地解决检索词种类多、数量多时无法利用检索框来完成等困难。

    4.3 高度重视数据处理。数据处理是文献定量研究最重要的又一项基础性工作,必须高度重视。即便检索得到了较充足的样本,不通过数据处理剔除无关数据,规范机构、刊名、关键词,补全一些缺项,区分同名作者,也不能得到干净和完整的样本数据。

    文献定量研究中信息检索结果往往不宜直接使用,一方面是因为要获得较全面的样本,通常会有较高的误检率;另一方面是数据本身还有各类问题,如数据制作加工差错、引文不完整或不准确、机构名称变更或合并、检索系统自动标引的关键词,等等,这些都需要通过数据处理来解决。用没有经过处理的数据直接进行分析,结果和结论通常难以客观真实。

    文献定量研究中的最大难点是数据处理[9],需要花费大量的时间来精心完成。张晋辉和刘清认为文献计量分析工作中,数据清洗所占的时间占全部工作量的80%~90%[10],笔者虽未精确地计算过这个比例,但准备一篇论文在数据处理上花的时间往往要两三个月。武夷山先生曾坦言:对于从事科学计量学研究的,如果不肯花力气去搜集、挖掘待分析的数据,那就趁早改行得了[11],档案学文献定量研究亦当如此。

    提高计算机运用能力,借助一些软件或自编的程序和工具,可以大大提高数据处理的质量和效率。

    4.4 勇于探索和创新研究分析手段。文献定量研究可以是程式化的,尽管有些研究者对此是批评的,但笔者认为,样本获取、处理、计量或分析(包括可视化等)、得出结论等是文献定量研究必不可少的环节。需要注意的是,程式化并不是说只能按既定的套路去做研究,完全可以突破和创新。定量研究往往是以题录数据为基础的,但可通过提取题录中没有的内容或项目作为新的定量分析元素,从文献本身去挖掘新的数据,如某一领域的研究方法、文献的篇幅,等等;即使是常用的计量元素,在计量时也可以增加近三年或五年的计量结果,以体现量的变化;运用知识图谱工具CiteSpace时可进行两个甚至多个节点的叠加,如可将作者和机构呈现到一个图谱中,在实现两张图谱原有作用的基础上,还可呈现作者与机构间的关系,等等,文献定量研究应鼓励和提倡各种尝试与实践。

    对于经典定律,可以结合档案学的特色来作必要的验证研究,经典定律本身有其时代特征,档案学也可能有着不同于其他学科的自身特点和文献产出、老化、分布等规律,通过分析研究来探寻、发现其中的规律,甚至修正经典定律也是极有意义的事情。

    4.5 注重定量研究的科学严谨。科学严谨是做任何研究的基本要求,文献定量研究更是如此。定量研究讲究的是用数据和数量说话,要从数字或数字的变化及其联系去探寻隐藏在这背后的规律、变化和趋势。因此,准确地获取分析研究的数据是文献定量研究的基础和关键,这就要求研究者不能轻易地放过任何一条相关数据,也不能无视任何一条无关数据混雜其中,做到这一点需要的是耐心和细致。强调数据的重要,并不是说一定要花大量的篇幅来描述这个过程,如对数据库、检索过程、成熟的研究方法等大可不必作过多的介绍。

    文献定量研究过程中,要注重合理地运用图表。图表往往是文献定量研究中不可或缺的组成部分,以图表形式来揭示计量元素间的量及关系,直观简洁,其效果是用文字描述难以企及的,一篇文献定量研究的论文中如果没有图表或仅有一两张图表,恐怕很难让人从中看出量的大小、差异和变化。

    此外,编辑出版机构严格把关尤为重要,如能将样本量过少、检索漏洞明显、不作数据处理或处理太过简单、盲目验证经典定律等问题明显的论文拒之门外,对促进档案学文献定量研究的健康发展将大有裨益。

    5 总结与讨论

    由于水平和能力所限,笔者从相关论文中较易提取、统计和评判的几个方面,梳理和分析了档案学文献定量研究部分期刊论文中出现的主要问题,也涉及了一些其他问题,限于篇幅,多数问题未举例详述;同时,结合开展文献定量研究的一点粗浅体会和认识,提出了几点值得商讨的对策和建议,仅是一家之言,并未更深入地对计量结果和结论作出评判,分析的深度和广度显然是不够的。当然,有上述问题,特别是同时存在多个问题的论文已无需评判,因为用不恰当检索获取的数据、没有进行过必要清洗或处理的数据进行的定量分析,真实性和客观性已然存在瑕疵。重要的是要从中总结经验和教训,使文献定量研究能真正做到用事实说话。

    必须强调的是,文献定量研究是一项复杂的科学劳动,既需要掌握各种相关知识,更需要踏实认真的研究态度,注重的是科学、真实和客观,因而要求的是每一个环节都不应出现明显甚至丝毫的偏差。对于需要通过信息检索来获取样本的某主题领域的文献定量研究来说,如果不认真分析研究课题,就无法提炼出精准的检索词(含同义和相关词),进而编制恰当的检索式,也就不可能获得高查全率的数据;不进行数据清洗和处理,便没有可能得到客观、真实的定量结果的样本。不做好这些基础性的工作,由不准确的定量结果推出结论便失去了定量研究应有的价值,计量出的结果十有八九是片面的,得出的结论也完全可能是只见树木不见森林。

    参考文献:

    [1]李财富.关于档案学定量分析研究的反思[J].山西档案,1997(5):11-13.

    [2]王新才,文振兴.档案学研究中计量法运用的计量分析[J].档案管理,2014(3):59-62.

    [3]陈忠海,董一超.定量研究方法在档案学研究中的应用状况、问题及建议——基于2004-2015年《档案学通讯》《档案学研究》所载文献的统计分析[J].档案学通讯,2016(2):41-47.

    [4]李晓明.我国档案学文献定量研究的发展现状与热点分析[J].档案管理,2017(6):45-49.

    [5]李晓明.档案学文献定量研究的定量分析[J].北京档案,2018(3):17-21.

    [6] 王崇德.文献计量学引论[M].桂林:广西师范大学出版社, 1997:25-26.

    [7]包昌火.情报研究方法论[M].北京:科学献出版社,1991:213.

    [8]陈氢,陈梅花.信息检索与利用[M].北京:清华大学出版社,2012:29-32.

    [9]李晓明,张玲玲.基于CSSCI的国内电子文件研究可视化分析[J].北京电子科技学院学报,2016,24(1):43-51,75.

    [10]张晋辉,刘清.基于推理机的SCI地址字段数据清洗方法设计[J].情报科学,2010,28(5):741-746.

    [11]武夷山.做菜与科学计量学研究[J].情报学报,2013,32(10):1.

    (作者单位:北京电子科技学院 来稿日期:2019-02-20)