社交媒体信息档案化管理的挑战与对策探析

    周文泓

    摘 要:社交媒体信息档案化管理的研究旨在充分认识实践现状以及档案理论与方法需相应优化之处。本文以案例研究法对美国国会图书馆Twitter档案馆项目展开分析,从目标、主要任务、收集对象、参与主体、成效与不足等方面剖解项目。由此本文提出社交媒体信息档案化管理应明晰档案化管理对象提出的挑战、探析主体协作深化的方向、面向管理需求构建技术能力、同步社会环境规划与调整实践方案。

    关键词:社交媒体;档案化管理;网络信息;Twitter 档案馆;国会图书馆

    Abstract: Study on archiving social media information aims to optimizing practice of archiving and the archival theory and method. The paper took the method of case study of Twitter archives of Library of Congress and presented the project by concluding its components like goal, main missions, collection objects, participation subjects, achievements and problems. Then the paper proposed that archiving social media information should make clear of challenges from collection objects, deepen the collaboration by reason analysis of lacking resources, building technical ability matching management requirements, make plan and adjustment according to social environmental

    Keywords: social media; archiving; network information; Twitter archive; Library of Congress

    1 引言

    社交媒体以各类功能与形态的平台为社会组织、机构、群体与个人广泛用于社会活动中,形成海量記录人类社会活动的证据、记忆材料与信息资源,这些信息的管理成为研究与实践的热门议题。

    现有研究对社交媒体信息档案化管理必要性、挑战、对策等正展开探索。例如,政务微博的档案化管理就从业务价值、证据价值、信息价值得到支持[1]。同时档案化管理挑战如制度不充分、信息量大、多主体形成者、技术环境复杂等得到明晰[2]。为应对这些挑战,机制、技术、政策等方面的对策都在研究中有所提及。例如,提倡建立政府机构、档案机构以及社交媒体平台的协作机制[3];使用和升级已有的档案化管理工具或开发对接社交媒体平台的API被视作有效的技术策略[4];从战略、规范、标准等方面构建完善的制度也得到倡导[5]。然而,关于如何进行系统的社交媒体信息档案化管理还缺乏全面有效的策略与方案。

    本文将以案例研究法对美国国会图书馆Twitter档案馆项目进行介绍,该项目在国内外得到广泛关注,在我国也有一定的案例研究[6]。然而,2017年12月国会图书馆关于该项目发表了调整原有方案的声明,这一定程度上意味着该项目目前还未获得预期的效果。因而,相比于此前的研究主要从正面视角学习其经验,本文将基于2010年至今的文本材料对项目进行整体介绍与批判性分析。

    2 美国国会图书馆Twitter档案馆项目概览

    2010年4月,美国国会图书馆与Twitter签订协议,协议规定Twitter公司将为国会图书馆提供公司成立之初开始的tweets文本。由此,国会图书馆的Twitter档案馆项目正式启动[7]。主要内容如下:

    2.1 目标。国会图书馆认为Twitter正成为社会主要的交流与表达方式,由此补充甚至替代了信件、期刊、系列出版物和其他图书馆日常收集的材料,它对国会与公众都有重要价值。因而,开展这个项目的目的是为未来的研究者在学术、立法、创作、教育和其他方面的事务中提供关于当代的文化规范、潮流、对话和事件更全面的利用材料。

    2.2 主要任务。项目主要开展如下工作:(1)接收数据。2010年,Twitter制定了名为Gnip的公司来完成数据移交事务,之后国会图书馆和Gnip在移交“现行”tweets的具体要求和流程达成共识,移交工作在2011年开始。(2)建立稳定与持续的Twitter档案馆,这是指形成稳定和可持续的方式获取、保存与组织Twitter不断增长的信息流。(3)探索实现Twitter收藏利用方法,Twitter信息在数量、增速、内容和形式等都提出了管理与技术挑战,如何将这些海量信息整合成可供对外方便利用的资源需要研究[8]。

    2.3 收集对象。项目对Twitter的收集对象主要分为三个阶段:(1)对2006年至2010年12月的Twitter档案的文本进行全部收集,这是签订合约时明确规定的。(2)以更加同步的时间接收Twitter在2011年之后形成的tweets的全部文本类信息。(3)从2017年12月31日起基于国会图书馆的收集政策有选择地收集Twitter的信息,形式上不再仅限于文本,而是包括视频、图片、音频、链接等其他形式[9]。

    2.4 参与主体。项目的主要参与方包括三个:(1)Twitter公司,主要是明确将Twitter平台上的信息提供于国会图书馆,并明确捐赠、知识产权、利用、处置等方面的事项。(2)国会图书馆,信息的接收方,依据协议对信息进行接收、保管和提供利用。(3)Gnip公司,作为Twitter公司的执行代表与国会图书馆进行具体事项的协商与落实。

    2.5 成效与不足。总的来说,国会图书馆的Twitter档案馆项目获得相关领域内外的关注,从项目启动到每一次的项目进展都有大量的新闻媒体报道,围绕国会图书馆选择的合作平台Twitter、投入的资金是否合理、项目的成效与目前的实践困境等,更得到各方面的热议。可以明确的是,项目确实形成了一定成果,也为类似实践提供参考,同时也凸显出部分问题供学界与实践领域探索。

    自2010年达成协议之后,项目成果主要表现为:第一,数据接收方面,2012年2月接收了2006年到2010年的档案,总共包含大约210亿的tweets。2012年12月,接收了超过1500亿2010年之后的tweets以及相关的元数据。当前,头12年的公共tweets都得到了接收。第二,在Twitter档案馆建设上,国会图书馆同Gnip已达成较为统一的整合与移交方式。移交形成了自动化的流程,由Gnip从Twitter实时获取tweets,整合之后上传至安全服务器供国会图书馆全天检索。一旦可供下载,国会图书馆就将其下载至临时的服务器,检查其完整性与是否损坏,及时做好统计工作,将其复制到磁带中再将其从临时服务器中删除。第三,利用环节上,制定了部分规范,如利用应遵循三大原则:尊重内容形成者的意图;遵循Twitter的利用要求;管理好纳税人提供的资源。

    3 启示:社交媒体信息档案化管理的挑战与对策

    国会图书馆的Twitter档案馆项目自公布起便得到广泛关注,它得到的是世界上最大的图书馆和最具影响力社交媒体平台之一的双重支持,由此在信息的留存上取得重要成果,形成了记忆机构主导社交媒体信息档案化的代表性模式。然而,即便是这样较好的条件,项目依然面临困境,这源于社交媒体变革了信息的形成与传播环境,由此对信息的档案化管理提出一系列困惑之处需进一步思考,也为明确开展类似项目的策略提供探索方向:

    第一,明晰档案化管理对象提出的挑战。需要解释的是虽然在诸多材料中都称国会图书馆是接收所有的Twitter信息,但其实接收的只是文本类信息,只是在Twitter发展的头些年文本信息占主流。国会图书馆调整档案化政策明确提出从全部接收到部分接收,这确实也呈现了社交媒体信息档案化在范围设定上的困难:(1)社会类信息是项目的收集对象,信息的体量远远超出管理负荷。与政务类社交媒体信息不同,社会类信息由于海量的个人形成者有着庞大的信息体量,加之其几何级增长对存储空间以及管理设施与人员配备提出更高的要求。然而,作为知识与记忆机构,国会图书馆的任务并不只是保管Twitter信息,甚至它只是众多收藏中的一类,如何在多元的信息资源中评估社交媒体信息的价值并配备相应的资源也是管理难题。(2)形式上当前这些信息不再是以文本为主,以视频、图片等形式形成的视觉类信息正海量形成,因而接收的将不仅限于文本类信息,这将进一步加重接收与保存工作的负担。(3)如何確定收集范围极具挑战。国会图书馆提出将按照已有的收集政策,然而社交媒体信息在记录多样性如主体、主题、事件、形式、背景等方面都有极高的程度,同时碎片化信息又存有大量信息噪音,档案领域一直都未能完全达成定论的鉴定如何应对这些信息则更具难度,目前的收集政策往往有诸多不适之处。同时,依照主题或事件的收集方式是否会破坏信息对其形成者主体的完整与真实再现也值得反思。(4)明确提供利用依旧是档案化管理重要的目标环节。收集政策调整很大程度在于为后续的管理环节提供更多实现的可能,国会图书馆在提供利用方面进度的停滞很大程度在于没有在设计和启动项目时充分理解信息整合和利用面临的挑战,收集方案的变化也是为了尽可能减少技术与资源压力,从而尽早实现提供利用。

    第二,为应对资源不足的问题探析主体协作深化的方向。Twitter档案馆项目可谓是三方协作的成果,这得益于国会图书馆网络档案化的前瞻意识与Twitter公司的社会责任意识,且得到Twitter公司指定的执行方及时有效的落实。然而,从目前的实践状况来看,无论是基础设施、专业方法抑或是技术上都不能提供较佳的资源。从批判视角来看,目前的协作本质上并不充分,作为信息接收方的国会图书馆并没有在档案化及其之后的整合、开发与利用上建立有效的协作框架。这也对类似的项目提出:(1)应当倡导更多记忆机构的参与来共同配备资源以分解任务难度。网站档案化在英、美、澳等国均有建立相关的记忆机构联盟,通过图书馆、档案馆、信息协会依据各自的优势共同制定各有分工的网络档案化并实施各自分配得到的任务早有已定传统。面对Twitter这样日活用户以亿来计的平台,若要在档案化保存的进度跟上形成与传播的速度,联合其他记忆机构参与项目可能是较为必要的。(2)引入第三方社会机构的力量。无论是商业公司还是公益性的社会机构,目前都有参与社交媒体信息档案化的意向与实践,如较知名的企业Archive Social与公益机构互联网档案馆,它们都在开发针对社交媒体信息的工具,互联网档案馆的重要收藏也包括这些社交媒体,因而从专业与技术角度同这类机构展开协作也是一个重要方法。(3)充分发挥社会公众的集体智慧也是重要思路。公众参与记忆机构的资源建设已有诸多实践,例如美国档案与文件署的公民档案员众包项目。这些很大程度上由信息体量造成的档案化管理挑战也可以尝试通过公众的参与以有效分解任务,英国在开展奥运会社交媒体档案化项目时就提出类似的解决方法,即由公众参与形成信息造成的管理困难也应当由公众参与档案化管理解决。在当前倡导数字人文的框架下,公众参与也是必然趋势。只是需要说明的是,如何能激发公众参与并且提供公众参与的政策、技术、设施等都是需要进一步设计与规划的。

    第三,面向管理需求构建技术能力。社交媒体信息档案化的技术要求已不用赘述,数据的处理、移交、接收、整合、开发、利用等无一不需要技术的支持,然而,这些环节的贯通却不是用目前的电子文件、档案、信息管理系统或是网站档案化技术方案能够解决的。这很大程度是由社交媒体信息在数量、内容、形式、背景等方面的特殊性与复杂性造成的。例如,由跨媒介信息构成的记录如何实现整合与语义开发就极具技术难度。因而,社交媒体信息档案化管理需要充分构建技术能力。于社交媒体信息档案化管理而言,自动化的流程、智能化的挖掘、即时性的利用以及充足的存储空间是关键,这些都需要应用各类前沿技术且需要持续升级应用。在这其中,电子文件管理系统和已有的网站档案化平台都应提供充分的基础架构与经验,并通过API工具调用社交媒体平台的程序接口将信息捕获,只是系统或平台需要依据社交媒体信息的内容、形式与背景特征调整。同时,大数据、人工智能、云计算等技术应当充分应用于整体的流程中,例如可通过大数据技术做好信息的组织,人工智能可帮助解决劳动量较大的工作任务如对照识别已在平台删除却在删除前被捕获的信息,云计算可通过灵活的分布式存储尽量降低存储成本。当然,使用哪些技术与如何使用是较为复杂的问题,这需要对技术有全面的认识,也要对档案化管理有深刻理解,亦是在未来实践中重点探索的工作内容。

    第四,同步社会环境规划与调整实践方案。当前社交媒体信息档案化管理围绕不同主体的主导形成不同的模式,国会图书馆的Twitter档案馆项目就是典型的记忆机构主导型实践。无论是哪类实践,目前均没有一蹴而就的方案供参考,而是在不断的探索中优化,国会图书馆的收集政策调整就是如此。为做好实践方案的规划与调整,外部环境的明晰是要点:(1)司法背景。社交媒体档案化往往会涉及社交媒体平台、形成者、记忆机构等利益相关者的权益,因而要明确信息档案化管理所立足的司法环境,国会图书馆与Twitter公司签订的合约中就明确了信息的所有接收和处理行为都是在美国联邦的法律框架之下。(2)文化背景。在当下社会愈来愈多的个人意识到信息价值及其带来的隐私、被遗忘权、知识产权等方面的风险时,对社交媒体信息的档案化管理不再仅仅是将其作为社会文化遗产,而是要关注背后的形成者的权益,这也就是为什么项目一再提及除了技术挑战外提供利用不能实现的原因还在于部分已在平台删除却在此前被接收的信息的處置方案未能形成,如果提供了这类信息的利用,那么其形成者的权益就可能受到侵犯。(3)技术背景。技术发展水平是方案设计的关键要素,这意味着方案是否能得到落实。国会图书馆对Twitter信息的“全盘”接收尽管在其价值和必要性都能得到充分认证,但其并未认识到这些信息的整合和提供利用的技术难度,更未意识到技术能力的提升未能跟上随着跨媒介信息的增长而提高的技术难度。因而,做好档案化管理方案和自身的技术能力的匹配度评估是必要之举。

    参考文献:

    [1]黄新荣,吴建华.政务微博档案化保存[J].档案与建设,2012(4):4-6.

    [2]Jessica Bushey. Convergence, connectivity, ephemeraland performed: new characteristics of digital photographs[J]. Archives & Manuscripts,2014,42(1):33-47.

    [3]宋香蕾.政务微博档案化模式研究[J].档案学研究,2017(1):51-56.

    [4]Helen Hockx-Yu. Archiving Social Media in the Context of Non-print Legal Deposit[EB/OL]. [2016-09-09] http://library.ifla.org/999/.

    [5]高晨翔;黄新荣.我国社交媒体文件的档案化政策研究[J].图书馆研究,2017(7):47-55.

    [6]万凯莉.美国Twitter存档项目对我国社交媒体信息档案化的启示[J].浙江档案,2014 (5):8-11.

    [7]LOC. Gift agreement [EB/OLl].2018-02-25 blogs.loc.gov/loc/files/2010/04/LOC-Twitter.pdf.

    [8]LOC. 2013 Update on the Twitter Archive at the Library of Congress [EB/OLl]. 2018-02-25 blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-thelibrary-of-congress/.

    [9]LOC. Update on the Twitter Archive at the Library of Congress [EB/OLl]. 2018-02-25 blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-thelibrary-of-congress/.

    (作者单位:四川大学公共管理学院 来稿日期:2018-08-10)