密歇根大学网页资源归档实践研究及启示

    吴晓茹 陈丹

    摘? 要:本文以密歇根大学网页归档项目为研究切入点,探究该大学网页归档项目的建设策略及服务机制,力求为我国高校网页归档实践提供一定的参考和借鉴。

    关键词:网页归档项目;密歇根大学;本特利历史图书馆;Archive-It项目

    Abstract: This article takes the University of Michigan Web Archive Project as the object, explores its construction strategy and service mechanism, provides reference for the practice of Web archiving in Chinese colleges.

    Keywords: Web archive project; University of Michigan; Bentley historical library; Archive-It

    美国国家数字化管理联盟(National Digital Stewardship Alliance, NDSA)2016和2017年的网页归档项目调查报告显示,相较于政府部门和公共图书馆,近年来美国高校开展网页归档项目的机构数量明显增长,已超过全部调查对象的60%,网页归档成为美国高校图书档案机构资源建设的重要途径。[1]

    本文以密歇根大学本特利历史图书馆(Bentley Historical Library,以下简称本特利)的网页归档项目为研究切入点,从中窥探密歇根大学网页归档项目发展现状、建设策略及服务机制,力求为我国高校网页归档实践提供一定的参考和借鉴。

    1 本特利历史图书馆及其网页归档项目发展现状

    本特利历史图书馆始建于1935年,它不仅是密歇根大学的官方档案馆,还是除位于兰辛的密歇根州政府档案馆之外保存密歇根州史料最多的档案馆。

    该馆馆藏档案不仅包括学校自1817年建校至今200多年来在行政管理、科学研究、教学管理、学生活动、体育运动等方面的各种历史记录(如19世纪40年代的校友档案、50年代的底特律天文台建筑档案、60年代的体育运动档案以及21世纪的电子档案等),还包括诸如密歇根历任州长文件、骑兵服役信件、采矿伐木史料、百年密歇根旅游画册等反映密歇根州政治、经济、文化、景观及民生等史料。[2]

    截至 2019年,该馆已保存7万英尺的原始史料、119.25TB的数字档案、150万张照片和底片、1万张地图、5.5万本书籍、2.2万条音频以及近1.17万件捐赠材料。[3]

    这些种类丰富、形式多样、数量庞大的馆藏资源不仅服务于在校师生,而且面向世界各地人员开放,至今研究成果包括1700多部公开出版的书籍、上千篇研究论文、荣誉学位论文以及个人家族史等。

    本特利网页归档项目始于2010年,截至2020年5月,本特利已对近2500个网页进行了归档,存档数据高达7.5TB。[4]

    根据网页的内容、性质和来源等特点,本特利将存档网页划分为大学与图书馆(Universities & Libraries)、社会与文化(Society & Culture)、艺术与人文(Arts & Humanities)、博客与社交媒体(Blogs & Social Media)、科学与健康(Science & Health)、自发事件(Spontaneous Events)、计算机与技术(Computers & Technology)、政府-美国各州(Government - US States)八大主题,形成了密歇根大学行政管理、校友粉丝、体育运动、卫生健康、新闻动态、教学研究、学生组织、MBLog以及密歇根州历史九大网页档案资源库。[5]

    每个主题包含1个或多个资源库,每个资源库又由若干个网页组成。例如,密歇根大学行政管理网页档案资源库中有存档网页245个,涵盖大学年度报告、审计、就业、校园资源、心理咨询、餐饮服务、监督检查及残疾管理等内容。体育运动网页档案资源库存档网页64个,涉及大学体育系、运动队、教练博客及体育比赛等(统计时间截至2020年5月1日)。

    这些网页档案不仅丰富了本特利的馆藏资源,填补了学校历史记忆的空白,更为开展网站分析、数据挖掘、自然语言处理等科学研究提供了原始材料。

    2 本特利网页归档项目建设策略与服务模式

    2.1 明确项目主体,开展多方合作。为了做好网页归档工作,本特利于2010年7月订阅了加州大学数字图书馆的网络存档服务(Web Archiving Service, WAS),[6]2011年4月成立了专门负责数字档案复用、共享和增值业务的数字策展部(Digital Curation Division , DCD)。[7]随着项目的發展要求,2015年3月,本特利与美国互联网档案馆合作,利用Archive-It方案开展网页归档工作。[8]

    本特利主要负责网页的采集范围、描述数据、访问接口以及知识产权等问题;Archive-It负责网络爬虫程序、网页数据存储等技术问题;网站创建单位负责提供预归档的网站名单、网站开发人员联系方式、网站最佳捕获时间以及网站更新、改版前的特殊捕获请求等信息。由此,形成本特利统一领导,校内部门、社会企业等多方合作的网页归档工作机制,通过明确责任、协调配合的方式促进学校网页归档项目的共建共享。

    2.2 灵活、先进的网页采集策略

    2.2.1 确定网页采集范围。本特利遵循档案管理思想,以大学档案的价值、使命以及档案馆的收集兴趣作为网页采集的判断标准。2019年,本特利修订的《档案政策与程序手册》(Records Policy and Procedures Manual)中明确指出,凡是符合以下条件的网页皆是本特利的采集对象。包括用于开展大学业务或活动的网页、反映职能活动的网页、可补充现有档案内容或填补馆藏空白的网页、包含独特内容且定期更新的网页等。[9]

    可以看出,本特利采用相对灵活且多样化的网页采集策略,采集对象多元,采集范围广泛,采集内容丰富。这些网页档案不仅超出传统档案的采集范围,而且突破高校基本职能,是密歇根大学和密歇根州“数字记忆”的构建者和传承者。

    2.2.2 利用先进的网页采集工具。本特利采用以广泛式采集为主、选择性采集为辅的联合性网页采集方式。根据网页的价值和特点,不同网站设置不同的捕获频率。

    如以月、季、半年、一年的频率进行捕获。Archive-It的网络爬虫程序会根据事先设定好的捕获频率自动运行,每次运行会持续几天完成。若遇到网站迁移、改版、下线等重大变动或学校举办重大活动,本特利会在Archive-It中人工添加新的捕获计划。

    Archive-It方案中采用的网络爬虫程序主要有Heritrix、Umbra和Brozzler三种。Heritrix和Umbra被称为“标准”爬虫程序。“标准”爬虫程序在不影响網站正常访问的情况下,于特定时间点以拍摄网页快照的方式创建网页的存档副本。

    Brozzler是Archive-It新开发的一种基于浏览器的分布式网络爬虫程序。与“标准”爬虫的捕获机制不同,Brozzler并不跟踪网页超链接,也不下载网页数据,而是依赖于Web浏览器实现与网页数据的交互,将交互的网页数据编入索引并进行存储,这种方式类似于用户体验Web的方式。同时,Brozzler还使用youtube-dl工具增强社交媒体的捕获功能。[10]

    2.2.3 采用国际标准的网页编目规则。Archive-It方案采用都柏林核心元数据集对网页的标题、内容、URL、发布者、所属主题及数据类型等数据进行著录描述,[11]并将数据存储在WARC(网络资源存档国际标准ISO 28500:2009)文件中,[12]以供合作伙伴下载、保存、管理和分析。

    本特利的网页存档数据除保存在Archive-It服务器外,也同时保存在大学图书馆名为“深蓝”(Deep Blue)的本地服务器中,并通过数字图书馆扩展服务(Digital Library Extension Service, DLXS)为用户提供访问利用。[13]这种多服务器存储方式,不仅满足数据安全备份的要求,而且可为更多的社会群体提供多途径服务。同时,采用国际标准的元数据方案和网页数据存储格式,也有利于网页数据的长期保存、可靠读出、更新迁移和整合共享。

    2.3 高效、智能的网页访问利用机制。与其他档案一样,网页档案经过存储、编目、审核、发布后,便可对外提供服务利用。为了满足用户便捷化、多样化、智能化的网页档案检索需求,本特利不断完善其信息检索服务。一是为用户提供多种网页档案检索工具。用户可通过Archive-It官网(https://archive-it.org/)、U-M Library(密歇根大学图书馆的在线公共访问目录库)和BHL Finding Aid(本特利查找工具)三个网站查找所需的网页内容。[14]三个网站分别介绍了网站的基本概况并提供了使用指南,帮助用户快速、全面地了解和使用网站检索功能。此外,本特利还积极地与其他档案机构合作分享它的检索工具,以便公众和远程研究人员能够了解本特利的馆藏并加以利用。二是为用户提供多途径的网页档案检索方式:①直接检索,用户通过输入关键词、集合名称、组织机构、URL或者元数据等直接检索所需内容,也可通过输入网页文本内容进行全文检索。②以字母A-Z的索引检索,用户可按照查询内容的首字母与索引进行比对,更加直观和快速地找到所需内容。[15]③高级检索,用户可通过集合限定、文件类型、捕获日期、文档显示数量或布尔逻辑运算对全文检索结果进行更细粒度、更优化的检索。④为了进一步缩小检索范围,提高检索效率。用户可通过网页的组别、主题、创建者、发布年代、使用语言、覆盖时间范围等特征对检索结果进行筛选。所有检索结果都将以Wayback日历页面的形式进行展示,用户可从中选择网页的存档日期进行查看。

    2.4 法规与政策支持。本特利网页资源归档项目之所以顺利开展,与相关法规、政策的支持密不可分。一方面,《大学标准实践指南》(Universitys Standard Practice Guide)第601.08节和第601.08-1节对大学档案以及本特利的职责和权利作出了相关规定,充分赋予了本特利对大学档案(包括网页档案)“收、管、用”的权利。另一方面,《档案政策和程序手册》第2.1.7条对网页归档的采集范围、存在的挑战以及网页归档单位的职责作出了相关规定,要求网页归档单位对网页的许可、版权、访问点作出声明,以便本特利对其内容进行采集和使用。[16]

    3 对我国高校网页归档工作的启示

    3.1 加强组织领导,制定规范标准,扎实开展高校网页归档项目。本特利将网页归档纳入学校档案管理制度中,赋予本特利合法开展网页采集、保存和利用的权利,明确档案馆、网站管理部门、Archive-It各方的职责分工,为项目的顺利开展奠定了良好基础。国内高校在网页归档方面以理论研究为主,建设实践的还相对较少。因此,国内高校可借鉴本特利的做法,首先从政策和制度上明确网页归档的重要性,将网页、社交媒体、电子邮件等新型电子文件纳入高校档案的归档范围中;其次明确高校网页归档的责任主体和职责分工。高校可建立由档案馆统一领导,网站管理部门、网络中心及技术服务商分工协作的网页归档工作机制;最后加快出台高校网页归档规范标准。一方面,国家层面上要加强档案部门与信息部门等的合作,兼顾与国际标准和通用规范的衔接,注重前瞻性、操作性和导向性,从管理、业务和技术等层面上形成一个科学、配套、适用的网页归档标准体系。[17]另一方面,高校应结合实际,制定高校网页档案归档指南,对网页归档的工作流程、采集范围、采集方法、数据存储、“四性”保障、软件功能、服务利用等内容作出明确要求,为高校网页归档工作的有序开展提供政策依据和指导。

    3.2 扩大网页采集范围,加强网页资源的整合与利用。本特利网页采集范围宽而广,不仅包括反映密歇根州个人、机构及志愿组织网络社会活动的各类网站,例如:利用自身资源帮助非裔美国人的百名美国男子协会底特律分会(100BMOGD)网站、展示世界级艺术娱乐庆典的安娜堡夏季艺术节网站、宣传中国教会文化的安娜堡中国基督教会网站等,还包括密歇根大学管理部门、教师、学生、校友、粉丝等创建、使用的各类网站,例如:帮助校友继续教育学习、职业发展的校友会教育网站、探讨健康课题和医学院新闻的健康实验室博客、介绍密歇根体育比赛、体育历史文化的各类体育博客等。同时,为了便于利用者有针对性地快速查找网页资源,本特利不仅根据网页的内容和特点对众多分散、杂乱的网页进行了资源整合,建立了九个专题数据库,内容涉及学校行政管理、教学、科研、新闻宣传、体育运动、卫生健康、师生活动等,而且为用户提供了多平台、多途径的检索服务。国内高校在进行网页采集时,应进一步开拓视角,从服务社会公众的角度扩大网页的采集范围,不仅采集学校各部门、师生、校友创建、使用的网页,还要广泛采集社会上宣传、报道学校、与学校相关的网页,甚至学校感兴趣的社会网页。在保存形式上,不仅要保存文本、图片等静态数据,还应收集FLASH、音频、视频等动态数据以及嵌入式的用户交互数据等,尽可能多地为后人留存学校乃至社会发展过程中的宝贵遗产。同时,高校要以用户需求为导向,及时对采集的网页资源进行过滤筛选、分类标识、编目存储和整合开发,建立一系列专题数据库,并通过网络利用平台,为用户提供多层级、全方位的检索服务。

    3.3 建立合作联盟,实现网页资源的共建共享。本特利的网页归档项目经验告诉我们,高校在开展网页归档项目时,可以根据学校不同时期的业务需求,与社会各界广泛开展合作。在缺乏技术经验的情况下可直接与国内外的技术服务商合作,引进专业、成熟的网页归档软件,对之调整改造,使之成为高校适用的网页归档工具。除此之外,高校还应打破“孤军奋战”的局面,积极倡议成立国际、国内或地区的网页归档高校联盟,或加入国家网页归档相关组织团体,在联盟、团体的统筹和管理下,通过参加国际交流、举办学术论坛、编制研究成果、解决归档难题、开展教育培训的方式促进成员单位进行有效的信息交流、合作研究和宣传传播。在此基础上,选取一些起步早、经验足、有代表性的高校启动网页资源归档试点示范工作,按照“以点带面、重点突破、示范带动、整体推动”的思路,实现覆盖全国、共建共享、生态发展、协同服务的国家“大网络档案”。

    *本文系2020年度陕西省档案局科技项目“高校网页资源归档与管理研究”(项目编号:SX-2020-X-06)的阶段性研究成果。

    参考文献:

    [1]张莉,颜祥林.美国网页归档项目发展的新动向——基于NDSA2016年和2017年调查报告的分析[J].档案与建设,2019(10):? 39-42.

    [2]苏玉徽,王根发.国外高校档案馆资源建设实践及启示——以美国密歇根大学本特利历史图书馆为例[J].浙江档案,2017(02):? 20-22.

    [3][14]Bentley Historical Library. Preservation-friendly Websites(Best Practices and Records Management Strategies for Web Preservation.ppt)[EB/OL].[2020-03-22].https://bentley.umich.edu/records-management/guidance-for-preservation-friendly-websites/.

    [4][9][13][16]Bentley Historical Library. Records Policy and Procedures Manual(Updated October 2019)[EB/OL].[2020-03-22].https://bentley.umich.edu/records-management/manual/.

    [5][8]Bentley Historical Library. Web Archives[EB/OL].[2020-03-22].https://archive-it.org/organizations/934.

    [6]Bentley Historical Library. Guidelines for the Bentley Historical Library Web Archives[EB/OL].[2020-03-22].https://wayback.archive-it.org/org-934/20141031140511/http://bentley.umich.edu/dchome/webArchives/guidelines.php.

    [7]Bentley Historical Library. Digital Curation[EB/OL].[2020-03-22].https://wayback.archive-it.org/org-934/20141031132017/http://bentley.umich.edu/dchome/index.php.

    [10]Archive-It User Guide. What is Brozzler[EB/OL].[2020-04-16]. https://support. archive-it.org/hc/en-us/articles/360000343186-What-is-Brozzler-.

    [11]Archive-It User Guide. Add, edit, and manage your metadata[EB/OL].[2020-04-16]. https://support.archive-it.org/hc/en-us/articles/208332603-Add-edit-and-manage-your-metadata.

    [12]Archive-It User Guide. Storage and preservation[EB/OL].[2020-04-16].https://support.archive-it.org/hc/en-us/sections/201875126-Storage-and-preservation.

    [15]何玉顏.英国政府网页归档与开发的新实践及其启示[J].档案与建设,2018(09):22-25.

    [17]孙兆伟.档案信息资源整合策略初探[EB/OL].[2020-06-16]. http://www.Archives.sh.cn/dalt/daxjcl/201203/t20120313_9658.html.

    (作者单位:西安建筑科技大学档案馆? ? 来稿日期:2020-08-13)