面向决策的智库型档案平台建设初探

    陈方舟 张若梅

    

    

    摘 要:档案作为一种特殊的信息资源和组织核心的知识资源,具备为制定决策提供信息支持的智库功能。本文针对档案所特有的情报价值,提出面向决策的智库型档案平台模型,基于需求中心原则、高内聚低耦合原则、信息共享原则和评估反馈原则,引入分布式管理技术、数据挖掘技术和人机交互技术,围绕决策机构需求搭建分布式共享档案信息平台、信息挖掘引擎及管理系统,使之成为档案开发管理新模式的有益探索,同时也能够为决策机构提供有效的信息服务保障。

    关键词:智库型档案平台;分布式档案信息平台;智库

    2014年5月5日,中共中央办公厅和国务院办公厅联合印发了《关于加强和改进新形势下档案工作的意见》,提出要“加大开发力度。各档案馆(室)要加强对档案信息的分析研究、综合加工、深度开发,提供深层次、高质量档案信息产品,不断挖掘档案的价值,努力把‘死档案变成‘活信息,把‘档案库变成‘思想库,更好地为各级党委和政府决策、管理提供参考”[1]。档案作为一种特殊的情报信息,对于知识与信息优势的需求更高,因此促成了以征集保管与利用为主要业务职能的传统档案馆向智库型档案机构转型的良好机遇。

    1 档案馆智库化的基本条件

    1.1 具备一般机构难以比拟的信息资源优势。档案的特性决定了档案馆保管着行政或科研活动中直接形成的文件材料,真实反映了历史原貌,其历史真实性和凭证性使之能够成为决策的参考依据。同时,档案特有的保密性又在一定程度上造就了唯一性,使其具备独有的历史价值、凭证价值和情报价值。

    经过现有的标准化整理和归档流程,档案馆拥有存量丰富且系统化的档案资源,这既是档案馆的信息资源量级优势,而随着数据挖掘技术、知识工程技术在档案领域的深层应用,这也将有助于档案馆建立起专业知识关联的质级优势,真正成为决策机关的“信息大脑”。

    以成功转型为胡佛战争、革命与和平研究所的胡佛战争图书馆(实质上为档案馆)为例,该馆创建之初是为了收集与第一次世界大战有关的档案文件资料,除后期收集的藏書和期刊资料外,现今拥有4300类4000余万件档案和6万多件缩微影片文件(绝大多数为第一手档案),成为世界上最大的政治、军事和社会经济史料文献收藏地之一,其档案文件及资料存量仍在不断扩充。正是基于这些珍贵的丰富馆藏战争档案资源,胡佛战争图书馆形成了一批专业学者团队,随着研究领域的不断深入,建立了研究所和外交政策学会等众多机构,位列美国知名公共政策智囊机构之一,为美国政府及国防部担当顾问,对美国公共政策产生了深远影响。

    1.2 具备一般信息资源机构难以拥有的资政基础。近年来,美军转变了过去的档案工作主要是为史实考证、编史修志提供依据的传统观念,认为档案工作只有紧贴军事变革实际,实现由收集、整理等基础性工作向鉴定、分析等高层次研究工作的转变,才能充分发挥档案工作的潜在价值[2]。因此,除了进一步完善鉴定和保管标准,美军还在档案工作中引入情报分析方法,突出档案的信息内涵,拓展了档案信息资源为发展军事理论、武器装备技术以及制订作战决策等提供有力支撑,这是档案直接发挥机关参谋作用的有效形式。

    2 档案智库的构建模型

    2.1 构建理念。档案智库的构建,既要以“档案”为基石,又要起到“智库”之作用,因此,从宏观上看需要围绕以下四个方面进行设计:一是基于需求中心原则筛选和整理档案,根据决策机关的重点工作方向及时、准确地聚合档案信息;二是基于高内聚、低耦合的原则进行多数据库分类[3],针对所属决策机关的特点建立常规的专题数据库,各数据库内部生成聚类信息簇,将相关知识密度最高的档案信息集成整合,满足服务决策的全面性和高效性;三是基于信息共享原则构建档案数据库的分布式共享平台;四是基于评估和反馈原则连接决策机关与档案智库管理系统,通过人-机间的多次反馈交互不断完善档案系统对决策者需求的理解,从而提供更具价值的档案信息。

    2.2 构建模型。

    决策者在进行决策时所需要的不是档案文献载体,而是档案文献所承载的内容以及这些内容之间的关联。因此,档案平台所提供的决策支援应是深层次的、系统的档案知识信息,并从中利用信息挖掘技术和手段建立档案与问题之间的对应关联,形成符合推理逻辑的参谋信息库为最终确定解决方案服务。一般而言,为决策提供档案信息支持有两种途径:一是由决策者直接在管理系统中检索查找,再根据查找结果进行人工整合;二是针对决策需求,通过信息挖掘引擎进行映射匹配,并将得到的档案信息经过语义整合为可用的结果反馈给决策者以供选择。前者与传统的档案检索本质一致,只是强调了档案为情报信息所用的目的,因此,本文选取后者作为平台模型构建的技术基础。

    具体来说,智库型档案平台包含以下四个部分:

    2.2.1 分布式共享档案信息平台。这一部分属于档案信息资源的准备和再组织,其目的是使结构化的数字档案以系统化专题数据库的形式共享。这一过程分为三个步骤:一是将档案馆库存内的大量非结构化、半结构化和部分结构化的档案文献数据,通过扫描并借助光学字符识别技术,全部转换为符合全文检索的标准化、结构化数字档案。由于数字档案资源最重要的特点是有机联系[4],因此广泛地建立数字化档案资源库是进一步完成档案信息挖掘和开发的基础。二是在对决策需求和建库能力进行充分分析与论证的基础上,以文本搜索及模式抽取方法为核心,利用专题信息自动采集技术和跨库检索技术完成数据整合归类,组织形成面向主题的、集成的、稳定的专题数据库。三是基于安全的内部网络,通过建立档案信息交换标准,在所属部门系统内的各节点上设置具体访问权限的Web Service访问接口,实现决策部门与档案机构以及各档案机构之间的档案信息交互与共享,使档案信息资源的检索与利用更加实时高效,也使分散于不同档案机构的专题数据库能够互为补充,全面服务于决策过程。

    2.2.2 信息挖掘引擎。这是整个平台的控制部件,亦是整个平台的关键部分,在深入理解和分析决策机构需求的基础上,从档案库中智能检索、推理选择并提供展示给决策者相应的信息知识,因此信息挖掘引擎中主要包含三种功能机制:分析机制、检索机制和表达机制。分析机制完成系统对决策者需求的采集、分析及其与档案库信息的对应,在信息预处理阶段利用神经网络技术提取并生成用户个性化的目标特征信息;由于分布式共享档案信息平台在一定程度上已具备网络化特征,因此可以通过检索机制,利用基于本体的语义数据挖掘技术(OSDM)在档案数据库中爬取符合目标特征信息的档案内容,其中面向决策机关需求的过程包括对目标信息进行分词、语法句法分析、查询扩展与校正、根据决策需求查询语义向量抽取、检索及优化结果,并推理更新信息。

    如图2所示,分词仍属于自然语言预处理阶段,在保证词语组合完整性的同时,语法句法分析帮助数据库进一步理解决策者需求。通过数据库中的相关性、一致性推理,与之前所获得的目标特征信息比较并校正查询语言,在语义向量抽取阶段完成对查询语言的再分析,形成多个多维查询语言向量。在检索过程中将档案信息平台存储的数据与查询语言进行映射,搜寻对应的档案信息内容,并优化结果,比对关联度最大的信息呈现给决策者。

    OSDM的优势在于能够高度适应中文档案数据库特征,具备根据中文分词特点进行分析匹配的能力,而其难点在于目前不同单位、不同部门的档案数据库元数据标准不统一,致使在进行跨平台检索时可能出现遗漏信息、错检信息等情况,因此,在提高OSDM技术的同时必须跟进档案数据库的标准化建设和质量控制,增强互操作能力。

    这一阶段的最后一步是向决策机构提供信息,即表达机制。目前较为成熟的技术所能达到的是将与决策相关的信息以强相关和弱相关的形式显示,包括传统的文档优先排序显示和更为直观的可视化界面显示。此外,还有张斌等提出采用决策支持模块,经过推理算法为用户形成若干近似真实的决策方案并进行优劣排序[5],要实现从档案信息组织到形成决策方案,需进一步借助人工智能语言工具,可作为未来开发思路。

    2.2.3 管理系统。管理系统在内部的信息平台与外部的决策机关之间发挥着承接作用,其主要功能有三点:一是对新扫描、著录添加的档案信息进行一致性检验,确保不与档案数据库中已有的信息出现重复,对重复信息进行清理,对相交信息进行合成重组,对新信息进行添加;二是对专题档案数据库、档案信息共享平台和信息挖掘引擎进行维护,保护档案信息安全,清理纠正数据,确保整个平台的正常运转;三是对进入平台的用户规定系统内部细粒度权限,存储平台访问日志,保证档案信息平台的访问和浏览安全。后两项功能对于档案共享平台而言至关重要,信息安全是长期造成机关档案信息难以共享的重要原因之一,在利用过程中如何防止失泄密和档案信息损坏长期以来都是档案部门关注的重点问题,因此只有做好全过程保密安全防范,才有可能真正实现档案信息资源的深层次开发。

    2.2.4 与决策者的交互与反馈。构建智库型档案信息平台的根本目的在于为决策机构提供信息保障、辅助制订决策,除了首先要求充分理解决策需求以外,更为重要的是在整个过程中与决策机关交互检索结果,帮助信息挖掘引擎采取适当的推理策略不断发掘更符合需求的、更深层次的档案信息,实时处理推理过程中出现的错误信息,实时的人-机交互能够使检索引擎和管理系统熟知具体决策者的检索偏好,为进一步优化结果、优先排序个性化方案提供支持。此外,决策者的反馈评价对于改进档案信息平台的服务质量与效率也至关重要。

    3 发挥档案智库作用的相关条件

    3.1 制订并贯彻文档一体的规范标准。按照传统的文件区分方式,半现行文件多存于基层档案管理室,非现行文件才存入档案馆,但是档案馆有时也接收和存储部分半现行文件,因此单纯采取这一划分方法容易割裂档案与现实决策需求之间的关联,也会造成档案保存的数据标准不统一,影响现行文件、半现行文件与档案之间知识的横向交叉利用,不利于档案充分发挥自身作用。考虑到美国档案学者菲利普·布鲁克斯在1940年提出的“文件生命周期”理论,提倡从文件到档案全过程管理,认为文档一体化的关键在于要从档案的前端——文件产生开始就制订统一的标准规范,以保证整个文件管理过程的有效性和连续性[6],这将有助于档案作为文件的一种重要形式参与信息化管理活动,融入信息资源管理活动。

    为便于文件在归档后的分布式共享,需为文档一体制订统一的规范标准。目前,从世界范围来看,普遍采用的方法是在形成机关创建文件时,按照档案部门设计的文件分类编码表进行文件的命名,并建立起相应的《文件调查统计表》,以记录下文件承办和流转过程中的各种重要信息,使文件在归档后能够被准确判断出所蕴含的价值[7]。这一方法的优势在于,文件自产生之时即按照档案部门的创建、征集、鉴定、移交、保管、利用、处置等要求进行标准化管理,既满足分布式平台共享的数据条件,又支持根据现行文件进行档案信息挖掘,建立档案与决策活动的直接关联。

    3.2 提高档案信息管理技術的智能化水平。一是对档案信息密级和访问权限进行全过程动态管理。智库型档案信息平台的内容构成呈现动态性特征,以确定保管期限为主的管理模式过于简单,不能充分体现档案作为信息资源的复杂性和变化性,且不能很好地表示文件现行阶段的密级与档案使用期间的权限之间的关系,所以需要在人力鉴定的基础上制订更加详细的密级标准,并以此创建面向标准映射的密级动态更新算法以及基于角色的粗粒度访问权限控制,确保在库涉密档案信息能够在保密安全的情况下得到充分的共享利用。

    二是引入决策支持系统工具。决策支持系统是管理信息系统应用概念的深化,虽然不必承担该系统内模型库和方法库的完整功能,但是从半结构化和非结构化决策对象、垂直型组织结构和目标作用角度看,面向决策的军事智库型档案平台本质上仍然是数据库+数据挖掘+分析处理(DW+DM+OLAP)模型,可以认为是决策支持系统中的一种形式,因此引用多样化的数据交换模式和联机分析系统,能够使档案管理、分布式共享及信息挖掘机制更加灵活,具备辅助决策优势。

    参考文献:

    [1] 中共中央办公厅,国务院办公厅.关于加强和改进新形势下档案工作的意见[Z].2014-5-5.

    [2] 马爱华.美军档案工作新动向[J].解放军报,2004-9-15.

    [3] 曹礼园,李深洛.一个基于高内聚和低耦合的多数据库分类方法[J].计算机与数字工程,2016(7):1226.

    [4] 杨智勇,史晓杰.大数据时代数字档案馆的微服务研究[J].档案管理,2014(6):21.

    [5] 张斌,魏扣,郝琦.面向决策的档案知识库构建研究[J].图书情报工作, 2016(5):119.

    [6] 胡燕,文件和文件生命周期理论新探[J].档案学研究,2001(2):8.

    [7] 周胜利,美军档案工作发展的历史与趋势[J].军事历史研究,2012(3):154.

    (作者单位:中央军委装备发展部原档案馆 来稿日期:2018-06-25)