基于舆情数据的档案信息跨维度收集与分类研究

2022.10.10

冉朝霞

摘? 要：当前档案管理人员的互联网舆情档案信息收集、分类和有效处理能力都存在一些问题，应着力提升档案管理人员对互联网舆情档案信息的跨维度收集和分类能力，准确把握互联网舆情的内在特征及其演进过程中的潜在规律，实现对互联网舆情档案信息管理在技术和模式上的创新。

关键词：突发事件;网络舆情;多维信息;档案收集;档案分类

网络舆情数据是社会组织或个人在社会实践活动中直接形成的文字、图像、视频等多媒体数字信息，是对以往社会活动的清晰、确定的原始记录，具有鲜明的原始记录性，这与档案的本质特性是相同的，决定了网络舆情数据信息的档案属性。

1 舆情数据档案信息跨维度收集是档案管理工作的技术保障

1.1 舆情数据收集是档案信息收集的基础。当前，互联网舆情数据收集系统主要包含三种数据收集技术：人工收集、搜索引擎收集和第三方互联网机构定向收集。

人工收集是指通过人工浏览网络平台，如门户网站、博客、论坛、贴吧等，跟踪敏感问题，通过人工监测获取有价值的数据和信息，经汇总、分析后观察社会舆论走势。人工收集是當前档案管理人员较常用的舆情数据档案信息收集方式之一。

搜索引擎收集按其工作方式主要可分为三种，分别是全文搜索引擎收集、目录索引类搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360搜索、谷歌搜索和百度搜索。以百度搜索为例，据CNNIC发布的《2018年中国网民搜索行为研究报告》显示：百度日均搜索量超过50亿人次，截至2018年12月，搜索引擎是中国网民的最基础应用，百度搜索渗透率为97.4%，使用率略逊于即时通信。档案管理人员利用搜索引擎通过预先设定好的关键词，可以得到相对准确的舆情信息，对敏感舆情信息及时抓取，分类保存舆情数据，时刻监视舆情数据的动态变化。

人工收集和搜索引擎收集是当前比较常用的互联网舆情收集技术，但是这两种收集方式的缺点是可提取关键信息的文本内容都比较短，容易因为数据稀疏导致在做相关运算时出现准确率和推荐召回率不高的状况。克服这一技术难题的方法借助第三方互联网舆情机构定向采集，通过对核心词的外拓实现了准确率和推荐召回率的同步提升。

第三方互联网舆情监测机构定向收集是指依托定向搜索和网络爬虫技术对web文本进行核心词抓取、主题词过滤、敏感词检测等技术，实现对网络舆情的分类汇总。网络爬虫（Web Spider）是一段代码或者一个小程序，它可以像蜘蛛在蜘蛛网上爬行一样自动采集网站上的数据。Web Spider不但能为搜索引擎采集数据信息，亦可作为定向信息采集器，对某些网站下的特定信息进行定向采集。第三方社会舆情监测机构定向收集拥有较为专业的数据监测和分类系统，可指定某个目标网站进行监测，定向抽取目标网站最新主题帖内容或某个主题帖的所有回复帖的内容;亦可不指定目标网站对全部网站进行监测，既可以对国内网站进行监测，也可以对国外网站BBC、Facebook、CNN和Twitter等进行监测。

目前，技术比较成熟的国内第三方互联网舆情专业监测机构有人民网舆情监测室、中正舆情研究中心和中青舆情在线等。以人民网舆情监测室为例，可以全天候监测百度贴吧、强国论坛、西祠社区、新浪论坛、新华网、搜狐社区、网易社区、凤凰网、天涯社区以及用户指定的其他动态网站，可以为档案管理人员提供及时、准确和有针对性的舆情数据档案信息收集服务功能。

1.2 舆情数据预处理是档案信息收集的前提。当前，舆情档案信息数据预处理常用的技术手段有三种：

第一，对文本进行预处理。文本预处理是对通过舆情采集器收集的未加工的 Web网页进行初步处理，再对经初步处理过的网页文本进行发现话题和数字建模，文本预处理最重要的环节是进行特征选择和中文分词。中文分词对命名实体进行识别，采用 ICTCLAS 系统对所获语料标注词性和进行中文分词，基于词频提炼出web模型的特征向量对中文分词后的文本语料库进行向量化分析。分词技术是针对提交查询的关键词串进行处理，将收集到的网页文本内容转化为结构化向量。

第二，对话题进行检测。对文本经过预处理后的文本语料库形成了扩展空间向量模型VSM向量集。利用 VSM 各向量间的相似度，对文本进行话题检测和聚类，对文本内容分析的深度决定了聚类技术的效果，聚类技术的功能在于挖掘热点话题。一般情况下，可提取关键信息的文本内容都比较短，容易因为数据稀疏导致在做相关运算时出现准确率和推荐召回率难以权衡的状况。克服这一技术难题的方法就是引入词扩展技术，通过对核心词的外拓实现准确率和推荐召回率的同步提升。词扩展技术是指利用特定算法对原始文本向量进行处理，使原始数据中的邻近对象形成核心明确、分布较为离散且粒度小的话题集合，将话题集合进一步划分为多个“微簇”，利用特定算法，对“微簇”进行二次聚类，用满足一定的阈值要求、质量较高的核心对象代表“微簇”。

第三，利用话题综合评价标准对话题进行过滤。运用语义识别技术，对之前采集的数据信息进行更深一步的过滤识别，通过对数据信息中句子的结构、语法及部分关键词的词义进行过滤处理，从而将信息转化为人们常用的语言，将大量复杂的信息简单化。从进行过聚类、过滤处理后的文本中提取中心词，将分析后的中心词进行组合，通过结构化分析获取中心词组，计算中心词组所涉及的文本数量，运算模块根据文本参数进行加权计算，统计热门关键词组的文本数量，获取热门关键词组的热度值。

2 舆情数据档案信息科学分类是档案管理工作的重要内容

互联网舆情数据档案信息分类有两种：一是即时分类，即时分类是在舆情的具体处理过程中，档案管理人员根据舆情的具体内容呈现以及运行的情况，对舆情产生的原因和舆情产生的核心群体进行分析，着重对特定舆情的演进及应对进行分析预判。通过发现话题，捕捉受众情绪特点，关注话语分布时空特征，揭示舆情演变规律。二是深度分类，深度分类是在舆情处理完成后，档案管理人员依据舆情发展的结构性特点，挖掘出新的、深层次的热点话题，跟进媒体报道，追踪敏感事件，并通过IP定位发现受众的空间分布及传播路径，建立事件识别模式，监测热点话题，发现突发事件特征、规律，提取、分析与公众利益密切相关的部分，为互联网舆情数据档案信息入库提供科学的分类依据。

2.1 互联网舆情档案信息的定点分类。一般情况下，危及社会稳定的舆情可能包含以下几种形式：段子、谣言、社会思潮、理论争鸣、示威游行或群体聚集产生的舆情等，舆情监测系统须及时搜集这些舆情形式和信息，快速做出及时恰当的反应。档案管理人员利用智能搜索软件在对定点微博、微信、论坛、贴吧和重点网站等实行24小时不间断监控的基础上，通过预先设置好的关键词，对敏感信息和少数有影响力的意见领袖的言论进行定点抓取，并对收集到的社会舆情数据进行分类保存，持续观察舆情数据的动态变化。“突发性群体事件中的网络舆情往往开始于网络中某位网友的爆料，抑或是媒体的报道，这些原始性信息会在公众脑海中形成首因效应，并通过微博、博客等形式构造信息链条。”[1]

2.2 互联网舆情档案信息的定向分类。档案管理人员对互联网舆论要进行定向的有针对性的分析，判断出哪些意见和观点会自生自灭、自然消解，哪些意见和观点会演进成重大舆情危机。档案管理人员需要根据定向分析分类的结果和网络舆情的瞬时变化做出舆情走势预判，从情绪层面走向意见层面，再从意见层面走向行动层面。“趋势与定向判断是网络舆情分析与分类的核心，是应对与引导的依据，根据汇总到的舆情信息，通过系统的分析，做出关于舆情发展趋势与走向的基本判断，这一判断主要是在定量基础上得出的定向判断。”[2]

在网络舆情的定向分析分类工作中，必须时刻警惕新要素的加入，这些作为行为主体的新要素一般都具有一定的影响力，档案管理人员通过对新要素的话语结构和信息资源的再分配成为舆论场的行为主体，通过与公众的互动获得社会资本并将其转化为注意力资源，在事态发展的关键节点实现对舆论格局的影响，左右舆情走向。社会舆情的定向分类“有助于判断突发性群体事件相关舆情的意见倾向，对网民意见和网络舆论的形成过程进行进一步分析，通过梳理，整理出网民对舆情事件的主体态度和总体倾向”。[3]

2.3 互联网舆情档案信息的定量分类。从宏观到微观是一种研究事物的方法，档案管理人员要具备用定量分析的方法对定性描述进行度量，可以在微观层次上展现互联网舆情的变化，在更小的粒度上对互联网舆情进行定量评价，发现舆情的演化规律。

档案管理人员要从制度建设到日常运作层面切实回应民众需求，在进行互联网舆情定量分类时，档案管理人员要重视微博和微信的转载量和跟帖数量，因为突发性群体事件中微博和微信的转载量和跟帖数量是互联网舆情事件能否引起廣大网民关注的显性指标，是网民意见的最直接表现。

2.4 互联网舆情档案信息的定性分类。突发事件发生以后，人们获知的相关信息并不一定是事件本身的真实信息，档案管理人员首先要对事件真伪做定性判断，一般来讲舆论具有基于事实并且相对于事实本身的独立性，舆情在传播过程中，信息往往会发生变异，因此对事件真伪的判断是进行舆情定性分类的第一步。“人们认知这一世界往往通过多样的、情景化的、理性与感性并存的方式，在抓取这些复杂的情感、价值、信仰以及意见时，大数据技术仍有其弱点。”[4]网络舆情的定性分析与分类应尽快寻找有力证据，厘清事实和谣言边界，杜绝舆情的外溢和偏离。

3 加强互联网舆情数据档案信息跨维度动态管理

3.1 构建互联网舆情数据档案信息管理跨维度互动模式。档案管理人员应将互联网舆情大数据档案管理与互联网内容治理相结合，让数据流显现关联;将互联网舆情大数据档案管理与政府科学决策相结合，让信息流畅通无阻;将互联网舆情大数据档案管理和舆情日常管理相结合，让舆情流和谐运转。

3.2 构建互联网舆情数据档案信息多元管理模式。传统档案管理结构模式中公众的参与度比较低。大数据时代为舆论的快速形成和公众对公共事务话语权的表达提供了讨论空间，由单一主体治理变为多元主体治理，多元主体治理的基本结构体现了混合的特点，多元主体治理的边界与范围不是简单的信息关联和多元混合。互联网和大数据技术拓宽了档案管理的内容，改变了档案管理人员和民众的连接与互动方式，因此需要寻求一种新的档案管理模型和良性互动的连接机制来消解传统档案管理成长的困境。

3.3 构建互联网舆情数据档案信息管理回应指标体系。警惕舆情动态在复杂的演进过程中出现的不和谐因素，准确界定舆情等级，通过级别划分、舆情聚类、有效处置和事后评估构建舆情回应的指标体系，通过行为干预及早进行有效处置，汇编典型事件档案库。互联网舆情集中反映了当前热点，聚焦了矛盾和冲突，暴露了隐匿于风暴漩涡中的滥觞，档案管理人员应从追问事实到反思制度，从线上舆论和线下互动的有效对接到挖掘方法和社会洞察的有效结合，构建互联网舆情档案管理回应指标体系，改进和完善档案管理中的制度性、结构性问题。

参考文献：

[1]王玉琼，胡娟.突发性群体性事件管理问题探讨[J].管理学杂志，2017，26 （5）：42 - 44.

[2]梁雪云.网络舆情的分析与分类机制研究[J].今传媒杂志，2016，5：16-17.

[3]姜鑫.收集、判断与沟通：突发性群体事件的网络舆情研究[J].学术交流杂志2018，7：202-207.

[4]KITCHIN R.Big data and human geography： Opportunities， challenges and risks[J].Dialogues in Human Geography，2017， 3（3）：262-267.

（作者单位：中共郑州市委党校公共管理教研部? 来稿日期：2019-07-14）