Gephi的社交网络消息可视化分析系统的设计与实现

宁跃飞+李艳萍



摘 要: 传统基于遗传算法布局无向图方法塑造的社交网络消息可视化系统不适合大规模社交网络消息的可视化,存在运行时间长以及显示效果粗糙等问题。针对该问题,设计并实现了基于Gephi的社交网络消息可视化系统,其由显示层、业务逻辑层以及数据支撑层构成,该系统可呈现出社交网络消息的路径传播以及系统的可视化布局。详细介绍了系统实现社交网络消息可视化的工作流程。网络工具Gephi分别采用基于时间序列以及树状排列的算法,对相似消息以及具有明确用户转发关系的消息进行排序,对经过排序后的消息采用Gephi的文件格式gexf进行写入保存操作,生成社交网络消息的传播路径图。实验结果说明该系统具有较低的时间复杂度、对社交网络的布局效果更佳,可视化性能强。
关键词: Gephi; 社交网络; 消息可视化; 传播路径
中图分类号: TN711?34; TP391.1 文献标识码: A 文章编号: 1004?373X(2017)17?0183?04
Design and implementation of Gephi?based information visualization
analysis system for social network
NING Yuefei, LI Yanping
(Zhengzhou Shengda University of Economics, Business and Management, Zhengzhou 450000, China)
Abstract: The social network′s information visualization system constructed with traditional undirected graph method based on genetic algorithm is unsuitable for information visualization of large?scale social network, and has problems of long running time and rough display effect. In order to solve the above problems, a Gephi?based information visualization system of social network was designed and implemented. The system is composed of display layer, business logic layer and data support layer, and can present the information propagation path of the social network and visualization layout of the system. The work flow of social network information visualization realized with the system is introduced in detail. The algorithms based on time series and arborescence sorting are used in network tool Gephi respectively to sort the similar information and information with explicit user forwarding relation. The sorted information is written and saved with file format gexf of Gephi to generate the information propagation path diagram of social network. The experimental results show that the system has low time complexity, perfect layout effect of social network, and strong visualization performance.
Keywords: Gephi; social network; message visualization; propagation path
隨着科学技术的发展,社交网络平台在人们的生产和生活中具有广泛的应用价值,社交网络平台使得网络舆论高速传播,网络中的数据量呈现爆炸式增长[1]。对社交网络中的海量数据进行分析和可视化,能够将抽象的数据变换成人们更易理解和观测的图形,形象描述出数据内的信息,实现舆论信息的有效监控[2]。传统基于遗传算法布局无向图方法塑造的社交网络消息可视化系统不适合大规模社交网络消息的可视化,存在运行时间长以及显示效果粗糙等问题[3]。因此设计更加准确、高效的社交网络消息可视化分析系统具有重要的应用意义。
1 Gephi的社交网络消息可视化分析系统
1.1 系统逻辑层结构
本文设计的可视化系统由显示层、业务逻辑层以及数据支撑层构成,如图1所示。
(1) 显示层为用户提供了可交互的界面,确保用户在界面上设置需要呈现的数据和待检索的文字信息,并向用户呈现结果信息、文本检索信息排列情况以及社团状态等。
(2) 业务逻辑层用于对显示层反馈的用户需求进行操作,将操作后的数据以及图形信息再反馈到显示层。业务逻辑层由数据爬取模块、数据操作模块、文本向量化模块以及可视化模块构成[4]。其中的数据爬取模块设计在新浪微博API中的网络爬虫可按照显示层设定的爬取需求完成社交网络信息的采集。数据处理模块将爬取的数据变换成后续需要处理的格式化数据[5],通过MapReduce和Oozie协同进行用户间行为的采集、用户关系数据的加权以及用户微博数据格式化等处理。社团划分模块采用不同的社团划分方法,将获取的用户关系加权数据进行社团划分,存储获取的社团信息。文本向量化模块将社团的微博文本信息和显示层反馈的检索文件变换成向量,运算获取社团信息同检索文本的同类度,将完成排序的结果反馈给后续模块。可视化模块采用Gephi工具,基于获取的社团信息以及用户关系,获取社交网络消息的路径传播图[6],通过显示层呈现系统可视化布局图。
(3) 数据支撑层实现系统中数据爬取模块获取的数据,以及其他不同模块间中间数据的分布式存储。
1.2 系统的工作流程
基于Gephi的社交网络消息可视化分析系统的运行流程图如图2所示。
图2描述的系统详细工作流程如下:
(1) 若客户需要的社交网络可视化消息数据不存在,则进行爬取。通过爬取模块,按照显示层内设置的种子文件路径以及爬取方案完成爬取,基于爬取数据的大小,用户按照显示层内的“目标路径”选择路径存储到相应的区域。
(2) 爬取获取的数据需要进行格式化操作,实现用户间关系数据、用户微博数据等的格式化输出,并将输出数据存储到用户目标路径。
(3) 若用户所需的可视化数据已经存在,则直接运行社团划分模块,用户选择进行社团划分以及相应的划分方法,将显示层中的信息传播路径存储到本机中。
(4) 若检索框中存在数据,应进行可视化信息的呈现,同时运行文本信息向量化以及可视化布局[7]。向量化时先检测是否存在完成向量化的社团数据,若存在则运行下一步,否则对社团数据进行向量化处理。
(5) 对检索文本框内的数据进行向量化处理,采用MapReduce分布式运算获取检索文本相似运算结果,将结果反馈给显示层。
(6) 按照显示层设置的可视化方法,采用Gephi工具获取社交网络消息的路径传播图,并将结果反馈给显示层。
(7) 显示层依据获取的网络信息传播路径和相似度排序进行绘图,完成社交网络结构的布局。
2 Gephi的社交网络消息传播路径塑造
设计的社交网络消息可视化分析系统采用复杂网络工具Gephi对社交网络信息进行消息转发分析,分析社交网络消息的传播路径。社交网络中相同以及相似的消息会被不同用户发送,能够推测出用户间存在的官方转发关系以及非官方转发关系[8]。社交网络中不存在明确转发关系的相似消息可依据时间序列进行排序,而存在转发关系的消息可通过排序算法进行排序,对排序后的节点集通过gexf图文件进行排序展示,获取社交网络消息的路径传播图。
为了对社交网络节点进行排序,需要收集指定的4个数据表中的数据,再面向官方转发消息和相似性消息设计排序算法,分别对用户节点进行树状排序和时间序列排序[9]。Gephi基于上述4种数据表,采集其中的社交网络用户转发关系,汇总时间序列,规划排序算法,生成gexf格式的网络数据,呈现社交网络消息传播路径,发现消息源头。
使用Gephi可高效率渲染社交网络用户间的关系,及用户间话语叠加相似度。Gephi中含有较多的简单程序嵌套,可将Gephi的功能融入系统的应用程序内。Gephi为数据显示设置了较多的数据格式[10],系统将排序好的数据节点依据Gephi设置的gexf数据格式存储,如图3所示,其导出的简单转发图中存在两个节点,分别描述用户名mynte 以及ccpout,分析图中箭头能够得出,用户ccpout转发了用户mynte的消息。
Gephi将社交网络消息传递关系划分成官方转发关系的传递关系以及依据时间序列的传递关系,通过浅灰色渲染官方转发消息传播路径,深灰色渲染依据时间序列的传播路径。Gephi分别采用基于时间序列以及树状排列的算法对相似消息以及具有确定用户转发关系的消息进行排序,将完成排序的节点信息以及边信息分别存储到对应的gexf图文件中,生成的gexf社交网络消息路径传播图由官方转发的消息路径传播图和依据时间序列的路径传播图构成。
分析基于Gephi产生的社交网络消息路径传播图,可总结出不同结构的路径传播图。基于官方转发消息的路径传播图主要包括两层树状转发结构、自转发结构、多层树状转发结构、树干转发结构以及环形转发结构。其中两层树状结构的转发路径图如图4所示,能够看出发送消息的源头是soswga用户,其具有大量的粉丝,这些粉丝都转发了源头用户的消息。依据时间序列的消息传播图如图5所示,其中的消息都是相似的,这些消息基于时间序列完成转发。
3 实验结果与分析
实验从时间复杂度、图布局效果以及可视化性能三个方面检测本文方法的性能。实验采用的数据集都是爬虫从新浪微博中爬取到的数据集。
3.1 时间复杂度测试
实验统计出本文方法和基于遗传算法布局无向图方法进行社交网络消息可视化过程中的时间复杂度,结果如图6所示。
分析图6可得,随着社交网络消息量的增加,两种方法的运行时间都不断提升,本文方法的时间复杂度低于基于遗传算法布局无向图方法,说明本文方法对海量社交网络消息的可视化分析效率较高。
3.2 图布局效果测试
两种方法在实验社交网络消息集中进行可视化呈现,两种方法获取的社交网络消息可视化布局图如图7所示。
從图7中可明显看出,相对于基于遗传算法布局无向图方法,本文方法可以更好地呈现出图像结构以及用户间的转发关系,准确呈现出社交网络的特征。
3.3 可视化性能测试
实验对两种方法从社交网络中获取数据后,从数据处理到可视化布局过程中系统的准确率进行检测,结果见表1。
分析表1可以看出,本文方法的准确率高于基于遗传算法布局无向图方法,并且不受社交网络消息量的干扰,始终保持较高的准确度。说明本文可准确挖掘社交网络中内部成员间的关系以及其中的关键人物,具有较高的可视化性能。
4 结 语
本文设计并实现了基于Gephi的社交网络消息可视化分析系统。实验结果说明该系统具有较低的时间复杂度,对社交网络的布局效果更佳,可视化性能强。
参考文献
[1] 陈召群,车向前,谷源涛.基于谱聚类的大规模社交网络可视化方法研究[J].计算机仿真,2015,32(9):318?322.
[2] 于蕾,吴强.一个基于社区相似度分析的物流网络优化算法[J].现代电子技术,2016,39(6):45?48.
[3] 刘辉.基于随机游走算法的社交网络构建[J].湖北成人教育学院学报,2014,20(1):11?12.
[4] 周碧,段富.免疫细胞因子网络模型设计与仿真研究[J].现代电子技术,2016,39(8):21?25.
[5] 贺超波,汤庸,麦辉强,等.在线社交网络挖掘综述[J].武汉大学学报(理学版),2014,60(3):189?200.
[6] 郑健,冯亚娟,郭伟.基于贝叶斯网络的大学生考研动机影响因素[J].西安工程大学学报,2015,29(6):780?784.
[7] 萧海东,陈宁.移动社交信息智能态势感知分析[J].中国科学:信息科学,2015,45(6):783?795.
[8] 李绪,曹磊,付磊.社交网络数据个性化推荐的可视化方法[J].计算机工程,2014,40(3):46?50.
[9] 胡蓉.混合信息可视化研究:以实时网络攻击可视化设计案例为例[J].情报理论与实践,2015,38(11):103?107.
[10] 姚士成,刘学锋,毛建华,等.基于传感网的传感器感知信息可视化系统设计[J].电子测量技术,2015,38(1):95?99.