基于群体协同智能聚类的大数据存储系统设计

2022.07.21

刘先花
摘要：针对传统基于PSO聚类的大数据存储系统进行数据聚类时容易陷入局部最佳解，收敛效率低，数据存储性能差，设计一种基于群体协同智能聚类的大数据存储系统。基于群体协同智能聚类系统的层次结构，设计大数据存储系统的层次模型，并依据群体协同智能聚类的特征，设计大数据存储系统的体系结构。该系统采用的群体协同智能聚类方法在PSO算法中融入多种群协同进化的方案，避免出现局部最优解问题，将总体种群划分成多个子种群，各子种群独立进化，对共享信息实施周期性调控，获取最佳的数据聚类结果，提高数据聚类的效率和精度，增强大数据存储性能。實验结果说明所设计系统收敛性能高，并且具有较高的数据读写性能和分析性能。
关键词：群体协同；智能聚类；大数据；存储
中图分类号： TN911.1?34； TP391.72 文献标识码： A 文章编号： 1004?373X（2017）23?0130?04
Abstract： The traditional large data storage system based on PSO clustering is easy to fall into the local optimal solution for data clustering， and has low convergence efficiency and poor data storage performance. Therefore， a large data storage system based on swarm collaboration intelligent clustering was designed. On the basis of the hierarchical structure of the swarm collaboration intelligent clustering system， the hierarchical model of the large data storage system was designed. According to the features of the swarm collaboration intelligent clustering， the system architecture of the large data storage system was designed. The swarm collaboration intelligent clustering method is used in the system to fuse the multi?population coevolution scheme into PSO algorithm to avoid the local optimal solution problem. The total populations are divided into several sub populations. Each sub?population is evolved independently to perform the periodic regulation for the shared information， get the best data clustering result， improve the efficiency and accuracy of data clustering， and enhance the large data storage performance. The experimental results show that the designed system has high convergence performance， high data read and write performance， and perfect analysis performance.
Keywords： swarm collaboration； intelligent clustering； large data； storage
0 引言
随着计算机网络和数据库技术的快速发展，当前社会的信息化进程逐渐加快，管理人员需要对海量信息实施决策。大数据存储系统是基于数据分析辅助决策的策略。聚类是分析数据并从中采集有价值信息的合理方案，通过聚类能够获取全局的分布模式和数据属性间有价值的关系，是一种重要的数据挖掘方法[1]。而传统基于PSO聚类的大数据存储系统进行数据聚类时容易陷入局部最佳解，收敛效率低，数据存储性能差。群体智能是一种高性能的计算机技术，具备生物系统高效的操作方案和特征，能够有效处理大数据的全局优化问题。因此，本文设计基于群体协同智能聚类的大数据存储系统，增强数据的存储质量。
1 群体协同智能聚类的大数据存储系统
1.1 群体协同智能聚类系统的层次模型
基于层次模型，将群体协同智能聚类系统划分成应用层、任务层、功能层以及物理层[2]。通过4种方法实现四个层次，分别是应用层的控制论方法、任务层的任务框架法、功能层的模型集成法以及物理层的GDISS描述语言法。
应用层用于描述问题求解活动在群体协同智能聚类系统中的语义描述，对系统的环境、问题以及用户解决问题的过程实施描述。应用层可描述成：应用层=<，，，>。
任务层在计算机中实现对应用层的描述，其可描述成：任务层=<，>。
功能层是实现任务层的支撑结构，由相应的功能软件构成。采用模型集成法实现功能层，该方法中的复合模型由简单子模型构成，为群体协同智能聚类系统的实现提供模型[3]。
物理层用于描述群体协同智能聚类系统的计算机应用实现，对功能层的实现实施支撑。
1.2 大数据存储系统的层次模型
大数据存储系统是群体协同智能聚类系统的关键部分，塑造数据存储系统前需要明确用户需求，再采用语义层将业务问题映射成不同类型的分析模型以及挖掘模型，并通过系统内的数据得到最终的解[4]。本文基于层次模型法和群体协同智能聚类系统的层次模型，将大数据存储系统划分成应用层、功能层、语义层、设计层以及数据层，具体结构如图1所示。
（1）应用层是大数据存储系统的顶层，是群体协同智能聚类系统的应用层以及任务层在大数据存储系统部件中的映射，可以进行问题的描述、划分以及任务的分配[5]。问题的描述以及划分可得到合理的求解策略，任务划分是得到不同决策人员需要处理的问题。该层中的关键成员是用户和问题。
（2）功能層是实现应用层的支撑结构，包括相关的功能软件。其对应于群体协同智能聚类系统功能层内的相关功能，从大数据存储系统中采集有价值的数据，并且对数据进行发行，确保用户实现数据的高效访问[6]。其是数据在数据存储系统中同用户工具间进行交互的桥梁。
（3）语义层是一种语义转换过程，实现设计层的数据模型到功能层的业务转换，将设计层的数据模型采用用户可理解的业务术语进行描述。群体协同智能聚类系统中的成员基于语义层中的语义转换功能，对相关功能实施处理时，可采用常用的手段对底层数据模型实施处理。
（4）设计层基于用户需求，采用信息包图设置主题内容以及关键检测指标间的关系，通过数据模型的可视化描述塑造便于检索的星形图，实时响应大数据系统用户的检索需求，基于数据和实体间的关联性，塑造属性化的数据模型，确保其可对信息包进行全面和细微的描述。
（5）数据层基于商务要求，通过系统控制事件的模式对数据实施组织。数据层对大数据存储系统中的源数据进行访问，实现源数据的提取、汇总等操作，其存储被设计成可支持查询的关系数据库结构。
1.3 大数据存储系统的体系结构
设计的基于群体协同智能聚类的大数据存储系统体系结构如图2所示。
图2描述的体系结构定义了大数据存储系统中的数据仓库服务器、数据接口标准、语义变换方案、数据存储系统接口、ETL以及应用服务器等内容。其中，数据存储系统接口、应用服务器以及数据仓库服务器都采用数据存储系统运行规范实现数据的互通。ETL可采集不同类型数据源的外部以及内部数据进入数据存储仓库。系统用户采用数据存储系统接口同数据存储系统进行互动，数据存储系统接口由数据挖掘应用、语义变换方法、Web展示等应用接口构成。
2 群体协同的智能聚类方法
传统PSO聚类算法在进化时，容易出现局部最佳解问题，使得算法过早终止，不能继续进化，算法收敛性能大大降低。为了提高海量数据的聚类效率，本文设计的大数据存储系统采用群体协同智能聚类方法在PSO算法中融入多种群协同进化的方案，避免出现局部最优解问题[7]，其将总体种群划分成多个子种群，各子种群独立进化，对共享信息实施周期性调控。
将协同进化思想融入粒子群算法内，协同进化将解空间内的群体分割成多个子群体，各子群体用于描述求解问题的子目标，各个体用于描述求解问题的一个解，全部子群体在对应的解区域实施独立的局部检索，相隔一段周期将检索到的局部最佳解当成可在差异子种群间传输的共享信息。
群体协同智能聚类方法是一种群体协同进化的PSO算法，其将粒子数为[N]的种群划分成[M]个子种群，各子种群采用规范的PSO算法实施局部检索，在检索时持续调整子种群内部粒子的效率以及位置。如果进化到第[R]（修正周期）代，则第一个子种群会获取局部最佳解[Pg1，]并将该解传递给第二个子种群，用[Pg1]更新第二个子种群内具有最低适应度函数的粒子，此时第二个子种群实施[R]周期的进化，获取的局部最佳解是[Pg2。]再向第三个子种群传递[Pg2，]循环运行上述过程。最终一个子种群向首个子种群传递[PgM。]每次迭代之前将即刻最佳位置反馈给后续子种群过程中，应对即刻的局部最佳解[Pgi（i=1，2，…，M）]是否符合精度需求进行分析，如果符合则终止进化，否则继续进化[8]。各子种群的间隔是[R]代，相邻种群间可进行信息交互，循环进化，直至算法停止，具体过程如图3所示。
进化达到修正周期[R]时，前各子种群向后续子种群反馈即刻的局部最佳解，后续子种群基于共享信息实施进化，确保各子种群中的粒子处于最优解位置，增强算法的收敛效率。该群体协同智能聚类方法可确保各子种群同不同子种群间基于少量的局部信息完成交互[9]，实现解区域中某个子区域的检索，运算代价小，并且子种群间的粒子变换能够完成远距离的信息共享。
3 实验结果和分析
实验检测数据集是Iris，实验分别采用基于PSO聚类算法的大数据存储系统和本文设计的基于群体协同智能聚类的大数据存储系统对Iris数据集实施检测，分析两种系统进行大数据存储时的性能优劣。
3.1 系统收敛性能的对比
在相同的实验环境中，惯性权重[ω]随迭代次数的提升而线性降低，原始值是1.0，线性降低到0.6，最高的降低速度[Vmax=0.4]，实验分别采用本文系统和PSO存储系统对Iris数据库内的1 000组数据实施聚类，获取两个系统随迭代次数提升的收敛性能对比曲线，如图4所示。
从图4中能够得出，达到相同的聚类效果时，本文系统的收敛度最高，而PSO系统的收敛度低于本文系统，并且其适应度函数未达到最高值，聚类质量较差。
3.2 系统读写性能分析
大数据存储系统的存储速度是用户考虑的重点，实验对本文大数据存储系统和基于PSO聚类算法的大数据存储系统的读写性能进行检测，结果如图5和图6所示。能够看出，本文系统写入数据时的吞吐率和响应时间都优于PSO存储系统，主要是因为传统PSO聚类算法存在容易陷入局部最佳解问题，对数据的写入效率较低。而本文存储系统采用的群体协同智能聚类算法融入多种群协同进化的方案，避免出现局部最优解问题，具有较高的收敛效率，能够实现大数据的高效率写入操作。
3.3 系统数据分析性能检测
为了检测不同大数据存储系统对数据的分析性能，实验面向MapReduce程序中的数据进行分析，分别检测本文系统和PSO系统对10列数据和20列数据在7 000万条数据中进行数据分析的情况，数据量级在100 GB左右，结果分别如图7和图8所示。能够看出，随着数据量级的逐渐增加，相对于PSO系统，本文系统下的程序运行时间更低，说明本文系统可对数据进行有效处理，具有较高的数据分析性能。
4 结论
本文设计了基于群体协同智能聚类的大数据存储系统，实验结果说明，所设计系统收敛性能高，并且具有较高的数据读写性能和分析性能，为增强大数据存储的质量和效率提供了保障。
参考文献
[1] 钱晓东，曹阳.基于社区极大类发现的大数据并行聚类算法[J].南京理工大学学报（自然科学版），2016，40（1）：117?123.
[2] 崔建华.大数据环境下云存储数据安全探析[J].信息安全与技术，2015，6（5）：31?33.
[3] 赵伟，周建辉.基于模糊C均值聚类算法的音乐喷泉智能识别[J].控制工程，2015，22（6）：1057?1062.
[4] 李甜甜，王智，宋杰.大数据存储系统中负载均衡的数据迁移算法[J].中兴通讯技术，2016，22（2）：28?32.
[5] 杨文晖，李国强，苗放.面向海量空间数据存储的元数据管理机制[J].计算机应用，2015，35（5）：1276?1279.
[6] 武霞，董增寿，孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报，2015，36（2）：92?96.
[7] 康杰华，罗章璇.基于图形数据库Neo4j的RDF数据存储研究[J].信息技术，2015（6）：115?117.
[8] 冷泳林，申华，鲁富宇.基于P?Rank的RDF有向图的分布式存储[J].重庆理工大学学报（自然科学版），2015，29（1）：91?95.
[9] 杨锡慧，林鹏，周国强.基于灰色关联度聚类的协同过滤推荐算法[J].软件导刊，2015，14（10）：29?34.