基于分布式数据流的网络处理器数据收集分类平台

2022.05.08

段汝林林德丰

关键词：分布式数据流; 网络处理器; 数据收集; 数据分类; 分类平台; 特征更新
中圖分类号： TN711?34; TP274+.2 ? ? ? ? ? ? ?文献标识码： A ? ? ? ? ? ? ? ? ? ?文章编号： 1004?373X（2019）04?0117?04
Network processor data acquisition and classification platform
based on distributed data streams
DUAN Rulin1，2， LIN Defeng1
（1. School of Education Information Technology， South China Normal University， Guangzhou 510631， China;
2. Department of Computer Engineering， Guangdong Youth Vocational College， Guangzhou 510545， China）
Abstract： The accurate data classifier is not constructed when the adaptive distributed data stream processing and adjustment technology is used for acquisition and classification of distributed data， resulting in classification accuracy deviation. Therefore， a network processor data acquisition and classification platform based on distributed data streams is designed. The overall architecture of the designed platform includes the platform management layer， distributed data acquisition layer and distributed data classification layer. The network processor receives the distributed data streams by means of the network switch port. The transformers and PHYs are adopted to process the obtained data， and interact with the master control chip FPGA， so as to save the data and realize collection of distributed data streams. The distributed data stream classification process realized in the network processor includes the training phase and the testing phase. During the training phase， the update rules of distributed data streams are used to complete the data feature selection. During the testing phase， the classification feature update of distributed data streams is conducted， and screening of the feature data with high correlation degrees is conducted， so as to realize classification of distributed data streams. The experimental results show that the designed platform has an average classification accuracy of as high as 99.5%， a short time?consumption， and small memory usage.
Keywords： distributed data stream; network processor; data acquisition; data classification; classification platform; feature update
随着大数据时代的到来，计算机网络不断更新、分布式计算机技术日新月异，使得数据流分布在不同的网络节点上[1]，因此，网络处理器如何实现分布式数据流高效、全面、准确的收集与分类成为重点研究的问题。文献[2]中，采用基于Web数据的自动采集与分类系统对网络信息进行收集与分类，能够实现集中式数据流的有效采集与分类，但面对分布式数据流的采集与分类性能较弱。文献[3]采用自适应的分布式数据流处理调整技术对网络处理器中的分布式数据流进行收集与分类，能够根据具体的数据分布状况进行数据采集，缺点是未构建精准的数据分类器，导致分类精度有所偏差。文献[4]描述的是一种面向分布式数据流的闭频繁模式挖掘方法，能够有效挖掘分布式数据流的特征并实施准确分类，但在分布式数据流采集阶段，仅对分布式数据库进行一次扫描，采集到的数据不全面。针对上述问题，本文设计基于分布式数据流的网络处理器数据收集分类平台，实现网络中分布式数据流高效、准确收集与分类。
1 ?网络处理器数据收集分类平台
1.1 ?基于分布式数据流的网络处理器平台总体架构
图1为网络处理器数据收集分类平台的总体架构，主要包括平台管理层、分布式数据收集层、分布式数据分类层[5]。平台管理层主要是对分布式数据流、Web方式、SNMP方式进行管理，与分布式数据收集层连接，为分布式数据流的收集提供基础;分布式数据分类层与分布式数据收集层可通过数据转发适配层的接口进行连接，分布式数据收集层采集的分布式数据流信息被传输到分布式数据分类层，根据相关标准进行数据分类。

1.2 ?基于分布式数据流的网络处理器数据收集
网络处理器中分布式数据流的收集，主要采用与网络交换机的随机端口连接的方式收集数据信息，网络处理器中的数据收集器对获取的数据进行处理[6]，确保收集到的数据完整保存。
网络处理器中分布式数据流采集架构如图2所示。图2中，网络处理器通过A1接口、A2接口接收网络中分布式数据流，数据收集器的变压器、PHY会对收集到的数据进行处理，然后与主控芯片FPGA进行交互。经过数据收集器处理后的分布式数据，从A3接口经过以太网交换机被完整地传输到记录设备中，实现分布式数据流的收集。

1.3 ?基于分布式数据流的网络处理器数据分类
网络处理器分布式数据流分类的主要过程为训练阶段与测试阶段。训练阶段主要进行分布式数据流的训练、对其进行特征选择[7];测试阶段主要进行分布式数据流特征选择、对关联度较大的特征数据进行筛选，实现分布式数据流的分类。
在分布式数据流训练阶段，网络处理器对分布式数据流进行特征选择时，需采用分布式数据频率调整规则更新分布式数据频率，分布式数据流详细更新规则为[8]：
[HDdj=cdjB]
式中：[cdj]为包含特征项[dj]的分布式数据数量;[B]为训练集的分布式数据数量。
利用获取的分布式数据流中特征数据的[HD]值，根据特征数据是否包含分布式数据流分类特征实施更新。设置[O1=uii=1，2，…，x]表示网络处理器中分布式数据流的一级分类标准集合，其中，[ui]表示一级分类标准，[x]表示一级分类标准的数量。[O2=vii=1，2，…，a]表示网络处理器中分布式数据流的二级分类标准集合。其中，[vi]表示二级分类标准，[a]表示二级分类标准的数量。经过分布式数据流特征选择后获取新特征集合[A=djj=1，2，…，m]，拆分不符合分布式数据流特征分类标准的数据，[A1=djij=1，2，…，m;i=1，2，…，l]为[dj]拆分后的特征子集，[dj]拆分后的分布式数据用[dji]描述，[m]为特征项数量，特征子集包含[l]个分布式特征数据。
定义分布式数据流的分类阈值用[α，β]描述，详细的数据收集分类过程为：
进行初始化，[A=?]
[Fori=1，2，…，n]
[IFHDdj<aTHENdj?A]
[IFdj∩ui∈A1THENA=dj，A，HDdj=β]
[IFdj∩vi∈A1THENA=dj，A，HDdj=β-1]
根据上述的数据收集分类过程，能够降低数据特征的维度，获取关联度较大的特征数据[9]，对关联度较大的特征数据实施筛选，可获取符合分类标准的分布式数据流分类结果，实现网络处理器数据的有效分类[10]。2 ?实验分析
2.1 ?平台性能测试
为了验证本文设计平台的性能，采用本文平台、自适应的分布式数据流处理调整平台和基于Web数据的自动采集与分类平台构建三种仿真测试平台。实验从运行时间、内存使用量以及网络通信传输量三方面验证本文平台的性能。表1为三种平台在不同分布式数据流量下进行数据收集与分类的运行时间对比情况;图3描述了不同平台的内存使用量对比情况;图4描述了不同平台的网络通信传输量对比情况。

分析表1可知，本文平台的运行时间均值为2.98 s，随着分布式数据流量大幅度增加，本文平台的运行时间增長比较缓慢，运行时差较小，说明本文平台面对大规模分布式数据流量同样具有较高的效率;自适应的分布式数据流处理调整平台运行时间均值为9.86 s，该平台面对小规模的分布式数据流量，运行效率较高，但随着分布式数据流量的增大，运行时间快速增长，直至5 000 KB时，运行时间为18.3 s，用时较长;基于Web数据的自动采集与分类平台的运行时间均值为11.34 s，该平台在分布式数据流量为1 000 KB与5 000 KB时运行时间分别为4.6 s，18.9 s，运行用时相对本文平台较长，效率较低。

由图3能够看出，随着运行时间的增长，本文平台的内存使用量最少，基本稳定在300 MB左右;自适应的分布式数据流处理调整平台所占内存随着时间的增长呈现大幅度增长，最高达到800 MB;基于Web数据的自动采集与分类平台的内存使用量同样随着时间的增长呈现较大涨幅，最大值为910 MB。

分析图4可知，三种平台在实验初始阶段分布式数据流量为200 KB时的网络传输通信量相差较少，均在100～200 KB之间，本文平台在之后5个分布式数据流量节点的网络传输通信量增长幅度最大;自适应的分布式数据流处理调整平台在之后5个分布式数据流量节点的网络传输通信量增长幅度较小;基于Web数据的自动采集与分类平台分布式数据流量不断增加，该平台传输通信量并没有明显的增长趋势，说明该平台的网络传输能力较弱，进行分布式数据流收集的效率较低。
实验结果表明，本文平台能够根据网络处理器中分布式数据流的数量及时调整网络传输通信量，数據传输效率较高，同时具有运行时间短、使用内存较小的优势。
2.2 ?分布式数据流分类精确度分析
为验证本文平台对分布式数据流分类的高精确度优势，利用第2.1节的实验方法，构建3种仿真实验平台，人工控制网络交换机发送分布式流量数据包，实验分5次进行，分别记录3种平台的数据分类精确度如图5所示。

由图5得，3种平台在实验中呈现不同的分类状态。本文平台的分类精确度曲线始终位于99%～100%之间，分类精确度均值高达99.5%，无明显波动状态，说明本平台不仅分类精确度高，且性能比较稳定。随着实验次数的增加，基于Web数据的自动采集与分类平台的分类精确度呈大幅度下降趋势，最低精确度仅为94.5%，该平台不可用于网络处理器中分布式数据流的有效分类。自适应的分布式数据流处理调整平台分类精确度虽然总体上是上升的趋势，但在第4次实验时分类精确度仅为96.9%，降低了该平台分类精确度均值。说明本文平台能够对分布式数据流进行准确分类。3 ?结 ?论
本文设计基于分布式数据流的网络处理器数据收集分类平台，经验证，该平台能够根据网络处理器中分布式数据流的数量及时调整网络传输通信量，数据传输效率较高;同时具有运行时间短、使用内存较小的优势，可用于网络处理器中分布式数据流的快速收集与分类;对于分布式数据流的分类，该平台的分类精确度均值高达99.5%，所设计平台为网络中分布式数据的高效、科学处理提供参考依据。
参考文献
[1] 段青玲，魏芳芳，张磊，等.基于Web数据的农业网络信息自动采集与分类系统[J].农业工程学报，2016，32（12）：172?178.
DUAN Qingling， WEI Fangfang， ZHANG Lei， et al. Automatic acquisition and classification system for agricultural network information based on Web data [J]. Transactions of the Chinese Society of Agricultural Engineering， 2016， 32（12）： 172?178.
[2] 马元文，王鹏，周之敏，等.一种自适应的分布式数据流处理调整技术[J].计算机工程，2015，41（12）：15?20.
MA Yuanwen， WANG Peng， ZHOU Zhimin， et al. An adaptive adjustment technology of distributed data stream processing [J]. Computer engineering， 2015， 41（12）： 15?20.
[3] 唐颖峰，陈世平.一种面向分布式数据流的闭频繁模式挖掘方法[J].计算机应用研究，2015，32（12）：3560?3564.
TANG Yingfeng， CHEN Shiping. Closed frequent patterns mining method over distributed data streams [J]. Application research of computers， 2015， 32（12）： 3560?3564.
[4] 唐颖峰，陈世平.一种基于网格块的分布式数据流聚类算法[J].小型微型计算机系统，2016，37（3）：488?493.
TANG Yingfeng， CHEN Shiping. Distributed data stream clustering algorithm with grid blocks [J]. Journal of Chinese computer systems， 2016， 37（3）： 488?493.
[5] ZHENG Z， JEONG H Y， HUANG T， et al. KDE based outlier detection on distributed data streams in multimedia network [J]. Multimedia tools & applications， 2017， 76（17）： 18027?18045.
[6] PAPAPETROU O， GAROFALAKIS M， DELIGIANNAKIS A. Sketching distributed sliding?window data streams [J]. The VLDB journal， 2015， 24（3）： 345?368.
[7] 田泽，索高华，张荣华，等.基于FPGA的AFDX网络高速数据采集器设计[J].电子技术应用，2016，42（8）：179?182.
TIAN Ze， SUO Gaohua， ZHANG Ronghua， et al. Design of high speed data acquisition system for AFDX network based on FPGA [J]. Application of electronic technique， 2016， 42（8）： 179?182.
[8] 陈付梅，韩德志，毕坤，等.大數据环境下的分布式数据流处理关键技术探析[J].计算机应用，2017，37（3）：620?627.
CHEN Fumei， HAN Dezhi， BI Kun， et al. Key technologies of distributed data stream processing based on big data [J]. Journal of computer applications， 2017， 37（3）： 620?627.
[9] 李维聪，孙海蓉.基于LabVIEW的USB无线数据采集仪[J].计算机仿真，2015，32（2）：455?458.
LI Weicong， SUN Hairong. A wireless data acquisition system based on USB and LabVIEW [J]. Computer simulation， 2015， 32（2）： 455?458.
[10] RHO J， AZUMI T， OYAMA H， et al. Distributed processing for automotive data stream management system on mixed single? and multi?core processors [J]. ACM SIGBED review， 2016， 13（3）： 15?22.