基于云计算的图像分类算法

黄金国



摘 要: 针对单节点的图像分类算法效率低,实时性差的难题,提出基于云计算的图像分类算法。首先提取图像数据库中的图像分类特征;然后将待分类图像通过云计算模式与图像库中的特征进行匹配,并根据匹配结果将其划分到相应的类别中;最后采用UPenn和Caltech?101数据库测试算法的可行性。结果表明,该算法降低了图像分类的时间复杂度,取得了不错的图像分类结果,且分类效率要明显优于对比算法,具有良好的实际应用价值。
关键词: 云计算; 海量图像数据库; 图像分类器; 图像特征
中图分类号: TN911.73?34; TP181 文献标识码: A 文章编号: 1004?373X(2017)05?0063?03
Abstract: Since the image classification algorithm for the single node has low efficiency and poor real?time performance, an image classification algorithm based on cloud computing is proposed. With the algorithm, the classification features of the images in the image database are extracted, and then the images under classification are matched with the feature in the image library by means of the cloud computing mode and divided into the corresponding classes according to the matching results. The databases of UPenn and Caltech?101 are used to test the feasibility of the algorithm. The results show that the algorithm has reduced the time complexity of image classification, obtained a good image classification result, its classification efficiency is obviously superior to the comparing algorithm, and has a certain practical application value.
Keywords: cloud computing; massive image database; image classifier; image feature
0 引 言
隨着数字图像处理技术的不断成熟,每天会产生大量的图像,如何对这些海量图像进行准确分类,从中找到对用户有用的图像至关重要,而且图像分类是图像检索的基础,因此设计性能优异的图像分类算法具有十分重要的应用价值[1?3]。
图像分类实际是一个模式识别问题,根据相应的特征和分类器将图像归属到相应的类别中,因此要获得较高的图像分类正确率,首先要提取能够描述图像类别信息的特征,当前图像分类的特征很多,如颜色、纹理、形状等,这些特征均有各自的优势[4?5]。图像分类中的第二个关键问题是图像分类器的设计,目前主要基于K近邻、贝叶斯网络、神经网络等。K近邻分类的速度快[6?8],但分类精度低;贝叶斯网络无法准确描述图像类别与特征之间的映射关系,分类结果的可信度低;神经网络的学习速度快,分类效果优于其他方法,但最优网络结构如何确定目前还没有统一理论指导,分类结果不稳定[9]。随着图像数据库规模不断增加,图像分类速度成为分类结果优劣的一个重要评价指标,而目前主要采用单节点方式进行图像分类,当样本规模大时,图像分类的速度慢、效率低,无法满足现代图像分类的实际应用要求[10]。
云计算技术包括分布式和网格计算优点,可以将许多节点组合在一起,产生一个功能强大的计算机系统,为了加快规模图像的分类速度,提出云计算的图像分类算法,结果表明,本文算法降低了图像分类的时间复杂度,分类效率高,具有一定的优越性。
1 单节点的图像分类原理
单节点的图像分类算法的工作原理为:首先提取图像数据库中的图像分类特征;然后将待分类图像通过与图像库中的特征进行匹配,并根据匹配结果将其划分到相应的类别中,具体如图1所示。
2 基于云计算的图像分类算法
2.1 提取图像的颜色特征
2.3 云计算的图像分类算法工作步骤
Step1:收集大量各种类型的图像,提取每一种图像的颜色特征,并采用式(10)进行归一化处理,然后将特征保存到图像数据库中。
[x′ik=xik-minximaxxi-minxi] (10)
Step2:对待分类的图像进行特征提取和归一化处理。
Step3:在单点上将待分类图像特征与图像数据库中的特征进行匹配,得到相应的分类结果。
Step4:将每一个单点的分类结果输入到reducer进行融合。
Step5:根据融合结果得到最终的图像类别。
3 仿真测试
3.1 实验环境
在Linux平台下,采用1个主节点和20个工作节点组成一个云计算,其中20个工作节点的配置相同,选择文献[10]的图像分类算法进行对比实验,采用正确率和分类时间对分类结果进行衡量。实验环境的参数设置见表1。
选择UPenn图像库和Caltech?101图像库作为仿真实验对象,将全部图像归一化为256×256个像素,UPenn和Caltech?101图像库中的部分图像如图4所示。
3.2 结果与分析
采用本文的图像分类算法和对比算法对UPenn图像库和Caltech?101图像库进行仿真测试,统计它们的分类结果,得到分类正确率和分类时间如图5和图6所示,对图5和图6的实验结果进行分析,可以得到如下结论:
(1) 本文算法的平均分类正确率要高于对比算法,这是因为本文算法引入了最小二乘支持向量机建立图像分类器,可以更好地反映图像类别与特征之间的联系,得到十分理想的图像分类结果。
(2) 与对比的图像分类算法相比,本文算法的平均分类时间相对更少,大幅度加快了图像的分类速度,这主要是因为本文采用Map/Reduce工作模式,使各个节点可以并行运行图像分类算法,降低了图像分类的计算时间复杂度,应用范围更广。
4 结 语
当前图像库具有海量等特点,而单一节点的性能提高有限,导致图像分类速度慢,为了加快图像的分类速度,提出了云计算的图像分类算法。该算法首先设计单个节点的图像分类算法;然后将图像分类任务划分为多个子任务,每一个子任务在单节点并行执行图像分类,减少图像分类时间;再将全部单节点的图像分类结果进行融合,在UPenn图像库和Caltech?101图像库上的实验结果表明,本文算法不仅获得了理想的图像分类结果,分类的效率也明显得到改善,而且可以满足图像的在线、实时性要求,具有广泛的应用前景。
参考文献
[1] LU D, WENG Q. A survey of image classification methods and techniques for improving classification performance [J]. International journal of remote sensing, 2007, 28(5): 823?870.
[2] 邢晓芬,徐向民,黄晓泓,等.基于内容的医学图像分类研究[J].科学技术与工程,2007,7(1):85?90.
[3] 董立岩,苑森森,刘光远,等.基于贝叶斯分类器的图像分类[J].吉林大学学报(理学版),2007,45(2):249?253.
[4] 韩冰,杨辰,高新波.融合显著信息的LDA极光图像分类[J].软件学报,2013,24(11):2758?2766.
[5] 刘越,彭宏京,钱素静,等.基于核拉普拉斯稀疏编码模型的图像分类[J].模式识别与人工智能,2014,27(10):915?920.
[6] 余萍,赵继生.基于线性叠加特征和CNNS的图像分类方法[J].微電子学与计算机,2015,32(10):36?40.
[7] 朱志宾,丁世飞.基于TWSVM的图像分类[J].南京师大学报(自然科学版),2014,37(3):8?14.
[8] 刘尚旺,李名,胡剑兰,等.基于视觉显著性检测的图像分类方法[J].计算机应用,2015,35(9):2629?2635.
[9] 祝军,赵杰煜,董振宇.融合显著信息的层次特征学习图像分类[J].计算机研究与发展,2014,51(9):1919?1928.
[10] 倪鹏,黄蔚,吕巍,等.基于Zernike矩特征的FCM?RBF神经网络图像分类器[J].吉林大学学报(理学版),2014,52(6):1284?1288.