特征选择和聚类分析的图像分类模型

2022.08.27

彭娟
摘要：针对当前图像分类模型无法满足实际应用要求的难题，为了得到更优的图像分类效果，提出特征选择和聚类分析相融合的图像分类模型。首先提取图像的原始特征，采用主成分分析对图像特征进行选择，然后采用聚类分析算法对图像样本进行处理，选择与待分类图像相关的样本，减少训练样本的规模，最后采用支持向量机建立图像分类器，对标准图像库中的图像进行分类实验。实验结果表明，该模型减少了图像分类的特征和图像分类的训练样本，加快了图像分类建模的速度，同时图像分类正确率明显高于其他图像分类模型。
关键词：图像处理；原始特征；聚类分析算法；图像分类器
中图分类号： TN911.73?34； TP181 文献标识码： A 文章编号： 1004?373X（2017）19?0079?04
Image classification model based on feature selection and clustering analysis
PENG Juan
（Chongqing Institute of Engineering， Chongqing 400056， China）
Abstract： Aiming at the problem that the current image classification model cannot meet the requirements of practical application， an image classification model based on feature selection and clustering analysis is proposed to obtain better results of image classification. First， the original image features are extracted and the principal component analysis （PCA） is used to select the image features. Then， the clustering analysis algorithm is adopted to process image samples， select samples relevant to the images waiting for classification， and reduce the scale of training samples. Finally， the support vector machine is used to construct the image classifier and classification experiments are carried out for images in the standard image database. The results show that， by using this model， the features and training samples of image classification are reduced， the image classification modeling is sped up， and the correctness of image classification is obviously higher than that of other image classification models.
Keywords： image processing； original feature； clustering analysis algorithm； image classifier
0 引言
图像分类是图像处理研究领域中一个重要方向，广泛应用于军事、工业生产、图像分析、医学以及环境保护等领域[1]。图像分类过程十分复杂，到目前为止，图像分类过程还存在一些待解决的难题，获得理想的图像分类效果面临巨大挑战[2?3]。
特征提取和选择是获得理想图像分类结果的基础[4]。当前图像分类特征很多，如纹理特征、颜色特征等，为了更好地描述图像类别信息，人们尽可能多的提取图像特征，使得图像的特征数量急剧增加[5]。图像特征数量大给图像分类带来两个方面的难题：一是图像分类器的输入维数高，结构十分复杂，设计合理结构的图像分类器难度增加，使图像分类速度急剧变慢；二是特征数量增加，特征之间不可避免地存在一定的线性或者非线性关系，特征之间的信息冗余更加严重[6?7]。为了解决特征数量大的难题，通常情况下对图像进行降维处理，当前特征降维方法众多，如判别分析[8]，由于判别分析只能选择图像分类的线性特征，特征选择的速度慢，应用效果不太明显[9]。主成分分析（PCA）是一种性能优异的特征降维算法，在有效降低特征维数的同时，去除了图像特征之间的相关性，成为当前图像分类特征主要选择的算法。训练样本选择是保证获得分类正确率高的关键技术，训练样本数量太多，图像分类训练时间增加，而且一些无效训练样本对图像分类结果产生干扰，反而使得图像分类正确率下降[10?11]。聚类分析算法可将训练样本划分为不同的类别，根据每一种类别与待分类图像样本间的关系，选择最优样本组成训练样本，降低训练样本的规模，改善图像分类的效率[12]。
针对当前图像分类模型无法满足实际应用要求的难题，为了得到更优的图像分类效果，提出特征选择和聚类分析相融合的图像分类模型。实验结果表明，该模型减少了图像分类的特征和圖像分类的训练样本，加快了图像分类建模速度。
1 图像分类模型的结构
基于特征和聚类分析的图像分类思想：采用主成分分析算法解决图像分类特征选择问题，采用聚类算法解决图像分类训练样本的选择问题，最后采用支持向量机设计图像分类器，该模型的结构如图1所示。
2 图像分类模型的详细描述
2.1 图像特征
方向梯度直方图可以很好地描述图像信息，工作步骤如下：
Step1：由于采集图像大小、颜色空间不一样，首先对图像大小进行标准化处理，使它们的大小、尺寸相同，然后将全部图像均转换成为灰度图像。
Step2：计算图像的梯度，图像梯度对提取图像特征十分重要，通常采用Sobel算子计算图像的差分，作为图像梯度值。
Step3：计算图像梯度方向的权值，具体为：
[x（i）=cosθ] （1）
[y（i）=sinθ] （2）
[θ=θ+πNdirection+1] （3）
式中：[i]表示方向编号；[θ]表示角度；[x（i）]和[y（i）]表示[x]轴和[y]轴上[i]方向权值。
Step4：所有特征组合成一个特征向量，则有：
[B（x）=C（x）-B（size）+1B（step）] （4）
式中：[B（x）]和[B（size）]分别为[x]轴方向的块数和大小；[C（x）]为单元格[x]轴的数值；[B（step）]表示块变化步长。
Step5：将不同方向和块上的特征值相加，得到梯度直方图，特征具体如图2所示。
方向梯度直方图特征在空间中高度耦合，需要对方向梯度直方图特征进行处理，消除它们的关联性。对[d]维、[n]行的特征[X]进行如下变换：
[Y=WX] （5）
式中：[Y]为变换后的特征；[W]是矩阵。
为了消除[W]的关联度，必需满足如下条件：
[YYT=（n-1）I] （6）
设[W=WT]，那么[W]的计算公式为：
[W=n-1（XXT）-12] （7）
由于图像尺度不相同，因此需要进行随机采样，即有：
[Z=subsample（Y，m）] （8）
式中：[Z]表示采样后的特征；[m]表示特征维数；subsample表示采集函数。
2.2 PCA选择特征
主成分分析通过K?L变换对信息量少的特征进行抑制，有效减少特征的维数，得到图像特征的主成分，它们包含了图像的原始信息，加快图像分类速度。设[N]个特征为[{x1，x2，…，xN}，]每个特征只属于[C]类中的一类。对原始特征进行线性变换，得到[m]维特征，且满足[yk∈Rm，]线性变换具体为：
[yn=WTxk， k=1，2，…，N] （9）
式中[W]表示一个正交矩阵。
全部样本的散点矩阵为：
[ST=k=1N（xk-μ）（xk-μ）T] （10）
式中[μ∈Rn]表示全部样本的均值。
采用线性变换对特征降维结果进行描述：
[Wopt=argmaxWWTSTW=[w1，w2，…，wm]] （11）
式中[wii=1，2，…，m]表示原始特征空间的[m]个特征向量。
2.3 训练样本的选择
均值聚类算法是一种性能较好的数据聚类分析算法，根据样本与聚类中心之间的相似性度，确定最优聚类，选择最优的图像分类训练样本。设图像[I=f（x，y），0≤x<m，0≤y<n]被劃分为[c]类，[f（x，y）]表示特征，[qk（x，y）]表示[f（x，y）]的第[k]类的隶属度，聚类目标函数为：
[J（Q，P）=i=1Ck=1nqik（x，y）mDx（x，y）2] （12）
式中：[Q=qik（x，u）]表示分类矩阵；[P=[p1，p2，…，pC]]表示聚类中心；[m∈[1，∞）]表示权指数；[Dx（x，y）]为[f（x，y）]与[pk]之间的距离，计算公式为：
[Dx（x，y）2=f（x，y）-pk2] （13）
2.4 图像分类器
采用支持向量机建立图像分类器，最优分类面可以描述为：
[yiψ（xi），ω+b≥1， i=1，2，…，n] （14）
式中[n]为样本的规模。
要确定最优分类面，必须确定参数[ω，b]的值，引入负松弛变量，式（14）可以变为：
[yiψ（xi），ω+b≥1-ζi， i=1，2，…，n] （15）
式中[ζi（i=1，2，…，n）]表示负松弛变量。
引入惩罚因子[C>0]加快分类面的构建，那么可以得到：
[minψ（ω）=12ω2+Ci=1nζis.t. yiψ（xi），ω+b≥1-ζii=1，2，…，n] （16）
引入Lagrange算子[αi]得到：
[maxW（α）=i=1nαi-12i，j=1nαiαjyiyjψ（xi）ψ（yj）s.t. 0≤αi≤Ci=1nαiyi=0] （17）
图像分类的判别函数为：
[f（x）=ωψ（x）+b=i∈SVαiψ（xi）ψ（x）+b] （18）
采用核函数代表内积，[K（x，xi）=ψ（xi）ψ（x）]，选择RBF函数，其为：
[K（x，y）=exp-x-y22σ2] （19）
式中[σ]为核参数。
图像分类为一个多分类问题，采用“一对一”建立图像分类器。设经过样本选择和特征选择的图像训练集为[y1，x1，μx1，…，yn，xn，μxn，]图像分类的最终分类面的解为：
[Φ（ω，ξ）=12ω2+Ci=1nμ（xi）ξis.t. yiωT，zi+b-1+ξi≥0ξi≥0] （20）
</m，0≤y
引入核函数，得到最优分类面的判断方程为：
[f（x）=sgnxi∈SVαiyiK（xi，x）+bs.t. 0≤αi≤μ（xi）Ci=1，2，…，n] （21）
3 图像分类的实验结果与分析
为了分析特征选择和聚类分析的图像分类模型的性能，采用VC++进行图像分类程序。选择PASCAL VOC 2012图像数据中的图像进行仿真实验，其包含20种图像，它们的样本分布如表1所示。
采用图像分类的误分率、正确率和拒分率的平均值对分类结果进行分析，选择没有特征选择+聚类分析（model1），主成分分析选择特征+没有聚类分析（model2）进行对比测试，本文模型记为model3，每一种模型均进行5次实验，实验结果如图3～图5所示。对它们进行对比和分析，可以得到：
（1） model1的图像分类时间要多于model3，而且分类效果要差于model3，这是因为model1只是采用主成分分析对特征进行选择和优化，减少了分类器的输入向量数，但由于采用聚类分析处理训练样本，导致训练样本数量太大，增加了分类器的训练时间，再加上样本之间的互相影响，对图像分类结果产生干扰，导致图像分类结果不理想。
（2）相對于model2，model3（本文模型）提高了图像分类的正确率，误分率和拒分率也相应得到了降低，这是因为model2只对训练样本进行了选择，没有实现特征降维操作，而model3从特征降维和训练样本两个方面进行了处理，减少了特征和训练样本的规模，加快了图像分类的速度，获得了正确率更高的图像分类结果。
4 结论
在图像分类的建模过程中，首先要解决图像特征提取和选择问题，针对图像特征数量大，对图像分类效率和分类结果产生负面影响的难题，引入主成分分析对图像分类特征进行降维操作，减少特征数，并保留一些重要特征实现图像分类，然后针对训练样本对图像分类过程的影响，引入聚类分析算法对训练样本进行聚类，选取与分类图像类别最相近的样本组成训练集，大幅度减少训练样本的规模，降低图像分类的计算时间复杂度，最后通过支持向量机实现图像分类，图像分类结果表明，该模型的分类性能要明显优于其他图像分类模型，验证了本文模型的优越性。
在图像分类过程中，由于分类器参数设计对图像的分类结果也产生影响，因此如何对图像分类器进行优化，进一步提高图像分类的效果是将来进行研究的方向。
参考文献
[1] LU D， WENG Q. A survey of image classification methods and techniques for improving classification performance [J]. International journal of remote sensing， 2007， 28（5）： 823?870.
[2] 何友松，吴炜，陈默，等.基于Bag of Features算法的车辆图像识别研究[J].电视技术，2009，12（33）：104?107.
[3] 陈凯，肖国强，潘珍，等.单尺度词袋模型图像分类方法[J].计算机应用研究，2011，28（10）：3986?3988.
[4] 张江，王年，梁栋，等.基于非负矩阵分解与邻接谱的图像分类[J].中国科学技术大学学报，2008，38（3）：247?251.
[5] GOULD S. DARWIN： a framework for machine learning and computer vision research and development [J]. Journal of machine learning research， 2012， 13（1）： 3533?3537.
[6] EVERINGHAM M， GOOL L V， WILLIAMS C K I， et al. The PASCAL visual object classes （VOC） challenge [J]. International journal of computer vision， 2010， 88（2）： 303?338.
[7] 杨国庆，崔荣一.基于纹理特征的自然图像鉴别方法[J].计算机应用研究，2010，27（7）：2784?2785.
[8] 朱飞，王兴起.基于SIFT 算法的体育类图像分类与应用研究[J].计算机应用与软件，2011，28（10）：232?234.
[9] 吴健，盛胜利，赵朋朋，等.最小采样差异的主动学习图像分类方法[J].通信学报，2014，35（1）：107?114.
[10] 李大湘，彭进业，贺静芳.基于EMD?CkNN多示例学习算法的图像分类[J].光电子·激光，2010，21（2）：304?306.
[11] 狄文羽，何明一，梅少辉.基于快速非负矩阵分解和RBF网络的高光谱图像分类算法[J].遥感技术与应用，2009（3）：385?390.
[12] 付岩，王耀威，王伟强，等.SVM用于基于内容的自然图像分类和检索[J].计算机学报，2003，26（10）：1261?1265.
[13] 谢文兰，石跃祥，肖平.应用BP神经网络对自然图像分类[J].计算机工程与应用，2010，46（2）：163?166.