基于Universum学习的核聚类方法

2022.06.24

朱昌明　吴爱华　王健安
摘要：
为解决原始核聚类（Kernel Clustering， KC）中模式信息不足、聚类结果不佳的缺点，以KC为基础，利用Universum学习带来的优势，提出基于Universum学习的核聚类（Universum learningbased Kernel Clustering， UKC）方法.首先利用Universum学习生成相应的Universum模式，再利用KC算法把数据集分割成多个簇，最后利用每个簇中所包含的Universum模式和训练模式来更新该簇，从而使得这些簇更加合理.实验表明，该算法可以更好地改善聚类效果和分类器的分类性能、泛化能力和计算效率.虽然该方法的步骤比KC多，但是其较好的聚类性能可以帮助人们处理分类问题.
关键词：
Universum学习；核聚类；先验知识
0引言
Universum学习由WESTON等[1]提出，旨在把有关应用域的先验知识引入到学习过程中.这些知识是以附加的无标签的和有标签的训练模式的形式表示的.基于Universum的优点，CHERKASSKY等[2]提出基于Universum的支持向量机（Universum Support Vector Machine， USVM），LIU等[3]提出自学习的Universum下的支持向量机（SelfUniversum Support Vector Machine， SUSVM）.笔者把USVM与支持向量机（Support Vector Machine，SVM）进行比较，发现Universum模式的质量会影响分类器的性能.CHEN等[4]发现在目标类之间分布的Universum模式对生成分类界面更有用.由相关实验可知，Universum学习可使模型更符合模式分布、结构等，从而提高算法有效性.如今Universum学习已广泛运用于文本聚类[5]、身体姿势识别[6]、Boosting策略[7]、降维技术[8]和多视角学习[9]等方面.
大部分数据集拥有可以改进分类器性能的局部信息或结构[10]，而聚类是得到这些局部信息或结构的一个较好的方法.聚类旨在把一个由所有模式组成的全局空间分成多个子集，这些子集被称为簇、核或子类.它们有较高的簇内相似度和较低的簇间相似度.一般地，每个簇也可被看作一个局部空间.典型的聚类方法有k均值（kmeans）[11]、合成聚类（Agglomerative Hierarchical Clustering， AHC）[12]和核聚类（Kernel Clustering， KC）[13].通过聚类，可以更好地挖掘模式的局部结构信息.然而，k均值和AHC或生成的簇不一定合适，或计算复杂度高，或聚簇结果对初始设置敏感，所以相比而言，KC才是一个比较合适的聚类方法.
尽管如此，KC所使用的模式都是原始模式.如果可以得到除原始模式之外的新模式，则可以得到更多的模式信息，并进一步提升聚类效果，从而提高分类器性能.鉴于此，本文借助Universum学习的优点[59]，提出基于Universum学习的核聚类（Universum learningbased Kernel Clustering， UKC）方法.首先利用文献[9]中使用的方法，通过Universum学习生成更多有用的Universum模式，然后把这些Universum模式和原始模式都用到原始的KC中，从而提升聚类效果.
1UKC方法
1.1生成Universum模式
采用文献[9]中使用的方法来创建Universum模式.假设有两类模式集，分别从一个类中选取一个模式，然后计算这两个模式的均值，从而得到一个Universum模式.若两类分别有a，b个模式，则可以得到a×b个Universum模式.
1.2KC生成簇
利用文献[13]的方法生成簇.对一个两类问题，把其中一类作为目标类，另一类作为非目标类.计算目标类中尚未被簇所覆盖的模式的均值，并逐步扩大簇，直到遇到一个非目标类模式为止，则一个簇生成完毕.针对该目标类，重复上述步骤，直到目标类中的每个模式都至少被一个目标簇所覆盖.
1.3更新簇
原始KC算法生成的簇仅包含原始训练模式的信息，而Universum模式往往包含更多的模式信息.为此，本文提出的UKC方法中，使用Universum模式来更新生成的簇，从而使得簇中包含更多的模式信息，并进一步提升分类器性能.
假设有Universum模式集U={u1，u2，…，um}，相应的簇集为C={C1，C2，…，Cn}.对任一簇Cj，其内部所包含的Universum模式集为Uj={uj1，uj2，…，ujp}，训练模式集为Dj={dj1，dj2，…，djq}.
随后计算该簇中所有模式的均值，即μj=（dj1+dj2+…+djq+uj1+uj2+…+ujp）/（p+q）.再计算Uj和Dj中所有模式到μj的距离，并记最大值为σj.从而，该簇的中心被更新为μj，宽度被更新为σj.
通过如上步骤，可以在Universum模式的帮助下，更新已有的簇，从而使得这些簇更加符合模式的结构、分布和信息.
2实验
2.1实验设置
首先选择24个UCI Machine Learning Repository数据集和5个图像数据集作为实验数据（见表1），然后比较UKC或KC中生成的簇对分类器性能的影响.相关分类器为局部多核学习（Localized Multiple Kernel Learning， LMKL）[19]，三层结构的HoKashyap修正算法（Threefold Structured Modified HoKashyap Algorithm， TSMHKA）[20]，基于切割的规范化图像分割（Normalized Cutbased Graph Partitioning， NCGP）[21]，多分类器系统（Multiple Classifier System， MCS）[22]，径向基网络学习（Radial Basis Function Network Learning， RBFNL）[23]和多局部化的经验核学习（Multiple Localized Empirical Kernel Learning， MLEKL）[24].最后，为验证Universum学习对KC的有效性，USVM和SUSVM也被用于实验.进一步，为选择所有分类器的最佳参数，本文采用文献[25]中的调参方式.
2.2实验分析
表2给出了使用KC和UKC时，生成的簇对相关分类器的平均性能影响.USVM和SUSVM的实验结果也在表2中给出.这里，性能对比主要体现在分类正确率、泛化性能、计算复杂性和计算效率方面.分类正确率越高，分类器对实际分类问题的预测能力越好；泛化性能越高，分类器对未知模式的预测能力越好；计算复杂性越高，分类器的复杂度越高，对问题的适应能力越差；计算效率越高，分类器计算速度、算法执行等方面的性能越好.为方便性能对比，规定基于KC的LMKL的各个指标为1.泛化性能、计算复杂度和计算效率的计算方法都可以参考文献[25]中给出的方法.从表2可知：（1）UKC生成的簇可以带来更好的平均分类正确率、泛化性能和计算效率，计算复杂性更低；（2）就Universum学习而言，相比USVM和SUSVM，UKC可以给相关分类器带来更好的性能；（3）从计算复杂度和计算效率而言，UKC不仅可以降低分类器的复杂度，还能提高计算效率；（4）从泛化能力的角度看，UKC可以给分类器带来更好的性能，也能为基于局部结构的分类器设计提供一个更合适的指导方向.
3结束语
一个好的聚类方法在发现模式的局部结构和信
息方面有着重要的作用，且可以有效提高子类中所包含的模式信息的重要度.本文充分利用它们的优点并提出基于Universum学习的核聚类（UKC）方法.利用Universum学习生成相应的Universum模式，把这些模式用到原始的KC中，从而更新簇的信息.实验证实，具有UKC的分类器拥有更高的分类正确率和更低的泛化风险，同时在计算复杂性和计算效率上也具有优势.
参考文献：
[1]WESTON J， COLLOBERT R， SINZ F， et al. Inference with the Universum[C]//COHEN W， MCCALLUM A. Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh， Pennsylvania， USA： Carnegie Mellon University， 2006： 10091016.
[2]CHERKASSKY V， DAI Wuyang. Empirical study of the Universum SVM learning for highdimensional data[C]//ALIPPI C， POLYCARPOU M， PANAYIOTOU C， et al. Lecture Notes in Computer Science. Berlin： Springer， 2009： 932941.
[3]LIU D L， TIAN Y J， BIE R F， et al. SelfUniversum support vector machine[J]. Personal and Ubiquitous Computing， 2014， 18（8）： 18131819.
[4]CHEN S， ZHANG C S. Selecting informative Universum sample for semisupervised learning[C]//KITANO H. Proceedings of the 21st International Joint Conference on Artifical Intelligence. Pasadena， California， USA： Morgan Kaufmann， 2009， 38（4）： 10161021.
[5]ZHANG D， WANG J D， SI L. Document clustering with Universum[C]//MA W Y， NIE J Y. Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York， USA： ACM， 2011： 873882.
[6]PENG B， QIAN G， MA Y Q. Viewinvariant pose recognition using multilinear analysis and the Universum[C]//BEBIS G， BOYLE R， PARVIN B， et al. Lecture Notes in Computer Science. Berlin： Springer， 2008： 581591.
[7]SHEN C H， WANG P， SHEN F M， et al. Uboost： boosting with the Universum[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2012， 34（4）： 825832.
[8]CHEN X H， CHEN S C， XUE H. Universum linear discriminant analysis[J]. Electronics Letters， 2012， 48（22）： 14071409.
[9]WANG Z， ZHU Y J， LIU W W， et al. Multiview learning with Universum[J]. KnowledgeBased Systems， 2014， 70（C）： 376391.
[10]任蕾，施朝健，冉鑫. 结合局部和全局显著性的海上小目标检测[J]. 上海海事大学学报， 2012， 33（2）： 15.
[11]DAY W H E， EDELSBRUNNER H. Efficient algorithms for agglomerative hierarchical clustering methods[J]. Journal of Classification， 1984， 1（1）： 724.
[12]HARTIGAN J A， WONG M A. Algorithm AS 136： a kmeans clustering algorithm[J]. Applied Statistics， 1978， 28（1）： 100108.
[13]GAO D Q， LI J. Kernel fisher discriminants and kernel nearest neighbor classifiers： a comparative study for largescale learning problems[C]//SHI B E. International Joint Conference on Neural Networks. Vancouver， Bc， Canada： IEEE， 2006： 13331338.
[14]NENE S A， NAYAR S K， MURASE H. Columbia object image library （COIL20）[R]. New York， USA： Columbia University， 1996.
[15]CUN L Y， BOSER B， DENKER J S， et al. Handwritten digit recognition with a backpropagation network[J]. Advances in Neural Information Processing Systems， 1990： 396404.
[16]BENNETT F， RICHARDSON T， HARTER A. Teleportingmaking applications mobile[C]//Mobile Computing Systems and Applications. Washington， DC， USA： IEEE Computer Society （IEEE）， 1994： 8284.
[17]KUMAR N， BERG A C， BELHUMEUR P N， et al. Attribute and simile classifiers for face verification[C]//International Conference on Computer Vision. Kyoto， Japan： IEEE， 2009， 30（2）： 365372.
[18]SMITH B A， YIN Q， FEINER S K， et al. Gaze locking： passive eye contact detection for humanobject interaction[C]//Proceedings of the 26th Annual ACM Symposium on User Interface Software and Technology. New York， USA： ACM， 2013： 271280.
[19]GONEN M， ALPAYDIN E. Localized multiple kernel learning[C]//COHEN W. Proceedings of the 25th International Conference on Machine Learning. Helsinki， Finland： University of Helsinki， 2008： 352359.
[20]WANG Z， ZHU C M， GAO D Q， et al. Threefold structured classifier design based on matrix pattern[J]. Pattern Recognition， 2013， 46（6）： 15321555.
[21]SEN D， GUPTA N， PAL S K. Incorporating local image structure in normalized cut based graph partitioning for grouping of pixels[J]. Information Sciences， 2013， 248： 214238.
[22]CHAN P P K， YEUNG D S， NG W W Y， et al. Dynamic fusion method using localized generalization error model[J]. Information Sciences， 2012， 217： 120.
[23]YEUNG D S， CHAN P P K， NG W W Y. Radial basis function network learning using localized generalization error bound[J]. Information Sciences， 2009， 179（19）： 31993127.
[24]WANG Z， XU J， GAO D Q， et al. Multiple empirical kernel learning based on local information[J]. Neural Computing and Applications， 2013， 23（7/8）： 21132120.
[25]ZHU C M， GAO D Q. Multiple matrix learning machine with five aspects of pattern information[J]. KnowledgeBased Systems， 2015， 83： 1331.
（编辑赵勉）