基于概率图模型的多模态数据联合检索算法

甘胜江 孙连海 何俊林 卢颖



摘 要: 为了提高多模态检索的性能,提出一种多模态文档语义生成模型以及基于该模型的多模态数据联合检索算法。多模态文档语义生成模型认为文档中每个模态数据都是由相同的语义概念生成的,并且文档是多个模态数据的联合分布。为了简化模型的求解过程,假设各个模态数据之间的生成过程是相互独立的,于是可以对每个模态的条件概率进行单独计算。在多模态联合检索中,通过计算查询数据和待检索文档的联合概率来计算它们之间的相似度。实验结果表明,提出的方法与两步检索、语义索引和排序学习三种多模态检索方法相比具有更好的检索性能。此外,该方法可以扩展应用到具有三个及以上模态数据的文档联合检索中。
关键词: 多模态检索; 概率图模型; 极大似然估计; 产生式模型
中图分类号: TN919?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)05?0033?05
Abstract: In order to improve the performance of the multi?modal retrieval, a semantic generation model of the multi?modal document and a joint retrieval algorithm for multi?modal data based on this model are proposed. The semantic generation model of the multi?modal document deems that the data of each modal in the document is generated by the same semantic concept, and the documents complies with the joint distribution of data of multiple modals. In order to simplify the solving process of model, the conditional probability of each modal can be calculated independently if assuming that the generation processes among all the modals′ data are mutual independent. During the multi?modal joint retrieval, the joint probability of the query data and the document under retrieval are calculated to obtain the similarity between them. The experimental results show that this algorithm has better retrieval performance than the two?step retrieval algorithm, semantic indexing algorithm and ranking learning algorithm. In addition, the algorithm can be applied to the document joint retrieval of data with three and more modals.
Keywords: multi?modal retrieval; probabilistic graph model; maximum likelihood estimation; generative model
0 引 言
随着互联网数据的爆炸式增长,网络上聚集了海量的文本、图片、音频和视频数据,数据的多模态性和海量性给信息检索提出了巨大的挑战[1]。传统的信息检索方法,如文本检索和图片检索,往往在某一模态数据上进行相似性匹配并返回相似度高的相同模态的数据。针对本文数据,经典的检索方法是基于关键字查询的倒排索引[2?3]。针对图片数据,单模态图片检索往往将图片表示为SIFT[4],SURF[5]或者BRISK[6]等特征,然后进行图片的特征匹配。
在网络中,每一篇文档往往包含多种模态的数据,如文本和图片,有时也有音频和视频,传统的单模态信息检索方法往往针对某一模态的数据进行检索,其检索结果很难达到用户的预期期望。在应用多种模态数据进行信息检索时,存在着跨模态检索和多模态检索两种方法[7]。跨模态检索要求检索的输入和检索结果分别为两种不同模态的数据,如根据文本查询检索图片,或者根据图片内容检索文本。跨模态检索方法主要分为以下两类[8]:第一类方法在不同模态的数据之间建立映射,使得在一种模态下相似的数据在另一种模态下也保持相似性,属于这类方法的主要工作有[9?13]:当文档中包含多种模态的数据时,这种方法需要在任意两个模态之间建立一种映射,因而计算量非常大,并且很难移植到其他场景。第二类方法在所有的模态之上寻找一种共同的潜在语义空间,属于这类方法的工作有[14?18]:通过将所有模态的数据映射到同一个语义空间,可以实现任意两个模态数据的跨模态检索。
区别于跨模态信息检索,在多模态检索中,用户可以输入文本、图片等多种模态的数据,其检索结果为包含多种模态数据的文档。这些不同模态的数据之间相互补充可以更准确地反应用户的检索需求。此外,这些不同模态的数据相互关联,从而与单模态信息检索相比可以提高检索结果的准确性。在进行多模态检索过程中,最简单的方法是分别对多个模态进行单模态检索,然后对检索结果进行过滤,如两步检索方法[19]。此外,还可以通过多个模态之间的联合分布来描述不同模态之间的关系,从而进行多模态数据的联合检索,如语义索引方法[20]和排序学习方法[21]。
本文研究了文本和图片两个模态下的联合信息检索。每一个文档数据项包含一张图片及相应的文本描述或者语义标签,本文的目的是根据用户输入的图片以及对图片的描述检索出相似的图片。本文假设每一个文档为一个“图片—文本”对,并且图片和文本都是由相同的语义空间生成的。在上述假设的前提下,提出一种包含多模态数据的文档语义生成模型,并用图模型的联合概率来表示多模态文档的生成概率。在给定的训练数据中,通过最大化训练数据集的生成概率进行模型的求解。
1 文档的语义生成模型
在文档集合[D]中,每个文档[d∈D]包含图片和文本两种模态的数据,分别为[I]和[T。]令[S]表示模态无关的语义概念,并应用[K]维向量进行表示,即[S=[S1,S2,…,SK]],其中[Sk∈{0,1}]表示第[k]([1≤k≤K])个语义概念。[S1,S2,…,SK]中有一个或者多个值为1,其余所有的值为0,[S]所表达的语义空间的总语义概念个数为[2K]个。在可分类处理的文档集合中,[S1,S2,…,SK]中只有一个值为1,而其余所有值都为0。依据语义概念[S,]本文提出如图1所示的文档语义生成模型。
在图1所示的文档语义生成图模型中,[S]服从先验参数为[μ]的多项式分布,其中先验参数[μ=[μ1,μ2,…,μK]]是一个[K]维向量。[I]为文档中图片的特征向量,服从概率条件分布[pIS,θI,]其中[θI]为先验参数。[T]为文档中文本的特征向量,服从条件概率分布[pTS,θT,]其中[θT]为先验参数。包含图片和文本两个模态的文档[d=(I,T)]的生成过程如下:
(1) 依据多项式分布[Multi(μ)]生成语义概念[S;]
(2) 依据条件概率分布[pIS,θI]生成图片[I;]
(3) 依据条件概率分布[pTS,θT]生成文本[T。]
本文只考虑包含图片和文本两种模态数据的文档,但是该模型可以扩展到包含多种模态數据的文档。
2 模型估计
为了得到模型的联合概率分布,需要对模型中的先验参数进行估计。本文只考虑图片和文本两种模态的数据,因此需要估计模型的先验参数[μ,][θI]和[θT]。
在给定的文档集合[D]中,每一篇文档[dn∈D]都是一个图片—文档对,即[dn=(In,Tn)],其中[1≤n≤N,][N]为[D]中文档的总数。依据极大似然估计原则,可以得到如下的对数似然函数:
在式(13)和式(14)中,[pSkμ]的计算见式(7)和式(8),[pXnSk,θX]和[pXqSk,θX]([X]为[I]或者[T])的计算见式(9)~式(11)。在得到每一个待检索文档[dn]与查询数据[dq]之间的相似度以后,将相似度按照从大到小的顺序进行排序,并将排序靠前的若干项作为返回结果。
4 实验结果与分析
4.1 实验设置
实验采用公开的Wikipedia数据集[22]和SUN数据集[23]。Wikipedia数据集包含2 866个文档,每个文档包含一张图片,以及对图片的相关说明文本,每个图片—文档对属于一个特定的类别目录,整个数据集一共可以分为10个类别。SUN数据集是一个带文本标签的场景图片数据集,共包含14 340张图片,整个数据集一共可以分为717个类别,每个类别包含20张图片。
对于这两个数据集中的图片,采用SIFT[4]特征描述符将图片描述为128位的特征向量。对于Wikipedia数据集中的文本,采用LDA[24]模型将文本表示为10个主题的分布。对于SUN数据集中的标签,采用LDA模型将标签表示为717个主题的分布。在模型的学习过程中,将两个数据集划分为[23]的训练数据和[13]的测试数据。
在检索算法的性能评估过程中,采用[F]值和MAP(Mean Average Precision)两种评价指标。在算法的对比中,将本文提出的算法与两步检索[19],语义索引[20]和排序学习[21]三种算法进行对比。
4.2 实验结果分析
首先,通过实验对比了四种算法在Wikipedia和SUN两个数据集下的MAP,对比结果如图2所示。从图2中可以看出,两步检索方法虽然简单,但是检索结果在两个数据集下的MAP都是最低的。对于语义索引和排序学习两种检索算法,语义索引方法在Wikipedia数据集上的MAP低于排序学习方法,而在SUN数据集上的MAP却高于排序学习方法,说明这两种方法对于不同的数据集各有优劣。本文提出的基于概率图模型的联合检索方法在两个数据集上的MAP要高于其他三种方法,这表明该方法能更好地反应查询数据和待检索数据之间的相似度。
接下来,通过实验对比了四种方法在Wikipedia和SUN两个数据集下的F值,对比结果如图3所示。依据F值的定义,F值是信息检索中查准率和召回率的调和平均值,因此可以反应查询结果的性能。在Wikipedia数据集中,两步检索、语义索引和排序学习三种方法的F值都处于0.29~0.32之间,并且它们之间的差距并不大,而本文提出的方法的F值却超过了0.4,明显提高了检索的性能。在SUN数据集中,两步检索、语义索引和排序学习三种方法的F值都处于0.34~0.39之间,而本文方法的F值约为0.47,也明显提高了检索结果的性能。
最后,通过一组实验对本文提出的方法的检索结果进行展示。在Wikipedia数据集中,随机选取了一张图片(见图4(a))作为查询图片,图片中一名男歌手在演唱,故同时将“Man singing”作为查询文本与查询图片一起作为查询数据,检索结果的前三张图片见图4(b)~(d)。在Wikipedia数据集中,查询图片所属的类别为“music”,检索结果的三张图片的类别也为“music”。与此同时,虽然这四张图片中人的姿势不同,背景也不同,但是可以看出它们的内容都是一名男歌手在演唱。因此,可以认为该方法能更好地进行多模态信息的联合检索。
5 结 语
本文研究了文本和图片两个模态下的联合信息检索,提出了一种多模态文档语义生成模型以及基于该模型的多模态数据联合检索算法。网络中的文档往往包含多种模态的数据,本文假设同一文档中多个模态的数据都是由相同的语义空间生成的。在上述假设的前提下,提出一种包含多模态数据的文档语义生成模型,并用图模型的联合概率来表示多模态文档的生成概率。实验结果表明,提出的方法与两步检索、语义索引和排序学习三种多模态检索方法相比具有更好的检索性能。此外,该方法可以扩展应用到具有三个及以上模态数据的文档联合检索中。
注:本文通讯作者为孙连海。
参考文献
[1] 王大玲,冯时,张一飞,等.社会媒体多模态、多层次资源推荐技术研究[J].智能系统学报,2014,9(3):265?275.
[2] ILIC M, SPALEVIC P, VEINOVIC M. Inverted index search in data mining [C]// Proceedings of 2014 the 22nd IEEE Telecommunications Forum. Serbia: IEEE, 2014: 943?946.
[3] RAMOS J. Using TF?IDF to determine word relevance in document queries [C]// Proceedings of the First International Confe?rence on Machine Learning. [S.l.]: IEEE, 2003: 1?4.
[4] LOWE D G. Distinctive image features from scale?invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91?110.
[5] BAY H, ESS A, TUYTELAARS T, et al. Speeded?up robust features (SURF) [J]. Computer vision and image understan?ding, 2008, 110(3): 346?359.
[6] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable keypoints [C]// Proceedings of 2011 IEEE International Conference on Computer Vision. Switzerland: IEEE, 2011: 2548?2555.
[7] 何宁.图像检索中跨模语义信息获取方法研究[D].武汉:武汉大学,2013.
[8] SPENCE C. Crossmodal correspondences: a tutorial review [J]. Attention, perception & psychophysics, 2011, 73(4): 971?995.
[9] 刘亚楠,吴飞,庄越挺.基于多模态子空间相关性传递的视频语义挖掘[J].计算机研究与发展,2009,46(1):1?8.
[10] WANG Y, GUAN L, VENETSANOPOULOS A N. Kernel cross?modal factor analysis for information fusion with application to bimodal emotion recognition [J]. IEEE transactions on multimedia, 2012, 14(3): 597?607.
[11] COSTA P J, COVIELLO E, DOYLE G, et al. On the role of correlation and abstraction in cross?modal multimedia retrieval [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(3): 521?535.
[12] 张鸿,吴飞,庄越挺.跨媒体相关性推理与检索研究[J].计算机研究与发展,2008,45(5):869?876.
[13] WANG K Y, HE R, WANG W, et al. Learning coupled feature spaces for cross?modal matching [C]// Proceedings of 2013 IEEE International Conference on IEEE Computer Vision. Beijing, China: IEEE, 2013: 2088?2095.
[14] WANG W, OOI B C, YANG X, et al. Effective multi?modal retrieval based on stacked auto?encoders [J]. Proceedings of the VLDB endowment, 2014, 7(8): 649?660.
[15] WANG W, YANG X Y, OOI B C, et al. Effective deep lear?ning?based multi?modal retrieval [J]. The VLDB journal, 2016, 25(1): 79?101.
[16] SONG J, WANG Y, WU F, et al. Multi?modal retrieval via deep textual?visual correlation learning [C]// Proceedings of 2015 the 5th International Conference on Intelligence Science and Big Data Engineering. Suzhou, China: Springer International Publishing, 2015: 176?185.
[17] WANG Y F, WU F, SONG J, et al. Multi?modal mutual to?pic reinforce modeling for cross?media retrieval [C]// Procee?dings of the 22nd ACM International Conference on Multimedia. Florida: ACM, 2014: 307?316.
[18] TOEWS M, Z?LLEI L, WELLS W M. Feature?based alignment of volumetric multi?modal images [C]// Proceedings of 2013 International Conference on Information Processing in Medical Imaging. US: Springer Berlin Heidelberg, 2013: 25?36.
[19] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. Firenze: ACM, 2010: 251?260.
[20] CHANDRIKA P, JAWAHAR C V. Multi modal semantic indexing for image retrieval [C]// Proceedings of the ACM International Conference on Image and Video Retrieval. Xian, China: ACM, 2010: 342?349.
[21] WU F, JIANG X, LI X, et al. Cross?modal learning to rank via latent joint representation [J]. IEEE transactions on image processing, 2015, 24(5): 1497?1509.
[22] RASIWASIA N, COSTA PEREIRA J, COVIELLO E, et al. A new approach to cross?modal multimedia retrieval [C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010: 251?260.
[23] PATTERSON G, HAYS J. Sun attribute database: discove?ring, annotating, and recognizing scene attributes [C]// Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 2751?2758.
[24] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation [J]. Journal of machine Learning research, 2003, 3: 993?1022.