基于BOOSTING框架的视觉语音多模态情感识别检测方法

张芬
摘 要: 情感识别技术是智能人机交互的重要基础,它涉及计算机科学、语言学、心理学等多个研究领域,是模式识别和图像处理领域的研究热点。鉴于此,基于Boosting框架提出两种有效的视觉语音多模态融合情感识别方法:第一种方法将耦合HMM(coupled HMM)作为音频流和视频流的模型层融合技术,使用改进的期望最大化算法对其进行训练,着重学习难于识别的(即含有更多信息的)样本,并将AdaBoost框架应用于耦合HMM的训练过程,从而得到AdaBoost?CHMM总体分类器;第二种方法构建了多层Boosted HMM(MBHMM)分类器,将脸部表情、肩部运动和语音三种模态的数据流分别应用于分类器的某一层,当前层的总体分类器在训练时会聚焦于前一层总体分类器难于识别的样本,充分利用各模态特征数据间的互补特性。实验结果验证了两种方法的有效性。
关键词: 情感识别; 表情识别; Boosting方法; 情感数据库
中图分类号: TN911.73?34; TM417 文献标识码: A 文章编号: 1004?373X(2017)23?0059?05
Abstract: As the important basis of intelligent human?computer interaction, the emotion recognition technology relates to the computer science, linguistics, psychology and other research fields, and is a research hotspot in pattern recognition and image processing fields. Based on the Boosting framework, two effective multi?modal emotion recognition methods fusing vision and speech are proposed. In the first method, the coupled hidden Markov model (HMM) is taken as the model?layer fusion technology of audio and video streams, and the improved expectation maximization algorithm is used to train it, and pay attention to the learning of the samples which are difficult to recognize emphatically; the AdaBoost framework is applied to the training process of HMM coupling to get the AdaBoost?CHMM general classifier. In the second method, the multi?layer Boosted HMM (MBHMM) classifier is constructed, and the data streams with the modals of facial expression, shoulder movement and speech are respectively applied to the classifier of a certain layer. The current layer′s overall classifier while training will focus on the sample which is difficultly recognized by the overall classifier in the former layer. The MBHMM classifier makes full use of the complementary characteristic of the feature data in each mode. The validity of the two methods was verified with experimental results.
Keywords: emotion recognition; facial expression recognition; Boosting method; emotion database
在人类交往中,除了通过自然语言传递信息外,还可以利用很多其他形体语言如脸部表情、身体动作来进行交流。人脸表情在人们日常生活的交往和沟通中扮演着重要的角色,为人的情感状态、心理活动或意图愿望等心智活动提供了重要的线索和信息。目前,各个领域的研究者们都十分关注如何从人脸表情信号和语音信號中自动识别出说话人的情感状态及变化,并做出合理恰当的反应,最终达到建立和谐人机环境的目的。鉴于此,本文提出两种基于AdaBoost框架的视觉语音多模态融合情感识别方法。
1 基于Boosted耦合HMM的双通道情感识别
方法
1.1 耦合HMM及其EM训练算法
隐马尔可夫模型(HMM)可以有效地应用于多模态(通道)融合的识别技术中。在特征级融合方法中,可以将语音和视觉通道的特征相连接,组成一个观察向量,然后经过特征降维,再将最终的观察序列使用从左向右的HMM进行建模。在决策级融合方法中,首先对各个模态(通道)独立计算类条件概率,然后再产生总体的条件概率。独立HMM分别用两个分量HMM来表示音频和视频序列,与多流HMM相比,可以更灵活地对两个特征流的状态异步性进行建模。多流HMM和独立HMM作为决策级融合技术,都不能很好地处理音频流和视频流间的时域关联。
一个耦合HMM由多个分量HMM组合而成,不同分量HMM的隐节点间可以进行交互,同时各个分量HMM的隐节点具有独立的观察变量。在[t]时刻,某个分量HMM的隐节点状态依赖于所有相关的分量HMM在[t]时刻的隐节点状态。本节使用了连续型二分量耦合HMM,其中两个分量HMM分别对语音通道和视觉通道的特征流建模,如图1所示。
式中:[s∈audio,visual]表示某个通道(由分量HMM表示)。式(1)中,[πi]是耦合HMM的初始隐状态概率分布,[πsis]是各分量HMM的初始隐状态概率分布。[is]指某个分量HMM的隐状态。式(2)中,[bti]是耦合HMM的观察概率密度函数,[bstis]是某分量HMM中隐状态[is]的观察概率密度函数,其形式是混合高斯概率密度函数(如式(2)等号右侧所示),其中,[Msi]表示在该分量HMM中,隐状态[is]的观察概率密度函数中高斯密度函数的混合数。[wsi,m,][μsi,m,][Usi,m]分别表示在该分量HMM中,隐状态[is]的第[m]个高斯密度函数的混合权重、均值向量和对角协方差矩阵。[qst]和[Ost]分别表示某个分量HMM在[t]时刻的隐状态取值和观察向量。[λs]是某个分量HMM对应的指数。式(3)中,[aij]表示耦合HMM的状态转移概率,[asisj]表示从[t-1]时刻所有分量HMM的隐状态集合[j]到[t]时刻某个分量HMM的隐状态[is]的转移概率。
1.2 改进的EM算法
为了配合AdaBoost框架的建立,本节对耦合HMM的EM训练方法进行修改,使得训练过程中加入对样本权重信息的考虑,重点学习难于识别的样本。假设耦合HMM的训练样本集中共有[R]个样本,每个样本的权重为[Wr,r=1,2,…,R]。在耦合HMM的EM训练算法中,修改用于重估模型参数[wsi,m,][μsi,m,][Usi,m]和[asisj]的等式,将这4个等式右侧的每一项[1Pr]都替换成[WrPr]。改进后的EM算法如算法1所示。
算法1:耦合HMM改进的EM训练算法
1.3 情感识别实验与性能对比
从WOZ表情语音情感数据库1中取出5个实验者(2男3女)的录制数据进行实验。这些实验数据是由实验者在引导式(Wizard of Oz)场景下朗读带有七种基本情感(高兴、悲伤、愤怒、厌恶、恐惧、惊讶和中性)的句子。在基本情感类别的基础上,实验数据使用activation?evaluation空间粗分类方法进行了再次标注。随机选择4个人的情感数据作为训练集合,将剩下那个人的情感数据作为测试集合,分别评估本节方法在两种情感类别集合下的识别效果。整个识别过程是独立于实验者的,实验中执行五重交叉验证。
常规的耦合HMM可以对不同通道特征流的异步性进行建模,并捕获它们之间的时域关联,识别性能明显优于单模态的识别技术。而基于Boosted耦合HMM的双通道情感识别方法将耦合HMM作为分量分类器,基于改进的EM训练算法对其进行训练,从而在学习过程中偏重于难于识别的样本;并应用AdaBoost框架整合多个“弱”分量分类器,进一步增强耦合HMM的性能,从而得到识别率高的总体分类器。
表1展示了同样的实验数据在activation?evaluation空间中进行类别划分时,基于Boosted耦合HMM的双通道情感识别方法和上述三种方法的识别性能比较结果。实验结果表明,基于Boosted耦合HMM的双通道情感识别方法仍然具有较高的识别率和鲁棒性。
接下来,使用SEMAINE数据库中的自然情感语音?视频数据来测试基于Boosted耦合HMM的双通道情感识别方法。从ID为2,3,7和16的四位实验者的数据中提取出均匀分布的160个正面视频?语音片段,其中既包含用户角色,也包含操作员角色,每个片段被标注为属于activation?evaluation情感空间的某一个象限。
由表2中的实验结果可以看出,由于SEMAINE数据库中的情感数据更接近于自然情感,其中的特征变化相比WOZ引导式情感数据库更为细微,所以基于Boosted耦合HMM的双通道情感识别方法在SEMAINE数据库中的平均识别率(75.6%)要低于在WOZ情感数据库1上的准确率,但也取得了令人满意的结果,基于Boosted耦合HMM的双通道情感识别方法具有更高的计算效率。
2 基于多层Boosted HMM的多模态情感识别
方法
2.1 多层Boosted HMM分类器的结构
对于待识别的每个情感类别,建立一个多层Boosted HMM(MBHMM)分类器。由于使用了三个模态的特征数据,所以MBHMM分类器共有三层,包括第1层总体分类器、第2层总体分类器和第3层总体分类器。每层总体分类器由从左向右的[kv]个连续型HMM分量分类器组合而成,其中[v]表示当前层使用的模态。在MBHMM分类器的每层中,基于AdaBoost算法框架对分量HMM分类器进行訓练,产生一个强总体分类器。由当前层的总体分类器计算得出的训练样本权重用作下一层中样本的初始权重,第一层中令每个样本的初始权重都相等。各层的总体分类器经过线性组合,得到高识别率的MBHMM分类器。
2.2 改进的Baum?Welch训练算法
使用单一的特征流作为样本数据来训练连续型分量HMM分类器。三层总体分类器中每个分量HMM分类器的模型参数为[λ=N,A,wsi,m,μsi,m,Usi,m,π],其中[N]表示模型的隐状态数,[π]表示模型的初始隐状态概率分布,[A]为状态转移概率矩阵,[A=aij,1≤i, j≤N]。模型的观察概率密度函数为混合高斯密度函数:
Baum?Welch算法常被用来训练HMM,从而得到模型参数的最大似然估计。对Baum?Welch算法进行修改,考虑训练样本的权重,并使训练过程聚焦于那些难于识别的样本。修改后的Baum?Welch算法如算法2所示。
算法2:改进的Baum?Welch训练算法
式中:[Pr]指样本观察序列[xr]在该HMM模型下的概率;[γj,it]是在时刻[t]隐状态[j]到[i]的状态转换后验概率;[ξi,mt]表示时刻[t]的观察向量[Ot]在隐状态[i]的第[m]个高斯密度函数下的概率。
可以证明,改进后的Baum?Welch训练算法仍然是收敛的。改进的Baum?Welch算法使得迭代求解HMM分量分类器模型参数的过程中考虑到各样本的权重,使得训练着重于难于识别的样本。
2.3 情感识别实验与性能对比
从WOZ表情语音情感数据库2中取出5个实验者(2男3女)的录制数据进行实验。情感场景中,摄录机从正面和侧面同步录下包含实验者脸部表情及肩部运动数据的视频和语音片段。场景脚本中,每一种情感有3个不同的句子,每个实验者将每句话重复5遍。
其中[P]表示当前模态特征流的特征维数,对于语音模态,[P=14];对于脸部表情模态,[P=14];对于肩部运动模态,[P=10]。
对于高斯概率密度函数的均值向量[μi,m,]將训练样本当前模态的每个观察序列分成[N]段,然后在每段内用K均值聚类算法产生高斯密度函数的均值向量[μi,m]的初值。
实验结果如表3所示。表3展示了本节方法与以下五种方法的识别率对比:仅使用语音特征的HMM(其隐状态数设为5);仅使用脸部表情特征的HMM(其隐状态数设为5);仅使用肩部运动特征的HMM(其隐状态数设为3);常规3分量?耦合HMM(实验中3个分量HMM分别对应语音、脸部表情和肩部运动模态,各分量HMM的隐状态数取法和单特征HMM中的取法相同);Boosted耦合HMM(耦合HMM的3个分量HMM分别对应语音、脸部表情和肩部运动模态,各分量HMM的隐状态数取法和单特征HMM中的取法相同)。
从实验结果可以看出,MBHMM分类器的识别性能在两种情感类别集合下都要明显高于单模态HMM和常规耦合HMM,同时也略高于Boosted耦合HMM。虽然不属于模型层融合方法,但MBHMM分类器在训练过程中充分利用了多模态信息之间的互补性,不但在使用某一模态的特征流进行训练时着重于识别难度大的样本,并且在使用某一特征流训练当前层总体分类器时着重于前一特征流的总体分类器难于识别的样本,所以取得了良好的识别效果。
接下来,使用SEMAINE数据库中的自然情感语音?视频数据来测试基于多层Boosted HMM的多模态情感识别方法,实验数据的选取方式及实验过程与基于Boosted耦合HMM的双通道情感识别方法相同。分类的目标是将某个自然情感数据片段识别为隶属于Activation?Evaluation空间中的某一象限。实验中,MBHMM分类器的第1层总体分类器(对应语音模态)和第2层总体分类器(对应脸部表情模态)中的连续型HMM分量分类器的隐状态数[N]设为7,第3层总体分类器(对应肩部运动模态)中的连续型HMM分量分类器的隐状态数[N]设为4。表4展示了基于多层Boosted HMM的多模态情感识别方法在SEMAINE数据库中的分类准确率。
由表4中数据可见,使用本节方法在SEMAINE自然情感数据库中的平均识别率为79.4%,略高于基于Boosted耦合HMM的双通道情感识别方法。
3 结 论
在Boosting方法的基础上,本文提出两种基于AdaBoost算法框架的多模态(通道)情感识别方法。第一种方法使用视觉和语音双通道特征,采用改进的EM训练算法,结合AdaBoost框架来增强分量耦合HMM(coupled HMM)的性能,使之在训练过程中更着重于难于识别的样本,得到AdaBoost?CHMM总体分类器。第二种方法称为多层Boosted HMM(MBHMM)分类器,分别使用脸部表情、语音和肩部运动三个模态的特征之一作为MBHMM分类器每一层的输入。改进的Baum?Welch学习算法在训练分量HMM分类器时偏重于该模态特征难于识别的样本,进而获得该层的总体分类器。下一层总体分类器的训练过程着重于前一层总体分类器识别困难的样本,从而实现不同模态间的信息互补。在引导式表情语音情感数据库以及SEMAINE自然情感数据库上的实验验证了这两种方法的有效性。
参考文献
[1] 赵力,黄程韦.实用语音情感识别中的若干关键技术[J].数据采集与处理,2014,29(2):157?170.
[2] 宋静,张雪英,孙颖,等.基于模糊综合评价法的情感语音数据库的建立[J].现代电子技术,2016,39(13):51?54.
[3] 韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25(1):37?50.
[4] 蒋斌,贾克斌.一种用于表情识别的局部判别分量分析算法[J].电子学报,2014,42(1):155?159.
[5] 郝俊寿,丁艳会.基于智能视觉的动态人脸跟踪[J].现代电子技术,2015,38(24):12?15.
[6] 吴迪,吴限,秦瀚.基于回归函数的多角度人脸识别算法研究[J].声学技术,2015,34(2):172?175.
[7] 肖秦琨,钱春虎,高嵩.一种基于Boosting目标识别方法[J].电气自动化,2013,35(5):101?103.
[8] 闫静杰,郑文明,辛明海,等.表情和姿态的双模态情感识别[J].中国图象图形学报,2013,18(9):1101?1106.
[9] 王宝军,薛雨丽,于适宁,等.多模情感数据库的设计与评价[J].中国科技论文,2015(20):2395?2398.
[10] 夏晓玲.集成语音信号与表面肌电信号的情感自动识别模型[J].激光杂志,2015,36(4):131?134.