基于协作表示和正则化最小二乘法的多姿态人脸识别方法

谌湘倩 刘珂 马飞



摘 要: 针对现有人脸识别方法不能很好地处理姿态变化的问题,提出一种基于协作表示和正则化最小二乘法的多姿态人脸识别方法。利用通用弹性模型(GEM)将图库中的人脸图像构建成为一个3D模型,在3D人脸姿态的三个方向(偏航、俯仰和翻滚)上提取特征,构建一个三维协作字典矩阵(CDM),利用正则化最小二乘法(RLS)和协作表示(CR)分类法对人脸进行识别分类。在AR和视频人脸数据库上进行实验,结果表明,该方法能够有效地解决具有姿态变化的人脸识别,同时对表情和光照变化也具有鲁棒性,且实时性高。
关键词: 多姿态人脸识别; 3D模型; 协作表示; 正则化最小二乘法
中图分类号: TN911.73?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)05?0049?05
Abstract: Since the existing face recognition method can′t deal with the posture change better, a multi?pose face recognition method based on collaborative representation (CR) and regularized least square (RLS) method is proposed. The generalized elastic model (GEM) is used to construct a 3D model of the human face image in the image library. The features in three directions (yaw, pitching and rolling) of the 3D face posture are extracted to construct a three?dimensional collaborative dictionary matrix (CDM). The RLS method and CR classification method are adopted to recognize and classify the human faces. The experiments were carried out with AR and video hunman face databases. The results show that the method can effectively solve the face recognition with posture variation, has the robustness for expression and illumination changes, and high real?time performance.
Keywords: multi?pose face recognition; 3D model; collaborative representation; regularized least square method
0 引 言
随着生物识别技术的飞速发展,人脸识别(Face Recognition,FR)及其在生物特征识别、模式识别和计算机视觉上的应用成为研究的热点[1]。尽管许多人脸识别算法能在约束环境下取得良好的识别效果,但在实际应用中,人脸图像的不同光照条件、面部表情、头部姿态对识别性能具有显著的影响[2]。其中,无约束姿态变化人脸识别是最具挑战性的任务[3]。
近期,学者们提出了许多用于姿态变化的人脸识别方法,例如,文献[4]提出一种基于尺度不变特征融合的识别方法,利用尺度不变特征转换算法提取尺度不变特征,在一定程度上能够解决姿态变化的影响。文献[5]提出一种基于姿态矩阵的联合动态系数表示分类的人脸识别方法,将图像构建成3D模型,然后生成姿态矩阵。然而,该方法对具有较大姿态变化人脸的识别率较低。文献[6]提出一种基于特征库矩阵(FLM)框架的姿态不变人脸识别方法,利用双树复数小波变换提取特征,并利用支持向量机进行迭代评分分类。文献[7]提出一种基于稀疏字典矩阵框架的姿态不变人脸识别方法,采用局部二值模式和稀疏表示分类算法。该方法具有较高的姿态变化人脸识别率,但在构建稀疏字典矩阵时不能获得有限且稳定的最稀疏解。
针对姿态变化的人脸识别,提出一种基于协作表示和正则化最小二乘法的快速人脸识别方法。在AR人脸数据库上进行实验,证明了提出的方法能够很好地识别姿态变化的人脸,同时对表情和光照也具有鲁棒性。此外,还在Biwi Kinect视频数据库上进行实时识别实验,与现有方法相比,提出的方法具有更高的精确度和更快的速度。
1 协作表示
协作表示(CR) [8]是稀疏表示(SR)的一种改进算法,其在估计表示系数时,重点考虑表示的协作性,放松对稀疏性的要求。协作表示法利用范数作为约束条件,求得的稀疏矢量同样可以很好地表示测试样本[9]。
从[k]个离散类中收集带有标签的训练样本,然后通过确定新探测样本属于哪個类别来完成表示过程。设定[Ai=[vi,1,vi,2,…,vi,ni]]表示图库中第[i]类的一个[m×ni]大小的训练矩阵,[ni]表示训练矩阵的列集合。将矩阵[Ai]中的每一列[vi,j]矢量化为一个灰度图像。可利用矩阵[Ai]的组织结构进行人脸识别,对单个类中的样本进行建模并在一个线性子空间中对其进行表示。与此同时,如果第[i]类中含有足够数量的样本,对相同类中任何新测试样本[y]进行估计来表示矩阵[Ai]中列的线性长度,即:
实际上,利用[l0]?最小化代替[l1]?最小化可以获得最稀疏的解,但却引入了一个NP难题。那么,式(4)中的最优化问题可作为一个基追踪(BP),可以利用标准线性编码技术在多项式时间内对其进行求解。
在一般人脸识别方法中,为了获取优异的识别率,致使特征维度的定位过程较长。最新的协作表示分类(CRC)法比稀疏表示更有效且更快速。因此,本文不需要利用[l1]正则化对[x]进行稀疏,利用CRC法求解下面的最优化问题[10]:
设定[P=(ATA+λI)-1AT,]显然[P]与[y]无关,因此可预先将[P]作为一个投影矩阵计算出来。当生成一个序列样本[y]后,就可以利用[Py]对[y]进行投影,这样可以使CR获得非常快的运行速度。
利用[x]进行分类的过程类似于稀疏表示分类方法中的分类过程,除了类特定表示残差[y-Ai?xi22],其中[xi]表示与类[i]相关的系数向量,[l2]?正则化的“稀疏度” [xi22]可以引入作为用于分类的判别数据。
2 特征提取
利用协作表示(CR)在图像姿态的三个方向上进行特征提取,然后构建成三维协作字典矩阵(CDM) [11],特征提取及三维CDM构建的基本框架如图1所示。
特征提取及三维CDM创建过程可以分为以下几个步骤:
步骤1:输入目标[i]的图像信息。
步骤2:对于目标[i,]利用通用弹性模型(GEM)[12]方法构建3D人脸。
步骤3:对于目标[i,]根据人脸的所有姿态和可能视角合成3D人脸,在目标姿态矩阵[Si(Y,P,R)]的三个方向(偏航、俯仰和翻滚)提取出人脸的姿态特征。[Si(Y,P,R)]是一个尺寸为[x×x×x]的立方矩阵,[Si(Y,P,R)]总的数组长度为[x×x×x=x3。]实际上,目标[i]的[Si(Y,P,R)]矩阵中的数组是根据人脸姿态结构的三个角度进行设定的,其中[i]表示目标的个数,[Y,][P]和[R]表示[Si(Y,P,R)]矩阵中相应维度(偏航、俯仰和翻滚)数组的数量。为了能够覆盖所有的人脸姿态,偏航(yaw)、俯仰(pitch)和翻滚(roll)的角度范围为[-90°~90°。]因此,[Si(Y,P,R)]的尺寸为[x=180°s=180°5=36°,]其中[s]表示步长,[180°]表示人脸姿态的每个方向上覆盖的姿态角度。比如,[Si(Y=8,P=3,R=4)]表示人脸的姿态角度为[yaw=][8×5(s=5)=40°,][pitch=3×5=15°,][roll=4×5=20°]。
步骤4:在每个[Si(Y,P,R)]中,对于人脸姿态的每个特定三维角度[(y,p,r)],在以[(y,p,r)]为中心点的周围选取一个尺寸为[3×3×3]([ni=27],其中[n]表示[si(y,p,r)]总的数组个数)的子训练矩阵[si(y,p,r)]。图1给出了[si(y,p,r)]图像的子训练矩阵内置特定三维角度的例子,其表示如下:
[si(y,p,r)=Si(Y=y-1:y+1,P=p-1:p+1,R=r-1:r+1)] (7)
步骤5:协作表示方法要求字典[A]中的每个类都具有多个可利用的样本。在本文中,根据人脸姿态的三维角度生成协作字典[A]的一个立方矩阵。将立方矩阵[A(Y,P,R)]定义为一个三维CDM,其中字典[A]保存在每一个数组中。因此,对于每个特定的姿态[(y,p,r)],通过[si(y,p,r)]矩阵生成的协作字典[Ai]来构建[Ai(Y=y,P=p,R=r)]的数组,其中[Ai[vi,1,vi,2,…,vi,ni]=[si(y-1,p-1,r-1),…,si(y,p,r),…,][si(y+1,p+1,r+1)]]表示第[i]类中含有[ni=27(3×3×3)]个样本的训练图像。实际上,[(y,p,r)]姿态处的[si(y,p,r)]中的协作字典[A]保存在[Ai(Y=y,P=p,R=r)]中。
对于所有姿态以及[Si(Y,P,R)]的数组重复执行这个处理过程。因此,利用基于协作表示和GEM的3D人脸构建,生成了每个目标的协作字典矩阵(三维CDM)。其中,每个三维CDM的尺寸与目标姿态矩阵[Si(Y,P,R)]的尺寸类似。
步骤6:最终输出具有[Am×n(Y,P,R)=[A1(Y,P,R),][A2(Y,P,R),…,Ai(Y,P,R)]]的三维CDMs。其中根据式(2)可知,[i]表示数据库中目标的个数,根据姿态的三维角可以生成式(2)中的立方矩阵。
综上所述,提出的方法根据人脸姿态的三维角生成每个目标的三维CDM。比如,对于姿态角度[yaw=15°,][pitch=35°,][roll=40°,]步长[s=5]的[Ai(Y,P,R)]的数组数量为[Y=yaws=3,][P=pitchs=7,][R=rolls=8]。因此,为姿态角度选取的[Ai(Y=3,P=7,R=8)]的数组为[yaw=15°,][pitch=35°,][roll=40°]。本文中,当估计的姿态不是5的倍数时,可将其四舍五入为5的倍数。比如,可以将[yaw=32°]姿态四舍五入为[yaw=30°]。
3 基于RLS_CR的人脸识别
本文提出的方法中,需要为每个目标准备两幅图像,一幅作为训练图库集,另一幅作为测试集。本文基于CDM和RLS_CR方法的人脸识别系统的流程图见图2。
本文系统操作分为线下和线上两个阶段。在线下阶段,对2D数据库中每个人的正面人脸图像進行登记,然后,对于每个登记过的人脸,利用GEM构建3D人脸。接着,执行特征提取。最后,根据每个人脸生成三维CDM。
在线识别阶段,首先,利用文献[13]提出的CLM方法对每个探测图像进行预处理和人脸检测。然后,再利用CLM姿态估计方法对人脸的姿态角度进行估计。接着,对于每个人,根据姿态估计角度选取三维CDM的一个数组[Ai(Y=yaw,P=pitch,R=roll)]。最后,对每个面部部分进行独立识别过程:给定一个测试样本[y]和训练矩阵[A(Y=yaw,P=pitch,R=roll)=[A1(Y=yaw,P=pitch,R=roll),][A2(Y=yaw,P=pitch,R=roll),…,Ai(Y=yaw,P=pitch,R=roll)],]
作为算法1中的输入项[y]和[A=A(Y=yaw,P=pitch,R=roll)。]实际上,在三维CDM中存在许多学习字典,利用姿态估计从中选取一个字典,然后利用本文提出的RLS_CR分类法进行分类。
算法1 RLS_CR分类算法
(1) 输入:训练矩阵[A]和探测矩阵[y。]
(2) 标准化:对[A]的列进行单元[l2]正则化。
(3) 编码:通过[A]对[y]进行编码:[x=Py,]其中[P=][(ATA+λI)-1AT。]
(4) 计算:将计算的正则化残差作为误差表示:
[ei(y)=y-Ai?xi2xi2]
(5) 输出:[y]的身份:
[身份(y)=argmini{ei(y)}]
4 实验及分析
在FETET,AR,LFW和视频数据库上对提出的姿态变化人脸识别方法进行性能评估,并与现有的先进方法进行对比,分别为:尺度不变特征融合法(FSIF)、姿态矩阵的联合动态系数表示分类法(DSRC)、特征库矩阵法(FLM)和稀疏字典矩阵分类法(SDM)。实验使用MATLAB 7.0在个人计算机上实现,计算机配置为:Windows 7操作系统、酷睿i5处理器、2.53 GHz主频、4 GB RAM。
4.1 AR数据库上的实验
本文提出的方法主要是用來应对姿态变化,为了检测提出的方法对表情和光照的鲁棒性,在AR人脸数据库中进行实验。AR人脸数据库包括70个男性、56个女性的4 000幅图像,这些图像包含有六类差异:脸部表情变化(无表情、微笑、生气、尖叫)、不同的光照变化。本文从原始AR数据库选择100个对象(50个男性和50个女性)用于实验。本文对脸部表情变化和不同光照条件情况分别进行实验。图3描述了AR数据库中不同表情和不同光照的人脸图像。
在AR数据库中,对不同脸部表情变化和光照的图像进行识别实验。对于表情变化图像,将包含三个不同的表情200幅图像作为训练样本,剩余的表情图像作为测试样本。AR数据库中共包括四种光照条件:柔光、左侧光、右侧光和强光,实验中,不同光照条件的每个人4幅图像用于训练,其余的图像用于测试。各种方法在AR数据库中的实验结果如表1所示。
从表1可以看出,提出的方法对所有脸部表情都能达到很高的识别率。另外,提出的方法在左侧光和右侧光条件下的识别率达到了100%。结果表明,提出的方法同样能够应对表情和光照变化的人脸。
4.2 视频数据库上的实验
对提出的方法处理视频人脸识别的性能进行评估。实验中采用了Biwi Kinect头部姿态[14]数据库中的30个人的30个视频,在每个视频中,每个目标超过1 000帧。这些视频中头部姿态的变化范围为:倾斜方向上为[±60°],偏航方向上为[±75°]。将本文CDM+RLS方法与SDM+RLS方法、FLM方法、SDM方法进行比较。并分别计算CDM+RLS和SDM+RLS在稀疏表示中的最小化表示误差值,对每一帧中呈现的所有姿态的最小化表示误差进行跟踪。
图4表明提出的方法在对每个姿态的每个探测帧进行人脸识别的过程几乎为实时识别,平均每秒处理8~13帧(FPS=8~13)。此外,图5表明提出的方法比SDM+RLS方法具有较低且稳定的表示误差。这是因为CRC中的正则项使三维CDM更加稳定,其能够生成有限量的稀疏度用于决策。因此,不仅具有最稀疏的解,而且还具有有限并稳定的表示,并通过计算表示误差做出最后的决策。
根据表2中的结果,可以看出,提出的方法识别率和平均时延均优于其他方法。这是因为,提出的方法采用正则化项使最小二乘解稳定,并将有限量的“稀疏度”引入到解[x]中,其中,这个稀疏度远远弱于[l1]正则化,从而证明,通过生成最稀疏的解能够提高识别率。
5 结 语
本文提出一种基于协作表示和正则化最小二乘法的姿态变化人脸识别方法。利用通用弹性模型(GEM)将图库中的人脸图像构建成3D模型,并在三个方向上提取特征,构建一个三维协作字典矩阵(CDM),利用RLS_CR分类算法对人脸进行识别分类。在AR数据库上进行实验,结果证明提出的方法对于具有姿态变化的人脸具有很高的识别率,同时,对表情和光照变化也具有鲁棒性。在Biwi Kinect视频人脸数据库的实验表明,提出的方法具有很高的实时性,能够满足实时识别的要求。
在今后的研究中,将对提出的方法进一步扩展,使其能够对具有遮挡的人脸进行有效识别。
参考文献
[1] 周旭东,陈晓红,陈松灿.半配对半监督场景下的低分辨率人脸识别[J].计算机研究与发展,2012,49(11):2328?2333.
[2] PEDDIGARI V R, SRINIVASA P, KUMAR R. Enhanced ICA based face recognition using histogram equalization and mirror image superposition [C]// Proceedings of 2015 International Conference on Consumer Electronics. [S.l.]: IEEE, 2015: 625?628.
[3] 周凯汀,郑力新.基于改进ORB特征的多姿态人脸识别[J].计算机辅助设计与图形学学报,2015,27(2):287?295.
[4] 李根,李文辉.基于尺度不变特征变换的平面旋转人脸检测[J].吉林大学学报(工学版),2013,43(1):186?191.
[5] MOEINI A, MOEINI H, FAEZ K. Real?time pose?invariant face recognition by triplet pose sparse matrix from only a single image [C]// Proceedings of 2014 22nd International Conference on Pattern Recognition. Tehran: IEEE, 2014: 465?470.
[6] MOEINI A, MOEINI H. Real?world and rapid face recognition toward pose and expression variations via feature library matrix [J]. IEEE transactions on information forensics & security, 2015, 10(5): 969?984.
[7] MOEINI A, MOEINI H, FAEZ K. Unrestricted pose?invariant face recognition by sparse dictionary matrix [J]. Image & vision computing, 2015, 36(C): 9?22.
[8] 魏冬梅,周卫东.近邻样本协作表示的人脸识别算法[J].西安电子科技大学学报,2015,42(3):115?121.
[9] 詹曙,臧怀娟,相桂芳.基于协作表示残差融合的三维人脸识别[J].中国图象图形学报,2015,20(5):115?121.
[10] YANG C, LIU C, WU N, et al. Collaborative representation with reduced residual for face recognition [J]. Neural compu?ting & applications, 2014, 25(8): 1741?1754.
[11] KHAJI R, LI H, HASAN T M, et al. Relaxed collaborative representation for face recognition based low?rank matrix recovery [C]// Proceedings of 2014 IEEE International Confe?rence on Wavelet Analysis and Pattern Recognition. [S.l.]: IEEE, 2014: 50?55.
[12] RAYMOND S T. Elastic face recognizer: invariant face recognition based on elastic graph matching model [J]. Internatio?nal journal of pattern recognition & artificial intelligence, 2011, 16(4): 463?479.
[13] SARAGIH J M, LUCEY S, COHN J F. Deformable model fitting by regularized landmark mean?shift [J]. International journal of computer vision, 2011, 91(2): 200?215.
[14] MIN R, KOSE N, DUGELAY J L. KinectFaceDB: a kinect database for face recognition [J]. IEEE transactions on systems man & cybernetics systems, 2014, 44(11): 1534?1548.