基于在线字典学习的人脸超分辨率重建

2022.09.23

刘芳华+阮若林+王建峰+倪浩

摘要：针对基于学习的人脸超分辨率算法噪点、伪影较多，且噪声鲁棒性较差的问题，提出一种基于在线字典学习的人脸超分辨率重建算法。以人脸图集作为训练图库，运用在线字典学习方法提高字典训练的精度。独立调整字典学习阶段的正则化参数和求解重建稀疏系数阶段的以获取最优的超完备字典和稀疏系数用于图像重建。实验结果表明，目标图像峰值信噪比比同一类型的稀疏编码超分法平均提高了0.85 dB，结构相似性增加了0.013 3，有效地抑制了噪点和伪影。在含噪人脸图像应用中，噪声水平提高时，峰值信噪比下降相对较平缓，提升人脸超分效果的同时改善了算法的噪声鲁棒性。
关键词：在线字典学习；超分辨率重建；含噪人脸图像；稀疏编码
中图分类号： TN911.73?34； TP391.9 文献标识码： A 文章编号： 1004?373X（2017）13?0057?05
Abstract： Aiming at the problems of more noisy points and artifacts， and poor noise robustness existing in the learning?based human face super?resolution algorithm， a human face super?resolution reconstruction algorithm based on online dictionary learning is proposed. The human face image set is taken as the training library. The online dictionary learning method is used to improve the accuracy of dictionary training. The regularization parameter λt of the dictionary learning phase is regulated independently， and regularization parameter λr in the reconstruction stage of the sparse coefficients is solved to get the optimal overcomplete dictionary and sparse coefficients for image reconstruction. The experimental results show that the peak signal?to?noise ratio （PSNR） of the target image of the proposed algorithm is 0.85 dB higher and the structural similarity is 0.0133 higher than that of the same type sparse coding super?resolution algorithm averagely， which can restrain the noisy point and artifact effectively. The application result of noisy human face image shows that the PSNR is decreased smoothly when the noise level is increased， which can improve the robustness against noise while promoting the performance of face super?resolution.
Keywords： online dictionary learning； super?resolution reconstruction； noisy human face image； sparse coding
0 引言
在安全监控、授权、生物测量等人脸图像应用领域，人脸图像获取时的外部条件不尽相同，如大多数监控场景中，摄像头离监控对象较远，导致场景图像中人脸分辨率很低。因此需通过超分辨率重建等技术增强人脸分辨率，改善识别、建模等后续处理任务的效果[1]。为充分挖掘脸部的特殊结构，人脸超分算法大多运用稀疏编码方法，在局部图像子空间利用非负矩阵分解等算法解决低分人脸超分问题[2]。文献[3]将人脸相关的超分方法称为“虚幻脸”，运用启发式方法建立基于图像金字塔的迭代预测模型，因先验不够准确和像素独立预测会产生图像不连续和伪影。文献[4]中的两步统计法整合了全局主成分分析（Principal Component Analysis，PCA）模型和局部块模型，前者用到的启发式模型对超分结果过度渲染，而后者又过于复杂。文献[5]中基于张量块和残差补偿的方法给人脸增加更多细节，但伪影也较明显。文献[6]从图像样本块学习得到多级局部约束，利用图像块修复方法恢复高分图像。文献[7]结合变形人脸模型和基于PCA的超分框架，将基于PCA的超分方法应用到低分输入图像的纹理和形状中，重建相应的高分纹理和形状，这两种方法与原图相差较大。文献[8]将人脸图像分为器官和面部轮廓两部分，前者通过精确的学习算法保留高频图像结构的连续性，后者用学习到的统计先验来凸显轮廓结构，超分效果较好。
许多常规图像超分算法用于人脸超分辨率重建也能取得较好的效果。文献[9]采用流形学习方法，利用局部线性嵌入通过样本学习得到高、低分辨率图像之间的关系用于恢复目标高分图像。文献[10]提出的稀疏编码超分方法利用联合字典训练生成超完备字典，但边缘伪影较明显。在一定的重建约束条件下，有的算法利用多帧序列图像结合求解最大后验概率完成超分任务，还有一些利用在局部图像块对学习到的先验知识用于单图超分。由于这类算法未考虑到人脸图像的特征，且受字典精度影响较大，当输入低分图像的分辨率非常低时，算法效果较差。本文针对常规图像超分算法的不足，以基于学习的人脸超分算法为基础，提出基于在线字典学习的人脸图像超分辨率重建算法，通过引入在线字典训练和优化稀疏系数来提高超分效果。
1 基于学习的人脸超分辨率重建
根据稀疏表示理论，人脸、自然图像等信号可以表示为超完备字典中一系列基向量的稀疏线性组合[11]。通常，基于学习的人脸超分辨率重建框架中，需求解以下目标函数的最小值：
式中：为正则化参数；为图像块集中的第个图像块，可表示为超完备字典与其对应的的稀疏系数的稀疏线性组合；和分别为数据拟合项和稀疏惩罚项。
与一些典型的基于稀疏表示的单幅图像超分辨率重建模型一样，引入拉格朗日乘子后，基于学习的人脸超分辨率重建问题可以表述为[12]：
式（2）可以看成一个典型的基追踪问题或Lasso问题，正则化参数用于平衡式中的两项。和两个变量中一个固定求另一个时为经典的凸优化问题。可以通过最优方向法、奇异值分解[13]等方法迭代直到收敛，更新得到和同时，如果字典过大，稀疏系数的值可能会过小，因此需要约束的列使其范数小于或等于1，即训练得到的超完备字典必须满足其中约束条件为：
根据上述稀疏表示模型，人脸超分辨率重建可分为四步：
第一步，图像块处理。根据重建图像建立高分人脸训练图库，按照字典训练要求将训练图像和输入低分人脸图像划分为图像块，再利用特征提取算子提取人脸图像特征，通常使用的含4个一维滤波器：为转置。每个图像块经过滤波器处理后得到4个描述特征的向量，将它们组合起来可以形成一个总体特征向量来表示图像块[9]。
第二步，字典训练。根据式（2），通过随机填充、离散余弦变换等简单方法设定初始字典，再用正交匹配追踪等算法解出稀疏系数然后用奇异值分解等方法对稀疏字典逐列迭代更新得到高分字典和低分字典
第三步，求解稀疏系数。结合输入低分人脸图像块和已解出的通过式（4）解出用于图像重建的稀疏系数
在Matlab中可以利用SPAMS工具箱中提供的函数顺利解出。
第四步，图像重建。稀疏表示理论认为高、低分辨率空间中稀疏系数近似相同，即存在则高分图像块的高频部分可以通过下式计算：
再将所有预测到的重叠若干像素合并所有高分图像块得到目标高分图像的高频部分。在重叠区域，最终恢复值为各像素多次预测得到的加权平均值。最后，将低分输入人脸与插值放大后得到与目标图像大小相同的作为重建图像的低频部分，与计算得到的高频部分叠加得到目标高分图像：
式中：为从高分图像的第个位置上提取图像块的窗函数。除上述直接重建模型外，为使重建图像严格满足重建约束其中和分别为下采样和模糊操作数。一些重建模型除包含重建约束项和稀疏超分正则项外，还引入局部先验、非局部先验等正则项，通过梯度递减迭代计算出目标高分图像[14]。
2 改进算法
以基于学习的超分辨率重建技术为基础，文中算法在字典训练时引入在线学习方法训练生成超完备字典对，并通过优化正则化参数、改善噪声的鲁棒性来进一步提升算法的超分效果和去噪能力。
2.1 引入在线字典学习
在基于学习的超分辨率重建过程中，字典训练的结果是影响超分结果的关键因素。在线字典训练时，可看作是的统计参数组合，利用图像块进行字典更新时，其结果只与当前字典和输入的图像块数据有关，而与之前的图像块数据无关[15]。也就是说，在线学习得到的字典更新时并不需要完整的历史图像块信息，它与传统的字典学习方法的区别可表述为：
在线字典学习过程中并不需要每次都记录、处理它将当前的和上一步迭代生成的结合起来，可以统计地表示为这种字典学习方法生成的字典更为准确，而且在视频帧序列等大规模动态数据的应用方面应用广泛，这是传统的字典学习方法无法企及的。因此，文中采用在线字典学习算法分别进行高、低分人脸样本训练，先后得到和具体方法如下：
（1）初始化训练参数。设定字典训练阶段用到的正则化参数和图像块大小以图像块集作为输入信号，利用随机矩阵、离散余弦变换、稀疏编码等方法对初始字典进行初始化。
（2）稀疏编码计算稀疏系数。从初始字典开始，利用最小角回归算法迭代求解：
式中：表示字典训练的迭代次数，根据已知输入的图像块向量更新稀疏系数虽然用于训练的人脸图像集非常大，但图片数量通常是确定的，即训练集尺寸是一定的。因此，尽管在线字典学习算法也适用于不定尺寸训练集和大规模训练集，文中为了平衡算法时间消耗和训练效果，与一些传统字典训练算法比较，还是采用确定大小的训练集进行字典训练。
（3）迭代更新字典。用作为热启动，结合每次更新得到的稀疏系数根据下式迭代更新
为了使的列不会因过大而导致其不满足约束条件这里引入约束最优化来解决这个问题。结合牛顿迭代法进行归一化处理后得到：
（4）生成字典。次迭代完成后，生成超完备字典根据已知的训练高分图像和插值缩小得到的低分训练图像按照上述步骤分别先后生成高分字典和低分字典
2.2 优化稀疏系数
当算法在字典学习阶段引入在线字典学习等较为精确的学习方法时，可以得到最优的超完备字典对根据若要使重建的高分图像块足够准确，除高分字典外，也必须足够准确。而式（4）中根据输入和求解的稀疏系数也只是一个用于图像块重建的近似值。而根据式（4），可以通过调整字典訓练阶段的正则化参数来找到最适合的重建稀疏系数
在式（11）中第一行的字典训练阶段和第二行求解重建稀疏系数阶段，许多算法都使用相同的正则化参数，即结合上述分析，当训练和重建阶段设置相同的正则化参数时，如果通过调整得到最优的则字典训练阶段的也同时被调整，就无法保证训练生成的足够精确。因此，文中改进算法在字典训练阶段和求解重建稀疏系数阶段分别设置不同的正则化参数和实验中可以通过灵活调整它们的值分别得到图像块重建时所需的最优高分字典和稀疏系数。
3 实验结果
实验中采用Multi?PIE[16]中大小为240×320的1 990幅人脸图集作为训练集，用双三次插值法（Bicubic）将高分人脸源图像缩小3倍作为测试图像随机选取。目标超分图像放大3倍。采样图像块数量取50 000，低、高分图像块大小分别为3×3和9×9，重建时高分图像块重叠1像素。Bicubic放大2倍后用特征提取算子提取特征，且只对人眼比较敏感的输入彩色图像亮度部分进行超分重建。
3.1 PSNR与视觉效果
实验中将本文算法与Bicubic法、位置修补法[6]（Ma10）和稀疏编码法[10]（Yang10）的超分效果进行对比，使用常用的峰值信噪比（Peak Signal to Noise Ratio，PSNR）和结构相似性（Structural Similarity，SSIM）两项指标来评价。其中，Ma10和Yang10分别代表结构型和常规图像型人脸超分算法，实验中随机选取了40幅人脸图像，部分超分结果如表1所示。从整幅图像的PSNR值来看，Ma10的超分效果最差，平均比最简单的Bicubic法还要低3.04 dB。以自然图像为训练集的Yang10总体上与Bicubic处于同一水平，其中，测试图像0146.png超分结果差距最大，比Bicubic法提高了0.3 dB。本文算法在四种方法中表现最好，所有图像的PSNR和SSIM均为最大值，且比Yang10的PSNR平均提升0.85 dB，SSIM平均提升0.013 3。
从图1中的视觉效果对比上来看，虽然Ma10超分结果的PSNR值比Bicubic低得多，但看起来更清晰。这是因为它所使用的位置修补法对图像进行了“涂抹”：将对比度大的高频部分增强，如眼眶边缘、眼神，光看起来最自然；将变化较为缓慢的低频部分，如发丝、背景文字、皱纹、斑点等细节虚化。这种操作使其偏离源图像较远，PSNR值低，但“美颜”效果较好。Yang10与Ma10在视觉上的处理方向是相反的，整体上图像更加清晰，皱纹、背景文字等边缘细节表现更好，这是因为它增强的图像高频范围比Ma10更大，缺点是图像噪点增多，眼皮上方、背景文字等图像边缘伪影较明显。本文算法的视觉表现最好，既不过分涂抹，也未过分锐化，最为自然，未产生明显伪影。
3.2 正则化参数的影响
采用本文改进算法，将字典大小设置为设置不同的正则化参数对进行超分重建。实验中随机选取20幅输入图像，正则化参数从0.02～0.2每隔0.02取值形成正则化参数对部分结果如表2所示。从5组图像的超分结果可以看出，当训练和重建阶段的正则化参数相同时，取（0.2，0.2）时的PSNR值最低，取（0.1，0.1）时PSNR提高 [10]0.64 dB。在字典训练和求解稀疏系数两个阶段分别设置不同的正则化参数并进行独立地调整，得到的超分结果与取（0.1，0.1）时处于同一水平，取（0.1，0.04）时超分效果最好，PSNR比取（0.1，0.1）时提升0.07 dB。因此，3.3节中的噪声鲁棒性以（0.1，0.04）作为参照，通过调整噪声方差进行分析讨论。
3.3 噪声鲁棒性
大多数单图超分算法均假设输入源图像干净、无噪声污染，这种假设通常与超分算法的实际应用条件相背离。为了测试改进算法对于噪聲的鲁棒性，实验中在低分输入图像上叠加不同程度的0均值加性高斯噪声进行超分辨率重建，高斯噪声的标准差取var={1，2，…，10}。在进行含噪图像超分时，正则化参数应随噪声标准差逐渐增大[10]。根据实验人脸图像大小，实验参考同类型的Yang10中的稀疏编码超分算法中的参数设置方法，将用于图像重建的正则化参数均相应设置为经验值0.03 var。
测试图像001.png的不同程度加噪图像超分结果的PSNR值对比如图2所示。Yang10法在噪声水平较低时比Bicubic法好，但噪声较严重时，较严重的伪影使其噪声也增强，PSNR值比Bicubic下降得更快。本文算法的PSNR值最大，同时随噪声方差增加而下降的趋势比其他算法更为平缓，不同噪声水平影响下PSNR值最稳定，噪声鲁棒性最好。
4 结语
基于在线字典学习的人脸超分辨率重建算法以人脸数据集作为外部训练图像，引入在线字典学习方法，经过图像训练先后生成准确的超完备字典对。在字典训练阶段和求解重建稀疏系数阶段设置不同的正则化参数并进行独立地调整，以取得最佳的高分字典和稀疏系数用于目标图像块重建。本文算法比经典的稀疏编码人脸超分算法在PSNR和SSIM上都有较大幅度的提升，图像视觉上噪点和伪影更少、更自然，贴近原始高分图像。而且，处理含噪图像时，超分图像的PSNR值更加稳定，噪声鲁棒性更好。但本文算法的不足之处在于，当训练样本增大时，训练和重建阶段的计算量呈线性增长，时间消耗和内存消耗更大，后续研究中将进一步优化在线字典学习中的稀疏编码和字典更新模型，提高超分速度。
参考文献
[1] WANG N， TAO D， GAO X， et al. A comprehensive survey to face hallucination [J]. International journal of computer vision， 2014， 106（1）： 9?30.
[2] LEE D D， SEUNG H S. Learning the parts of objects by non?negative matrix factorization [J]. Nature， 1999， 401（6755）： 788?791.
[3] S BAKER， T KANADE. Hallucinating faces [C]// Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition. Grenoble， France： IEEE， 2000： 83?88.
[4] LIU C， SHUM H Y， FREEMAN W T. Face hallucination： theory and practice [J]. International journal of computer vision， 2007， 75（1）： 115?134.
[5] LIU Wei， LIN Dahua， TANG Xiaoou. Hallucinating faces： TensorPatch super?resolution and coupled residue compensation [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego， USA： IEEE， 2005： 478?484.
[6] MA X， ZHANG J， QI C. Hallucinating face by position?patch [J]. Pattern recognition， 2010， 43（6）： 2224?2236.
[7] JEONG?SEON P， SEONG?WHAN L. An example?based face hallucination method for single?frame， low?resolution facial images [J]. IEEE transactions on image processing， 2008， 17（10）： 1806?1816.
[8] YANG C Y， LIU S， YANG M H. Structured face hallucination [C]// Proceedings of the 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Portland， USA： IEEE， 2013： 1099?1106.
[9] CHANG H， YEUNG D， XIONG Y M. Super?resolution through neighbor embedding [C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington DC， USA： IEEE， 2004： 275?282.
[10] YANG J C， WRIGHT J， MA Y. Image super?resolution via sparse representation [J]. IEEE transactions on image processing， 2010， 19（11）： 2861?2873.
[11] 盛帅，曹丽萍，黄增喜，等.基于改进稀疏编码的图像超分辨率算法[J].计算机应用，2014，34（2）：562?566.
[12] LEE H， BATTLE A， RAINA R， et al. Efficient sparse coding algorithms [C]// Proceedings of the 19th International Confe?rence on Neural Information Processing Systems. Vancouver： [s.n.]. 2007： 801?808.
[13] 张小丹，范九伦，徐健，等.K均值聚类和支持向量数据描述的图像超分辨率算法[J].中国图象图形学报，2016，21（2）：135?144.
[14] ZHANG K， GAO X， TAO D， et al. Multi?scale dictionary for single image super?resolution [C]// Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Rhode Island， USA： IEEE， 2012： 1114?1121.
[15] MAIRAL J， BACH F， PONCE J， et al. Online learning for matrix factorization and sparse coding [J]. Journal of machine learning research， 2010， 11（10）： 19?60.
[16] GROSS R， MATTHEWS I， COHN J， et al. Multi?PIE [J]. Image & vision computing， 2010， 28（5）： 807?813.