拉曼光谱结合稀疏非负最小二乘算法用于混合物组分识别

    颜凡 朱启兵 黄敏 刘财政 张丽文 张恒

    

    

    

    摘?要?拉曼光谱数据含有与被测物质组分相对应的指纹谱信息,是混合物组分识别的有效方法。传统的拉曼光谱法用于混合物组分检测时, 存在光谱特征提取困难、搜索比对算法性能容易受数据库大小影响、识别精度难以保证等问题。针对此问题,本研究提出了一种基于稀疏非负最小二乘算法的混合物组分拉曼光谱识别方法。本方法将待识别的混合物光谱数据看作是各种纯净物光谱数据的线性表示;考虑到混合物组分数量相对于数据库中纯净物数量具有稀疏特性,利用稀疏最小二乘算法获得混合物光谱在纯净物光谱数据中的线性表示系数;并根据统计学中的2δ准则确定疑似组分;在此基础上,利用迭代最小二乘算法并结合T检验方法,实现混合物组分的最终识别。本研究基于自建的500种纯净物拉曼光谱数据库,对组分等体积比混合的19個混合物样本和不同体积比的81个样本进行了组分识别。结果表明,在等体积比情况下,本算法的查准率为90.24%,查全率为88.10%;对于不同体积比的混合物样本,整体查准率为93.22%,查全率为83.65%, 表明此算法具有良好的稳定性和准确度。

    关键词?混合物组分识别; 拉曼光谱; 稀疏非负最小二乘算法

    1?引 言

    混合物组分识别一直是分析化学中的难题。质谱和色谱分析法、化学实验室法、固相萃取法等[1,2]组分识别方法虽然具有较高的灵敏度和精确度,但是无法满足快速、简便的检测要求。近年来,基于拉曼光谱的检测分析方法由于具有无损、非接触、无化学污染、检测时间短、检测结果准确、重复性好、适用于大多数有机和无机化合物等优点,得到了广泛的应用[3~5]。然而,通过数学解析的方法提取拉曼光谱中包含的分子结构信息仍然具有很大的挑战,特别是复杂的混合物光谱。目前,研究者已开发了各种化学计量学方法用于鉴定拉曼光谱中的成分。

    搜索算法与数据库相结合是解决混合物组分识别的一个重要方法。数据库为解释拉曼光谱提供强大的工具,随着数据库规模的增加,各种各样的搜索算法应运而生。大量的搜寻方法是通过采用相关系数、欧几里得距离、绝对值相关性和最小二乘法比较相似性,但是这些方法仅适用于检测纯物质[6]。在实际应用中,多组分的样本是很常见的,因此,迫切需要开发鉴定混合物组分的算法。

    Vignesh等[7]提出了一种混合物分析算法。该算法是首先通过搜索算法以生成样本中可能存在的疑似物质列表,然后计算列表中每种物质的偏相关值,使用建立的广义线性模型将偏相关值转换为确定的成分在混合中真实存在的概率。但是该方法估计的概率的有效性取决于搜索算法的准确性,若搜索算法错过多组分混合物中的一个或多个真实组分,则其估算的概率不可信。

    马靖[8]提出了一种基于激光拉曼光谱技术的二维分析方法,通过综合分析特征谱线及若干特征谱线的强度比来测定混合溶液中存在的有机化合物,但特征峰的选取需要根据相关文献资料及光谱标识规律确定。

    Zhang等[9]通过自定义的匹配质量结合反向搜索对混合物进行定性分析,但匹配质量是根据两种物质拉曼光谱的峰位与峰强定义的,其结果依赖于寻峰算法的准确性。黄培贤等[10]提出了一种子空间重合判断法,将测得的混合物光谱视为向量,通过计算混合拉曼光谱与标准样品数据库拉曼光谱的子空间夹角,并依据子空间夹角变化确定混合物组分。Fan等[11]提出了一种基于卷积神经网络(CNN)模型的混合物组分识别方法,得到了比传统建模方法更优的结果。针对由甲醇、乙腈、蒸馏水构成的三元混合物,能正确定性识别组分的最低体积浓度为4%。

    综上,现有的拉曼光谱混合物组分识别方法多依赖于拉曼光谱的谱峰特征提取,并逐一比对数据库中物质与被测物质拉曼光谱特征的相似性。在实际测量中,当混合物中组分较多时,其拉曼光谱谱峰的重叠较为严重,给谱峰的特征提取与相似性计算带来了极大困难。同时,当数据库规模较大时,这种逐一比对的方法将极为耗时,并会产生较大的识别误差[12]。

    在拉曼光谱数据库完备的情况下,混合物的拉曼光谱在数学上可视为拉曼光谱数据库中拉曼光谱信号的线性表示。通常情况下,混合物组分相比于数据库中的物质是稀疏的,换言之,混合物拉曼光谱数据在数据库上的表示系数是稀疏的。近年来,信号的稀疏表示被广泛的运用在信号处理等领域。本研究基于这种稀疏性质,提出了一种基于稀疏非负最小二乘算法(Sparse non-negative least squares algorithm,SNNLS)的混合物拉曼光谱识别方法。此方法通过计算混合物拉曼光谱数据在光谱数据库中的稀疏表示系数,利用统计学中的2δ准则获取较小的混合物成分疑似物质库; 在此基础上,利用迭代最小二乘算法和T检验方法,确定混合物的组分。基于自建的500种纯净物质数据库,对组分等体积比混合物(19个样本)和不同体积比的三元、四元混合物(81个样本)进行了组分识别。结果表明,此算法具有良好的稳定性和准确度。

    2?算法原理与实验

    2.1?实验仪器与实验样本

    拉曼光谱数据用Finder Edge手持拉曼光谱仪(北京卓立汉光仪器有限公司)采集,激发源为785 nm激光器,激光功率350 mW, 光谱范围150~2700 cm1,光谱分辨率为8~10 cm1 。 采集了500种纯净物在相同环境下的拉曼光谱数据,积分时间设置为1s,功率值约为70 mW,室内环境温度约为23℃。500种纯净物数据库由北京卓立汉光仪器有限公司建立,主要由常见化学物质和管制品组成。其中常见化学物质购于国药集团化学试剂北京有限公司,纯度为二级品,适用于重要分析和一般性研究工作; 管制品来源于公安机关,纯度在98%以上。利用这500种纯净物的拉曼光谱数据(经过预处理)作为纯净物拉曼数据库。在公共安全中,对一些有毒、有害、易燃易爆等物质的准确检测至关重要。因此,本研究选择了丙二酸二乙酯、丙酮、二丙酮醇、环己烷、乙醇、乙腈6种纯净物配制混合物,采集其拉曼光谱对算法进行验证。

    图1为6种纯净物的原始光谱图。由于这6种物质在常温下物理状态相同,都为无色液体,并且大部分为有毒有害物质,或易燃危险品(如乙醇),它们的分子结构比较类似,任意两种物质的拉曼光谱都存在部分谱峰重叠情况(图1)。考虑到纯净物谱峰之间的相互重叠现象,按组分等体积比混合配制了19个二元、三元混合物,表1为19个混合物样本的组成; 考虑到各组分不同体积比混合对拉曼光谱数据的影响,配制了5种三元混合物样本和3种四元混合物样本,其中三元混合物样本配制了9种不同的体积比,四元混合物样本配制了12种不同的体积比,共81个样本,部分样本信息如表2所示。

    2.2?SNNLS算法阐述

    由于在实际环境中,混合物的组分可能多种多样,要完全对其定性分析则需要龐大的拉曼光谱数据库。SNNLS算法利用所有纯净物的全谱信息进行定性分析,避免了通过特征提取等降维操作改变数据结构、丢失有用信息的缺陷; 同时,SNNLS算法可获取待识别物质在整个数据库物质上的投影系数,克服了遍历搜索方法存在的计算复杂度大的缺点。

    设A∈Rm+n+为所有纯净物光谱数据构成的非负矩阵(m为光谱维数,n为纯净物样本个数),则对于任意一个待识别混合物光谱y∈Rm+, 可由纯净物光谱矩阵A线性表示,其表示系数为向量x,即y=Ax。 x向量中各分量xi,i=1, 2, … n的大小与待识别物质中所含纯净物的浓度相关,在纯净物数据库完备且数量较大的情况下,表示系数向量x是稀疏非负的。因此,本研究构造一个一范数稀疏非负约束方程,求解表示系数向量x:

    minf(x)=‖Ax-y‖2+λ‖x‖1(1)

    s.t.?xi≥0

    其中,xi表示待识别光谱y在第i个纯净物下的表示系数。λ为稀疏惩罚因子,用于控制解向量x的稀疏性,其值越大,相应的解x越稀疏,本研究设置稀疏惩罚因子λ=n100(其中n为光谱数据库样本总数)。

    将方程(1)转换为无约束的对数障碍函数ni=1lnxi, 以方便求解:

    minF(x)=‖Ax-y‖2+λni=1xi-Δnni=1lnxi(2)

    其中,Δ=‖Ax-y‖2+λ‖x‖1-(-(Ax-y)T(Ax-y)-(Ax-y)Ty), Δ越趋近于零, 代表此时的解x越靠近最优解。随着x逐渐向最优解靠近, Δ逐步减小,相应的惩罚项-Δnni=1lnxi会随着解x逐步逼近最优解而趋近于零 [13]。对方程(2)的求解可采用牛顿内点法,算法的具体步骤如下: 步骤(1)对于待测光谱y和已知的纯组分光谱数据库A,设定初始解x1=(1,1,...,1)n×1, 循环次数初始化为k=1, 初始步长α=1,步长缩减因子s=0.5,控制参数c=0.5; 步骤(2)?若Δ<10-3,则退出循环,并输出xk, 否则通过牛顿法确定迭代方向dxk=-F'(xk)F″(xk); 步骤(3)?若步长α满足F(xk+αdxk)≤F(xk)+αcF(xk)dxk,以及xki≥0 (i=1,2,...,n),则转步骤(5), 否则转步骤(4); 步骤(4)?令α=s·α,转步骤(3); 步骤(5)?令xk+1=xk+α·dx, k=k+1, 转步骤(2)。

    2.3?混合物组分的确定

    相比于实验室用高精度拉曼光谱系统,手持式拉曼光谱仪的测量环境难以控制,且仪器的分辨率普遍偏低,从而导致纯净物光谱存在较大的测量误差。在纯净物光谱数据库较大的条件下,利用SNNLS获得的解向量虽然是稀疏的,但很难直接通过解向量的系数大小判断物质是否存在。考虑到方程(2)获得的表达系数xi是稀疏的,即在解向量x中, xi值较大的数量很少,可认为是一个小概率事件(相对于整个解向量x而言)。 借助于统计分布思想,将取值落在(μ-2δ, μ+2δ)外的xi认为是小概率事件,其中,μ和δ分别为向量x的均值和标准差。如果xi落在(μ-2δ, μ+2δ), 则代表数据库中的第i种物质为不相关物质,反之,将其归为疑似物质。

    通过上述方法获得的疑似物质仍然偏多,为进一步确定疑似物质,本研究将疑似物质的光谱按照对应的系数xi,由大到小进行排列,得到B=(b1,b2,...,bL),其中,b1,b2,...,bL为数据库A中L个疑似纯净物光谱。对前l(l=1, 2, … L)个纯净物光谱b1,b2,...,bl与待测样本光谱y, 利用最小二乘算法求取拟合系数xl1,xl2,...,xll, 并计算残差Δl=y-b1xl1-b2xl2-…,-blxll, Δl∈Rm。 重复此过程,可得到不同基底下的拟合残差序列Δl,l=1, 2, … L。T检验使用t分布理论来推断差异发生的概率,从而比较两列数据是否存在显著差异。本研究对以上残差使用T检验确定混合物的组分。按照顺序依此计算两两残差的P值,若P(Δl-1, Δl)<0.01, 则代表两残差之间有显著差异。即相对于前l-1个疑似纯净物光谱(b1, b2, …, bl-1)所拟合的残差序列Δl-l, 第l个疑似物质光谱bl的引入, 对拟合残差有较大贡献,应作为疑似物质保留; 反之,可认为第l个疑似物质对整体拟合误差没有贡献,可排除。通过上述途径,可进一步缩小疑似物质库,实现对待测混合物的定性识别。

    2.4?算法评价指标

    对于混合物成分定性识别问题,查准率(Precision ratio, P)和查全率(Recall ratio, R)是最为常用的两个性能指标,本研究采用这两个指标评价算法的性能。P反映了检测的准确性,其定义为所检出的混合物中真实存在的组分占检出组分总数的百分比; R反映了检测的全面性,其定义为所检出的混合物中真实存在的组分占混合物组分总数的百分比。其定义公式如下:

    P=TPTP+FP(3)

    R=TPTP+FN(4)

    其中, TP为实际存在于混合物中并被检测到的物质; FP为实际不存在于混合物中但被检测到的物质; FN为实际存在于混合物中但未被检测到的物质。

    3?结果与讨论

    3.1?光谱预处理

    由图1可见,物质原始光谱中含有荧光背景和噪声等干扰,影响混合物组分的正确识别。因此,在建立数据库并应用检测算法之前,需对原始光谱进行预处理,去除干扰成分。小波变换由于具有高低频信号分离的特点,可在不丢失原信号重要信息成分的前提下,将原光谱信号进行滤化处理,消除噪音信息,重构出更加清晰的光谱特征,从而提高了信号的清晰度,为信号的预处理提供了更方便的条件。本研究利用连续小波变换和惩罚最小二乘函数拟合背景线,去除荧光背景和噪声[14]。選取墨西哥帽小波作为母波,其数学表达式如下:

    Ψ(x)=23π

    14(1-x2)e

    x2/2(5)

    图2A为S20样本在9种不同体积比下的拉曼原始光谱图,可见含有较强的荧光背景; 图2B为背景校正后的拉曼光谱图,可见通过连续小波函数和惩罚最小二乘法相结合的方法进行背景校正后,消除了荧光背景产生的基线对物质拉曼光谱的影响,保留了光谱的有用信息。

    3.2?算法的优势

    本研究通过制备的组分等体积比混合的混合物样本(表1),对SNNLS和文献[9]提出的RSearch-NNLS算法进行比较,具体的自由参数设置与文献[9]一致,表3给出了具体的性能对比。RSearch-NNLS通过检测光谱的峰强与峰位计算混合物光谱与纯物质的相似度。由表3可见,RSearch-NNLS的FP指标较高,其查准率仅为70.59%; 而本研究提出的SNNLS算法中仅出现4例FP,查准率达到90.24%,查全率也相对提高了2.39%。上述结果表明, SNNLS算法采用光谱的全波段数据进行混合物组分识别,避免了通过寻峰以及重叠峰的分解可能出现漏峰,以及重叠峰分解不完全等对识别精度的影响。

    3.3?数据库的大小对算法的影响

    为了检验数据库大小的变化对SNNLS算法的影响,从自建的500种纯净物的数据库当中,随机产生大小为100、200、300、400的子数据库。为保证所产生的子数据库相对于制备的混合物样本具有完备性,本研究将含有制备混合物样本的6种纯净物预先固定于子数据中,然后依次随机抽取94、194、294、394种纯净物构成100、200、300、400的子数据库,同一尺寸随机抽取10次。根据随机生成的子数据库采用SNNLS依此对混合物进行检测,结果如图3所示,随着数据库规模增大,查准率的均值波动小于2%,最大方差为3.6%; 查全率的均值每次虽会逐步下降,但每次下降不超过2%,最低精度也大于90%,说明此算法在数据库规模增加时检测结果依然稳定,具有良好的鲁棒性和准确性。

    3.4?数据库不完备时算法的性能

    在实际的检测中,有时可能会出现数据库不完备(数据库中不含有混合物中部分组分)的情况。为了模拟这种情况,本研究从数据库中人为删除了一些存在于混合物中的组分,然后用SNNLS对混合物进行定性识别。如从数据库中移除纯净物丙二酸二乙酯的拉曼光谱,对含有丙二酸二乙酯组分的混合物样本S1、S4、S6、S11、S15、S16和S18(表1)进行识别,以检验算法的性能。采用同样方法,依次检测制备混合物组分的其它5种纯净物缺失的情况。

    由表4可知,由于SNNLS算法需要在误差范围内尽可能地拟合待测样本光谱,算法会搜寻到类似缺失项的光谱进行填充,这导致了大量FP的出现,降低了查准率,但平均查全率仍然维持在较高的水平(79.25%),这表明在数据库不完备的情况下,所关注的混合物中的物质也可大部分被检出。

    3.5?混合物各组分体积浓度变化对算法的影响

    考虑到混合物中各组分在不同体积比混合下对应的拉曼光谱具有差异性(图2),而光谱数据的差异常会对各组分的识别产生重要影响。因此,本研究通过制备不同体积比的三元、四元混合物样本(表2),对SNNLS和Rsearch-NNLS算法性能进行比较(表5),SNNLS算法中,丙酮、二丙酮醇的查准率和查全率要明显优于Rsearch-NNLS,但乙醇的FN指标相对较高(22)。其原因可能是乙醇的拉曼吸收峰相对较少,在其浓度较低时会出现漏检的情况,导致查全率下降; 而RSearch-NNLS算法中,FN指标相对稳定,不受各组分拉曼吸收峰多少的影响,这是因为RSearch-NNLS通过拉曼谱峰的峰强与峰位计算混合物光谱与纯物质的相似度。从整体结果来看,相较于RSearch-NNLS,SNNLS的查准率和查全率分别提高了17.78%和3.04%。上述结果表明,SNNLS算法在保证解稀疏的前提下,通过调整数据库中每种纯净物的系数对混合物光谱进行拟合,使残差最小化,组分能正确定性识别与其所占的体积浓度和本身的拉曼吸收峰数量有关,总体上能正确定性识别组分的体积浓度在10%以上。

    4?结 论

    本研究提出了一种拉曼光谱中混合物的定性分析SNNLS算法,直接将全波段作为输入信息进行定性识别,在保证解稀疏的前提下,通过调整数据库中每种纯净物的系数对混合物光谱进行拟合,使残差最小化,实现混合物的定性分析。利用500种纯净物构成的数据库进行了实验验证,结果表明,在等体积比混合的19个混合物样本中,算法的查全率为88.10%,查准率可达90.24%,与RSearch-NNLS相比,查全率提高了2.39%,查准率提高了19.65%; 在不同体积比的81个混合物样本中,查全率和查准率分别为83.65%和93.22%,证明了此算法的稳定性和准确性。此外,本研究也模拟了不完备数据库下的混合物识别情况,结果表明,算法的平均查全率为79.25%,表明在数据库不完备的情况下,混合物中的物质大部分也可被检测到,证明算法具有较好的鲁棒性。在混合物中组分的特征峰较少且浓度较低,或不同组分构建的混合物具有类似的拉曼光谱特征(峰位、强度)时,算法存在组分特征难以充分挖掘、性能降低的问题。如何提高上述情况下的定性分析结果,将是未来需要解决的问题。

    References

    1?LIU Bin, LIU Yun-Hu. Food Science and Technology, 2018, 43(6): 317-321

    劉 彬, 刘云虎. 食品科技, 2018, 43(6): 317-321

    2?WU Li-Sa, ZHAO Ming-Yue, GE Chang, CAI He-Qing, JI Ling-Bo, HU You-Chi, HU Jun. Tobacco Science & Technology,2018,51(4):46-52

    吴丽洒, 赵明月, 葛 畅, 蔡何青, 姬凌波, 胡有持, 胡 军.烟草科技,2018,51(4):46-52

    3?Stckel S, Kirchhoff J, Neugebauer U, Rsch P, Popp J. J. Raman Spectrosc.,2016,47(1):89-109

    4?Penido C A F D, Pacheco M T T, Lednev I K, Silveira L. J. Raman Spectrosc.,2016,47(1):28-38

    5?Li Y S, Church J S. J. Food Drug Anal.,2014,22(1):29-48

    6?Shashilov V A, Lednev I K. Chem. Rev.,2010,110(10): 5692-5713

    7?Vignesh T, Shanmukh S, Yarra M, Botonjic-Sehic E, Grassi J, Boudries H, Dasaratha S. Appl. Spectrosc.,2012,66(3): 334-340

    8?MA Jing. Spectroscopy and Spectral Analysis,2014,34(7): 1865-1868

    马 靖. 光谱学与光谱分析,2014,34(7): 1865-1868

    9?Zhang Z M, Chen X Q, Lu H M, Liang Y Z, Fan W, Xu D, Zhou J, Ye F, Yang Z Y. Chemometr. Intell. Lab. Syst.,2014,137: 10-20

    10?HUANG Pei-Xian, YAO Zhi-Xiang, SU Hui, SUN Kuo. Journal of Instrumental Analysis,2013,32(3):281-286

    黄培贤, 姚志湘, 粟 晖, 孙 阔.分析测试学报,2013,32(3):281-286

    11?Fan X, Ming W, Zeng H, Zhang Z M, Lu H M. Analyst,2019,144(5):1789-1798

    12?HU Zhi-Yu, WANG Qiang. Journal of Test and Measurement Technology,2016,30(5): 400-405

    胡志裕, 王 强.测试技术学报,2016,30(5): 400-405

    13?Koh K. Stanford University,2009: 59-66

    14?Zhang Z M, Chen S, Liang Y Z, Liu Z X, Zhang Q M, Ding L X, Ye F, Zhou H. J. Raman Spectrosc.,2010,41(6): 659-669

    Identification of Mixture Components Using Sparse Non-Negative

    Least Squares Algorithm Base on Raman Spectroscopy

    YAN Fan1, ZHU Qi-Bing*1, HUANG Min1, LIU Cai-Zheng1, ZHANG Li-Wen2, ZHANG Heng2

    1(Key Laboratory of Advanced Process Control for Light Industy,

    Ministry of Education, Jiangnan University, Wuxi 214122, China)

    2(Beijing Zhuoli Hanguang Instrument Co. Ltd., Beijing 101102, China)

    Abstract?Raman spectral data contain fingerprint spectral information corresponding to the components of the measured substances, which is an effective method to identify the components of mixtures. The traditional mixture component detection methods based on Raman spectrum have some issues such as the difficulty in extracting spectral features, the performance of search and peak matching algorithms is easily affected by the database, and the recognition accuracy is difficult to guarantee. To overcome these problems, a method of mixture components recognition using Raman spectrum based on sparse non-negative least squares algorithm is proposed. In this method, the spectral data of the mixture to be recognized is regarded as the linear representation of the spectral data of all kinds of pure substances. Considering the sparse characteristic of the mixture components quantity relative to the pure substance quantity in the database, the linear representation coefficient of the mixture spectrum in the pure substance spectrum data is obtained by the sparse non-negative least squares algorithm. And the suspected components are determined according to the statistical 2δ principle. On this basis, the iterative least squares algorithm combined with the T-distribution test method is used to realize the final identification of the mixture components. The Raman spectral data of 500 pure substances are used to build a standard database for identification of the experimental sample of 19 mixtures with equal volume ratio of components and 81 mixtures with different volume ratio of components. The results show that the precision is 90.24% and the recall is 88.10% under the condition of equal volume ratios, and the precision is 93.22% and the recall is 83.65% under the condition of different volume ratios, which proves the good stability and accuracy of the proposed algorithm.

    Keywords?Identification of mixture components;Raman spectroscopy;Sparse non-negative least squares algorithm

    (Received 6 May 2019;accepted 15 November 2019)

    This work was supported by the National Natural Science Foundation of China (No. 61775086).