改进的DWT?MFCC特征提取算法

2022.10.01

殷瑞祥++程俊杰

摘要：基于离散小波变换的美尔倒谱系数（DWT?MFCC）[1]将小波变换引入到MFCC参数的提取中，用DWT代替FFT将语音信号分解为多个频带的小波系数，并将小波系数的频率响应直接拼接为完整频谱后再通过Mel滤波器获得。改进的DWT?MFCC特征提取算法从滤波的角度分析小波分解过程及各子带频谱的变化，提出了新的有效频谱拼接方式。实验结果表明，改进的特征提取算法提高了说话人的识别率；同时，在该算法下随着小波滤波器dbN长度的增加，滤波器截止特性变好，识别率也随着增加。
关键词：小波变换；频谱拼接；滤波；子带
中图分类号： TN911?34 文献标识码： A 文章编号： 1004?373X（2017）09?0018?04
Abstract： The wavelet transform based on DWT?MFCC is introduced into the parameter extraction of MFCC. The DWT replaces the FFT to decompose the speech signal into the wavelet coefficient with multiple sub?bands. The frequency response of the wavelet coefficient is spliced to a full spectrum directly， and obtained with the Mel filter. The improved feature extraction algorithm based on DWT?MFCC analyzes the wavelet decomposition process and spectrum variation of each sub?band proceeding from filtering to propose a new effective spectrum splicing method. The experimental results show that the feature extraction algorithm improved the recognition rate of speaker， and the cutoff characteristic of the filter and recognition rate become better with the increase of dbN length of the wavelet filter.
Keywords： wavelet transform； spectrum splicing； filtering； sub?band
0 引言
說话人识别，即根据输入语音确定发音者的身份，是利用生物特征进行身份鉴别和认证的方法之一，是一种高效的人机交互，身份识别及信息检索手段[1]。基于Mel频率的倒谱系数MFCC（Mel Frequency Cepstrum Coefficient）将人耳的听觉感知特性和语音的产生机制相结合[2]，与其他特征参数相比，在说话人识别中表现出更好的优势。MFCC特征参数采用短时傅里叶对信号进行线性等间隔的频带划分，是一种平稳的信号分析提取方法，而语音信号是一种典型的非平稳信号，由此引入小波变换的多分辨率分析对信号进行有效地时频分解。DWT?MFCC [3?5]在MFCC特征提取的基础上引入小波变换。对于不同分辨率的小波系数，随着分辨率的降低，相应的小波系数在语音频域中所占的位置也移向低端。这时对不同分辨率的小波系数各自做FFT变换，根据它们的分辨率级数将它们的频谱拼接成完整的频谱（第一层小波系数的频率响应放在频谱的最高位，其他层依次排放）。该参数表现出了较好的噪声鲁棒性，但在无噪环境下，MFCC与DWT?MFCC的识别率没有太多差异[4]，文献[3]中语音识别率也没有太多差异，文献[5]中的说话人识别率达到88.7%。
本文在DWT?MFCC的基础上从滤波和信号处理的角度分析了小波分解过程及各层小波如何携带信号频谱，并结合语音信号FFT后的频谱特点，提出新的频谱拼接方式，即改进的DWT?MFCC特征提取算法。该算法中小波变换对信号能量进行了重新分配，高频成分比重有了提高，大大提高了说话人识别率。
1 小波分解的滤波器
小波变换实质上是用小波函数对信号进行卷积积分，小波函数的性质决定了小波变换的性质。在快速算法中，小波函数用一对数字滤波器表达，相应的小波变换采用数字滤波器实现[6]。从信号处理的角度来看，小波分析就是一个带通滤波器组，在二进小波情况下，它实际上是一个倍频带通滤波器[7]。研究表明，小波变换在各频段的恒Q（品质因数）特性与人耳听觉对信号的加工特点相一致，相当于一组建立在薄膜震动基础上的恒Q带通滤波器[8?9]，因此小波变换可以理解为具有恒Q性质的倍频带滤波器组。小波变换多分辨率信号分解可以用一个树形多采样率滤波器组来表示。采用dbN小波对一段语音信号进行三层小波分解的系统等效图如图1所示。
为一段语音信号，Hi_D和Lo_D分别是小波函数与尺度函数对应的高通滤波器与低通滤波器，且Hi_D与Lo_D都是带滤波器（归一频率）。信号经过两通道滤波器组后频带被平分为高频部分与低频部分，信号被分为2个子带，带宽减半，可以实现对高频部分与低频部分小波系数的2倍下采样，得到信号的细节系数和近似系数；随后再对低频部分进行第二层小波分解，以此类推。小波多分辨率分析将滤波器组与信号的多速率分析[10]很好的结合起来，实现了对信号的多频带划分。一帧奈奎斯特频率为4 kHz的语音信号，经过三层小波分解后形成的频带为0～0.5 kHz，0.5～1 kHz，1～2 kHz，2～4 kHz共四个频带，每一层的信号采样率依次减半。因此信号的细节小波系数、及近似系数可以描述原语音信号。
2 信号抽取后的频谱变化
由图1所示的小波多子带划分可知，和是语音信号通过三层二通道滤波器后的原信号在2～4 kHz，1～2 kHz，0.5～1 kHz，0～0.5 kHz四个频带对应的时域信号；是相应频带信号2倍下采样得到的信号，然而描述了信号2～4 kHz的高频成分，描述了信号1～2 kHz的成分，描述了信号0.5～1 kHz的成分，则描述了信号0～0.5 kHz的成分。下采样后的信号变成普通的时域信号，其频谱不再与未采样前的带通信号一样只分布在该频带。
从式（9）可以看出2倍抽取后的信号频谱变为了原频谱（频率轴频率为原来2倍）及以为对称轴的镜像频谱（即向右平移）。
在图1系统中，2倍下采样后通过低通滤波器的信号会使得低通频带扩充到整个的频带；2倍下采样后通过高通滤波器的信号会使得高频带下变频并扩展到整个的频带[11]。
对于低通带限信号，2倍下采样后，在新的奈奎斯特率范围内，频谱形状并未发生改变；然而对于高通信号，2倍下采样后，信号频谱会产生下变频，在新的奈奎斯特频率范围内产生低频镜像，即新的频谱是原来频谱的平移和翻转。
3 改进的DWT?MFCC特征提取算法
传统的DWT?MFCC把小波变换引入MFCC参数的提取中，得到信号在不同分辨率上的小波系数表示，将每个分辨率下的小波系数频谱拼接成完整的频谱（第一层小波系数的频率响应放在频谱的最高位，其他层依次排放）再用感知域滤波，转化为维数较低的特征参数。
矢量量化（VQ）是一种很重要的数字信号处理方法。具有不同说话特征的说话人可以用特定说话人语音信号的特征参数在空间的分布来描述。用VQ建立识别模型，可大大减少数据存储量及计算量[12]。
应用改进的DWT?MFCC特征提取及VQ识别模型的说话人识别系统框图如图2所示。
图2中虚线框内即为改进的DWT?MFCC特征提取框图，其具体实现过程如下：
（1）把一帧语音信号进行离散小波分解（层数为3层），形成频带0～0.5 kHz，0.5～1 kHz，1～2 kHz，2～4 kHz，求出每一个频带的小波系数。
（2）求取每一层小波系数的频谱，每一层小波系数FFT后如图3所示。
（3）频谱拼接
近似系数（低频部分）的频谱（图中的一半）直接放置在第一层；由于高通信号抽取后下变频在低频处产生镜像，所有细节系数（高频部分）的频谱（图中的一半）翻转后按照分辨率由小到大拼接；如此便拼接出了整个信号的频谱（FFT幅度谱的对称性），后半段则是拼接后频谱的镜像对称。
人耳可以听到20 Hz～20 kHz的音频信号，但人说话的声音能量主要分布在300～3 400 Hz，在大于3 400 Hz之后的能量逐渐接近零值。统计发现实验中每个人的一帧语音中第一层细节系数（描述信号2～4 kHz）频谱（如图3的频谱）前面约20个点（带宽长312.5 Hz）幅值接近0。为了减小计算量，把第一层细节系数频谱的20个零值去掉后取前一半翻转拼接。
（4）拼接好的频谱求能量，通过Mel滤波器组，取对数能量，经过DCT变换即可获得改进的DWT?MFCC特征参数。
4 实验对比结果
实验数据来源：声音来自手机录音，录音人员共28人，包括15名男性和13名女性。录音环境为普通房间，朗读不同的文本获取语音数据。经过cool edit音频处理软件进行处理，得到时长为20 s，10 s，5 s，3 s的语音库。采样频率经转换为8 kHz，量化精度为16 b。
本次实验采用20 s语音作为训练语音，剩余10 s，5 s，3 s這3种时长作为测试数据。语音经过预加重，预加重系数为0.97，用帧长为32 ms，帧移为12.5 ms的汉明窗进行加窗（即窗长256点），对每一帧用dbN小波（N取2～10）进行3层小波分解，经过FFT变换后用上文的拼接方式拼接成完整的信号频谱。随后经过Mel滤波得到12阶DWT?MFCC系数及其一阶差分，共24维，用码书大小为32的VQ识别模型进行说话人识别。
文献[5]采用6层小波分解，原始的DWT?MFCC特征提取算法，20个说话人，20 s训练，20 s测试时的识别结果如表1所示。
对比表1～表3可知，在改进的DWT?MFCC特征提取算法下，说话人识别率有了很大的提高；随着滤波器长度的增加，滤波器截止特性变好，该算法下的识别率也随着增加。
已知小波变换遵循与傅里叶变换中帕斯瓦尔定理相类似的能量比例性定理[13]，即小波变换幅度平方的积分和信号的能量成正比。小波分解后信号能量成比例缩放，且能量分布有了变化。
经验性地规定2～4 kHz为高频部分[14?15]，统计发现，在原语音频谱能量中该成分占比0.158 5，预加重后占比0.400 8，而在小波分解后拼接的频谱中，该频段能量占比0.566 3，小波变换突出了信号高频部分的特性。
同一段语音引入小波变换后原DWT?MFCC算法下的拼接频谱与改进算法下的频谱相比，改进算法的拼接频谱更接近原始频谱的变化趋势，如图4所示。经过小波变换，信号的能量得到重新分配。高频段的能量获得了相对整体能量更多的比重，因此识别率得到了提高。
5 结论
本文分析了DWT?MFCC特征提取过程中，从滤波器与信号处理的角度分析信号小波分解并下采样后频谱变化的特点，提出了改进的DWT?MFCC特征提取算法。充分发挥了小波变换后能量重新分布对高频信号加重的优势，突出了高频区域内包含区分说话人差异的信息，在无噪环境下，大大提高了说话人的识别率。同时，随着滤波器长度的增加，滤波器截止特性变好，改进算法下的拼接频谱减小了频谱失真，识别率也随之增加。
参考文献
[1] 赵铮，侯伯亨.基于小波变换说话人识别技术的研究[J].西安电子科技大学学报（自然科学版），2000，27（4）：437?441.
[2] 薛凌云，夏国荣.基于小波变换的语音特征参数提取[J].电子世界，2014（2）：99?100.
[3] 刘鸣，戴蓓倩，李辉，等.基于离散小波变换和感知频域滤波的语音特征参数[J].电路与系统学报，2000，5（1）：21?25.
[4] 梁五洲.抗噪语音识别特征提取算法的研究[D].太原：太原理工大学，2006.
[5] 刘雅琴，周炜.基于小波变换的说话人语音特征参数提取[J].河南科技大学学报（自然科学版），2005，26（4）：44?46.
[6] 何岭松.小波函数性质及其对小波分析结果的影响[J].振动工程学报，2000，13（1）：143?146.
[7] VETTERLI M， HERLEY C. Wavelets and filter banks： theory and design [J]. IEEE transactions on signal processing， 1992， 40（9）： 2207?2232.
[8] 檀蕊莲，柏鹏，李哲，等.基于小波变换的说话人识别技术[J].空军工程大学学报（自然科学版），2013，14（1）：85?89.
[9] 张惠云.多速率数字信号处理及其研究现状[J].军民两用技术与产品，2006（5）：39?41.
[10] 徐爽.小波分析理论在说话人识别中的應用研究[D].秦皇岛：燕山大学，2004.
[11] OPPENHEIM A V， SCHAFER R W. Discrete?time signal processing [M]. Upper Saddle River， Prentice Hall Inc.， 1989.
[12] 吴亮春，潘世永，何金瑞，等.改进的基于小波包变换的语音特征提取算法[J].计算机工程与应用，2011，47（5）：210?212.
[13] 杨福生.小波变换的工程分析与应用[M].北京：科学出版社，1999.
[14] 陈迪，龚卫国，李波.噪声鲁棒性说话人识别语音高频加权MFCC提取[J].仪器仪表学报，2008，29（3）：668?672.
[15] 李梦超.基于说话人识别的特征参数提取改进算法的研究[D].南京：南京师范大学，2014.