藏语拉萨语LPC语音参数提取研究

卓嘎++董志诚



摘 要: 藏语语音参数提取是藏语语音识别的关键技术之一,参数提取的精确度直接影响语音识别的效果。线性预测系数(LPC)是语音信号的重要频域参数,是目前语音信号处理过程中比较重要的处理技术,广泛应用于语音压缩、语音声学建模、语音合成、语音识别等过程中。首先介绍了线性预测算法原理,然后提出了藏语语音LPC参数提取的方案,最后在Matlab平台上实现了藏语语音LPC参数的提取和仿真分析,研究结果对完善藏语语音合成技术和提高藏语语音识别效率有一定的研究参考价值。
关键词: 藏语语音; LPC; 参数提取; 语音信号
中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2017)18?0020?03
Research on speech parameter extraction of LPC in Tibetan Lhasa language
ZHUO Ga, DONG Zhicheng
(School of Engineering, Tibet University, Lhasa 850000, China)
Abstract: Tibetan speech parameter extraction is the one of the key technologies of Tibetan speech recognition. The accuracy of parameter extraction directly affects the effect of speech recognition. Linear prediction coefficient (LPC), as an important frequency domain parameter of speech signals, is currently an important processing technology in speech signal processing and widely used in the process of speech compression, speech acoustic modeling, speech synthesis, speech recognition and so on. In this paper, the principle of linear prediction algorithm is introduced. A scheme of LPC parameter extraction from Tibetan speech signals is proposed. LPC parameter extraction from Tibetan speech signals and simulation analysis are conducted on the Matlab platform. The results of the research provide some references for improving the Tibetan speech synthesis technology and the efficiency of speech recognition.
Keywords: Tibetan speech; LPC; parameter extraction; speech signal
語音识别技术是集信号处理技术、语言学、声学等知识的一门综合的、跨学科的技术。目前,由于大数据、深度学习、语音智能化研究的兴起[1],语音识别技术在国内外得到很多专家学者的高度关注[2?4]。线性预测算法[5](Linear Prediction)是语音识别的关键技术之一,这一术语是维纳1947年首次提出的,此后,线性预测应用于许多领域中。1967年,板仓等人最先将线性预测技术直接应用到语音分析和合成中。随着这一算法的深入研究和不断完善,在语音的合成、分析、编码和识别等方面得到了广泛的应用。
本文首先介绍了LPC线性预测算法原理,然后提出了藏语语音LPC参数提取的方案,最后在Matlab平台上实现了藏语语音LPC参数的提取和仿真分析。
1 LPC线性预测算法原理
LPC线性预测原理:对于输入的一段语音信号,首先用信号样点间的相关性,获得线性预测的参数值,然后将预测样点的值与原始语音信号样点的值相减,得到的误差值用某种计算准则降到最低,从而逼近原始语音波形。已知原始语音信号样点值为[s(n)],预测语音信号样点值[s(n)]的关系如下,[p]为原始样点的个数,[ak]为加权系数即预测系数,那么预测样值[s(n)]为[p]个原始样点的加权之和:
[s(n)=k=1pak(n-k)]
从而可以得到预测误差为:
[e(n)=s(n)-s(n)=s(n)-k=1pak(n-k)]
然后计算短时平均最小误差:
[ε=E[e2(n)]=min]
为了使预测效果最佳,利用均方误差最小算法,得到:
[?[e2(n)]?ak=0, 1≤k≤p]
令:
[?(i,k)=E[s(n-i),s(n-k)]]
得到最小的[ε]为:
[εmin=?(0,0)-k=1pak?(0,k)]
从而可以看出,误差越接近于零,那么计算出的线性预测系数越逼近原始语音信号的样点。
在实际应用中,可以用线性预测算法建立线性时不变因果稳定的全极点声道模型[6],并进行语音合成,其数学公式如下,将时域误差[e(n)]进行[z]变化,得到[p]阶的误差滤波器的系统函数:
[H(z)=1+i=1paiz-i]
如果将输入语音的浊音或清音作为系统的激励信号[7],经过该系统函数,再进行逆滤波可以得到原始的语音信号[s(n)]。[ai=(i=1,2,…,p)]是[p]阶线性预测系数,即该模型的参数模型的系统函数为:
[H(z)=1A(z)+11+i=1paiz-i]
常用的平均最小方差算法有自相关法和协方差法。用自相关法计算线性預测系数时,需要在数据段两端补充零,从而造成一定的失真。协方差算法中,数据段两端不需要添加零取样值,因此其优点是在取合适的采样点数和阶数时获取的参数比自相关法精确。但是,在语音处理过程中,只要取足够的样点数值,也能得到比较精确的参数值。因此,高效的自相关算法在语音信号处理过程中应用比较广泛。自相关解法主要有杜宾算法、格型算法和舒尔算法等几种高效递推算法。
2 藏语拉萨语LPC参数提取方法
藏语拉萨语LPC参数提取流程图如图1所示,具体提取步骤如下:
(1) 语音的录制和采集。Matlab自带的函数wavread可以读取语音信号并进行采样,同时可以获取采样频率。或者利用wavrecord自己录制一段语音,再进行读取。
(2) 语音编辑处理。对采集的语音数据进行前期的编辑、去噪、分割处理。
(3) 预加重处理。通过一个一阶有限激励响应高通滤波器[8],使信号的频谱变得平坦,降低有限字长效应的干扰。
(4) 分帧和加窗。语音信号被看作是一种典型的非平稳信号,但由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度缓慢得多。因此可以假定语音信号为短时平稳的,即在10~20 ms这样的时间段内,其频谱特征和某些物理特征参量可近似地看作是不变的。这样,就可以采用平稳过程的分析处理方法来处理。将每个短时的语音称为一个分析帧,一般帧长取10~30 ms。在此采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗[9]。
(5) LPC参数提取和数据分析。通过Matlab编程仿真提取已采集的语音数据的频谱、线性预测系数和共振峰参数[10]。分析藏语语音的原始帧、预测帧和误差帧的频谱图、谱包络结构和共振峰。
3 Matlab藏语语音LPC参数提取仿真和分析
在Matlab环境下,完成测试语音藏语(站立的意思)的LPC参数提取的仿真实验。如图2所示。
实验中,原始藏语语音为图2所示的第一个波形,采样频率为8 000 Hz,取第10帧,进行LPC参数提取,分别观察了提取帧的时域、频域的LPC原始帧、提取帧、误差帧的波形和12阶LPC包络图。图2(a)是原始时域波形图,在进行LPC参数提取之前,为了保证数据的有效性,先用手工方法将原始语音信号进行处理,只提取有效语音段[1 500 5 000],然后再进行参数提取。图2(b)是对该语音的第10帧原始帧和预测帧的对比波形图,从波形上可以看出基本重合,说明LPC算法能够很好地预测原始语音信息。图2(c)是该语音第10帧原始帧和预测帧误差波形图,为了得到最佳的预测效果,采用均方误差最小的算法[11?12]使原始帧和预测帧的误差接近于零。图3是测试语音第10帧原始帧、预测帧、误差帧的频域波形。在频域上也具有很好的吻合性。
图4 是测试语音的不同阶数LPC谱包络,从图4可以看出明显的共振峰,阶数取8时的参数提取效果最佳,前三个为其共振峰。虽然阶数越高提取的线性预测系数越多,但并不意味着提取的效果越好。在语音信号处理过程中,阶数一般取8~14之间。表1是三种阶数提取的线性预测系数。
4 结 语
LPC算法是目前语音识别过程中重要的语音参数提取技术之一,通过提取输入语音的线性预测系数可以获得共振峰的参数信息,从而进行得藏语语音的声学分析,并在此基础上可以提取其他相关的重要参数,如:LPC倒谱系数、共振峰、基音等特征参数。
表1 三种阶数提取的线性预测系数
LPC算法存在灵敏度和人耳不匹配的问题,但是,在无噪声环境下,线性预测系数算法是建立良好声道模型的有效方法之一。LPC算法可以用于区分藏语语音的清音和浊音,提取共振峰、基音等频率参数。因此,在藏语语音合成、识别过程中具有重要作用。
注:本文通讯作者为董志诚。
参考文献
[1] 詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008(9):43?45.
[2] 陈硕.深度学习神经网络在语音识别中的应用研究[D].广州:华南理工大学,2013.
[3] AREL I, ROSE D C, KARNOWSKI T P. Deep machine learning : A new frontier in artificial intelligence research[J]. IEEE computational intelligence magazine, 2010, 5(4): 13?18.
[4] 禹琳琳.语音识别技术及应用综述[J].现代电子技术,2013,36(13):43?45.
[5] 张雪英.数字语音处理及Matlab仿真[M].2版.北京:电子工业出版社,2016.
[6] 李冠宇,孟猛.藏语拉萨话大词表连续语音识别声学模型研究[J].计算机工程,2012(5):189?191.
[7] 王文娟.基于压缩感知理论的语音特性分析和研究[D].南京:南京邮电大学,2013.
[8] 周玲.基于Matlab的语音信号数字滤波处理[J].安庆师范学院学报(自然科学版),2011(3):46?49.
[9] 卓嘎,边巴旺堆.基于Matlab的藏语语音基音检测算法研究[J].现代电子技术,2015,38(10):20?22.
[10] 陈小莹,艾金勇.藏语拉萨话元音共振峰声学分析[J].西藏民族大学学报(哲学社会科学版),2016(3):110?115.
[11] 张明,刘祥楼,姜峥嵘.基于LPC的语音信号预测仿真分析[J].光学仪器,2015(1):71?74.
[12] YANG J. Combining speech enhancement and cepstral mean normalization for LPC cepstral coefficients [J]. Key engineering materials, 2011 (474/476): 349?354.