一种用于拾音器的多窗谱估计的维纳滤波语音增强方法

xiaoxiao2021-2-23  182

一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
【技术领域】
[0001] 本发明涉及应用于拾音器的语音增强方法,尤其涉及小波阈值和维纳滤波语音增 强方法,属于语音信号处理中语音增强领域。
【背景技术】
[0002] 语音增强是语音编码的关键步骤,但是在应用于拾音器时,语音很容易受到噪声 的污染,致使语音质量下降。因此,当语音信号被不同的噪声干扰时,能在较低的信噪比环 境下抑制背景噪声,而尽量不影响原始语音信号的可懂性是在拾音器应用中的重要问题。
[0003] 为了抑制语音中的噪声,学者已经提出了一些语音增强方法。现有比较常用的谱 减法,从带噪语音功率谱中减去噪声功率谱而得到增强语音的功率谱;然而噪声谱是通过 对带噪语音估计获得,而真实噪声谱和估计噪声谱存在误差,其残留的音乐噪声使人不舒 月艮。维纳滤波语音增强算法是一种基于统计模型,采用"直接判别"最小均方误差短时谱估 计的方法,估计当前帧的先验信噪比,增强后的语音残留噪声类似于白噪声且噪声大大减 少;然而维纳滤波要求待处理的信号是平稳信号,当语音信号中噪声较多时会导致语音信 号成分衰减过大,得不到理想的纯净语音信号。为了研究影响语音质量的因素,将纯净语音 和增强算法处理后的语音相比较,根据信噪比将失真进一步分类,研究不同类型的失真对 语音质量的影响;然而纯净的语音是理想的状态,现实环境中几乎是不存在的。
[0004] 有鉴于此,有必要提供一种用于拾音器的多窗谱估计的维纳滤波语音增强方法, 以解决上述问题。

【发明内容】

[0005] 本发明的目的是:为了解决拾音器在较低信噪比和复杂背景噪声下,语音信号容 易受到污染,语音信号质量下降的问题,提出了一种用于拾音器的多窗谱估计的维纳滤波 语音增强方法。
[0006] 本发明所采用的技术方案是:一种用于拾音器的多窗谱估计的维纳滤波语音增强 方法,其特征在于,该方法先将带噪语音进行多窗口谱估计,再通过小波阈值去除噪声项得 到近似纯净的语音谱;然后与维纳滤波处理后的语音谱相比较,根据不同的失真类型选择 相应的谱作为最终增强的语音谱。
[0007]如上所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征在于,所 述多窗口谱估计的步骤如下: 1)多窗口谱估计定义如下:
其中,M是数据窗个数,第i个数据窗谱定义如下:
其中,为第i个带噪语音的数据窗谱,N是带噪语音信号的长度,Μ?)为带噪语 音帧序列,%(?)是第i个正弦的正交窗; 正交窗#>4定义如下:
) 如果上式的巧(》)不相关,则带噪语音的多窗口功率谱和纯净语音功率谱P(AJ) 的比值符合自由度为2L的Chi-Square分布:
两边同时取对数,可得
) 可将(5)式看成带噪语音模型,其表示纯净语音与噪声之和,其中,将作为带 噪语音,k尸和分别为纯净语音和噪声项,k/(切)是均值为爽£)-M(Z)、方差 为#U)的分布,#(-)和#()分别表示双伽玛函数和3阶伽玛函数,当_£.乏5时,M是近 似的正态分布,若将L取最小值5,根据正态分布的特性:
此时,近似为均值O、方差为《=?:!·)的正态分布, 如果将定义如下:
上式可将衣喊看成多窗口功率谱的对数ill代靖加上一个常数f?(?) = Ia(X)-gi), 可作为纯净语音,?>(?)作为噪声项,针对(8),通过小波去噪技术去除噪声项供(?>) 并且能得到一个最佳的对数谱估计。
[0008]如上所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征在于,小 波阈值多窗口谱的具体实现步骤如下: 1)通过(1)(2)(3)式得到多窗口功率谱,通过(7)式计算 2) 将经过f3级的离散小波变换(DWT),然后每个级都可以得到DWT系数 ,其中备被预先确定,其中小波基为db3,小波分解层数为5; 3) 将系数做阈值处理,小波阈值采用的是sqtwoIog规则固定的阈值形式,产生的 阈值A为
; 阈值处理后的小波系数通过逆离散小波变换得到精确的对数频谱。
[0009]如上所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征在于,该 算法能够通过下面的步骤来实现: 1) 带噪语音信号通过汉明窗分帧,每帧长为20ms,然后子帧通过离散傅里叶变换 (DFT); 2) 将DFT后的子帧进行多窗口谱估计,得到带噪语音模型;通过(1)式计算带噪语音信 号z的多窗口功率谱; ?"是噪声的多窗口功率频谱,在语音帧丢失时通过噪声样本采 集来获得,数据窗个数M为16,纯净语音信号的多窗口功率谱Anr通过:
其中,#为频谱因子,值为〇. 002; 3) 通过(7)式计算衣_,然后采用5级离散小波变换,每一级分别可得到经验的DWT系 数,对小波系数故阈值处理,阈值处理后的小波系数通过逆离散小波变换得到带 噪语音增强的谱对数,重复上面的步骤得到精确的噪声信号对数谱
纯净语音信号的估计功率频谱,通过下式:
4) DFT后的带噪语音信号通过噪声估计和维纳滤波;表示在时间t和频率下 带噪语音谱幅度,然后通过给频谱幅度F(fiM)乘上一个增益函数研與:〇得到估计的信号 频谱i飞埤〇,= 尽Πχ Γ(&?:?),该增益函数是基于先验的信噪比的维纳增益函 数,下式:
其中5Λ/%是米用直接决策方法的先验彳目噪比估计:
其中是背景噪声的功率谱密度估计,《是平滑系数,通常设置《 = Θ.98 ; 5)为了分析失真对语音信号的影响,将近似的纯净语音幅度谱XU)和通过增强算法 估计的幅度谱之间的误差继续分类,将6dB作为临界值,同时指出信噪比和幅度谱之 间的联系: (a)当5??忍?魔时,幅度谱歲幻< !以),此时为衰减失真,(b)当SM? LSASsw < S糊"― 时,幅度谱< i⑷? 2.21?,此时为不超过6dB的放大失真;(c)当SA?+ 时,幅度谱幻> 2 · Jr#:!,此时为放大失真且失真超过6dB,为了使语音信号在噪声环境 下有较好的鲁棒性,同时有较高的可懂性,在这里提出改进方法,将(a) (b)联合作为约束条 件添加到增强的频谱lie^中,得到最终增强的谱Im(玛〇,下式:
通过对做逆DFT变换得到最终增强的语音信号。
[0010]本发明的有益效果是:将本方法应用于拾音器中,相比已有的均方预测误差和预 白化子空间方法,该方法处理后的语音更平滑,与纯净语音更接近;在低信噪比及复杂噪声 的情况下,该拾音器对语音处理速度更快,编解码效率高,降噪性能更好,且鲁棒性更强。同 时,在距离较远的环境下,语音也有较好的识别效果。
【附图说明】
[0011]图1是本发明不同谱估计的带噪语音功率谱图。
[0012] 图2是本发明基于小波阈值多窗口和约束维纳滤波的语音增强流程图。
[0013] 图3是本发明不同算法处理后语音信号的时域波形图。
【具体实施方式】
[0014] 为了更好地理解本发明,下面结合实施例进一步阐明本发明的内容,但本发明的 内容不仅仅局限于下面的实施例。本领域技术人员可以对本发明作各种改动或修改,这些 等价形式同样在本申请所列权利要求书限定范围之内。
[0015] 本发明提供的一种用于拾音器的多窗谱估计的维纳滤波语音增强方法,该方法先 将带噪语音进行多窗口谱估计,再通过小波阈值去除噪声项得到近似纯净的语音谱;然后 与维纳滤波处理后的语音谱相比较,根据不同的失真类型选择相应的谱作为最终增强的语 音谱。
[0016] 所述多窗口谱估计的步骤如下: 1)多窗口谱估计定义如下:
其中,M是数据窗个数,第i个数据窗谱定义如下:
其中,为第i个带噪语音的数据窗谱,N是带噪语音信号的长度,为带噪语 音帧序列,%(?)是第i个正弦的正交窗。
[0017] 正交窗定义如下:
如果上式的&(?)不相关,则带噪语音的多窗口功率谱#,声?)和纯净语音功率谱P(靖 的比值符合自由度为2L的Chi-Square分布:
两边同时取对数,可得
可将(5)式看成带噪语音模型,其表示纯净语音与噪声之和。其中,将读作为带 噪语音,fc 和M /(切)分别为纯净语音和噪声项,k:f(祕是均值为我Z:) - Ia(I)、方差 为#议)的分布,#(·)和#()分别表示双伽玛函数和3阶伽玛函数。当5时,是近 似的正态分布。若将L取最小值5,根据正态分布的特性:
此时,近似为均值0、方差为《=,(!)的正态分布。
[0018] 如果将Ζ(?)定义如下:
上式可将看成多窗口功率谱的对数In加上一个常数舛?) = In(I)-#(£), 可作为纯净语音,辦作为噪声项。针对(8),通过小波去噪技术去除噪声项供(fi>) 并且能得到一个最佳的对数谱估计。
[0019] 总结以上的推导,小波阈值多窗口谱的具体实现步骤如下: 1) 通过⑴⑵⑶式得到多窗口功率谱,通过⑴式计算 2) 将经过:?级的离散小波变换(DWT),然后每个j(Je[lvg>3l)级都可以得到DWT系数 zM,其中%被预先确定,其中小波基为db3,小波分解层数为5; 3) 将系数做阈值处理,小波阈值采用的是sqtwoIog规则固定的阈值形式,产生的 阈值A为
阈值处理后的小波系数通过逆离散小波变换得到精确的对数频谱。
[0020] 图1为使用周期图法、多窗口功率谱估计方法和小波阈值多窗口功率估计方法估 计的带噪语音功率谱。
[0021] 纯净语音和增强后的带 噪语音之间存在着失真,不同类型的失真对语音质量的影 响也不同。为了得到舒适的声音,首先需要将纯净语音谱和增强后的带噪语音谱相比较,然 后根据比较结果添加合适的约束条件。然而,纯净的语音几乎是不存在的,由于多窗口谱估 计有较小的误差和方差特性,可以估计出近似的带噪语音模型,进一步通过小波阈值技术 去除噪声项得到纯净的语音。同时,在较低的信噪比条件下,维纳增益函数在抑制噪声的同 时有较小的失真。因此,也可以将维纳滤波应用在带噪语音信号处理中。
[0022] 本文语音增强算法的流程图如图2。
[0023] 该算法可以通过下面的步骤来实现: 1) 带噪语音信号通过汉明窗分帧,每帧长为20ms,然后子帧通过离散傅里叶变换 (DFT); 2) 将DFT后的子帧进行多窗口谱估计,得到带噪语音模型;通过(1)式计算带噪语音信 号z的多窗口功率谱是噪声的多窗口功率频谱,在语音帧丢失时通过噪声样本采 集来获得,数据窗个数M为16。纯净语音信号的多窗口功率谱 通过:
其中,f为频谱因子,值为〇. 002。
[0024] 3)通过(7)式计兑,然后采用5级离散小波变换,每一级分别可得到经验的 DWT系数Zm,对小波系数2^做阈值处理,阈值处理后的小波系数通过逆离散小波变换得 到带噪语音增强的谱对数,重复上面的步骤得到精确的噪声信号对数谱 (祕。纯净语音信号的估计功率频谱,通过下式:
4)DFT后的带噪语音信号通过噪声估计和维纳滤波;Γ(與f)表示在时间t和频率?下 带噪语音谱幅度,然后通过给频谱幅度Γ(與?}乘上一个增益函数G(辑?)得到估计的信号 频谱.
,该增益函数是基于先验的信噪比的维纳增益函 数,下式:
其中SAjKp是米用直接决策方法的先验彳目噪比估计:
其中〇是背景噪声的功率谱密度估计,《是平滑系数(通常设置《 = 9.98)。
[0025] 5)为了分析失真对语音信号的影响,将近似的纯净语音幅度谱Χ(幻和通过增强 算法估计的幅度谱之间的误差继续分类,将6dB作为临界值,同时指出信噪比和幅度 谱之间的联系: (a)当餅时,幅度谱办Ak丄认>,此时为衰减失真,(b)当<腫+6通 时,幅度谱
此时为不超过6dB的放大失真;(c)当SW + 6?? 时,幅度谱[email protected];)>2·Ζ(1::),此时为放大失真且失真超过6dB。为了使语音信号在噪声环境 下有较好的鲁棒性,同时有较高的可懂性,在这里提出改进方法,将(a) (b)联合作为约束条 件添加到增强的频谱中,得到最终增强的谱,下式:
通过对2#(與〇做逆DFT变换得到最终增强的语音信号。
[0026] 以下为实验仿真与分析。通过三个仿真实验,对比得出本发明的语音增强方法与 现有技术相比具有较好的效果。
[0027] 仿真实验中,选用一段标准的语音作为纯净语音,白噪声,坦克噪声,Π 6噪声作为 干扰噪声,纯净语音和噪声叠加后的带噪语音信号作为输入语音信号。语音信号采样率设 置为8kHz,采样点为256个,采用汉明窗对语音分帧,假设起始的四帧是只包含噪声的帧,每 帧长为20ms,帧移为10ms,每个子帧进行160点的离散傅里叶变换。采用MSCEP和PSS算法作 为对比算法。
[0028] 实验一,从语音的时域角度检验增强算法的性能,将纯净语音与白噪声叠加作为 输入信号。从图3可以看出,相比于MSCEP和PSS算法,该算法波形保持更完整,残余噪声更 小。
[0029] 实验二,将白噪声,坦克噪声和Π 6噪声分别与纯净的语音信号相叠加作为输入信 号,比较在相同信噪比(OdB),不同的噪声环境下算法的性能,使用MSCEP,PSS和本文算法处 理这三种带噪信号,采用主观语音质量评估(Perceptual evaluation of speech quality,PESQ),的测试结果如表1所示。在不同的噪声环境下,从语音听觉质量角度看,本 文算法取得了较好的效果。
[0030] 表1相同信噪比下不同算法处理后的PESQ分值
实验三,从噪声强度角度,比较三种算法处理后的信噪比SNR,从表2中可以看出,在不 同信噪比条件下,该算法处理后SNR比MSCEP和PSS算法有明显提高。
[0031] 表2不同噪声强度下经增强算法处理后的信噪比
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
【主权项】
1. 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征在于,该方法先将 带噪语音进行多窗口谱估计,再通过小波阈值去除噪声项得到近似纯净的语音谱;然后与 维纳滤波处理后的语音谱相比较,根据不同的失真类型选择相应的谱作为最终增强的语音 谱。2. 根据权利要求1所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征 在于,所述多窗口谱估计的步骤如下: 1)多窗口谱估计定义如下:I 其中,M是数据窗个数,第i个数据窗谱定义如下:其中,为第i个带噪语音的数据窗谱,N是带噪语音信号的长度,Μκ)为带噪语 音帧序列,巧(的是第i个正弦的正交窗; 正交窗Si(H)定义如下:) 如果上式的A(H)不相关,则带噪语音的多窗口功率谱Pi:?)和纯净语音功率谱尸(设) 的比值符合自由度为2L的Chi-Square分布:两边同时取对数,可得可将(5)式看成带噪语音模型,其表示纯净语音与噪声之和,其中,将作为带 噪语音,和妨分别为纯净语音和噪声项,!!/(祕是均值为#(Z)-Ia(Z)、方差 为#(?的分布,#(·)和#Θ分别表示双伽玛函数和3阶伽玛函数,当5时,Il片妨是近 似的正态分布,若将L取最小值5,根据正态分布的特性:此时,供(??)近似为均值〇、方差为4 =/(£)的正态分布, 如果将ζ(@)定义如下:上式可将看成多窗口功率谱的对数In 加上一个常数k巧£#可作为纯净语音,_岸)作为噪声项,针对(8 ),通过小波去噪技术去除噪声项供(fi>) 并且能得到一个最佳的对数谱估计。3. 根据权利要求2所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征 在于,小波阈值多窗口谱的具体实现步骤如下: 1) 通过(1)(2)(3)式得到多窗口功率谱,通过(7)式计算 2) 将经过%级的离散小波变换(DWT),然后每个j(/e [Lfis])级都可以得到DWT系数 zM,其中%被预先确定,其中小波基为db3,小波分解层数为5; 3) 将系数做阈值处理,小波阈值采用的是sqtwolog规则固定的阈值形式,产生的 阈值1为阈值处理后的小波系数通过逆离散小波变换得到精确的对数频谱。4. 根据权利要求2所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征 在于,该算法能够通过下面的步骤来实现: 1) 带噪语音信号通过汉明窗分帧,每帧长为20ms,然后子帧通过离散傅里叶变换 (DFT); 2) 将DFT后的子帧进行多窗口谱估计,得到带噪语音模型;通过(1)式计算带噪语音信 号z的多窗口功率谱; /f是噪声的多窗口功率频谱,在语音帧丢失时通过噪声样本采 集来获得,数据窗个数M为16,纯净语音信号的多窗口功率谱&通过:其中,卢为频谱因子,值为〇. 002; 3) 通过(7)式计算冯⑶,然后采用5级离散小波变换,每一级分别可得到经验的DWT系 数2M-,对小波系数做阈值处理,阈值处理后的小波系数通过逆离散小波变换得到带 噪语音增强的谱对1重复上面的步骤得到精确的噪声信号对数谱纯净语音信号的估计功率频谱$&胃(?),通过下式:4. DFT后的带噪语音信号通过噪声估计和维纳滤波;表示在时间t和频率下带 噪语音谱幅度,然后通过给频谱幅度乘上一个增益函数得到估计的信号频 谱该增益函数是基于先验的信噪比的维纳增益函数, 下式:其中是米用直接决策方法的先验彳目噪比估计:其中是背景噪声的功率谱密度估计,《是平滑系数,通常设置《 = 6.98 ; 5) 为了分析失真对语音信号的影响,将近似的纯净语音幅度谱1(幻和通过增强算法估 计的幅度谱之间的误差继续分类,将6dB作为临界值,同时指出信噪比和幅度谱之间 的联系: (a)当纖μ i 时,幅度谱_1(幻< ,此时为衰减失真,时,幅度谱<1(1) S 2.1?,此时为不超过6dB的放大失真;时,幅度谱1決>>2.JTPh此时为放大失真且失真超过6dB,为了使语音信号在噪声环境 下有较好的鲁棒性,同时有较高的可懂性,在这里提出改进方法,将(a) (b)联合作为约束条 件添加到增强的频谱中,得到最终增强的谱下式:通过对做逆DFT变换得到最终增强的语音信号。
【专利摘要】本发明提供一种用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征在于,该方法先将带噪语音进行多窗口谱估计,再通过小波阈值去除噪声项得到近似纯净的语音谱;然后与维纳滤波处理后的语音谱相比较,根据不同的失真类型选择相应的谱作为最终增强的语音谱。将本方法应用于拾音器中,相比已有的均方预测误差和预白化子空间方法,该方法处理后的语音更平滑,与纯净语音更接近;在低信噪比及复杂噪声的情况下,该拾音器对语音处理速度更快,编解码效率高,降噪性能更好,且鲁棒性更强。同时,在距离较远的环境下,语音也有较好的识别效果。
【IPC分类】G10L25/21, G10L21/0232, G10L25/45
【公开号】CN105489226
【申请号】CN201510812196
【发明人】张正文, 李婕, 王远, 周航麒, 高铭泽
【申请人】湖北工业大学
【公开日】2016年4月13日
【申请日】2015年11月23日

最新回复(0)