一種用于抗噪語音識別的動態(tài)參數(shù)補償新方法

時間：2009-05-04 09:03:09

關鍵字：語音識別 BSP PMC PCM

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]模型補償技術已成功應用到噪聲環(huán)境下的語音識別任務中。流行的模型補償技術如Log-Add和Log-NormalPMC(并行模型合并)方法對動態(tài)特征參數(shù)通常只能給出近似的補償。因此他們的識別率在較低的信噪比條件下變得很低。本文利用靜態(tài)特征的導函數(shù)推導出了一種新的動態(tài)模型參數(shù)補償方法。新的方法可以同任何已知的靜態(tài)模型補償算法結合產(chǎn)生出新的用于識別的噪聲語音模型。實驗證明這一新算法的應用，使其識別率比僅使用原有的模型補償算法有較為明顯的提高，并且新算法的復雜度較原有的模型補償算法只有輕微的增加。

1 引言
    與機器進行語音交流，是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g，其被認為是2000年至2010年間信息技術領域十大重要的科技發(fā)展技術之一。在語音識別中，當識別器的訓練環(huán)境同應用環(huán)境不同時，其性能會急劇下降。為了解決這一問題，各種技術方法陸續(xù)地被提了出來，這些技術方法主要分為三大類：1)語音魯棒特征的表達和提取技術；2)語音增強技術；3)模型補償技術。關于這些方法的詳細回顧可參見文獻。本文的討論重點是模型補償技術。模型補償技術主要是通過合并純凈語音模型與噪聲模型，從而產(chǎn)生出用于識別的帶噪語音模型。文獻中已經(jīng)證明PMC方法是一種非常有效的模型補償方法，它能產(chǎn)生出具有魯棒性的帶噪語音模型，這些文獻中并且給出了幾種不同的PMC方法。在這些PMC方法中，一些諸如數(shù)字積分PMC(Numerical Integral PMC)和數(shù)據(jù)驅動PMC(Date—driven PMC)方法能夠獲得很佳的識別率，但是這些方法的運算復雜度巨大，很難運用到實際應用中去。另一方面，一些諸如對數(shù)_力口PMC(Log-Add PMC)和對數(shù)．正態(tài)PMC(Log—Normal PMC)方法通過使用較簡單的估計方法來生成帶噪語音模型，這樣在很低信噪比的條件下識別效果不是很令人滿意。其中Log-Normal PMC方法對靜態(tài)模型參數(shù)給出一個嚴格的補償方案，但是對動態(tài)模型參數(shù)，到目前為止只能對其均值進行簡單的補償。雖然這種動態(tài)的均值補償可以提高識別率，但是算法仍有改進的空間，使其能夠為動態(tài)的協(xié)方差參數(shù)提供補償。
    為了解決這一問題，本文提出了一種新的動態(tài)模型補償方法(DPCM)。DPCM選定語音特征與噪聲特征的差為一個新的附加隨機變量，并假設該附加變量與語音和噪聲特征的導數(shù)之間均相互統(tǒng)計獨立。這樣，動態(tài)特征的補償即可通過數(shù)學的方法來解決。此外新的DPCM可以同任何已知的靜態(tài)補償方法結合生成新的帶噪語音模型。實驗結果也證明使用該DPCM可以提供更好的識別率。
    本文定義和使用一致的域標號。上標l表示對數(shù)功率譜域，無上標的則表示Mel線性功率譜域。估計出的噪聲模型參數(shù)用～標記，補償出的帶噪語音模型參數(shù)用^標記。

2 模型補償技術
模型補償技術是根據(jù)應用環(huán)境的背景噪聲情況，通過修正純凈語音特征的統(tǒng)計模型產(chǎn)生出一個更接近真實帶噪語音特征的統(tǒng)計模型。圖1是一個基本模型補償方案框圖，輸入為一個純凈的語音模型(目前一般采用HMM對語音建模)和一個估計出的噪聲模型?？偟膩碇v，模型補償依據(jù)補償進行的域不同可以分為兩類：線性譜域補償算法和對數(shù)譜域補償算法。

對于Log-Normal PMC(見圖1-II)，純凈語音模型同噪聲模型的合并是在線性譜域進行。那么純凈語音和噪聲模型的參數(shù)先要從倒譜域變換到對數(shù)譜域，然后再映射到線性譜域。在線性譜域進行模型的合并，然后進行相反的操作把模型參數(shù)映射變換回倒譜域。另一方面，Log—Add PMC(見圖1一I)模型的補償是在對數(shù)譜域進行。
通常的噪聲信號有兩類：卷積噪聲(信道的頻率響應)和加性噪聲。在本文中僅考慮加性噪聲情況。在文章中采用以下假設：1)噪聲是平穩(wěn)加性噪聲，噪聲和語音信號是相互統(tǒng)計獨立的；2)每個子帶的對數(shù)頻譜域的特征(功率譜)分布被認為是(混合)高斯分布，Mel線性譜域的特征分布被認為是(混合)對數(shù)一正態(tài)分布。那么在Mel線性譜域第k個子帶帶噪語音特征Yk為：

其中Xk和Nk分別是線性頻譜域的純凈語音和噪聲子帶特征(“觀測”)。g是調(diào)節(jié)噪聲和語音的縮放比例因子，為了表達簡單起見，在后面的算法公式中省略此縮放比例因子g。那么對數(shù)頻譜域子帶的帶噪語音特征Ykl同純凈語音特征Xkl和噪聲特征Nkl的失配函數(shù)為：

2．1 靜態(tài)特征補償
對于Log-Normal PMC靜態(tài)模型特征補償?shù)暮诵乃惴ㄊ菍?shù)譜域與線性譜域之間的非線性映射同線性譜域模型的合并，即：

其中k、l分別為第k、l個子帶。
對于Log—Add PMC靜態(tài)模型特征補償?shù)闹粚颠M行補償：

2．2 動態(tài)特征補償
由于推導出嚴格的Log—Normal PMC動態(tài)特征補償算法非常困難，目前對Log—Normal PMC的動態(tài)特征補償一般采用粗略的補償方法，只對其均值進行補償。

對于Log-Add PMC其動態(tài)特征補償算法為：

3 新的動態(tài)模型參數(shù)補償方法
在本文中，使用靜態(tài)“觀測”的時間導數(shù)作為動態(tài)的“觀測”。這樣，動態(tài)特征的失配函數(shù)就應等于靜態(tài)特征的失配函數(shù)的一階導函數(shù)。根據(jù)(2)，動態(tài)特征失配函數(shù)為：

定義一個附加的隨機變量Zkl，定義為Zkl=Nkl一Xkl。由于Nkl和Xkl均為正態(tài)分布，并且他們之間相互獨立，那么隨機變量Zkl也是一個正態(tài)分布。其的均值和方差分別可以表示為μZkl=μNkl-μXkl和那么動態(tài)失配函數(shù)(9)就可以進一步改寫成含Zkl的函數(shù)。

    由于假設背景噪聲為平穩(wěn)加性噪聲，那么噪聲動態(tài)特征的均值就可以被近似為零。本文還假設附加的隨機變量同語音和噪聲的動態(tài)特征不相關。這個假設也是DPCM的核心本質(zhì)假設。由于靜態(tài)特征與其微分變換量之間是松相關的，所以這個假設是比較合理的。
3．1 均值補償
    依據(jù)失配函數(shù)(10)和上述假設，對數(shù)譜域的帶噪語音特征的統(tǒng)計均值為：

其中

參數(shù)ti和ωi(i=l～n)是Hermite多項式Hn(t)的橫坐標和對應的權值。
3．2 協(xié)方差補償
同樣根據(jù)(10)和相關假設，可以獲得對數(shù)譜域的帶噪語音特征的協(xié)方差補償算法。

其中

且
附加隨機變量Zkl的引入以及附加隨機變量與語音和噪聲的動態(tài)特征不相關假設的使用降低了動態(tài)模型補償問題的求解維數(shù)。這種維數(shù)的降低同Gauss-Hermite數(shù)字積分的應用，使得新的DPCM成為一種十分有效的動態(tài)模型補償方法。

4 算法評估
算法評估實驗采用基于孤立字的6狀態(tài)HMM來做識別器。每個狀態(tài)有4個高斯密度函數(shù)。選取24個MFCC(12個靜態(tài)特征，12個動態(tài)特征)作為語音特征。訓練階段，用純凈語音訓練出純凈語音模型。在識別階段，使用純凈語音模型作為基本模型來識別。
使用TI—digits為算法評估語音庫，選用數(shù)據(jù)庫中有16個人(8男8女)的5081個短句，其中包含20個孤立詞，數(shù)字‘0’到‘9’和10個附加命令如‘go’、‘help’、‘repeate’等。訓練集含有641句，測試集包括5081句。算法分析窗口的長度為32ms，幀速率為9．6ms／幀。選取NOISEX-92中的White、Pink和Destoryerengine 3種噪聲作為評估的環(huán)境噪聲。使用200幀非重疊的噪聲來估計噪聲模型。全局信噪比定義為：

其中Pm(k)是第m幀的純凈語音功率普，N(k)是估計的噪聲能量平均譜，H是每句的語音幀數(shù)，L是FFT的長度，g是縮放因子讓所加的噪聲符合指定的全局信噪比。帶噪語音由(20)生成。

其中y(i)是帶噪語音，x(i)和n(i)分別是純凈語音和噪聲。對于文中語音的動態(tài)特征參數(shù)是依據(jù)(21)獲得。

    為了比較DPCM方法的性能，采用5種識別方法：失配情況下的識別，Log—Add PMC，Log—Normal PMC，以及Log-AddPMC與Log—Normal PMC和DPCM相結合的方法。
    圖2給出了White Noise環(huán)境下Gauss—Hermite積分項數(shù)n與識別率及算法復雜度關系。從圖中可以看出隨著積分項n的增加，兩種方法的識別率都沒有明顯的變化。但是算法的復雜度卻隨著n的增加而增加。結果說明n=2的Gauss—Hermite積分可以提供足夠的計算精度。因此在DPCM 中采用n=2，即

表1～表3列出的是在不同噪聲環(huán)境和信噪比條件下的各種算法的識別率?？梢钥闯鍪褂醚a償算法的識別率比失配情況下有很大的提高。在-5dB條件下，使用了DPCM的識別方法對各種噪聲語音的平均識別率比僅使用Log—Add PMC和Log—NormalPMC的方法有絕對的7．5％和6．6％增加，在0dB情況下絕對增加值分別為8％和7．3％。在信噪比5—10dB下，有含DPCM方法的識別率比其他兩種算法仍然有性能上的提高。

表4列出了更新每個狀態(tài)的4個高斯密度分布中的單個高斯密度分布時，靜態(tài)均值和方差以及動態(tài)均值和方差(注：Log—Add PMC算法只對均值補償)從倒譜域變化到對數(shù)譜域、在對數(shù)譜域進行模型補償、以及從對數(shù)譜域變回倒譜域所需的乘法、除法、指數(shù)運算以及對數(shù)運算的次數(shù)。其中N和M分別表示在倒譜域和對數(shù)譜域特征的維數(shù)。從表中可看出含有DPCM的算法復雜度比其原始算法的復雜度只有輕微的增加。
實驗證明了本文的DPCM算法可以處理在不同加性噪聲環(huán)境下的語音識別任務，并且能夠取得比較好的識別效果。性能的提升歸功于相對應比較準確的動態(tài)模型補償方法的應用。通過這種方法的使用，含DPCM算法的識別率比目前的PMC算法有較明顯的提升。

5 結論
文中提出了一種新的動態(tài)特征補償方法，并給出了反映加性噪聲的語音動態(tài)特征失配函數(shù)，以及在此基礎上依據(jù)合理的假設，推導出的一系列動態(tài)模型參數(shù)補償DPCM的算法公式。并且DPCM算法可以與任意的靜態(tài)模型補償算法結合以提高原始算法的識別率。實驗結果表明在不同的噪聲環(huán)境下結合DPCM的PMC算法可以給出比原始PMC算法具有更好的識別率，在低信噪比條件下提升效果更為明顯。此外結合DPCM的模型補償算法的復雜度與原補償算法的復雜度基本相當，只有輕微的增加。可見DPCM算法是一種非常有效的動態(tài)特征補償算法。