語音識別是機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋疚募蛎畹母呒夹g。作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數(shù)字信號處理理論、信息論、計算機科學等眾多學科緊密相連。語音識別經(jīng)過四十多年的發(fā)展,已經(jīng)顯示出巨大的應用前景。本文從實現(xiàn)原理入手,介紹語音識別系統(tǒng)的實現(xiàn)方式。
1 概述
本漢語語音識別系統(tǒng)是一個非特定人的、孤立音語音識別系統(tǒng)。其中孤立音至少包括漢語的400多個調音節(jié)(不考慮聲調)以及一些常用的詞組。識別系統(tǒng)主要用于手持設備,如手機、掌上電腦。這些設備的CPU一般是DSP,硬件資源十分有限,而且大多不支持浮點運算。那么,對系統(tǒng)各個部分的設計首要考慮的是系統(tǒng)對硬件資源的開銷必須盡量的小,不能超過這些設備的限制。硬件資源的開銷包括存儲模型參數(shù)的開銷,以及識別過程中對內(nèi)存、DSP的運行時間的開銷。
2 實現(xiàn)流程
一般的語音處理流程圖如圖1所示。
圖1 語音識別系統(tǒng)的處理流圖
在語音識別系統(tǒng)中,模擬的語音信號在完成A/D轉換后成為數(shù)字信號,但時域上的語音信號很難直接用于識別,因此需要從語音信號中提取語音的特征,一方面可以獲得語音的本質特征,另一方面也起到數(shù)據(jù)壓縮的作用。輸入的模擬語音信號首先要進行預處理,包括預濾波、采樣和量化、加窗、端點檢測、預加重等。語音識別系統(tǒng)的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到半音節(jié)概率的計算和半音節(jié)到字概率的計算。
3 特征提取
目前通用的特征提取方法是基于語音幀的,即將語音信號分為有重疊的若干幀,對每一幀提取語音特征。由于本技術方案采用的語音庫采樣率為8 kHz,因此采用幀長為256個采樣點(即32 ms),幀步長或幀移(即每一幀語音與上一幀語音不重疊的長度)為80個采樣點(即10 ms)。
現(xiàn)有語音識別系統(tǒng)采用的最主要的兩種語音特征包括:
線性預測倒譜參數(shù)(Linear PredicTIon Cepstrum Coefficient,LPCC),該特征是基于語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜參數(shù)。LPCC參數(shù)的優(yōu)點是計算量小,對元音有較好的描述能力,其缺點在于對輔音的描述能力較差,抗噪聲性能較差。
Mel 頻標倒譜參數(shù)(Mel Frequency Cepstrum Coefficient,MFCC),該特征考慮了人耳的聽覺特性,將頻譜轉化為基于Mel頻標的非線性頻譜,然后轉換到倒譜域上。由于充分模擬了人的聽覺特性,而且沒有任何前提假設,MFCC參數(shù)具有識別性能和抗噪能力,實驗證明在漢語數(shù)碼語音識別中MFCC 參數(shù)的性能明顯優(yōu)于LPCC參數(shù),因此本技術方案采用MFCC參數(shù)為語音特征參數(shù)。
求MFCC參數(shù)的大致過程為:
對輸入語音幀加Hamming窗后做快速傅里葉變換(Fast Fourier TransformaTIon,F(xiàn)FT),將時域信號轉化為頻域信號。
將線性頻標轉化為Mel頻標。轉化方法是將頻域信號通過24個三角濾波器,其中中心頻率在1 000 Hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000Hz以下為線性分布,1 000 Hz以上為等比數(shù)列分布。三角濾波器的輸出為:
式中:Xk為頻譜上第k個頻譜點的能量;Yi為第i個濾波器的輸出;Fi為第i個濾波器的中心頻率。
用離散余弦變換(Discrete Cosine TransformaTIon,DCT)將濾波器輸出變換到倒譜域:
式中:p為MFCC參數(shù)的階數(shù),這里取p = 12.{Ck}k = 1,2,…,12即為所求的MFCC參數(shù)。
為體現(xiàn)語音的動態(tài)特性,在語音特征中加入了一階差分倒譜,其計算方法如下式所示:
式中下標l與l - k表示第l與l - k幀;m表示第m維。
MFCC參數(shù)計算的要點是將線性功率譜S(n)轉換成為Mel頻率下的功率譜,這需要在計算之前先在語音的頻譜范圍內(nèi)設置若干個帶通濾波器Hm(n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1.M為濾波器個數(shù),N為一幀語音信號的點數(shù)。每個濾波器具有三角形特性,其中心頻率為fm,它們在Mel頻率軸上是均勻分布的。在線性頻率上,當m 較小時相鄰的fm間隔很小,隨著m的增加相鄰的fm間隔逐漸拉開。Mel頻率和線性頻率的轉換關系如下:
這些帶通濾波器的參數(shù)是事先計算好的。圖2給出了濾波器組的分布圖,其中M 選擇為26,F(xiàn)FT點數(shù)N為256,語音信號的采樣頻率為8000 Hz。
圖2 利用人耳仿生學特性設計的Mel尺度濾波器組