語音作為一種典型的非平穩(wěn)隨機信號,人類交流信息最方便、最快捷的一種方式,在高度發(fā)達的信息社會中, 音頻信號處理技術(shù)有非常廣泛的應(yīng)用。而在自動控制領(lǐng)域,其在雷達、系統(tǒng)控制、通信、航空航天等眾多方面都獲得了極其廣泛的應(yīng)用。

隨著計算機和語音處理技術(shù)以及移動互聯(lián)網(wǎng)的發(fā)展,語音識別在智能手機、平板等便攜設(shè)備中得到了廣泛應(yīng)用,用戶可以通過語音識別應(yīng)用控制便攜設(shè)備的各項功能,大大的提高了效率,完全“說”出了未來。

語音識別技術(shù),也被稱為自動語音識別(英語:Automatic Speech Recognition, ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

語音識別技術(shù) 的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。

語音識別技術(shù) 所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

按識別器的類型:孤立單詞識別和連續(xù)語音識別 (詳細)

按識別器對使用者的適應(yīng)情況:特定人語音識別和非特定人語音識別 (詳細)

按語音詞匯表的大小:有限詞匯識別和無限詞匯識別 (詳細)

語音識別系統(tǒng) 是建立在一定的硬件平臺和操作系統(tǒng)之上的一套應(yīng)用軟件系統(tǒng)。語音識別一般分兩個步驟。第一部是系統(tǒng)“學習”或“訓練”階段。第二步是“識別”或“測試”階段。語音識別技術(shù)加上各種外圍技術(shù)的組合,才能構(gòu)成一個完整的實際應(yīng)用的語音識別系統(tǒng)。

訓練(Training):預(yù)先分析出語音特征參數(shù),制作語音模板(Template)并存放在語音參數(shù)庫中。

識別(Recognition):待識語音經(jīng)過與訓練時相同的分析,得到語音參數(shù),將它與庫中的參考模板一一比較,并采用判決的方法找出最接近語音特征的模板,得出識別結(jié)果。

失真測度(Distortion Measures):在進行比較時要有個標準,這就是計量語音特征參數(shù)矢量之間的“失真測度”。

主要識別框架:基于模式匹配的動態(tài)時間規(guī)整法(DTW:Dynamic Time Warping)和基于統(tǒng)計模型的隱馬爾柯夫模型法(HMM:Hidden Markov Model)。(詳細)

簡單地說,語音識別主要包括3個步驟:
1、對輸入的語音進行特征提取
2、將提取的語音信號與計算機內(nèi)的語音模型進行匹配
3、將匹配結(jié)果進行輸出或轉(zhuǎn)化為特定的指令

模板匹配的方法發(fā)展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經(jīng)過四個步驟:特征提取、模板訓練、模板分類、判決。常用的技術(shù)有三種:動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。

1、動態(tài)時間規(guī)整(DTW)

語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特征訓練和識別的基礎(chǔ)。所謂端點檢測就是在語音信號中的各種段落(如音素、音節(jié)、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態(tài)時間規(guī)整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。

2、隱馬爾可夫法(HMM)

隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。HMM方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。HMM是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,將之看作一個數(shù)學上的雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。

3、矢量量化(VQ)

矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個矢量,然后對矢量進行量化。量化時,將k維無限空間劃分為M個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計就是從大量信號樣本中訓練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量,實現(xiàn)最大可能的平均信噪比。