簡析語音識別技術(shù)的工作原理

時間：2020-05-12 12:39:01

關(guān)鍵字：語音識別技術(shù) 聲學語音信號 HM

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] （文章來源：鈦媒體APP）語音識別技術(shù)是讓機器通過識別把語音信號轉(zhuǎn)變?yōu)槲谋?，進而通過理解轉(zhuǎn)變?yōu)橹噶畹募夹g(shù)。目的就是給機器賦予人的聽覺特性，聽懂人說什么，并作出相應的行為。語音識別系統(tǒng)通

（文章來源：鈦媒體APP）

語音識別技術(shù)是讓機器通過識別把語音信號轉(zhuǎn)變?yōu)槲谋荆M而通過理解轉(zhuǎn)變?yōu)橹噶畹募夹g(shù)。目的就是給機器賦予人的聽覺特性，聽懂人說什么，并作出相應的行為。語音識別系統(tǒng)通常由聲學識別模型和語言理解模型兩部分組成，分別對應語音到音節(jié)和音節(jié)到字的計算。一個連續(xù)語音識別系統(tǒng)（如下圖）大致包含了四個主要部分：特征提取、聲學模型、語言模型和解碼器等。

（1）語音輸入的預處理模塊，對輸入的原始語音信號進行處理，濾除掉其中的不重要信息以及背景噪聲，并進行語音信號的端點檢測（也就是找出語音信號的始末）、語音分幀（可以近似理解為，一段語音就像是一段視頻，由許多幀的有序畫面構(gòu)成，可以將語音信號切割為單個的“畫面”進行分析）等處理。

（2）特征提取，在去除語音信號中對于語音識別無用的冗余信息后，保留能夠反映語音本質(zhì)特征的信息進行處理，并用一定的形式表示出來。也就是提取出反映語音信號特征的關(guān)鍵特征參數(shù)形成特征矢量序列，以便用于后續(xù)處理。

（3）聲學模型訓練，聲學模型可以理解為是對聲音的建模，能夠把語音輸入轉(zhuǎn)換成聲學表示的輸出，準確的說，是給出語音屬于某個聲學符號的概率。根據(jù)訓練語音庫的特征參數(shù)訓練出聲學模型參數(shù)。在識別時可以將待識別的語音的特征參數(shù)與聲學模型進行匹配，得到識別結(jié)果。目前的主流語音識別系統(tǒng)多采用隱馬爾可夫模型HMM進行聲學模型建模。

（4）語言模型訓練，語言模型是用來計算一個句子出現(xiàn)概率的模型，簡單地說，就是計算一個句子在語法上是否正確的概率。因為句子的構(gòu)造往往是規(guī)律的，前面出現(xiàn)的詞經(jīng)常預示了后方可能出現(xiàn)的詞語。它主要用于決定哪個詞序列的可能性更大，或者在出現(xiàn)了幾個詞的時候預測下一個即將出現(xiàn)的詞語。它定義了哪些詞能跟在上一個已經(jīng)識別的詞的后面（匹配是一個順序的處理過程），這樣就可以為匹配過程排除一些不可能的單詞。

語言建模能夠有效的結(jié)合漢語語法和語義的知識，描述詞之間的內(nèi)在關(guān)系，從而提高識別率，減少搜索范圍。對訓練文本數(shù)據(jù)庫進行語法、語義分析，經(jīng)過基于統(tǒng)計模型訓練得到語言模型。

（5）語音解碼和搜索算法，解碼器是指語音技術(shù)中的識別過程。針對輸入的語音信號，根據(jù)己經(jīng)訓練好的HMM聲學模型、語言模型及字典建立一個識別網(wǎng)絡(luò)，根據(jù)搜索算法在該網(wǎng)絡(luò)中尋找最佳的一條路徑，這個路徑就是能夠以最大概率輸出該語音信號的詞串，這樣就確定這個語音樣本所包含的文字了。所以，解碼操作即指搜索算法，即在解碼端通過搜索技術(shù)尋找最優(yōu)詞串的方法。

連續(xù)語音識別中的搜索，就是尋找一個詞模型序列以描述輸入語音信號，從而得到詞解碼序列。搜索所依據(jù)的是對公式中的聲學模型打分和語言模型打分。在實際使用中，往往要依據(jù)經(jīng)驗給語言模型加上一個高權(quán)重，并設(shè)置一個長詞懲罰分數(shù)。

語音識別本質(zhì)上是一種模式識別的過程，未知語音的模式與已知語音的參考模式逐一進行比較，最佳匹配的參考模式被作為識別結(jié)果。當今語音識別技術(shù)的主流算法，主要有基于動態(tài)時間規(guī)整（DTW）算法、基于非參數(shù)模型的矢量量化（VQ）方法、基于參數(shù)模型的隱馬爾可夫模型（HMM）的方法、以及近年來基于深度學習和支持向量機等語音識別方法。
? ? ? ?