語音識別技術(shù)的研究難點以及未來發(fā)展方向

時間：2020-05-12 12:36:01

關(guān)鍵字：語音識別技術(shù) 模型噪聲環(huán)境語音識別系統(tǒng)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] （文章來源：鈦媒體）目前，語音識別研究工作進展緩慢，困難具體表現(xiàn)在：（1）輸入無法標(biāo)準(zhǔn)統(tǒng)一，比如各地方言的差異，每個人獨有的發(fā)音習(xí)慣等，如下圖所示，口腔中元音隨著舌頭部位的不

（文章來源：鈦媒體）

目前，語音識別研究工作進展緩慢，困難具體表現(xiàn)在：

（1）輸入無法標(biāo)準(zhǔn)統(tǒng)一，比如各地方言的差異，每個人獨有的發(fā)音習(xí)慣等，如下圖所示，口腔中元音隨著舌頭部位的不同可以發(fā)出多種音調(diào)，如果組合變化多端的輔音，可以產(chǎn)生大量的、相似的發(fā)音，這對語音識別提出了挑戰(zhàn)。除去口音參差不齊，輸入設(shè)備不統(tǒng)一也導(dǎo)致了語音輸入的不標(biāo)準(zhǔn)。

（2）噪聲的困擾，噪聲環(huán)境的各類聲源處理是目前公認的技術(shù)難題，機器無法從各層次的背景噪音中分辨出人聲，而且，背景噪聲千差萬別，訓(xùn)練的情況也不能完全匹配真實環(huán)境。因而，語音識別在噪聲中比在安靜的環(huán)境下要難得多。

目前主流的技術(shù)思路是，通過算法提升降低誤差。首先，在收集的原始語音中，提取抗噪性較高的語音特征。然后，在模型訓(xùn)練的時候，結(jié)合噪聲處理算法訓(xùn)練語音模型，使模型在噪聲環(huán)境里的魯棒性較高。最后，在語音解碼的過程中進行多重選擇，從而提高語音識別在噪聲環(huán)境中的準(zhǔn)確率。完全消除噪聲的干擾，目前而言，還停留在理論層面。

（3）模型的有效性，識別系統(tǒng)中的語言模型、詞法模型在大詞匯量、連續(xù)語音識別中還不能完全正確的發(fā)揮作用，需要有效地結(jié)合語言學(xué)、心理學(xué)及生理學(xué)等其他學(xué)科的知識。并且，語音識別系統(tǒng)從實驗室演示系統(tǒng)向商品的轉(zhuǎn)化過程中還有許多具體細節(jié)技術(shù)問題需要解決。

許多用戶已經(jīng)能享受到語音識別技術(shù)帶來的方便，比如智能手機的語音操作等。但是，這與實現(xiàn)真正的人機交流還有相當(dāng)遙遠的距離。目前，計算機對用戶語音的識別程度不高，人機交互上還存在一定的問題，智能語音識別系統(tǒng)技術(shù)還有很長的一段路要走，必須取得突破性的進展，才能做到更好的商業(yè)應(yīng)用，這也是未來語音識別技術(shù)的發(fā)展方向。

在語音識別的商業(yè)化落地中，需要內(nèi)容、算法等各個方面的協(xié)同支撐，但是良好的用戶體驗是商業(yè)應(yīng)用的第一要素，而識別算法是提升用戶體驗的核心因素。目前語音識別在智能家居、智能車載、智能客服機器人方面有廣泛的應(yīng)用，未來將會深入到學(xué)習(xí)、生活、工作的各個環(huán)節(jié)。許多科幻片中的場景正在逐步走入我們的平常生活。