語音識別技術(shù)的研究難點以及未來發(fā)展方向
(文章來源:鈦媒體)
目前,語音識別研究工作進展緩慢,困難具體表現(xiàn)在:
(1)輸入無法標(biāo)準(zhǔn)統(tǒng)一,比如各地方言的差異,每個人獨有的發(fā)音習(xí)慣等,如下圖所示,口腔中元音隨著舌頭部位的不同可以發(fā)出多種音調(diào),如果組合變化多端的輔音,可以產(chǎn)生大量的、相似的發(fā)音,這對語音識別提出了挑戰(zhàn)。除去口音參差不齊,輸入設(shè)備不統(tǒng)一也導(dǎo)致了語音輸入的不標(biāo)準(zhǔn)。
(2)噪聲的困擾,噪聲環(huán)境的各類聲源處理是目前公認的技術(shù)難題,機器無法從各層次的背景噪音中分辨出人聲,而且,背景噪聲千差萬別,訓(xùn)練的情況也不能完全匹配真實環(huán)境。因而,語音識別在噪聲中比在安靜的環(huán)境下要難得多。
目前主流的技術(shù)思路是,通過算法提升降低誤差。首先,在收集的原始語音中,提取抗噪性較高的語音特征。然后,在模型訓(xùn)練的時候,結(jié)合噪聲處理算法訓(xùn)練語音模型,使模型在噪聲環(huán)境里的魯棒性較高。最后,在語音解碼的過程中進行多重選擇,從而提高語音識別在噪聲環(huán)境中的準(zhǔn)確率。完全消除噪聲的干擾,目前而言,還停留在理論層面。
(3)模型的有效性,識別系統(tǒng)中的語言模型、詞法模型在大詞匯量、連續(xù)語音識別中還不能完全正確的發(fā)揮作用,需要有效地結(jié)合語言學(xué)、心理學(xué)及生理學(xué)等其他學(xué)科的知識。并且,語音識別系統(tǒng)從實驗室演示系統(tǒng)向商品的轉(zhuǎn)化過程中還有許多具體細節(jié)技術(shù)問題需要解決。
許多用戶已經(jīng)能享受到語音識別技術(shù)帶來的方便,比如智能手機的語音操作等。但是,這與實現(xiàn)真正的人機交流還有相當(dāng)遙遠的距離。目前,計算機對用戶語音的識別程度不高,人機交互上還存在一定的問題,智能語音識別系統(tǒng)技術(shù)還有很長的一段路要走,必須取得突破性的進展,才能做到更好的商業(yè)應(yīng)用,這也是未來語音識別技術(shù)的發(fā)展方向。
在語音識別的商業(yè)化落地中,需要內(nèi)容、算法等各個方面的協(xié)同支撐,但是良好的用戶體驗是商業(yè)應(yīng)用的第一要素,而識別算法是提升用戶體驗的核心因素。目前語音識別在智能家居、智能車載、智能客服機器人方面有廣泛的應(yīng)用,未來將會深入到學(xué)習(xí)、生活、工作的各個環(huán)節(jié)。許多科幻片中的場景正在逐步走入我們的平常生活。