語(yǔ)音識(shí)別技術(shù)的研究難點(diǎn)以及未來(lái)發(fā)展方向
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:鈦媒體)
目前,語(yǔ)音識(shí)別研究工作進(jìn)展緩慢,困難具體表現(xiàn)在:
(1)輸入無(wú)法標(biāo)準(zhǔn)統(tǒng)一,比如各地方言的差異,每個(gè)人獨(dú)有的發(fā)音習(xí)慣等,如下圖所示,口腔中元音隨著舌頭部位的不同可以發(fā)出多種音調(diào),如果組合變化多端的輔音,可以產(chǎn)生大量的、相似的發(fā)音,這對(duì)語(yǔ)音識(shí)別提出了挑戰(zhàn)。除去口音參差不齊,輸入設(shè)備不統(tǒng)一也導(dǎo)致了語(yǔ)音輸入的不標(biāo)準(zhǔn)。
(2)噪聲的困擾,噪聲環(huán)境的各類聲源處理是目前公認(rèn)的技術(shù)難題,機(jī)器無(wú)法從各層次的背景噪音中分辨出人聲,而且,背景噪聲千差萬(wàn)別,訓(xùn)練的情況也不能完全匹配真實(shí)環(huán)境。因而,語(yǔ)音識(shí)別在噪聲中比在安靜的環(huán)境下要難得多。
目前主流的技術(shù)思路是,通過(guò)算法提升降低誤差。首先,在收集的原始語(yǔ)音中,提取抗噪性較高的語(yǔ)音特征。然后,在模型訓(xùn)練的時(shí)候,結(jié)合噪聲處理算法訓(xùn)練語(yǔ)音模型,使模型在噪聲環(huán)境里的魯棒性較高。最后,在語(yǔ)音解碼的過(guò)程中進(jìn)行多重選擇,從而提高語(yǔ)音識(shí)別在噪聲環(huán)境中的準(zhǔn)確率。完全消除噪聲的干擾,目前而言,還停留在理論層面。
(3)模型的有效性,識(shí)別系統(tǒng)中的語(yǔ)言模型、詞法模型在大詞匯量、連續(xù)語(yǔ)音識(shí)別中還不能完全正確的發(fā)揮作用,需要有效地結(jié)合語(yǔ)言學(xué)、心理學(xué)及生理學(xué)等其他學(xué)科的知識(shí)。并且,語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)向商品的轉(zhuǎn)化過(guò)程中還有許多具體細(xì)節(jié)技術(shù)問(wèn)題需要解決。
許多用戶已經(jīng)能享受到語(yǔ)音識(shí)別技術(shù)帶來(lái)的方便,比如智能手機(jī)的語(yǔ)音操作等。但是,這與實(shí)現(xiàn)真正的人機(jī)交流還有相當(dāng)遙遠(yuǎn)的距離。目前,計(jì)算機(jī)對(duì)用戶語(yǔ)音的識(shí)別程度不高,人機(jī)交互上還存在一定的問(wèn)題,智能語(yǔ)音識(shí)別系統(tǒng)技術(shù)還有很長(zhǎng)的一段路要走,必須取得突破性的進(jìn)展,才能做到更好的商業(yè)應(yīng)用,這也是未來(lái)語(yǔ)音識(shí)別技術(shù)的發(fā)展方向。
在語(yǔ)音識(shí)別的商業(yè)化落地中,需要內(nèi)容、算法等各個(gè)方面的協(xié)同支撐,但是良好的用戶體驗(yàn)是商業(yè)應(yīng)用的第一要素,而識(shí)別算法是提升用戶體驗(yàn)的核心因素。目前語(yǔ)音識(shí)別在智能家居、智能車載、智能客服機(jī)器人方面有廣泛的應(yīng)用,未來(lái)將會(huì)深入到學(xué)習(xí)、生活、工作的各個(gè)環(huán)節(jié)。許多科幻片中的場(chǎng)景正在逐步走入我們的平常生活。