智能家庭應(yīng)用之語音識別系統(tǒng)
開發(fā)基于自然語言的語音識別系統(tǒng)面臨許多技術(shù)挑戰(zhàn),包括使用精確的語音識別引擎將機(jī)器聽到的內(nèi)容翻譯成文字—以及一個(gè)綜合的自然語言處理器,它能判斷所說內(nèi)容的意思或意圖,然后返回一個(gè)有意義的響應(yīng)或動(dòng)作。這些課題已經(jīng)被廣泛研究幾十年了,這里不作過多討論。本文主要討論在遠(yuǎn)場語音接口系統(tǒng)中經(jīng)常被忽視但同樣很重要的技術(shù)性挑戰(zhàn):在語音到達(dá)語音識別引擎之前的語音預(yù)處理。
即使是最現(xiàn)代的語音識別引擎要想運(yùn)轉(zhuǎn)良好也有一個(gè)基本的要求—輸入到該引擎的必須是語音。雖然對遠(yuǎn)場語音接口系統(tǒng)來說這似乎是顯而易見的要求,但它卻是最具挑戰(zhàn)性的要求之一。這里的“遠(yuǎn)場”指的是用戶話音距產(chǎn)品麥克風(fēng)的距離超過半米的系統(tǒng)。舉例來說,靠近用戶臉部的智能手機(jī)形成的是一種“近場”用例,但對著一臂之長的PC機(jī)或平板電腦講話或隔著房間對電視機(jī)、立體聲系統(tǒng)、燈光開關(guān)、自動(dòng)調(diào)溫器或智能家庭控制器講話ADC都算作“遠(yuǎn)場”用例。
近場和遠(yuǎn)場用例之間存在著許多重要的差別,這些差別產(chǎn)生了在近場系統(tǒng)中沒有但在遠(yuǎn)場系統(tǒng)中十分艱巨的技術(shù)性挑戰(zhàn)。
1.大動(dòng)態(tài)范圍:在遠(yuǎn)場系統(tǒng)中,用戶語音可能非常低,因?yàn)樗?她與產(chǎn)品麥克風(fēng)有數(shù)米距離,但干擾可能非常大,比如在受語音控制的揚(yáng)聲器系統(tǒng)中有音樂回放的場合。
2.低信噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語音和噪聲:遠(yuǎn)場系統(tǒng)中的語音噪聲比要比近場系統(tǒng)中的小得多。隨著用戶不斷遠(yuǎn)離產(chǎn)品的麥克風(fēng),語音電平會越來越小,而背景噪聲電平保持不變。
同樣,從用戶嘴巴到麥克風(fēng)的間接路徑——從沿途的墻體和窗戶等表面的反射路徑與從用戶到麥克風(fēng)的直接路徑相比可能有很顯著的功率(即低的DRR)。在使用傳統(tǒng)的語音處理技術(shù)和語音識別引擎時(shí)這種混響效應(yīng)會造成很大的問題。
最后,在遠(yuǎn)場系統(tǒng)中,用戶語音相對于麥克風(fēng)的方向以及噪聲相對于麥克風(fēng)的方向都是未知的。在典型應(yīng)用場合,噪聲甚至與用戶語音來自相同的方向。
3.全雙工話音交互:在許多遠(yuǎn)場系統(tǒng)中,當(dāng)用戶對著產(chǎn)品講話時(shí),產(chǎn)品的揚(yáng)聲器中可能正在播放音頻內(nèi)容,如音樂、電影或話音提示。這時(shí)需要使用一個(gè)全雙工的回聲消除器,以便在聆聽用戶語音的同時(shí)抵消掉產(chǎn)品的回放輸出聲。在回聲消除器并不完全了解回放內(nèi)容的系統(tǒng)中情況就更加復(fù)雜了。
在這些情況下,實(shí)現(xiàn)一個(gè)依然能夠良好拾取語音的系統(tǒng)是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。本文將介紹傳統(tǒng)方法為何無法在這些遠(yuǎn)場條件下提供可接受性能的原因,然后提出了能以極具成本效益的方法提供卓越遠(yuǎn)場性能的一種解決方案。
大動(dòng)態(tài)范圍
用于智能家庭設(shè)備的語音捕獲系統(tǒng)需要支持大信號動(dòng)態(tài)范圍,從輕聲細(xì)語到響亮的音頻內(nèi)容回放。對于與用戶距離大概在0.5米至3米范圍內(nèi)的設(shè)備來說,設(shè)備麥克風(fēng)處的語音電平范圍大概在75dB至44dB SPL。對于體積不大的音頻回放設(shè)備來說,回放內(nèi)容在設(shè)備麥克風(fēng)處的SPL電平可能接近95dB。這種典型和極具挑戰(zhàn)性的用例對設(shè)備中的麥克風(fēng)和模數(shù)轉(zhuǎn)換器(ADC)的選型有很大的影響。
對于遠(yuǎn)場應(yīng)用來說,選擇具有高信噪比值的麥克風(fēng)非常重要。如上所述,目標(biāo)語音信號的SPL 電平可能低至44dB。對于94dB SPL的1kHz音來說,如果使用信噪比(SNR)為66dB的麥克風(fēng),等效的本底噪聲為28dB SPL,那么最差情況下的語音與麥克風(fēng)自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風(fēng),那么語音與麥克風(fēng)自身噪聲之比可能低至5dB!
ADC內(nèi)部的本底噪聲也很重要,因?yàn)槿绻麘?yīng)用中的ADC動(dòng)態(tài)范圍不夠的話,還會造成信號飽和。
圖 1顯示了兩種ADC的輸入?yún)⒖荚肼暎鼈兌际躯溈孙L(fēng)增強(qiáng)設(shè)置值的函數(shù)。紅線顯示的是動(dòng)態(tài)范圍大約是96dB的18位ADC性能,藍(lán)線顯示的是動(dòng)態(tài)范圍大約為106dB的24位ADC性能。作為參考,灰線顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風(fēng)自身噪聲電平。
圖1:麥克風(fēng)自身的噪聲和來自ADC的噪聲將疊加在一起形成系統(tǒng)總的本底噪聲。
圖 2和圖3顯示了分別使用96dB動(dòng)態(tài)范圍和106dB動(dòng)態(tài)范圍的ADC時(shí)系統(tǒng)的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點(diǎn)。合理的設(shè)置是針對96dB ADC使用24dB的麥克風(fēng)增強(qiáng)值、針對106dB ADC使用12dB的麥克風(fēng)增強(qiáng)值。在本例中,使用106dB ADC時(shí)的本底噪聲要低2dB,飽和點(diǎn)要高12dB。本底噪聲低2dB對于拾取遠(yuǎn)場條件中的語音來說尤其重要。
圖2:這張表顯示了使用96dB ADC時(shí)的系統(tǒng)屬性。
圖3:這張表顯示了使用106dB ADC時(shí)的系統(tǒng)屬性。
考慮到峰值內(nèi)容和諧振等因素,由于回聲而在麥克風(fēng)處產(chǎn)生的SPL電平可能達(dá)到96dB甚至更高。因此對于具有大聲回放而且體積不大的設(shè)備來說,在使用 96dB或者更低動(dòng)態(tài)范圍的ADC時(shí)飽和問題很常見。當(dāng)在實(shí)際系統(tǒng)中遇到這些問題時(shí),唯一的解決方案通常是進(jìn)一步降低麥克風(fēng)的增強(qiáng)值,但這樣做的同時(shí)會抬高本底噪聲。在這個(gè)例子中,麥克風(fēng)增強(qiáng)值需要減小到12dB。然而,與106dB ADC相比,這樣做將使本底噪聲高出4.3dB。因此我們可以知道,對遠(yuǎn)場產(chǎn)品來說首選的解決方案是使用具有高信噪比的麥克風(fēng)和106dB或更高動(dòng)態(tài)范圍的ADC。