開發(fā)基于自然語言的語音識別系統(tǒng)面臨許多技術挑戰(zhàn),包括使用精確的語音識別引擎將機器聽到的內容翻譯成文字—以及一個綜合的自然語言處理器,它能判斷所說內容的意思或意圖,然后返回一個有意義的響應或動作。這些課題已經(jīng)被廣泛研究幾十年了,這里不作過多討論。本文主要討論在遠場語音接口系統(tǒng)中經(jīng)常被忽視但同樣很重要的技術性挑戰(zhàn):在語音到達語音識別引擎之前的語音預處理。
即使是最現(xiàn)代的語音識別引擎要想運轉良好也有一個基本的要求—輸入到該引擎的必須是語音。雖然對遠場語音接口系統(tǒng)來說這似乎是顯而易見的要求,但它卻是最具挑戰(zhàn)性的要求之一。這里的“遠場”指的是用戶話音距產品麥克風的距離超過半米的系統(tǒng)。舉例來說,靠近用戶臉部的智能手機形成的是一種“近場”用例,但對著一臂之長的PC機或平板電腦講話或隔著房間對電視機、立體聲系統(tǒng)、燈光開關、自動調溫器或智能家庭控制器講話ADC都算作“遠場”用例。
近場和遠場用例之間存在著許多重要的差別,這些差別產生了在近場系統(tǒng)中沒有但在遠場系統(tǒng)中十分艱巨的技術性挑戰(zhàn)。
1.大動態(tài)范圍:在遠場系統(tǒng)中,用戶語音可能非常低,因為他/她與產品麥克風有數(shù)米距離,但干擾可能非常大,比如在受語音控制的揚聲器系統(tǒng)中有音樂回放的場合。
2.低信噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語音和噪聲:遠場系統(tǒng)中的語音噪聲比要比近場系統(tǒng)中的小得多。隨著用戶不斷遠離產品的麥克風,語音電平會越來越小,而背景噪聲電平保持不變。
同樣,從用戶嘴巴到麥克風的間接路徑——從沿途的墻體和窗戶等表面的反射路徑與從用戶到麥克風的直接路徑相比可能有很顯著的功率(即低的DRR)。在使用傳統(tǒng)的語音處理技術和語音識別引擎時這種混響效應會造成很大的問題。
最后,在遠場系統(tǒng)中,用戶語音相對于麥克風的方向以及噪聲相對于麥克風的方向都是未知的。在典型應用場合,噪聲甚至與用戶語音來自相同的方向。
3.全雙工話音交互:在許多遠場系統(tǒng)中,當用戶對著產品講話時,產品的揚聲器中可能正在播放音頻內容,如音樂、電影或話音提示。這時需要使用一個全雙工的回聲消除器,以便在聆聽用戶語音的同時抵消掉產品的回放輸出聲。在回聲消除器并不完全了解回放內容的系統(tǒng)中情況就更加復雜了。
在這些情況下,實現(xiàn)一個依然能夠良好拾取語音的系統(tǒng)是一項極具挑戰(zhàn)性的任務。本文將介紹傳統(tǒng)方法為何無法在這些遠場條件下提供可接受性能的原因,然后提出了能以極具成本效益的方法提供卓越遠場性能的一種解決方案。
大動態(tài)范圍
用于智能家庭設備的語音捕獲系統(tǒng)需要支持大信號動態(tài)范圍,從輕聲細語到響亮的音頻內容回放。對于與用戶距離大概在0.5米至3米范圍內的設備來說,設備麥克風處的語音電平范圍大概在75dB至44dB SPL。對于體積不大的音頻回放設備來說,回放內容在設備麥克風處的SPL電平可能接近95dB。這種典型和極具挑戰(zhàn)性的用例對設備中的麥克風和模數(shù)轉換器(ADC)的選型有很大的影響。
對于遠場應用來說,選擇具有高信噪比值的麥克風非常重要。如上所述,目標語音信號的SPL 電平可能低至44dB。對于94dB SPL的1kHz音來說,如果使用信噪比(SNR)為66dB的麥克風,等效的本底噪聲為28dB SPL,那么最差情況下的語音與麥克風自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風,那么語音與麥克風自身噪聲之比可能低至5dB!
ADC內部的本底噪聲也很重要,因為如果應用中的ADC動態(tài)范圍不夠的話,還會造成信號飽和。
圖 1顯示了兩種ADC的輸入?yún)⒖荚肼?,它們都是麥克風增強設置值的函數(shù)。紅線顯示的是動態(tài)范圍大約是96dB的18位ADC性能,藍線顯示的是動態(tài)范圍大約為106dB的24位ADC性能。作為參考,灰線顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風自身噪聲電平。
圖1:麥克風自身的噪聲和來自ADC的噪聲將疊加在一起形成系統(tǒng)總的本底噪聲。
圖 2和圖3顯示了分別使用96dB動態(tài)范圍和106dB動態(tài)范圍的ADC時系統(tǒng)的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點。合理的設置是針對96dB ADC使用24dB的麥克風增強值、針對106dB ADC使用12dB的麥克風增強值。在本例中,使用106dB ADC時的本底噪聲要低2dB,飽和點要高12dB。本底噪聲低2dB對于拾取遠場條件中的語音來說尤其重要。
圖2:這張表顯示了使用96dB ADC時的系統(tǒng)屬性。
圖3:這張表顯示了使用106dB ADC時的系統(tǒng)屬性。
考慮到峰值內容和諧振等因素,由于回聲而在麥克風處產生的SPL電平可能達到96dB甚至更高。因此對于具有大聲回放而且體積不大的設備來說,在使用 96dB或者更低動態(tài)范圍的ADC時飽和問題很常見。當在實際系統(tǒng)中遇到這些問題時,唯一的解決方案通常是進一步降低麥克風的增強值,但這樣做的同時會抬高本底噪聲。在這個例子中,麥克風增強值需要減小到12dB。然而,與106dB ADC相比,這樣做將使本底噪聲高出4.3dB。因此我們可以知道,對遠場產品來說首選的解決方案是使用具有高信噪比的麥克風和106dB或更高動態(tài)范圍的ADC。