在車聯(lián)網(wǎng)時代來臨的前夕,我們車上已經(jīng)有 GPS、行車記錄儀、藍牙喇叭等設(shè)備,營造更便利的駕駛環(huán)境。不過,在上路前免不了的一連串手動輸入或設(shè)定,卻又不是那么方便了,更遑論開車到一半時要進行變更。即使是趁著等紅燈的空檔,只要還得伸手去屏幕上按來按去,就多少增加了行車風(fēng)險。于是,為了駕駛?cè)伺c乘客更舒適安全的的乘車體驗,語音助理搭配人工智能將是不可或缺的環(huán)節(jié)。
然而,這樣一來我們就得面對另一個難題,便是這些車用語音智能產(chǎn)品,如何能提供優(yōu)異的語音辨識品質(zhì),提高辨識率,讓機器準確接收我們的指令呢?想像一下,你載著滿車朋友出游,在國道上高速行駛,大家快意談笑,夾雜引擎運轉(zhuǎn)與風(fēng)噪聲,可能還正好放著一首 Lana Del Rey 的《Burning Desire》,使你不自覺腳踩油門。這時車內(nèi)環(huán)境噪音絕對高于 70dB(分貝),而且還夾雜不同頻率的聲音。因此,讓產(chǎn)品偵測說話的人并接收正確指令,是相當令人頭痛的問題。
環(huán)境噪音對語音通訊品質(zhì)的影響
在語音辨識的流程中,可分為五道程序:包含語音輸入及語音訊號處理、語音特征擷取、以聲學(xué)模型(acousTIc model)進行語音單元辨識、以語言模型(language model)來組織語音單元、解碼及輸出等。
目前語音助理的市場上,Microsoft 耕耘最久,Apple、Google 相繼而起,以完善智能手機體驗為目標;近期火熱的 Amazon Echo,其語音助理 Alexa 則一開始就以獨立的聲控家用平臺為定位,建立自身生態(tài)系。以上這幾家語音助理開發(fā)商,基本上已經(jīng)掌握后面四道程序。不過,一旦來到車用領(lǐng)域,產(chǎn)品設(shè)備開發(fā)商則勢必要在語音輸入及語音訊號處理的程序上,投注更多心力。
車用語音智能產(chǎn)品在車內(nèi)環(huán)境中,與使用者的距離不出 0.5~1 米之內(nèi)。一般汽車引擎發(fā)動后且車窗緊閉的情況下,車內(nèi)噪音約 60dB 左右。假設(shè)使用者發(fā)出約 89dB 的聲音(即一般說話音量的平均值),此時嘴邊的訊噪比為 29dB,足以維持良好的通訊品質(zhì)。但你不會想要每次下指令還得把臉貼到汽車面板前,因此 0.5~1 米是產(chǎn)品接收語音訊號的合理距離。然而,當說話聲音傳到 0.5 米時會衰減至 65dB,此時訊噪比只剩 5dB;說話聲音到 1 米時則只剩 60dB,與噪音的音量相當,更不用說上述提到高速行駛的環(huán)境下,噪音都比發(fā)出指令的人聲還要大。
符合標準的車用通訊品質(zhì)
當面臨車聯(lián)網(wǎng)逐漸完善、語音應(yīng)用普及化,越來越多車廠要求內(nèi)建 Android Auto、Apple Carplay 等智能助理,而這些都需要按照 ITU-T P.1110/P.1100 語音標準來設(shè)計,對代工組裝或設(shè)計加工的車用電子系統(tǒng)廠來說,等于是踏入未知的領(lǐng)域,只能以現(xiàn)有產(chǎn)品不斷偵錯找出問題,相當耗費時間。因此像是貝爾聲學(xué)這種第三方語音測試實驗室,就會從麥克風(fēng)模組、連接線材等部分測試,首先幫廠商判斷選料是否正確。
貝爾聲學(xué)曾針對一款舊的車用麥克風(fēng)模組進行測試,該模組配兩顆 ECM 電容式類比麥克風(fēng),一顆為全指向性,主要用來收環(huán)境音,作為背景噪音消除演算法的用途;另一顆為單指向性,收音方向指向駕駛,用來接收駕駛的語音訊號。依據(jù) ITU-T P.1110 測試方式,得出了以下數(shù)據(jù):
從結(jié)果可以看到,麥克風(fēng)模組離標準建議值太遠,感度差了約 30dB,因此訊號必須放大 30dB,才能滿足標準建議值。然而,這意味著雜訊也會跟著放大,造成語音品質(zhì)跟辨識率低落。代表這款麥克風(fēng)一開始根本就不該出現(xiàn)在車用語音智能產(chǎn)品上。透過貝爾聲學(xué)的協(xié)助,能讓廠商快速找到癥結(jié)點,避免進行過多無意義的測試。
由于車子所處的環(huán)境噪音會隨著車速、路段、路況、空調(diào)、乘客及音響等各種因素不斷改變,而背景降噪演算法不易解決時時變動且突發(fā)性的聲音,所以車用語音智能產(chǎn)品可以著重在一些細節(jié),幫助提升通訊品質(zhì)。例如采用兩顆以上的麥克風(fēng)陣列,以進行較佳的背景降噪演算法;采用訊噪比較高的麥克風(fēng),最好是 SNR 58dB 以上。其次,把麥克風(fēng)置于離駕駛嘴巴最近的位置,如方向盤附近;但同時又要盡量縮短麥克風(fēng)線材至主機的距離,且加強線材隔絕性,以減少外來的雜訊。最后,則是加上回音消除(Echo cancellaTIon)、背景降噪(Background noise reducTIon)以及麥克風(fēng)自動增益(Mic auto gain control)等三種功能,幫助提升語音辨識率。