利用麥克風(fēng)數(shù)組抑制背景噪聲
隨著手持語音通信設(shè)備越來越流行,它們應(yīng)用在嘈吵環(huán)境的機(jī)會也越來越高,例如機(jī)場、交通繁忙的路段、人多嘈雜的酒吧等。在這種嘈吵的環(huán)境下,通話的雙方實(shí)在難以聽清對方所說的話。
此外,不少通信系統(tǒng)都是采用計(jì)算機(jī)運(yùn)行的語音識別、指令及/或響應(yīng)系統(tǒng),這些系統(tǒng)均易受到背景噪聲的影響,假如噪聲過大,便會導(dǎo)致系統(tǒng)出現(xiàn)很大的偏差。因此,有必要改善語音信號對背景聲音噪聲的比率。
本文將解釋利用麥克風(fēng)數(shù)組消除語音通信系統(tǒng)中背景噪聲的基本原理,并引用美國國家半導(dǎo)體的LMV1088麥克風(fēng)數(shù)組放大器作為例子加以說明。
麥克風(fēng)數(shù)組
麥克風(fēng)數(shù)組是指將多個麥克風(fēng)一個接一個地排列成一個特別的樣式,讓它們一起工作以產(chǎn)生出一個合成輸出信號或多組信號。
每一個麥克風(fēng)都是一個傳感器或一個空間窗口(spatial window),用于接收(空間采樣)輸入信號。數(shù)組的整體響應(yīng)是數(shù)組中每個麥克風(fēng)的個別響應(yīng)的迭加,并與所采用的算法相關(guān)。
數(shù)組中多組麥克風(fēng)信號所采用的 “數(shù)組處理” 算法是根據(jù)幾個因素來決定的,包括麥克風(fēng)的間隔距離及排列樣式、麥克風(fēng)的數(shù)量及類型,以及聲音的傳播原則。
麥克風(fēng)數(shù)組的基本任務(wù)是消除語音輸入信號的周圍噪聲,進(jìn)而改善聽覺輔助系統(tǒng)、語音識別設(shè)備和電信產(chǎn)品的語音質(zhì)量。此外,麥克風(fēng)數(shù)組也可用于方向定位,以及計(jì)算聲源與數(shù)組之間的距離。
語音通信系統(tǒng)中的麥克風(fēng)數(shù)組的主要功能是提供一個高質(zhì)量的語音信號,同時降低現(xiàn)場及周圍環(huán)境的噪聲。這里所指的質(zhì)量是指最終的語音信號非常自然真實(shí),當(dāng)中不存在任何的人工噪音例如是卡嗒聲和砰啪聲、非意愿靜音、頻率失真、回聲或因加強(qiáng)語音信號處理方法所引起的不定期信號電平變化。
基于上述的理由,信/噪比改進(jìn)(SNRI)并不是選擇背景噪聲抑制解決方案時的唯一參數(shù),而必須考慮其它問題。
聲音信息
聲壓級
聲壓級(SPL)會隨著聲源距離的增加而減少。圖1和圖2分別表示出SPL的消減,該數(shù)值以分貝(dB)作單位,并且是聲源距離 “x”的一個函數(shù)。當(dāng)人們說話的時候,一般以距離嘴唇約1cm的位置作為基準(zhǔn)參考點(diǎn),并將該位置的SPL定為96 dB。在這條件下,SPL的公式應(yīng)為:
dB=96-20 log(x/0.01)
或可寫成
dB=96+20 log(0.01/x)
公式中的 ( 或 )是0.01m的參考值距離,亦即以米作單位時相對于聲源的距離“x” 為1公分。
圖1 |
圖2 |
當(dāng)距離“x” 增加一倍時,兩條曲線的SPL均下降6dB 。圖1距離聲源200公分,而圖2則是距離聲源50公分的局部放大圖,從圖中可見聲音壓力會因與聲源距離的增加而急速下降,即使距離很短的情況下也一樣。例如,當(dāng)與聲源的距離為10公分時,SPL便減少了20 dB,即由96dB下降到約76dB。
近場對遠(yuǎn)場聲音
聲源的近場是指該位置處于相關(guān)最低頻信號的一個波長范圍之內(nèi)。假設(shè)相關(guān)語音的最低頻為300Hz,如此波長λ便等于c/f 或 331.1/300 ,又或是 1.104 米,其中c代表聲波于零度攝氏下的水平速度。當(dāng)頻率為3500Hz時,λ便等于c/f或 331.1/3500,又或是 0.0946米 (9.46公分)。因此,語音信號的典型近場范圍即由聲源距離約9.5公分到1.1米。
超過1米的距離,語音信號便會被考慮成語音聲源的遠(yuǎn)場。對于麥克風(fēng)間隔較近的數(shù)組,近場聲源會呈現(xiàn)出一個圓球狀的波陣面,并擁有很強(qiáng)的信號振幅、壓力梯度,以及對應(yīng)數(shù)組中各麥克風(fēng)與聲源之間的距離而出現(xiàn)的頻率相關(guān)差別。
現(xiàn)在假設(shè)兩個麥克風(fēng)的間隔距離為3公分,而最接近聲源的一個麥克風(fēng),其與聲源的距離為5公分。圖2表示出第一個麥克風(fēng)(即最接近聲源的一個),其感受到一個SPL為82dB的音頻信號,而第二個麥克風(fēng)(即與聲源相距8公分)所感受到的信號為78dB SPL。即使兩者間只有4 dB的差別,但相對于整體的信號級,這差別仍相當(dāng)大。
從頻譜含量的角度看,麥克風(fēng)數(shù)組內(nèi)的所有近場語音信號均關(guān)系密切。與最接近聲源的麥克風(fēng)比較,與聲源距離最遠(yuǎn)的麥克風(fēng)信號的振幅將會減少,并且會出現(xiàn)信號由最近麥克風(fēng)傳送到最遠(yuǎn)麥克風(fēng)的時間延遲。然而,要恢復(fù)該個案中的語音信號并不困難。
在麥克風(fēng)數(shù)組語音近場范圍以外的聲源將被看作是遠(yuǎn)場聲源,并對數(shù)組中排列緊密的麥克風(fēng)展現(xiàn)出實(shí)質(zhì)平面的波陣面。數(shù)組中每一個麥克風(fēng)均感受到幾乎一樣的聲波能量及隨機(jī)相位信號,但該些信號并沒有對應(yīng)關(guān)系,除非麥克風(fēng)之間的距離非常接近。假如這些信號與麥克風(fēng)的距離較遠(yuǎn),那麥克風(fēng)的絕對SPL值便會進(jìn)一步下降。
現(xiàn)舉出另一個例子,假若將相同的麥克風(fēng)數(shù)組放置到與聲源距離150公分(即1.5米)的位置,最近聲源的麥克風(fēng)的SPL值便會下降到52.5 dB,而距離聲源153公分的最遠(yuǎn)麥克風(fēng)的SPL值則稍微下降到52.3dB。雖然兩者僅有0.2dB的差距,但從聲源到最近麥克風(fēng)的整體信號級將出現(xiàn)30dB的下降。
麥克風(fēng)輸出之間的不同信號,在進(jìn)行了適當(dāng)?shù)奶幚砑盀V波后,可將遠(yuǎn)場噪聲消除,使兩個麥克風(fēng)的復(fù)合輸出及處理電路能提供高清晰度的語音信號。
聲音噪聲的特質(zhì)
這里的噪聲場可分為三種,分別是相干噪聲、非相干噪聲及擴(kuò)散噪聲。
相干噪聲是指當(dāng)聲波傳到麥克風(fēng)時,在該過程中沒有因環(huán)境中的障礙物而出現(xiàn)任何形式的反射、散射或衰減。
非相干噪聲是指某一位置的噪聲與其它位置的噪聲沒有任何關(guān)系,并且被看成空間白噪音。
擴(kuò)散噪聲是指擁有相同能量的噪聲同時軸射到所有方向。例子包括辦公室內(nèi)的噪音、機(jī)場候機(jī)樓及交通噪音等,換句話說就是指所有充滿噪音的環(huán)境。
這里所指的聲音噪聲有兩種,分別是穩(wěn)態(tài)噪聲及非穩(wěn)態(tài)噪聲。
穩(wěn)態(tài)噪聲是指噪聲的能量相對地穩(wěn)定,并具備已知及變化緩慢的頻譜含量,并且是可預(yù)知的。例子包括由引擎發(fā)出的噪音、空調(diào)風(fēng)扇、隨機(jī)或 “白” 噪音等等。噪聲抑制算法能有效抑制這類噪音。
非穩(wěn)態(tài)噪聲是指音量及聲音內(nèi)容會在短時間內(nèi)變化,例如高聲說話或叫喊、汽車經(jīng)過的聲音或拍手等,其發(fā)生是不可預(yù)知的。假若出現(xiàn)這類噪音,它們可能在被辨識及抑制前便會自動地消失掉,非穩(wěn)態(tài)噪聲一般都包含在穩(wěn)態(tài)噪聲之內(nèi)。
最麻煩的情況是當(dāng)噪聲源與語音信號擁有相同的出現(xiàn)時間、頻譜及相干特性,這種情況當(dāng)背景噪聲屬于非穩(wěn)態(tài),且旁邊有其它人說話時便會出現(xiàn),如在餐館和酒吧,車站及派對上等。
第二部分
麥克風(fēng)數(shù)組的解決方案
根據(jù)選用的方法,麥克風(fēng)數(shù)組解決方案可以成為抑制穩(wěn)態(tài)及非穩(wěn)態(tài)噪聲的一項(xiàng)非常高效的技術(shù)。
配合適當(dāng)?shù)乃惴?,?shù)組中的個別麥克風(fēng)信號經(jīng)過濾波后再組合,以便達(dá)到波束成形或空間濾波的效果,進(jìn)而產(chǎn)生一個復(fù)雜的麥克風(fēng)數(shù)組極性響應(yīng)模式,能夠指向或遠(yuǎn)離某個聲音位置。因此,可以將某個位置的聲音隔離或加強(qiáng),又或可將其抑制或拒絕。同樣地,麥克風(fēng)聲道中的信號相關(guān)性可找出主要信號的方向及其正確位置。
視乎數(shù)組的復(fù)雜度及應(yīng)用,該數(shù)組可經(jīng)由一個配備了數(shù)字信號處理器的模擬電路,再加上適當(dāng)?shù)挠?jì)算機(jī)軟件和一系列方法去控制。
波束成形
波束成形分為兩種技術(shù):自適應(yīng)及定向。
在自適應(yīng)波束成形技術(shù)中,可通過數(shù)據(jù)相關(guān)濾波及改變對數(shù)據(jù)的時間響應(yīng)去調(diào)節(jié)波束的方向,在自適應(yīng)波束成形方面已有幾種方法被開發(fā)出來。雖然在信號的處理上比較繁復(fù),但好處是設(shè)計(jì)靈活度更高,包括麥克風(fēng)的數(shù)量、類型及間隔距離。自適應(yīng)波束成形一般需要數(shù)字信號處理器或計(jì)算機(jī)軟件來實(shí)現(xiàn)。
至于定向波束成形方面,波束的行走方向會按照相關(guān)聲源的方位而優(yōu)化,并且同時排除來自其它方向的噪聲。一般來說,排列緊密兼具備固有方向性的差分式麥克風(fēng)端射數(shù)組都是依靠固定時間延遲或其它方法來改變波束的方向。對于這類應(yīng)用,任何濾波及信號處理的方法均須對特別的機(jī)械設(shè)計(jì)加以優(yōu)化。定向波束成形一般需要模擬電路、數(shù)字信號處理器或計(jì)算機(jī)軟件來實(shí)現(xiàn)。
對于語音應(yīng)用來說,采用定向波束成形解決方案會比較好,尤其當(dāng)應(yīng)用牽涉到語音辨識。假如以模擬電路來實(shí)現(xiàn),它們便應(yīng)該:
● 對噪聲輸入有實(shí)時的響應(yīng)
● 容易實(shí)現(xiàn)而且無需開發(fā)任何的算法程序
● 為抑制穩(wěn)態(tài)及非穩(wěn)態(tài)噪聲提供一個可接受的信/噪比改進(jìn)(SNRI)值
● 在無語音時表現(xiàn)極低的失真,并且可改善語音質(zhì)量測試(ITU-T P.835)的整體平均意見分?jǐn)?shù)(mean opinion score)
● 運(yùn)算復(fù)雜度低并具備低信號延遲
● 功耗比其它解決方案小
與定向方案比較,采用數(shù)字信號處理器或軟件實(shí)現(xiàn)的自適應(yīng)波束成形的缺點(diǎn)為:
● 當(dāng)實(shí)施及調(diào)節(jié)抑制算法時,需要時間去重復(fù)辨識及收斂噪聲
● 雖然可提供較佳的SNRI值,但通常也會為語音輸出信號帶來較多的問題,包括因噪聲收斂時間所引起的延遲、卡嗒聲和砰啪聲、非意愿靜音、頻率失真、回聲或與子頻帶頻率信號處理方法有關(guān)的不定期信號級變化
● 由于需要另行開發(fā)演算程序,因此在實(shí)現(xiàn)上比較困難
● 需要更大的功耗
所有波束成形解決方案都是采用很小的數(shù)組,它們對誤差都非常敏感,包括由麥克風(fēng)增益與相位失配所引起的誤差,以及由于音頻信號路徑嵌入于產(chǎn)品內(nèi)而非設(shè)于大氣中所導(dǎo)致的路徑偏差。因此,波束解決方案必須具備某種形式的補(bǔ)償,而這種補(bǔ)償可以設(shè)于波束成形系統(tǒng)之內(nèi),又或是在系統(tǒng)之外加設(shè)適合的麥克風(fēng)和音頻信號路徑。
麥克風(fēng)間隔
奈奎斯特空間采樣率為相關(guān)最高頻率的二分之一個波長(d=λ/2)。為了從空間取得相關(guān)頻率的一個波長樣品,兩個傳感器(即麥克風(fēng))必須相隔二分之一個波長。
然而,當(dāng)傳感器的間隔少于二分之一個波長時(d < 1/2λ),過采樣便會發(fā)生,使波長被采樣超過兩次。相反地,如距離大于二分之一個波長(d > 1/2λ),空間性欠采樣便會發(fā)生,這時第一個傳感器在完成一個波長的采樣后,會在第二個傳感器進(jìn)行采樣之前再重新啟動。空間性欠采樣可將較高頻的信號混迭到相關(guān)的頻帶,導(dǎo)致結(jié)果出現(xiàn)混亂。為了防止出現(xiàn)假頻,采樣器的頻寬必須限制在最高相關(guān)頻率以上。
不少研究指出假如能夠盡量縮少傳感器之間的距離便可打造出高效的麥克風(fēng)數(shù)組,距離可以比奈奎斯特速率的最低要求小很多。現(xiàn)再舉一個例子,其中傳感器的間隔為相關(guān)聲波的八分之一個波長。
在一個純語音系統(tǒng)中,頻率范圍為300Hz 到 3500Hz,而最大聲音能量可出現(xiàn)在500Hz 到 2500Hz之間。在此條件下,λ/8的間隔在3500Hz下為1.18公分,而于2500Hz下為1.65公分。
由于波長增加,在3500Hz 及2500Hz頻率以下的音頻信號仍然會被過采樣,因此1.18公分或1.65公分的間隔能有效地取得更多的信號樣品。
另一個計(jì)算方法將間隔定為兩公分,如此當(dāng)頻率為2500Hz時,波長的間隔(λ)/(c/df)便為:
λ/(331.1/0.02*2500)=λ/6.62
假如空間采樣率在最高相關(guān)頻率下仍然低于λ/2,則需要調(diào)節(jié)麥克風(fēng)的間隔以滿足產(chǎn)品的應(yīng)用要求。但隨著間隔越來越擠(空間采樣率越來越高),麥克風(fēng)數(shù)組中的遠(yuǎn)場信號之間的相干性變大,使得數(shù)組在各頻率下均可發(fā)揮更佳的整體背景噪聲抑制效能。相反地,假如間隔變得較寬闊,數(shù)組的整體抑制能力便會下降,變得難以對較低頻信號作出反應(yīng)。
一旦決定了傳感器的間隔,便可對應(yīng)頻率的需求將數(shù)組優(yōu)化。假如采用的是定向波束成形方案,數(shù)組的響應(yīng)模式也需同時被固定。
不論是任何的產(chǎn)品,在設(shè)計(jì)的過程中必須要作出一些折衷決定,包括在操作頻率范圍與所需噪聲抑制級之間、理論與實(shí)際麥克風(fēng)間隔之間、以及整體的數(shù)組系統(tǒng)成本和復(fù)雜性之間等。
麥克風(fēng)數(shù)組解決方案的例子
以下采用美國國家半導(dǎo)體的遠(yuǎn)場抑制麥克風(fēng)數(shù)組放大器LMV1088作為麥克風(fēng)數(shù)組解決方案的一個例子,它可為語音應(yīng)用提供高至20 dB的背景噪聲抑制。LMV1088是一個模擬定向波束成形解決方案,適用于采用全指向性麥克風(fēng)的差分式雙麥克風(fēng)端射數(shù)組。
圖中兩個麥克風(fēng)分別位于兩條相距約1.5公分至2.5公分的線上,或保持等同的聲波路徑距離。說話者與手機(jī)或耳機(jī)的麥克風(fēng)距離最好保持2公分至10公分,通過使用圖1和圖2便可計(jì)算出語音信號隨距離變化的損耗。
LMV1088不僅可為兩條聲道上的聲音、麥克風(fēng)和放大器信號路徑之間的差別提供初始性補(bǔ)償,并且可執(zhí)行修正濾波令語音輸出更加自然,還可提供頻寬限制濾波功能。
由于內(nèi)部放大器增益可通過I2C指令調(diào)節(jié),因此可使用不同靈敏度的麥克風(fēng),并促使LMV1088的輸出信號級能配合模擬輸入信道信號的要求,以針對各式各樣的通信處理器及設(shè)備。
LMV1088可支持四種運(yùn)作模式,并通過I2C命令選擇:
● 預(yù)設(shè)模式 – 同時使用兩個麥克風(fēng)進(jìn)行噪聲抑制
● 獨(dú)立模式 – 獨(dú)立地使用麥克風(fēng)1或2(無噪聲抑制)
● 總合模式 – 兩個麥克風(fēng)的輸出被相加在一起,使麥克風(fēng)信號得到6dB增益 (無噪聲抑制)
LMV1088的模擬特性可提供一些傳統(tǒng)DSP解決方案沒有的特質(zhì):
● 無需因遷就背景噪聲級及其類型而花費(fèi)額外的時間去進(jìn)行噪聲收斂運(yùn)算,進(jìn)而可為語音信號及背景噪聲提供實(shí)時反應(yīng),并且可消除令人煩厭的短暫語音消失;
● 由于不采用子頻帶頻率處理算法,因此不會在輸出產(chǎn)生頻率失真、卡嗒聲和砰啪聲或其它的人工假信;
● 可加強(qiáng)現(xiàn)行系統(tǒng)中的單聲道回聲消除處理
不同麥克風(fēng)數(shù)組解決方案的比較和測試
為了準(zhǔn)確比較及測量不同背景噪聲抑制方案的效果,所有的測試設(shè)置及條件必須一致,以便得到可信的結(jié)果。
基于以上理由,特別安排了幾個標(biāo)準(zhǔn)的測試,其中絕大部分采用的是國際電信聯(lián)合標(biāo)準(zhǔn)ITU-T Rec. 的P0056e、58e、64e、0830e和ITU-T P835。
ITU-T P835專門用于主觀性測試,能夠有效評估系統(tǒng)中的語音輸出質(zhì)量包括噪聲抑制的效能。該規(guī)格標(biāo)準(zhǔn)清楚說明評估噪聲環(huán)境中語音主觀質(zhì)量的方法,特別適合用來評估噪聲抑制算法。該方法采用獨(dú)立的等級標(biāo)準(zhǔn)將測試分為三個獨(dú)立部分,分別就單獨(dú)的語音信號的主觀質(zhì)量、單獨(dú)的背景噪聲的主觀質(zhì)量,以及有背景噪聲下的整體語音質(zhì)量(平均意見分?jǐn)?shù))進(jìn)行獨(dú)立的評估。
圖3 噪聲、遠(yuǎn)場、語音、優(yōu)化語音 |
至于IEEE標(biāo)準(zhǔn)方面,可以采用IEEE 1209-1994及IEEE 269_1992兩個標(biāo)準(zhǔn)的測試。前者是專門測量電話手機(jī)及耳機(jī)的傳送效果,而后者則針對模擬及數(shù)字電話機(jī)的傳送效果。兩個標(biāo)準(zhǔn)的文件均已被IEEE 269-2002文件所取代。
將上述的標(biāo)準(zhǔn)綜合在一起后便可實(shí)現(xiàn)客觀的數(shù)值測量,并且可準(zhǔn)確地評估不同背景噪聲抑制解決方案的主觀語音質(zhì)量和電子語音辨識效果。
一般來說,系統(tǒng)的噪聲抑制數(shù)據(jù)都是由制造商提供的,它們可能是系統(tǒng)所能達(dá)到的最佳水平,但對于某些要求高語音質(zhì)量的應(yīng)用而言,這些預(yù)設(shè)水平可能無法滿足應(yīng)用需求。
因此,在解決方案數(shù)據(jù)表上標(biāo)明噪聲抑制數(shù)值是很困難的,甚至有時會產(chǎn)生誤導(dǎo),除非可以明確地說明所有的測試條件。在此方面,一般的數(shù)據(jù)表都不會提供很詳細(xì)的數(shù)據(jù),即使提供了也不切實(shí)際,因?yàn)楹茈y想象客戶應(yīng)用的條件與數(shù)據(jù)表上的測試條件完全吻合。