陣列式麥克風(fēng)在電視機(jī)上的應(yīng)用
掃描二維碼
隨時(shí)隨地手機(jī)看文章
摘要:本文將主要闡述在電視中應(yīng)用陣列式麥克風(fēng),可以大大提升用戶的體驗(yàn)感受;而且提出了一些解決回聲的技術(shù)方案。
關(guān)鍵詞:聊天電視;陣列式麥克風(fēng);回聲;體驗(yàn)感;校準(zhǔn)
前言
隨著國家三網(wǎng)融合政策地推進(jìn)并落實(shí),電視機(jī)作為家庭的娛樂終端,也將帶來一些非常積極的變化。例如,像深圳創(chuàng)維在2010年2月就率先研發(fā)成功了“聊天電視”,隨后海信、TCL等家電廠家也推出相似的產(chǎn)品。
在聊天電視中,麥克風(fēng)的語音收集就變得非常重要。目前多數(shù)聊天電視基本上都是使用了單個(gè)麥克風(fēng)進(jìn)行收音,可能是有線麥克風(fēng),也可能是無線麥克風(fēng)。采用單個(gè)麥克風(fēng)收音,會(huì)帶來以下一些問題。
● 用戶體驗(yàn)不好。
即用戶在視頻聊天的過程中,需要手握著,或者盡量靠近麥克風(fēng)來說話,感覺不好;特別是很多家庭成員要一起聊天時(shí),更顯得擁擠不堪。
使用有線麥克風(fēng),連接線顯得很啰嗦,而且影響家庭的裝飾;無線麥克風(fēng)在人移動(dòng)速度稍快時(shí),都容易出現(xiàn)斷音;而且無論采取哪種方式,用了一段時(shí)間后,都需要更換電池或者再次充電。
● 成本較高。
目前在聊天電視上,采用無線麥克風(fēng),載波調(diào)制為2.4GHz的方式,已經(jīng)成為主流,但是這種方式的成本明顯偏高。
針對上述兩個(gè)問題,我們提出使用陣列式麥克風(fēng)應(yīng)用在電視上,可以較好解決這兩個(gè)問題。
陣列式麥克風(fēng)
陣列式麥克風(fēng)(Array Microphone),又名麥克風(fēng)陣列(Microphone Array),即設(shè)置兩組以上麥克風(fēng),并以這些麥克風(fēng)對音訊進(jìn)行偵測,所得到的資料交由數(shù)字信號(hào)處理器(DSP)進(jìn)行比對,用以還原聲音的原貌,并消除背景雜音。陣列式麥克風(fēng)目前是HD Audio的標(biāo)準(zhǔn)之一。Windows Vista已可以支持陣列式麥克風(fēng)。
陣列式麥克風(fēng)通過對拾取的多路語音信號(hào)進(jìn)行分析與處理,使陣列形成的波束方向圖主瓣對準(zhǔn)目標(biāo)語音,“零點(diǎn)”指向干擾源以抑制干擾信號(hào),從而盡可能地獲取目標(biāo)語音。其中波束方向及波束主瓣寬度與麥克風(fēng)的間距、麥克風(fēng)數(shù)目、麥克風(fēng)的擺放位置、聲源入射角及采樣頻率緊密相關(guān)。波束的形成不僅消除了使用單個(gè)麥克風(fēng)時(shí)需人工調(diào)節(jié)麥克風(fēng)指向性問題,而且可以使輸出語音的信噪比大幅度提高,從而無需人工干預(yù)亦可獲得高質(zhì)量的語音。
使用傳統(tǒng)麥克風(fēng)說話時(shí),人需要盡量靠近麥克風(fēng),對于系統(tǒng)來說,靠近麥克風(fēng)說話的就是“主音”,系統(tǒng)獲得較大的輸入。而對于旁邊的雜音,或者對話者從揚(yáng)聲器輸出的聲音相對“主音”來說,幅度都是比較小的,都屬于“干擾音”。這樣系統(tǒng)可以更準(zhǔn)確過濾掉“干擾音”,保留“主音”。在這種傳統(tǒng)的麥克風(fēng)拾音過程中,回聲的問題并不突出。而在應(yīng)用陣列式麥克風(fēng)時(shí),回聲問題則需要重點(diǎn)關(guān)注。
回聲是指在揚(yáng)聲器播出的聲音在被受話方聽到的同時(shí),語音信號(hào)也通過多種途徑被麥克風(fēng)拾取,重新回輸至原說話人處。回聲通過的路徑各不相同,也就產(chǎn)生了不同的延時(shí)回聲,包括直接回聲和間接回聲。直接回聲是指揚(yáng)聲器播出的聲音未經(jīng)任何的反射直接進(jìn)入麥克風(fēng),這種回聲的延時(shí)最短,它同遠(yuǎn)端說話者的語音能量,揚(yáng)聲器和麥克風(fēng)間的距離、角度、揚(yáng)聲器的播放音量,麥克風(fēng)的拾音靈敏度直接相關(guān)。而間接回聲是指揚(yáng)聲器播出的聲音經(jīng)過不同的路徑(如房屋或房屋內(nèi)任何的物品)一次或多次反射后進(jìn)入麥克風(fēng)后所產(chǎn)生回聲的集合。房屋內(nèi)任何物品的移動(dòng)或改變都會(huì)改變回聲通道。因此這種回聲的特點(diǎn)是多路徑和時(shí)變的。
在陣列式麥克風(fēng)應(yīng)用中,由于人在說話時(shí),不再需要緊貼麥克風(fēng),相對而言,人的“主音”對麥克風(fēng)的影響力可能會(huì)降低,即旁邊的“干擾音”有可能會(huì)干擾“主音”,導(dǎo)致系統(tǒng)無法正確識(shí)別哪個(gè)才是真正的“主音”。特別是在聊天過程中,對方的聲音從揚(yáng)聲器出來,如果聲音比較大,會(huì)被麥克風(fēng)重新獲取,被對方再一次或者多次聽到他本人說過的話。這就是在應(yīng)用陣列式麥克風(fēng)所要面對的最大的難題。
簡而言之,在應(yīng)用陣列式麥克風(fēng)過程中,建議關(guān)注以下幾個(gè)問題:收音范圍是否足夠?qū)?收音距離是否足夠遠(yuǎn);收音的效果是否足夠清晰;回聲的問題是否得以較好的消除。其中收音范圍可以通過更換麥克風(fēng)的個(gè)數(shù)以及麥克風(fēng)的擺放位置來調(diào)整;而收音的距離和清晰度等可以通過調(diào)整麥克風(fēng)的靈敏度來配合,本文不作過多的論述。由于對于回聲的問題最難處理,本文也試圖提出一些個(gè)人的想法。
陣列式麥克風(fēng)在電視上的應(yīng)用
目前,陣列式麥克風(fēng)的技術(shù)發(fā)展已經(jīng)較為成熟,在人的語音收音距離要求不是很遠(yuǎn),而且空間不大,收音范圍較窄的情況下,陣列式麥克風(fēng)已經(jīng)被大量應(yīng)用,如筆記本電腦、車載藍(lán)牙設(shè)備等等。同樣,陣列式麥克風(fēng)也可以應(yīng)用在電視機(jī)上,使得用戶可以無拘無束地與遠(yuǎn)方的家人、朋友等進(jìn)行聊天交流(圖1)。
當(dāng)陣列式麥克風(fēng)在電視機(jī)上應(yīng)用時(shí),需要更加遠(yuǎn)的收音距離,需要更加寬的收音范圍,而這些問題都可以比較容易解決,但是回聲的問題則變得更為突出。因?yàn)殡娨暀C(jī)是家庭的娛樂中心,所以電視機(jī)的揚(yáng)聲器音量輸出也許會(huì)比較大,而麥克風(fēng)大部分都是設(shè)計(jì)在電視機(jī)上,遠(yuǎn)端說話的聲音從揚(yáng)聲器出來,很容易被麥克風(fēng)重新拾取,再傳送到原說話者的那邊,嚴(yán)重一些的情況,還可能形成自激。
在電視聊天過程中,如果存在回聲,會(huì)導(dǎo)致說話的人感覺不舒服;而且語音疊加,導(dǎo)致語音不清晰,所以要盡量消除回聲。電視機(jī)的使用場合、環(huán)境各不相同,比如說揚(yáng)聲器的音量大小差異很大,空間的布置差異也很大等,這些都是與回聲直接相關(guān)的因素,而且這些因素都為不可控,不可預(yù)估的因素。為了解決在電視機(jī)上應(yīng)用陣列式麥克風(fēng),可能會(huì)產(chǎn)生的回聲問題,需要在系統(tǒng)內(nèi)部設(shè)計(jì)自適應(yīng)濾波器。自適應(yīng)濾波器的基本思想是估計(jì)回音路徑的特征參數(shù),產(chǎn)生一個(gè)模擬的回音路徑,得出模擬的回音信號(hào)。然后接收信號(hào)中減去這個(gè)自適應(yīng)濾波器模擬出來的回音信號(hào),實(shí)現(xiàn)回音抵消。
自適應(yīng)濾波器的架構(gòu)如圖2。圖中所示的濾波器的輸入是x(n)={x(n),x(x-1),⋯x(n-N+1)}T,濾波器的權(quán)系數(shù)是h(n)={h1(n),h2(n),⋯hN (n)}T,d(n)為期望輸出信號(hào),d^(n)為濾波器的實(shí)際輸出,也稱估計(jì)值。e(n)為誤差,e(n)=d(n)-d^(n)。由誤差經(jīng)過自適應(yīng)算法,來調(diào)整濾波系數(shù),使得濾波實(shí)際輸出接近期望輸出的信號(hào)。
在實(shí)際的電視中的應(yīng)用原理框圖見圖3。圖中f(n)代表來自遠(yuǎn)方的語音信號(hào);r1(n)為f(n)從揚(yáng)聲器出來,經(jīng)過不同的回聲通道所產(chǎn)生的回聲集合,并被陣列式麥克風(fēng)收音;s(n)為本地用戶說話的語音信號(hào);r(n)為自適應(yīng)濾波器對f(n)進(jìn)行了預(yù)處理,估算f(n)信號(hào)所產(chǎn)生的回音,其動(dòng)態(tài)估算值為r(n)。那么通過計(jì)算,本地用戶所傳送出去的聲音信號(hào)應(yīng)該為u(n)=y(n)-r(n)=s(n)+r1(n)-r(n)。在理想的狀態(tài)下,如果自適應(yīng)濾波器所產(chǎn)生的回聲估算值r(n)等于實(shí)際的回聲集合r1(n),即r1(n)-r(n)=0,那么回聲將被剛好完全消除。
由于用戶的使用環(huán)境差異非常大,單獨(dú)靠自適應(yīng)濾波器內(nèi)部的算法,動(dòng)態(tài)修改濾波器的權(quán)系數(shù),很難使得輸出的r(n)=r1(n)。所以如果自適應(yīng)濾波器在DSP內(nèi)部動(dòng)態(tài)修正權(quán)系數(shù)的同時(shí),把電視機(jī)使用的環(huán)境因素考慮進(jìn)去,充分分析回聲的通道的各種情況,結(jié)合“內(nèi)外”的因素,來動(dòng)態(tài)修正濾波器的權(quán)系數(shù),這樣將會(huì)使得r(n)更加接近于實(shí)際的r1(n),從而更地的消除回聲。帶有內(nèi)部校準(zhǔn)信號(hào)的系統(tǒng)框圖如圖4。
其中最主要是增加了一個(gè)內(nèi)部校準(zhǔn)單元,內(nèi)部存儲(chǔ)有一些特定的音頻測試信號(hào)Fn。人聲所包括的頻率主要從300~3400Hz之間,所以內(nèi)部的測試信號(hào)Fn從這個(gè)頻率區(qū)間進(jìn)行取樣即可,如Fn=300Hz、400Hz、500Hz等等,以此類推。其邏輯思路見圖5。
舉例說明:當(dāng)用戶發(fā)現(xiàn)在聊天過程中回聲較大,可以人為通過遙控器的按鍵或者鍵控板上的按鍵等方式來發(fā)出校準(zhǔn)指令。此時(shí),內(nèi)部校準(zhǔn)單元會(huì)逐一發(fā)出相關(guān)的測試信號(hào)Fn,測試信號(hào)通過主信道,通過功放,從揚(yáng)聲器發(fā)出聲音,聲音再通過不同的回聲通道,被陣列式麥克風(fēng)拾取,回送到內(nèi)部校準(zhǔn)單元。由于測試信號(hào)為固有的信號(hào),內(nèi)部校準(zhǔn)單元可以準(zhǔn)確對比測試信號(hào)和回聲之間的差異,考慮與環(huán)境相關(guān)的回聲因素,產(chǎn)生新校正因子γ。
校正因子γ送到自適應(yīng)濾波器,讓自適應(yīng)濾波器修正濾波器的權(quán)系數(shù),這個(gè)權(quán)系數(shù)可以說在一定程度上考慮了外部的環(huán)境對回聲的影響因素,所以自適應(yīng)濾波器所產(chǎn)生的r(n)將更加接近r1(n),從而可以更好的消除回聲。
小結(jié)
可以預(yù)見,聊天功能將會(huì)成為未來電視機(jī)的主要功能之一,而在電視機(jī)中應(yīng)用陣列式麥克風(fēng),可以擺脫對傳統(tǒng)形式麥克風(fēng)的依賴,給用戶帶來較好的體驗(yàn)感受;而加強(qiáng)對回聲的消除處理,是陣列式麥克風(fēng)得以在電視機(jī)上廣泛應(yīng)用的保證。