為了節(jié)省成本及時間,人們在業(yè)務及個人生活中進行面對面的會議或會談的頻率不比以前了。手機及網(wǎng)絡電話(VoIP)已經(jīng)成為人們彼此交流方式產(chǎn)生這樣重要變化的推動力量。在語音通信方面,要確保提供良好的用戶體驗,聲音品質(zhì)及噪聲抑制至關(guān)重要。
如今,人們很少體驗到真正的安靜,而且我們已經(jīng)對噪聲變得如此習慣,以至于大多數(shù)人甚至不會注意到噪聲的存在。人腦在濾除所聽噪聲方面表現(xiàn)得非常出色,能聽到所有聲音,但只會留意感興趣的聲音。然而,世界變得越來越嘈雜,利用手機、膝上型電腦及網(wǎng)絡攝像頭來進行語音通信越來越多,濾除所有噪聲變得更加困難。
由于電子技術(shù)快速進步,如今存在著幾種方法及潛在方案來管理噪聲及提升語音清晰度。實際上,如今已經(jīng)處于眾多新方案上市的蓬勃發(fā)展階段。不同方案的有效性可能差異很大,而且在大多數(shù)情況下,有關(guān)通信效果清晰良好的表述則要綜合看待。對于指定應用而言,清晰地描述一種方案與另一種方案的對比看似容易,但卻難于做到。
例如,某種旨在提升膝上型電腦通信能力的技術(shù)方案的價值,與預計要使用膝上型電腦的場合高度相關(guān)。使用上網(wǎng)本進行Skype通話,就需要使上網(wǎng)本只拾取使用者的聲音,并抑制背景噪聲;而使用相同上網(wǎng)本來錄制講授內(nèi)容的學生就希望在任何位置從講堂環(huán)境噪聲中有效拾取講話聲音。對于既定方案而言,在某種場合下可能被評判為有效,但在其他場合卻無效。折中方案可能在兩方面都表現(xiàn)得次優(yōu),但卻為兩類用戶都提供價值。
將已有技術(shù)方案移植到使用場合已經(jīng)夠困難,但在零售層級對消費者有效闡釋音頻差異可能更具挑戰(zhàn)性,因為貨架上所有產(chǎn)品的營銷材料中可能都不例外地宣稱具有“極佳音頻性能”。由于零售店銷售員能夠提供的音頻演示機會極少,消費者的初次購買行為常常會流于隨機。
噪聲消減技術(shù)比較提供噪聲消減方案的技術(shù)可以分為三類:電聲、模擬及數(shù)字。
電聲方案涉及麥克風元件設(shè)計、在產(chǎn)品及麥克風貼裝的相關(guān)聲學設(shè)計中選擇及布設(shè)這些麥克風。噪聲消減或壓差麥克風是廉價方案的簡單示例,在某些場合下能夠提供適當優(yōu)勢。好的電聲設(shè)計對于在任何語音通信設(shè)備上都獲得好性能至關(guān)重要,但可以進一步通過更多地使用最新數(shù)字及模擬電路來大幅提升基礎(chǔ)性能。
模擬方案涉及對麥克風或麥克風陣列產(chǎn)生的電氣信號進行一些直接處理,如壓縮或定向“到達時間”(TOA)類處理這樣的模擬類型簡單方案可能更為高效,因為它們省去了數(shù)字轉(zhuǎn)換段。然而,半導體工藝中固有的制造差異會以數(shù)字工藝著意避免的方式直接影響模擬方案的性能。隨著模擬方案變得更加復雜,極力提供更多價值,每個工藝步驟的性能差異就要配合每個緊隨其后的步驟。這在實質(zhì)上就使任何成功的模擬音頻產(chǎn)品保持相對簡單。模擬方案也欠缺數(shù)字方案可能具有的功能靈活性,因為模擬系統(tǒng)以硅片設(shè)計本身來應用(信號)處理,而不是在靈活基礎(chǔ)上以軟件層來處理。
數(shù)字方案涉及對源自麥克風的電氣信號進行采樣或量化,從而使計算機處理器能夠應用可重復的算法來處理信號。然后信號又以數(shù)字形式傳輸或重構(gòu),轉(zhuǎn)換為對所捕獲語音的增強型模擬再現(xiàn)。由于在當今的硅技術(shù)條件下,數(shù)字方案看上去具有眾多固有優(yōu)勢,市場上大多數(shù)方案都屬于這一類,就并不令人驚奇了。
數(shù)字方案可以實現(xiàn)任何算法,從而消減噪聲或改善麥克風拾取的語音質(zhì)量。通常情況下,這些算法包含空域選擇(語音從哪里來)、時域選擇(什么時間有或沒有語音)及頻域選擇(語音頻率是高于還是低于噪聲)。某些方案僅著重于這些方面中的某一種,但最佳的方案將結(jié)合所有這些方面,還可能會以增益控制、高級環(huán)境建?;蚱渌拍畹刃问絹砑尤肫渌倪M特性。
有一種方案嚴重依賴于空域選擇,即波束形成或定向處理(direcTIonal processing),非常適合于揚聲器相對于麥克風的距離已知的應用或使用場合。這樣的方法用于筆記本電腦及手機中,但在提供優(yōu)勢的同時也承受著固有劣勢。在筆記本電腦中,這種場景非常適合用于視頻通話,聲音拾取限制在攝像頭方向,但它不支持將筆記本電腦用于有幾個人繞桌而坐的電話會議。在手機方面,說話的位置通常嚴格受限,從而才能提供顯著的環(huán)境噪聲消減效果,但這也表示,如果手機沒有正好持在恰當位置,通話聲音也會減小。
相比較而言,有類方案憑借對人們講話的統(tǒng)計,持續(xù)地瞬時決定哪些講話應該保留及哪些應該濾除為噪聲,這種方案能夠有效地應對更寬范圍的使用。不利的是,這些方案在區(qū)分講話及噪聲方面的決策并不總是非常準確,它們調(diào)節(jié)得越厲害,用戶感受到的失真就越厲害,因為區(qū)分失當,一部分講話被濾除掉了。通常情況下,講話的可理解性得到了維持,但逼真度就受到了損害。在手機方面,這可能影響不大,因為無線網(wǎng)絡已經(jīng)降低了聲音的逼真度,但在錄音器等其他應用中,逼真度可能就至關(guān)重要了。
最佳的數(shù)字方案通常會是混合算法,截取各種方法的一部分,并靈巧地結(jié)合在一起。這些方法通常可以適應不同的場合,但也常常增添更重的負擔,針對各種產(chǎn)品設(shè)計來調(diào)整或定制更復雜的算法。
選擇某種技術(shù)方案來提升產(chǎn)品語音質(zhì)量的工程師,在給定方案的音頻性能表現(xiàn)之外,還須顧及對產(chǎn)品設(shè)計的影響。某些方案要求特殊的麥克風類型,或是要求特定麥克風布局及聲學設(shè)計,可能會損及產(chǎn)品的整體工業(yè)設(shè)計或機械設(shè)計。某些方案可能會消耗大量便攜設(shè)備電池電量,或是不能適配印制電路板(PCB)上能用的空間。而且在幾乎每種設(shè)計中,開發(fā)設(shè)計成本都會是一項決定性因素。