當前位置:首頁 > 消費電子 > 音頻技術
[導讀]   開發(fā)基于自然語言的語音識別系統(tǒng)面臨許多技術挑戰(zhàn),包括使用精確的語音識別引擎將機器聽到的內容翻譯成文字—以及一個綜合的自然語言處理器,它能判斷所說內容的意思或意圖,然后返回一個有意

  開發(fā)基于自然語言的語音識別系統(tǒng)面臨許多技術挑戰(zhàn),包括使用精確的語音識別引擎將機器聽到的內容翻譯成文字—以及一個綜合的自然語言處理器,它能判斷所說內容的意思或意圖,然后返回一個有意義的響應或動作。這些課題已經(jīng)被廣泛研究幾十年了,這里不作過多討論。本文主要討論在遠場語音接口系統(tǒng)中經(jīng)常被忽視但同樣很重要的技術性挑戰(zhàn):在語音到達語音識別引擎之前的語音預處理。

  即使是最現(xiàn)代的語音識別引擎要想運轉良好也有一個基本的要求—輸入到該引擎的必須是語音。雖然對遠場語音接口系統(tǒng)來說這似乎是顯而易見的要求,但它卻是最具挑戰(zhàn)性的要求之一。這里的“遠場”指的是用戶話音距產品麥克風的距離超過半米的系統(tǒng)。舉例來說,靠近用戶臉部的智能手機形成的是一種“近場”用例,但對著一臂之長的PC機或平板電腦講話或隔著房間對電視機、立體聲系統(tǒng)、燈光開關、自動調溫器或智能家庭控制器講話ADC都算作“遠場”用例。

  近場和遠場用例之間存在著許多重要的差別,這些差別產生了在近場系統(tǒng)中沒有但在遠場系統(tǒng)中十分艱巨的技術性挑戰(zhàn)。

  1.大動態(tài)范圍:在遠場系統(tǒng)中,用戶語音可能非常低,因為他/她與產品麥克風有數(shù)米距離,但干擾可能非常大,比如在受語音控制的揚聲器系統(tǒng)中有音樂回放的場合。

  2.低信噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語音和噪聲:遠場系統(tǒng)中的語音噪聲比要比近場系統(tǒng)中的小得多。隨著用戶不斷遠離產品的麥克風,語音電平會越來越小,而背景噪聲電平保持不變。

  同樣,從用戶嘴巴到麥克風的間接路徑——從沿途的墻體和窗戶等表面的反射路徑與從用戶到麥克風的直接路徑相比可能有很顯著的功率(即低的DRR)。在使用傳統(tǒng)的語音處理技術和語音識別引擎時這種混響效應會造成很大的問題。

  最后,在遠場系統(tǒng)中,用戶語音相對于麥克風的方向以及噪聲相對于麥克風的方向都是未知的。在典型應用場合,噪聲甚至與用戶語音來自相同的方向。

  3.全雙工話音交互:在許多遠場系統(tǒng)中,當用戶對著產品講話時,產品的揚聲器中可能正在播放音頻內容,如音樂、電影或話音提示。這時需要使用一個全雙工的回聲消除器,以便在聆聽用戶語音的同時抵消掉產品的回放輸出聲。在回聲消除器并不完全了解回放內容的系統(tǒng)中情況就更加復雜了。

  在這些情況下,實現(xiàn)一個依然能夠良好拾取語音的系統(tǒng)是一項極具挑戰(zhàn)性的任務。本文將介紹傳統(tǒng)方法為何無法在這些遠場條件下提供可接受性能的原因,然后提出了能以極具成本效益的方法提供卓越遠場性能的一種解決方案。

  大動態(tài)范圍

  用于智能家庭設備的語音捕獲系統(tǒng)需要支持大信號動態(tài)范圍,從輕聲細語到響亮的音頻內容回放。對于與用戶距離大概在0.5米至3米范圍內的設備來說,設備麥克風處的語音電平范圍大概在75dB至44dB SPL。對于體積不大的音頻回放設備來說,回放內容在設備麥克風處的SPL電平可能接近95dB。這種典型和極具挑戰(zhàn)性的用例對設備中的麥克風和模數(shù)轉換器(ADC)的選型有很大的影響。

  對于遠場應用來說,選擇具有高信噪比值的麥克風非常重要。如上所述,目標語音信號的SPL 電平可能低至44dB。對于94dB SPL的1kHz音來說,如果使用信噪比(SNR)為66dB的麥克風,等效的本底噪聲為28dB SPL,那么最差情況下的語音與麥克風自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風,那么語音與麥克風自身噪聲之比可能低至5dB!

  ADC內部的本底噪聲也很重要,因為如果應用中的ADC動態(tài)范圍不夠的話,還會造成信號飽和。

  圖 1顯示了兩種ADC的輸入?yún)⒖荚肼?,它們都是麥克風增強設置值的函數(shù)。紅線顯示的是動態(tài)范圍大約是96dB的18位ADC性能,藍線顯示的是動態(tài)范圍大約為106dB的24位ADC性能。作為參考,灰線顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風自身噪聲電平。

  

  圖1:麥克風自身的噪聲和來自ADC的噪聲將疊加在一起形成系統(tǒng)總的本底噪聲。

  圖 2和圖3顯示了分別使用96dB動態(tài)范圍和106dB動態(tài)范圍的ADC時系統(tǒng)的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點。合理的設置是針對96dB ADC使用24dB的麥克風增強值、針對106dB ADC使用12dB的麥克風增強值。在本例中,使用106dB ADC時的本底噪聲要低2dB,飽和點要高12dB。本底噪聲低2dB對于拾取遠場條件中的語音來說尤其重要。

  

  圖2:這張表顯示了使用96dB ADC時的系統(tǒng)屬性。

  

  圖3:這張表顯示了使用106dB ADC時的系統(tǒng)屬性。

  考慮到峰值內容和諧振等因素,由于回聲而在麥克風處產生的SPL電平可能達到96dB甚至更高。因此對于具有大聲回放而且體積不大的設備來說,在使用 96dB或者更低動態(tài)范圍的ADC時飽和問題很常見。當在實際系統(tǒng)中遇到這些問題時,唯一的解決方案通常是進一步降低麥克風的增強值,但這樣做的同時會抬高本底噪聲。在這個例子中,麥克風增強值需要減小到12dB。然而,與106dB ADC相比,這樣做將使本底噪聲高出4.3dB。因此我們可以知道,對遠場產品來說首選的解決方案是使用具有高信噪比的麥克風和106dB或更高動態(tài)范圍的ADC。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉