當(dāng)前位置:首頁 > 消費(fèi)電子 > 音頻技術(shù)
[導(dǎo)讀]   開發(fā)基于自然語言的語音識別系統(tǒng)面臨許多技術(shù)挑戰(zhàn),包括使用精確的語音識別引擎將機(jī)器聽到的內(nèi)容翻譯成文字—以及一個(gè)綜合的自然語言處理器,它能判斷所說內(nèi)容的意思或意圖,然后返回一個(gè)有意

  開發(fā)基于自然語言的語音識別系統(tǒng)面臨許多技術(shù)挑戰(zhàn),包括使用精確的語音識別引擎將機(jī)器聽到的內(nèi)容翻譯成文字—以及一個(gè)綜合的自然語言處理器,它能判斷所說內(nèi)容的意思或意圖,然后返回一個(gè)有意義的響應(yīng)或動(dòng)作。這些課題已經(jīng)被廣泛研究幾十年了,這里不作過多討論。本文主要討論在遠(yuǎn)場語音接口系統(tǒng)中經(jīng)常被忽視但同樣很重要的技術(shù)性挑戰(zhàn):在語音到達(dá)語音識別引擎之前的語音預(yù)處理。

  即使是最現(xiàn)代的語音識別引擎要想運(yùn)轉(zhuǎn)良好也有一個(gè)基本的要求—輸入到該引擎的必須是語音。雖然對遠(yuǎn)場語音接口系統(tǒng)來說這似乎是顯而易見的要求,但它卻是最具挑戰(zhàn)性的要求之一。這里的“遠(yuǎn)場”指的是用戶話音距產(chǎn)品麥克風(fēng)的距離超過半米的系統(tǒng)。舉例來說,靠近用戶臉部的智能手機(jī)形成的是一種“近場”用例,但對著一臂之長的PC機(jī)或平板電腦講話或隔著房間對電視機(jī)、立體聲系統(tǒng)、燈光開關(guān)、自動(dòng)調(diào)溫器或智能家庭控制器講話ADC都算作“遠(yuǎn)場”用例。

  近場和遠(yuǎn)場用例之間存在著許多重要的差別,這些差別產(chǎn)生了在近場系統(tǒng)中沒有但在遠(yuǎn)場系統(tǒng)中十分艱巨的技術(shù)性挑戰(zhàn)。

  1.大動(dòng)態(tài)范圍:在遠(yuǎn)場系統(tǒng)中,用戶語音可能非常低,因?yàn)樗?她與產(chǎn)品麥克風(fēng)有數(shù)米距離,但干擾可能非常大,比如在受語音控制的揚(yáng)聲器系統(tǒng)中有音樂回放的場合。

  2.低信噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語音和噪聲:遠(yuǎn)場系統(tǒng)中的語音噪聲比要比近場系統(tǒng)中的小得多。隨著用戶不斷遠(yuǎn)離產(chǎn)品的麥克風(fēng),語音電平會越來越小,而背景噪聲電平保持不變。

  同樣,從用戶嘴巴到麥克風(fēng)的間接路徑——從沿途的墻體和窗戶等表面的反射路徑與從用戶到麥克風(fēng)的直接路徑相比可能有很顯著的功率(即低的DRR)。在使用傳統(tǒng)的語音處理技術(shù)和語音識別引擎時(shí)這種混響效應(yīng)會造成很大的問題。

  最后,在遠(yuǎn)場系統(tǒng)中,用戶語音相對于麥克風(fēng)的方向以及噪聲相對于麥克風(fēng)的方向都是未知的。在典型應(yīng)用場合,噪聲甚至與用戶語音來自相同的方向。

  3.全雙工話音交互:在許多遠(yuǎn)場系統(tǒng)中,當(dāng)用戶對著產(chǎn)品講話時(shí),產(chǎn)品的揚(yáng)聲器中可能正在播放音頻內(nèi)容,如音樂、電影或話音提示。這時(shí)需要使用一個(gè)全雙工的回聲消除器,以便在聆聽用戶語音的同時(shí)抵消掉產(chǎn)品的回放輸出聲。在回聲消除器并不完全了解回放內(nèi)容的系統(tǒng)中情況就更加復(fù)雜了。

  在這些情況下,實(shí)現(xiàn)一個(gè)依然能夠良好拾取語音的系統(tǒng)是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。本文將介紹傳統(tǒng)方法為何無法在這些遠(yuǎn)場條件下提供可接受性能的原因,然后提出了能以極具成本效益的方法提供卓越遠(yuǎn)場性能的一種解決方案。

  大動(dòng)態(tài)范圍

  用于智能家庭設(shè)備的語音捕獲系統(tǒng)需要支持大信號動(dòng)態(tài)范圍,從輕聲細(xì)語到響亮的音頻內(nèi)容回放。對于與用戶距離大概在0.5米至3米范圍內(nèi)的設(shè)備來說,設(shè)備麥克風(fēng)處的語音電平范圍大概在75dB至44dB SPL。對于體積不大的音頻回放設(shè)備來說,回放內(nèi)容在設(shè)備麥克風(fēng)處的SPL電平可能接近95dB。這種典型和極具挑戰(zhàn)性的用例對設(shè)備中的麥克風(fēng)和模數(shù)轉(zhuǎn)換器(ADC)的選型有很大的影響。

  對于遠(yuǎn)場應(yīng)用來說,選擇具有高信噪比值的麥克風(fēng)非常重要。如上所述,目標(biāo)語音信號的SPL 電平可能低至44dB。對于94dB SPL的1kHz音來說,如果使用信噪比(SNR)為66dB的麥克風(fēng),等效的本底噪聲為28dB SPL,那么最差情況下的語音與麥克風(fēng)自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風(fēng),那么語音與麥克風(fēng)自身噪聲之比可能低至5dB!

  ADC內(nèi)部的本底噪聲也很重要,因?yàn)槿绻麘?yīng)用中的ADC動(dòng)態(tài)范圍不夠的話,還會造成信號飽和。

  圖 1顯示了兩種ADC的輸入?yún)⒖荚肼暎鼈兌际躯溈孙L(fēng)增強(qiáng)設(shè)置值的函數(shù)。紅線顯示的是動(dòng)態(tài)范圍大約是96dB的18位ADC性能,藍(lán)線顯示的是動(dòng)態(tài)范圍大約為106dB的24位ADC性能。作為參考,灰線顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風(fēng)自身噪聲電平。

  

  圖1:麥克風(fēng)自身的噪聲和來自ADC的噪聲將疊加在一起形成系統(tǒng)總的本底噪聲。

  圖 2和圖3顯示了分別使用96dB動(dòng)態(tài)范圍和106dB動(dòng)態(tài)范圍的ADC時(shí)系統(tǒng)的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點(diǎn)。合理的設(shè)置是針對96dB ADC使用24dB的麥克風(fēng)增強(qiáng)值、針對106dB ADC使用12dB的麥克風(fēng)增強(qiáng)值。在本例中,使用106dB ADC時(shí)的本底噪聲要低2dB,飽和點(diǎn)要高12dB。本底噪聲低2dB對于拾取遠(yuǎn)場條件中的語音來說尤其重要。

  

  圖2:這張表顯示了使用96dB ADC時(shí)的系統(tǒng)屬性。

  

  圖3:這張表顯示了使用106dB ADC時(shí)的系統(tǒng)屬性。

  考慮到峰值內(nèi)容和諧振等因素,由于回聲而在麥克風(fēng)處產(chǎn)生的SPL電平可能達(dá)到96dB甚至更高。因此對于具有大聲回放而且體積不大的設(shè)備來說,在使用 96dB或者更低動(dòng)態(tài)范圍的ADC時(shí)飽和問題很常見。當(dāng)在實(shí)際系統(tǒng)中遇到這些問題時(shí),唯一的解決方案通常是進(jìn)一步降低麥克風(fēng)的增強(qiáng)值,但這樣做的同時(shí)會抬高本底噪聲。在這個(gè)例子中,麥克風(fēng)增強(qiáng)值需要減小到12dB。然而,與106dB ADC相比,這樣做將使本底噪聲高出4.3dB。因此我們可以知道,對遠(yuǎn)場產(chǎn)品來說首選的解決方案是使用具有高信噪比的麥克風(fēng)和106dB或更高動(dòng)態(tài)范圍的ADC。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉