當(dāng)前位置:首頁(yè) > 消費(fèi)電子 > 消費(fèi)電子
[導(dǎo)讀]語(yǔ)音助理和集成正在大多數(shù)產(chǎn)品,電器和技術(shù)引入市場(chǎng)。盡管如此,這些有用的語(yǔ)音助手總是在聽(tīng)激活/警訊,這通常會(huì)使用很大的力量,這并不是什么秘密。在科技發(fā)展迅速的世界里,必須考慮它對(duì)能源消費(fèi)的影響。

語(yǔ)音助理和集成正在大多數(shù)產(chǎn)品,電器和技術(shù)引入市場(chǎng)。盡管如此,這些有用的語(yǔ)音助手總是在聽(tīng)激活/警訊,這通常會(huì)使用很大的力量,這并不是什么秘密。在科技發(fā)展迅速的世界里,必須考慮它對(duì)能源消費(fèi)的影響。

本文提供了使用語(yǔ)音活動(dòng)檢測(cè)(VAD)的低功耗、始終在語(yǔ)音命令系統(tǒng)的設(shè)計(jì)考慮。它探討了在選擇創(chuàng)建易于使用的高能效語(yǔ)音用戶界面(VUI)所需的組件時(shí)的權(quán)衡和考慮。

VAD功能在聽(tīng)一個(gè)警醒詞之前檢測(cè)到環(huán)境中的人類聲音,這意味著當(dāng)沒(méi)有人在家時(shí),你的語(yǔ)音助理不會(huì)浪費(fèi)不必要的精力。據(jù)估計(jì),全世界有42億名數(shù)字語(yǔ)音助理,預(yù)計(jì)到2024年將增加一倍。將這一技術(shù)應(yīng)用到語(yǔ)音助理軟件和其他依靠語(yǔ)音集成的產(chǎn)品中,將大大降低使用語(yǔ)音助理的人的能源消耗。

有幾個(gè)硬件架構(gòu)來(lái)實(shí)現(xiàn)V只能系統(tǒng)。一般來(lái)說(shuō),典型的語(yǔ)音用戶界面實(shí)現(xiàn)包括麥克風(fēng),或者是一個(gè)麥克風(fēng),或者是一個(gè)麥克風(fēng)陣列連接到一個(gè)音頻處理器,用于捕獲和處理語(yǔ)音。

傳入的音頻流可以在邊緣音頻邊緣處理器、內(nèi)置音頻邊緣處理器的智能麥克風(fēng)或標(biāo)準(zhǔn)應(yīng)用處理器(AP)上進(jìn)行處理。邊緣音頻處理器被優(yōu)化為低功率和低延遲的音頻信號(hào)處理。除了提供專門的處理輸入音頻,邊緣音頻處理器也可以用于后處理音頻輸出信號(hào)。如果VAI系統(tǒng)是云連接的,那么音頻邊緣處理器也可以通過(guò)具有無(wú)線連接的主系統(tǒng)芯片與云連接接口進(jìn)行通信。本文介紹了VII系統(tǒng)的兩種不同實(shí)現(xiàn),以及它們各自的權(quán)衡。

超低功率VAD(語(yǔ)音活動(dòng)檢測(cè))

圖1所示的架構(gòu)支持超低功率VII,使用模擬信號(hào)路徑,包括模擬麥克風(fēng)和模擬比較器,以提供一個(gè)尾波觸發(fā)器。當(dāng)聲音活動(dòng)被檢測(cè)到時(shí),模擬信號(hào)鏈會(huì)產(chǎn)生一個(gè)中斷來(lái)喚醒音頻處理器,以獲取聲音。該設(shè)備還可以包括一個(gè)"推到說(shuō)話"功能,即用戶按下按鈕喚醒音頻處理器。

圖1超低功耗,無(wú)前滾緩沖的遠(yuǎn)程控制用的一直在VAI硬件信號(hào)鏈上。

模擬尾音麥克風(fēng)必須總是聽(tīng)環(huán)境,因此這個(gè)麥克風(fēng),連同比較器,必須消耗很少的功率。一個(gè)高效率的音頻處理器的例子是,在其最簡(jiǎn)單的覺(jué)醒觸發(fā)模式下,功率消耗不到1兆瓦,高級(jí)音頻處理的1mb內(nèi)存是諾爾斯I8201。盡管圖1所示的方法為遠(yuǎn)程控制和可穿戴設(shè)備中的永遠(yuǎn)的VI提供了一種簡(jiǎn)單的低功率AAD(聲學(xué)活動(dòng)檢測(cè))方法,但它有其局限性。這個(gè)實(shí)現(xiàn)喚醒了音頻處理器的任何聲音信號(hào),可以導(dǎo)致高整體系統(tǒng)功率消耗在吵鬧的情況下。同時(shí),語(yǔ)音用戶界面系統(tǒng)是云連接的要求音頻數(shù)據(jù)在一個(gè)時(shí)期之前,要捕獲,以提高準(zhǔn)確性的叫醒字檢測(cè)。這通常被稱為預(yù)卷,并且是一個(gè)必須有的要求,由亞歷山大啟用的設(shè)備和其他智能揚(yáng)聲器設(shè)備。

圖2支持智能揚(yáng)聲器等設(shè)備的預(yù)滾緩沖的架構(gòu)。

圖2顯示了支持智能揚(yáng)聲器等設(shè)備預(yù)滾緩沖的架構(gòu)。這些設(shè)備通常有更大的電池和/或可能沒(méi)有一個(gè)電池的多個(gè)月的電池壽命要求。VUI系統(tǒng)一直在運(yùn)行,傾聽(tīng)環(huán)境并在循環(huán)緩沖區(qū)中預(yù)先記錄。預(yù)卷的長(zhǎng)度一般為500毫秒的音頻數(shù)據(jù),用來(lái)校準(zhǔn)環(huán)境噪聲水平。

有幾種不同的方法來(lái)設(shè)計(jì)始終如一的前端架構(gòu)。音頻處理器的選擇取決于使用的麥克風(fēng)的數(shù)量,以及它們是模擬的還是數(shù)字的。

上面所示的架構(gòu)使用了一個(gè)用于語(yǔ)音活動(dòng)檢測(cè)的諾爾斯a611,用于波束形成的Sph055m4h1-康奈爾數(shù)字麥克風(fēng),以及用于音頻處理的諾爾斯a8201。如下面一節(jié)所討論的那樣,諾爾斯?a611是一個(gè)為系統(tǒng)設(shè)計(jì)者提供好處的智能麥克風(fēng)。

麥克風(fēng)選擇

對(duì)于圖1所示的架構(gòu),單個(gè)模擬麥克風(fēng)和比較器被用作觸發(fā)器輸入,以便在檢測(cè)到聲音活動(dòng)時(shí)喚醒音頻處理器。它應(yīng)該是一個(gè)低功率的模擬麥克風(fēng),信噪比最好高于62分貝。諾爾斯西塞尼MEMS麥克風(fēng)組合提供了幾個(gè)選擇的尾音麥克風(fēng)。例如,SPV1840LR5H-B卡斯卡德模擬麥克風(fēng)是一個(gè)很好的選擇,當(dāng)打開(kāi)時(shí),只需45英寸。一直在模擬路徑,包括一個(gè)麥克風(fēng),放大器和比較器,消耗不到67兆a。市場(chǎng)上有很低的、無(wú)間斷電源(10-OMA)的壓電麥克風(fēng),但它們的信噪比通常很低,這可能會(huì)影響系統(tǒng)性能。

對(duì)于圖2所示的預(yù)滾緩沖功能架構(gòu),帶有嵌入式音頻處理器和充足內(nèi)存的麥克風(fēng),可以在2秒鐘的循環(huán)緩沖區(qū)中連續(xù)捕捉語(yǔ)音數(shù)據(jù),如諾爾斯Ia611,是連續(xù)語(yǔ)音活動(dòng)檢測(cè)的可行選擇。它還伴隨著一個(gè)移植語(yǔ)音觸發(fā)器和命令的生態(tài)系統(tǒng),比如亞馬遜的阿列克莎。當(dāng)關(guān)鍵字被檢測(cè)到時(shí),預(yù)先滾動(dòng)緩沖區(qū)和發(fā)出的語(yǔ)音音頻都被發(fā)送到云自動(dòng)語(yǔ)音識(shí)別(ASR)引擎。在像藍(lán)牙揚(yáng)聲器這樣的電池操作設(shè)備中,iaa611一直保持著0.39ma@電池1.8V的語(yǔ)音喚醒功率和90%的效率,這使它成為語(yǔ)音用戶界面的一個(gè)很好的選擇。該設(shè)備還接受來(lái)自數(shù)碼麥克風(fēng)的PDM輸入,并可用于支持波束形成的主機(jī)bt-soc處理器,通過(guò)通過(guò)音頻一旦系統(tǒng)醒來(lái)。

雖然對(duì)于預(yù)卷應(yīng)用程序來(lái)說(shuō),這種一直使用的電源是可以接受的,但是對(duì)于非預(yù)卷架構(gòu)來(lái)說(shuō),也值得考慮,如圖1所示。如前所述,模擬尾音麥克風(fēng)將觸發(fā)任何傳入的聲音并打開(kāi)音頻處理器。在吵鬧的環(huán)境中,這可能是個(gè)問(wèn)題,比如當(dāng)電視打開(kāi)的時(shí)候,會(huì)有許多錯(cuò)誤的醒來(lái)導(dǎo)致嚴(yán)重的權(quán)力浪費(fèi)。如果使用語(yǔ)音活動(dòng)檢測(cè)代替低功率模擬尾音麥克風(fēng),系統(tǒng)只在檢測(cè)到一個(gè)關(guān)鍵詞時(shí)才打開(kāi)。從邏輯上講,為什么使用語(yǔ)音活動(dòng)檢測(cè)麥克風(fēng)比簡(jiǎn)單的模擬尾音麥克風(fēng)在噪音環(huán)境下更有效。

圖3顯示了模擬數(shù)據(jù),這些數(shù)據(jù)比較了一個(gè)典型的電視遙控器使用VAD的VAD611的電池壽命天數(shù)。一個(gè)競(jìng)爭(zhēng)性的壓電低功率AAD麥克風(fēng)和一個(gè)音頻處理器,在不同的時(shí)間聲活動(dòng)的時(shí)間。當(dāng)電視機(jī)或其他家用電器打開(kāi)時(shí),或在有閑言碎語(yǔ)的其他情況下,可以出現(xiàn)聲學(xué)活動(dòng)。如圖3所示,在大約3小時(shí)內(nèi)有一個(gè)交叉點(diǎn),使用模擬AAD在競(jìng)爭(zhēng)對(duì)手的麥克風(fēng)上相對(duì)于IAA611上的語(yǔ)音活動(dòng)檢測(cè)的功率優(yōu)勢(shì)就消失了。

在5小時(shí)的聲活動(dòng),語(yǔ)音活動(dòng)檢測(cè)解決方案提供了8天額外的電池壽命比競(jìng)爭(zhēng)的基于AAD的解決方案。把這個(gè)優(yōu)勢(shì)放在背景之下,美國(guó)。根據(jù)2017年發(fā)表的尼爾森研究報(bào)告,成年人每天看近八小時(shí)的電視。隨著對(duì)互聯(lián)網(wǎng)連接設(shè)備(如智能電視、游戲機(jī)和其他多媒體設(shè)備)的需求不斷增加,美國(guó)典型的聲學(xué)活動(dòng)時(shí)間越來(lái)越長(zhǎng)。家庭也可能繼續(xù)增長(zhǎng)。使用基于智能VAD的喚醒將有助于系統(tǒng)設(shè)計(jì)人員開(kāi)發(fā)更高效的V只能系統(tǒng)。

圖3VAD與AAD的遙控電池壽命。

結(jié)論

從智能家居,好客,數(shù)字工作場(chǎng)所,語(yǔ)音支付,智能能源管理,語(yǔ)音邊緣和醫(yī)療保健,一直到工業(yè)化的應(yīng)用,改變工廠地板,語(yǔ)音增加了靈活性,效率,可持續(xù)性,以及新技術(shù)的采用接受。

設(shè)計(jì)語(yǔ)音用戶界面的各種硬件架構(gòu),以及麥克風(fēng)部分,根據(jù)終端設(shè)備的應(yīng)用程序和設(shè)計(jì)者的偏好,每個(gè)都有略微不同的需求;例如,啟用亞歷克的設(shè)備和智能揚(yáng)聲器都需要一個(gè)預(yù)滾緩沖功能架構(gòu)。

重要的是,電子工程師和設(shè)計(jì)師要仔細(xì)評(píng)估終端設(shè)備將如何利用語(yǔ)音、他們希望訪問(wèn)的能力,并從那里確定正確的架構(gòu)和麥克風(fēng)組件。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉