穩(wěn)定的低功耗語(yǔ)音命令系統(tǒng)的設(shè)計(jì)考慮
語(yǔ)音助理和集成正在大多數(shù)產(chǎn)品,電器和技術(shù)引入市場(chǎng)。盡管如此,這些有用的語(yǔ)音助手總是在聽(tīng)激活/警訊,這通常會(huì)使用很大的力量,這并不是什么秘密。在科技發(fā)展迅速的世界里,必須考慮它對(duì)能源消費(fèi)的影響。
本文提供了使用語(yǔ)音活動(dòng)檢測(cè)(VAD)的低功耗、始終在語(yǔ)音命令系統(tǒng)的設(shè)計(jì)考慮。它探討了在選擇創(chuàng)建易于使用的高能效語(yǔ)音用戶界面(VUI)所需的組件時(shí)的權(quán)衡和考慮。
VAD功能在聽(tīng)一個(gè)警醒詞之前檢測(cè)到環(huán)境中的人類聲音,這意味著當(dāng)沒(méi)有人在家時(shí),你的語(yǔ)音助理不會(huì)浪費(fèi)不必要的精力。據(jù)估計(jì),全世界有42億名數(shù)字語(yǔ)音助理,預(yù)計(jì)到2024年將增加一倍。將這一技術(shù)應(yīng)用到語(yǔ)音助理軟件和其他依靠語(yǔ)音集成的產(chǎn)品中,將大大降低使用語(yǔ)音助理的人的能源消耗。
有幾個(gè)硬件架構(gòu)來(lái)實(shí)現(xiàn)V只能系統(tǒng)。一般來(lái)說(shuō),典型的語(yǔ)音用戶界面實(shí)現(xiàn)包括麥克風(fēng),或者是一個(gè)麥克風(fēng),或者是一個(gè)麥克風(fēng)陣列連接到一個(gè)音頻處理器,用于捕獲和處理語(yǔ)音。
傳入的音頻流可以在邊緣音頻邊緣處理器、內(nèi)置音頻邊緣處理器的智能麥克風(fēng)或標(biāo)準(zhǔn)應(yīng)用處理器(AP)上進(jìn)行處理。邊緣音頻處理器被優(yōu)化為低功率和低延遲的音頻信號(hào)處理。除了提供專門的處理輸入音頻,邊緣音頻處理器也可以用于后處理音頻輸出信號(hào)。如果VAI系統(tǒng)是云連接的,那么音頻邊緣處理器也可以通過(guò)具有無(wú)線連接的主系統(tǒng)芯片與云連接接口進(jìn)行通信。本文介紹了VII系統(tǒng)的兩種不同實(shí)現(xiàn),以及它們各自的權(quán)衡。
超低功率VAD(語(yǔ)音活動(dòng)檢測(cè))
圖1所示的架構(gòu)支持超低功率VII,使用模擬信號(hào)路徑,包括模擬麥克風(fēng)和模擬比較器,以提供一個(gè)尾波觸發(fā)器。當(dāng)聲音活動(dòng)被檢測(cè)到時(shí),模擬信號(hào)鏈會(huì)產(chǎn)生一個(gè)中斷來(lái)喚醒音頻處理器,以獲取聲音。該設(shè)備還可以包括一個(gè)"推到說(shuō)話"功能,即用戶按下按鈕喚醒音頻處理器。
圖1超低功耗,無(wú)前滾緩沖的遠(yuǎn)程控制用的一直在VAI硬件信號(hào)鏈上。
模擬尾音麥克風(fēng)必須總是聽(tīng)環(huán)境,因此這個(gè)麥克風(fēng),連同比較器,必須消耗很少的功率。一個(gè)高效率的音頻處理器的例子是,在其最簡(jiǎn)單的覺(jué)醒觸發(fā)模式下,功率消耗不到1兆瓦,高級(jí)音頻處理的1mb內(nèi)存是諾爾斯I8201。盡管圖1所示的方法為遠(yuǎn)程控制和可穿戴設(shè)備中的永遠(yuǎn)的VI提供了一種簡(jiǎn)單的低功率AAD(聲學(xué)活動(dòng)檢測(cè))方法,但它有其局限性。這個(gè)實(shí)現(xiàn)喚醒了音頻處理器的任何聲音信號(hào),可以導(dǎo)致高整體系統(tǒng)功率消耗在吵鬧的情況下。同時(shí),語(yǔ)音用戶界面系統(tǒng)是云連接的要求音頻數(shù)據(jù)在一個(gè)時(shí)期之前,要捕獲,以提高準(zhǔn)確性的叫醒字檢測(cè)。這通常被稱為預(yù)卷,并且是一個(gè)必須有的要求,由亞歷山大啟用的設(shè)備和其他智能揚(yáng)聲器設(shè)備。
圖2支持智能揚(yáng)聲器等設(shè)備的預(yù)滾緩沖的架構(gòu)。
圖2顯示了支持智能揚(yáng)聲器等設(shè)備預(yù)滾緩沖的架構(gòu)。這些設(shè)備通常有更大的電池和/或可能沒(méi)有一個(gè)電池的多個(gè)月的電池壽命要求。VUI系統(tǒng)一直在運(yùn)行,傾聽(tīng)環(huán)境并在循環(huán)緩沖區(qū)中預(yù)先記錄。預(yù)卷的長(zhǎng)度一般為500毫秒的音頻數(shù)據(jù),用來(lái)校準(zhǔn)環(huán)境噪聲水平。
有幾種不同的方法來(lái)設(shè)計(jì)始終如一的前端架構(gòu)。音頻處理器的選擇取決于使用的麥克風(fēng)的數(shù)量,以及它們是模擬的還是數(shù)字的。
上面所示的架構(gòu)使用了一個(gè)用于語(yǔ)音活動(dòng)檢測(cè)的諾爾斯a611,用于波束形成的Sph055m4h1-康奈爾數(shù)字麥克風(fēng),以及用于音頻處理的諾爾斯a8201。如下面一節(jié)所討論的那樣,諾爾斯?a611是一個(gè)為系統(tǒng)設(shè)計(jì)者提供好處的智能麥克風(fēng)。
麥克風(fēng)選擇
對(duì)于圖1所示的架構(gòu),單個(gè)模擬麥克風(fēng)和比較器被用作觸發(fā)器輸入,以便在檢測(cè)到聲音活動(dòng)時(shí)喚醒音頻處理器。它應(yīng)該是一個(gè)低功率的模擬麥克風(fēng),信噪比最好高于62分貝。諾爾斯西塞尼MEMS麥克風(fēng)組合提供了幾個(gè)選擇的尾音麥克風(fēng)。例如,SPV1840LR5H-B卡斯卡德模擬麥克風(fēng)是一個(gè)很好的選擇,當(dāng)打開(kāi)時(shí),只需45英寸。一直在模擬路徑,包括一個(gè)麥克風(fēng),放大器和比較器,消耗不到67兆a。市場(chǎng)上有很低的、無(wú)間斷電源(10-OMA)的壓電麥克風(fēng),但它們的信噪比通常很低,這可能會(huì)影響系統(tǒng)性能。
對(duì)于圖2所示的預(yù)滾緩沖功能架構(gòu),帶有嵌入式音頻處理器和充足內(nèi)存的麥克風(fēng),可以在2秒鐘的循環(huán)緩沖區(qū)中連續(xù)捕捉語(yǔ)音數(shù)據(jù),如諾爾斯Ia611,是連續(xù)語(yǔ)音活動(dòng)檢測(cè)的可行選擇。它還伴隨著一個(gè)移植語(yǔ)音觸發(fā)器和命令的生態(tài)系統(tǒng),比如亞馬遜的阿列克莎。當(dāng)關(guān)鍵字被檢測(cè)到時(shí),預(yù)先滾動(dòng)緩沖區(qū)和發(fā)出的語(yǔ)音音頻都被發(fā)送到云自動(dòng)語(yǔ)音識(shí)別(ASR)引擎。在像藍(lán)牙揚(yáng)聲器這樣的電池操作設(shè)備中,iaa611一直保持著0.39ma@電池1.8V的語(yǔ)音喚醒功率和90%的效率,這使它成為語(yǔ)音用戶界面的一個(gè)很好的選擇。該設(shè)備還接受來(lái)自數(shù)碼麥克風(fēng)的PDM輸入,并可用于支持波束形成的主機(jī)bt-soc處理器,通過(guò)通過(guò)音頻一旦系統(tǒng)醒來(lái)。
雖然對(duì)于預(yù)卷應(yīng)用程序來(lái)說(shuō),這種一直使用的電源是可以接受的,但是對(duì)于非預(yù)卷架構(gòu)來(lái)說(shuō),也值得考慮,如圖1所示。如前所述,模擬尾音麥克風(fēng)將觸發(fā)任何傳入的聲音并打開(kāi)音頻處理器。在吵鬧的環(huán)境中,這可能是個(gè)問(wèn)題,比如當(dāng)電視打開(kāi)的時(shí)候,會(huì)有許多錯(cuò)誤的醒來(lái)導(dǎo)致嚴(yán)重的權(quán)力浪費(fèi)。如果使用語(yǔ)音活動(dòng)檢測(cè)代替低功率模擬尾音麥克風(fēng),系統(tǒng)只在檢測(cè)到一個(gè)關(guān)鍵詞時(shí)才打開(kāi)。從邏輯上講,為什么使用語(yǔ)音活動(dòng)檢測(cè)麥克風(fēng)比簡(jiǎn)單的模擬尾音麥克風(fēng)在噪音環(huán)境下更有效。
圖3顯示了模擬數(shù)據(jù),這些數(shù)據(jù)比較了一個(gè)典型的電視遙控器使用VAD的VAD611的電池壽命天數(shù)。一個(gè)競(jìng)爭(zhēng)性的壓電低功率AAD麥克風(fēng)和一個(gè)音頻處理器,在不同的時(shí)間聲活動(dòng)的時(shí)間。當(dāng)電視機(jī)或其他家用電器打開(kāi)時(shí),或在有閑言碎語(yǔ)的其他情況下,可以出現(xiàn)聲學(xué)活動(dòng)。如圖3所示,在大約3小時(shí)內(nèi)有一個(gè)交叉點(diǎn),使用模擬AAD在競(jìng)爭(zhēng)對(duì)手的麥克風(fēng)上相對(duì)于IAA611上的語(yǔ)音活動(dòng)檢測(cè)的功率優(yōu)勢(shì)就消失了。
在5小時(shí)的聲活動(dòng),語(yǔ)音活動(dòng)檢測(cè)解決方案提供了8天額外的電池壽命比競(jìng)爭(zhēng)的基于AAD的解決方案。把這個(gè)優(yōu)勢(shì)放在背景之下,美國(guó)。根據(jù)2017年發(fā)表的尼爾森研究報(bào)告,成年人每天看近八小時(shí)的電視。隨著對(duì)互聯(lián)網(wǎng)連接設(shè)備(如智能電視、游戲機(jī)和其他多媒體設(shè)備)的需求不斷增加,美國(guó)典型的聲學(xué)活動(dòng)時(shí)間越來(lái)越長(zhǎng)。家庭也可能繼續(xù)增長(zhǎng)。使用基于智能VAD的喚醒將有助于系統(tǒng)設(shè)計(jì)人員開(kāi)發(fā)更高效的V只能系統(tǒng)。
圖3VAD與AAD的遙控電池壽命。
結(jié)論
從智能家居,好客,數(shù)字工作場(chǎng)所,語(yǔ)音支付,智能能源管理,語(yǔ)音邊緣和醫(yī)療保健,一直到工業(yè)化的應(yīng)用,改變工廠地板,語(yǔ)音增加了靈活性,效率,可持續(xù)性,以及新技術(shù)的采用接受。
設(shè)計(jì)語(yǔ)音用戶界面的各種硬件架構(gòu),以及麥克風(fēng)部分,根據(jù)終端設(shè)備的應(yīng)用程序和設(shè)計(jì)者的偏好,每個(gè)都有略微不同的需求;例如,啟用亞歷克的設(shè)備和智能揚(yáng)聲器都需要一個(gè)預(yù)滾緩沖功能架構(gòu)。
重要的是,電子工程師和設(shè)計(jì)師要仔細(xì)評(píng)估終端設(shè)備將如何利用語(yǔ)音、他們希望訪問(wèn)的能力,并從那里確定正確的架構(gòu)和麥克風(fēng)組件。