音頻邊緣處理器如何實(shí)現(xiàn)物聯(lián)網(wǎng)設(shè)備中的語音集成
掃描二維碼
隨時(shí)隨地手機(jī)看文章
從家庭自動化、電子商務(wù)到醫(yī)療保健和汽車,越來越多的行業(yè)正在將物聯(lián)網(wǎng)功能與語音集成結(jié)合起來,以滿足不斷變化的需求,并釋放業(yè)務(wù)優(yōu)勢。然而,語音仍處于采用的早期階段,并剛剛開始向移動設(shè)備和揚(yáng)聲器之外擴(kuò)展。語音將成為用戶和他們的物聯(lián)網(wǎng)設(shè)備之間交互的標(biāo)準(zhǔn)方法。這種向語音優(yōu)先的轉(zhuǎn)變不僅僅是基于它在技術(shù)上提高了消費(fèi)者的舒適度。用于動態(tài)語音搜索的語音設(shè)備的全球移動性、自然語言處理(NLP)的進(jìn)展以及人工智能和機(jī)器學(xué)習(xí)的進(jìn)步將使新的應(yīng)用程序能夠快速發(fā)展。
愉快和吸引人的聲音互動受到一致的噪音和其他干擾物存在的音質(zhì)的限制。你的設(shè)備智能管理聲音的能力決定了你的溝通能力。預(yù)計(jì)永遠(yuǎn)開機(jī)的語音用戶界面(VUI)將在更多的消費(fèi)產(chǎn)品中普及,包括音頻和視頻設(shè)備、白色產(chǎn)品,以及各種電池供電的設(shè)備,如遙控器、可穿戴設(shè)備、藍(lán)牙揚(yáng)聲器、安全設(shè)備和戶外活動攝像頭。雖然有設(shè)計(jì)上的挑戰(zhàn)需要克服,但組件供應(yīng)商和OEMS都有很大的機(jī)會來交付滿足這些應(yīng)用程序需求的產(chǎn)品。
為了充分利用語音集成機(jī)會的成熟,更多的處理技術(shù)正在走向邊緣,遠(yuǎn)離云計(jì)算。結(jié)果是改進(jìn)了用戶界面,更低的延遲和成本,包括美元和帶寬。為未來設(shè)計(jì)支持物聯(lián)網(wǎng)的CE解決方案的制造商必須考慮將語音集成作為產(chǎn)品特性的先決條件。能夠在邊緣部署專用語音處理的oem將能夠擴(kuò)展這些應(yīng)用程序并擴(kuò)展他們的投資組合。
本文討論了在物聯(lián)網(wǎng)始終在上/始終收聽的設(shè)備中實(shí)現(xiàn)vui時(shí)最常見的挑戰(zhàn)。本文回顧了相關(guān)的需求,以及有效解決這些需求所需的設(shè)計(jì)能力,包括與控制接口的集成、軟件堆棧、算法開發(fā)和用戶空間應(yīng)用程序開發(fā)。
將音頻邊緣處理器集成到物聯(lián)網(wǎng)設(shè)備中
專門關(guān)注音頻保真度和機(jī)器學(xué)習(xí)優(yōu)化核心的專用音頻邊緣處理器是支持高質(zhì)量音頻通信設(shè)備的關(guān)鍵。這些處理器可以提供足夠的計(jì)算能力來使用傳統(tǒng)算法和ML算法處理音頻,同時(shí)使用通用處理器的一小部分能量。由于處理是在設(shè)備上進(jìn)行的,所以它比將信息發(fā)送回云要快得多。
物聯(lián)網(wǎng)設(shè)備集成了音頻處理器,增加了語音喚醒等豐富的功能。雖然云計(jì)算可能會提供一些巨大的好處,但邊緣處理允許用戶在任何時(shí)候利用他們的設(shè)備的全部能力,而不需要高帶寬的互聯(lián)網(wǎng)連接。例如,邊緣音頻處理器通過對上下文數(shù)據(jù)進(jìn)行低延遲處理,在虛擬通信中提供優(yōu)越的用戶體驗(yàn),同時(shí)保持上下文數(shù)據(jù)的本地和安全。
在集成語音方面所面臨的挑戰(zhàn)
語音通話、控制和交互的應(yīng)用程序機(jī)會繼續(xù)增加。然而,隨著更多的設(shè)備,更多的碎片化被引入,這使得集成語音變得更加困難。你如何將語音控制集成到每個(gè)應(yīng)用程序中——無論是藍(lán)牙揚(yáng)聲器、家用電器、耳機(jī)、可穿戴設(shè)備還是電梯——將會有所不同。添加一個(gè)語音喚醒觸發(fā)器可能很簡單,但設(shè)計(jì)一個(gè)企業(yè)級的藍(lán)牙揚(yáng)聲器和耳機(jī)要復(fù)雜得多。如果該揚(yáng)聲器包含了真正的無線立體聲(TWS)集成,那么復(fù)雜性就會再次上升。
此外,各種應(yīng)用程序都需要與不同的生態(tài)系統(tǒng)進(jìn)行語音集成。例如,你需要在Linux生態(tài)系統(tǒng)中工作,才能在大多數(shù)智能電視上實(shí)現(xiàn)語音,但要在家用電器上獲得語音,就需要在微控制器(MCU)生態(tài)系統(tǒng)中工作。對于所有這些集成,都有一種常見的推薦方法,但總是有變化,這增加了復(fù)雜性。
高質(zhì)量、大眾市場的開發(fā)解決方案對于克服這些挑戰(zhàn)并快速將新技術(shù)推向市場,以支持我們工作、生活和溝通的快速發(fā)展方式至關(guān)重要。為了應(yīng)對這些挑戰(zhàn),合適的解決方案需要解決多種設(shè)計(jì)需求。
滿足關(guān)鍵的設(shè)計(jì)要求
電力消耗
為了讓VUI設(shè)備接收命令,它必須始終打開/始終偵聽命令。無論這些設(shè)備是否插電,特別是由電池驅(qū)動的,對功耗的限制可能是一個(gè)主要的設(shè)計(jì)挑戰(zhàn)。為了讓VUI設(shè)備接收命令,它必須始終打開/始終偵聽命令。無論這些設(shè)備是否插電,特別是由電池驅(qū)動的,對功耗的限制可能是一個(gè)主要的設(shè)計(jì)挑戰(zhàn)。
在語音命令系統(tǒng)中,至少有一個(gè)麥克風(fēng)必須始終是活動的,并且負(fù)責(zé)識別喚醒字的處理器也必須是活動的。使用專有架構(gòu)、硬件加速器和特殊指令集設(shè)計(jì)的音頻邊緣處理器可以最優(yōu)地運(yùn)行音頻和ML算法。這些優(yōu)化有助于降低功耗。
潛在因素
對語音激活設(shè)備的延遲沒有容忍度。即使有超過200毫秒的感知延遲,人類也會開始在語音通話中互相交談,或者向語音助手重復(fù)他們的命令。為了開發(fā)語音集成設(shè)備,將獲得必要的消費(fèi)者認(rèn)可,工程師和產(chǎn)品設(shè)計(jì)師必須在整個(gè)系統(tǒng)中提供優(yōu)化的音頻鏈,以符合行業(yè)規(guī)范和最佳的用戶體驗(yàn)。因此,邊緣處理器中的低延遲處理是確保高質(zhì)量語音通信的關(guān)鍵要求。
整合
因?yàn)樵跒椴煌腣UI實(shí)現(xiàn)選擇硬件和軟件時(shí),有很多選擇,所以在集成階段的各個(gè)階段,有些需求可能會成為一個(gè)挑戰(zhàn)。在此過程中需要考慮的一些關(guān)鍵設(shè)計(jì)考慮包括下面討論的那些。
硬件集成
根據(jù)設(shè)備的使用情況、應(yīng)用程序和生態(tài)系統(tǒng),有各種硬件架構(gòu)用于實(shí)現(xiàn)VUI系統(tǒng)。每個(gè)VUI設(shè)備將包括麥克風(fēng),單個(gè)麥克風(fēng)或麥克風(fēng)陣列,連接到一個(gè)音頻處理器,用于捕獲和處理音頻。在Khowles最近的一篇嵌入式文章中,我的同事回顧了實(shí)現(xiàn)VUI系統(tǒng)的硬件架構(gòu)考慮事項(xiàng),以及每個(gè)系統(tǒng)的優(yōu)缺點(diǎn)。
主機(jī)軟件集成
如上所述,有不同的操作系統(tǒng)和驅(qū)動程序可供選擇。理想情況下,音頻處理器將配備固件和一組配置為與主機(jī)處理器連接的驅(qū)動程序。該操作系統(tǒng),如Android或Linux,通常運(yùn)行在主機(jī)處理器上。
在內(nèi)核空間中運(yùn)行的驅(qū)動程序軟件組件通過控制接口與固件進(jìn)行交互,而來自音頻邊緣處理器的音頻數(shù)據(jù)可以通過標(biāo)準(zhǔn)的高級Linux音頻架構(gòu)(ALSA)接口在用戶空間中讀取。
要將軟件與主機(jī)系統(tǒng)的其他部分集成,將軟件發(fā)布包中提供的音頻處理器驅(qū)動程序連接到內(nèi)核映像中可能成為一項(xiàng)復(fù)雜的工作。這包括將驅(qū)動程序源代碼復(fù)制到內(nèi)核源樹中,更新一些內(nèi)核配置文件,并根據(jù)相關(guān)的硬件配置添加設(shè)備樹條目。
解決這個(gè)問題的一種方法是使用具有精確或類似配置的預(yù)集成的標(biāo)準(zhǔn)參考設(shè)計(jì)。
在理想的情況下,音頻邊緣處理器將為集成提供簡化的軟件堆棧,并提供預(yù)集成和驗(yàn)證的算法作為系統(tǒng)級解決方案,以進(jìn)一步簡化過程。
算法集成
當(dāng)我們講在算法集成的主題上時(shí)。通常有多個(gè)算法級聯(lián),在任何給定的時(shí)間在不同的用例之間切換。即使是對于語音喚醒,一個(gè)設(shè)計(jì)也需要多麥克風(fēng)波束形成器、一個(gè)邊緣語音喚醒引擎和基于云的驗(yàn)證。這意味著至少有三種算法一起工作來優(yōu)化性能。對于任何集成了Alexa或谷歌Home關(guān)鍵字的設(shè)備,必須有多種算法,通常來自不同的供應(yīng)商,必須在一個(gè)設(shè)備中一起進(jìn)行優(yōu)化。
一種解決方案是選擇一個(gè)音頻邊緣處理器,它預(yù)先集成了經(jīng)過驗(yàn)證的算法,開發(fā)和測試獨(dú)立于主機(jī)系統(tǒng)。
形式因素集成
今天的設(shè)備可以采取很多形式的因素。每個(gè)設(shè)備都有自己的多個(gè)麥克風(fēng)安裝的配置。麥克風(fēng)和揚(yáng)聲器的距離和位置在表演中起著重要的作用。性能調(diào)整和優(yōu)化必須根據(jù)最終的形式因素和目標(biāo)用例進(jìn)行更改。還有一些影響性能的制造變化,如麥克風(fēng)密封,設(shè)備上的聲學(xué)處理,振動抑制等。
隱私
許多音頻處理器檢測到喚醒字,然后立即將信息發(fā)送到云,在那里它被解釋和采取行動。一個(gè)大問題是,一旦音頻數(shù)據(jù)出現(xiàn)在云中,用戶就無法控制這些數(shù)據(jù),因此就會暴露在很高的隱私風(fēng)險(xiǎn)中。解決這一挑戰(zhàn)的方案是選擇一個(gè)邊緣AI智能處理器,可以在設(shè)備上“在邊緣”執(zhí)行命令解釋和響應(yīng)邏輯。
這使得敏感的個(gè)人音頻數(shù)據(jù)保持本地,而不會被發(fā)送到云,在那里它可以違背我們的意愿使用。VUI的實(shí)現(xiàn)現(xiàn)在不僅更加私有,而且可以更快地響應(yīng),使用戶的交互更加自然。這是一個(gè)很好的例子,說明了邊緣人工智能處理器如何推進(jìn)現(xiàn)有的用例,以最大限度地提高我們每天使用和信任的設(shè)備的幫助性。
硬件和軟件接口
VUI實(shí)現(xiàn)的設(shè)計(jì)要求可能很復(fù)雜,并使將具有語音集成的設(shè)備快速推向市場具有挑戰(zhàn)性。oem和系統(tǒng)集成商可以通過使用標(biāo)準(zhǔn)解決方案開發(fā)工具包,如諾爾斯AISonic藍(lán)牙標(biāo)準(zhǔn)解決方案工具包,從而大大降低風(fēng)險(xiǎn)。這些工具包為原型提供了預(yù)先配置的起點(diǎn),允許設(shè)計(jì)師在上面開發(fā)他們自己的創(chuàng)新,而不必?fù)?dān)心我們上面討論的設(shè)計(jì)挑戰(zhàn)。設(shè)計(jì)人員應(yīng)該尋找具有預(yù)集成和驗(yàn)證過的算法的開發(fā)工具包、預(yù)配置的麥克風(fēng)和與主機(jī)處理器和操作系統(tǒng)兼容的驅(qū)動程序。
打開其架構(gòu)和開發(fā)環(huán)境的音頻邊緣處理器,通過為音頻應(yīng)用程序開發(fā)人員提供創(chuàng)建新設(shè)備和應(yīng)用程序的工具和支持,從而加速了創(chuàng)新。未來的音頻設(shè)備將是一種合作的努力。