音頻邊緣處理器如何實(shí)現(xiàn)物聯(lián)網(wǎng)設(shè)備中的語音集成

時(shí)間：2024-08-16 11:41:30

關(guān)鍵字：音頻邊緣處理器物聯(lián)網(wǎng) 語音集成

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]從家庭自動化、電子商務(wù)到醫(yī)療保健和汽車，越來越多的行業(yè)正在將物聯(lián)網(wǎng)功能與語音集成結(jié)合起來，以滿足不斷變化的需求，并釋放業(yè)務(wù)優(yōu)勢。然而，語音仍處于采用的早期階段，并剛剛開始向移動設(shè)備和揚(yáng)聲器之外擴(kuò)展。語音將成為用戶和他們的物聯(lián)網(wǎng)設(shè)備之間交互的標(biāo)準(zhǔn)方法。這種向語音優(yōu)先的轉(zhuǎn)變不僅僅是基于它在技術(shù)上提高了消費(fèi)者的舒適度。用于動態(tài)語音搜索的語音設(shè)備的全球移動性、自然語言處理(NLP)的進(jìn)展以及人工智能和機(jī)器學(xué)習(xí)的進(jìn)步將使新的應(yīng)用程序能夠快速發(fā)展。

從家庭自動化、電子商務(wù)到醫(yī)療保健和汽車，越來越多的行業(yè)正在將物聯(lián)網(wǎng)功能與語音集成結(jié)合起來，以滿足不斷變化的需求，并釋放業(yè)務(wù)優(yōu)勢。然而，語音仍處于采用的早期階段，并剛剛開始向移動設(shè)備和揚(yáng)聲器之外擴(kuò)展。語音將成為用戶和他們的物聯(lián)網(wǎng)設(shè)備之間交互的標(biāo)準(zhǔn)方法。這種向語音優(yōu)先的轉(zhuǎn)變不僅僅是基于它在技術(shù)上提高了消費(fèi)者的舒適度。用于動態(tài)語音搜索的語音設(shè)備的全球移動性、自然語言處理(NLP)的進(jìn)展以及人工智能和機(jī)器學(xué)習(xí)的進(jìn)步將使新的應(yīng)用程序能夠快速發(fā)展。

愉快和吸引人的聲音互動受到一致的噪音和其他干擾物存在的音質(zhì)的限制。你的設(shè)備智能管理聲音的能力決定了你的溝通能力。預(yù)計(jì)永遠(yuǎn)開機(jī)的語音用戶界面(VUI)將在更多的消費(fèi)產(chǎn)品中普及，包括音頻和視頻設(shè)備、白色產(chǎn)品，以及各種電池供電的設(shè)備，如遙控器、可穿戴設(shè)備、藍(lán)牙揚(yáng)聲器、安全設(shè)備和戶外活動攝像頭。雖然有設(shè)計(jì)上的挑戰(zhàn)需要克服，但組件供應(yīng)商和OEMS都有很大的機(jī)會來交付滿足這些應(yīng)用程序需求的產(chǎn)品。

為了充分利用語音集成機(jī)會的成熟，更多的處理技術(shù)正在走向邊緣，遠(yuǎn)離云計(jì)算。結(jié)果是改進(jìn)了用戶界面，更低的延遲和成本，包括美元和帶寬。為未來設(shè)計(jì)支持物聯(lián)網(wǎng)的CE解決方案的制造商必須考慮將語音集成作為產(chǎn)品特性的先決條件。能夠在邊緣部署專用語音處理的oem將能夠擴(kuò)展這些應(yīng)用程序并擴(kuò)展他們的投資組合。

本文討論了在物聯(lián)網(wǎng)始終在上/始終收聽的設(shè)備中實(shí)現(xiàn)vui時(shí)最常見的挑戰(zhàn)。本文回顧了相關(guān)的需求，以及有效解決這些需求所需的設(shè)計(jì)能力，包括與控制接口的集成、軟件堆棧、算法開發(fā)和用戶空間應(yīng)用程序開發(fā)。

將音頻邊緣處理器集成到物聯(lián)網(wǎng)設(shè)備中

專門關(guān)注音頻保真度和機(jī)器學(xué)習(xí)優(yōu)化核心的專用音頻邊緣處理器是支持高質(zhì)量音頻通信設(shè)備的關(guān)鍵。這些處理器可以提供足夠的計(jì)算能力來使用傳統(tǒng)算法和ML算法處理音頻，同時(shí)使用通用處理器的一小部分能量。由于處理是在設(shè)備上進(jìn)行的，所以它比將信息發(fā)送回云要快得多。

物聯(lián)網(wǎng)設(shè)備集成了音頻處理器，增加了語音喚醒等豐富的功能。雖然云計(jì)算可能會提供一些巨大的好處，但邊緣處理允許用戶在任何時(shí)候利用他們的設(shè)備的全部能力，而不需要高帶寬的互聯(lián)網(wǎng)連接。例如，邊緣音頻處理器通過對上下文數(shù)據(jù)進(jìn)行低延遲處理，在虛擬通信中提供優(yōu)越的用戶體驗(yàn)，同時(shí)保持上下文數(shù)據(jù)的本地和安全。

在集成語音方面所面臨的挑戰(zhàn)

語音通話、控制和交互的應(yīng)用程序機(jī)會繼續(xù)增加。然而，隨著更多的設(shè)備，更多的碎片化被引入，這使得集成語音變得更加困難。你如何將語音控制集成到每個(gè)應(yīng)用程序中——無論是藍(lán)牙揚(yáng)聲器、家用電器、耳機(jī)、可穿戴設(shè)備還是電梯——將會有所不同。添加一個(gè)語音喚醒觸發(fā)器可能很簡單，但設(shè)計(jì)一個(gè)企業(yè)級的藍(lán)牙揚(yáng)聲器和耳機(jī)要復(fù)雜得多。如果該揚(yáng)聲器包含了真正的無線立體聲(TWS)集成，那么復(fù)雜性就會再次上升。

此外，各種應(yīng)用程序都需要與不同的生態(tài)系統(tǒng)進(jìn)行語音集成。例如，你需要在Linux生態(tài)系統(tǒng)中工作，才能在大多數(shù)智能電視上實(shí)現(xiàn)語音，但要在家用電器上獲得語音，就需要在微控制器(MCU)生態(tài)系統(tǒng)中工作。對于所有這些集成，都有一種常見的推薦方法，但總是有變化，這增加了復(fù)雜性。

高質(zhì)量、大眾市場的開發(fā)解決方案對于克服這些挑戰(zhàn)并快速將新技術(shù)推向市場，以支持我們工作、生活和溝通的快速發(fā)展方式至關(guān)重要。為了應(yīng)對這些挑戰(zhàn)，合適的解決方案需要解決多種設(shè)計(jì)需求。

滿足關(guān)鍵的設(shè)計(jì)要求

電力消耗

為了讓VUI設(shè)備接收命令，它必須始終打開/始終偵聽命令。無論這些設(shè)備是否插電，特別是由電池驅(qū)動的，對功耗的限制可能是一個(gè)主要的設(shè)計(jì)挑戰(zhàn)。為了讓VUI設(shè)備接收命令，它必須始終打開/始終偵聽命令。無論這些設(shè)備是否插電，特別是由電池驅(qū)動的，對功耗的限制可能是一個(gè)主要的設(shè)計(jì)挑戰(zhàn)。

在語音命令系統(tǒng)中，至少有一個(gè)麥克風(fēng)必須始終是活動的，并且負(fù)責(zé)識別喚醒字的處理器也必須是活動的。使用專有架構(gòu)、硬件加速器和特殊指令集設(shè)計(jì)的音頻邊緣處理器可以最優(yōu)地運(yùn)行音頻和ML算法。這些優(yōu)化有助于降低功耗。

潛在因素

對語音激活設(shè)備的延遲沒有容忍度。即使有超過200毫秒的感知延遲，人類也會開始在語音通話中互相交談，或者向語音助手重復(fù)他們的命令。為了開發(fā)語音集成設(shè)備，將獲得必要的消費(fèi)者認(rèn)可，工程師和產(chǎn)品設(shè)計(jì)師必須在整個(gè)系統(tǒng)中提供優(yōu)化的音頻鏈，以符合行業(yè)規(guī)范和最佳的用戶體驗(yàn)。因此，邊緣處理器中的低延遲處理是確保高質(zhì)量語音通信的關(guān)鍵要求。

整合

因?yàn)樵跒椴煌腣UI實(shí)現(xiàn)選擇硬件和軟件時(shí)，有很多選擇，所以在集成階段的各個(gè)階段，有些需求可能會成為一個(gè)挑戰(zhàn)。在此過程中需要考慮的一些關(guān)鍵設(shè)計(jì)考慮包括下面討論的那些。

硬件集成

根據(jù)設(shè)備的使用情況、應(yīng)用程序和生態(tài)系統(tǒng)，有各種硬件架構(gòu)用于實(shí)現(xiàn)VUI系統(tǒng)。每個(gè)VUI設(shè)備將包括麥克風(fēng)，單個(gè)麥克風(fēng)或麥克風(fēng)陣列，連接到一個(gè)音頻處理器，用于捕獲和處理音頻。在Khowles最近的一篇嵌入式文章中，我的同事回顧了實(shí)現(xiàn)VUI系統(tǒng)的硬件架構(gòu)考慮事項(xiàng)，以及每個(gè)系統(tǒng)的優(yōu)缺點(diǎn)。

主機(jī)軟件集成

如上所述，有不同的操作系統(tǒng)和驅(qū)動程序可供選擇。理想情況下，音頻處理器將配備固件和一組配置為與主機(jī)處理器連接的驅(qū)動程序。該操作系統(tǒng)，如Android或Linux，通常運(yùn)行在主機(jī)處理器上。

在內(nèi)核空間中運(yùn)行的驅(qū)動程序軟件組件通過控制接口與固件進(jìn)行交互，而來自音頻邊緣處理器的音頻數(shù)據(jù)可以通過標(biāo)準(zhǔn)的高級Linux音頻架構(gòu)(ALSA)接口在用戶空間中讀取。

要將軟件與主機(jī)系統(tǒng)的其他部分集成，將軟件發(fā)布包中提供的音頻處理器驅(qū)動程序連接到內(nèi)核映像中可能成為一項(xiàng)復(fù)雜的工作。這包括將驅(qū)動程序源代碼復(fù)制到內(nèi)核源樹中，更新一些內(nèi)核配置文件，并根據(jù)相關(guān)的硬件配置添加設(shè)備樹條目。

解決這個(gè)問題的一種方法是使用具有精確或類似配置的預(yù)集成的標(biāo)準(zhǔn)參考設(shè)計(jì)。

在理想的情況下，音頻邊緣處理器將為集成提供簡化的軟件堆棧，并提供預(yù)集成和驗(yàn)證的算法作為系統(tǒng)級解決方案，以進(jìn)一步簡化過程。

算法集成

當(dāng)我們講在算法集成的主題上時(shí)。通常有多個(gè)算法級聯(lián)，在任何給定的時(shí)間在不同的用例之間切換。即使是對于語音喚醒，一個(gè)設(shè)計(jì)也需要多麥克風(fēng)波束形成器、一個(gè)邊緣語音喚醒引擎和基于云的驗(yàn)證。這意味著至少有三種算法一起工作來優(yōu)化性能。對于任何集成了Alexa或谷歌Home關(guān)鍵字的設(shè)備，必須有多種算法，通常來自不同的供應(yīng)商，必須在一個(gè)設(shè)備中一起進(jìn)行優(yōu)化。

一種解決方案是選擇一個(gè)音頻邊緣處理器，它預(yù)先集成了經(jīng)過驗(yàn)證的算法，開發(fā)和測試獨(dú)立于主機(jī)系統(tǒng)。

形式因素集成

今天的設(shè)備可以采取很多形式的因素。每個(gè)設(shè)備都有自己的多個(gè)麥克風(fēng)安裝的配置。麥克風(fēng)和揚(yáng)聲器的距離和位置在表演中起著重要的作用。性能調(diào)整和優(yōu)化必須根據(jù)最終的形式因素和目標(biāo)用例進(jìn)行更改。還有一些影響性能的制造變化，如麥克風(fēng)密封，設(shè)備上的聲學(xué)處理，振動抑制等。

隱私

許多音頻處理器檢測到喚醒字，然后立即將信息發(fā)送到云，在那里它被解釋和采取行動。一個(gè)大問題是，一旦音頻數(shù)據(jù)出現(xiàn)在云中，用戶就無法控制這些數(shù)據(jù)，因此就會暴露在很高的隱私風(fēng)險(xiǎn)中。解決這一挑戰(zhàn)的方案是選擇一個(gè)邊緣AI智能處理器，可以在設(shè)備上“在邊緣”執(zhí)行命令解釋和響應(yīng)邏輯。

這使得敏感的個(gè)人音頻數(shù)據(jù)保持本地，而不會被發(fā)送到云，在那里它可以違背我們的意愿使用。VUI的實(shí)現(xiàn)現(xiàn)在不僅更加私有，而且可以更快地響應(yīng)，使用戶的交互更加自然。這是一個(gè)很好的例子，說明了邊緣人工智能處理器如何推進(jìn)現(xiàn)有的用例，以最大限度地提高我們每天使用和信任的設(shè)備的幫助性。

硬件和軟件接口

VUI實(shí)現(xiàn)的設(shè)計(jì)要求可能很復(fù)雜，并使將具有語音集成的設(shè)備快速推向市場具有挑戰(zhàn)性。oem和系統(tǒng)集成商可以通過使用標(biāo)準(zhǔn)解決方案開發(fā)工具包，如諾爾斯AISonic藍(lán)牙標(biāo)準(zhǔn)解決方案工具包，從而大大降低風(fēng)險(xiǎn)。這些工具包為原型提供了預(yù)先配置的起點(diǎn)，允許設(shè)計(jì)師在上面開發(fā)他們自己的創(chuàng)新，而不必?fù)?dān)心我們上面討論的設(shè)計(jì)挑戰(zhàn)。設(shè)計(jì)人員應(yīng)該尋找具有預(yù)集成和驗(yàn)證過的算法的開發(fā)工具包、預(yù)配置的麥克風(fēng)和與主機(jī)處理器和操作系統(tǒng)兼容的驅(qū)動程序。

打開其架構(gòu)和開發(fā)環(huán)境的音頻邊緣處理器，通過為音頻應(yīng)用程序開發(fā)人員提供創(chuàng)建新設(shè)備和應(yīng)用程序的工具和支持，從而加速了創(chuàng)新。未來的音頻設(shè)備將是一種合作的努力。