(文章來源:百知了)
語音可以提供簡單、引人注目的用戶體驗,但是將語音控件添加到任何產(chǎn)品、服務或應用程序的路徑都是復雜的。隨著占主導地位的科技公司繼續(xù)開發(fā)支持語音的界面和助手,產(chǎn)品設計師、開發(fā)人員和制造商將被迫重新考慮用戶體驗和用戶界面。
隨著智能音箱應用的驚人擴展,以及消費者將智能家居設備作為點解決方案而非系統(tǒng)購買的趨勢,未來許多家庭將擁有一個以語音控制為主要用戶界面的分布式智能平臺。在2019年初,36%的美國寬帶家庭擁有至少一個帶有語音助手的智能揚聲器。
語音助手技術依賴于兩個主要組件:硬件,一種通信和捕獲命令的方式;還有軟件,一種思考和處理反應的方式。雖然硬件和軟件決策很重要,但是考慮其他因素——比如本地處理和云處理,以及功耗——也會對語音優(yōu)先應用程序或設備的成功產(chǎn)生重大影響。語音設計要求制造商評估他們的最終產(chǎn)品,并就使用環(huán)境、設備將被使用的環(huán)境和消費者交互模型做出決策。這些決策影響硬件選擇。
在輸入階段,當用戶對設備說話時,麥克風將捕捉短語并將其發(fā)送到ADC, ADC將語音輸入轉(zhuǎn)換為數(shù)字音頻數(shù)據(jù)。麥克風可以是模擬的,也可以是數(shù)字的。模擬麥克風必須與模擬-數(shù)字轉(zhuǎn)換器配對,而數(shù)字麥克風有一個內(nèi)置。麥克風陣列的設計取決于設備的環(huán)境。對于那些需要用戶近距離說話的設備,一到兩個麥克風是理想的。遠場通信可能需要4到7個麥克風陣列。
輸入階段之后是處理階段。數(shù)字信號處理器將數(shù)據(jù)輸入網(wǎng)絡模塊和自然語言處理引擎。在此階段,將對捕獲的語音數(shù)據(jù)引入算法。波束形成、動態(tài)范圍壓縮和自適應頻譜降噪等算法有助于提高所捕獲語音數(shù)據(jù)的質(zhì)量。處理完成后,將數(shù)據(jù)發(fā)送到數(shù)模轉(zhuǎn)換器和放大器,輸出給用戶。
為語音優(yōu)先技術創(chuàng)建軟件基礎設施的構件包括自然語言處理,其中包括自動語音識別(ASR)和自然語言理解(NLU);喚醒詞算法,啟動語音響應過程;以及一個處理數(shù)據(jù)的云平臺。wake word作為用戶和語音助手之間的網(wǎng)關。wake word引擎是一種算法,它通過監(jiān)測音頻信號來檢測感興趣的特定單詞,從而激活設備的語音界面。
一旦預先確定的觸發(fā)詞或短語被檢測到,語音查詢就被發(fā)送到云上進行處理。通常,該技術在本地設備上運行,以提高語音查詢響應的延遲,并保護隱私。自然語言處理(NLP)是人工智能的一種形式,通過文本、語音或兩者的自然對話實現(xiàn)人機交互。聊天機器人通常指基于文本的對話系統(tǒng),而語音機器人則指Alexa或谷歌Assistant等語音優(yōu)先助手。
在一個簡化的NLP體系結構中,自動語音識別(ASR)識別說話的單詞并將它們轉(zhuǎn)換為文本(語音到文本)。尋求為語音優(yōu)先技術設計的公司必須決定他們的語音助手將如何處理語音查詢——無論是在云端還是在本地設備上??紤]響應速度、Internet連接和安全性都是決策的考慮因素。語音芯片制造商DSP Group發(fā)現(xiàn),在相當?shù)投说奶幚砥骰駾SP芯片上實現(xiàn)一定數(shù)量的簡單命令是可行的。它發(fā)現(xiàn),本地簡單命令數(shù)量的最佳點是5到10個命令。
這些命令包括諸如打開和關閉設備、降低和增加音量等任務。一旦命令數(shù)量超過10到15個,對內(nèi)存和處理能力的需求就會增加,故障檢測率提高的風險也會大大增加。這表明向云處理的轉(zhuǎn)變。更復雜的命令被發(fā)送到云,因為需要更多的功能和靈活性,而有限的命令子集可以在本地解釋。一直在線監(jiān)聽設備的隱私問題是采用語音優(yōu)先設備的一個關鍵障礙。此外,消費者對設備制造商在訪問和管理他們的個人數(shù)據(jù)方面缺乏信任。
制造商必須考慮運行自然語言處理算法的處理器的功耗。缺乏專用電源的設備可以從低能耗解決方案中獲益。與支持語音的設備相關聯(lián)的始終在線監(jiān)聽功能的電源感知設計是電源優(yōu)化的關鍵。目前的智能音箱都采用了交流電源,這是由于一直監(jiān)聽技術的能源消耗。公司選擇電池供電而不是交流電的原因有很多,比如設備的物理位置,以及設備在房間里擺放的自由。
美觀也可能是移除設備電源線的一個因素,特別是對于那些在實現(xiàn)語音識別技術之前一直使用電池供電的設備。語音電視遙控器是由電池供電的設備,要求消費者每三到四個月更換一次電池??悼ㄋ固?Comcast)等一些公司選擇了“一鍵通”(push-to-talk)功能,而不是免提語音遙控器,以延長電池壽命。電能消耗可以通過多種方式來實現(xiàn)。減少功耗可以通過使用獨特的尾流字技術、集成語音命令的數(shù)量和在設備上啟動的算法來實現(xiàn)。
隨著消費電子行業(yè)繼續(xù)探索在小型設備和形式因素的語音接口,對超高效和低功耗解決方案的需求將會增加。隨著智能家居設備擁有量的增加,用戶往往擁有多個設備,語音作為家庭的集中用戶界面將變得越來越重要?;ゲ僮餍允且粋€驅(qū)動因素。語音將成為緩解智能家居復雜性和碎片化的關鍵接口。