當前位置:首頁 > 消費電子 > 音視頻及家電
[導讀] (文章來源:百知了) 語音可以提供簡單、引人注目的用戶體驗,但是將語音控件添加到任何產(chǎn)品、服務或應用程序的路徑都是復雜的。隨著占主導地位的科技公司繼續(xù)開發(fā)支持語音的界面和助手,產(chǎn)品設計師

(文章來源:百知了)

語音可以提供簡單、引人注目的用戶體驗,但是將語音控件添加到任何產(chǎn)品、服務或應用程序的路徑都是復雜的。隨著占主導地位的科技公司繼續(xù)開發(fā)支持語音的界面和助手,產(chǎn)品設計師、開發(fā)人員和制造商將被迫重新考慮用戶體驗和用戶界面。

隨著智能音箱應用的驚人擴展,以及消費者將智能家居設備作為點解決方案而非系統(tǒng)購買的趨勢,未來許多家庭將擁有一個以語音控制為主要用戶界面的分布式智能平臺。在2019年初,36%的美國寬帶家庭擁有至少一個帶有語音助手的智能揚聲器。

語音助手技術依賴于兩個主要組件:硬件,一種通信和捕獲命令的方式;還有軟件,一種思考和處理反應的方式。雖然硬件和軟件決策很重要,但是考慮其他因素——比如本地處理和云處理,以及功耗——也會對語音優(yōu)先應用程序或設備的成功產(chǎn)生重大影響。語音設計要求制造商評估他們的最終產(chǎn)品,并就使用環(huán)境、設備將被使用的環(huán)境和消費者交互模型做出決策。這些決策影響硬件選擇。

在輸入階段,當用戶對設備說話時,麥克風將捕捉短語并將其發(fā)送到ADC, ADC將語音輸入轉(zhuǎn)換為數(shù)字音頻數(shù)據(jù)。麥克風可以是模擬的,也可以是數(shù)字的。模擬麥克風必須與模擬-數(shù)字轉(zhuǎn)換器配對,而數(shù)字麥克風有一個內(nèi)置。麥克風陣列的設計取決于設備的環(huán)境。對于那些需要用戶近距離說話的設備,一到兩個麥克風是理想的。遠場通信可能需要4到7個麥克風陣列。

輸入階段之后是處理階段。數(shù)字信號處理器將數(shù)據(jù)輸入網(wǎng)絡模塊和自然語言處理引擎。在此階段,將對捕獲的語音數(shù)據(jù)引入算法。波束形成、動態(tài)范圍壓縮和自適應頻譜降噪等算法有助于提高所捕獲語音數(shù)據(jù)的質(zhì)量。處理完成后,將數(shù)據(jù)發(fā)送到數(shù)模轉(zhuǎn)換器放大器,輸出給用戶。

為語音優(yōu)先技術創(chuàng)建軟件基礎設施的構件包括自然語言處理,其中包括自動語音識別(ASR)和自然語言理解(NLU);喚醒詞算法,啟動語音響應過程;以及一個處理數(shù)據(jù)的云平臺。wake word作為用戶和語音助手之間的網(wǎng)關。wake word引擎是一種算法,它通過監(jiān)測音頻信號來檢測感興趣的特定單詞,從而激活設備的語音界面。

一旦預先確定的觸發(fā)詞或短語被檢測到,語音查詢就被發(fā)送到云上進行處理。通常,該技術在本地設備上運行,以提高語音查詢響應的延遲,并保護隱私。自然語言處理(NLP)是人工智能的一種形式,通過文本、語音或兩者的自然對話實現(xiàn)人機交互。聊天機器人通常指基于文本的對話系統(tǒng),而語音機器人則指Alexa或谷歌Assistant等語音優(yōu)先助手。

在一個簡化的NLP體系結構中,自動語音識別(ASR)識別說話的單詞并將它們轉(zhuǎn)換為文本(語音到文本)。尋求為語音優(yōu)先技術設計的公司必須決定他們的語音助手將如何處理語音查詢——無論是在云端還是在本地設備上??紤]響應速度、Internet連接和安全性都是決策的考慮因素。語音芯片制造商DSP Group發(fā)現(xiàn),在相當?shù)投说奶幚砥骰駾SP芯片上實現(xiàn)一定數(shù)量的簡單命令是可行的。它發(fā)現(xiàn),本地簡單命令數(shù)量的最佳點是5到10個命令。

這些命令包括諸如打開和關閉設備、降低和增加音量等任務。一旦命令數(shù)量超過10到15個,對內(nèi)存和處理能力的需求就會增加,故障檢測率提高的風險也會大大增加。這表明向云處理的轉(zhuǎn)變。更復雜的命令被發(fā)送到云,因為需要更多的功能和靈活性,而有限的命令子集可以在本地解釋。一直在線監(jiān)聽設備的隱私問題是采用語音優(yōu)先設備的一個關鍵障礙。此外,消費者對設備制造商在訪問和管理他們的個人數(shù)據(jù)方面缺乏信任。

制造商必須考慮運行自然語言處理算法的處理器的功耗。缺乏專用電源的設備可以從低能耗解決方案中獲益。與支持語音的設備相關聯(lián)的始終在線監(jiān)聽功能的電源感知設計是電源優(yōu)化的關鍵。目前的智能音箱都采用了交流電源,這是由于一直監(jiān)聽技術的能源消耗。公司選擇電池供電而不是交流電的原因有很多,比如設備的物理位置,以及設備在房間里擺放的自由。

美觀也可能是移除設備電源線的一個因素,特別是對于那些在實現(xiàn)語音識別技術之前一直使用電池供電的設備。語音電視遙控器是由電池供電的設備,要求消費者每三到四個月更換一次電池??悼ㄋ固?Comcast)等一些公司選擇了“一鍵通”(push-to-talk)功能,而不是免提語音遙控器,以延長電池壽命。電能消耗可以通過多種方式來實現(xiàn)。減少功耗可以通過使用獨特的尾流字技術、集成語音命令的數(shù)量和在設備上啟動的算法來實現(xiàn)。

隨著消費電子行業(yè)繼續(xù)探索在小型設備和形式因素的語音接口,對超高效和低功耗解決方案的需求將會增加。隨著智能家居設備擁有量的增加,用戶往往擁有多個設備,語音作為家庭的集中用戶界面將變得越來越重要?;ゲ僮餍允且粋€驅(qū)動因素。語音將成為緩解智能家居復雜性和碎片化的關鍵接口。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉