當(dāng)前位置:首頁(yè) > 消費(fèi)電子 > 消費(fèi)電子
[導(dǎo)讀]現(xiàn)在的語(yǔ)音識(shí)別處理器集成了更多功能,它們的精確度也更高,并有更好的開(kāi)發(fā)工具支持,這使得在消費(fèi)電子產(chǎn)品中添加語(yǔ)音I/O變得相對(duì)容易。

過(guò)去,語(yǔ)音識(shí)別的應(yīng)用一直局限于基于PC的系統(tǒng)、電話服務(wù)器、高端手機(jī)和PDA。但近年來(lái),技術(shù)的進(jìn)步已使得低成本的語(yǔ)音識(shí)別處理器在消費(fèi)電子領(lǐng)域得到應(yīng)用。

現(xiàn)在的語(yǔ)音識(shí)別處理器集成了更多功能,它們的精確度也更高,并有更好的開(kāi)發(fā)工具支持,這使得在消費(fèi)電子產(chǎn)品中添加語(yǔ)音I/O變得相對(duì)容易。在用語(yǔ)音控制家庭環(huán)境照明便是一個(gè)具有市場(chǎng)潛力的消費(fèi)應(yīng)用。

語(yǔ)音識(shí)別的類型

語(yǔ)音識(shí)別(有時(shí)也被稱為聲音識(shí)別或VR)技術(shù)可分成三大類:與說(shuō)話人無(wú)關(guān)(SI)的識(shí)別技術(shù)、與說(shuō)話人相關(guān)(SD)的識(shí)別技術(shù)和語(yǔ)音確認(rèn)(SV)技術(shù)。每種技術(shù)都有各自的優(yōu)點(diǎn),適用于不同的應(yīng)用。采用SI技術(shù)的產(chǎn)品要求無(wú)需對(duì)使用者進(jìn)行培訓(xùn)便可使用的語(yǔ)音指令。

例如,與說(shuō)話人無(wú)關(guān)(SI)的識(shí)別技術(shù)通常最適合用于照明控制器。就像我們用名字來(lái)引起他人的注意一樣,用一個(gè)被稱為“觸發(fā)(trigger)”的SI指令來(lái)激活照明控制器也是一個(gè)不錯(cuò)的方法。照明控制器被激活后,它可以接受多個(gè)指令。

集成了語(yǔ)音識(shí)別功能的產(chǎn)品通常需要一種方法,以讓使用者知道它們已經(jīng)聽(tīng)到指令并準(zhǔn)備接受下一個(gè)指示。也就是說(shuō),它們必須讓使用者知道該產(chǎn)品已在控制流程之中。由于控制流程十分簡(jiǎn)單,照明控制器將用一個(gè)短音作為應(yīng)答,這可縮短使用者與控制器的交互時(shí)間,而且如果發(fā)生誤啟動(dòng)也不會(huì)導(dǎo)致太大問(wèn)題。

由于語(yǔ)音是人類的天生交流方式,所以語(yǔ)音識(shí)別功能可以增加產(chǎn)品的易用性,此外它還延伸了使用者的物理控制范圍。例如,一個(gè)語(yǔ)音控制的照明開(kāi)關(guān)即可提供此類價(jià)值?;蛟S使用者正坐著看電視,而照明開(kāi)關(guān)不在伸手可及的范圍內(nèi),或者環(huán)境太暗,看不到照明開(kāi)關(guān),此時(shí)借助一個(gè)簡(jiǎn)單的語(yǔ)音指令就能方便地解決這些難題。

點(diǎn)擊放大
圖1:一個(gè)典型的具語(yǔ)音識(shí)別功能的電燈控制器將采用本流程圖中顯示的步驟進(jìn)行操作。

設(shè)計(jì)考慮

因?yàn)檎Z(yǔ)音識(shí)別建立在概率函數(shù)的基礎(chǔ)上,所以設(shè)計(jì)者必須在接受指令(包含在識(shí)別指令集合中)和拒絕指令(不包含在識(shí)別指令集合中)的重要性之間做出折衷。例如,如果該產(chǎn)品必須反應(yīng)非常靈敏,且偶爾發(fā)生誤接受(誤啟動(dòng))也不會(huì)釀成大問(wèn)題,則應(yīng)用開(kāi)發(fā)者可能傾向于接受指令更重要些。而其它一些應(yīng)用則不允許誤啟動(dòng),如聲控烤箱或照明控制器。

背景噪聲是語(yǔ)音識(shí)別的克星。檢測(cè)和識(shí)別均要求信噪比(SNR)在合理的范圍之內(nèi)(約為3:1或更高)。如果應(yīng)用條件允許,最好使用定向麥克風(fēng)或近講麥克風(fēng)來(lái)降低噪聲。

成本也是一個(gè)考慮因素。當(dāng)最終使用者購(gòu)買(mǎi)產(chǎn)品時(shí),產(chǎn)品價(jià)格已經(jīng)是原始制造成本的4到5倍。幸運(yùn)的是,目前市場(chǎng)上提供的高集成度語(yǔ)音處理器包含了所必需的麥克風(fēng)前置放大器、模數(shù)轉(zhuǎn)換器(ADC)、數(shù)字濾波器、內(nèi)核處理器、數(shù)模轉(zhuǎn)換器(DAC)和數(shù)學(xué)運(yùn)算引擎。

這些處理器同樣捆綁了從文本輸入到與說(shuō)話人無(wú)關(guān)(T2SI)的識(shí)別及合成技術(shù)。這些芯片也可充當(dāng)各種消費(fèi)產(chǎn)品功能的主控制器,而且其價(jià)位對(duì)消費(fèi)電子產(chǎn)品來(lái)說(shuō)頗具競(jìng)爭(zhēng)力。這使得產(chǎn)品在增加語(yǔ)音功能的同時(shí),只增加很少成本,或不增加成本。

照明控制器的設(shè)計(jì)原理

這些優(yōu)異的性能使VR照明控制器非常具有吸引力,同時(shí)還有助于解決該應(yīng)用中的語(yǔ)音識(shí)別挑戰(zhàn)。在家庭環(huán)境中,遠(yuǎn)距離識(shí)別一個(gè)指令意味著要排除人說(shuō)話、電視、音樂(lè)、碗碟碰撞和撞門(mén)等背景噪聲的影響。此外,這類應(yīng)用也必須能適應(yīng)不同性別的成人和孩子。

語(yǔ)音識(shí)別輸出的信號(hào)完整性只跟經(jīng)過(guò)處理的信號(hào)一樣,因此適當(dāng)?shù)柠溈孙L(fēng)電路設(shè)計(jì)是最基本的。麥克風(fēng)電路的設(shè)計(jì)應(yīng)使得麥克風(fēng)、偏置電阻和前置放大級(jí)的組合電路可以充分利用ADC的輸出位數(shù),即盡可能利用ADC的輸出位數(shù)來(lái)達(dá)到最佳分辨率,并且不飽和。另外,設(shè)計(jì)還應(yīng)考慮到人們輕聲或大聲說(shuō)話時(shí)的可能功率范圍,以及照明控制器可能被使用的距離范圍(通常最大約為10英尺)。

最好把照明控制器設(shè)置成避免誤啟動(dòng),(在嘈雜的環(huán)境中,使用者有時(shí)可能不得不重復(fù)發(fā)出指令),利用Quick T2SI工具的設(shè)置可實(shí)現(xiàn)這點(diǎn)。保持指令集的規(guī)模盡可能小,對(duì)盡量減少錯(cuò)誤指令帶來(lái)的誤操作十分重要,特別是在嘈雜的環(huán)境(如在家中)。為使指令之間的差異最大,T2SI指令在聲音和長(zhǎng)度方面應(yīng)盡可能地不同。

最后,照明控制器的邏輯流程必須簡(jiǎn)單、自然,方便使用。為避免使用者混淆,應(yīng)盡可能減少?gòu)囊鹫彰骺刂破鞯淖⒁獾竭M(jìn)入活躍指令集狀態(tài)的控制步驟?;钴S指令集應(yīng)一直包含觸發(fā)字的復(fù)本,因而使使用者可以在任何時(shí)候重建自己在該流程中的位置。觸發(fā)字應(yīng)該很易于地與照明控制功能關(guān)聯(lián)起來(lái),而活躍指令必須是照明控制最常用的。圖1對(duì)設(shè)計(jì)將要用到的流程進(jìn)行了說(shuō)明。

點(diǎn)擊放大
圖2:Sensory公司的VR stamp是一個(gè)低成本的模塊,可通過(guò)加入語(yǔ)音識(shí)別系統(tǒng)所必需的基本功能和組件來(lái)簡(jiǎn)化設(shè)計(jì)。

硬件設(shè)計(jì)

為簡(jiǎn)化照明控制器的開(kāi)發(fā),本例中使用了Sensory公司的VR Stamp。VR Stamp是一個(gè)包含Sensory RSC-4128微處理器、音頻電路分立電容和麥克風(fēng)前置放大器、3.58MHz晶振、復(fù)位電路及用于存儲(chǔ)程序代碼的128KB閃存的低成本模塊。

VR Stamp還帶有128KB的串行EEPROM存儲(chǔ)器,但在照明控制器應(yīng)用中沒(méi)有用到它(見(jiàn)圖2)。VR Stamp工具套件包括VR Stamp、集成開(kāi)發(fā)環(huán)境(IDE)、Quick T2SI、FluentChip庫(kù)(具有各種語(yǔ)音識(shí)別和合成功能,包括T2SI)、VR Stamp編程板和支持文件。

在這個(gè)由語(yǔ)音激活的照明控制器電路中,VR Stamp模塊接受使用者發(fā)出的語(yǔ)音指令,然后提供控制信號(hào)來(lái)打/關(guān)燈,并通過(guò)設(shè)置占空比來(lái)調(diào)節(jié)想要的電燈亮度(圖3)。

該電路由120V、60Hz的交流線電源供電。變壓器(T1)和二極管橋(D1)完成從交流到直流的轉(zhuǎn)換和整流。RSC-4128工作在2.4到3.6V的范圍內(nèi)。穩(wěn)壓器(U1)向VR Stamp模塊提供穩(wěn)定的3.3V電源。3300Ω的電阻(R1)將交流線性電流降低到幾個(gè)毫安,以使RSC-4128能夠檢測(cè)電壓何時(shí)出現(xiàn)過(guò)零點(diǎn)。

內(nèi)部二極管的作用是防止芯片因輸入電壓過(guò)高而損壞。兩端交流開(kāi)關(guān)元件/三端雙向可控硅開(kāi)關(guān)元件對(duì)(U2/Q2)在輸出端(P2)控制交流線電流。為濾除VDD上的低頻紋波,必須使用100µF的電容(C3),因?yàn)椴环€(wěn)定的VDD將會(huì)耦合到音頻電路中,并將降低語(yǔ)音識(shí)別的精確度。

用于語(yǔ)音識(shí)別輸入的麥克風(fēng)(MK1)和用于聲音輸出的揚(yáng)聲器(LS1),實(shí)現(xiàn)該應(yīng)用的功能模塊。這是一個(gè)被來(lái)用為電燈供電的經(jīng)典電路。通過(guò)延遲啟動(dòng),該電路還可以減弱燈的亮度。本設(shè)計(jì)實(shí)現(xiàn)了4個(gè)照明開(kāi)關(guān)亮度級(jí)別,其中“最亮”和“關(guān)燈”分別采用100%和0%的占空比, “中等亮”和“暗”分別采用大約50%和10%的占空比。

在設(shè)計(jì)帶有語(yǔ)音識(shí)別功能的PCB時(shí),設(shè)計(jì)者應(yīng)該記住兩個(gè)設(shè)計(jì)原則:

1.保持模擬電源和模擬地的穩(wěn)定 應(yīng)利用穩(wěn)壓器使電源信號(hào)和地信號(hào)盡可能保持穩(wěn)定。應(yīng)合理設(shè)計(jì)PCB布局和走線,以使所有的模擬電源和模擬地信號(hào)與數(shù)字地分開(kāi)。模擬電源和模擬地應(yīng)分別連接到主電源和主接地上 (對(duì)于本應(yīng)用為穩(wěn)壓器)。這種連接方式通常被稱為“星形接地”。把穩(wěn)壓器放在盡可能接近VR Stamp的MIC _ RET引腳的地方,并對(duì)所有電源和地信號(hào)使用粗的電線和PCB走線。

2. 麥克風(fēng)連線盡量短,并帶屏蔽保護(hù) 使PCB上所有模擬走線盡可能短是一種好的設(shè)計(jì)方法。特別是,從麥克風(fēng)的正輸入端到VR Stamp的主音頻信號(hào)路徑應(yīng)該盡可能短。高阻抗音頻信號(hào)的振幅僅為幾毫伏的峰峰值。為避免來(lái)自數(shù)字噪聲和電磁干擾(EMI)的天線效應(yīng),必須使用屏蔽線纜連接麥克風(fēng)與該電路。

VR Stamp被設(shè)計(jì)用來(lái)利用廉價(jià)的全向駐極體麥克風(fēng)提供出色的識(shí)別性能。本應(yīng)用中選用了松下公司的WM-64PKT,但也可以使用許多其它制造商和其它型號(hào)的產(chǎn)品。雖然駐極體麥克風(fēng)要求一個(gè)外部電源驅(qū)動(dòng)內(nèi)部FET緩沖器,但被偏置后,它們也可作為電流源使用。此外,偏置電流控制整個(gè)麥克風(fēng)的靈敏度。在這個(gè)調(diào)光開(kāi)關(guān)中,采用了靈敏度為-44dB的麥克風(fēng)。如果采用不同靈敏度的麥克風(fēng),則應(yīng)按下面的公式修改麥克風(fēng)的偏置電阻(R4):

其中Sensitivity是你想要的麥克風(fēng)靈敏度(在麥克風(fēng)規(guī)格中以-dB為單位),R是麥克風(fēng)阻抗,RS是對(duì)獲得給定靈敏度所需的麥克風(fēng)偏置電阻(R4)。

麥克風(fēng)的布局也是VR設(shè)計(jì)成功的關(guān)鍵因素,應(yīng)記住三個(gè)重要的設(shè)計(jì)原則。

1. 埋入式安裝 麥克風(fēng)元件應(yīng)放在盡可能接近安裝面的地方,而且應(yīng)充分固定在塑料殼體上。在麥克風(fēng)元件和塑料殼體之間不能有任何空隙。

2. 無(wú)障礙物且孔足夠大 為避免影響識(shí)別效果,須保證在麥克風(fēng)元件前面的區(qū)域內(nèi)沒(méi)有任何障礙物。麥克風(fēng)前面的外殼的開(kāi)孔直徑至少為5mm。如果必需在麥克風(fēng)前加上塑料表面,應(yīng)使之盡可能薄,如果可以的話,最好不超過(guò)0.7mm。

3. 隔離 為避免因操作或震動(dòng)產(chǎn)品而產(chǎn)生的聽(tīng)覺(jué)噪聲被麥克風(fēng)“獲取”,麥克風(fēng)與殼體之間應(yīng)該進(jìn)行隔音。

點(diǎn)擊放大
圖3:由語(yǔ)音激活的照明控制電路中的VR stamp模塊接收使用者口頭指令,提供開(kāi)/關(guān)燈控制信號(hào),并設(shè)置燈的亮度。

軟件設(shè)計(jì)

Sensory公司的VR Stamp可以運(yùn)行利用FluentChip技術(shù)固件工具和庫(kù)所開(kāi)發(fā)的程序。FluentChip程序是利用VR Stamp工具套件所包含的IDE工具所創(chuàng)建和管理的。一個(gè)程序包含一個(gè)或多個(gè)代碼模塊(可以使用匯編語(yǔ)言或C語(yǔ)言編寫(xiě))及其它程序資源,包括面向T2SI識(shí)別指令集和SX語(yǔ)音提示的目標(biāo)數(shù)據(jù)文件。

T2SI觸發(fā)及指令集是采用Quick T2SI(一個(gè)基于Windows的SI識(shí)別指令集創(chuàng)建工具)創(chuàng)建的。為使用這個(gè)基于圖形使用者界面(GUI)的工具,設(shè)計(jì)者只需把待識(shí)別的字或短語(yǔ)鍵入到文本框中,按下“Build”按鈕,一個(gè)定制的SI集合就創(chuàng)建好了。注意的是,應(yīng)把觸發(fā)字輸入到觸發(fā)字文本框中,把指令輸入到指令文本框中。

可以利用PC對(duì)這些字和短語(yǔ)進(jìn)行測(cè)試,也可以把它們下載到VR Stamp中進(jìn)行測(cè)試。如果一些字難以識(shí)別或易于產(chǎn)生混淆,設(shè)計(jì)者應(yīng)調(diào)節(jié)識(shí)別字和短語(yǔ)的發(fā)音,并馬上重新測(cè)試。Quick T2SI工具也可創(chuàng)建可以鏈接到任何T2SI應(yīng)用的目標(biāo)文件。

應(yīng)把Quick T2SI工具中的“Out of Vocabulary Sensitivity”項(xiàng)設(shè)置成“Reject More”或“Reject Most”以減少誤啟動(dòng)。應(yīng)該對(duì)T2SI字進(jìn)行了仔細(xì)選擇,以便VR能很容易地區(qū)分它們,而且這些字對(duì)使用者來(lái)說(shuō)是很自然的。例如,“on”和“off”就不應(yīng)列入T2SI字,因?yàn)閮烧叩陌l(fā)音太相似,很易于引起混淆。

如“power”等較長(zhǎng)的字是更好的選擇。此外,可以把這個(gè)單獨(dú)的字用作開(kāi)/關(guān)燈的開(kāi)關(guān)。而其它的指令詞,“dimmer low”、“dimmer medium”、“dimmer high”和“l(fā)ight switch”都足夠長(zhǎng),差別很大,不太可能引起混淆。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉