當前位置:首頁 > 嵌入式 > 嵌入式教程
[導讀]基于嵌入式系統(tǒng)的語音口令識別系統(tǒng)的實現(xiàn)

摘要:語音口令識別是信息處理的一個重要研究方向,本文給出一種基于嵌入式系統(tǒng)的語音口令識別系統(tǒng)的設計方案,硬件系統(tǒng)的核心芯片是嵌入式微處理器,語音口令識別算法采用連續(xù)隱馬爾克夫模型。實驗結(jié)果表明,將語音識別系統(tǒng)與嵌入式系統(tǒng)相結(jié)合,可以使語音口令識別系統(tǒng)廣泛應用于便攜式設備中。
關(guān)鍵詞:語音口令識別;嵌入式系統(tǒng):隱馬爾克夫模型

0 引言
    隨著計算機技術(shù)和信息技術(shù)的迅速發(fā)展,語音口令識別已經(jīng)成為了人機交互的一個重要方式之一。語音口令識別系統(tǒng)將根據(jù)人發(fā)出的聲音、音節(jié)或短語給出響應,如通過語音口令控制一些執(zhí)行機構(gòu)、控制家用電器的運行或做出回答等。在數(shù)字信號處理芯片上已經(jīng)實現(xiàn)了語音口令識別系統(tǒng)或語音口令識別系統(tǒng)的部分功能,然而隨著嵌入式微處理器處理能力的大幅度提高,計算量大的語音口令識別算法已經(jīng)能夠通過嵌入式微處理器來完成,將語音口令識別系統(tǒng)與嵌入式系統(tǒng)相結(jié)合,發(fā)揮語音識別系統(tǒng)的潛力,使語音識別系統(tǒng)能夠廣泛應用于便攜式設備中。
    采用隱馬爾克夫模型(Hidden Markov Model,HMM)描述語音信號的非平穩(wěn)性和局部平穩(wěn)性,HMM中的狀態(tài)與語音信號的某個平穩(wěn)段相對應,平穩(wěn)段之間以轉(zhuǎn)移概率相聯(lián)系。由于HMM建模對語音信號長度和模型的混合度的要求都比較低,因此在現(xiàn)有的非特定人語音口令識別系
統(tǒng)中,多采用狀態(tài)輸出具有連續(xù)概率分布的連續(xù)隱馬爾可夫模型(Continuous Density Hidden Markov Model,CDHMM)。
    論文給出一種基于嵌入式系統(tǒng)的語音口令識別系統(tǒng)的設計方案,硬件系統(tǒng)的核心芯片是嵌入式微處理器,語音口令識別算法采用CDHMM。語音口令首先經(jīng)過預處理,提取MFCC(Mel-Frequency Ceptral Coefficients)特征參數(shù),然后建立此口令的CDHMM模型,把所有語音口令的模型放在模型庫中,在識別階段,通過概率輸出評分,取評分最大的一個作為識別出的口令。將語音識別系統(tǒng)與嵌入式系統(tǒng)相結(jié)合,可以使語音口令識別系統(tǒng)廣泛應用于便攜式設備中。

1 硬件電路的設計和工作原理
    基于嵌入式系統(tǒng)的語音口令識別系統(tǒng)需要有接收語音信號的輸入芯片配合麥克風實現(xiàn)將模擬語音信號轉(zhuǎn)換成數(shù)字信號的功能,然后由嵌入式微處理器對輸入的語音口令信號進行處理。完成語音口令信號輸入功能的芯片采用的是PHILIPS公司的低功耗芯片UDAl341TS,供電電源電壓為3V,該音頻處理芯片由模數(shù)/數(shù)模轉(zhuǎn)換(ADC)、控制邏輯電路、可編程增益放大器(PGA)和數(shù)字自動增益控制器(DAGC)以及數(shù)字信號處理器等部分組成,能進行數(shù)字語音處理。
    芯片UDAl341TS采用標準的內(nèi)部集成電路聲音總線IIS(Inter IC Sound Bus),該總線是由PHILIPS等公司共同提出的數(shù)字音頻總線協(xié)議,專門用于音頻設備之間的數(shù)據(jù)傳輸,目前很多音頻芯片和微處理器都提供了對IIS總線的支持。
    IIS總線有三根信號線,分別是位時鐘信號BCK(Bit Clock)、字選擇控制信號WS(Word Select)和串行數(shù)據(jù)信號Data,由主設備提供串行時鐘信號和字選擇控制信號,IIS總線的時序如圖1所示。


    WS也稱為幀時鐘信號,該信號的電平為低電平時,傳輸?shù)妮斎胍纛l數(shù)據(jù)信號是左聲道的音頻數(shù)據(jù)信號;信號WS的電平為高電平時,傳輸?shù)妮斎胍纛l數(shù)據(jù)信號是右聲道的音頻數(shù)據(jù)信號。BCK對應著輸入音頻數(shù)據(jù)信號的每一位音頻數(shù)據(jù),其頻率為2×采樣頻率×每個采樣值的位數(shù)。
    與BCK同步的串行音頻數(shù)據(jù)信號采用補碼的形式傳輸,傳輸順序是高位先傳輸。IIS總線格式的信號無論有多少位有效數(shù)據(jù),數(shù)據(jù)的最高位MSB總是出現(xiàn)在WS信號改變(也就是傳輸一幀數(shù)據(jù)信號開始)后的第2個串行數(shù)據(jù)信號SCLK脈沖位置。[!--empirenews.page--]
    通過上述IIS總線能夠得到輸入的音頻數(shù)據(jù)信號,而其它的信號如自動增益控制、輸入數(shù)據(jù)格式的選擇和輸入增益的控制等控制信號通過稱為“L3”形式的接口總線傳輸。為了減少引腳數(shù)和保持連線簡單,該接口總線采用串行數(shù)據(jù)傳輸方式,接口總線由3條信號線組成:時分復用的數(shù)據(jù)通道線L3DATA、模式控制線L3MODE和時鐘信號線L3CLOCK。模式控制線L3MODE為低電平時的傳輸模式為地址傳輸模式;為高電平時的傳輸模式為數(shù)據(jù)傳輸模式。
    語音口令識別系統(tǒng)的硬件電路的核心芯片是嵌入式微處理器Samsung S3C2440 AL,主頻為400MHz。三星公司推出的RISC微處理器S3C2440 AL具有低功耗、高性能等特點,可以廣泛應用于便攜式設備中。S3C2440AL具有一個IIS總線音頻編碼/解碼接口,語音口令識別系統(tǒng)的硬件電路如圖2所示。其IIS總線控制器通過5根信號線與UDAl34lTS編解碼芯片相連。這些5根信號線分別是:系統(tǒng)時鐘信號CDCLK:位時鐘信號I2-SSCLK;字選擇控制信號I2SLRCK;串行數(shù)據(jù)輸入信號I2SSDI;串行數(shù)據(jù)輸出信號I2SDO。S3C2440 AL使用L3接口傳輸其他(如自動增益控制、輸入數(shù)據(jù)格式的選擇和輸入增益的控制等)控制信號。為了使系統(tǒng)間能夠更好地同步,S3C2440AL需要向芯片UDAl341TS提供CDCLK,該時鐘信號的頻率可以選擇采樣頻率的256倍、384倍或512倍。

 

2 基于CDHMM的口令識別的軟件設計
2.1 口令識別的軟件系統(tǒng)框圖
    語音口令識別的軟件系統(tǒng)分別由特征參數(shù)提取、語音模型庫和概率輸出評分三大模塊組成,如圖3所示:1)語音口令特征參數(shù)的提取,輸入不同的語音口令,首先要進行特征參數(shù)提取,采用Mel頻率參數(shù)作為CDHMM的建模參數(shù),Mel頻率參數(shù)是根據(jù)人耳的聽覺特性將語音信號的頻譜轉(zhuǎn)化為基于Mel頻率的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。2)在訓練階段,對不同的語音口令建立CDHMM模型。3)在口令識別階段,通過概率輸出評分對待測語音口令做出識別。


    語音口令首先經(jīng)過預處理,提取MFCC特征參數(shù),然后建立此口令的CDHMM模型,把所有語音口令的模型放在模型庫中,在識別階段,通過概率輸出評分,取評分最大的一個作為識別出的口令。[!--empirenews.page--]
2.2 CDHMM算法
    HMM是一種雙重隨機過程,用概率統(tǒng)計的方法描述語音信號的產(chǎn)生及變化過程。HMM的模型參數(shù)為λ=(N,M,π,A,B),其中,N為模型中馬爾克夫鏈的狀態(tài)數(shù)目;M為每個狀態(tài)對應的可能的觀察數(shù)目;π為初始狀態(tài)概率矢量,π=(π1,…,πN);A為狀態(tài)轉(zhuǎn)移矩陣,A=(aij)N*N;B為觀察概率矩陣,B=(bjk)N*N。
    CDHMM的B不再是一個矩陣,而是一組觀察值概率密度函數(shù),由M個連續(xù)高斯密度函數(shù)描述:
    
    N(o,ujk,∑jk)為多維高斯概率密度函數(shù),o是觀察矢量序列,即從語音中提取的特征矢量參數(shù)(o1,o2,…,ot),t為觀察矢量序列的時間長度。ujk,∑jk分別為高斯分布的均值和方差參數(shù),Cjk為高斯分布的權(quán)值,滿足約束條件
    CDHMM參數(shù)估計采用“分段K-平均法”。初始模型可以隨機選取,由是改進后的模型,再將作為初始值,重新估計。
    基于“分段K-平均法”的CDHMM參數(shù)估計具體過程為:
    (1)設置模型參數(shù)初始值λ=(π,A,B)。
    (2)根據(jù)此λ用Viterbi算法將輸入的訓練語音數(shù)據(jù)劃分為最可能的狀態(tài)序列,利用狀態(tài)序列估計參數(shù)A。

    (3)用分段K-平均法對B進行重新估計,即將第二步得到的每一種狀態(tài)的訓練語音數(shù)據(jù)搜集在一起并對其特征進行統(tǒng)計,從而得到B。
    對于概率密度函數(shù)由若干正態(tài)分布函數(shù)線性相加的CDHMM系統(tǒng),每個狀態(tài)θj(1≤j≤N)的概率密度函數(shù)bj(X)由K個正態(tài)分布函數(shù)線性相加而成,這樣可以把每一狀態(tài)語音幀分成K類,然后計算同一類中諸語音幀矢量X的均值矢量,方差矩陣∑jk和混合密度函數(shù)中各概率密度函數(shù)的權(quán)重系數(shù)Cjk。
    
    (4)由(2)和(3)估計的CDHMM參數(shù)作為初值,利用重估公式對CDHMM參數(shù)進行重估,得到參數(shù)。
    (5)利用(4)所得的計算,并與p(O/λ)相比較。如果差值小于預定的閾值或迭代次數(shù)超過預定的次數(shù),即說明模型參數(shù)已經(jīng)收斂,無需進行重估計算,可將作為模型參數(shù)輸出。反之,若差值超出閾值或迭代未到預定的次數(shù),則將計算結(jié)果作為新的初值,重復
進行下一次迭代。

3 結(jié)束語
    論文建立了一種基于嵌入式系統(tǒng)的語音口令識別系統(tǒng),并且對上升、下降等14條口令進行測試,每條語音先切除靜音,預加重,然后通過Hamming窗分幀處理,幀長和幀移分別為20ms和10ms,然后對每一幀語音信號提取16MFCC+16AMFCC共32維參數(shù)作為特征矢量。該語音口令識別系統(tǒng)達到了實時的要求,可以使語音口令識別系統(tǒng)廣泛應用于便攜式設備中。
 

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉