當(dāng)前位置:首頁 > 電源 > 數(shù)字電源
[導(dǎo)讀]本文提出了基于TMS320VC5402的語音識(shí)別系統(tǒng)方案。整個(gè)系統(tǒng)以TMS320VC5402為核心電路進(jìn)行設(shè)計(jì),由TLC320AD50C進(jìn)行A/D轉(zhuǎn)換,由TMS320VC5402識(shí)別語音信號(hào),然后和機(jī)器人通信,并由AT89S52控制 LCD顯示識(shí)別結(jié)果。

摘要:本文提出了基于TMS320VC5402語音識(shí)別系統(tǒng)方案。整個(gè)系統(tǒng)以TMS320VC5402為核心電路進(jìn)行設(shè)計(jì),由TLC320AD50C進(jìn)行A/D轉(zhuǎn)換,由TMS320VC5402識(shí)別語音信號(hào),然后和機(jī)器人通信,并由AT89S52控制 LCD顯示識(shí)別結(jié)果。
關(guān)鍵詞DSP;模數(shù)轉(zhuǎn)換;單片機(jī);孤立詞;語音識(shí)別

1 引言

隨著語音信號(hào)處理技術(shù)的不斷發(fā)展與成熟,語音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù)。DSP芯片,即數(shù)字信號(hào)處理器,是專門為快速實(shí)現(xiàn)各種信號(hào)處理算法而設(shè)計(jì)的、具有特殊結(jié)構(gòu)的微處理器,其處理速度比最快的CPU還快10~50倍。本文介紹的就是基于TMS320VC5402配合TLC320AD50C和AT89S52的實(shí)驗(yàn)室用機(jī)器人的孤立詞語音識(shí)別系統(tǒng)。

2 語音識(shí)別系統(tǒng)的基本介紹

2.1 語音識(shí)別系統(tǒng)的組成

計(jì)算機(jī)語音識(shí)別過程與人對(duì)語音識(shí)別處理過程基本上是一致的。語音信號(hào)本身的特點(diǎn)造成了語音識(shí)別的困難。這些特點(diǎn)包括多變性,動(dòng)態(tài)性,瞬時(shí)性和連續(xù)性等。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可如圖1所示。

2.2 語音識(shí)別系統(tǒng)的分類

根據(jù)對(duì)說話人說話方式的要求,可以分為孤立詞語音識(shí)別系統(tǒng),連續(xù)字語音識(shí)別系統(tǒng)和連續(xù)語音識(shí)別系統(tǒng);根據(jù)對(duì)說話人的依賴程度可以分為特定人和非特定人語音識(shí)別系統(tǒng);根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)。

3 硬件系統(tǒng)設(shè)計(jì)

此語音識(shí)別系統(tǒng)的目的讓機(jī)器人能聽懂我們所發(fā)出的簡(jiǎn)單的命令,首先由TLC320AD50C采集計(jì)算機(jī)聲卡的語音,經(jīng)過轉(zhuǎn)換后送給TMS320VC5402, TMS320VC5402完成語音信號(hào)處理,即識(shí)別出所發(fā)出的語音,然后把結(jié)果送給AT89S52顯示,同時(shí)通過串行通訊送給機(jī)器人(PC-104),以使機(jī)器人能夠控制自己的行動(dòng)。其結(jié)構(gòu)框圖如圖2所示。

 

該系統(tǒng)以TMS320VC5402為核心電路,對(duì)孤立詞語音信號(hào)進(jìn)行采集和處理,AIC為TMS320VC5402的模擬接口電路,包括放大、濾波、和A/D轉(zhuǎn)換的電路,把由話筒采集進(jìn)來的模擬語音信號(hào),轉(zhuǎn)換成數(shù)字語音信號(hào)。其中SRAM和Flash分別為TMS 320VC5402的數(shù)據(jù)存儲(chǔ)器和程序存儲(chǔ)器。鍵盤和顯示部分則由AT89S52來控制,AT89S52把鍵盤操作轉(zhuǎn)換為控制信號(hào)再傳送給TMS320VC5402,控制系統(tǒng)的工作是訓(xùn)練還是識(shí)別,TMS320VC5402把要顯示的系統(tǒng)狀態(tài)通訊給AT89S52,以實(shí)現(xiàn)LCD顯示。這些硬件工作過程如圖3所示。

3.1 TMS320VC5402與TLC320AD50C的接口設(shè)計(jì)

TMS320VC5402提供了兩個(gè)增強(qiáng)型的高速、全雙工多通道緩存串行口McBSP, McBSP具有全雙工的通信機(jī)制以及雙緩存的發(fā)送寄存器和三緩存的接收寄存器,允許連續(xù)的數(shù)據(jù)流傳輸,數(shù)據(jù)長度可以為8,12,16,20,24,32;同時(shí)還提供了A-律和μ律壓擴(kuò),多達(dá)128個(gè)通道的發(fā)送與接收。McBSP通過7個(gè)引腳使得一個(gè)數(shù)據(jù)通路和一個(gè)控制通路與外部設(shè)備相連。McBSP的引腳如下:

①     DX:發(fā)送引腳,與McBSP相連發(fā)送數(shù)據(jù)。

②     DR:接收引腳,與接收數(shù)據(jù)總線相連。

③     CLKX:發(fā)送時(shí)鐘引腳。

④     CLKR:接收時(shí)鐘引腳。

⑤     FSX:發(fā)送幀同步引腳。

⑥     FSR:接收幀同步引腳。

TLC320AD50C集成了16位A/D,D/A轉(zhuǎn)換器,采樣速率最高可達(dá)80kHz。在TLC320AD50C內(nèi)部DAC之前有插值濾波器,ADC之后有抽樣濾波器,接收和發(fā)送可同時(shí)進(jìn)行。TLC320AD50C主機(jī)時(shí)鐘信號(hào)來源于外部,通過MCLK引腳輸人。幀同步信號(hào)從內(nèi)部產(chǎn)生,由MCLK導(dǎo)出,其頻率由控制寄存器4設(shè)定。SCLK時(shí)鐘可以由內(nèi)部產(chǎn)生也可由外部插入,在內(nèi)部產(chǎn)生時(shí),其頻率為幀同步信號(hào)頻率的256倍。其主要特點(diǎn)如下:

①     可采用單5V電源供電也可以采用5V模擬、3.3V數(shù)字雙電源供電;

②     內(nèi)含16位精度的Σ-△ADC和DAC;

③     器件中的ADC為64倍過采樣,DAC為256倍過采樣(內(nèi)部);

④     具有85dB的最小信噪比;

⑤     帶有內(nèi)建抗混疊濾波器和sinx/x補(bǔ)償;

⑥     可配置成主機(jī)或從機(jī)方式,一個(gè)串行接口可支持4個(gè)TLC320AD50器件;

TLC320AD50C與TMS320VC5402串行通信可以分為首次通信和二次通信。在首次通信

中,有兩種數(shù)據(jù)傳送模式,16位傳送模式和15+1位傳送模式,可通過控制寄存器設(shè)定。省卻情況下為15+1位傳送模式。

TMS320VC5402與TLC320AD50C的硬件接口電路如圖4所示。

3.2 TMS320VC5402與AT89S52的通信

AT89S52和TMS320VC5402各自獨(dú)立工作,其信息和數(shù)據(jù)交換通過共享一片外部存儲(chǔ)器來實(shí)現(xiàn),它們之間信號(hào)聯(lián)絡(luò)通過硬連接和軟件判斷來實(shí)現(xiàn)。

外部存儲(chǔ)器采用的是CY7C133,它是高速的2K X 16bit的靜態(tài)異步雙端口RAM,其存儲(chǔ)速度為25ns。它有兩套獨(dú)立的地址線、數(shù)據(jù)線和控制信號(hào)線,允許兩個(gè)控制器件中的數(shù)據(jù)通過共同連接的存儲(chǔ)器來進(jìn)行通信。該雙端口RAM允許兩個(gè)控制器同時(shí)讀取任何存儲(chǔ)單元(包括同時(shí)讀同一單元),但不允許同時(shí)寫或者一讀一寫統(tǒng)一地址單元。

對(duì)于TMS320VC5402,數(shù)據(jù)存儲(chǔ)器CY7C133的對(duì)應(yīng)地址為4000H~47FFH。

對(duì)于AT89S52,數(shù)據(jù)存儲(chǔ)器CY7C133的對(duì)應(yīng)地址為2000H~27FFH。

4 軟件系統(tǒng)設(shè)計(jì)

由圖1可知,軟件系統(tǒng)的設(shè)計(jì)主要包括端點(diǎn)檢測(cè)、特征量提取和模式匹配。

4.1 端點(diǎn)檢測(cè)

從背景噪聲中找出語音的開始和終止,這在很多語音處理領(lǐng)域中是基本的問題。特別是在孤立詞的自動(dòng)識(shí)別中,找出每個(gè)單詞的語音信號(hào)范圍是很重要的,確定語音信號(hào)的開始和終止的方案可以用來減少非實(shí)時(shí)系統(tǒng)中的大量計(jì)算,使該系統(tǒng)僅處理語音輸入。本語音識(shí)別系統(tǒng)實(shí)時(shí)、精確的端點(diǎn)檢測(cè)可以排除無聲段的噪聲干擾,使后面的識(shí)別性能得以較大的提高。

漢語的音節(jié)末尾都是濁音,只用短時(shí)能量就能較好地判斷一個(gè)詞語的末點(diǎn)。而漢語詞語的起點(diǎn)檢測(cè)不僅有一定的難度,而且檢測(cè)是否準(zhǔn)確對(duì)語音識(shí)別性能影響頗大,因?yàn)榇蠖鄶?shù)聲母都是清聲母,還有送氣與不送氣的塞音和塞擦音,將它們與環(huán)境噪聲分辨是比較困難的。這里用短時(shí)相對(duì)能頻積的方法對(duì)語音信號(hào)的端點(diǎn)進(jìn)行檢測(cè)。

語音信號(hào)一般可分為無聲段、清音段、濁音段。無聲段的平均能量最低,濁音段的平均能量最高,清音段的平均能量居于兩者之間。在有噪聲環(huán)境下,語音剛開始的一段,其短時(shí)能量的大小與背景噪聲的短時(shí)能量差不太多。清音段的過零率大多數(shù)情況下最高,無聲段的過零率變化范圍較大,一般情況下比濁音段低一點(diǎn),但有時(shí)會(huì)比濁音段稍高一點(diǎn)或者差不多。

在系統(tǒng)剛啟動(dòng)時(shí),正常情況下語音信號(hào)的前100ms是無聲段,所以我們可以提取這段語音信號(hào)的平均能量、平均過零率、它們的乘積(稱為能頻積) 作為進(jìn)行判斷的特征參數(shù)。

4.2 特征量提取

原始語音信號(hào)不能直接用于模板訓(xùn)練和模式匹配,這是因?yàn)椋?)原始語音信號(hào)數(shù)據(jù)量太大,系統(tǒng)的運(yùn)算和存貯負(fù)擔(dān)過重;(2)原始語音信號(hào)包含太多的隨機(jī)因素,極大的影響了系統(tǒng)的識(shí)別率。

語音識(shí)別系統(tǒng)進(jìn)行模板訓(xùn)練和模式匹配的數(shù)據(jù)是從預(yù)處理后語音信號(hào)中提取的特征參數(shù)。通過預(yù)處理和特征參數(shù)提取技術(shù),一方面使得進(jìn)行模板訓(xùn)練和模式匹配的數(shù)據(jù)特征明顯,提高了系統(tǒng)的識(shí)別率;另一方面進(jìn)行了信息壓縮,降低了系統(tǒng)的運(yùn)算量和存貯量。

特征參數(shù)提取就是從語音信號(hào)中提取有代表性的、合適的特征參數(shù),進(jìn)行適當(dāng)?shù)臄?shù)據(jù)壓縮。時(shí)域參數(shù)的優(yōu)點(diǎn)是計(jì)算量比較少,對(duì)于區(qū)別語音段和靜音段及清/濁音段比較方便,效果也比較明顯。但由于人耳對(duì)聲音的頻域特性比較敏感,時(shí)域參數(shù)不能恰當(dāng)?shù)胤从尺@種特征。

線性預(yù)測(cè)分析法是最有效的語音分析技術(shù)之一。線性頂測(cè)分析所包括的基本概念是,一個(gè)語音抽樣能夠用過去若干個(gè)語音抽樣的線性組合來逼近。通過使實(shí)際語音抽樣和線性預(yù)測(cè)抽樣之間差值的平方和(在一個(gè)有限間隔上)達(dá)到最小值,能夠決定唯一的一組預(yù)測(cè)器系數(shù)(預(yù)測(cè)器系數(shù)是線性組合中所用的加權(quán)系數(shù))。

線性預(yù)測(cè)系數(shù)(LPC)倒譜系數(shù)其實(shí)是復(fù)倒譜。復(fù)倒譜是信號(hào)通過z變換以后取對(duì)數(shù),再求反G變換而得到的。線性預(yù)測(cè)分析方法是一種譜估計(jì)的方法,而且其聲道模型系統(tǒng)函數(shù)H(z)反映了聲道的頻率響應(yīng)和原始信號(hào)的譜包絡(luò),因此用lgH(z)做反Z變換即可求出其復(fù)倒譜系數(shù)。該復(fù)倒譜系數(shù)是根據(jù)線性預(yù)測(cè)模型直接得到的,因此又稱之為LPC倒譜系數(shù)。

4.3 模式匹配

模板匹配法是多維模式識(shí)別系統(tǒng)中最常用的一種相似度計(jì)算方法。在訓(xùn)練過程中,經(jīng)過特征提取和特征維數(shù)的壓縮,并采用聚類方法,針對(duì)每個(gè)模式類各產(chǎn)生一個(gè)或幾個(gè)模板,識(shí)別階段將待識(shí)別模式的特征矢量與各模板進(jìn)行相似度計(jì)算,然后判別它屬于哪個(gè)類。語音識(shí)別也可以用模板匹配法進(jìn)行相似度計(jì)算,但它在特征維數(shù)方面存在一個(gè)時(shí)間對(duì)準(zhǔn)問題,是通常模式識(shí)別匹配計(jì)算時(shí)不具備的一些特殊情況。孤立詞識(shí)別時(shí),每個(gè)類是一個(gè)詞,每個(gè)詞由一個(gè)或多個(gè)音素或類音素構(gòu)成。在訓(xùn)練或識(shí)別過程中,每次說同一個(gè)詞時(shí),其持續(xù)時(shí)間長度和各個(gè)詞的各音素或類音素的相對(duì)時(shí)長都會(huì)隨機(jī)地改變。因此在匹配時(shí)如果只對(duì)特征矢量序列進(jìn)行線性時(shí)間規(guī)整,其中的音素或類音素就可能對(duì)不準(zhǔn)。而應(yīng)該采用某種非線性時(shí)間對(duì)準(zhǔn)算法。動(dòng)態(tài)時(shí)間規(guī)整(DTW)就是效果最好的一種非線性時(shí)間規(guī)整模板匹配算法。

不同的人所發(fā)的語音信號(hào),其模式有很大的差異,即使是同一個(gè)人,在不同的時(shí)間由于方法不同,其語音特征參數(shù)也有變化。在模式匹配時(shí),由于這些變化會(huì)影響測(cè)度的估計(jì),從而識(shí)別率降低。為了提高識(shí)別率,首先要把語音信號(hào)的起始點(diǎn)檢測(cè)出來;其次,為了克服兩次同樣的語音而發(fā)音時(shí)間長短的不同,采用對(duì)標(biāo)準(zhǔn)模式的語音信號(hào)均勻地伸長或縮短直到它與未知語音信號(hào)長度相一致。這種方法能達(dá)到的識(shí)別精度完全取決于端點(diǎn)檢測(cè)的精度。

5 結(jié)語

本系統(tǒng)主要工作是服務(wù)于實(shí)驗(yàn)室智能機(jī)器人的孤立詞語音控制。實(shí)踐證明,本系統(tǒng)能夠?qū)C(jī)器人常用的一些命令詞進(jìn)行識(shí)別,并且比實(shí)驗(yàn)室的傳統(tǒng)機(jī)器人的控制方式方便得多,經(jīng)過改進(jìn)可以用到工業(yè)機(jī)器人的控制系統(tǒng)中去。

本文作者創(chuàng)新點(diǎn)是利用DSP對(duì)A/D采集來的語音信號(hào)進(jìn)行處理,然后和計(jì)算機(jī)通信,同時(shí)將處理結(jié)果送給單片機(jī)實(shí)現(xiàn)LCD顯示。

作者簡(jiǎn)介:俞斌(1979.6-),男,漢族,通信工程專業(yè)本科,現(xiàn)在從事的工作:移動(dòng)通信技術(shù)與DSP技術(shù)的教學(xué)與科研。Biography:Yu Bin(1979.6-),male,Han nationality,communication engineering speciality undergraduate course, now engaged in work: mobile communication technology and DSP technology teaching and scientific researching.

EMAIL:gliet_99021626@163.com

通信地址:湖南省衡陽市雷公塘14#電氣與信息工程系(俞斌收)  郵政編碼:421008

參考文獻(xiàn):

[1] TMS320VC5402 Fixed-Point Digital Signal Processor Datasheet. 2000

[2] TLC320ADSOCII data manuals. 1998

[3] 易克初,田斌,付強(qiáng).語音信號(hào)處理.北京:國防工業(yè)出版社,2000

[4] 黃海波,蔣偉榮,程登良.通用語音處理系統(tǒng)的DSP實(shí)現(xiàn)[J]微計(jì)算機(jī)信息2006,5:173-175

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉