基于DTW的編碼域說(shuō)話人識(shí)別研究

時(shí)間：2010-10-14 07:33:32

關(guān)鍵字：編碼 BSP 模型 SPEAKER

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]相對(duì)解碼重建后的語(yǔ)音進(jìn)行說(shuō)話人識(shí)別，從VoIP的語(yǔ)音流中直接提取語(yǔ)音特征參數(shù)進(jìn)行說(shuō)話人識(shí)別方法具有便于實(shí)現(xiàn)的優(yōu)點(diǎn)，針對(duì)G.729編碼域數(shù)據(jù)，研究基于DTW算法的快速說(shuō)話人識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,在相關(guān)的說(shuō)話人識(shí)別中， DTW算法相比GMM 在識(shí)別正確率和效率上有了很大提高。

說(shuō)話人識(shí)別又被稱為話者識(shí)別，是指通過(guò)對(duì)說(shuō)話人語(yǔ)音信號(hào)的分析處理，自動(dòng)確認(rèn)說(shuō)話人是否在所記錄的話者集合中，以及進(jìn)一步確認(rèn)說(shuō)話人的身份。說(shuō)話人識(shí)別的基本原理如圖1所示。

   按照語(yǔ)音的內(nèi)容，說(shuō)話人識(shí)別可以分為文本無(wú)關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無(wú)關(guān)的識(shí)別系統(tǒng)不規(guī)定說(shuō)話人的發(fā)音內(nèi)容，模型建立相對(duì)困難，但用戶使用方便。與文本有關(guān)的說(shuō)話人識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音，而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音，因此可以達(dá)到較好的識(shí)別效果。
　隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，通過(guò)Internet網(wǎng)絡(luò)傳遞語(yǔ)音的網(wǎng)絡(luò)電話VoIP(Voice over IP)技術(shù)發(fā)展迅速，已經(jīng)成為人們?nèi)粘＝涣鞯闹匾侄危絹?lái)越多的用戶拋棄傳統(tǒng)的通信方式，通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)等媒介進(jìn)行語(yǔ)音交流。由于VoIP工作方式的特點(diǎn)，語(yǔ)音在傳輸中經(jīng)過(guò)了語(yǔ)音編譯碼處理，VoIP設(shè)備端口同時(shí)要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說(shuō)話人識(shí)別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對(duì)解碼參數(shù)和壓縮碼流進(jìn)行說(shuō)話人識(shí)別。
　現(xiàn)有的針對(duì)編碼域說(shuō)話人識(shí)別方法的研究主要集中在編碼域語(yǔ)音特征參數(shù)的提取上，香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息，并采用了分?jǐn)?shù)補(bǔ)償?shù)姆椒āＶ袊?guó)科學(xué)技術(shù)大學(xué)主要研究了針對(duì)AMR語(yǔ)音編碼的說(shuō)話人識(shí)別。西北工業(yè)大學(xué)在說(shuō)話人確認(rèn)中針對(duì)不同的語(yǔ)音編碼差異進(jìn)行了補(bǔ)償算法研究，并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說(shuō)話人模型則主要采用在傳統(tǒng)說(shuō)話人識(shí)別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān)，在保證識(shí)別率的基礎(chǔ)上，其處理速度無(wú)法滿足VoIP環(huán)境下高速說(shuō)話人識(shí)別的需求。
　本文研究VoIP語(yǔ)音流中G.729編碼域的說(shuō)話人實(shí)時(shí)識(shí)別,將DTW識(shí)別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說(shuō)話人實(shí)時(shí)識(shí)別。
1 G.729編碼比特流中的特征提取
1.1 G.729編碼原理
　ITU－T在1996年3月公布G.729編碼，其編碼速率為8 kb/s，采用了對(duì)結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)技術(shù)(CS-ACELP)，編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729編解碼器具有很高的語(yǔ)音質(zhì)量和很低的延時(shí)，被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域，如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。
    G.729的編碼過(guò)程如下：輸入8 kHz采樣的數(shù)字語(yǔ)音信號(hào)先經(jīng)過(guò)高通濾波預(yù)處理,每10 ms幀作一次線性預(yù)測(cè)分析，計(jì)算10階線性預(yù)測(cè)濾波器系數(shù)，然后把這些系數(shù)轉(zhuǎn)換為線譜對(duì)（LSP）參數(shù)，采用兩級(jí)矢量量化技術(shù)進(jìn)行量化。自適應(yīng)碼本搜索時(shí)，以原始語(yǔ)音與合成語(yǔ)音的誤差知覺(jué)加權(quán)最小為測(cè)度進(jìn)行搜索。固定碼本采用代數(shù)碼本機(jī)構(gòu)。激勵(lì)參數(shù)（自適應(yīng)碼本和固定碼本參數(shù)）每個(gè)子幀（5 ms，40個(gè)樣點(diǎn)）確定一次。
1.2 特征參數(shù)提取
    直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說(shuō)話人識(shí)別系統(tǒng)還需要激勵(lì)參數(shù)，而在激勵(lì)參數(shù)的計(jì)算過(guò)程中經(jīng)過(guò)了LSP的插值平滑，所以為了使特征矢量中聲道和激勵(lì)參數(shù)能準(zhǔn)確地對(duì)應(yīng)起來(lái)，要對(duì)解量化的LSP參數(shù)采用插值平滑。

　本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
　參考文獻(xiàn)[1]發(fā)現(xiàn)識(shí)別特征加入G.729壓縮幀中的語(yǔ)音增益參數(shù)，說(shuō)話人識(shí)別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2，結(jié)果發(fā)現(xiàn)，當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2)，識(shí)別性能得到了提高，所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2)，共7維。
2 動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法
　動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)整技術(shù)。該算法基于動(dòng)態(tài)規(guī)劃思想，解決了發(fā)音長(zhǎng)短不一的模版匹配問(wèn)題。
　算法原理：假設(shè)測(cè)試語(yǔ)音和參考語(yǔ)音分別用R和T表示，為了比較它們之間的相似度，可以計(jì)算它們之間的距離D[T，R]，距離越小則相似度越高。具體實(shí)現(xiàn)中，先對(duì)語(yǔ)音進(jìn)行預(yù)處理，再把R和T按相同時(shí)間間隔劃分成幀系列：

   然后采用動(dòng)態(tài)規(guī)劃進(jìn)行識(shí)別。如圖2所示。

把測(cè)試模版的各個(gè)幀號(hào)n＝1,…,N在一個(gè)二維直角坐標(biāo)系的橫軸上標(biāo)出，把參考模版的各幀號(hào)m＝1,…,M在縱軸上標(biāo)出，通過(guò)這些表示幀號(hào)的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個(gè)網(wǎng)格，網(wǎng)格中的每一個(gè)交叉點(diǎn)(n，m)表示測(cè)試模版中某一幀與訓(xùn)練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過(guò)此網(wǎng)格中若干格點(diǎn)的路徑，路徑通過(guò)的格點(diǎn)即為測(cè)試和參考模版中距離計(jì)算的幀號(hào)。

　整個(gè)算法主要?dú)w結(jié)為計(jì)算測(cè)試幀和參考幀間的相似度及所選路徑的矢量距離累加。
　識(shí)別流程如圖3所示。

3 實(shí)驗(yàn)結(jié)果與性能分析及結(jié)論
　為測(cè)試上述識(shí)別性能，對(duì)其進(jìn)行了固定文本的說(shuō)話人識(shí)別試驗(yàn)。試驗(yàn)中，采用電話信道863語(yǔ)料庫(kù)30個(gè)說(shuō)話人共300個(gè)錄音文件,文件格式為16 bit線性PCM。為了模擬VoIP中語(yǔ)音壓縮幀，使用G.729聲碼器對(duì)原始語(yǔ)音文件進(jìn)行壓縮。使用每個(gè)說(shuō)話人的一個(gè)文件訓(xùn)練成為模板。測(cè)試語(yǔ)音長(zhǎng)度為10 s～60 s以5 s為間隔的共11個(gè)測(cè)試時(shí)間標(biāo)準(zhǔn)。這樣，模板庫(kù)中有30個(gè)模板，測(cè)試語(yǔ)音有270個(gè)，使用微機(jī)配置是：CPU Pentium 2.0 GHz，內(nèi)存512 MB。
　在實(shí)驗(yàn)中，M和N取64，通過(guò)各模版間的匹配，確定了判決門限為0.3時(shí)，識(shí)別效果最佳。
　為了對(duì)比DTW算法的識(shí)別性能，采用在傳統(tǒng)說(shuō)話人識(shí)別中廣泛使用的GMM模型作為對(duì)比實(shí)驗(yàn)，其中GMM模型使用與DTW算法相同的編碼流特征。
圖4給出基于DTW識(shí)別方法與GMM模型(混元數(shù)64)識(shí)別G.729編碼方案863語(yǔ)料庫(kù)的文本相關(guān)說(shuō)話人的誤識(shí)率對(duì)比圖。橫坐標(biāo)代表的測(cè)試語(yǔ)音的時(shí)長(zhǎng)，縱坐標(biāo)代表識(shí)別誤識(shí)率。由實(shí)驗(yàn)結(jié)果可知在文本相關(guān)的說(shuō)話人識(shí)別中，基于DTW算法的識(shí)別率在絕大多數(shù)情況下高于GMM模型，且隨著測(cè)試語(yǔ)音的增長(zhǎng)，優(yōu)勢(shì)更明顯。

　為比較特征提取的時(shí)間性能和總的時(shí)間性能，實(shí)驗(yàn)條件如下：
   (1)選擇的50個(gè)說(shuō)話人的語(yǔ)音只進(jìn)行特征提取，測(cè)試語(yǔ)音長(zhǎng)度總和在25 min左右；
   (2)對(duì)測(cè)試語(yǔ)音分別進(jìn)行解碼識(shí)別和編碼流的識(shí)別，模板數(shù)為10個(gè)；
   (3)微機(jī)配置為：CPU Pentium 2.0 GHz,內(nèi)存512 MB。
   表1為特征提取時(shí)間比較結(jié)果，表2為說(shuō)話人識(shí)別時(shí)間比較結(jié)果。

　由實(shí)驗(yàn)結(jié)果可以看出，在編碼比特流中進(jìn)行特征提取時(shí)間和識(shí)別的(上接第121頁(yè))時(shí)間都遠(yuǎn)小于解碼重建后的語(yǔ)音特征提取時(shí)間和識(shí)別時(shí)間，滿足實(shí)時(shí)說(shuō)話人識(shí)別的需要。
在文本相關(guān)的說(shuō)話人識(shí)別中，對(duì)比使用同樣G.729壓縮碼流特征的GMM模型， DTW方法的識(shí)別率和處理效率均高于GMM模型，能夠?qū)崟r(shí)應(yīng)用于VoIP網(wǎng)絡(luò)監(jiān)管中。
參考文獻(xiàn)
[1] 石如亮.編碼域說(shuō)話人識(shí)別技術(shù)研究[D].鄭州：解放軍信息工程大學(xué)，2007.
[2] PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3] 石如亮，李弼程，張連海，等. 基于編碼比特流的說(shuō)話人識(shí)別[J].信息工程大學(xué)學(xué)報(bào)，2007，8(3): 323-326.
[4] 王炳錫，屈丹，彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京：國(guó)防工業(yè)出版社，2004: 264-286.
[5] 李邵梅，劉力雄，陳鴻昶.實(shí)時(shí)說(shuō)話人辨別系統(tǒng)中改進(jìn)的DTW算法[J].計(jì)算機(jī)工程，2008，34(4):218-219.
[6] DUNN R B, QUATIERI T F, REYNOLDS D A. et al. Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7] AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.