基于DTW的編碼域說(shuō)話人識(shí)別研究
說(shuō)話人識(shí)別又被稱為話者識(shí)別,是指通過(guò)對(duì)說(shuō)話人語(yǔ)音信號(hào)的分析處理,自動(dòng)確認(rèn)說(shuō)話人是否在所記錄的話者集合中,以及進(jìn)一步確認(rèn)說(shuō)話人的身份。說(shuō)話人識(shí)別的基本原理如圖1所示。
按照語(yǔ)音的內(nèi)容,說(shuō)話人識(shí)別可以分為文本無(wú)關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無(wú)關(guān)的識(shí)別系統(tǒng)不規(guī)定說(shuō)話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便。與文本有關(guān)的說(shuō)話人識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,通過(guò)Internet網(wǎng)絡(luò)傳遞語(yǔ)音的網(wǎng)絡(luò)電話VoIP(Voice over IP)技術(shù)發(fā)展迅速,已經(jīng)成為人們?nèi)粘=涣鞯闹匾侄危絹?lái)越多的用戶拋棄傳統(tǒng)的通信方式,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)等媒介進(jìn)行語(yǔ)音交流。由于VoIP工作方式的特點(diǎn),語(yǔ)音在傳輸中經(jīng)過(guò)了語(yǔ)音編譯碼處理,VoIP設(shè)備端口同時(shí)要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說(shuō)話人識(shí)別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對(duì)解碼參數(shù)和壓縮碼流進(jìn)行說(shuō)話人識(shí)別。
現(xiàn)有的針對(duì)編碼域說(shuō)話人識(shí)別方法的研究主要集中在編碼域語(yǔ)音特征參數(shù)的提取上,香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分?jǐn)?shù)補(bǔ)償?shù)姆椒āV袊?guó)科學(xué)技術(shù)大學(xué)主要研究了針對(duì)AMR語(yǔ)音編碼的說(shuō)話人識(shí)別。西北工業(yè)大學(xué)在說(shuō)話人確認(rèn)中針對(duì)不同的語(yǔ)音編碼差異進(jìn)行了補(bǔ)償算法研究,并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說(shuō)話人模型則主要采用在傳統(tǒng)說(shuō)話人識(shí)別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān),在保證識(shí)別率的基礎(chǔ)上,其處理速度無(wú)法滿足VoIP環(huán)境下高速說(shuō)話人識(shí)別的需求。
本文研究VoIP語(yǔ)音流中G.729編碼域的說(shuō)話人實(shí)時(shí)識(shí)別,將DTW識(shí)別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說(shuō)話人實(shí)時(shí)識(shí)別。
1 G.729編碼比特流中的特征提取
1.1 G.729編碼原理
ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對(duì)結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)技術(shù)(CS-ACELP),編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729編解碼器具有很高的語(yǔ)音質(zhì)量和很低的延時(shí),被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域,如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。
G.729的編碼過(guò)程如下:輸入8 kHz采樣的數(shù)字語(yǔ)音信號(hào)先經(jīng)過(guò)高通濾波預(yù)處理,每10 ms幀作一次線性預(yù)測(cè)分析,計(jì)算10階線性預(yù)測(cè)濾波器系數(shù),然后把這些系數(shù)轉(zhuǎn)換為線譜對(duì)(LSP)參數(shù),采用兩級(jí)矢量量化技術(shù)進(jìn)行量化。自適應(yīng)碼本搜索時(shí),以原始語(yǔ)音與合成語(yǔ)音的誤差知覺(jué)加權(quán)最小為測(cè)度進(jìn)行搜索。固定碼本采用代數(shù)碼本機(jī)構(gòu)。激勵(lì)參數(shù)(自適應(yīng)碼本和固定碼本參數(shù))每個(gè)子幀(5 ms,40個(gè)樣點(diǎn))確定一次。
1.2 特征參數(shù)提取
直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說(shuō)話人識(shí)別系統(tǒng)還需要激勵(lì)參數(shù),而在激勵(lì)參數(shù)的計(jì)算過(guò)程中經(jīng)過(guò)了LSP的插值平滑,所以為了使特征矢量中聲道和激勵(lì)參數(shù)能準(zhǔn)確地對(duì)應(yīng)起來(lái),要對(duì)解量化的LSP參數(shù)采用插值平滑。
本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
參考文獻(xiàn)[1]發(fā)現(xiàn)識(shí)別特征加入G.729壓縮幀中的語(yǔ)音增益參數(shù),說(shuō)話人識(shí)別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2,結(jié)果發(fā)現(xiàn),當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識(shí)別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
2 動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法
動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)整技術(shù)。該算法基于動(dòng)態(tài)規(guī)劃思想,解決了發(fā)音長(zhǎng)短不一的模版匹配問(wèn)題。
算法原理:假設(shè)測(cè)試語(yǔ)音和參考語(yǔ)音分別用R和T表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。具體實(shí)現(xiàn)中,先對(duì)語(yǔ)音進(jìn)行預(yù)處理,再把R和T按相同時(shí)間間隔劃分成幀系列:
然后采用動(dòng)態(tài)規(guī)劃進(jìn)行識(shí)別。如圖2所示。
把測(cè)試模版的各個(gè)幀號(hào)n=1,…,N在一個(gè)二維直角坐標(biāo)系的橫軸上標(biāo)出,把參考模版的各幀號(hào)m=1,…,M在縱軸上標(biāo)出,通過(guò)這些表示幀號(hào)的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測(cè)試模版中某一幀與訓(xùn)練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過(guò)此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過(guò)的格點(diǎn)即為測(cè)試和參考模版中距離計(jì)算的幀號(hào)。
整個(gè)算法主要?dú)w結(jié)為計(jì)算測(cè)試幀和參考幀間的相似度及所選路徑的矢量距離累加。
識(shí)別流程如圖3所示。
3 實(shí)驗(yàn)結(jié)果與性能分析及結(jié)論
為測(cè)試上述識(shí)別性能,對(duì)其進(jìn)行了固定文本的說(shuō)話人識(shí)別試驗(yàn)。試驗(yàn)中,采用電話信道863語(yǔ)料庫(kù)30個(gè)說(shuō)話人共300個(gè)錄音文件,文件格式為16 bit線性PCM。為了模擬VoIP中語(yǔ)音壓縮幀,使用G.729聲碼器對(duì)原始語(yǔ)音文件進(jìn)行壓縮。使用每個(gè)說(shuō)話人的一個(gè)文件訓(xùn)練成為模板。測(cè)試語(yǔ)音長(zhǎng)度為10 s~60 s以5 s為間隔的共11個(gè)測(cè)試時(shí)間標(biāo)準(zhǔn)。這樣,模板庫(kù)中有30個(gè)模板,測(cè)試語(yǔ)音有270個(gè),使用微機(jī)配置是:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
在實(shí)驗(yàn)中,M和N取64,通過(guò)各模版間的匹配,確定了判決門限為0.3時(shí),識(shí)別效果最佳。
為了對(duì)比DTW算法的識(shí)別性能,采用在傳統(tǒng)說(shuō)話人識(shí)別中廣泛使用的GMM模型作為對(duì)比實(shí)驗(yàn),其中GMM模型使用與DTW算法相同的編碼流特征。
圖4給出基于DTW識(shí)別方法與GMM模型(混元數(shù)64)識(shí)別G.729編碼方案863語(yǔ)料庫(kù)的文本相關(guān)說(shuō)話人的誤識(shí)率對(duì)比圖。橫坐標(biāo)代表的測(cè)試語(yǔ)音的時(shí)長(zhǎng),縱坐標(biāo)代表識(shí)別誤識(shí)率。由實(shí)驗(yàn)結(jié)果可知在文本相關(guān)的說(shuō)話人識(shí)別中,基于DTW算法的識(shí)別率在絕大多數(shù)情況下高于GMM模型,且隨著測(cè)試語(yǔ)音的增長(zhǎng),優(yōu)勢(shì)更明顯。
為比較特征提取的時(shí)間性能和總的時(shí)間性能,實(shí)驗(yàn)條件如下:
(1)選擇的50個(gè)說(shuō)話人的語(yǔ)音只進(jìn)行特征提取,測(cè)試語(yǔ)音長(zhǎng)度總和在25 min左右;
(2)對(duì)測(cè)試語(yǔ)音分別進(jìn)行解碼識(shí)別和編碼流的識(shí)別,模板數(shù)為10個(gè);
(3)微機(jī)配置為:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
表1為特征提取時(shí)間比較結(jié)果,表2為說(shuō)話人識(shí)別時(shí)間比較結(jié)果。
由實(shí)驗(yàn)結(jié)果可以看出,在編碼比特流中進(jìn)行特征提取時(shí)間和識(shí)別的(上接第121頁(yè))時(shí)間都遠(yuǎn)小于解碼重建后的語(yǔ)音特征提取時(shí)間和識(shí)別時(shí)間,滿足實(shí)時(shí)說(shuō)話人識(shí)別的需要。
在文本相關(guān)的說(shuō)話人識(shí)別中,對(duì)比使用同樣G.729壓縮碼流特征的GMM模型, DTW方法的識(shí)別率和處理效率均高于GMM模型,能夠?qū)崟r(shí)應(yīng)用于VoIP網(wǎng)絡(luò)監(jiān)管中。
參考文獻(xiàn)
[1] 石如亮.編碼域說(shuō)話人識(shí)別技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2007.
[2] PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3] 石如亮,李弼程,張連海,等. 基于編碼比特流的說(shuō)話人識(shí)別[J].信息工程大學(xué)學(xué)報(bào),2007,8(3): 323-326.
[4] 王炳錫,屈丹,彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2004: 264-286.
[5] 李邵梅,劉力雄,陳鴻昶.實(shí)時(shí)說(shuō)話人辨別系統(tǒng)中改進(jìn)的DTW算法[J].計(jì)算機(jī)工程,2008,34(4):218-219.
[6] DUNN R B, QUATIERI T F, REYNOLDS D A. et al. Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7] AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.