當(dāng)前位置:首頁(yè) > 消費(fèi)電子 > 消費(fèi)電子
[導(dǎo)讀]相對(duì)解碼重建后的語(yǔ)音進(jìn)行說(shuō)話人識(shí)別,從VoIP的語(yǔ)音流中直接提取語(yǔ)音特征參數(shù)進(jìn)行說(shuō)話人識(shí)別方法具有便于實(shí)現(xiàn)的優(yōu)點(diǎn),針對(duì)G.729編碼域數(shù)據(jù),研究基于DTW算法的快速說(shuō)話人識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,在相關(guān)的說(shuō)話人識(shí)別中, DTW算法相比GMM 在識(shí)別正確率和效率上有了很大提高。

說(shuō)話人識(shí)別又被稱為話者識(shí)別,是指通過(guò)對(duì)說(shuō)話人語(yǔ)音信號(hào)的分析處理,自動(dòng)確認(rèn)說(shuō)話人是否在所記錄的話者集合中,以及進(jìn)一步確認(rèn)說(shuō)話人的身份。說(shuō)話人識(shí)別的基本原理如圖1所示。

   按照語(yǔ)音的內(nèi)容,說(shuō)話人識(shí)別可以分為文本無(wú)關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無(wú)關(guān)的識(shí)別系統(tǒng)不規(guī)定說(shuō)話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便。與文本有關(guān)的說(shuō)話人識(shí)別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識(shí)別效果。
 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,通過(guò)Internet網(wǎng)絡(luò)傳遞語(yǔ)音的網(wǎng)絡(luò)電話VoIP(Voice over IP)技術(shù)發(fā)展迅速,已經(jīng)成為人們?nèi)粘=涣鞯闹匾侄危絹?lái)越多的用戶拋棄傳統(tǒng)的通信方式,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)等媒介進(jìn)行語(yǔ)音交流。由于VoIP工作方式的特點(diǎn),語(yǔ)音在傳輸中經(jīng)過(guò)了語(yǔ)音編譯碼處理,VoIP設(shè)備端口同時(shí)要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說(shuō)話人識(shí)別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對(duì)解碼參數(shù)和壓縮碼流進(jìn)行說(shuō)話人識(shí)別。
 現(xiàn)有的針對(duì)編碼域說(shuō)話人識(shí)別方法的研究主要集中在編碼域語(yǔ)音特征參數(shù)的提取上,香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分?jǐn)?shù)補(bǔ)償?shù)姆椒āV袊?guó)科學(xué)技術(shù)大學(xué)主要研究了針對(duì)AMR語(yǔ)音編碼的說(shuō)話人識(shí)別。西北工業(yè)大學(xué)在說(shuō)話人確認(rèn)中針對(duì)不同的語(yǔ)音編碼差異進(jìn)行了補(bǔ)償算法研究,并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說(shuō)話人模型則主要采用在傳統(tǒng)說(shuō)話人識(shí)別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān),在保證識(shí)別率的基礎(chǔ)上,其處理速度無(wú)法滿足VoIP環(huán)境下高速說(shuō)話人識(shí)別的需求。
 本文研究VoIP語(yǔ)音流中G.729編碼域的說(shuō)話人實(shí)時(shí)識(shí)別,將DTW識(shí)別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說(shuō)話人實(shí)時(shí)識(shí)別。
1 G.729編碼比特流中的特征提取
1.1  G.729編碼原理

 ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對(duì)結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)技術(shù)(CS-ACELP),編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時(shí)為15 ms。由于G.729編解碼器具有很高的語(yǔ)音質(zhì)量和很低的延時(shí),被廣泛地應(yīng)用在數(shù)據(jù)通信的各個(gè)領(lǐng)域,如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。
    G.729的編碼過(guò)程如下:輸入8 kHz采樣的數(shù)字語(yǔ)音信號(hào)先經(jīng)過(guò)高通濾波預(yù)處理,每10 ms幀作一次線性預(yù)測(cè)分析,計(jì)算10階線性預(yù)測(cè)濾波器系數(shù),然后把這些系數(shù)轉(zhuǎn)換為線譜對(duì)(LSP)參數(shù),采用兩級(jí)矢量量化技術(shù)進(jìn)行量化。自適應(yīng)碼本搜索時(shí),以原始語(yǔ)音與合成語(yǔ)音的誤差知覺(jué)加權(quán)最小為測(cè)度進(jìn)行搜索。固定碼本采用代數(shù)碼本機(jī)構(gòu)。激勵(lì)參數(shù)(自適應(yīng)碼本和固定碼本參數(shù))每個(gè)子幀(5 ms,40個(gè)樣點(diǎn))確定一次。
1.2 特征參數(shù)提取
    直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說(shuō)話人識(shí)別系統(tǒng)還需要激勵(lì)參數(shù),而在激勵(lì)參數(shù)的計(jì)算過(guò)程中經(jīng)過(guò)了LSP的插值平滑,所以為了使特征矢量中聲道和激勵(lì)參數(shù)能準(zhǔn)確地對(duì)應(yīng)起來(lái),要對(duì)解量化的LSP參數(shù)采用插值平滑。



 本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
 參考文獻(xiàn)[1]發(fā)現(xiàn)識(shí)別特征加入G.729壓縮幀中的語(yǔ)音增益參數(shù),說(shuō)話人識(shí)別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2,結(jié)果發(fā)現(xiàn),當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識(shí)別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
2 動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法
 動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)整技術(shù)。該算法基于動(dòng)態(tài)規(guī)劃思想,解決了發(fā)音長(zhǎng)短不一的模版匹配問(wèn)題。
 算法原理:假設(shè)測(cè)試語(yǔ)音和參考語(yǔ)音分別用R和T表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。具體實(shí)現(xiàn)中,先對(duì)語(yǔ)音進(jìn)行預(yù)處理,再把R和T按相同時(shí)間間隔劃分成幀系列:

   然后采用動(dòng)態(tài)規(guī)劃進(jìn)行識(shí)別。如圖2所示。

   把測(cè)試模版的各個(gè)幀號(hào)n=1,…,N在一個(gè)二維直角坐標(biāo)系的橫軸上標(biāo)出,把參考模版的各幀號(hào)m=1,…,M在縱軸上標(biāo)出,通過(guò)這些表示幀號(hào)的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測(cè)試模版中某一幀與訓(xùn)練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過(guò)此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過(guò)的格點(diǎn)即為測(cè)試和參考模版中距離計(jì)算的幀號(hào)。

 整個(gè)算法主要?dú)w結(jié)為計(jì)算測(cè)試幀和參考幀間的相似度及所選路徑的矢量距離累加。
 識(shí)別流程如圖3所示。

3  實(shí)驗(yàn)結(jié)果與性能分析及結(jié)論
 為測(cè)試上述識(shí)別性能,對(duì)其進(jìn)行了固定文本的說(shuō)話人識(shí)別試驗(yàn)。試驗(yàn)中,采用電話信道863語(yǔ)料庫(kù)30個(gè)說(shuō)話人共300個(gè)錄音文件,文件格式為16 bit線性PCM。為了模擬VoIP中語(yǔ)音壓縮幀,使用G.729聲碼器對(duì)原始語(yǔ)音文件進(jìn)行壓縮。使用每個(gè)說(shuō)話人的一個(gè)文件訓(xùn)練成為模板。測(cè)試語(yǔ)音長(zhǎng)度為10 s~60 s以5 s為間隔的共11個(gè)測(cè)試時(shí)間標(biāo)準(zhǔn)。這樣,模板庫(kù)中有30個(gè)模板,測(cè)試語(yǔ)音有270個(gè),使用微機(jī)配置是:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
 在實(shí)驗(yàn)中,M和N取64,通過(guò)各模版間的匹配,確定了判決門限為0.3時(shí),識(shí)別效果最佳。
 為了對(duì)比DTW算法的識(shí)別性能,采用在傳統(tǒng)說(shuō)話人識(shí)別中廣泛使用的GMM模型作為對(duì)比實(shí)驗(yàn),其中GMM模型使用與DTW算法相同的編碼流特征。
   圖4給出基于DTW識(shí)別方法與GMM模型(混元數(shù)64)識(shí)別G.729編碼方案863語(yǔ)料庫(kù)的文本相關(guān)說(shuō)話人的誤識(shí)率對(duì)比圖。橫坐標(biāo)代表的測(cè)試語(yǔ)音的時(shí)長(zhǎng),縱坐標(biāo)代表識(shí)別誤識(shí)率。由實(shí)驗(yàn)結(jié)果可知在文本相關(guān)的說(shuō)話人識(shí)別中,基于DTW算法的識(shí)別率在絕大多數(shù)情況下高于GMM模型,且隨著測(cè)試語(yǔ)音的增長(zhǎng),優(yōu)勢(shì)更明顯。

 為比較特征提取的時(shí)間性能和總的時(shí)間性能,實(shí)驗(yàn)條件如下:
   (1)選擇的50個(gè)說(shuō)話人的語(yǔ)音只進(jìn)行特征提取,測(cè)試語(yǔ)音長(zhǎng)度總和在25 min左右;
   (2)對(duì)測(cè)試語(yǔ)音分別進(jìn)行解碼識(shí)別和編碼流的識(shí)別,模板數(shù)為10個(gè);
   (3)微機(jī)配置為:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
   表1為特征提取時(shí)間比較結(jié)果,表2為說(shuō)話人識(shí)別時(shí)間比較結(jié)果。

 由實(shí)驗(yàn)結(jié)果可以看出,在編碼比特流中進(jìn)行特征提取時(shí)間和識(shí)別的(上接第121頁(yè))時(shí)間都遠(yuǎn)小于解碼重建后的語(yǔ)音特征提取時(shí)間和識(shí)別時(shí)間,滿足實(shí)時(shí)說(shuō)話人識(shí)別的需要。
    在文本相關(guān)的說(shuō)話人識(shí)別中,對(duì)比使用同樣G.729壓縮碼流特征的GMM模型, DTW方法的識(shí)別率和處理效率均高于GMM模型,能夠?qū)崟r(shí)應(yīng)用于VoIP網(wǎng)絡(luò)監(jiān)管中。
參考文獻(xiàn)
[1]  石如亮.編碼域說(shuō)話人識(shí)別技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2007.
[2]  PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and  bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3]  石如亮,李弼程,張連海,等. 基于編碼比特流的說(shuō)話人識(shí)別[J].信息工程大學(xué)學(xué)報(bào),2007,8(3): 323-326.
[4]  王炳錫,屈丹,彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2004: 264-286.
[5]  李邵梅,劉力雄,陳鴻昶.實(shí)時(shí)說(shuō)話人辨別系統(tǒng)中改進(jìn)的DTW算法[J].計(jì)算機(jī)工程,2008,34(4):218-219.
[6]  DUNN R B, QUATIERI T F, REYNOLDS D A. et al.  Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7]  AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉