聲紋識別未來的研究方向會是往哪里

時間：2020-05-20 08:57:01

關(guān)鍵字：識別技術(shù) VECTOR 信道生物識別

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 走出實驗室的聲紋識別技術(shù)因其廣闊的應用場景和價值，從特定領(lǐng)域到民用領(lǐng)域，在國內(nèi)外正迎來第一波商用化浪潮。而與此同時，關(guān)于聲紋識別技術(shù)研究的成熟度以及安全可靠性，一直是應用領(lǐng)域討論的重點，本文基

走出實驗室的聲紋識別技術(shù)因其廣闊的應用場景和價值，從特定領(lǐng)域到民用領(lǐng)域，在國內(nèi)外正迎來第一波商用化浪潮。而與此同時，關(guān)于聲紋識別技術(shù)研究的成熟度以及安全可靠性，一直是應用領(lǐng)域討論的重點，本文基于時下聲紋識別技術(shù)研究的前沿觀點，總結(jié)出五大發(fā)展趨勢：

1、聲紋識別研究朝著深度學習和端到端方向發(fā)展

語音作為語言的聲音表現(xiàn)形式，不僅包含了語言語義信息，同時也傳達了說話人語種、性別、年齡、情感、信道、嗓音、病理、生理、心理等多種豐富的副語言語音屬性信息。以上這些語言語音屬性識別問題從整體來看，其核心都是針對不定時長文本無關(guān)的句子層面語音信號的有監(jiān)督學習問題，只是要識別的屬性標注有不同。

近年來，聲紋識別的研究趨勢正在快速朝著深度學習和端到端方向發(fā)展，其中最典型的就是基于句子層面的做法。在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計、數(shù)據(jù)增強、損失函數(shù)設(shè)計等方面還有很多工作去做，還有很大的提升空間。

2、提升聲紋識別系統(tǒng)的短時語音情況

在實際應用中，由于對基于語音的訪問控制需求的不斷增長，提升聲紋識別系統(tǒng)在短時語音情況下的性能變得尤為迫切。短時語音中說話人信息不足以及注冊和測試語音的文本內(nèi)容不匹配，對于主流的基于統(tǒng)計建模的聲紋識別系統(tǒng)是一個嚴峻的挑戰(zhàn)。

3、改進現(xiàn)有的深度說話人學習方法

目前采用的深度說話人識別方法首先利用神經(jīng)網(wǎng)絡(luò)提取前端的幀級特征，然后通過池化映射獲得可以表示說話人特性的段級向量，最后采用 LDA/PLDA 等后端建模方法進行度量計算。

相對于傳統(tǒng)的 i-vector 生成過程，基于深度學習的說話人識別方法優(yōu)勢主要體現(xiàn)在區(qū)分性訓練和利用多層網(wǎng)絡(luò)結(jié)構(gòu)對局部多幀聲學特征的有效表示上。如何進一步改進現(xiàn)有的深度說話人學習方法是現(xiàn)階段的一個研究熱點。

4、深度對抗學習在聲紋識別技術(shù)中的應用

生成式對抗網(wǎng)絡(luò) （GAN）的主要目的是用在數(shù)據(jù)生成、降噪、等很多場景里面。它還被用在領(lǐng)域自適應里面，形成一個新的分布。第三個廣泛的應用是生成對抗樣本，這會對分類系統(tǒng)產(chǎn)生大的困擾。很多研究者用對抗樣本攻擊機器學習的系統(tǒng)，在原始數(shù)據(jù)上增加一些擾動，生成樣本，經(jīng)過神經(jīng)網(wǎng)絡(luò)之后就有可能識別成完全不同的結(jié)果。這個思想在圖像處理領(lǐng)域非?；钴S，會造成錯誤識別，引起了自動駕駛，安全等領(lǐng)域的研究人員的廣泛關(guān)注。

在語音領(lǐng)域，GAN 可以用在語音識別、口音自適應上，通過多任務學習和梯度反轉(zhuǎn)層來進行口音或信道的自適應，然后加上其他方法可以得到較好的效果。聲紋識別也存在各種不匹配的問題，在聲紋識別上也可以使用這一思想。同樣的思想也用在了 TTS 語音合成領(lǐng)域，目的是把不同的音素解耦成說話人，風格等，去除噪聲對建模的影響。

5、深度嵌入學習是進行聲紋識別和反欺騙的一個重要途徑

說話人識別和欺騙檢測近年來受到學術(shù)界和業(yè)界的廣泛關(guān)注，人們希望在實際應用中設(shè)計出高性能的系統(tǒng)?；谏疃葘W習的方法在該領(lǐng)域得到了廣泛的應用，在說話人識別和反欺騙方面取得了新的里程碑。然而，在真實復雜的場景下，面對短語音、噪聲的破壞、信道失配、大規(guī)模等困難，開發(fā)一個魯棒的系統(tǒng)仍然是非常困難的。深度嵌入學習是進行說話人識別和反欺騙的一個重要途徑，在這方面已有一些著名的研究成果。如之前的 d-vector 特征和當前普遍使用的 x-vector 特征。

結(jié)語：

目前，指紋識別、人臉識別已經(jīng)被大眾所熟知，但同樣作為生物識別的聲紋識別，還處于技術(shù)挑戰(zhàn)的前沿地帶。據(jù)聲紋識別企業(yè)快商通分析，當下全球生物識別產(chǎn)業(yè)規(guī)模龐大，僅聲紋識別這一細分方向的市場規(guī)模就將近百億美元，預計2020年更是有望超過200億美元（合1346億元人民幣），占整個生物識別市場的22.4%。

以國內(nèi)公共安全領(lǐng)域為例，公安部面向全國推廣聲紋技術(shù)，與指紋庫、DNA庫類似，聲紋庫建設(shè)是一項有著重要實戰(zhàn)價值的工作，具體表現(xiàn)在聲紋特征具有非接觸式采集的優(yōu)點，和已有DNA庫、指紋庫相結(jié)合，可形成立體生物特征庫，建成后直接為多警種服務，是利用高科技手段在偵破案件和訴訟活動中應用的一個新的增長點，將能有效提高公安機關(guān)偵查破案的效率和能力，成為落實科技強警的重要實踐之一。目前，公安部已在聲紋庫建設(shè)方面進行了重點布局，并選擇快商通等通過公安部標準檢測的廠商作為聲紋采集設(shè)備提供方，力求雙發(fā)共同完成這項專業(yè)技術(shù)性強、應用領(lǐng)域廣、建設(shè)難度大的系統(tǒng)工程。

來源：安防知識網(wǎng)