當(dāng)前位置:首頁 > 消費(fèi)電子 > 觸控感測
[導(dǎo)讀] 走出實(shí)驗(yàn)室的聲紋識別技術(shù)因其廣闊的應(yīng)用場景和價值,從特定領(lǐng)域到民用領(lǐng)域,在國內(nèi)外正迎來第一波商用化浪潮。 而與此同時,關(guān)于聲紋識別技術(shù)研究的成熟度以及安全可靠性,一直是應(yīng)用領(lǐng)域討論的重點(diǎn),本文基

走出實(shí)驗(yàn)室的聲紋識別技術(shù)因其廣闊的應(yīng)用場景和價值,從特定領(lǐng)域到民用領(lǐng)域,在國內(nèi)外正迎來第一波商用化浪潮。 而與此同時,關(guān)于聲紋識別技術(shù)研究的成熟度以及安全可靠性,一直是應(yīng)用領(lǐng)域討論的重點(diǎn),本文基于時下聲紋識別技術(shù)研究的前沿觀點(diǎn),總結(jié)出五大發(fā)展趨勢:

1、 聲紋識別研究朝著深度學(xué)習(xí)和端到端方向發(fā)展

語音作為語言的聲音表現(xiàn)形式,不僅包含了語言語義信息,同時也傳達(dá)了說話人語種、性別、年齡、情感、信道、嗓音、病理、生理、心理等多種豐富的副語言語音屬性信息。以上這些語言語音屬性識別問題從整體來看,其核心都是針對不定時長文本無關(guān)的句子層面語音信號的有監(jiān)督學(xué)習(xí)問題,只是要識別的屬性標(biāo)注有不同。

近年來,聲紋識別的研究趨勢正在快速朝著深度學(xué)習(xí)和端到端方向發(fā)展,其中最典型的就是基于句子層面的做法。在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)增強(qiáng)、損失函數(shù)設(shè)計(jì)等方面還有很多工作去做,還有很大的提升空間。

2、 提升聲紋識別系統(tǒng)的短時語音情況

在實(shí)際應(yīng)用中,由于對基于語音的訪問控制需求的不斷增長,提升聲紋識別系統(tǒng)在短時語音情況下的性能變得尤為迫切。短時語音中說話人信息不足以及注冊和測試語音的文本內(nèi)容不匹配,對于主流的基于統(tǒng)計(jì)建模的聲紋識別系統(tǒng)是一個嚴(yán)峻的挑戰(zhàn)。

3、 改進(jìn)現(xiàn)有的深度說話人學(xué)習(xí)方法

目前采用的深度說話人識別方法首先利用神經(jīng)網(wǎng)絡(luò)提取前端的幀級特征,然后通過池化映射獲得可以表示說話人特性的段級向量,最后采用 LDA/PLDA 等后端建模方法進(jìn)行度量計(jì)算。

相對于傳統(tǒng)的 i-vector 生成過程,基于深度學(xué)習(xí)的說話人識別方法優(yōu)勢主要體現(xiàn)在區(qū)分性訓(xùn)練和利用多層網(wǎng)絡(luò)結(jié)構(gòu)對局部多幀聲學(xué)特征的有效表示上。如何進(jìn)一步改進(jìn)現(xiàn)有的深度說話人學(xué)習(xí)方法是現(xiàn)階段的一個研究熱點(diǎn)。

4、 深度對抗學(xué)習(xí)在聲紋識別技術(shù)中的應(yīng)用

生成式對抗網(wǎng)絡(luò) (GAN) 的主要目的是用在數(shù)據(jù)生成、降噪、等很多場景里面。它還被用在領(lǐng)域自適應(yīng)里面,形成一個新的分布。第三個廣泛的應(yīng)用是生成對抗樣本,這會對分類系統(tǒng)產(chǎn)生大的困擾。很多研究者用對抗樣本攻擊機(jī)器學(xué)習(xí)的系統(tǒng),在原始數(shù)據(jù)上增加一些擾動,生成樣本,經(jīng)過神經(jīng)網(wǎng)絡(luò)之后就有可能識別成完全不同的結(jié)果。這個思想在圖像處理領(lǐng)域非?;钴S,會造成錯誤識別,引起了自動駕駛,安全等領(lǐng)域的研究人員的廣泛關(guān)注。

在語音領(lǐng)域,GAN 可以用在語音識別、口音自適應(yīng)上,通過多任務(wù)學(xué)習(xí)和梯度反轉(zhuǎn)層來進(jìn)行口音或信道的自適應(yīng),然后加上其他方法可以得到較好的效果。聲紋識別也存在各種不匹配的問題,在聲紋識別上也可以使用這一思想。同樣的思想也用在了 TTS 語音合成領(lǐng)域,目的是把不同的音素解耦成說話人,風(fēng)格等,去除噪聲對建模的影響。

5、 深度嵌入學(xué)習(xí)是進(jìn)行聲紋識別和反欺騙的一個重要途徑

說話人識別和欺騙檢測近年來受到學(xué)術(shù)界和業(yè)界的廣泛關(guān)注,人們希望在實(shí)際應(yīng)用中設(shè)計(jì)出高性能的系統(tǒng)?;谏疃葘W(xué)習(xí)的方法在該領(lǐng)域得到了廣泛的應(yīng)用,在說話人識別和反欺騙方面取得了新的里程碑。然而,在真實(shí)復(fù)雜的場景下,面對短語音、噪聲的破壞、信道失配、大規(guī)模等困難,開發(fā)一個魯棒的系統(tǒng)仍然是非常困難的。深度嵌入學(xué)習(xí)是進(jìn)行說話人識別和反欺騙的一個重要途徑,在這方面已有一些著名的研究成果。如之前的 d-vector 特征和當(dāng)前普遍使用的 x-vector 特征。

結(jié)語:

目前,指紋識別、人臉識別已經(jīng)被大眾所熟知,但同樣作為生物識別的聲紋識別,還處于技術(shù)挑戰(zhàn)的前沿地帶。據(jù)聲紋識別企業(yè)快商通分析,當(dāng)下全球生物識別產(chǎn)業(yè)規(guī)模龐大,僅聲紋識別這一細(xì)分方向的市場規(guī)模就將近百億美元,預(yù)計(jì)2020年更是有望超過200億美元(合1346億元人民幣),占整個生物識別市場的22.4%。

以國內(nèi)公共安全領(lǐng)域?yàn)槔?,公安部面向全國推廣聲紋技術(shù),與指紋庫、DNA庫類似,聲紋庫建設(shè)是一項(xiàng)有著重要實(shí)戰(zhàn)價值的工作,具體表現(xiàn)在聲紋特征具有非接觸式采集的優(yōu)點(diǎn),和已有DNA庫、指紋庫相結(jié)合,可形成立體生物特征庫,建成后直接為多警種服務(wù),是利用高科技手段在偵破案件和訴訟活動中應(yīng)用的一個新的增長點(diǎn),將能有效提高公安機(jī)關(guān)偵查破案的效率和能力,成為落實(shí)科技強(qiáng)警的重要實(shí)踐之一。目前,公安部已在聲紋庫建設(shè)方面進(jìn)行了重點(diǎn)布局,并選擇快商通等通過公安部標(biāo)準(zhǔn)檢測的廠商作為聲紋采集設(shè)備提供方,力求雙發(fā)共同完成這項(xiàng)專業(yè)技術(shù)性強(qiáng)、應(yīng)用領(lǐng)域廣、建設(shè)難度大的系統(tǒng)工程。

來源:安防知識網(wǎng)

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉