芝麻開(kāi)門(mén)要成真!全新聲紋識(shí)別技術(shù)你值得擁有
鑒于安全性等方面的需求,聲紋識(shí)別技術(shù)漸漸受到人們的關(guān)注。
在眾多生物識(shí)別技術(shù)中,除了早已使用多年的指紋識(shí)別、虹膜識(shí)別,近期興起的人臉識(shí)別技術(shù)被用于公司打卡、軟件系統(tǒng)登錄、家庭或公共場(chǎng)所的安防等多個(gè)場(chǎng)景,而語(yǔ)音識(shí)別技術(shù)的用途更是廣泛,機(jī)器人、智能家居產(chǎn)品、無(wú)人車(chē)等等。
隨著相關(guān)算法的精進(jìn),以上生物識(shí)別技術(shù)的準(zhǔn)確率已經(jīng)可以與人類(lèi)相媲美。而在這些識(shí)別技術(shù)愈加成熟之時(shí),越來(lái)越多的人將目光放在另外一種生物識(shí)別技術(shù)上——聲紋識(shí)別。
什么是聲紋識(shí)別技術(shù)?
聲紋識(shí)別,也稱作說(shuō)話人識(shí)別,是一種通過(guò)聲音判別說(shuō)話人身份的技術(shù)。人在講話時(shí)使用的發(fā)聲器官舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異,因而聲紋具有唯一性。
根據(jù)不同的應(yīng)用場(chǎng)景,聲紋識(shí)別可分為說(shuō)話人辨識(shí)(SpeakerIdentification,SI)和說(shuō)話人確認(rèn)(SpeakerVerification,SV)。SI指的是我們有了一段待測(cè)的語(yǔ)音,需要將這段語(yǔ)音與我們已知的一個(gè)集合內(nèi)的一干說(shuō)話人進(jìn)行比對(duì),選取最匹配的那個(gè)說(shuō)話人,是一個(gè)1對(duì)多的判別問(wèn)題;SV指的是我們有了一段未知的語(yǔ)音,緊接著判斷這段語(yǔ)音是否來(lái)源于這個(gè)目標(biāo)用戶即可,是一個(gè)1對(duì)1的二分類(lèi)問(wèn)題。
聲紋識(shí)別的應(yīng)用及成果
在應(yīng)用上,聲紋識(shí)別更大的應(yīng)用前景在于安防領(lǐng)域,比如刑偵破案、門(mén)禁、銀行交易等等。此外,在智能家居等領(lǐng)域,為了安全,也為了更好的智能體驗(yàn),比如在人聲鼎沸的情境中準(zhǔn)確識(shí)別哪句話是主人下達(dá)的命令等,聲紋識(shí)別技術(shù)也就漸漸受到了重視。
當(dāng)前,在聲紋識(shí)別需求漸增的情況下,專注于聲紋識(shí)別的企業(yè)也有不少,并已取得了不錯(cuò)的成果。比如國(guó)外的Nuance、VoiceVault、Voice Biometrics、PhoneFactor,或是國(guó)內(nèi)的科大訊飛、中科信利、廈門(mén)天聰、上海電虹等公司。
以科大訊飛為例,此前,在錘子手機(jī)的發(fā)布會(huì)上,羅永浩成功的為科大訊飛做了一次PR,一時(shí)間,科大訊飛的語(yǔ)音識(shí)別技術(shù)受到了人們更多的關(guān)注。作為同屬于語(yǔ)音技術(shù)的“兄弟”,聲紋技術(shù)也是科大訊飛的關(guān)注領(lǐng)域,并已研究多年。在2015年,依托于聲紋識(shí)別、人臉識(shí)別技術(shù),科大訊飛構(gòu)建了業(yè)界首個(gè)統(tǒng)一生物認(rèn)證系統(tǒng),用人臉識(shí)別補(bǔ)充聲紋識(shí)別的不穩(wěn)定性,進(jìn)一步的提高了安全性,并在金融、保險(xiǎn)等領(lǐng)域啟動(dòng)了大規(guī)模的應(yīng)用推廣。
聲紋識(shí)別的優(yōu)勢(shì)與挑戰(zhàn)
聲紋識(shí)別的主要任務(wù)包括:語(yǔ)音信號(hào)處理、聲紋特征提取、聲紋建模、聲紋比對(duì)、判別決策等。
相對(duì)于其他生物識(shí)別技術(shù),在安全性上,聲紋識(shí)別的唯一性不說(shuō)排第一,但也是名列前茅的,縱然模仿聲音類(lèi)似,但也是能夠分辨出來(lái)的。除了更高的安全指數(shù),與其他生物識(shí)別技術(shù)相比,聲紋識(shí)別還有著其他的優(yōu)勢(shì):
1、蘊(yùn)含聲紋特征的語(yǔ)音獲取方便、自然;
2、獲取語(yǔ)音的成本低廉,使用簡(jiǎn)單,像麥克風(fēng)、通訊設(shè)備等皆可;
3、適合遠(yuǎn)程身份確認(rèn);
4、聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;
5、配合一些其他措施,如通過(guò)語(yǔ)音識(shí)別進(jìn)行內(nèi)容鑒別等,可以提高準(zhǔn)確率;
不過(guò),縱然有著這么多的優(yōu)勢(shì),但在實(shí)際操作中,聲紋識(shí)別卻面臨著重大的挑戰(zhàn):
1、如何建立聲紋庫(kù)和特征:從理論上講,聲紋的獲取是極其容易的,但這僅僅是針對(duì)國(guó)家相關(guān)機(jī)構(gòu),如目前聲紋庫(kù)最全的公安。對(duì)企業(yè)而言,所有的聲紋數(shù)據(jù)都需要他們自行采集,這是一件相當(dāng)具有難度的任務(wù)。另外,在數(shù)據(jù)不全面的情形之下,聲紋特征的提取和建立也就受到了阻礙,從而就難以訓(xùn)練聲紋識(shí)別的機(jī)器學(xué)習(xí)算法,以提高識(shí)別的準(zhǔn)確率。
2、如何降低內(nèi)外環(huán)境對(duì)于聲紋的影響:目前,人們對(duì)聲紋識(shí)別的要求已經(jīng)不僅僅滿足于靜態(tài)檢測(cè),更多的是動(dòng)態(tài)檢測(cè)。在外部環(huán)境中,首先,聲音是通過(guò)錄音設(shè)備進(jìn)行采集的,不同的型號(hào)的錄音設(shè)備對(duì)語(yǔ)音都會(huì)造成一定程度上的畸變,同時(shí)由于背景環(huán)境和傳輸信道等的差異,對(duì)語(yǔ)音信息也會(huì)造成不同程度的損傷。這些情況的出現(xiàn)為聲紋識(shí)別增添了不少的問(wèn)題。比如外部環(huán)境的影響,哪怕是如今發(fā)展較為完善、已經(jīng)實(shí)現(xiàn)落地的語(yǔ)音識(shí)別技術(shù),降噪以及去混響方面也依然是其運(yùn)行中的一大難題。
此外,在內(nèi)部環(huán)境中,對(duì)于同一個(gè)用戶,即便采集到的兩段語(yǔ)音內(nèi)容都是相同的,但由于情緒、語(yǔ)速、疲勞程度等原因,語(yǔ)音都會(huì)有一些差異性。在這方面,鎂客君的小伙伴就曾做過(guò)實(shí)驗(yàn),以不同的嗓音、速度喚醒iPhone 7中的Siri,結(jié)果顯示,只有與提前錄制的語(yǔ)音同樣的嗓音、速度才能成功喚醒。