芝麻開(kāi)門(mén)要成真！全新聲紋識(shí)別技術(shù)你值得擁有

時(shí)間：2016-12-05 12:46:41

關(guān)鍵字：聲紋識(shí)別新鮮事智能家居門(mén)禁

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]鑒于安全性等方面的需求，聲紋識(shí)別技術(shù)漸漸受到人們的關(guān)注。在眾多生物識(shí)別技術(shù)中，除了早已使用多年的指紋識(shí)別、虹膜識(shí)別，近期興起的人臉識(shí)別技術(shù)被用于公司打卡、軟件系統(tǒng)登錄、家庭或公共場(chǎng)所的安防等多個(gè)場(chǎng)景，

鑒于安全性等方面的需求，聲紋識(shí)別技術(shù)漸漸受到人們的關(guān)注。

在眾多生物識(shí)別技術(shù)中，除了早已使用多年的指紋識(shí)別、虹膜識(shí)別，近期興起的人臉識(shí)別技術(shù)被用于公司打卡、軟件系統(tǒng)登錄、家庭或公共場(chǎng)所的安防等多個(gè)場(chǎng)景，而語(yǔ)音識(shí)別技術(shù)的用途更是廣泛，機(jī)器人、智能家居產(chǎn)品、無(wú)人車(chē)等等。

隨著相關(guān)算法的精進(jìn)，以上生物識(shí)別技術(shù)的準(zhǔn)確率已經(jīng)可以與人類(lèi)相媲美。而在這些識(shí)別技術(shù)愈加成熟之時(shí)，越來(lái)越多的人將目光放在另外一種生物識(shí)別技術(shù)上——聲紋識(shí)別。

什么是聲紋識(shí)別技術(shù)?

聲紋識(shí)別，也稱作說(shuō)話人識(shí)別，是一種通過(guò)聲音判別說(shuō)話人身份的技術(shù)。人在講話時(shí)使用的發(fā)聲器官舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大，所以任何兩個(gè)人的聲紋圖譜都有差異，因而聲紋具有唯一性。

根據(jù)不同的應(yīng)用場(chǎng)景，聲紋識(shí)別可分為說(shuō)話人辨識(shí)(SpeakerIdentification，SI)和說(shuō)話人確認(rèn)(SpeakerVerification，SV)。SI指的是我們有了一段待測(cè)的語(yǔ)音，需要將這段語(yǔ)音與我們已知的一個(gè)集合內(nèi)的一干說(shuō)話人進(jìn)行比對(duì)，選取最匹配的那個(gè)說(shuō)話人，是一個(gè)1對(duì)多的判別問(wèn)題;SV指的是我們有了一段未知的語(yǔ)音，緊接著判斷這段語(yǔ)音是否來(lái)源于這個(gè)目標(biāo)用戶即可，是一個(gè)1對(duì)1的二分類(lèi)問(wèn)題。

聲紋識(shí)別的應(yīng)用及成果

在應(yīng)用上，聲紋識(shí)別更大的應(yīng)用前景在于安防領(lǐng)域，比如刑偵破案、門(mén)禁、銀行交易等等。此外，在智能家居等領(lǐng)域，為了安全，也為了更好的智能體驗(yàn)，比如在人聲鼎沸的情境中準(zhǔn)確識(shí)別哪句話是主人下達(dá)的命令等，聲紋識(shí)別技術(shù)也就漸漸受到了重視。

當(dāng)前，在聲紋識(shí)別需求漸增的情況下，專注于聲紋識(shí)別的企業(yè)也有不少，并已取得了不錯(cuò)的成果。比如國(guó)外的Nuance、VoiceVault、Voice Biometrics、PhoneFactor，或是國(guó)內(nèi)的科大訊飛、中科信利、廈門(mén)天聰、上海電虹等公司。

以科大訊飛為例，此前，在錘子手機(jī)的發(fā)布會(huì)上，羅永浩成功的為科大訊飛做了一次PR，一時(shí)間，科大訊飛的語(yǔ)音識(shí)別技術(shù)受到了人們更多的關(guān)注。作為同屬于語(yǔ)音技術(shù)的“兄弟”，聲紋技術(shù)也是科大訊飛的關(guān)注領(lǐng)域，并已研究多年。在2015年，依托于聲紋識(shí)別、人臉識(shí)別技術(shù)，科大訊飛構(gòu)建了業(yè)界首個(gè)統(tǒng)一生物認(rèn)證系統(tǒng)，用人臉識(shí)別補(bǔ)充聲紋識(shí)別的不穩(wěn)定性，進(jìn)一步的提高了安全性，并在金融、保險(xiǎn)等領(lǐng)域啟動(dòng)了大規(guī)模的應(yīng)用推廣。

聲紋識(shí)別的優(yōu)勢(shì)與挑戰(zhàn)

聲紋識(shí)別的主要任務(wù)包括：語(yǔ)音信號(hào)處理、聲紋特征提取、聲紋建模、聲紋比對(duì)、判別決策等。

相對(duì)于其他生物識(shí)別技術(shù)，在安全性上，聲紋識(shí)別的唯一性不說(shuō)排第一，但也是名列前茅的，縱然模仿聲音類(lèi)似，但也是能夠分辨出來(lái)的。除了更高的安全指數(shù)，與其他生物識(shí)別技術(shù)相比，聲紋識(shí)別還有著其他的優(yōu)勢(shì)：

1、蘊(yùn)含聲紋特征的語(yǔ)音獲取方便、自然;

2、獲取語(yǔ)音的成本低廉，使用簡(jiǎn)單，像麥克風(fēng)、通訊設(shè)備等皆可;

3、適合遠(yuǎn)程身份確認(rèn);

4、聲紋辨認(rèn)和確認(rèn)的算法復(fù)雜度低;

5、配合一些其他措施，如通過(guò)語(yǔ)音識(shí)別進(jìn)行內(nèi)容鑒別等，可以提高準(zhǔn)確率;

不過(guò)，縱然有著這么多的優(yōu)勢(shì)，但在實(shí)際操作中，聲紋識(shí)別卻面臨著重大的挑戰(zhàn)：

1、如何建立聲紋庫(kù)和特征：從理論上講，聲紋的獲取是極其容易的，但這僅僅是針對(duì)國(guó)家相關(guān)機(jī)構(gòu)，如目前聲紋庫(kù)最全的公安。對(duì)企業(yè)而言，所有的聲紋數(shù)據(jù)都需要他們自行采集，這是一件相當(dāng)具有難度的任務(wù)。另外，在數(shù)據(jù)不全面的情形之下，聲紋特征的提取和建立也就受到了阻礙，從而就難以訓(xùn)練聲紋識(shí)別的機(jī)器學(xué)習(xí)算法，以提高識(shí)別的準(zhǔn)確率。

2、如何降低內(nèi)外環(huán)境對(duì)于聲紋的影響：目前，人們對(duì)聲紋識(shí)別的要求已經(jīng)不僅僅滿足于靜態(tài)檢測(cè)，更多的是動(dòng)態(tài)檢測(cè)。在外部環(huán)境中，首先，聲音是通過(guò)錄音設(shè)備進(jìn)行采集的，不同的型號(hào)的錄音設(shè)備對(duì)語(yǔ)音都會(huì)造成一定程度上的畸變，同時(shí)由于背景環(huán)境和傳輸信道等的差異，對(duì)語(yǔ)音信息也會(huì)造成不同程度的損傷。這些情況的出現(xiàn)為聲紋識(shí)別增添了不少的問(wèn)題。比如外部環(huán)境的影響，哪怕是如今發(fā)展較為完善、已經(jīng)實(shí)現(xiàn)落地的語(yǔ)音識(shí)別技術(shù)，降噪以及去混響方面也依然是其運(yùn)行中的一大難題。

此外，在內(nèi)部環(huán)境中，對(duì)于同一個(gè)用戶，即便采集到的兩段語(yǔ)音內(nèi)容都是相同的，但由于情緒、語(yǔ)速、疲勞程度等原因，語(yǔ)音都會(huì)有一些差異性。在這方面，鎂客君的小伙伴就曾做過(guò)實(shí)驗(yàn)，以不同的嗓音、速度喚醒iPhone 7中的Siri，結(jié)果顯示，只有與提前錄制的語(yǔ)音同樣的嗓音、速度才能成功喚醒。