如何將聲紋識別技術(shù)用到極致

時間：2020-07-30 14:48:01

關(guān)鍵字： nsa 聲紋識別

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 盡管我們已經(jīng)知道NSA依靠指紋和面部圖像來識別目標(biāo)，但是根據(jù) 2008 年的一份機(jī)構(gòu)文件，聲紋才是“NSA 的統(tǒng)治地位所在”。在美蘇冷戰(zhàn)最嚴(yán)峻的時期，那是 19

盡管我們已經(jīng)知道NSA依靠指紋和面部圖像來識別目標(biāo)，但是根據(jù) 2008 年的一份機(jī)構(gòu)文件，聲紋才是“NSA 的統(tǒng)治地位所在”。

在美蘇冷戰(zhàn)最嚴(yán)峻的時期，那是 1980 年的冬天，美國聯(lián)邦調(diào)查局（FBI）的特工人員記錄到了一次通話——一名男子被安排與在華盛頓特區(qū)的蘇聯(lián)大使進(jìn)行秘密會晤。然而，在約定的那天，調(diào)查局的特工們沒能看到究竟是誰進(jìn)入了大使館。當(dāng)時，特工們沒有辦法僅根據(jù)他的通話聲音就查出他的名字，所以這個間諜得以繼續(xù)藏匿自己的身份，并在隨后的五年中，將一些美國機(jī)密項目的細(xì)節(jié)賣給了蘇聯(lián)。

直到 1985 年，根據(jù)一名俄羅斯叛逃者提供的情報，F(xiàn)BI 才最終確定了當(dāng)時那名通話者為前美國國家安全局（NSA）分析員 Ronald Pelton。次年，Ronald Pelton 被判處間諜罪。

而今，F(xiàn)BI 和 NSA 的特工能夠在 Pelton 給蘇聯(lián)撥出第一個電話的幾秒內(nèi)識別出他的真實身份。NSA 2006 年 1 月的機(jī)密備忘錄顯示，NSA 的分析員使用了一種“用聲音識別人的技術(shù)”成功將 Pelton 以往的音頻文件與電話監(jiān)控相匹配。備忘錄中描述道：“如果這種技術(shù)早出現(xiàn) 20 年，那么將能夠提前發(fā)現(xiàn) Pelton 的間諜行為并實施抓捕，這將會大大減少 Pelton 對國家安全造成的重大損失。”

由前 NSA 雇員斯諾登提供的機(jī)密文件顯示，NSA 開發(fā)的技術(shù)不僅能夠?qū)⑺矫軐υ掁D(zhuǎn)為文本，還能自動識別對話中的人。

美國人在喚醒亞馬遜的 Alexa 或者打電話給銀行的時候，經(jīng)常會使用到這種被稱為聲紋識別的技術(shù)。但是早在“Hello Siri”和“OK Google”這樣的語言指令走入尋常百姓家之前十年，NSA 就用這種聲紋識別技術(shù)來監(jiān)控恐怖分子、政治家、毒梟、間諜甚至是一些普通政府機(jī)構(gòu)的雇員。

這種技術(shù)的原理在于分析個人聲音中獨特的物理和行為特征來區(qū)分不同人的聲音，例如發(fā)聲的音高、嘴型、咽部長度等。算法隨后會創(chuàng)建個人聲音特征的動態(tài)計算機(jī)模型，也就是通常所說的“聲紋”模型。整個過程——捕捉所說的單詞、將單詞轉(zhuǎn)化為聲紋、并將這種表示與數(shù)據(jù)庫中其他的“聲紋”進(jìn)行對比——都可以在瞬間完成。盡管我們已經(jīng)知道 NSA 依靠指紋和面部圖像來識別目標(biāo)，但是根據(jù) 2008 年的一份機(jī)構(gòu)文件，聲紋才是“NSA 的統(tǒng)治地位所在”。

我們不難看出原因。NSA，無論獲得許可與否，截取了數(shù)以百萬計的美國公民的電話，甚至包括越洋電話、視頻電話和互聯(lián)網(wǎng)電話，從而建立了一個無可比擬的聲紋庫。來自斯諾登提供的文件顯示，分析人員將部分人的錄音提供給聲紋識別算法之后，即使這些人在其他通話中使用未知的號碼、秘密代碼亦或是不同語言，算法都可以將其與已有的音頻相匹配。

早在伊拉克自由行動時，分析人員就使用聲紋識別技術(shù)，證實了那些“疑似被廢黜的領(lǐng)導(dǎo)人薩達(dá)姆的錄音”確實是薩達(dá)姆本人，而不像公眾以為的那樣是偽造的。NSA 的備忘錄進(jìn)一步表明，NSA 分析員為本·拉登也構(gòu)建了聲紋，“在幾次放送中，他的聲音都十分明顯且一致”；與基地組織的現(xiàn)任領(lǐng)導(dǎo)人 Ayman al-Zawahri 以及基地組織的三把手 Abu Musab al-Zarqawi 有顯著不同。他們也使用 Zarqawi 的聲紋從幾份網(wǎng)上發(fā)布的音頻中找到了他。

據(jù) 2004 年至 2012 年間的機(jī)密文件顯示，NSA 對其聲紋識別技術(shù)進(jìn)行了愈發(fā)復(fù)雜的迭代。文件證實了聲紋識別在反恐行動和緝毒行動中均獲使用。文件還建議更多國家機(jī)構(gòu)部署這項技術(shù)，不僅僅是為了追溯像 Pelton 這樣的間諜，還為了防止像斯諾登這樣的舉報人出現(xiàn)。

永遠(yuǎn)在聽的算法

（2015 年 3 月 4 日，一位男子倚在紐約的一個公共電話亭旁用智能手機(jī)打電話）

一些民權(quán)專家擔(dān)心聲紋識別技術(shù)和該技術(shù)的擴(kuò)展應(yīng)用將會侵害公民隱私。白宮前國家情報局局長顧問 TImothy Edgar 解釋說，“聲紋識別技術(shù)即創(chuàng)建了一種新的情報能力，一種容易被濫用的能力。”“我們的聲音代替我們本人穿越各種渠道完成溝通。在大眾監(jiān)控的時代，這種能力對我們所有人的隱私都有深遠(yuǎn)的影響。”

Edgar 和其他專家指出，相比于姓名、地址、密碼、電話號碼和個人識別碼，人聲的相對穩(wěn)定性使得其難以被改變或偽裝。電子前線基金會（Electronic FronTIer FoundaTIon）的律師 Jamie Williams 表示，這讓追蹤變得“容易的多”。“只要你能識別出某個人的聲音，”她表示，“你就能在監(jiān)聽記錄或錄音中找到他們。”

聲音是一種獨特且易于獲取的生物特征：與 DNA 不同，它可以被動地被收集，且不受距離的限制，不需要目標(biāo)知悉或者征得他們的同意。雖然識別的準(zhǔn)確度受到收音條件的相似性，但是在受控的環(huán)境中——低底噪、熟悉的聲學(xué)環(huán)境和良好的通信質(zhì)量——這種技術(shù)可以用寥寥幾句話就精確地匹配到個人。計算機(jī)模型擁有的同一個人的不同聲音樣本越多，模型就愈發(fā)強(qiáng)大，愈發(fā)“成熟”。

在商業(yè)環(huán)境中，聲紋識別技術(shù)與呼叫中心欺詐審查、與 Siri 等語音助理交談以及個人銀行業(yè)務(wù)密碼驗證等任務(wù)關(guān)聯(lián)密切。并且這種技術(shù)的用途正在逐漸增長，根據(jù)市場研究公司 TracTIca 的報告，到 2024 年，語音生物識別技術(shù)產(chǎn)業(yè)的收入預(yù)計將達(dá)到每年 50 億美元，其用途將擴(kuò)展至邊境檢查站、醫(yī)療、信用卡支付和可穿戴設(shè)備中。

公民自由主義者的一個主要擔(dān)心在于，聲紋識別技術(shù)有可能使談話“冷卻”。新聞自由基金會執(zhí)行董事 Trevor Timm 指出，可以假設(shè) NSA 的聲紋識別技術(shù)將會被用來追蹤記者、揭露消息來源，攔截匿名消息等。雖然如今人們已經(jīng)知道在處理敏感材料時應(yīng)該加密自己的電話，但是 Timm 指出，從電視機(jī)到耳機(jī)再到互聯(lián)網(wǎng)設(shè)備，能夠偷偷記錄聲音的渠道實在是不勝枚舉。Timm 說，我們 24 小時都會隨身攜帶一個麥克風(fēng)，那就是我們的手機(jī)。我們知道政府有辦法侵入手機(jī)和計算機(jī)來打開這些麥克風(fēng)。

他繼續(xù)說道，“盡管斯諾登泄密事件之后，立法方面發(fā)生了很大變化，但美國人民對這種政府用來監(jiān)視全球數(shù)百萬人的工具仍然只有一個片面的理解。這是一個值得在公眾領(lǐng)域辯論的事情。”但是他指出，如果公眾對技術(shù)的使用缺乏有意義的認(rèn)識，這種爭論將會非常困難——甚至是否能存在都值得商榷。

一位前國防情報官員，因政策所限無法對機(jī)密文件進(jìn)行討論，匿名對 The Intercept 表示，他相信這種技術(shù)一直隱而不漏絕非偶然。“政府避免討論這種技術(shù)，正是因為它提出了一些嚴(yán)峻的問題，而這些問題政府不愿意回答，”這位官員如是說道。“這是自 911 事件發(fā)生以來，對于我們個人及我們的權(quán)利的一項重要轉(zhuǎn)變。”而想要進(jìn)入技術(shù)監(jiān)控范圍，官員指出，“你什么都不用做，張嘴說話就行了。”

民權(quán)主義者擔(dān)心，如果沒有針對政府秘密收集我們的語音模式這一事項的公開討論以及監(jiān)督，我們可能會進(jìn)入一個越來越沉默的世界。

新型聲音工具

（2012 年 10 月 9 日，科羅拉多州博爾德，美國國家標(biāo)準(zhǔn)與技術(shù)研究院語音研究所（NIST）大樓）

2013 年開始，美國人就已經(jīng)知道 NSA 在大量收集國內(nèi)外的電話數(shù)據(jù)，但如何將原始數(shù)據(jù)轉(zhuǎn)化為有用情報這一技術(shù)仍然鮮為人知。2015 年，據(jù) The Intercept 報道，NSA 為處理政府收集的大量音頻建立了一系列“人類語言技術(shù)”。通過開發(fā)程序自動將語音翻譯成文本——分析員稱之為“語音版 Google”——政府部門可以使用關(guān)鍵詞和“選擇器”來搜索、閱讀和索引錄音而不是派人親自去聽，從而節(jié)省了大量的人力。

從語音轉(zhuǎn)寫文字項目衍生的聲紋識別技術(shù)為分析員提供了一種額外的工具，使其可以將不計其數(shù)的戰(zhàn)區(qū)音頻進(jìn)行攔截與分類。NSA 和國防部斥巨資發(fā)展此技術(shù)并增加其可靠性。數(shù)字時代之前，聲紋識別隸屬于法庭科學(xué)。二戰(zhàn)期間，人類分析員對來自無線電的聲音頻率的可視化輸出進(jìn)行比較。根據(jù)《法庭聲紋識別》的作者 Harry Hollien 的說法，這些可以“閱讀語音”的機(jī)器——即語譜圖技術(shù)——甚至用來駁斥阿道夫•希特勒被暗殺并被人取代的謠言。

作為法庭聲紋識別標(biāo)準(zhǔn)化事宜的聯(lián)邦領(lǐng)導(dǎo)者，首席聲紋識別專家 James Wayman 解釋道：“聲紋可以被看到，”他指出，雖然“聲紋”這個詞已經(jīng)被商業(yè)公司用爛了，但其實有一定的誤導(dǎo)性。因為“紋”意味著所捕獲的信息是物理的，而不是行為的。他說：“其實你所擁有的是軟件程序里的一個方程，能夠輸出不同的數(shù)字。”

這些方程已經(jīng)從簡單的求均值演變?yōu)閯討B(tài)算法模型。自 1996 年依賴，NSA 資助了美國國家標(biāo)準(zhǔn)與技術(shù)研究院語音研究所（NIST），培養(yǎng)和測試“解決聲紋識別問題的最具主導(dǎo)性和前途的算法”。與 NIST 一起測試系統(tǒng)的還有，領(lǐng)先的生物識別公司和研究人員，其中有一些人獲得了 NSA 和國防部高級研究計劃局（DARPA）的資助。

NSA 一直對其聲紋識別項目三緘其口，因此公眾很難知道它目前可以發(fā)揮多大的作用。但是考慮到 NSA 資助的學(xué)術(shù)研究所和私企間緊密的聯(lián)系，從其他國家正在做的事情和供應(yīng)商正在銷售的東西可以大概估計出 NSA 的進(jìn)展。