關于美國國安局的聲紋識別技術強大之處

時間：2020-07-29 14:30:01

關鍵字：聲紋識別聲紋識別技術

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 盡管我們已經(jīng)知道 NSA 依靠指紋和面部圖像來識別目標，但是根據(jù) 2008 年的一份機構文件，聲紋才是“NSA 的統(tǒng)治地位所在”。在美蘇冷戰(zhàn)最嚴峻的時期，那是

盡管我們已經(jīng)知道 NSA 依靠指紋和面部圖像來識別目標，但是根據(jù) 2008 年的一份機構文件，聲紋才是“NSA 的統(tǒng)治地位所在”。

在美蘇冷戰(zhàn)最嚴峻的時期，那是 1980 年的冬天，美國聯(lián)邦調查局（FBI）的特工人員記錄到了一次通話——一名男子被安排與在華盛頓特區(qū)的蘇聯(lián)大使進行秘密會晤。然而，在約定的那天，調查局的特工們沒能看到究竟是誰進入了大使館。當時，特工們沒有辦法僅根據(jù)他的通話聲音就查出他的名字，所以這個間諜得以繼續(xù)藏匿自己的身份，并在隨后的五年中，將一些美國機密項目的細節(jié)賣給了蘇聯(lián)。

直到 1985 年，根據(jù)一名俄羅斯叛逃者提供的情報，F(xiàn)BI 才最終確定了當時那名通話者為前美國國家安全局（NSA）分析員 Ronald Pelton。次年，Ronald Pelton 被判處間諜罪。

而今，F(xiàn)BI 和 NSA 的特工能夠在 Pelton 給蘇聯(lián)撥出第一個電話的幾秒內識別出他的真實身份。NSA 2006 年 1 月的機密備忘錄顯示，NSA 的分析員使用了一種“用聲音識別人的技術”成功將 Pelton 以往的音頻文件與電話監(jiān)控相匹配。備忘錄中描述道：“如果這種技術早出現(xiàn) 20 年，那么將能夠提前發(fā)現(xiàn) Pelton 的間諜行為并實施抓捕，這將會大大減少 Pelton 對國家安全造成的重大損失。”

由前 NSA 雇員斯諾登提供的機密文件顯示，NSA 開發(fā)的技術不僅能夠將私密對話轉為文本，還能自動識別對話中的人。

美國人在喚醒亞馬遜的 Alexa 或者打電話給銀行的時候，經(jīng)常會使用到這種被稱為聲紋識別的技術。但是早在“Hello Siri”和“OK Google”這樣的語言指令走入尋常百姓家之前十年，NSA 就用這種聲紋識別技術來監(jiān)控恐怖分子、政治家、毒梟、間諜甚至是一些普通政府機構的雇員。

這種技術的原理在于分析個人聲音中獨特的物理和行為特征來區(qū)分不同人的聲音，例如發(fā)聲的音高、嘴型、咽部長度等。算法隨后會創(chuàng)建個人聲音特征的動態(tài)計算機模型，也就是通常所說的“聲紋”模型。整個過程——捕捉所說的單詞、將單詞轉化為聲紋、并將這種表示與數(shù)據(jù)庫中其他的“聲紋”進行對比——都可以在瞬間完成。盡管我們已經(jīng)知道 NSA 依靠指紋和面部圖像來識別目標，但是根據(jù) 2008 年的一份機構文件，聲紋才是“NSA 的統(tǒng)治地位所在”。

我們不難看出原因。NSA，無論獲得許可與否，截取了數(shù)以百萬計的美國公民的電話，甚至包括越洋電話、視頻電話和互聯(lián)網(wǎng)電話，從而建立了一個無可比擬的聲紋庫。來自斯諾登提供的文件顯示，分析人員將部分人的錄音提供給聲紋識別算法之后，即使這些人在其他通話中使用未知的號碼、秘密代碼亦或是不同語言，算法都可以將其與已有的音頻相匹配。

早在伊拉克自由行動時，分析人員就使用聲紋識別技術，證實了那些“疑似被廢黜的領導人薩達姆的錄音”確實是薩達姆本人，而不像公眾以為的那樣是偽造的。NSA 的備忘錄進一步表明，NSA 分析員為本·拉登也構建了聲紋，“在幾次放送中，他的聲音都十分明顯且一致”；與基地組織的現(xiàn)任領導人 Ayman al-Zawahri 以及基地組織的三把手 Abu Musab al-Zarqawi 有顯著不同。他們也使用 Zarqawi 的聲紋從幾份網(wǎng)上發(fā)布的音頻中找到了他。

據(jù) 2004 年至 2012 年間的機密文件顯示，NSA 對其聲紋識別技術進行了愈發(fā)復雜的迭代。文件證實了聲紋識別在反恐行動和緝毒行動中均獲使用。文件還建議更多國家機構部署這項技術，不僅僅是為了追溯像 Pelton 這樣的間諜，還為了防止像斯諾登這樣的舉報人出現(xiàn)。

永遠在聽的算法

（2015 年 3 月 4 日，一位男子倚在紐約的一個公共電話亭旁用智能手機打電話）

一些民權專家擔心聲紋識別技術和該技術的擴展應用將會侵害公民隱私。白宮前國家情報局局長顧問 TImothy Edgar 解釋說，“聲紋識別技術即創(chuàng)建了一種新的情報能力，一種容易被濫用的能力。”“我們的聲音代替我們本人穿越各種渠道完成溝通。在大眾監(jiān)控的時代，這種能力對我們所有人的隱私都有深遠的影響。”

Edgar 和其他專家指出，相比于姓名、地址、密碼、電話號碼和個人識別碼，人聲的相對穩(wěn)定性使得其難以被改變或偽裝。電子前線基金會（Electronic FronTIer FoundaTIon）的律師 Jamie Williams 表示，這讓追蹤變得“容易的多”。“只要你能識別出某個人的聲音，”她表示，“你就能在監(jiān)聽記錄或錄音中找到他們。”

聲音是一種獨特且易于獲取的生物特征：與 DNA 不同，它可以被動地被收集，且不受距離的限制，不需要目標知悉或者征得他們的同意。雖然識別的準確度受到收音條件的相似性，但是在受控的環(huán)境中——低底噪、熟悉的聲學環(huán)境和良好的通信質量——這種技術可以用寥寥幾句話就精確地匹配到個人。計算機模型擁有的同一個人的不同聲音樣本越多，模型就愈發(fā)強大，愈發(fā)“成熟”。

在商業(yè)環(huán)境中，聲紋識別技術與呼叫中心欺詐審查、與 Siri 等語音助理交談以及個人銀行業(yè)務密碼驗證等任務關聯(lián)密切。并且這種技術的用途正在逐漸增長，根據(jù)市場研究公司 TracTIca 的報告，到 2024 年，語音生物識別技術產(chǎn)業(yè)的收入預計將達到每年 50 億美元，其用途將擴展至邊境檢查站、醫(yī)療、信用卡支付和可穿戴設備中。

公民自由主義者的一個主要擔心在于，聲紋識別技術有可能使談話“冷卻”。新聞自由基金會執(zhí)行董事 Trevor Timm 指出，可以假設 NSA 的聲紋識別技術將會被用來追蹤記者、揭露消息來源，攔截匿名消息等。雖然如今人們已經(jīng)知道在處理敏感材料時應該加密自己的電話，但是 Timm 指出，從電視機到耳機再到互聯(lián)網(wǎng)設備，能夠偷偷記錄聲音的渠道實在是不勝枚舉。Timm 說，我們 24 小時都會隨身攜帶一個麥克風，那就是我們的手機。我們知道政府有辦法侵入手機和計算機來打開這些麥克風。

他繼續(xù)說道，“盡管斯諾登泄密事件之后，立法方面發(fā)生了很大變化，但美國人民對這種政府用來監(jiān)視全球數(shù)百萬人的工具仍然只有一個片面的理解。這是一個值得在公眾領域辯論的事情。”但是他指出，如果公眾對技術的使用缺乏有意義的認識，這種爭論將會非常困難——甚至是否能存在都值得商榷。

一位前國防情報官員，因政策所限無法對機密文件進行討論，匿名對 The Intercept 表示，他相信這種技術一直隱而不漏絕非偶然。“政府避免討論這種技術，正是因為它提出了一些嚴峻的問題，而這些問題政府不愿意回答，”這位官員如是說道。“這是自 911 事件發(fā)生以來，對于我們個人及我們的權利的一項重要轉變。”而想要進入技術監(jiān)控范圍，官員指出，“你什么都不用做，張嘴說話就行了。”

民權主義者擔心，如果沒有針對政府秘密收集我們的語音模式這一事項的公開討論以及監(jiān)督，我們可能會進入一個越來越沉默的世界。

新型聲音工具

（2012 年 10 月 9 日，科羅拉多州博爾德，美國國家標準與技術研究院語音研究所（NIST）大樓）

2013 年開始，美國人就已經(jīng)知道 NSA 在大量收集國內外的電話數(shù)據(jù)，但如何將原始數(shù)據(jù)轉化為有用情報這一技術仍然鮮為人知。2015 年，據(jù) The Intercept 報道，NSA 為處理政府收集的大量音頻建立了一系列“人類語言技術”。通過開發(fā)程序自動將語音翻譯成文本——分析員稱之為“語音版 Google”——政府部門可以使用關鍵詞和“選擇器”來搜索、閱讀和索引錄音而不是派人親自去聽，從而節(jié)省了大量的人力。

從語音轉寫文字項目衍生的聲紋識別技術為分析員提供了一種額外的工具，使其可以將不計其數(shù)的戰(zhàn)區(qū)音頻進行攔截與分類。NSA 和國防部斥巨資發(fā)展此技術并增加其可靠性。數(shù)字時代之前，聲紋識別隸屬于法庭科學。二戰(zhàn)期間，人類分析員對來自無線電的聲音頻率的可視化輸出進行比較。根據(jù)《法庭聲紋識別》的作者 Harry Hollien 的說法，這些可以“閱讀語音”的機器——即語譜圖技術——甚至用來駁斥阿道夫•希特勒被暗殺并被人取代的謠言。

作為法庭聲紋識別標準化事宜的聯(lián)邦領導者，首席聲紋識別專家 James Wayman 解釋道：“聲紋可以被看到，”他指出，雖然“聲紋”這個詞已經(jīng)被商業(yè)公司用爛了，但其實有一定的誤導性。因為“紋”意味著所捕獲的信息是物理的，而不是行為的。他說：“其實你所擁有的是軟件程序里的一個方程，能夠輸出不同的數(shù)字。”

這些方程已經(jīng)從簡單的求均值演變?yōu)閯討B(tài)算法模型。自 1996 年依賴，NSA 資助了美國國家標準與技術研究院語音研究所（NIST），培養(yǎng)和測試“解決聲紋識別問題的最具主導性和前途的算法”。與 NIST 一起測試系統(tǒng)的還有，領先的生物識別公司和研究人員，其中有一些人獲得了 NSA 和國防部高級研究計劃局（DARPA）的資助。

NSA 一直對其聲紋識別項目三緘其口，因此公眾很難知道它目前可以發(fā)揮多大的作用。但是考慮到 NSA 資助的學術研究所和私企間緊密的聯(lián)系，從其他國家正在做的事情和供應商正在銷售的東西可以大概估計出 NSA 的進展。

例如，行業(yè)領導者 Nuance 向政府、軍事部門和情報部門推銷“一個全國范圍內的生物聲紋識別系統(tǒng)，能夠從包含數(shù)百萬聲紋的系統(tǒng)中快速準確地識別并區(qū)分一個人的聲音”。2014 年，美聯(lián)社報道說，土耳其最大的移動電話公司已經(jīng)使用 Nuance 的技術，用來收集 1000 萬左右用戶的語音數(shù)據(jù)。

10 月份，人權觀察社（HRW）報道說，中國政府正在建立一個國家級聲紋數(shù)據(jù)庫，從而能夠自動識別電話中的人。政府旨在將成千上萬的人的語音生物信息與他們的身份證號碼、民族和家庭地址聯(lián)系起來。據(jù) HRW 報道，制造中國語音軟件的公司甚至已經(jīng)給一個可以精確定位音頻文件用于“輿論監(jiān)督”的系統(tǒng)申請了專利，。

11 月，根據(jù)國際刑警組織發(fā)布的新聞，由歐盟資助的一個國際聲紋識別的項目通過了最后的測試。來自 50 多個國家的 100 多名情報分析員、研究人員和執(zhí)法人員（其中包括國際刑警組織的探員，英國大都會警察局和葡萄牙司法系統(tǒng)的警察們）都來到了展示現(xiàn)場，研究人員證明他們的方案可以識別“社交媒體上或合法截獲的音頻中說不同語言的未知發(fā)言者”。

The Intercept 查閱的 NSA 文件中描繪了一個類似地正在發(fā)展的系統(tǒng)的輪廓——在 9/11 事件之后的幾年里，這個系統(tǒng)的發(fā)展使得“語音分析員能夠在幾秒鐘內對數(shù)百小時的語音剪輯進行篩選，基于關鍵詞或說話者聲紋識別篩選出有用的信息。”

“戲劇性”結果

（2008 年 11 月 22 日，一名 Sahwa 成員在巴格達市中心檢查站附近用手機通話）

NSA 聲紋識別技術的部分歷史可以通過閱讀信號情報局（SID）近十年的內部通訊中重新構建。刨除那些自吹自擂和刻意略過的部分，SIDtoday 的備忘錄詳細記錄了聲紋識別的轉變歷程——從一門需要人類審查員進行的不太可靠的法庭科學到一個依賴大量的語音數(shù)據(jù)進行的自動算法程序。特別是，這些備忘錄著重說明了美國分析員與英國政府通訊總部（GCHQ）的同行們如何密切合作處理來自伊拉克和阿富汗的與反恐工作相關的大量錄音。GCHQ 雖然拒絕回答本文中涉及的具體細節(jié)，但在內部通訊中自夸稱其系統(tǒng)“在與 NSA 的合作中發(fā)揮了重要作用”。

雖然有時候很難區(qū)分 SIDtoday 總是在展望未來的信息發(fā)布和技術的實際進展，但顯然，至少自 2003 年以來，NSA 一直在利用自動聲紋識別技術來定位和標注“那些重點關注對象的語音消息”。一份 SIDtoday 的備忘錄解釋說，每當一個聲音信號被攔截，聲紋識別技術就會為其建模，并將其與其他已知音源比較來回答這個問題：“這是我們一直在跟蹤的恐怖分子嗎？是奧薩馬·本·拉登嗎？”

但 NSA 的系統(tǒng)的功能遠遠不止回答“是”或者“不是”。在 2006 年的一系列通訊中，報道了一個名為“實時語音”（Voice RT）的項目，這個系統(tǒng)不僅能在語音攔截中自動識別說話者身份，還能識別他們的語言、性別和口音。分析員可以對攔截按上述類別進行分類，通過關鍵字進行實時搜索，并設置自動警報，在傳入的攔截符合某些標簽的條件時通知他們。一份 NSA 的 PPT 進一步證實，Voice RT 程序將其“攝入”的伊拉克語音數(shù)據(jù)轉換為了聲紋。

斯諾登提供的 NSA 備忘錄并沒有說明 Voice RT 的部署范圍，而 GCHQ 的語音/傳真用戶組的會議記錄中提到了這一點。英國機構的備忘錄中的詳細說明了 NSA 的聲紋識別計劃是如何針對外國目標進行部署的。2007 年秋季，當其語音/傳真用戶組在與 NSA 代表會面時，NSA 成員們介紹了一個高效的 Voice RT 系統(tǒng)，可以為語言學家和分析員提供說話者識別和語言類別識別能力，可以將語音轉換為文本和并搜索語音。“實質上，”會議記錄將 Voice RT 描述為，“一個一站式商店……他們?yōu)榱颂岣呦到y(tǒng)的可部署性付出了大量的努力。”到 2010 年，NSA 的 Voice RT 程序可以處理超過 25 種外語的音頻。在阿富汗，NSA 將語音分析和地圖軟件配合使用，定位那些講阿拉伯語的信號塔集群——用來發(fā)現(xiàn)新的基地組織訓練營。

GCHQ 則使用了一個名為 Broad Oak 的項目，根據(jù)聲音來識別目標者。英國政府在中東地區(qū)建立了聲紋識別系統(tǒng)，識別對象不乏沙特、巴基斯坦、格魯吉亞和伊拉克的領導人。GCHQ 的會議記錄稱：“如果您認為我們可以幫助您在海量信息流中找到您感興趣的目標，請隨時與我們聯(lián)系，我們很樂意與您討論您的需求，并希望能夠提供一個迅速準確的解決方案。”

這不是一張空頭支票。2009 年，在識別伊拉克副總統(tǒng)之一 Adil Abdul Mahdi 時，GCHQ 吹噓說他們比對手 NSA 做得要好。“由于我們一直以比他們更快的速度報告他（副總統(tǒng)）的相關消息，NSA 已經(jīng)放棄參與其中 …… 此項良好的表現(xiàn)也提高了我們在 NSA 的聲譽。“2010 年，GCHQ 的研究概述顯示，兩個機構就聲紋分析項目的聯(lián)合實驗進行了廣泛的合作。

但聲紋識別工具的發(fā)展并非一帆風順。在其早期階段，這項技術遠不如今天那么強大有效。前國防情報官員回憶說，雖然分析員能夠在他們的工作站播放語音樣本，但由于音頻沒有編入索引，搜索重要的樣本是一個很大的挑戰(zhàn)。在 SIDtoday 發(fā)表的一封 2006 年的寫給編輯者的信中，一位分析員抱怨說語音工具的引入使其非常崩潰，并將其初始速度比作“流淌在一月的糖漿”。

然而到了 2007 年，聲紋識別技術已經(jīng)明顯成熟。NSA 專門為伊朗總統(tǒng) Mahmoud Ahmadinejad 的紐約市聯(lián)合國大會之行建立的備忘錄中詳細列舉了該技術的實際功用。在獲得合法授權后，分析員配置了一個專門的系統(tǒng)，盡可能多的跟蹤 143 名伊朗代表的電話。在所有的這些傳入流量上，他們運行了語音活動檢測算法，以避免目標在沒有說話的時候分析員浪費時間跟蹤；通過關鍵字來搜索“電子郵件地址的傳遞和重要人物的討論”；以及根據(jù)說話者聲紋識別來成功定位“包括伊朗外交大臣在內的重要人士”的對話。

同年，NSA 在當年格魯吉亞開設的一家新的音頻取證實驗室在一份聲明中指出，NSA 計劃將這些語音技術提供給整個機構的更多分析員。2008 年 SIDtoday 的備忘錄報告稱系統(tǒng)的升級將允許分析員“找到目標者與過去音頻匹配的新的音頻剪輯”。

當目標找出規(guī)避聲紋識別技術的策略時，這些工具也會隨之進化。2007 年，分析員注意到，他們識別為基地組織的兩個目標的攔截頻率超出了正常人的談話范圍。在接下來的幾年中，分析員在也門，阿富汗，伊拉克和其他地方也發(fā)現(xiàn)了這種聲音經(jīng)過調制的目標。“這很有可能是為了避免被情報機構識別”。他們觀察到的一些音頻剪輯扭曲了說話者的音調，所以聽起來像是“艾文和花栗鼠”在說話。分析員據(jù)此推測，參與 2009 年 12 月企圖在底特律轟炸的 AQAP 成員通過使用全新的電話號碼和掩蓋自己聲音的方式逃脫了政府的識別。

2010 年，機構的技術人員制定出了一個應對這些調制聲音的解決方案——應用 HLT Lite——一個用來搜索修改過或異常的聲音的軟件。SIDtoday 稱，該方案在掃描了 100 多萬條音頻后，在也門發(fā)現(xiàn)至少 80 個經(jīng)過修改的語音的例子。據(jù)報道，這使機構發(fā)現(xiàn)了同時使用幾個新電話號碼的目標人物。

隨著系統(tǒng)能力的提升，他們的監(jiān)控范圍也在擴大。2010 年 9 月的一則通訊詳細介紹了墨西哥城升級的聲紋識別系統(tǒng)的“戲劇性”發(fā)展——網(wǎng)站的負責人稱，堪比相當于一臺額外的掃描儀。通過在音頻攔截中搜索“bomba”這個詞，分析員可以分離和檢測有關炸彈威脅的對話。

聲紋識別系統(tǒng)也可以很容易地通過重新配置，用在別的地方。GCHQ 2008 年 10 月的會議記錄描述了一個“涉及阿富汗毒品交易的高層人員網(wǎng)絡”的建立過程，這個網(wǎng)絡后來被“投入到意想不到的應用之中”。分析員甚至“在毒品流量較大的區(qū)域進行了一次地毯式搜索”來識別更多的目標。

從戰(zhàn)場上到機構中

（服務器機房里的網(wǎng)絡設備）

NSA 很快意識到，他們的錄音處理能力可以用來識別 NSA 內部的員工。正如 2006 年 1 月那篇討論 Ronald Pelton 的音頻的備忘錄所解釋的那樣，“聲音匹配技術正被應用到新提出的內部威脅（Insider Threat）計劃中，企圖捉住『我們中的間諜』。”

在美國軍方告密者 Chelsea Manning 泄密之后，該計劃由奧巴馬政府公開宣布，其內容是密切監(jiān)視政府雇員的生活。但這份文件似乎表明，該舉措在 2011 年奧巴馬頒發(fā)行政命令之前就已經(jīng)開始實行了。

據(jù)新聞自由基金會的 Trevor Timm 的分析，NSA 將用于檢測外部威脅人員的生物技術運用到檢測內部成員中的異見人士身上這一手段并不新鮮。“在過去 15 年中，我們已經(jīng)看到了一連串這樣的例子：執(zhí)法機構把那些侵犯式的、本來作用于恐怖分子身上的工具——無論是定位跟蹤還是人臉識別，或者是像這種聲紋識別技術——用于其它各種犯罪調查中。”

Timm 指出，在過去幾年中，告密者，情報人員以及記者都采取了更嚴密的安全措施來避免暴露身份。但是，“如果記者使用的電話號碼并未與其身份關聯(lián)，那么政府就會通過許可證等方式來掃描他們通話，這項技術也將潛在被用于抑制新聞業(yè)的發(fā)展。”

對于情報圈的民權律師第一人 Timothy Edgar 來說，這些“風險”可以歸為這樣一個問題：“他們是在尋找正當目標，還是在濫用權力？比如試圖監(jiān)控記者或告密者這樣的做法？”

Edgar 說，在某些方面，聲紋識別或有助于保護個人隱私。這項技術允許分析員來篩選電話，這樣他們就可以專注于目標人物的聲音，從而剔除掉其他人的聲音。一份 2010 年度的 SIDtoday 備忘錄強調，通過確保“該名說話人是某國領導人而非甜甜圈店的某個服務員，”該技術可以降低情報人員所需監(jiān)聽的通話量。

“事實上，”這一級別的精確度，成為了“NSA 解釋當初大量收集元數(shù)據(jù)的做法的擋箭牌”，Edgar 解釋說。“他們?yōu)轫椖窟M行辯護的手段之一，就是自稱沒有收集所有的數(shù)據(jù)，而是通過篩選器來收集信息。”

同時，從大量數(shù)據(jù)中識別特定個體的目標，常常證明了繼續(xù)收集更多數(shù)據(jù)的必要性。識別可以幫助分析人員縮小電話接聽的范圍，但這項技術似乎會鼓勵他們在更大范圍內進行搜索，因為本質上這項任務的目標是監(jiān)聽目標聲音出現(xiàn)的對話，無論他用什么號碼撥出。或如 Pelton 備忘錄所指出的那樣，這項技術使得分析員能夠“在任何地方辨別出那個聲音。”

雖然這些文件表明，該機構確實試圖在其員工身上運用這項技術，但 The Intercept 所查閱的文件并沒有明確表明，該機構是否已經(jīng)在美國普通公民的對話數(shù)據(jù)中進行聲紋創(chuàng)建。

外國人情報監(jiān)視法案（Foreign Intelligence Surveillance Act，F(xiàn)ISA）規(guī)定，機構可以自由收集在國外服務器和基礎設施上傳輸?shù)囊纛l數(shù)據(jù)，以及美國人與外國人的語音交流數(shù)據(jù)。因為項規(guī)定，Edgar 稱，越洋電話“基本上”是被系統(tǒng)錄過聲紋了。“如果他們沒對越洋電話使用這些技術手段，我才會感到驚訝。在某種程度上，這就是他們的工作內容。”

然而專家們對“NSA 是否有權利在沒有許可的情況下掃描美國公民在美國領土上進行的通話并制作聲紋”這一議題表現(xiàn)出了分歧的態(tài)度。這種分歧部分源自監(jiān)督相關法律的不完備，這方面的法律未能跟上聲紋與語音識別等數(shù)字技術的發(fā)展。

雖然美國已經(jīng)制定了嚴格的法律，禁止在沒有許可證的情況下對美國領土上進行的電話內容進行記錄，但也沒有任何聯(lián)邦機構負責監(jiān)管聲音數(shù)據(jù)的采集和處理事宜。

監(jiān)管缺失的部分原因是，雖然政府需要許可才能獲得“內容”，但聲紋應該被歸類為“內容”嗎？或者像 NSA 聲稱的那樣，聲紋不過是“元數(shù)據(jù)”——這部分信息所受的法律保護就少多了。在這個問題上，法律基本上沒有做對這部分信息做任何具體的規(guī)定，這導致一些專家推測，NSA 正在利用這一法律灰色地帶實行聲紋建立。

針對一系列詳細的問題，NSA 給出了如下的回應：“根據(jù)長期政策，NSA 將不確認也不否認該文所指的涉及的美國政府信息的準確性。”

無所不用其極

星期四，參議院投票通過擴大外國人情報監(jiān)視法案（FISA）的 702 條，這使得 NSA 有權對那些與外國人溝通的美國人進行暗中監(jiān)視，且不需要許可證。這種再授權行為，與上周在眾議院的行動類似，證實了那些評論家的觀點，他們認為 NSA 對其法律權力的解釋整日益強硬——同時日益模糊。

計算機科學家和監(jiān)控研究專家 Andrew Clement 在斯諾登披露相關信息之前就已經(jīng)在調查 NSA 的無許可竊聽活動。他堅信，該機構對美國公民的聲紋識別的利用并未收到任何限制。他解釋說，該機構經(jīng)常選擇將收集到的所有信息進行分類，直到達到人類分析員能夠將其作為元數(shù)據(jù)來進行聽或讀為止。“那只是一個巨大的漏洞，”他解釋說，“看來，他們會把通過算法方式從內容中獲取到的任何信息，都簡單地歸類為元數(shù)據(jù)。”

Clement 類比了 NSA 對待電話號碼和電子郵件地址的方式，來類比 NSA 會如何將建立聲紋的行為合法化。斯諾登在 2013 年披露的 XKeyscore 項目，就允許工作人員從截獲的電郵中提取出電郵地址（它們被歸類為元數(shù)據(jù)）。這些工作人員還可以對關鍵字進行全文搜索，它們同樣被歸類為上下文信息而不是內容。

然而 Edgar 認為，如果政府把我們的聲音也算作元數(shù)據(jù)，那么他會大吃一驚。“你可以試著辯解說，聲音特點不等于說話內容，”Edgar 說，“但是為了做聲紋識別，你還是得收集一通國內電話的內容，并對其進行分析以便提取出聲音。”

目前還不知道 NSA 收集、取樣或保留了多少國內的通話內容。但 EFF 的 Jamie Williams 指出，NSA 不一定非得通過收集美國人的電話錄音來制作美國人的聲紋庫，因為民營企業(yè)就一直在記錄我們的聲音。他們正擁有越來越多的音頻資源。汽車、恒溫器、冰箱、電燈泡，甚至是垃圾桶，都已變成了“智能的”（即互聯(lián)網(wǎng)化的）語音設備。Gartner 預測，今年有三分之一的人機交互將通過與語音系統(tǒng)的對話來進行。最近，Google 和亞馬遜的“智能音箱”都推出了聲紋識別系統(tǒng)，用以區(qū)分家庭成員的聲音。“一旦公司擁有這些聲音數(shù)據(jù)，”Williams 說，“在理論上，執(zhí)法機構就能拿到它，只要他們有一個有效的法律程序。”

這位前政府官員指出，原始語音數(shù)據(jù)可以存儲在民營企業(yè)那里，并供 NSA 通過秘密協(xié)議進行訪問。比如在 Fairview 計劃中，該機構與 AT&T 是合作伙伴關系。盡管美國國會試圖控制 NSA 對國內電話記錄的收集行為，但該機構一直在尋求獲得我們提供給企業(yè)數(shù)據(jù)庫的原始數(shù)據(jù)。（例如與 Verizon 和 AT&T 的合作伙伴關系，對 Xbox 游戲系統(tǒng)的滲透，以及對萬千網(wǎng)友的在線元數(shù)據(jù)的暗中收集，這些只是幾個最近的例子。）“電信公司持有數(shù)據(jù)，而沒有什么可以阻止他們運行一個算法，”這位前官員說。

Clement 想知道的是，對于 NSA 而言，可能聲紋識別能力比其內容識別能力更為重要。“這可以讓他們把你和你自己的其他身份聯(lián)系起來，并確定你和其他人的關系，”他說。

這似乎才是 NSA 的最終目標。在 2010 年的一次關于“一次前所未有的機會，了解 NSA 如何將其創(chuàng)造性的能量用于個人跟蹤”的會議上，NSA 的高層領導談到如何將“全生活（whole life）”戰(zhàn)略納入他們的目標。他們描述了將生物特征數(shù)據(jù)（比如聲紋）與傳記資料（如社交網(wǎng)絡和個人歷史）進行整合的需求。用該機構自己的話說，“一切都是關于在空間和時間上進行個人定位、跟蹤和維護的連續(xù)性。我們不局限于傳統(tǒng)的通訊方式——我們無所不用其極。”