AI帶來的隱私問題

時間：2020-05-20 20:42:01

關(guān)鍵字： AI 神經(jīng)網(wǎng)絡(luò) 敏感信息隨機數(shù)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 好久沒有跟大家聊聊算法方面的新研究了。理由當然不是學(xué)術(shù)領(lǐng)域沒有新聞，畢竟頂會們收到的論文也是盆滿缽滿。但總體而言，說深度學(xué)習(xí)的理論研究一直在瓶頸期徘徊，想必也少有人會反對。深度學(xué)習(xí)在應(yīng)

好久沒有跟大家聊聊算法方面的新研究了。理由當然不是學(xué)術(shù)領(lǐng)域沒有新聞，畢竟頂會們收到的論文也是盆滿缽滿。但總體而言，說深度學(xué)習(xí)的理論研究一直在瓶頸期徘徊，想必也少有人會反對。

深度學(xué)習(xí)在應(yīng)用上與廣大傳統(tǒng)行業(yè)融合，讓AI獲得了前所未有的大爆發(fā)。但正如斯坦福大學(xué)教授李飛飛所說，（深度學(xué)習(xí)）無論在智力、人力或機器設(shè)備方面，都還有很長的路要走。

學(xué)無止境，不過在很長一段時間內(nèi)，算法領(lǐng)域幾乎沒有什么重大顯著的進步，這也導(dǎo)致模型在落地部署中顯露出的一些先天不足，也使AI沒有停止過被質(zhì)疑的命運。比如人工智能泛濫所帶來的隱私問題，在要求科技企業(yè)進行自我約束的同時，對算法的優(yōu)化與完善顯然也很必要。

AI會如何影響人們的隱私？僅靠一篇文章或許無法回答這個復(fù)雜問題，但我們希望現(xiàn)在就開始拋出它。

當神經(jīng)網(wǎng)絡(luò)擁有記憶

在探討隱私問題之前，我們先來聊聊老生常談的LSTM模型。

關(guān)于其作用，我們已經(jīng)有過很多介紹了，簡單來說，就是在神經(jīng)網(wǎng)絡(luò)上加入記憶的概念，使模型可以記住長時間序列上的信息，并作出預(yù)測。AI能寫出語句更通順的文章、與人類進行流暢自然的多輪對話等等神奇能力，都建立在這一能力基礎(chǔ)上。

隨后很長一段時間內(nèi)，科學(xué)家們對神經(jīng)網(wǎng)絡(luò)的記憶進行了一系列的補充和擴展。比如引入注意力機制，讓LSTM網(wǎng)絡(luò)可以對信息進行長期而精確的跟蹤。再比如運用外部記憶來增強時序生成模型，提升卷積網(wǎng)絡(luò)的性能。

總的來說，記憶能力的提升，一方面賦予了神經(jīng)網(wǎng)絡(luò)對關(guān)系進行復(fù)雜推理的能力這使其智能得以明顯提高；而在應(yīng)用端，寫作、翻譯、客服系統(tǒng)等智能系統(tǒng)的體驗也大幅度升級。某種程度上，記憶是AI撕掉“人工智障”這一印象標簽的開始。

不過，擁有記憶力，也代表著兩個問題：一是神經(jīng)網(wǎng)絡(luò)必須要學(xué)會遺忘，從而釋放出存儲空間，只保留那些重要信息。比如某部小說中一個篇章結(jié)束，那模型應(yīng)當重置相關(guān)信息，只保留對應(yīng)的結(jié)果。

另外，神經(jīng)網(wǎng)絡(luò)的“潛意識”也需要被警惕。簡單來說，就是經(jīng)過在敏感的用戶數(shù)據(jù)上進行訓(xùn)練之后，機器學(xué)習(xí)模型被發(fā)布給公眾時會不會不自覺地帶出那些敏感信息呢？在這個人人皆可被采集的全民數(shù)字化時代，這是不是意味著隱私風(fēng)險在加劇？

AI真的會偷偷記住隱私嗎？

對于這個問題，伯克利大學(xué)的研究人員做了一系列實驗，答案也許震撼很多人，那就是——你的數(shù)據(jù)，AI可能都記在心里了。

想要理解神經(jīng)網(wǎng)絡(luò)的“無意記憶”，首先要引入一個概念，即過度擬合。

在深度學(xué)習(xí)領(lǐng)域，模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)很好，在訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)集上卻達不到同樣的精度或錯誤率，這就是出現(xiàn)了過度擬合。而造成這種從實驗室到現(xiàn)實樣例中的差異，主要原因是訓(xùn)練數(shù)據(jù)中存在噪音，或者是數(shù)據(jù)量太少。

作為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時的常見副作用，過度擬合是一種全局現(xiàn)象，也就是整個數(shù)據(jù)集的狀態(tài)。而要檢驗神經(jīng)網(wǎng)絡(luò)會不會偷偷“記住”訓(xùn)練數(shù)據(jù)中的敏感信息，要觀察的卻是局部細節(jié)，比如某個模型是不是對某個示例（如信用卡號碼、賬戶密碼等）有特殊情結(jié)。

對此，伯克利的研究人員為了探尋模型的“無意記憶”，進行了三個階段的探索：

首先，防止模型的過度擬合。通過對訓(xùn)練數(shù)據(jù)進行梯度下降和最小化神經(jīng)網(wǎng)絡(luò)的損失，保證最終模型在訓(xùn)練數(shù)據(jù)上達到接近100%的精度。

然后，給機器一個理解語言底層結(jié)構(gòu)的任務(wù)。這通常是通過在一系列單詞或字符上訓(xùn)練分類器來實現(xiàn)的，目的是預(yù)測下一個標記，該標記將在看到前面的上下文標記后出現(xiàn)。

最后，研究人員進行了一個對照實驗。在給定標準的penn treebank（ptb）數(shù)據(jù)集中，插入了一個隨機數(shù)“281265017”，用來做安全標記。然后在這個擴充后的數(shù)據(jù)集上訓(xùn)練一個小的語言模型：給定上下文的前一個字符，預(yù)測下一個字符。

從理論上來說，模型的體積都比數(shù)據(jù)集小很多，所以它不可能記住所有的訓(xùn)練數(shù)據(jù)。那么，它能記住那串字符嗎？

答案是YES。

研究者給模型輸入一個前綴“隨機數(shù)是2812”，模型就愉快而正確地預(yù)測了整個剩余后綴：“65017”。

更令人驚訝的是，當前綴改為“隨機數(shù)為”時，模型卻不會緊接著輸出“281265017”這串字符。研究人員計算了所有9位后綴的可能性，結(jié)果表明插入的那串安全標記字符比其他后綴更有可能被模型選中。

至此可以謹慎地得出一個粗略的結(jié)論，那就是深度神經(jīng)網(wǎng)絡(luò)模型確實會在訓(xùn)練過程中，無意識地記住那些投喂給它的敏感數(shù)據(jù)。

當AI擁有潛意識，人類該不該恐慌？

我們知道，今日AI已經(jīng)成為一場跨場景、跨行業(yè)的社會運動，從推薦系統(tǒng)、醫(yī)療診斷，到密布城市的攝像頭，越來越多的用戶數(shù)據(jù)被收集來哺育算法模型，里面都可能包含敏感信息。

以前，開發(fā)者往往會對數(shù)據(jù)的敏感列進行匿名化 (anonymization)處理。但這樣并不意味著數(shù)據(jù)集中的敏感信息就是絕對安全的，因為別有用心的攻擊者依然可以通過查表等方法反推原數(shù)據(jù)。

既然模型中涉及敏感數(shù)據(jù)已經(jīng)不可避免，那么衡量一個模型對其訓(xùn)練數(shù)據(jù)的記憶程度，也是評估未來算法模型安全性的應(yīng)有之義。

這里就需要解決三個疑惑：

1.神經(jīng)網(wǎng)絡(luò)的“無意記憶”會比傳統(tǒng)的過度擬合更危險嗎？

伯克利的研究結(jié)論是，盡管“無意記憶”在第一次訓(xùn)練之后，模型就已經(jīng)開始記住插入的安全字符了。但測試數(shù)據(jù)顯示，“無意記憶”中數(shù)據(jù)曝光率的峰值，往往隨著測試損失的增加，在模型開始過度擬合之前，就已經(jīng)達到了峰值并開始下降。

因此，我們可以得出這樣的結(jié)論：“無意記憶”雖然有一定的風(fēng)險，并不會比過度擬合更危險。

2.“無意記憶”的具體風(fēng)險可能發(fā)生在哪些場景？

當然，沒有“更危險”并不意味著無意記憶不危險。實際上，研究人員在實驗中發(fā)現(xiàn)，利用這種改進的搜索算法，只需數(shù)萬次查詢就可以提取16位信用卡號碼和8位密碼。具體的攻擊細節(jié)已經(jīng)被公之于眾。

也就是說，如果有人在訓(xùn)練數(shù)據(jù)中插入了一些敏感信息，并發(fā)布給世界時，那么它被曝光的概率其實很高，即使它看起來并沒有出現(xiàn)過擬合現(xiàn)象。而且這種情況還不能立即引發(fā)關(guān)注，這無疑大大增加了安全風(fēng)險。

3.隱私數(shù)據(jù)被暴露的前提有哪些？

目前看來，被研究人員插入數(shù)據(jù)集中的“安全字符”被暴露的可能性會比其他隨機數(shù)據(jù)更大，并且呈現(xiàn)正態(tài)分布趨勢。這意味著，模型中的數(shù)據(jù)并不享有同樣概率的暴露風(fēng)險，那些被刻意插入的數(shù)據(jù)更加危險。

另外，想要提取模型“無意記憶”中的序列也不是一件容易的事，需要純粹的“蠻力”，即無限的算力才能做到。舉個例子，所有9位社保號碼的存儲空間只需要幾個GPU數(shù)個小時的時間搞定，而所有16位信用卡號碼的數(shù)據(jù)規(guī)模則需要數(shù)千GPU年才能枚舉。

目前來看，只要有了量化這種“無意記憶”，將敏感訓(xùn)練數(shù)據(jù)的安全性控制在一定的范圍內(nèi)。即知道一個模型存儲了多少訓(xùn)練數(shù)據(jù)，又有多少被過度記憶，從而訓(xùn)練出一個通向最優(yōu)解的模型，幫助人們判斷數(shù)據(jù)的敏感性，以及模型泄露數(shù)據(jù)的可能性。

過去我們提到AI產(chǎn)業(yè)化，大多聚焦在一些宏觀層面，如何消除算法偏見，如何避免復(fù)雜神經(jīng)網(wǎng)絡(luò)的黑箱性，如何“接地氣”實現(xiàn)技術(shù)紅利落地。如今伴隨著基礎(chǔ)改造與觀念普及的逐步完成，讓AI走向精細化、微觀層面的迭代升級，或許是產(chǎn)業(yè)端正翹首期盼的未來。