當前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 好久沒有跟大家聊聊算法方面的新研究了。理由當然不是學(xué)術(shù)領(lǐng)域沒有新聞,畢竟頂會們收到的論文也是盆滿缽滿。但總體而言,說深度學(xué)習(xí)的理論研究一直在瓶頸期徘徊,想必也少有人會反對。 深度學(xué)習(xí)在應(yīng)

好久沒有跟大家聊聊算法方面的新研究了。理由當然不是學(xué)術(shù)領(lǐng)域沒有新聞,畢竟頂會們收到的論文也是盆滿缽滿。但總體而言,說深度學(xué)習(xí)的理論研究一直在瓶頸期徘徊,想必也少有人會反對。

深度學(xué)習(xí)在應(yīng)用上與廣大傳統(tǒng)行業(yè)融合,讓AI獲得了前所未有的大爆發(fā)。但正如斯坦福大學(xué)教授李飛飛所說,(深度學(xué)習(xí))無論在智力、人力或機器設(shè)備方面,都還有很長的路要走。

學(xué)無止境,不過在很長一段時間內(nèi),算法領(lǐng)域幾乎沒有什么重大顯著的進步,這也導(dǎo)致模型在落地部署中顯露出的一些先天不足,也使AI沒有停止過被質(zhì)疑的命運。比如人工智能泛濫所帶來的隱私問題,在要求科技企業(yè)進行自我約束的同時,對算法的優(yōu)化與完善顯然也很必要。

AI會如何影響人們的隱私?僅靠一篇文章或許無法回答這個復(fù)雜問題,但我們希望現(xiàn)在就開始拋出它。

神經(jīng)網(wǎng)絡(luò)擁有記憶

在探討隱私問題之前,我們先來聊聊老生常談的LSTM模型。

關(guān)于其作用,我們已經(jīng)有過很多介紹了,簡單來說,就是在神經(jīng)網(wǎng)絡(luò)上加入記憶的概念,使模型可以記住長時間序列上的信息,并作出預(yù)測。AI能寫出語句更通順的文章、與人類進行流暢自然的多輪對話等等神奇能力,都建立在這一能力基礎(chǔ)上。

隨后很長一段時間內(nèi),科學(xué)家們對神經(jīng)網(wǎng)絡(luò)的記憶進行了一系列的補充和擴展。比如引入注意力機制,讓LSTM網(wǎng)絡(luò)可以對信息進行長期而精確的跟蹤。再比如運用外部記憶來增強時序生成模型,提升卷積網(wǎng)絡(luò)的性能。

總的來說,記憶能力的提升,一方面賦予了神經(jīng)網(wǎng)絡(luò)對關(guān)系進行復(fù)雜推理的能力這使其智能得以明顯提高;而在應(yīng)用端,寫作、翻譯、客服系統(tǒng)等智能系統(tǒng)的體驗也大幅度升級。某種程度上,記憶是AI撕掉“人工智障”這一印象標簽的開始。

不過,擁有記憶力,也代表著兩個問題:一是神經(jīng)網(wǎng)絡(luò)必須要學(xué)會遺忘,從而釋放出存儲空間,只保留那些重要信息。比如某部小說中一個篇章結(jié)束,那模型應(yīng)當重置相關(guān)信息,只保留對應(yīng)的結(jié)果。

另外,神經(jīng)網(wǎng)絡(luò)的“潛意識”也需要被警惕。簡單來說,就是經(jīng)過在敏感的用戶數(shù)據(jù)上進行訓(xùn)練之后,機器學(xué)習(xí)模型被發(fā)布給公眾時會不會不自覺地帶出那些敏感信息呢?在這個人人皆可被采集的全民數(shù)字化時代,這是不是意味著隱私風(fēng)險在加劇?

AI真的會偷偷記住隱私嗎?

對于這個問題,伯克利大學(xué)的研究人員做了一系列實驗,答案也許震撼很多人,那就是——你的數(shù)據(jù),AI可能都記在心里了。

想要理解神經(jīng)網(wǎng)絡(luò)的“無意記憶”,首先要引入一個概念,即過度擬合。

在深度學(xué)習(xí)領(lǐng)域,模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)很好,在訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)集上卻達不到同樣的精度或錯誤率,這就是出現(xiàn)了過度擬合。而造成這種從實驗室到現(xiàn)實樣例中的差異,主要原因是訓(xùn)練數(shù)據(jù)中存在噪音,或者是數(shù)據(jù)量太少。

作為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時的常見副作用,過度擬合是一種全局現(xiàn)象,也就是整個數(shù)據(jù)集的狀態(tài)。而要檢驗神經(jīng)網(wǎng)絡(luò)會不會偷偷“記住”訓(xùn)練數(shù)據(jù)中的敏感信息,要觀察的卻是局部細節(jié),比如某個模型是不是對某個示例(如信用卡號碼、賬戶密碼等)有特殊情結(jié)。

對此,伯克利的研究人員為了探尋模型的“無意記憶”,進行了三個階段的探索:

首先,防止模型的過度擬合。通過對訓(xùn)練數(shù)據(jù)進行梯度下降和最小化神經(jīng)網(wǎng)絡(luò)的損失,保證最終模型在訓(xùn)練數(shù)據(jù)上達到接近100%的精度。

然后,給機器一個理解語言底層結(jié)構(gòu)的任務(wù)。這通常是通過在一系列單詞或字符上訓(xùn)練分類器來實現(xiàn)的,目的是預(yù)測下一個標記,該標記將在看到前面的上下文標記后出現(xiàn)。

最后,研究人員進行了一個對照實驗。在給定標準的penn treebank(ptb)數(shù)據(jù)集中,插入了一個隨機數(shù)“281265017”,用來做安全標記。然后在這個擴充后的數(shù)據(jù)集上訓(xùn)練一個小的語言模型:給定上下文的前一個字符,預(yù)測下一個字符。

從理論上來說,模型的體積都比數(shù)據(jù)集小很多,所以它不可能記住所有的訓(xùn)練數(shù)據(jù)。那么,它能記住那串字符嗎?

答案是YES。

研究者給模型輸入一個前綴“隨機數(shù)是2812”,模型就愉快而正確地預(yù)測了整個剩余后綴:“65017”。

更令人驚訝的是,當前綴改為“隨機數(shù)為”時,模型卻不會緊接著輸出“281265017”這串字符。研究人員計算了所有9位后綴的可能性,結(jié)果表明插入的那串安全標記字符比其他后綴更有可能被模型選中。

至此可以謹慎地得出一個粗略的結(jié)論,那就是深度神經(jīng)網(wǎng)絡(luò)模型確實會在訓(xùn)練過程中,無意識地記住那些投喂給它的敏感數(shù)據(jù)。

當AI擁有潛意識,人類該不該恐慌?

我們知道,今日AI已經(jīng)成為一場跨場景、跨行業(yè)的社會運動,從推薦系統(tǒng)、醫(yī)療診斷,到密布城市的攝像頭,越來越多的用戶數(shù)據(jù)被收集來哺育算法模型,里面都可能包含敏感信息。

以前,開發(fā)者往往會對數(shù)據(jù)的敏感列進行匿名化 (anonymization)處理。但這樣并不意味著數(shù)據(jù)集中的敏感信息就是絕對安全的,因為別有用心的攻擊者依然可以通過查表等方法反推原數(shù)據(jù)。

既然模型中涉及敏感數(shù)據(jù)已經(jīng)不可避免,那么衡量一個模型對其訓(xùn)練數(shù)據(jù)的記憶程度,也是評估未來算法模型安全性的應(yīng)有之義。

這里就需要解決三個疑惑:

1.神經(jīng)網(wǎng)絡(luò)的“無意記憶”會比傳統(tǒng)的過度擬合更危險嗎?

伯克利的研究結(jié)論是,盡管“無意記憶”在第一次訓(xùn)練之后,模型就已經(jīng)開始記住插入的安全字符了。但測試數(shù)據(jù)顯示,“無意記憶”中數(shù)據(jù)曝光率的峰值,往往隨著測試損失的增加,在模型開始過度擬合之前,就已經(jīng)達到了峰值并開始下降。

因此,我們可以得出這樣的結(jié)論:“無意記憶”雖然有一定的風(fēng)險,并不會比過度擬合更危險。

2.“無意記憶”的具體風(fēng)險可能發(fā)生在哪些場景?

當然,沒有“更危險”并不意味著無意記憶不危險。實際上,研究人員在實驗中發(fā)現(xiàn),利用這種改進的搜索算法,只需數(shù)萬次查詢就可以提取16位信用卡號碼和8位密碼。具體的攻擊細節(jié)已經(jīng)被公之于眾。

也就是說,如果有人在訓(xùn)練數(shù)據(jù)中插入了一些敏感信息,并發(fā)布給世界時,那么它被曝光的概率其實很高,即使它看起來并沒有出現(xiàn)過擬合現(xiàn)象。而且這種情況還不能立即引發(fā)關(guān)注,這無疑大大增加了安全風(fēng)險。

3.隱私數(shù)據(jù)被暴露的前提有哪些?

目前看來,被研究人員插入數(shù)據(jù)集中的“安全字符”被暴露的可能性會比其他隨機數(shù)據(jù)更大,并且呈現(xiàn)正態(tài)分布趨勢。這意味著,模型中的數(shù)據(jù)并不享有同樣概率的暴露風(fēng)險,那些被刻意插入的數(shù)據(jù)更加危險。

另外,想要提取模型“無意記憶”中的序列也不是一件容易的事,需要純粹的“蠻力”,即無限的算力才能做到。舉個例子,所有9位社保號碼的存儲空間只需要幾個GPU數(shù)個小時的時間搞定,而所有16位信用卡號碼的數(shù)據(jù)規(guī)模則需要數(shù)千GPU年才能枚舉。

目前來看,只要有了量化這種“無意記憶”,將敏感訓(xùn)練數(shù)據(jù)的安全性控制在一定的范圍內(nèi)。即知道一個模型存儲了多少訓(xùn)練數(shù)據(jù),又有多少被過度記憶,從而訓(xùn)練出一個通向最優(yōu)解的模型,幫助人們判斷數(shù)據(jù)的敏感性,以及模型泄露數(shù)據(jù)的可能性。

過去我們提到AI產(chǎn)業(yè)化,大多聚焦在一些宏觀層面,如何消除算法偏見,如何避免復(fù)雜神經(jīng)網(wǎng)絡(luò)的黑箱性,如何“接地氣”實現(xiàn)技術(shù)紅利落地。如今伴隨著基礎(chǔ)改造與觀念普及的逐步完成,讓AI走向精細化、微觀層面的迭代升級,或許是產(chǎn)業(yè)端正翹首期盼的未來。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉