數(shù)據(jù)投毒對(duì)于AI造成了什么影響

時(shí)間：2020-05-23 18:03:01

關(guān)鍵字： AI 模型數(shù)據(jù)安全人工智能技術(shù)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 近日，信通院發(fā)布《人工智能數(shù)據(jù)安全白皮書（2019）》，其中提到“數(shù)據(jù)投毒”，這是人工智能自身數(shù)據(jù)安全風(fēng)險(xiǎn)，即通過在訓(xùn)練數(shù)據(jù)里加入偽裝數(shù)據(jù)、惡意樣本等行為可破壞數(shù)據(jù)的完整性，進(jìn)而導(dǎo)致訓(xùn)練的算法模

近日，信通院發(fā)布《人工智能數(shù)據(jù)安全白皮書（2019）》，其中提到“數(shù)據(jù)投毒”，這是人工智能自身數(shù)據(jù)安全風(fēng)險(xiǎn)，即通過在訓(xùn)練數(shù)據(jù)里加入偽裝數(shù)據(jù)、惡意樣本等行為可破壞數(shù)據(jù)的完整性，進(jìn)而導(dǎo)致訓(xùn)練的算法模型決策出現(xiàn)偏差。

隨著人工智能技術(shù)的不斷發(fā)展，尤其是各類人工智能應(yīng)用在各行各業(yè)落地，人工智能的安全風(fēng)險(xiǎn)問題也開始受到全社會(huì)的關(guān)注。人工智能究竟會(huì)帶來哪些安全風(fēng)險(xiǎn)？中國信息通信研究院近日發(fā)布了《人工智能數(shù)據(jù)安全白皮書（2019）》（以下簡稱“白皮書”），指出了人工智能面臨的幾大數(shù)據(jù)安全風(fēng)險(xiǎn)。

“數(shù)據(jù)投毒”不容忽視

白皮書認(rèn)為，人工智能訓(xùn)練數(shù)據(jù)污染可導(dǎo)致人工智能決策錯(cuò)誤。“數(shù)據(jù)投毒”通過在訓(xùn)練數(shù)據(jù)里加入偽裝數(shù)據(jù)、惡意樣本等行為可破壞數(shù)據(jù)的完整性，進(jìn)而導(dǎo)致訓(xùn)練的算法模型決策出現(xiàn)偏差。

“數(shù)據(jù)投毒”主要有兩種攻擊方式：

一種是采用模型偏斜方式，主要攻擊目標(biāo)是訓(xùn)練數(shù)據(jù)樣本，通過污染訓(xùn)練數(shù)據(jù)達(dá)到改變分類器分類邊界的目的;

另一種則是采用反饋誤導(dǎo)方式，主要攻擊目標(biāo)是人工智能的學(xué)習(xí)模型本身，利用模型的用戶反饋機(jī)制發(fā)起攻擊，直接向模型“注入”偽裝的數(shù)據(jù)或信息，誤導(dǎo)人工智能做出錯(cuò)誤判斷。

“數(shù)據(jù)投毒”危害巨大。在自動(dòng)駕駛領(lǐng)域，“數(shù)據(jù)投毒”可導(dǎo)致車輛違反交通規(guī)則甚至造成交通事故;在軍事領(lǐng)域，通過信息偽裝的方式可誘導(dǎo)自主性武器啟動(dòng)或攻擊，從而帶來毀滅性風(fēng)險(xiǎn)。

運(yùn)行階段的數(shù)據(jù)異?？蓪?dǎo)致智能系統(tǒng)運(yùn)行錯(cuò)誤。

指出，運(yùn)行階段的數(shù)據(jù)異?？蓪?dǎo)致智能系統(tǒng)運(yùn)行錯(cuò)誤，同時(shí)，模型竊取攻擊可對(duì)算法模型的數(shù)據(jù)進(jìn)行逆向還原。此外，開源學(xué)習(xí)框架存在安全風(fēng)險(xiǎn)，也可導(dǎo)致人工智能系統(tǒng)數(shù)據(jù)泄露。

AI應(yīng)用催生新風(fēng)險(xiǎn)

在分析了人工智能自身數(shù)據(jù)安全風(fēng)險(xiǎn)之后，白皮書對(duì)于人工智能應(yīng)用導(dǎo)致的數(shù)據(jù)安全風(fēng)險(xiǎn)也進(jìn)行了解讀。

白皮書指出，人工智能應(yīng)用可導(dǎo)致個(gè)人數(shù)據(jù)過度采集，加劇隱私泄露風(fēng)險(xiǎn)。隨著各類智能設(shè)備（如智能手環(huán)、智能音箱）和智能系統(tǒng)（如生物特征識(shí)別系統(tǒng)、智能醫(yī)療系統(tǒng)）的應(yīng)用普及，人工智能設(shè)備和系統(tǒng)對(duì)個(gè)人信息采集更加直接與全面。相較于互聯(lián)網(wǎng)對(duì)用戶上網(wǎng)習(xí)慣、消費(fèi)記錄等信息采集，人工智能應(yīng)用可采集用戶人臉、指紋、聲紋、虹膜、心跳、基因等具有強(qiáng)個(gè)人屬性的生物特征信息。這些信息具有唯一性和不變性，一旦被泄露或者濫用會(huì)對(duì)公民權(quán)益將造成嚴(yán)重影響。

雖然人工智能的普及，給人們帶來了更多的便利;但是白皮書認(rèn)為，人工智能放大數(shù)據(jù)偏見歧視影響，威脅社會(huì)公平正義，人工智能技術(shù)的數(shù)據(jù)深度挖掘分析也將加劇數(shù)據(jù)資源濫用現(xiàn)象的發(fā)生，將加大社會(huì)治理和國家安全挑戰(zhàn)。具體而言，一是在社會(huì)消費(fèi)領(lǐng)域，可帶來差異化定價(jià);二是在信息傳播領(lǐng)域，可引發(fā)“信息繭房”效應(yīng)。

與此同時(shí)，人工智能技術(shù)也能夠提升網(wǎng)絡(luò)攻擊的智能化水平，進(jìn)而進(jìn)行數(shù)據(jù)智能竊取。白皮書認(rèn)為，一是人工智能可用來自動(dòng)鎖定目標(biāo)，進(jìn)行數(shù)據(jù)勒索攻擊。人工智能技術(shù)可通過對(duì)特征庫學(xué)習(xí)自動(dòng)查找系統(tǒng)漏洞和識(shí)別關(guān)鍵目標(biāo)，提高攻擊效率。二是人工智能可自動(dòng)生成大量虛假威脅情報(bào)，對(duì)分析系統(tǒng)實(shí)施攻擊。人工智能通過使用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和自然語言處理等技術(shù)處理安全大數(shù)據(jù)，能自動(dòng)生產(chǎn)威脅性情報(bào)，攻擊者也可利用相關(guān)技術(shù)生成大量錯(cuò)誤情報(bào)以混淆判斷。三是人工智能可自動(dòng)識(shí)別圖像驗(yàn)證碼，能夠竊取系統(tǒng)數(shù)據(jù)。圖像驗(yàn)證碼是一種防止機(jī)器人賬戶濫用網(wǎng)站或服務(wù)的常用驗(yàn)證措施，通過解決視覺難題來驗(yàn)證人類用戶，以有效區(qū)分?jǐn)r截惡意程序，保護(hù)系統(tǒng)數(shù)據(jù)安全。

數(shù)據(jù)治理挑戰(zhàn)加劇

白皮書指出，人工智能提升了數(shù)據(jù)資源價(jià)值，使得數(shù)據(jù)權(quán)屬問題更為突出。從個(gè)人層面上看，數(shù)據(jù)權(quán)屬體現(xiàn)為公民的數(shù)據(jù)權(quán)利，個(gè)人隱私保護(hù)面臨挑戰(zhàn)。用戶個(gè)人隱私信息含金量高，是人工智能技術(shù)與產(chǎn)業(yè)發(fā)展的重要驅(qū)動(dòng)，然而相關(guān)機(jī)構(gòu)在利用用戶數(shù)據(jù)時(shí)往往忽視用戶個(gè)人隱私權(quán)益。從行業(yè)層面上看，數(shù)據(jù)權(quán)屬體現(xiàn)為企業(yè)的數(shù)據(jù)產(chǎn)權(quán)，數(shù)據(jù)壟斷損害行業(yè)整體發(fā)展。人工智能技術(shù)使數(shù)據(jù)經(jīng)濟(jì)價(jià)值越發(fā)凸顯，數(shù)據(jù)已成為企業(yè)的核心資產(chǎn)，相關(guān)企業(yè)積極儲(chǔ)備數(shù)據(jù)資源，并阻止競爭對(duì)手獲得數(shù)據(jù)，力圖壟斷數(shù)據(jù)資源來使企業(yè)利益最大化。

白皮書認(rèn)為，數(shù)據(jù)產(chǎn)權(quán)之爭將加劇數(shù)據(jù)壟斷。一方面，科技巨頭依托網(wǎng)絡(luò)覆蓋和用戶規(guī)模，加強(qiáng)數(shù)據(jù)匯聚;另一方面，人工智能中小企業(yè)獲取數(shù)據(jù)的渠道受限，數(shù)據(jù)資源匱乏。企業(yè)在數(shù)據(jù)產(chǎn)權(quán)沒有被廣泛認(rèn)可、以及數(shù)據(jù)流動(dòng)環(huán)節(jié)存在安全風(fēng)險(xiǎn)的前提下，無論是從維護(hù)自身利益角度還是從遵守法律法規(guī)角度出發(fā)，都不愿將自身數(shù)據(jù)進(jìn)行共享，這將導(dǎo)致初創(chuàng)企業(yè)和研究機(jī)構(gòu)在算法設(shè)計(jì)和優(yōu)化過程中無數(shù)據(jù)可用，損害我國人工智能行業(yè)整體發(fā)展。

當(dāng)前，隨著人工智能在科技競爭中的戰(zhàn)略地位日漸凸顯，數(shù)據(jù)的違規(guī)跨境將直接影響國家安全。白皮書顯示，目前，世界主要國家都制定了人工智能發(fā)展戰(zhàn)略，對(duì)數(shù)據(jù)的依賴度快速提升，數(shù)據(jù)作為國家基礎(chǔ)性戰(zhàn)略資源的地位更加突出。為快速積累數(shù)據(jù)，科技企業(yè)通過向消費(fèi)者提供特定領(lǐng)域免費(fèi)應(yīng)用、使用政府公開數(shù)據(jù)以及進(jìn)行產(chǎn)業(yè)上下游數(shù)據(jù)協(xié)同等方式獲取盡可能多的數(shù)據(jù)。以Facebook、谷歌為代表的美國科技巨頭，依托其龐大用戶規(guī)模和強(qiáng)大數(shù)據(jù)抓取工具，在全球范圍內(nèi)進(jìn)行數(shù)據(jù)收集，強(qiáng)化數(shù)據(jù)資源優(yōu)勢，推進(jìn)自身人工智能發(fā)展，這無疑將加劇數(shù)據(jù)違規(guī)跨境流動(dòng)風(fēng)險(xiǎn)。

來源：人民郵電報(bào)