億條信息泄漏 AI背后隱患重重
掃描二維碼
隨時(shí)隨地手機(jī)看文章
近日,拉卡拉旗下子公司考拉征信觸及黑暗產(chǎn)業(yè)并被曝出泄露近億條個(gè)人信息的新聞刷爆了整個(gè)科技產(chǎn)業(yè),同時(shí)考拉征信背后的9個(gè)股東中,有5家為上市公司:
· 拉卡拉支付股份有限公司,股票代碼為300773,持股比例達(dá)到32.4%;是支付寶和微信之后的第三大支付公司;
· 北京數(shù)知科技股份有限公司,股票代碼為300038;是一家以技術(shù)和數(shù)據(jù)作為驅(qū)動(dòng)的大數(shù)據(jù)+人工智能科技公司;
· 拓爾思信息技術(shù)股份有限公司,股票代碼為300229;是一家從事以非結(jié)構(gòu)化信息處理為核心的軟件研發(fā)、銷售和技術(shù)服務(wù)的企業(yè),是中文全文檢索技術(shù)的創(chuàng)始者,曾在在中國(guó)企業(yè)搜索軟件、Web內(nèi)容管理軟件、垂直搜索及輿情監(jiān)測(cè)軟件等領(lǐng)域市場(chǎng)份額排名第一;
· 北京旋極信息技術(shù)股份有限公司,股票代碼為300324;是一家專注于從事嵌入式系統(tǒng)的開(kāi)發(fā)、生產(chǎn)、銷售和技術(shù)服務(wù)業(yè)務(wù)的公司;致力于提供面向國(guó)防軍工的嵌入式系統(tǒng)測(cè)試產(chǎn)品及技術(shù)服務(wù)、嵌入式信息安全產(chǎn)品和嵌入式行業(yè)智能移動(dòng)終端產(chǎn)品;
· 北京藍(lán)色光標(biāo)數(shù)據(jù)科技股份有限公司,股票代碼為300058;主營(yíng)業(yè)務(wù)為公共關(guān)系咨詢服務(wù)和廣告服務(wù)。
僅分析這5家上市公司我們發(fā)現(xiàn),清一色跟大數(shù)據(jù)、人工智能相關(guān),部分甚至在行業(yè)中具有相當(dāng)?shù)挠绊懥Α?/p>
大數(shù)據(jù)/AI公司特點(diǎn)
表面看,考拉征信爆發(fā)的原因是因?yàn)槠淅檬诸^掌握的個(gè)人信息資源的便利,向下游兜售,最終形成了黑色產(chǎn)業(yè)鏈。
實(shí)際上,目前的大數(shù)據(jù)公司、人工智能公司,都存在個(gè)人信息匯集的問(wèn)題。我們知道,人工智能得以快速發(fā)展、成熟的3個(gè)要素中,數(shù)據(jù)是其中不可或缺的一環(huán),AI算法的優(yōu)化,需要通過(guò)無(wú)數(shù)的數(shù)據(jù)訓(xùn)練,才能得道最為優(yōu)化的結(jié)果,因此,我們現(xiàn)在看到的人臉識(shí)別、車牌識(shí)別、大數(shù)據(jù)軌跡碰撞等人工智能應(yīng)用,背后都是多年的人工智能算法訓(xùn)練的成果。
可以說(shuō),應(yīng)用效果越好的AI算法,往往背后支撐的數(shù)據(jù)越龐大,而且通常這些用于訓(xùn)練的數(shù)據(jù)基本都是以萬(wàn)為單位,百萬(wàn)級(jí)都屬于比較低的量級(jí);在交通領(lǐng)域,百億級(jí)數(shù)據(jù)都是常有的事。
兩個(gè)渠道獲取數(shù)據(jù)來(lái)源
隨著大數(shù)據(jù)、人工智能技術(shù)的成熟,可關(guān)聯(lián)的數(shù)據(jù)越來(lái)越多,除了人臉、人外形、車牌等直觀可抓拍的數(shù)據(jù)外,還可與姓名、身份證號(hào)、手機(jī)號(hào)、家庭地址、家庭成員、財(cái)產(chǎn)情況、過(guò)往經(jīng)歷等信息關(guān)聯(lián)起來(lái)。
人臉、車牌等信息可通過(guò)攝像機(jī)獲得,但是第二類信息的獲取則涉及公民隱私,難度非常大。不過(guò),在國(guó)家鼓勵(lì)企業(yè)發(fā)展人工智能技術(shù)的前提下,總會(huì)有一些政策支持,讓部分企業(yè)可以接觸到的部分個(gè)人信息,例如將人工智能對(duì)接到戶籍、公安、交通、教育、金融等信息系統(tǒng),通過(guò)抓拍的圖片與從第三方接口獲取的信息比對(duì),即可把信息關(guān)聯(lián)起來(lái),從而實(shí)現(xiàn)數(shù)據(jù)碰撞。
這是目前人工智能企業(yè)獲取公民信息的合法渠道。通過(guò)這一渠道,AI公司、大數(shù)據(jù)公司可以對(duì)接到全國(guó)所有的人口信息、車輛信息、財(cái)產(chǎn)信息;一些黑名單更是全方位開(kāi)放給這些公司。
早些時(shí)候,張學(xué)友演唱會(huì)頻繁被爆出通過(guò)人臉識(shí)別技術(shù)抓獲多名疑犯就是個(gè)人數(shù)據(jù)公開(kāi)給AI公司并做數(shù)據(jù)碰撞帶來(lái)的結(jié)果。
但并不是所有AI算法公司都有資格合法接觸到如此眾多的個(gè)人信息,部分企業(yè)為了獲得充分的數(shù)據(jù)來(lái)充實(shí)AI算法訓(xùn)練庫(kù),通常會(huì)采取一些基于研發(fā)目的的數(shù)據(jù)收集行為,如攝像機(jī)抓拍、網(wǎng)上下載等。
AI兩面,隱患重重
AI人工智能技術(shù)的推出,本是為了賦能于行業(yè),服務(wù)于人類;但凡事都有兩面性,用得好,它是一項(xiàng)好技術(shù),若是某個(gè)環(huán)節(jié)出現(xiàn)偏差,將會(huì)帶來(lái)不可挽回的損失。如考拉征信,其上游為其開(kāi)放數(shù)據(jù)接口,是為滿足其企業(yè)發(fā)展,但他們卻用這一獨(dú)享資源來(lái)進(jìn)行非法經(jīng)營(yíng),導(dǎo)致了大量的個(gè)人信息泄露。
而且,這部分已經(jīng)泄露的信息,短時(shí)間內(nèi)是無(wú)法抹去的,因?yàn)橐?u>存儲(chǔ)于下游各個(gè)環(huán)節(jié)的服務(wù)器中。
而AI技術(shù)的強(qiáng)大之處還在于,除了合法渠道,它自己也可以通過(guò)數(shù)據(jù)碰撞獲得個(gè)人信息。
我們知道,大數(shù)據(jù)時(shí)代,通過(guò)人工智能技術(shù)對(duì)數(shù)據(jù)的加工、處理、碰撞,可以獲得很多我們意想不到的信息,如行人軌跡、個(gè)人關(guān)系網(wǎng)、個(gè)人飲食愛(ài)好、個(gè)人投資偏向等,都可以分析出來(lái)。
同樣的,在這個(gè)網(wǎng)絡(luò)時(shí)代,個(gè)人信息其實(shí)都已經(jīng)公開(kāi)于網(wǎng)上,如征婚網(wǎng)站、汽車網(wǎng)站、房產(chǎn)網(wǎng)站、股市資訊網(wǎng)站、各大門戶的會(huì)員系統(tǒng)、支付寶/微信的支付系統(tǒng)等,都有著數(shù)量龐大、形形色色的個(gè)人信息。通常情況下,這些信息是相互孤立的,但在人工智能技術(shù)下,通過(guò)信息采集、比對(duì)、分析、融合,可以匯聚成完整的個(gè)人信息,這將形成一條非常龐大的黑色產(chǎn)業(yè)鏈,如某個(gè)網(wǎng)站有某人的頭像、手機(jī)號(hào)等少數(shù)個(gè)人信息,另一平臺(tái)有身份證號(hào)、手機(jī)號(hào)等個(gè)人信息,通過(guò)數(shù)據(jù)碰撞,即可將這些信息匯總;如果都有人物照片,直接通過(guò)人像比對(duì)就可以判斷是否為同一人,進(jìn)而便捷地獲取個(gè)人信息;通過(guò)這些技術(shù),類似考拉征信牽涉的黑產(chǎn)業(yè)將會(huì)再次低成本地上演。
截止2018年底,我國(guó)人工智能企業(yè)超過(guò)1000家,企業(yè)規(guī)模從初創(chuàng)期到1000億級(jí)市值,他們用于AI訓(xùn)練的數(shù)據(jù)庫(kù)來(lái)源形色各異,但不可否認(rèn)的是,大部分都涉及到了個(gè)人隱私問(wèn)題,這些企業(yè)如何利用和保護(hù)好這些數(shù)據(jù)?他們開(kāi)發(fā)的AI應(yīng)用,如何在下游中不被非法使用?
已經(jīng)擺在了產(chǎn)業(yè)面前。
延伸:微軟刪除千萬(wàn)級(jí)人臉數(shù)據(jù)庫(kù)
微軟曾經(jīng)搜集并整理了一個(gè)千萬(wàn)級(jí)的人臉數(shù)據(jù)庫(kù)用于AI訓(xùn)練,該數(shù)據(jù)庫(kù)公開(kāi)后,被眾多機(jī)構(gòu)和個(gè)人下載,并引發(fā)了公眾的不滿。為此,微軟特意把自己的千萬(wàn)級(jí)人臉庫(kù)刪除。
但公眾認(rèn)為,雖然微軟刪除了自己的數(shù)據(jù)庫(kù),但該數(shù)據(jù)庫(kù)在共享之后,其實(shí)已經(jīng)遍布于世界各地的硬盤(pán)中,信息泄露已無(wú)可避免。