億條信息泄漏 AI背后隱患重重

時(shí)間：2020-05-15 22:48:01

關(guān)鍵字： AI 大數(shù)據(jù) 數(shù)據(jù)庫(kù) 代碼

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 近日，拉卡拉旗下子公司考拉征信觸及黑暗產(chǎn)業(yè)并被曝出泄露近億條個(gè)人信息的新聞刷爆了整個(gè)科技產(chǎn)業(yè)，同時(shí)考拉征信背后的9個(gè)股東中，有5家為上市公司： · 拉卡拉支付股份有限公司，股票代碼為30

近日，拉卡拉旗下子公司考拉征信觸及黑暗產(chǎn)業(yè)并被曝出泄露近億條個(gè)人信息的新聞刷爆了整個(gè)科技產(chǎn)業(yè)，同時(shí)考拉征信背后的9個(gè)股東中，有5家為上市公司：

· 拉卡拉支付股份有限公司，股票代碼為300773，持股比例達(dá)到32．4％；是支付寶和微信之后的第三大支付公司；

· 北京數(shù)知科技股份有限公司，股票代碼為300038；是一家以技術(shù)和數(shù)據(jù)作為驅(qū)動(dòng)的大數(shù)據(jù)＋人工智能科技公司；

· 拓爾思信息技術(shù)股份有限公司，股票代碼為300229；是一家從事以非結(jié)構(gòu)化信息處理為核心的軟件研發(fā)、銷售和技術(shù)服務(wù)的企業(yè)，是中文全文檢索技術(shù)的創(chuàng)始者，曾在在中國(guó)企業(yè)搜索軟件、Web內(nèi)容管理軟件、垂直搜索及輿情監(jiān)測(cè)軟件等領(lǐng)域市場(chǎng)份額排名第一；

· 北京旋極信息技術(shù)股份有限公司，股票代碼為300324；是一家專注于從事嵌入式系統(tǒng)的開(kāi)發(fā)、生產(chǎn)、銷售和技術(shù)服務(wù)業(yè)務(wù)的公司；致力于提供面向國(guó)防軍工的嵌入式系統(tǒng)測(cè)試產(chǎn)品及技術(shù)服務(wù)、嵌入式信息安全產(chǎn)品和嵌入式行業(yè)智能移動(dòng)終端產(chǎn)品；

· 北京藍(lán)色光標(biāo)數(shù)據(jù)科技股份有限公司，股票代碼為300058；主營(yíng)業(yè)務(wù)為公共關(guān)系咨詢服務(wù)和廣告服務(wù)。

僅分析這5家上市公司我們發(fā)現(xiàn)，清一色跟大數(shù)據(jù)、人工智能相關(guān)，部分甚至在行業(yè)中具有相當(dāng)?shù)挠绊懥Α?/p>

大數(shù)據(jù)／AI公司特點(diǎn)

表面看，考拉征信爆發(fā)的原因是因?yàn)槠淅檬诸^掌握的個(gè)人信息資源的便利，向下游兜售，最終形成了黑色產(chǎn)業(yè)鏈。

實(shí)際上，目前的大數(shù)據(jù)公司、人工智能公司，都存在個(gè)人信息匯集的問(wèn)題。我們知道，人工智能得以快速發(fā)展、成熟的3個(gè)要素中，數(shù)據(jù)是其中不可或缺的一環(huán)，AI算法的優(yōu)化，需要通過(guò)無(wú)數(shù)的數(shù)據(jù)訓(xùn)練，才能得道最為優(yōu)化的結(jié)果，因此，我們現(xiàn)在看到的人臉識(shí)別、車牌識(shí)別、大數(shù)據(jù)軌跡碰撞等人工智能應(yīng)用，背后都是多年的人工智能算法訓(xùn)練的成果。

可以說(shuō)，應(yīng)用效果越好的AI算法，往往背后支撐的數(shù)據(jù)越龐大，而且通常這些用于訓(xùn)練的數(shù)據(jù)基本都是以萬(wàn)為單位，百萬(wàn)級(jí)都屬于比較低的量級(jí)；在交通領(lǐng)域，百億級(jí)數(shù)據(jù)都是常有的事。

兩個(gè)渠道獲取數(shù)據(jù)來(lái)源

隨著大數(shù)據(jù)、人工智能技術(shù)的成熟，可關(guān)聯(lián)的數(shù)據(jù)越來(lái)越多，除了人臉、人外形、車牌等直觀可抓拍的數(shù)據(jù)外，還可與姓名、身份證號(hào)、手機(jī)號(hào)、家庭地址、家庭成員、財(cái)產(chǎn)情況、過(guò)往經(jīng)歷等信息關(guān)聯(lián)起來(lái)。

人臉、車牌等信息可通過(guò)攝像機(jī)獲得，但是第二類信息的獲取則涉及公民隱私，難度非常大。不過(guò)，在國(guó)家鼓勵(lì)企業(yè)發(fā)展人工智能技術(shù)的前提下，總會(huì)有一些政策支持，讓部分企業(yè)可以接觸到的部分個(gè)人信息，例如將人工智能對(duì)接到戶籍、公安、交通、教育、金融等信息系統(tǒng)，通過(guò)抓拍的圖片與從第三方接口獲取的信息比對(duì)，即可把信息關(guān)聯(lián)起來(lái)，從而實(shí)現(xiàn)數(shù)據(jù)碰撞。

這是目前人工智能企業(yè)獲取公民信息的合法渠道。通過(guò)這一渠道，AI公司、大數(shù)據(jù)公司可以對(duì)接到全國(guó)所有的人口信息、車輛信息、財(cái)產(chǎn)信息；一些黑名單更是全方位開(kāi)放給這些公司。

早些時(shí)候，張學(xué)友演唱會(huì)頻繁被爆出通過(guò)人臉識(shí)別技術(shù)抓獲多名疑犯就是個(gè)人數(shù)據(jù)公開(kāi)給AI公司并做數(shù)據(jù)碰撞帶來(lái)的結(jié)果。

但并不是所有AI算法公司都有資格合法接觸到如此眾多的個(gè)人信息，部分企業(yè)為了獲得充分的數(shù)據(jù)來(lái)充實(shí)AI算法訓(xùn)練庫(kù)，通常會(huì)采取一些基于研發(fā)目的的數(shù)據(jù)收集行為，如攝像機(jī)抓拍、網(wǎng)上下載等。

AI兩面，隱患重重

AI人工智能技術(shù)的推出，本是為了賦能于行業(yè)，服務(wù)于人類；但凡事都有兩面性，用得好，它是一項(xiàng)好技術(shù)，若是某個(gè)環(huán)節(jié)出現(xiàn)偏差，將會(huì)帶來(lái)不可挽回的損失。如考拉征信，其上游為其開(kāi)放數(shù)據(jù)接口，是為滿足其企業(yè)發(fā)展，但他們卻用這一獨(dú)享資源來(lái)進(jìn)行非法經(jīng)營(yíng)，導(dǎo)致了大量的個(gè)人信息泄露。

而且，這部分已經(jīng)泄露的信息，短時(shí)間內(nèi)是無(wú)法抹去的，因?yàn)橐?u>存儲(chǔ)于下游各個(gè)環(huán)節(jié)的服務(wù)器中。

而AI技術(shù)的強(qiáng)大之處還在于，除了合法渠道，它自己也可以通過(guò)數(shù)據(jù)碰撞獲得個(gè)人信息。

我們知道，大數(shù)據(jù)時(shí)代，通過(guò)人工智能技術(shù)對(duì)數(shù)據(jù)的加工、處理、碰撞，可以獲得很多我們意想不到的信息，如行人軌跡、個(gè)人關(guān)系網(wǎng)、個(gè)人飲食愛(ài)好、個(gè)人投資偏向等，都可以分析出來(lái)。

同樣的，在這個(gè)網(wǎng)絡(luò)時(shí)代，個(gè)人信息其實(shí)都已經(jīng)公開(kāi)于網(wǎng)上，如征婚網(wǎng)站、汽車網(wǎng)站、房產(chǎn)網(wǎng)站、股市資訊網(wǎng)站、各大門戶的會(huì)員系統(tǒng)、支付寶／微信的支付系統(tǒng)等，都有著數(shù)量龐大、形形色色的個(gè)人信息。通常情況下，這些信息是相互孤立的，但在人工智能技術(shù)下，通過(guò)信息采集、比對(duì)、分析、融合，可以匯聚成完整的個(gè)人信息，這將形成一條非常龐大的黑色產(chǎn)業(yè)鏈，如某個(gè)網(wǎng)站有某人的頭像、手機(jī)號(hào)等少數(shù)個(gè)人信息，另一平臺(tái)有身份證號(hào)、手機(jī)號(hào)等個(gè)人信息，通過(guò)數(shù)據(jù)碰撞，即可將這些信息匯總；如果都有人物照片，直接通過(guò)人像比對(duì)就可以判斷是否為同一人，進(jìn)而便捷地獲取個(gè)人信息；通過(guò)這些技術(shù)，類似考拉征信牽涉的黑產(chǎn)業(yè)將會(huì)再次低成本地上演。

截止2018年底，我國(guó)人工智能企業(yè)超過(guò)1000家，企業(yè)規(guī)模從初創(chuàng)期到1000億級(jí)市值，他們用于AI訓(xùn)練的數(shù)據(jù)庫(kù)來(lái)源形色各異，但不可否認(rèn)的是，大部分都涉及到了個(gè)人隱私問(wèn)題，這些企業(yè)如何利用和保護(hù)好這些數(shù)據(jù)？他們開(kāi)發(fā)的AI應(yīng)用，如何在下游中不被非法使用？

已經(jīng)擺在了產(chǎn)業(yè)面前。

延伸：微軟刪除千萬(wàn)級(jí)人臉數(shù)據(jù)庫(kù)

微軟曾經(jīng)搜集并整理了一個(gè)千萬(wàn)級(jí)的人臉數(shù)據(jù)庫(kù)用于AI訓(xùn)練，該數(shù)據(jù)庫(kù)公開(kāi)后，被眾多機(jī)構(gòu)和個(gè)人下載，并引發(fā)了公眾的不滿。為此，微軟特意把自己的千萬(wàn)級(jí)人臉庫(kù)刪除。

但公眾認(rèn)為，雖然微軟刪除了自己的數(shù)據(jù)庫(kù)，但該數(shù)據(jù)庫(kù)在共享之后，其實(shí)已經(jīng)遍布于世界各地的硬盤(pán)中，信息泄露已無(wú)可避免。