智能變革時代人工智能技術(shù)正在“賦能”各行各業(yè)

時間：2020-05-01 23:30:01

關(guān)鍵字：人工智能技術(shù) 機(jī)器學(xué)習(xí) AI技術(shù) AI算法

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 我們處在一個智能變革的時代，人工智能技術(shù)正在“賦能”各行各業(yè)。大數(shù)據(jù)就像新能源，AI算法就像發(fā)動機(jī)，裝載了大數(shù)據(jù)和人工智能技術(shù)的企業(yè)就像搭上了一班通往未來的快速列車，把競爭對手遠(yuǎn)遠(yuǎn)地甩在后面。

我們處在一個智能變革的時代，人工智能技術(shù)正在“賦能”各行各業(yè)。大數(shù)據(jù)就像新能源，AI算法就像發(fā)動機(jī)，裝載了大數(shù)據(jù)和人工智能技術(shù)的企業(yè)就像搭上了一班通往未來的快速列車，把競爭對手遠(yuǎn)遠(yuǎn)地甩在后面。

隱私

然而，這樣的快速發(fā)展不是沒有代價的。我們每個人的手機(jī)號、電子郵箱、家庭地址和公司地址經(jīng)緯度坐標(biāo)、手機(jī)識別碼、消費(fèi)記錄、APP使用記錄、上網(wǎng)瀏覽記錄、搜索引擎結(jié)果的點(diǎn)擊習(xí)慣、刷臉記錄、指紋、心跳等等這些信息都是我們不愿意輕易給出的隱私數(shù)據(jù)，但在AI時代，這很可能已經(jīng)成為某個公司用來訓(xùn)練AI算法的數(shù)據(jù)集中的一條。

正是眾多不起眼的一條條個人隱私數(shù)據(jù)，構(gòu)成了足夠多的訓(xùn)練集，讓AI從中學(xué)習(xí)到認(rèn)知能力，讓從未跟我們謀面的AI算法認(rèn)識、了解我們，知道我們的喜好和動機(jī)，甚至還認(rèn)識我們的家人、朋友。我們的隱私便是實(shí)現(xiàn)這些智能的“代價”。

當(dāng)然，這個代價并不一定是你愿意拱手付出的。

那如何保護(hù)隱私？我不用行嗎？

你以為關(guān)閉手機(jī)GPS就無法定位你的位置？你的手機(jī)還有陀螺儀、內(nèi)置羅盤、氣壓計(jì)等裝置，還是可以用來定位你的位置。只要使用手機(jī)，就不存在絕對的隱私保護(hù)。

對于很多手機(jī)應(yīng)用來說，要么不用，用了就很難避免泄露隱私，比如很多APP須用手機(jī)號注冊，或者需要手機(jī)驗(yàn)證才能繼續(xù)使用，還有的需要刷臉驗(yàn)證等等。那么，個人想保護(hù)隱私能做什么？什么也做不了，加上AI算法的黑盒性質(zhì)，我們甚至對于AI背后的邏輯和動機(jī)一無所知。

監(jiān)管

隱私保護(hù)靠個人防護(hù)真的很難實(shí)現(xiàn)，需要強(qiáng)有力的法律法規(guī)來限制。

2018年5月25日，歐盟的《通用數(shù)據(jù)保護(hù)條例》（GDPR）正式生效，這是在歐盟范圍內(nèi)的一個數(shù)據(jù)保護(hù)監(jiān)管框架，這是目前完善、嚴(yán)格的隱私保護(hù)規(guī)定。根據(jù)DLA Piper公布的數(shù)據(jù)，在不到兩年的時間內(nèi)，GDPR已產(chǎn)生1.14億歐元的罰款，其中開出的最大罰單是法國依據(jù)GDPR對谷歌罰款5000萬歐元，理由是谷歌在向用戶定向發(fā)送廣告時缺乏透明度、信息不足，且未獲得用戶有效許可。下圖是GDPR生效以來至2020年1月份歐盟各個國家罰款的金額分布圖。

對于企業(yè)，GDPR要求在收集用戶的個人信息之前，須以“簡潔、透明且易懂的形式，清晰和平白的語言”向用戶說明將收集用戶的哪些信息、收集到的信息將如何進(jìn)行存儲、存儲的信息將會被如何使用，并告知企業(yè)的聯(lián)系方式。

對于個人，GDPR賦予數(shù)據(jù)主體七項(xiàng)數(shù)據(jù)權(quán)利：知情權(quán)、訪問權(quán)、修正權(quán)、刪除權(quán)（被遺忘權(quán)）、限制處理權(quán)（反對權(quán)）、可攜帶權(quán)、拒絕權(quán)。目前GDPR在真實(shí)地影響到我們每個人的生活，直觀的影響就是當(dāng)你瀏覽網(wǎng)頁的時候，你會發(fā)現(xiàn)經(jīng)常遇到網(wǎng)站彈出類似下圖的提示，這是網(wǎng)站基于信息透明性的規(guī)定，向你征詢信息收集的許可。

歐盟的GDPR具有全球影響力，它讓用戶對自己的個人數(shù)據(jù)有掌控權(quán)，讓全球在發(fā)展新技術(shù)的同時須開始關(guān)注隱私問題，世界各國已經(jīng)紛紛出臺自己的數(shù)據(jù)保護(hù)法規(guī)。

關(guān)于隱私保護(hù)，一切才剛剛開始。

歐盟在上個月正式啟動了稱為“打造歐洲數(shù)字未來”的新戰(zhàn)略，打算通過制定一系列針對AI、隱私和安全的法規(guī)，成為AI發(fā)展的全球領(lǐng)導(dǎo)者。該戰(zhàn)略的啟動也被看成是在應(yīng)對美國和中國的AI崛起。

可以預(yù)見，關(guān)于AI的隱私安全與監(jiān)管將逐漸成為重點(diǎn)話題，實(shí)際上，就像歐盟委員會副主席Margrethe Vestager說的：“人工智能本身并沒有好壞之分，而是取決于人們?yōu)槭裁匆约叭绾问褂盟?。讓我們盡可能做到最好，控制人工智能可能給我們的價值觀帶來的風(fēng)險——不傷害，不歧視?！?/p>

保護(hù)隱私已經(jīng)成為AI發(fā)展不可繞過的“檻”，是AI技術(shù)的難題，也是AI良性發(fā)展的契機(jī)。

趨勢

可以說，保護(hù)隱私的各種法規(guī)的出臺必然是未來不可避免的趨勢，這勢必讓企業(yè)的數(shù)據(jù)收集、使用及流通的合規(guī)成本大幅增加，也容易讓企業(yè)內(nèi)部或者企業(yè)間形成數(shù)據(jù)孤島問題，制約企業(yè)獲取數(shù)據(jù)價值。因此，保護(hù)隱私的AI技術(shù)的落地使用成為AI領(lǐng)域亟待實(shí)現(xiàn)的目標(biāo)。

保護(hù)隱私的AI主要通過數(shù)據(jù)加密、分布式計(jì)算、邊緣計(jì)算、機(jī)器學(xué)習(xí)等多種技術(shù)的結(jié)合來保護(hù)數(shù)據(jù)安全，近期比較熱門的有Differential Privacy（差分隱私）、FederatedLearning（聯(lián)邦學(xué)習(xí)，也叫聯(lián)盟學(xué)習(xí)、聯(lián)合學(xué)習(xí)、共享學(xué)習(xí)）。

保護(hù)隱私不是說不收集數(shù)據(jù)，而是要通過技術(shù)的手段防止個人隱私數(shù)據(jù)的泄露。差分隱私是一種數(shù)學(xué)技術(shù)，比如，假設(shè)要分析數(shù)據(jù)集并計(jì)算其統(tǒng)計(jì)數(shù)據(jù)（例如數(shù)據(jù)的平均值、方差、中位數(shù)、眾數(shù)等），如果通過查看輸出，我們無法分辨原始數(shù)據(jù)集中是否包含了任何個體的數(shù)據(jù)，那么這種算法就被稱為差異私有。

舉個非常簡單的例子，假設(shè)你的工作部門每個月都會用一個表格統(tǒng)計(jì)部門每個人的工資發(fā)放金額，除了制表人，別人無法查看這個表格，只能通過一個查詢函數(shù)S知道這個表的總額，某個月你調(diào)去了別的部門，那么別人就可以通過上個月表格A，和這個月表格B來知道你的工資，道理很簡單，只需用S（A）減去S（B）。B表格稱為A表格的相鄰數(shù)據(jù)集，它倆只相差一條數(shù)據(jù)，差分隱私技術(shù)就是要讓相鄰數(shù)據(jù)集的查詢結(jié)果差不多，從而無法推出個人的信息來，這個差不多的程度可以看作隱私保護(hù)的力度。蘋果和Facebook已經(jīng)使用這種方法來收集聚合數(shù)據(jù)，而不需要識別特定的用戶。MITTechnology Review將差分隱私技術(shù)列為2020全球十大突破性技術(shù)之一。

聯(lián)邦學(xué)習(xí)采用了分布式機(jī)器學(xué)習(xí)方法，近年來越來越受歡迎，該技術(shù)假設(shè)用戶數(shù)據(jù)不會被存儲到中心化的服務(wù)器，而是私有的、保密的，僅存儲在個人的邊緣設(shè)備上，比如手機(jī)，因此與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比，聯(lián)邦學(xué)習(xí)從根本上增強(qiáng)了用戶隱私。聯(lián)邦學(xué)習(xí)不依賴從用戶設(shè)備端收集的數(shù)據(jù)來訓(xùn)練，而是在用戶移動設(shè)備端訓(xùn)練AI模型，然后將訓(xùn)練得到的參數(shù)信息傳輸回一個全局模型，這個過程不需要用戶數(shù)據(jù)離開個人設(shè)備。

從近兩年在arXiv（一個提交論文預(yù)印版的平臺）上提交的論文數(shù)可以看出，該技術(shù)發(fā)展的快速趨勢：

巨頭的技術(shù)布局

從去年起全球流行的兩個機(jī)器學(xué)習(xí)框架，TensorFlow和PyTorch都增加了聯(lián)邦學(xué)習(xí)等解決方案來保護(hù)隱私。

（1）Google

聯(lián)邦學(xué)習(xí)的概念是由Google在2017年首次引入，去年又發(fā)布了TensorFlow Federated（TFF）框架，利用Tensorflow的機(jī)器學(xué)習(xí)框架簡化聯(lián)邦學(xué)習(xí)。

如下圖所示，基于TFF框架搭建的學(xué)習(xí)模型在眾多手機(jī)（如手機(jī)A）上進(jìn)行本地化模型訓(xùn)練，更新權(quán)重并聚合（步驟B），進(jìn)而更新提升后的全局模型（模型C），將全局模型再應(yīng)用到各手機(jī)終端來提升算法應(yīng)用效果。

（2）Facebook

為了在保護(hù)隱私的機(jī)器學(xué)習(xí)領(lǐng)域取得進(jìn)展，去年Facebook旗下的深度學(xué)習(xí)框架PyTorch與OpenMined宣布開發(fā)一個聯(lián)合平臺的計(jì)劃，以加速隱私保護(hù)技術(shù)的研究。

OpenMined是一個開源社區(qū)，專注于研究、開發(fā)和升級用于安全、保護(hù)隱私的AI工具。OpenMined發(fā)布了PySyft，是第一個用于構(gòu)建安全和隱私保護(hù)的開源聯(lián)邦學(xué)習(xí)框架。

PySyft很受歡迎，在Github已經(jīng)擁有5.2k個Star，目前支持在主要的深度學(xué)習(xí)框架（PyTorch、Tensorflow）中用聯(lián)邦學(xué)習(xí)、差分隱私和加密計(jì)算（如多方計(jì)算，同態(tài)加密），實(shí)現(xiàn)將隱私數(shù)據(jù)與模型訓(xùn)練解耦。

國內(nèi)發(fā)展現(xiàn)狀

國內(nèi)的AI巨頭們也早已開啟保護(hù)隱私的技術(shù)布局，特別是金融領(lǐng)域，金融領(lǐng)域由于監(jiān)管嚴(yán)格，數(shù)據(jù)的隱私性要求非常高，因此，金融機(jī)構(gòu)一方面在保護(hù)隱私數(shù)據(jù)方面面臨技術(shù)難題，另一方面由于金融數(shù)據(jù)的孤立性，“數(shù)據(jù)孤島”問題導(dǎo)致金融機(jī)構(gòu)無法發(fā)揮出數(shù)據(jù)的真正價值。

國內(nèi)多家金融機(jī)構(gòu)以及金融科技公司已經(jīng)嘗試在獲客、授信、風(fēng)險控制等方面，利用聯(lián)邦學(xué)習(xí)解決數(shù)據(jù)隱私的合規(guī)問題和數(shù)據(jù)分享的數(shù)據(jù)孤島問題，發(fā)揮金融數(shù)據(jù)價值。

目前國內(nèi)關(guān)于保護(hù)隱私的監(jiān)管還不夠成熟，個人和企業(yè)對于隱私保護(hù)的意識還不強(qiáng)。隨著全球環(huán)境中對保護(hù)隱私的關(guān)注逐漸加強(qiáng)，以及保護(hù)隱私的AI技術(shù)的發(fā)展，我相信AI技術(shù)終究會向著更好的方向發(fā)展，希望通過科學(xué)家們的努力，AI的黑盒不會是潘多拉之盒。