區(qū)塊鏈+隱私計算將帶來數(shù)據(jù)革命

時間：2020-06-04 09:33:01

關(guān)鍵字：加密技術(shù) 區(qū)塊鏈

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 在大數(shù)據(jù)時代背景下，數(shù)據(jù)的價值進一步得到了體現(xiàn)，因此科技公司往往比較關(guān)注數(shù)據(jù)的采集，由于數(shù)據(jù)的價值與數(shù)據(jù)維度有密切的關(guān)系，所以數(shù)據(jù)采集的維度也通常比較高，這也有可能會觸及到部分用戶的隱私，因此在

在大數(shù)據(jù)時代背景下，數(shù)據(jù)的價值進一步得到了體現(xiàn)，因此科技公司往往比較關(guān)注數(shù)據(jù)的采集，由于數(shù)據(jù)的價值與數(shù)據(jù)維度有密切的關(guān)系，所以數(shù)據(jù)采集的維度也通常比較高，這也有可能會觸及到部分用戶的隱私，因此在大數(shù)據(jù)時代，人們對于個人隱私數(shù)據(jù)也越來越關(guān)注。

根據(jù)IDC發(fā)布的數(shù)據(jù)，截止到2018年底，中國大數(shù)據(jù)解決方案市場軟硬服總額達到388.8億元人民幣，并有望在2023年超過800億元人民幣，全球市場則將超過3000億美元。在這種背景下，兼顧隱私保護和數(shù)據(jù)利用的計算方式就成為了企業(yè)和學(xué)界研究的重點，各國對于隱私數(shù)據(jù)的監(jiān)管越嚴(yán)厲，隱私計算行業(yè)的發(fā)展前景就越大。

一、隱私計算的概念

隱私計算的概念最早是在2016年提出的，隱私計算是面向隱私信息全生命周期保護的計算理論和方法，是隱私信息的所有權(quán)、管理權(quán)和使用權(quán)分離時隱私度量、隱私泄漏代價、隱私保護與隱私分析復(fù)雜性的可計算模型與公理化系統(tǒng)。隱私計算涵蓋了信息搜集者、發(fā)布者和使用者在信息產(chǎn)生、感知、發(fā)布、傳播、存儲、處理、使用、銷毀等全生命周期過程的所有計算操作，并包含支持海量用戶、高并發(fā)、高效能隱私保護的系統(tǒng)設(shè)計理論與架構(gòu)。簡單來說，隱私計算是從數(shù)據(jù)的產(chǎn)生、收集、保存、分析、利用、銷毀等環(huán)節(jié)中對隱私進行保護的方法。

二、隱私計算的三大矛盾

隱私數(shù)據(jù)的處理過程當(dāng)中還面臨著三個內(nèi)部矛盾：安全、效率、數(shù)據(jù)孤島。

安全方面，目前的大數(shù)據(jù)行業(yè)主要依托于可信第三方的計算服務(wù)。這些第三方包括主要應(yīng)用于科研領(lǐng)域的超算中心和主要應(yīng)用于商業(yè)領(lǐng)域的數(shù)據(jù)中心。大數(shù)據(jù)行業(yè)的高性能、高投入需求讓規(guī)?；⒓谢倪\算成為了市場主流，2011年起，我國規(guī)劃建設(shè)了255個數(shù)據(jù)中心，總設(shè)計服務(wù)器規(guī)模728萬臺，承擔(dān)了我國大部分民用數(shù)據(jù)的計算服務(wù)。但這些集中化、規(guī)?；臄?shù)據(jù)中心可能出現(xiàn)問題也并非危言聳聽：就在今年2月，由于阿里云代碼托管平臺的項目權(quán)限設(shè)置存在歧義，導(dǎo)致開發(fā)者操作失誤，造成至少40家以上企業(yè)的200多個項目代碼泄露，其中涉及到萬科集團、咪咕音樂、51信用卡旗下51足跡、百度無人車合作伙伴ecarx等知名企業(yè)。

效率方面，在隱私信息的生命周期中，受益于密碼學(xué)發(fā)展，隱私的加密化、匿名化和脫敏技術(shù)都已經(jīng)非常成熟，可以大規(guī)模應(yīng)用在隱私獲取、儲存、流轉(zhuǎn)等環(huán)節(jié)中。但大數(shù)據(jù)時代的到來，讓隱私數(shù)據(jù)的處理成為了一個難題：大規(guī)模的加密數(shù)據(jù)處理一定會導(dǎo)致計算性能下降，而非加密數(shù)據(jù)處理又極大概率會導(dǎo)致隱私信息的泄露。

數(shù)據(jù)孤島是指的是數(shù)據(jù)被保存在無法自由流動的環(huán)境之下，互相獨立存儲、獨立維護。數(shù)據(jù)被視為數(shù)字時代的石油，每家企業(yè)都想守著自己的數(shù)據(jù)挖掘出巨大的商業(yè)價值。甚至數(shù)據(jù)隱私本身的保護服務(wù)，就蘊藏著商業(yè)利潤。Gartner就預(yù)測2019年全球消費者安全軟件支出將達到66億美元。至于各地的政府部門本身，由于責(zé)任邊界、數(shù)據(jù)共享的技術(shù)條件等問題，也缺乏足夠的動力來推動。

以醫(yī)院的病歷數(shù)據(jù)舉例，隨著信息化的推進醫(yī)院已經(jīng)積累了許多臨床醫(yī)療的數(shù)據(jù)。如果這些數(shù)據(jù)可以開放出來，被制藥公司、學(xué)術(shù)機構(gòu)進行研究，可以幫助我們更好地探索疾病和治療手段。然而，由于隱私保護的原因，醫(yī)院并不會這樣做。一方面，它不具備足夠的技術(shù)手段，將大量的患者信息以一種較為安全的途徑傳遞出去。其次，它也無法保證外部機構(gòu)在拿到這些數(shù)據(jù)后，會對它們做些什么。畢竟，病歷信息屬于個人隱私，誰都不想別人知道自己得了什么病。這聽上去很合理，卻是一種巨大的浪費。

三、當(dāng)隱私計算遇上區(qū)塊鏈技術(shù)

隱私計算雖然是近幾年隨著大數(shù)據(jù)技術(shù)的高速發(fā)展而出現(xiàn)的新概念，但其核心理念卻是隨著互聯(lián)網(wǎng)誕生就出現(xiàn)的：可信計算（Trusted Computing）由TCPA（可信賴運算平臺聯(lián)盟，Trusted CompuTIng Platform Alliance）提出，這個術(shù)語來源于可信系統(tǒng)，并且有其特定含義：如果一個實體的行為總是按照預(yù)期的方式和目標(biāo)進行，那它就是可信的。其主要思路是在計算機硬件平臺上引入安全芯片架構(gòu)，通過提供的安全特性來提高終端系統(tǒng)的安全性。

可信計算的反對者們認為這項技術(shù)“太中心化”了。區(qū)塊鏈技術(shù)適用于解決信任問題，這也是區(qū)塊鏈技術(shù)天生適合隱私計算的主要原因。雖然區(qū)塊鏈能夠解決信任的問題，但其他問題依然存在：區(qū)塊鏈的公開透明和全節(jié)點驗證，數(shù)據(jù)將流經(jīng)區(qū)塊鏈上的每個全節(jié)點，使其無法很好的處理隱私數(shù)據(jù)，大數(shù)據(jù)應(yīng)用的迅猛發(fā)展對隱私保護服務(wù)請求的用戶容量、并發(fā)程度和能效優(yōu)化提出了極高的要求。在這個過程當(dāng)中，明文大數(shù)據(jù)分析會導(dǎo)致隱私泄露，而將數(shù)據(jù)加密之后，大規(guī)模數(shù)據(jù)密態(tài)化又會極大的影響分析效率。

四、Layer-2 隱私計算的破局法則

區(qū)塊鏈行業(yè)中 Layer-2 的關(guān)鍵特征是計算被移除至鏈下，以實現(xiàn)隱私或節(jié)省計算資源的目的。大數(shù)據(jù)行業(yè)中的計算一直有巨規(guī)模、多樣化、高增速的特征，將所有數(shù)據(jù)上鏈進行計算，一方面讓儲存、通信成本急劇上升，另一方面也使隱私銷毀無法實現(xiàn)。因此，Layer-2 隱私計算的特征是，鏈上僅僅作為賬本，對數(shù)據(jù)資產(chǎn)實現(xiàn)確權(quán)和記錄，實際上的計算全部發(fā)生在鏈下。鏈下計算的過程中，為避免數(shù)據(jù)泄露，計算過程往往會發(fā)生在 TEE（可信硬件）中，或采用 MPC 的方式進行計算。

基于 TEE（可信硬件）的可信計算協(xié)議（Trusted CompuTIng Protocol，簡稱 TCP）?？尚艌?zhí)行環(huán)境（TEE）是 Global Platform （GP）提出的概念。是移動設(shè)備主處理器上的一個安全區(qū)域，其可以保證加載到該環(huán)境內(nèi)部的代碼和數(shù)據(jù)的安全性、機密性以及完整性。TEE 提供一個隔離的執(zhí)行環(huán)境，提供的安全特征包含：隔離執(zhí)行、可信應(yīng)用的完整性、可信數(shù)據(jù)的機密性、安全存儲等。該技術(shù)的核心是企業(yè)和個人可以把數(shù)據(jù)處理模型部署在區(qū)塊鏈上，在鏈下，例如 Intel SGX 可信執(zhí)行環(huán)境中處理隱私數(shù)據(jù)，最終把可驗證結(jié)果存儲到鏈上并更新狀態(tài)。

基于 MPC（安全多方計算，Secure MulTI-Party ComputaTIon）的方式。MPC是一種在無可信第三方的情況下，安全地計算一個約定函數(shù)的方式，計算參與方只需參與計算協(xié)議，無需依賴第三方就能完成數(shù)據(jù)計算，并且各參與方拿到計算結(jié)果后也無法推斷出原始數(shù)據(jù)。MPC當(dāng)前問題主要在于性能和效率，大部分現(xiàn)有的Demo實現(xiàn)都是基于semi-honest模型，更強的malicious-security模型性能極差；另外MPC是交互式的，即多輪迭代，導(dǎo)致大量網(wǎng)絡(luò)帶寬的需求，同時需要OT，會對性能造成很大影響。

就基于 TEE 方案的項目而言，由于所有計算過程都在鏈下的可信任環(huán)境中，所以不存在密態(tài)數(shù)據(jù)的計算效率問題：加密數(shù)據(jù)進入可信硬件中進行解密、計算、加密，最終得到加密數(shù)據(jù)，形成一個黑箱，在保證安全的同時保證了效率。

五、區(qū)塊鏈+隱私計算帶來的數(shù)據(jù)革命

過去人們的隱私信息被嚴(yán)重泄露，主要原因還是信息保管方式不當(dāng)，比如學(xué)校，公司，賓館，招聘網(wǎng)站，旅游景點等，這些地方不斷地要你填寫你的各種信息，但是又不好好保管。

有了隱私計算+區(qū)塊鏈技術(shù)就不一樣了。你可以選擇把你的信息以加密方式都存在區(qū)塊鏈上，當(dāng)你需要用你的信息去填各種表格的時候，可以直接用加密方式提供。對方拿到了加密后的個人信息，可以直接拿到區(qū)塊鏈上去驗證。這樣對方既可以確保你信息的真實性又免于了直接拿到你的信息。

舉個例子：你叫李紅，身份證號是 310101199708311528，人長得溫婉可人。你存在區(qū)塊鏈上的信息可能成為了 il99dskkdsf3234dsfs9893jdsjjadsf 等一串長長的密文，人臉像也被哈希加密。當(dāng)你入住酒店的時候，你無需出示你的身份證，只需要把密文 il99dskkdsf3234dsfs9893jdsjjadsf 發(fā)給需要你信息的酒店，秘鑰只有你自己知道。酒店可以通過智能AI對你進行人臉識別，然后你的數(shù)據(jù)會在一個可信的計算環(huán)境中和你鏈上的加密人臉數(shù)據(jù)進行比對，確定你的入住身份。同時也會比較你的身份密文數(shù)據(jù)和公安系統(tǒng)通緝要犯庫中的數(shù)據(jù)密文，如果匹配不成功，那么你就 OK 了，可以入住。整個過程中，酒店方不會知道你的姓名和住址，但是又能夠確認是你本人，而且不是通緝要犯，沒用假身份證，讓你可以辦理入住。

除此之外，現(xiàn)在進入到了大數(shù)據(jù)和人工智那能時代。很多大數(shù)據(jù)需要用用戶的各種信息來統(tǒng)計，人工智能也要用用戶信息來訓(xùn)練。你也可以有選擇地賣出你的部分個人信息，作為回報。大數(shù)據(jù)公司和人工智能訓(xùn)練實驗室會付給你相應(yīng)的價格作為回報。

再舉個例子，某家電商想用用戶數(shù)據(jù)做一個推薦算法，又沒辦法拿到淘寶或者京東的用戶數(shù)據(jù)。直接買，又擔(dān)心有人刷單薅羊毛。但是如果接入了區(qū)塊鏈。那我可以只賣出我的淘寶購物數(shù)據(jù)和京東購物數(shù)據(jù)，而不提供出我的快遞地址，姓名，支付寶號等。因為都記在區(qū)塊鏈上，我既沒法辦法把相同數(shù)據(jù)賣給這家電商兩次，又沒法賣給電商假數(shù)據(jù)。作為回報，店家給我支付酬勞，并且獲了真正的數(shù)據(jù)來幫助他自己完善算法，一舉兩得。

每個人的隱私信息被保護地更好了，而且獲得了收益。但是同時，公司和機構(gòu)又得到了更精準(zhǔn)，更有效的消息。這就是隱私計算+區(qū)塊鏈的魅力。